【python – Pandas合并错误TypeError:’>’和’str’实例之间不支持’>’】教程文章相关的互联网学习教程文章

Python pandas使用滚动应用于矢量化方式的groupby对象来计算机动车辆beta【代码】

我有一个包含4列的大型数据框df:id period ret_1m mkt_ret_1m 131146 CAN00WG0 199609 -0.1538 0.047104 133530 CAN00WG0 199610 -0.0455 -0.014143 135913 CAN00WG0 199611 0.0000 0.040926 138334 CAN00WG0 199612 0.2952 0.008723 140794 CAN00WG0 199701 -0.0257 0.039916 143274 CAN00WG0 199702 -0.0038 -0.025442 145754 ...

python – pandas中两个数据帧之间的差异【代码】

我有两个数据帧,它们都具有相同的基本架构. (4个日期字段,几个字符串字段和4-5个浮点字段).称他们为df1和df2. 我想要做的是基本上得到两者的“差异” – 我在那里找回两个数据帧之间没有共享的所有行(不在集合交集中).注意,两个数据帧的长度不必相同. 我尝试使用pandas.merge(how =’outer’),但我不确定要传递哪个列作为’key’,因为实际上没有一个,我试过的各种组合都不起作用. df1或df2可能有两个(或更多)相同的行. 在pandas / ...

python – pandas在Series和return关键字中查找共同的字符串【代码】

我想基于一系列关键字改进this previous question关于在pandas系列中搜索字符串的改进.我现在的问题是如何将DataFrame行中找到的关键字作为新列.关键词系列“w”是:Skilful Wilful Somewhere Thing Strange和DataFrame“df”是:User_ID;Tweet 01;hi all 02;see you somewhere 03;So weird 04;hi all :-) 05;next big thing 06;how can i say no? 07;so strange 08;not at all以下解决方案适用于屏蔽DataFrame:import re r = re....

python – 将JSON API响应转换为pandas Dataframe【代码】

我正在努力将JSON API响应转换为pandas Dataframe对象.我已经阅读了类似问题/文档的答案,但没有任何帮助.我最接近的尝试如下:r = requests.get('https://api.xxx') data = r.text df = pd.read_json(data, orient='records')返回以下格式:0 {'type': 'bid', 'price': 6.193e-05, ...},1 {'type': 'bid', 'price': 6.194e-05, ...},3 {'type': 'bid', 'price': 6.149e-05, ...} etc数据的原始格式为:{'abc': [{'type': ...

python – 基于索引的Pandas Dataframe Mask【代码】

我有以下数据帧:import pandas as pd index = pd.date_range('2013-1-1',periods=10,freq='15Min') data = pd.DataFrame(data=[1,2,3,4,5,6,7,8,9,0], columns=['value'], index=index)如何根据索引值生成掩码?我知道我可以这样做:data['value'] > 3 Out[40]: 2013-01-01 00:00:00 False 2013-01-01 00:15:00 False 2013-01-01 00:30:00 False 2013-01-01 00:45:00 True 2013-01-01 01:00:00 True 2013-01-01...

python – 我怎么能检测pandas对象列中的子类型?【代码】

我有下一个DataFrame:df = pd.DataFrame({'a': [100, 3,4], 'b': [20.1, 2.3,45.3], 'c': [datetime.time(23,52), 30,1.00]})如果可能的话,我想在没有显式编程循环的情况下检测列中的子类型. 我正在寻找下一个输出:column a = [int] column b = [float] column c = [datetime.time, int, float]解决方法:你应该意识到,使用Pandas,你可以拥有两大类系列: >优化结构:通常是数字数据,包括np.datetime64和bool.> object dtype:用于...

Pandas(Python) – 从条件更新另一个数据框的列【代码】

我有一个问题,我找到了一个解决方案,但我觉得这是错误的方法.也许,有一种更“规范”的方式来做到这一点. 问题 我有两个数据框,我想合并,没有额外的列,也没有删除现有的信息.示例: 现有数据帧(df)A A2 B 0 1 4 0 1 2 5 1要合并的数据帧(df2)A A2 B 0 1 4 2 1 3 5 2如果列’A’和’A2’对应,我想用df2更新df.结果将是(:A A2 B 0 1 4 2.0 <= Update value ONLY 1 2 5 1.0这是我的解决方案,但我认为...

python – 以字符串元组作为索引的Pandas DataFrame【代码】

我在这里感觉到一些奇怪的熊猫行为.我有一个看起来像的数据框df = pd.DataFrame(columns=['Col 1', 'Col 2', 'Col 3'],index=[('1', 'a'), ('2', 'a'), ('1', 'b'), ('2', 'b')])In [14]: df Out[14]:Col 1 Col 2 Col 3 (1, a) NaN NaN NaN (2, a) NaN NaN NaN (1, b) NaN NaN NaN (2, b) NaN NaN NaN我可以设置任意元素的值In [15]: df['Col 2'].loc[('1', 'b')] = 6In [16]: df Out[16]:Col 1 Col 2 Col...

python – 在pandas / numpy中将逻辑值与NaN进行比较【代码】

我想对两个pandas系列的布尔值进行逐元素的OR运算. np.nans也包括在内. 我尝试了三种方法,并意识到表达式“np.nan或False”可以根据方法计算为True,False和np.nan. 这些是我的例子系列:series_1 = pd.Series([True, False, np.nan]) series_2 = pd.Series([False, False, False])方法#1 使用|大熊猫的经营者:In [5]: series_1 | series_2 Out[5]: 0 True 1 False 2 False dtype: bool方法#2 使用numpy中的logical_or函...

使用python pandas中数据框中的选定列为每行数据创建哈希值【代码】

我在R中询问了similar question关于为每行数据创建哈希值的问题.我知道我可以使用hashlib.md5(b’Hello World’).hexdigest()来散列字符串,但数据帧中的行怎么样? 更新01 我已经起草了如下代码:for index, row in course_staff_df.iterrows():temp_df.loc[index,'hash'] = hashlib.md5(str(row[['cola','colb']].values)).hexdigest()对我来说这似乎不是很pythonic,任何更好的解决方案?解决方法:或者干脆:df.apply(lambda x: h...

python – 组多索引pandas数据帧【代码】

是否可以通过多索引级别之一对多索引(2级)pandas数据帧进行分组? 我知道这样做的唯一方法是在multiindex上reset_index,然后再次设置索引.我相信有更好的方法可以做到,我想知道如何做.解决方法:是的,使用level参数.看看here.示例:In [26]: sfirst second third bar doo one 0.404705two 0.577046 baz bee one -1.715002two -1.039268 foo bop one -0.370647two -1.157892 qux ...

python – 对pandas数据帧中的每一行进行排序的最快方法【代码】

我需要找到最快的方法来对数据帧中的每一行进行排序,其中包含数百万行和大约一百列. 所以像这样:A B C D 3 4 8 1 9 2 7 2需要成为:A B C D 8 4 3 1 9 7 2 2现在我正在对每一行应用sort并逐行构建一个新的数据帧.我也在为每一行做一些额外的,不太重要的事情(因此我为什么要使用熊猫而不是numpy).是否可以更快地创建列表列表,然后立即构建新的数据帧?或者我需要去cython吗?解决方法:我想我会...

python – 如何在pandas dataframe列中选择一系列值?【代码】

import pandas as pd import numpy as np data = 'filename.csv' df = pd.DataFrame(data) df one two three four five a 0.469112 -0.282863 -1.509059 bar True b 0.932424 1.224234 7.823421 bar False c -1.135632 1.212112 -0.173215 bar False d 0.232424 2.342112 0.982342 unbar True e 0.119209 -1.044236 -0.861849 bar True f -2.104569 -0.494929 1.071804 bar False我想为某一列...

python – Pandas DataFrame合并求和列【代码】

我正在尝试合并两个DataFrames求和列值. DF1id name weight 1 A 02 B 103 C 10DF2id name weight 2 B 153 C 10我需要在合并期间对公共列中的类似值求和权重值.merge = pd.merge(df1,df2, how='inner')所以输出将如下所示.id name weight 2 B 253 ...

python – pandas shift将我的列从integer转换为float.【代码】

shift将我的列从整数转换为float.事实证明,np.nan只是浮动的.有没有办法将移位列保持为整数?df = pd.DataFrame({"a":range(5)}) df['b'] = df['a'].shift(1)df['a'] # 0 0 # 1 1 # 2 2 # 3 3 # 4 4 # Name: a, dtype: int64df['b']# 0 NaN # 1 0 # 2 1 # 3 2 # 4 3 # Name: b, dtype: float64解决方法:问题是你得到NaN值是什么是浮点数,所以int转换为浮点数 – 见na type promotions. 一种可能的...