【python – 复制一些行并更改pandas中的某些值】教程文章相关的互联网学习教程文章

python – 在Pandas中合并2个数据帧:加入一些列,总结其他列【代码】

我想合并特定列(key1,key2)上的两个数据帧,并总结另一列(值)的值.>>> df1 = pd.DataFrame({'key1': range(4), 'key2': range(4), 'value': range(4)})key1 key2 value 0 0 0 0 1 1 1 1 2 2 2 2 3 3 3 3>>> df2 = pd.DataFrame({'key1': range(2, 6), 'key2': range(2, 6), 'noise': range(2, 6), 'value': range(10, 14)})key1 key2 noise value 0 2 2 2 ...

python – Pandas在读取制表符分隔的数据时似乎忽略了第一个列名,给出了KeyError【代码】

我在Ubuntu 13.10上的ipython3中使用pandas 0.12.0,以便在txt文件中拼写大的制表符分隔数据集.使用read_table从txt创建DataFrame似乎工作,第一行作为标题读取,但尝试使用其名称作为索引访问第一列会引发KeyError.我不明白为什么会发生这种情况,因为列名都显示已正确读取,并且每个其他列都可以这种方式编入索引. 数据如下所示:RECORDING_SESSION_LABEL LEFT_GAZE_X LEFT_GAZE_Y RIGHT_GAZE_X RIGHT_GAZE_Y VIDEO_FRAME_INDEX...

python – Pandas按时间分组并指定开始时间【代码】

– 编辑我注意到我输入的时间不是我想要的.我将12点之后的时间转换为24小时时间约定.但是,unutbu的答案应该仍然清楚.– 第二次编辑.我改变了数据以做出更好的例子. 以下是按日期索引的时间序列.我想从start_datetime开始进行聚合,并根据下面的timedelta(9.5小时= 34200秒)继续聚合.def main():# start_datetime = datetime.datetime(2013, 1, 1, 8)# end_datetime = datetime.datetime(2013, 1, 1, 5, 30)s = pd.Series(np.arange(...

python – 我可以使用rpy2将pandas数据帧保存到.Rdata文件吗?【代码】

我之前从未使用过rpy2,但我只是想知道是否可以用它来保存R-readable文件中的python对象(一个pandas DataFrame).我在这些环境之间移动对象时遇到了麻烦,主要是因为我使用的是Windows而且数据源是Excel文件.是的,包含带有文本的单元格的类型,包括引号,换行符以及CSV无法充分处理的所有内容. 我通常依赖XLConnectJars,但它似乎被打破了Installing package(s) into ‘C:/Program Files/R/library’ (as ‘lib’ is unspecified) trying...

python – Pandas drop函数在for循环中不起作用?【代码】

所有!我对此非常困惑,因为我的生活无法弄清楚错误.我试图浏览数据框中的所有字符串并删除那些不包含字符串’Barry Bonds’的字符串. 到目前为止,我已经设法能够通过索引删除行:bb_db.drop(bb_db.index[1])这是成功删除该索引处的行,但是当我将其抛入此for循环时:for i in range(len(bb_db)):if 'Barry Bonds' in bb_db['player_names'][i]:bb_db.drop(bb_db.index[i])print (i)我获得了整个数据帧,即使i变量打印出大量索引,if语...

python – Pandas Dataframe:根据地理坐标(经度和纬度)连接范围内的项目【代码】

我有一个包含纬度和经度的地方的数据框.想象一下,例如城市.df = pd.DataFrame([{'city':"Berlin", 'lat':52.5243700, 'lng':13.4105300},{'city':"Potsdam", 'lat':52.3988600, 'lng':13.0656600},{'city':"Hamburg", 'lat':53.5753200, 'lng':10.0153400}]);现在我试图让所有城市都在另一个城市的半径范围内.假设距离柏林500公里,距汉堡500公里等所有城市.我会通过复制原始数据帧并使用距离函数连接来完成此操作. 中间结果有点像这...

python – 将一个for循环应用于Pandas中的多个DataFrame【代码】

我有多个DataFrames,我想做同样的事情. 首先,我创建一个DataFrame列表.所有这些都有相同的列名为’result’.df_list = [df1,df2,df3]我想只保留所有DataFrame中的行’pass’,所以我在列表中使用for循环:for df in df_list:df =df[df['result'] == 'passed']…这不起作用,不会从每个DataFrame中过滤掉这些值. 如果我分别过滤每一个,那么它确实有效.df1 =df1[df1['result'] == 'passed'] df2 =df2[df2['result'] == 'passed'] df3 =...

python – Pandas groupby多列,多列列表【代码】

我有以下数据:Invoice NoStockCode Description Quantity CustomerID Country 536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 6 17850 United Kingdom 536365 71053 WHITE METAL LANTERN 6 17850 United Kingdom 536365 84406B CREAM CUPID HEARTS COAT HANGER 8 17850 United Kingdom我正在尝试做一...

python – 模块’pandas’没有属性’read_csv【代码】

import pandas as pddf = pd.read_csv('FBI-CRIME11.csv')print(df.head())运行这个简单的代码给我错误:Traceback (most recent call last):File "C:/Users/Dita/Desktop/python/lessons/python.data/csv.py", line 1, in <module>import pandas as pdFile "C:\python\lib\site-packages\pandas-0.19.1-py3.5-win-amd64.egg\pandas\__init__.py", line 37, in <module>import pandas.core.config_initFile "C:\python\lib\site-pa...

python – 向pandas DataFrame添加一个包含列的方法【代码】

我有一个pandas DataFrame,包含一些随时间推移的传感器读数,如下所示:diode1 diode2 diode3 diode4 Time 0.530 7 0 10 16 1.218 17 7 14 19 1.895 13 8 16 17 2.570 8 2 16 17 3.240 14 8 17 19 3.910 13 6 17 18 4.594 13 5 16 19 5.265 9 0 12 ...

python – 计算pandas数据框中逐列的出现次数【代码】

我有一个pandas数据框我想计算一个数字出现在每列的列中的频率a b c d e 0 2 3 1 5 4 1 1 3 2 5 4 2 1 3 2 5 4 3 2 4 1 5 3 4 2 4 1 5 3这是我的代码不起作用def equalsOne(x):x[x.columns == 1].sum()df1.apply(equalOne(), axis = 1)这是所需的输出a 2 b 0 c 3 d 0 e 0 解决方法:你可以做:(df==1).sum()df == 1给出:a b c d e 0 False ...

如何使用正则表达式删除python pandas DataFrame中的行?【代码】

我有一个模式:patternDel = "( \\((MoM|QoQ)\\))";我想删除pandas dataframe中的所有行,其中列df [‘Event Name’]匹配此模式.这是最好的方法吗?数据帧中有超过100k行.解决方法:str.contains()返回一系列布尔值,我们可以使用它来索引我们的帧patternDel = "( \\((MoM|QoQ)\\))" filter = df['Event Name'].str.contains(patternDel)我倾向于保留我们想要的东西而不是删除行.由于filter表示我们要删除的内容,因此我们使用?来获取所...

python – Pandas Groupby应用函数来计算大于零的值【代码】

Pandas Groupby应用函数来计算大于零的值 我以下列方式使用groupby和agg:df.groupby('group')['a'].agg({'mean' : np.mean, 'std' : np.std})我想在同一列[‘a’]中计算零以上的值 以下行按我的意愿计算,sum(x > 0 for x in df['a'])但是在申请groupby时我无法正常工作. 下面是一个将pandas计算应用于groupby的示例,我尝试过:df.groupby('group')['a'].apply(sum(x > 0 for x in df['a']))但是我收到一条错误消息:AttributeErro...

python – 在matplotlib图中使用Pandas数据帧索引作为x轴的值【代码】

我在Pandas日期框架中有时间序列,其中包含许多我想要绘制的列.有没有办法将x轴设置为始终使用日期帧中的索引?当我使用Pandas的.plot()方法时,x轴格式正确,但是当我传递日期和列时,我想直接绘制到matplotlib,图表没有正确绘制.提前致谢.plt.plot(site2.index.values, site2['Cl']) plt.show()仅供参考:site2.index.values产生了这个(我为了简洁而剪掉了中间部分):array(['1987-07-25T12:30:00.000000000+0200','1987-07-25T16:30...

python – 在pandas中提取数据帧的第一行和最后一行【代码】

如何将给定数据帧的第一行和最后一行作为pandas中的新数据帧提取? 我试图使用iloc选择所需的行,然后连接,如下所示:df=pd.DataFrame({'a':range(1,5), 'b':['a','b','c','d']}) pd.concat([df.iloc[0,:], df.iloc[-1,:]])但是这不会产生一个熊猫数据帧:a 1 b a a 4 b d dtype: object解决方法:我认为最简单的方法是.iloc [[0,-1]].df = pd.DataFrame({'a':range(1,5), 'b':['a','b','c','d']}) df2 = df.iloc[[0, -1...