【python – 扩展由pandas中的多个列分组的平均值】教程文章相关的互联网学习教程文章

在Pandas Python中理解数据框以创建新的数据框【代码】

我对Pandas来说还很陌生,但是我想根据名称是Mel的条件,从另一个数据库创建一个数据框.看来我的新数据框只是唯一的旧指针(基于打印出来的索引号). 我本质上是在寻找与之等效的东西:BabyDataSet = [['Bob', 968], ['Jessica', 155], ['Mary', 77], ['John', 578], ['Mel', 973]] filtered_list = [x for x in BabyDataSet if x[0] == 'Mel'] print filtered_list df = pd.DataFrame(data=filtered_list, columns=['Names', 'Births'...

Python 3.4:Pandas DataFrame不响应有序字典【代码】

我正在使用有序词典填充DataFrame,但是pandas DataFrame是按字母顺序组织列. 码labels = income_data[0:-1:4]year1 = income_data[1:-1:4]key = eachTickervalue = OrderedDict(zip(labels, year1))full_dict[key] = valuedf = pd.DataFrame(full_dict)print(df)如您所见,full_dict是来自多个列表的压缩字典,即:标签和year1 full_dict的输出print(full_dict) OrderedDict([('AAPL', OrderedDict([('Total Revenue', 182795000), (...

python-按行中的值选择pandas数据框中的列【代码】

我有一个pandas.DataFrame列太多.我想选择行中的值等于0和1的所有列.所有列的类型为int64,因此无法按对象或其他类型选择它们.我怎样才能做到这一点?解决方法:IIUC然后可以使用isin并过滤列:In [169]: df = pd.DataFrame({'a':[0,1,1,0], 'b':list('abcd'), 'c':[1,2,3,4]}) dfOut[169]:a b c 0 0 a 1 1 1 b 2 2 1 c 3 3 0 d 4In [174]: df[df.columns[df.isin([0,1]).all()]]Out[174]:a 0 0 1 1 2 1 3 0内部条...

python-如果日期不是工作日,Pandas将DatetimeIndex偏移到下一个业务【代码】

我有一个与月的最后一天索引的DataFrame.有时这个日期是工作日,有时是周末.忽略假期,如果日期在周末,我希望将日期偏移到下一个营业日,如果已经在工作日,则将结果保持不变. 一些示例数据将是import pandas as pd idx = [pd.to_datetime('20150430'), pd.to_datetime('20150531'), pd.to_datetime('20150630')] df = pd.DataFrame(0, index=idx, columns=['A']) dfA 2015-04-30 0 2015-05-31 0 2015-06-30 0df.index.weekday arra...

根据python pandas中的行值合并两个数据框【代码】

我在熊猫中有两个数据框,如下所示:df1: df2:Column1 Column2 Column3 ColumnA ColumnB ColumnC0 a x x 0 c y y1 c x x 1 e z z2 e x x 2 a s s3 d x x 3 d f f我现在想要做的是将Column1与Col...

python-如何比较pandas groupby对象的列值并将其汇总到新的列行中【代码】

我有以下问题:我想在数据框中创建一列,以汇总一行中的所有值.然后,我想比较该列的行以创建包含所有列中所有值的单个行,但是每个值仅出现一次.例如:我有以下数据框df1:Column1 Column2 0 a 1,2,3 1 a 1,4,5 2 b 7,1,5 3 c 8,9 4 b 7,3,5现在所需的输出将是:df1_new:Column1 Column2 0 a 1,2,3,4,5 1 b 1,3,5,7 2 c 8,9我目前正在尝试的是result = df1.groupby(‘Column1’...

python-在pandas数据框中堆叠列以实现记录格式【代码】

我有一个数据框,第一列是国家/地区名称,接下来的12列是年度gdp数字(列标题为“ 1999”,“ 2000”,“ 2001”等):import pandas as pd gdp = pd.read_csv('gdp.csv') gdp.head()Country Name 1999 2000 2001 2002 2003 0 Aruba 1722798883 1873452514 1920262570 1941094972 2021301676 1 Andorra 1239840270 1401694156 1484004617 1717563533 2373836214 2 Af...

python-Pandas Groupby-命名聚合输出列【代码】

我有一个如下的pandas groupby命令:df.groupby(['year', 'month'], as_index=False).agg({'users':sum})有什么办法可以在groupby命令中将agg输出命名为’users’以外的名称?例如,如果我希望用户总数为total_users怎么办?我可以在groupby完成后重命名该列,但想知道是否还有另一种方法.解决方法:每docs:If a dict is passed, the keys will be used to name the columns.Otherwise the function’s name (stored in the function...

python-如何更正Pandas DataFrame中的拼写【代码】

使用TextBlob库,可以通过先将字符串定义为TextBlob对象,然后再使用正确的方法来改善字符串的拼写. 例:from textblob import TextBlob data = TextBlob('Two raods diverrged in a yullow waod and surry I culd not travl bouth') print (data.correct()) Two roads diverged in a yellow wood and sorry I could not travel both是否可以对像这样的Pandas DataFrame系列中的字符串执行此操作:data = [{'one': '3', 'two': 'two ...

python-需要在Pandas groupby中以特定格式输出【代码】

我在数据集上运行了以下命令:data.groupby(['month', 'item'])['date'].median()输出如下:month item 2014-11 call 107data 29sms 94 2014-12 call 79data 30sms 48但是,我需要这样的输出:month item2014-11 call 1072014-11 data 292014-11 sms 942014-12 call 792014-11 data 302014-11 sms 48我可以用什么来达到上述目的?解决方法:从您的问题尚不清楚,您希...

python pandas数据框上的条件总和被分组在多列上【代码】

为了说明我的问题,我有一个示例数据框df = pd.DataFrame({'key1': [0, 0, 0, 0, 1, 1, 1, 1, 1, 1], 'key2': ['a', 'b', 'b', 'c', 'a', 'a', 'a', 'b', 'b', 'c'], 'key3': [10, 5, 15, 10, 5, 10, 20, 10, 20, 5], 'zdata': [2, 4, 2, 4, 3, 5, 6, 5, 5, 6]})什么时候df1 = df.groupby(['key1', 'key2', 'key3']) df1 = df1.agg({'zdata' : [np.mean]})产生zdatamean key1 key2 key3 0 a 10 2b 5 4...

在python pandas循环中将大数据框中的许多子数据框合并【代码】

我的程序将生成许多小的数据帧,例如下面的Column_A Column_Brow1 1 2Column_A Column_Brow2 3 4Column_C Column_Drow1 5 6Column_C Column_Drow2 7 8我希望它们合并为Column_A Column_B Column_C Column_Drow1 1 2 5 6row2 3 4 7 8当数据帧需要一次合并一个时,该怎么做.生成较小数据帧的...

将多列合并为1列[python,pandas]

我有2列的pandas数据框:{‘A’:[1,2,3],’B’:[4,5,6]} 我想在其中创建一个新列:{‘C’:[1 4,2 5,3 6]}解决方法:如果您不介意zip对象,则可以使用f [‘C’] = zip(df.A,df.B).如果您喜欢元组,则可以使用list()转换zip对象.请参考此post.在这种情况下使用zip非常方便.

python-重新排列pandas DataFrame的列,以使总数最高的列排在第一【代码】

我有这个DataFrame:df = pd.DataFrame({'c1':[1,2,3,4],'c2':[2,4,5,6],'c3':[5,7,9,10],'c4':[-1,3,1,0],'c5':[100,1000,1,2]}) dfc1 c2 c3 c4 c5 0 1 2 5 -1 100 1 2 4 7 3 1000 2 3 5 9 1 1 3 4 6 10 0 2我不知道该怎么办,就是快速对列进行排序,以便总c5最高的列排在最前面,然后是c3,c2,c1和c4:c1 c2 c3 c4 c5 0 1 2 5 -1 100 1 2 4 7 3 1000 2 3 5 ...

Python Pandas-构造多元数据透视表以显示NaN和非NaN的计数【代码】

我有一个基于不同气象站的数据集,其中包含多个变量(温度,压力等),stationID | Time | Temperature | Pressure |... ----------+------+-------------+----------+ 123 | 1 | 30 | 1010.5 | 123 | 2 | 31 | 1009.0 | 202 | 1 | 24 | NaN | 202 | 2 | 24.3 | NaN | 202 | 3 | NaN | 1000.3 | ...并且我想创建一个数据透...

分组 - 相关标签