【python-如何比较pandas groupby对象的列值并将其汇总到新的列行中】教程文章相关的互联网学习教程文章

python – pandas groupby适用于多个列【代码】

我试图将相同的函数应用于groupby对象的多个列,例如:In [51]: df Out[51]: a b group 0 0.738628 0.242605 grp1 1 0.411315 0.340703 grp1 2 0.328785 0.780767 grp1 3 0.059992 0.853132 grp1 4 0.041380 0.368674 grp1 5 0.181592 0.632006 grp1 6 0.427660 0.292086 grp1 7 0.582361 0.239835 grp1 8 0.158401 0.328503 grp2 9 0.430513 0.540628 grp2 10 0.436652 0.08560...

Python pandas groupby与cumsum和百分比【代码】

给出以下数据帧df:app platform uuid minutes 0 1 0 a696ccf9-22cb-428b-adee-95c9a97a4581 67 1 2 0 8e17a2eb-f0ee-49ae-b8c2-c9f9926aa56d 1 2 2 1 40AD6CD1-4A7B-48DD-8815-1829C093A95C 13 3 1 0 26c1022a-7a8e-42a2-b7cc-bea6bffa7a6f 2 4 2 0 34271596-eebb-4423-b890-dc3761ed37ca ...

python – pandas中的groupby()和索引值【代码】

我有pandas.DataFrame和Multiindex,因此:a valdog 1cat 2 b fox 3rat 4我想要一个系列,其条目是1级索引值的列表, 所以:a [dog, cat] b [fox, rat]以下确实有效,但速度很慢且不够优雅:fff = df.groupby(level=0)['val'].agg(lambda x:[i[1] for i in list(x.index.values)])所以我希望有更好的方法.解决方法:reset_index和groupbydf.reset_index(level=1).groupby(level=0)['level_1'].apply(...

python – 具有布尔条件的Groupby在Pandas中的一列中为True【代码】

这是我想要使用groupby的数据框Value Boolean1 Boolean25.175603 False False5.415855 False False5.046997 False False4.607749 True False5.140482 False False1.796552 False False0.139924 False True4.157981 False True4.893860 False False5.091573 ...

python – Groupby by One列,并根据月份获取值的总和【代码】

我有一个pandas数据帧,其中包含在特定日期带来的项目及其量化.例如.date Item qty 2016-01-04 Rice 3 2016-01-04 Ball 3 2016-01-10 Rice 5 2016-02-02 Coffee 10 2016-02-06 Rice 3..... ... ..数据为期2年,2016年至2018年5月. 我想知道2016年1月到2018年5月期间每个商品的销售量是多少.并为其绘制线图(x轴 – 月,y – 产品数量) 为此我想到以这种格式创建一个数据帧:D...

python – Groupby函数给了我一个表,而不是一个系列表单?【代码】

DF:id cond1 a b c d 0 Q b 1 1 nan 1 1 R b 8 3 nan 3 2 Q a 12 4 8 nan 3 Q b 8 3 nan 1 4 R b 1 2 nan 3 5 Q a 7 9 8 nan 6 Q b 4 4 nan 1 7 R b 9 8 nan 3 8 Q a 0 10 8 nan按ID和cond1分组并执行滚动(2).sum():df.groupby(['id','cond1']).apply(lambda x: x[x.name[1]].rol...

python – 通过使用pandas中groupby()的百分比从Train集中获取验证集【代码】

拥有具有多类目标变量类别的训练数据集train.groupby('category').size()0 2220 1 4060 2 760 3 1480 4 220 5 440 6 23120 7 1960 8 64840我想通过获得每个类的百分比(比如说20%)从列车集中获取新的验证数据集,以避免在验证集中丢失类并破坏模型.所以基本上理想的输出将是df具有相同的结构和信息,如火车组,但具有如下参数:0 444 1 812 2 152 3 296 4 44 5 88 6 ...

使用groupby迭代从长到宽的python单行(或两行)【代码】

我希望使用功能和迭代工具将长数据集转换为宽数据集,我的理解是这是groupby的任务.我以前曾经问了几个关于这个的问题,并且认为我有这个问题,但在这种情况下并不完全,这应该更简单: > Python functional transformation of JSON list of dictionaries from long to wide> Correct use of a fold or reduce function to long-to-wide data in python or javascript? 这是我的数据:from itertools import groupby from operator imp...

Pandas python使用空组初始化groupby对象【代码】

我有一个大型数据帧.我想在数据帧中对三列进行分组,然后将函数应用于每个组.但是,我也对一些不在数据帧中的组和键感兴趣.如何将这些添加到groupby对象,所以我可以在所有组上统一使用groupby.apply()?解决方法:我想我可能会在事后重新索引:In [11]: df = pd.DataFrame([[1, 2, 3], [2, 1, 6], [2, 2, 9]], columns=['A', 'B', 'C'])In [12]: s = df.groupby(['A', 'B']).sum()In [13]: s Out[13]:C A B 1 2 3 2 1 62 9例如,这里...

ELI5 Python groupby代码“折叠”连续数字【代码】

我已经组装了一些代码,可以从各种SO帖子中提取我想要的东西,但我不太确定它是如何工作的.想知道是否有人可以节省我一些时间和ELI5它是如何工作的. 给出可能连续或不连续的数字列表:from itertools import groupby from operator import itemgetterlist_of_num = [1,3,4,5,6,10,11,13,15,17,18] for _, value in groupby(enumerate(list_of_num), lambda i_x: i_x[0] - i_x[1]):collapsed_nums = map(itemgetter(1), value)每次迭代...

Python Pandas Dataframe GroupBy大小基于条件【代码】

我有一个数据帧’df’,如下所示:id date1 date2 1 11/1/2016 11/1/2016 1 11/1/2016 11/2/2016 1 11/1/2016 11/1/2016 1 11/1/2016 11/2/2016 1 11/2/2016 11/2/2016 2 11/1/2016 11/1/2016 2 11/1/2016 11/2/2016 2 11/1/2016 11/1/2016 2 11/2/2016 11/2/2016 2 11/2/2016 11/2/2016我想做的是将id分组,然后获取date1 = date2的每个id的大小.结果应如下所示:id samedate count...

python – Pandas DataFrame.groupby()到具有多列值的字典【代码】

type(Table) pandas.core.frame.DataFrameTable ======= ======= ======= Column1 Column2 Column3 0 23 1 1 5 2 1 2 3 1 19 5 2 56 1 2 22 2 3 2 4 3 14 5 4 59 1 5 44 1 5 1 2 5 87 3对于任何有熊猫的人,我如何使用.groupby()方法构建一个多值字典? 我想输出类似于这种格式:{0: [(...

python pandas groupby第一次约会【代码】

我正在查看数据框中的一组临时员工.我正在使用熊猫,我需要为列表中的每个人获得第一个’apnt_ymd’日期.所以对格林来说,我需要2011-04-10.对于LEMERISE,我需要2011-05-08.In:name = temphires[['ssno','nm_emp_lst','nm_emp_fst','apnt_ymd']].sort('ssno')name.drop_duplicates(['apnt_ymd'])ssno nm_emp_lst nm_emp_fst apnt_ymd 299769 123456789 GREENE ALTON 2014-05-04 192323 123456789 GREENE ALTON 2013...

python – Pandas groupby – 将不同的函数应用于每组中的一半记录【代码】

我有类似下面的数据框,我有街道地址范围和街道名称的非唯一组合.import pandas as pd df=pd.DataFrame() df['BlockRange']=['100-150','100-150','100-150','100-150','200-300','200-300','300-400','300-400','300-400'] df['Street']=['Main','Main','Main','Main','Spruce','Spruce','2nd','2nd','2nd'] dfBlockRange Street 0 100-150 Main 1 100-150 Main 2 100-150 Main 3 100-150 Main 4 200-...

python – 计算Pandas groupby中的唯一索引值【代码】

在Pandas中,有一种非常简洁的方法可以按操作计算组内列中的不同值.例如ex = pd.DataFrame([[1, 2, 3], [6, 7, 8], [1, 7, 9]], columns=["A", "B", "C"]).set_index(["A", "B"]) ex.groupby(level="A").C.nunique()将返回A 1 2 6 1 Name: C, dtype: int64我还想计算索引级别B中的不同值,同时按A进行分组.我找不到从groupby对象访问B级别的简洁方法.我能想到的最好的是:ex.reset_index("B", drop=False).groupby(level="A")....