首页 / PYTHON / python-分组内的Pandas groupby排序保留了多个聚合

python-分组内的Pandas groupby排序保留了多个聚合

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-分组内的Pandas groupby排序保留了多个聚合，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1818字，纯文字阅读大概需要3分钟。

内容图文

我想在groupby返回的组中应用排序和限制,如this question.但是,我有多个聚合,并且我希望所有聚合都保留在结果中.

这是一个简单的示例：

products = ["A", "B", "C", "D"]
stores = ["foo", "bar", "baz"]
n = 30

product_list = [products[i] for i in np.random.randint(0, len(products), n)]
store_list = [stores[i] for i in np.random.randint(0, len(stores), n)]
rating_list = np.random.random(n) * 5
sales_list = np.random.random(n) * 10000

df = pd.DataFrame(
    {'store': store_list, 
     'product': product_list, 
     'sales': sales_list, 
     'rating': rating_list})

df = df[['store', 'product', 'sales', 'rating']]

df[:5]

我想按商店和产品分组,同时对销售额进行总计和计数,同时采用评分的平均值.

这很简单：

dfg = df.groupby(['store', 'product']).agg({'sales': ['sum', 'count'], 
                                            'rating': 'mean'})

现在,我只希望在每个组中保留评分最高的两个行.我可以这样得到(使用来自1的[对我]有点不直观的咒语的多层次扩展)：

g = dfg[('rating', 'mean')].groupby(
      level=0, group_keys=False).apply(
        lambda x: x.sort_values(ascending=False).head(2))
g

这将返回以下系列：

store  product
bar    B          3.601135
       A          1.867449
baz    B          2.984196
       D          2.780500
foo    B          3.767912
       D          3.129346
Name: (rating, mean), dtype: float64

但是我丢失了(‘sales’,’sum’)和(‘sales,’count’)列.

我怀疑我需要提取g.index并以某种方式使用它,但无法进行排序(双关语).

编辑：下面的答案设法给了我要寻找的组,但是我真正想要的是一个稳定的排序,不仅我得到了每个组中的前N个平均评分,而且对这些组本身进行了排序第一类的评分最高,等等.在某种程度上,这只是锦上添花,因为我现在拥有想要的值,并且希望报告更漂亮.

解决方法:

我已经整理好了.我不需要像上面那样索引分组表并执行后续的groupby和sort_values,而是需要将sort_values应用于未索引的DataFrame,指定要显式排序的列：

g = dfg.groupby(level=0, group_keys=False).apply(
      lambda x: x.sort_values(('rating', 'mean'), ascending=False).head(2))

给我想要的结果：

内容总结

以上是互联网集市为您收集整理的python-分组内的Pandas groupby排序保留了多个聚合全部内容，希望文章能够帮你解决python-分组内的Pandas groupby排序保留了多个聚合所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/685325.html

来源：【匿名】

【上一篇】python-AttributeError：“ QWheelEvent”对象没有属性“ delta”【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python-分组内的Pandas groupby排序保留了多个聚合】教程文章相关的互联网学习教程文章

python进行数据分析groupby基础操作

from pandas import Series,DataFrameimport pandas as pdimport matplotlib.pyplot as pltimport numpy as npdf = DataFrame({‘key1‘ : [‘a‘, ‘a‘, ‘b‘, ‘b‘, ‘a‘],‘key2‘ : [‘one‘, ‘two‘, ‘one‘, ‘two‘, ‘one‘], ‘data1‘ : np.random.randn(5),‘data2‘ : np.random.randn(5)})grouped=df[‘data1‘].groupby(df[‘key1‘])grouped.mean()means = df[‘data1‘].groupby([df[‘key1‘], df[‘key2‘...

python groupby【代码】

1from itertools import groupby2 3 bom = [dict(bomNo="BOM201704030002", parentItemNo="04.01.00001", childItemNo="02.11.00008"),4 dict(bomNo="BOM201704030004", parentItemNo="03.08.10.00002", childItemNo="03.02.04.00002"),5 dict(bomNo="BOM201704030002", parentItemNo="04.01.00001", childItemNo="03.08.10.00001"),6 dict(bomNo="BOM201704030004", parentItemNo="03.08.10.00002", childIt...

python – Pandas：groupby转发填充日期时间索引【代码】

我有一个包含两列的数据集：company和value.它有一个日期时间索引,其中包含重复项(在同一天,不同的公司具有不同的值).这些值缺少数据,因此我想使用同一公司的前一个数据点转发缺少的数据. 但是,我似乎无法找到一个很好的方法来做到这一点,而不会遇到奇怪的groupby错误,这表明我做错了什么. 玩具数据：a = pd.DataFrame({'a': [1, 2, None], 'b': [12,None,14]}) a.index = pd.DatetimeIndex(['2010', '2011', '2012']) a = a.uns...

Python在groupby分组后提取指定位置记录方法【图】

下面为大家分享一篇Python在groupby分组后提取指定位置记录方法，具有很好的参考价值，希望对大家有所帮助。一起过来看看吧在进行数据分析、数据建模时，我们首先要做的就是对数据进行处理，提取我们需要的信息。下面为大家介绍一些groupby的用法，以便能够更加方便地进行数据处理。我们往往在使用groupby进行信息提取时，往往是求分组后样本的一些统计量（max、min，var等）。如果现在我们希望取一下分组后样本的第二条记录，倒数...

Python如何利用itertools.groupby()根据字段将记录分组

本篇文章给大家带来的内容是关于Python如何利用itertools.groupby() 根据字段将记录分组，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。1、需求有一系列的字典或对象实例，我们想根据某个特定的字段来分组迭代数据。2、解决方案itertools.groupby()函数在对数据进行分组时特别有用。实例：from operator import itemgetter from itertools import groupbyrows=[{name:mark,age:18,uid:110},{name:miaomiao,age:...

djangoorm中利用annotate进行groupby

用法之前的orm的group by方法在django 1.8 中已经不能使用，需要利用annotate来实现示例1第一个values用来选中需要用来group by的字段（此处group by user_id），之后紧跟annotate来分组并聚合需要的字段（需要每个user_id对应的question_id的数量和catalog_id的最小值），之后再values来实际查询需要的字段（原user_id和聚合后的字段的别名）第一个values用来指定用来group by的字段，里面必须是Count、Min等等聚合函数（例如用F(...

python astype+groupby+sign+agg【代码】【图】

https://www.pythonheidong.com/blog/article/298816/6371146b31b4b3d510d0/import pandas as pd import numpy as np df={'ACCOUNT': ['1','2','2','1','1'],'AMOUNT': ['-2','2','-1','2','2'],'STATUS' : ['1','0','0','1','1']} df=pd.DataFrame(df).astype(int) ##直接运行后面会报错 print(df) print('-'*40) data1=df.groupby(['ACCOUNT', 'STATUS', np.sign(df.AMOUNT)]).AMOUNT.agg(['count', 'sum']) print(data1) print...

python set();lambda();zip();groupby(【图】

set() 函数创建一个无序不重复元素集，可进行关系测试，删除重复数据，还可以计算交集、差集、并集等。 lambda()作为一个表达式，定义了一个匿名函数。lambda 并不会带来程序运行效率的提高，只会使代码更简洁。如果可以使用for...in...if来完成的，坚决不用lambda。如果使用lambda，lambda内不要包含循环，如果有，我宁愿定义函数来完成，使代码获得可重用性和更好的可读性。总结：lambda 是为了减少单行函数的定义而存在的。zip(...

python-大熊猫操作中是否有对groupby的补充(相反)？【代码】

我有一个包含许多列的表(数据框).现在,我想对其中一列的值求平均值.这意味着我需要对所有列进行分组,除了需要平均的列.我当然可以写：df.groupby(['col1', 'col2', 'col3', 'col4', 'col5'])['vals'].mean()但是,如果我可以做类似的话,那将是很好：df.groupby(['col6'], something='reverse')['vals'].mean()大熊猫有可能吗？解决方法:您正在搜索现有列表的补充列.您可以玩df.columns.它表示一个允许一些有趣操作的Index对象. df.c...

python-如何比较pandas groupby对象的列值并将其汇总到新的列行中【代码】

我有以下问题：我想在数据框中创建一列,以汇总一行中的所有值.然后,我想比较该列的行以创建包含所有列中所有值的单个行,但是每个值仅出现一次.例如：我有以下数据框df1:Column1 Column2 0 a 1,2,3 1 a 1,4,5 2 b 7,1,5 3 c 8,9 4 b 7,3,5现在所需的输出将是：df1_new:Column1 Column2 0 a 1,2,3,4,5 1 b 1,3,5,7 2 c 8,9我目前正在尝试的是result = df1.groupby(‘Column1’...

python-Pandas Groupby-命名聚合输出列【代码】

我有一个如下的pandas groupby命令：df.groupby(['year', 'month'], as_index=False).agg({'users':sum})有什么办法可以在groupby命令中将agg输出命名为’users’以外的名称？例如,如果我希望用户总数为total_users怎么办？我可以在groupby完成后重命名该列,但想知道是否还有另一种方法.解决方法:每docs：If a dict is passed, the keys will be used to name the columns.Otherwise the function’s name (stored in the function...

python-如何获取由“ groupby()”生成的组作为列表？【代码】

我正在测试itertools.groupby()并尝试将组作为列表获取,但无法弄清楚如何使其工作. 使用这里的例子,在How do I use Python’s itertools.groupby()?from itertools import groupbythings = [("animal", "bear"), ("animal", "duck"), ("plant", "cactus"),("vehicle", "speed boat"), ("vehicle", "school bus")]我试过了(python 3.5)：g = groupby(things, lambda x: x[0]) ll = list(g) list(tuple(ll[0])[1])我以为我应该将第一...

python-需要在Pandas groupby中以特定格式输出【代码】

我在数据集上运行了以下命令：data.groupby(['month', 'item'])['date'].median()输出如下：month item 2014-11 call 107data 29sms 94 2014-12 call 79data 30sms 48但是,我需要这样的输出：month item2014-11 call 1072014-11 data 292014-11 sms 942014-12 call 792014-11 data 302014-11 sms 48我可以用什么来达到上述目的？解决方法:从您的问题尚不清楚,您希...

python-一起使用groupby(“ 1d”)和first_valid_index【代码】

This帖子显示了如何使用first_valid_index在数据框列中查找值的首次出现.我如何将first_valid_index与每日groupby一起使用,以便针对链接的文章中所示的同一示例数据框每天查找首次出现的数据？这是我需要使用的groupby代码：grouper = pd.TimeGrouper("1d")编辑：当我使用lambda并应用方法时,它会给出正确的输出.我无法将此输出发送到新列[‘test_output’],尽管它仅显示NaT：df['test_output'] = df.groupby(grouper)['test_1']...

Python Pandas groupby并使用分组明智的计算来更改新列ala dplyr【代码】

我对R dplyr进行数据分析非常熟悉,并且正在尝试将用dplyr编写的一些代码转换为pandas.我所拥有的数据由ID列和DATE所标识的人员使用该产品.我正在尝试找出将以下R dplyr代码转换为python pandas代码的最佳方法.基本上,我将ID列分组,过滤某种类型的产品,然后添加一列(对于该组中的每一行),添加该人的最短(首次使用)日期和最长(最后使用)日期和产品.最后,我还要添加一列来计算上次使用日期和首次使用日期之间的天数.数据如下：ID PRO...

首页 / PYTHON / python-分组内的Pandas groupby排序保留了多个聚合

python-分组内的Pandas groupby排序保留了多个聚合

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-分组内的Pandas groupby排序保留了多个聚合】教程文章相关的互联网学习教程文章

python进行数据分析groupby基础操作

python groupby【代码】

python – Pandas：groupby转发填充日期时间索引【代码】

Python在groupby分组后提取指定位置记录方法【图】

Python如何利用itertools.groupby()根据字段将记录分组

djangoorm中利用annotate进行groupby

python astype+groupby+sign+agg【代码】【图】

python set();lambda();zip();groupby(【图】

python-大熊猫操作中是否有对groupby的补充(相反)？【代码】

python-如何比较pandas groupby对象的列值并将其汇总到新的列行中【代码】

python-Pandas Groupby-命名聚合输出列【代码】

python-如何获取由“ groupby()”生成的组作为列表？【代码】

python-需要在Pandas groupby中以特定格式输出【代码】

python-一起使用groupby(“ 1d”)和first_valid_index【代码】

Python Pandas groupby并使用分组明智的计算来更改新列ala dplyr【代码】

PYTHON - 相关标签

分组 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程