【如何通过多级行对python数据框进行分组?】教程文章相关的互联网学习教程文章

python – 在pandas数据帧中对重复的列ID进行分组【代码】

现在有很多类似的问题,但大多数都回答了如何删除重复的列.但是,我想知道如何创建元组列表,其中每个元组包含重复列的列名.我假设每列都有一个唯一的名称.只是为了进一步说明我的问题:df = pd.DataFrame({'A': [1, 2, 3, 4, 5],'B': [2, 4, 2, 1, 9],'C': [1, 2, 3, 4, 5],'D': [2, 4, 2, 1, 9],'E': [3, 4, 2, 1, 2],'F': [1, 1, 1, 1, 1]},index = ['a1', 'a2', 'a3', 'a4', 'a5'])然后我想要输出:[('A', 'C'), ('B', 'D')]如果你...

在Python中分组/聚类数字【代码】

我用谷歌搜索过,我已经测试了,这让我在我的智慧结束时.我有一个我需要按相似性分组的数字列表.例如,在[1,6,9,10,110,105,109,134,139]的列表中,1 6 9将被放入列表中,100,102,105和109将被放入一个列表中.列表,134和139.我在数学方面很糟糕,我已经尝试过尝试过,但我无法让它发挥作用.为了尽可能明确,我希望将10个值之间的数字组合在一起.有人可以帮忙吗?谢谢.解决方法:有很多方法可以做到cluster analysis.一种简单的方法是查看连续...

python – 输出pandas分组的数据帧没有聚合【代码】

假设我有一个带有’A’,’B’,’C’作为列名的pandas DFA B C a1 b11 c11 a1 b12 c12 a2 b21 c21 a2 b22 c22我可以按’A’分组,但我可以得到A B C a1 [b11,b12], [c11,c12] a2 [b21,b22], [c21,c22]没有任何聚合?希望订单(b12之前的b11)保留在原始表中.解决方法:我不知道怎么做你想要的,但也许这足够接近:In [23]: df = pd.DataFrame({'A' : ['a1', 'a1', 'a2', 'a2'],'B' : ['b11', 'b12', 'b21', 'b22'],'C' : ['c...

python – 在pandas中按多个条件分组【代码】

我有一个像这样的pandas数据结构:>>> dfBenny Daniel Doris Eric Jack Zoe Age 75 30 95 25 28 23 Salary 2000 9000 100000 10000 12000 20000 我想找到几个不同组的平均年龄和工资,其中每个组都是列的子集,它们可能重叠,例如这个字典:{'Parrot lovers': ['Doris', 'Benny'], 'Tea Drinkers': ['Doris', 'Zoe'], 'Maintainance': ['Benny', 'Jack'], 'Coffee Drinkers': ['Benn...

python – Django在模板中分组字典【代码】

我有这个视图,它是每个会话的组列表:def group_list():attendance = Student.objects.values('session', 'group', 'full_name',).order_by('session','group') return attendance字典看起来像这样:{'full_name': u'User1', 'session': 1, 'group': u'A'} {'full_name': u'User2', 'session': 1, 'group': u"B"} {'full_name': u'User3', 'session': 2, 'group': u"B"} {'full_name': u'User4', 'session': 99, 'group': u'A'} {'...

python – 在2个ID上对Pandas中的重复项进行分组,并以不同方式转换其余列【代码】

为了这个问题,让我们假设我们在Pandas有2个商店和库存,有重复的条目.我们在条形码上标明每个项目以及它到达商店的日期(因此,如果日期不同,我们会考虑不同的项目,即使条形码相同),我们也会在每个商店中存储每个商品的库存,和价格:arrival_date bar_code stock_shop1 stock_shop2 price 1 2015-08-30 8000001 52 11 100 2 2015-08-30 8000001 48 0 ...

python – 如何在Pandas DataFrame中对lat-lon配对进行分组?【代码】

我有一个看起来像这样的数据框:lon lat -77.487 39.044 -77.487 39.044 -122.031 37.354 -77.487 39.044我想将这些lon-lat配对与结果计数分组,如下所示:lon lat count -77.487 39.044 3 -122.031 37.354 1我怎样才能做到这一点? group()函数仅显示允许按一列分组.解决方法:您可以使用groupby.size并重命名创建的列,然后重置reset_index以返回所需的数据帧.print(df.groupby(['lon', 'la...

python – Pandas:聚合后加入分组密钥【代码】

是)我有的 我有一个像这样的熊猫框架:df1 = pd.DataFrame({'date': ['31-05-2017', '31-05-2017', '31-05-2017', '31-05-2017', '01-06-2017', '01-06-2017'],'tag': ['A', 'B', 'B', 'B', 'A', 'A'],'metric1': [0, 0, 0, 1, 1, 1],'metric2': [0, 1, 1, 0, 1, 0] })df2 = pd.DataFrame({'date': ['31-05-2017', '31-05-2017', '01-06-2017'],'tag': ['A', 'B', 'A'],'metric3': [25, 3, 7,] })我想要的是 1)我想对每个日...

python – 在dict列表中按键分组的和值【代码】

我有一个dicts列表,现在我正在尝试找到每个远程标识符的总作业. 在这种情况下,我期待id 64 – > 11个工作和68 – > 0个工作[{'jobs': {'count': 4},'remote_identifier': {'id': '64'} }, {'jobs': {'count': 0},'remote_identifier': {'id': '68'} }, {'jobs': {'count': 7},'remote_identifier': {'id': '64'} }]我已经尝试了类似的东西,但我不知道如何根据我的需要调整它,因为这只计算出现次数.from collections import Count...

Python – 按月分组日期【代码】

这是一个快速的问题,我起初认为这很容易.一个小时,我不太确定!所以,我有一个Python日期时间对象列表,我想绘制它们. x值是年和月,y值是此列表中本月发生的日期对象的数量.也许一个例子会更好地证明这一点(dd / mm / yyyy):[28/02/2018, 01/03/2018, 16/03/2018, 17/05/2018] -> ([02/2018, 03/2018, 04/2018, 05/2018], [1, 2, 0, 1])我的第一次尝试尝试按日期和年份分组,方法如下:import itertools group = itertools.groupby(...

如何使用Python pandas“分组”多个变量,消除重复【代码】

我有一个包含这种数据的输入文件:**> Due big size of input file, i need to take only unique pairs –userID-locationID (some kind of preprocessing)**userID locationID1 loc1 1 loc2 1 loc3 2 loc1 3 loc4 3 loc3 3 loc1我必须找到每个位置检查了多少个不同的用户,并获得带有值的新列.我已经试过了,但这不是我需要的.DataFrame({'count': df.groupby(["userID","locationID",]...

python – Pandas:如何分组并对MultiIndex求和【代码】

我有一个带有分类属性的数据框,其中索引包含重复项.我试图找到索引和属性的每个可能组合的总和.x = pd.DataFrame({'x':[1,1,3,3],'y':[3,3,5,5]},index=[11,11,12,12]) y = x.stack() print(y) print(y.groupby(level=[0,1]).sum())产量11 x 1y 3x 1y 3 12 x 3y 5x 3y 5 dtype: int64 11 x 1y 3x 1y 3 12 x 3y 5x 3y 5 dtype: int64堆栈和组合总和是一样的. 但是,我期待的是1...

让我们为python的numpy做一个N维像素分组/分组的参考实现【代码】

我经常想要pixel bin/pixel bucket一个numpy数组,意思是用一个像素替换N个连续像素的组,这个像素是N个替换像素的总和.例如,从值开始:x = np.array([1, 3, 7, 3, 2, 9])桶大小为2时,转换为:bucket(x, bucket_size=2) = [1+3, 7+3, 2+9] = [4, 10, 11]据我所知,没有专门做这个的numpy功能(请纠正我,如果我错了!),所以我经常推出自己的.对于1d numpy数组,这不错:import numpy as npdef bucket(x, bucket_size):return x.reshape(...

python – 通过嵌套字典键对pandas数据帧进行分组【代码】

我有一个pandas数据框,其中一列是字典类型.这是一个示例数据帧:import pandas as pd df = pd.DataFrame({'a': [1,2,3], 'b': [4,5,6], 'version': [{'major': 7, 'minor':1}, {'major':8, 'minor': 5},{'major':7, 'minor':2}] })DF:a b version 0 1 4 {'minor': 1, 'major': 7} 1 2 5 {'minor': 5, 'major': 8} 2 3 6 {'minor': 2, 'major': 7}我正在寻找一种方法来通过一个字典键对数据帧进行分组...

python – 由scipy中的稀疏矩阵分组并返回一个矩阵【代码】

关于使用具有稀疏矩阵的groupby的SO有几个问题.但是输出似乎是列表,dictionaries,dataframes和其他对象. 我正在研究NLP问题,并希望在处理过程中将所有数据保存在稀疏的scipy矩阵中以防止内存错误. 这是上下文: 我已经矢量化了一些文件(sample data here):import pandas as pd from sklearn.feature_extraction.text import CountVectorizerdf = pd.read_csv('groupbysparsematrix.csv') docs = df['Text'].tolist()vectorizer = ...

分组 - 相关标签