【如何通过多级行对python数据框进行分组?】教程文章相关的互联网学习教程文章

python-按值分组和汇总矩阵【代码】

我有两个形状分别为abbxcxd的prob和totalHigh矩阵. a和b是坐标.这是两个示例:In [77]: prob[1,1,:] Out[77]: array([[ 0.09, 0.01, 0. , 0. , 0. ],[ 0.81, 0.09, 0. , 0. , 0. ],[ 0. , 0. , 0. , 0. , 0. ]])In [78]: totalHigh[1,1,:] Out[78]: array([[0, 1, 2, 3, 4],[1, 2, 3, 4, 5],[2, 3, 4, 5, 6]])totalHigh包含关于结果的信息,不幸的是在两个维度上.相应地,概率包含这些结果的概率.例如,在坐...

Python-遍历字符串列表并分组部分匹配的字符串【代码】

所以我有一个字符串列表如下:list = ["I love cat", "I love dog", "I love fish", "I hate banana", "I hate apple", "I hate orange"]我如何遍历列表并在没有给定关键字的情况下将部分匹配的字符串分组.结果应如下所示:list 1 = [["I love cat","I love dog","I love fish"],["I hate banana","I hate apple","I hate orange"]]非常感谢.解决方法:尝试建立一个反向索引,然后您可以选择任何喜欢的关键字.这种方法忽略了单词顺序...

如何在python pandas的同一列上进行分组并取唯一计数和某个值计数作为聚合?【代码】

我的问题与我以前的Question有关,但有所不同.所以我在问新问题. 在上面的问题中,请参阅@jezrael的答案.df = pd.DataFrame({'col1':[1,1,1],'col2':[4,4,6],'col3':[7,7,9],'col4':[3,3,5]})print (df)col1 col2 col3 col4 0 1 4 7 3 1 1 4 7 3 2 1 6 9 5df1 = df.groupby(['col1','col2']).agg({'col3':'size','col4':'nunique'}) df1['result_col'] = df1['col3'].div(df1['c...

python-熊猫:分组和重新索引后在行之间进行操作【代码】

我有一个带有几行的熊猫数据框,如下所示:x.head()id jname wbdqueue_id startdatetime 59 1341127 ondemand_build_baspen-w7g 26581 2017-07-31 23:14:56 60 1341126 ondemand_qa_qforchecka 26581 2017-07-31 23:15:35 61 1341125 ondemand_build_bchecka 26581 2017-07-31 23:14:56 63 1341123 ondemand_build_baspen-w7f 26581 2017-07-31 23:10...

python-熊猫-按多列分组的移动平均线【代码】

对Pandas来说是新手,所以请耐心等待. 我的数据框的格式为date,name,country,tag,cat,score 2017-05-21,X,US,free,4,0.0573 2017-05-22,X,US,free,4,0.0626 2017-05-23,X,US,free,4,0.0584 2017-05-24,X,US,free,4,0.0563 2017-05-21,X,MX,free,4,0.0537 2017-05-22,X,MX,free,4,0.0640 2017-05-23,X,MX,free,4,0.0648 2017-05-24,X,MX,free,4,0.0668我正在尝试找到一种在国家/标签/类别组中查找X天移动平均线的方法,因此我需要:da...

python-如何在散景中以条形图绘制“分组依据”数据框【代码】

我有一个数据框suite_name fail Pass Report_datetime 0 VOLTE-VOLTE 5 7 2017-11-14 00:00:00 1 VOLTE-VOLTE 5 7 2017-11-11 00:00:00 2 VOLTE-VOLTE 5 7 2017-11-10 00:00:00 3 VOLTE-VOLTE 5 7 2017-11-09 00:00:00 4 VOLTE-VOLTE 5 7 2017-11-14 00:00:00 5 VOLTE-VOLTE 5 7 2017-11-14 00:00:00我把它分组了g1=df.groupby( [ 'Report_datetime'] )...

python-分组内的Pandas groupby排序保留了多个聚合【代码】

我想在groupby返回的组中应用排序和限制,如this question.但是,我有多个聚合,并且我希望所有聚合都保留在结果中. 这是一个简单的示例:products = ["A", "B", "C", "D"] stores = ["foo", "bar", "baz"] n = 30product_list = [products[i] for i in np.random.randint(0, len(products), n)] store_list = [stores[i] for i in np.random.randint(0, len(stores), n)] rating_list = np.random.random(n) * 5 sales_list = np.ran...

python-与总和保持第三列的熊猫分组【代码】

我有一个数据集,看起来像这样:Master Sec Amount 1234 98765 191 1234 98765 926 1234 98764 236 2345 76543 233 2345 76543 963 3456 54321 221 3456 54321 820 3456 43210 281 3456 32101 786我想要的是用一个总和对主服务器进行分组,但是如果可以的话,然后将该数字应用于sec字段中的所有唯一身份. 结果看起来像这样:Sec Amount 98765 1353 98764 1353 76543 119...

在python中按特定年份分组数据【代码】

我想创建一个按区域和日期分组的数据框,以显示特定年份区域的平均年龄.所以我的对话看起来像region, year, average age到目前为止,我有:#specify aggregation functions to column'age' ageAverage = {'age':{'average age':'mean'}} #groupby and apply functions ageDataFrame = data.groupby(['Region', data.Date.dt.year]).agg(ageAverage)这很好用,但是如何做到这一点,以便仅对特定年份的数据进行分组?比如说2...

python-根据空间接近度对几何点进行分组【代码】

我在3D空间中有以下几点:我需要根据D_max和d_max对点进行分组:D_max = max dimension of each group d_max = max distance of points inside each group像这样:上图中的组的形状看起来像一个盒子,但是形状可以是可以作为分组算法输出的任何形状. 我正在使用Python,并使用Blender可视化结果.我正在考虑使用scipy.spatial.KDTree并调用其query API,但是,我不确定这是否是当前工作的正确工具.我担心可能有一个我不知道的更好的工具...

python-熊猫:按熊猫0.23.4中的两列组合分组【代码】

我对Python相当陌生.我在SO上遇到了Pandas: Group by combination of two columns.不幸的是,已接受的答案不再适用于熊猫版本0.23.4.该帖子的目的是弄清楚组变量的组合,并为值创建字典.即group_by应该忽略分组的顺序. 这是公认的答案:import pandas as pd from collections import Counterd = pd.DataFrame([('a','b',1), ('a','c', 2), ('b','a',3), ('b','a',3)],columns=['x', 'y', 'score'])d[['x', 'y']] = d[['x', 'y']].app...

python-根据条件分组和子集行【代码】

我想过滤我的数据框. 我的数据框Col1 col2 0 A event1 1 A event2 2 A event3 3 A event2 4 B event1 5 B event3 6 B event2 7 B event2输出数据框Col1 col2A event1B event1B event3它应该为每个组返回event2之前的行.到目前为止,我尝试过df.groupby('col1').apply(lambda x :x[0:x[x['col2'] == 'event2'].index[0]])但是它没有返回所需的行.解决方法:我们可以使用groupby和cumsum进行...

python-根据开始和结束日期对时间序列数据进行分组【代码】

我有每年一次体育比赛的时间序列数据,其中包含每场比赛的日期.我想按游戏的季节(年)对游戏进行分组.每个季节都从8月开始,到7月结束. 我将如何按季节对游戏进行分组,例如-季节(2016-2017),季节(2017-2018)等. 涉及df.resample()的This Answer可能是相关的,但是我不确定如何去做. 日期列如下所示:DATE 26/09/09 04/10/09 17/10/09 25/10/09 31/10/09... 29/09/18 07/10/18 28/10/18 03/11/18我想按季节分组,以便可以对汇总数据执...

python-按间隔将数据帧分组【代码】

我有一个具有时间间隔和与每个标签相关联的标签的数据框.我需要对与其他行隔开给定距离的行进行分组和聚合. 例如,组行的开始/结束位于其他行的开始/结束的3个单位内的行将其标签字段串联在一起:In [16]: df = pd.DataFrame([...: [ 1, 3,'a'], [ 4,10,'b'],...: [15,17,'c'], [18,20,'d'],...: [27,30,'e'], [31,40,'f'], [41,42,'g'],...: [50,54,'h']],...: columns=['start', 'end', 'label'])...:In [17]...

python-熊猫分组计数【代码】

如何对两个分组(ID和名称)进行累加计算?例如,我有:id name 1 name1 1 name1 1 name2 2 name3 2 name3 2 name3我希望它看起来像:id name cumcount 1 name1 1 1 name1 2 1 name2 1 2 name3 1 2 name3 2 2 name3 3基本上是ID中每个名称的运行提示.解决方法:您可以使用groupby.cumcount:df['cumcount'] = df.groupby(['id', 'name']).cumcount() + 1df # id name cumcount #0 1 name1...

分组 - 相关标签