【python-如何在散景中以条形图绘制“分组依据”数据框】教程文章相关的互联网学习教程文章

python-过滤并按数据框列中的标签数组分组【代码】

在以下示例中,如何仅保留列标记中存在的数组中具有“ a”的行?df = pd.DataFrame(columns=["val", "tags"], data=[[5,["a","b","c"]]]) df[3<df.val] # this works df["a" in df.tags] # is there an equivalent for filtering on tags?解决方法:我认为使用集合很直观.然后,您可以使用> =作为设置包含df[df.tags.apply(set) >= {'a'}]val tags 0 5 [a, b, c]一个Numpy的替代方案是tags = df['tags'] n ...

python-按两个列值分组并创建唯一的ID【代码】

我正在处理此数据集,看起来非常相似,如下所示,transaction_id customer_id phone email1 19 12345 123@email.com 2 19 00001 245@gmail.com3 Guest 00001 123@email.com4 22 12345 123@email.com5 23 78900 678@gmail.com 根据电话和电子邮件列中使用的类似信息,年龄在19岁以下,来宾和22岁以下的客户实际上是相同的. 只要该客...

python-按多个键分组并汇总/平均词典列表的多个值【代码】

我是Python的新手,并且遇到了以下代码的问题. 我正在寻找一种方法,可以按多个键分组并汇总/平均使用Python词典列表的值.下面的代码(也位于先前的问题/响应,位于:Group by multiple keys and summarize/average values of a list of dictionaries)使我处在正确的轨道上,但我遇到了在循环中添加更多字段聚合的问题. 假设我有一个字典列表,如下所示:input = [ {'msn': '001', 'source': 'foo', 'status': '1', 'qty': 100, 'vol': 1...

python-numpy中唯一元素的索引分组【代码】

我有很多大的(> 100,000,000)整数列表,其中包含许多重复项.我想获取每个元素出现的索引.目前我正在做这样的事情:import numpy as np from collections import defaultdicta = np.array([1, 2, 6, 4, 2, 3, 2]) d=defaultdict(list) for i,e in enumerate(a):d[e].append(i)d defaultdict(<type 'list'>, {1: [0], 2: [1, 4, 6], 3: [5], 4: [3], 6: [2]})这种遍历每个元素的方法非常耗时.是否有一种有效的或矢量化的方法来做到这一...

python – 将分组的聚合nunique列添加到pandas数据帧【代码】

我想在我的pandas数据帧中添加一个聚合的,分组的,nunique列,但不会聚合整个数据帧.我试图在一行中执行此操作,并避免创建新的聚合对象并合并它等. 我的df有track,type和id.我希望每个轨道/类型组合的唯一ID数量作为表格中的新列(但不会在生成的df中折叠轨道/类型组合).相同行数,1列. 这样的事情不起作用:df['n_unique_id'] = df.groupby(['track', 'type'])['id'].nunique()也不是df['n_unique_id'] = df.groupby(['track', 'type'...

python – Pandas按时间分组并指定开始时间【代码】

– 编辑我注意到我输入的时间不是我想要的.我将12点之后的时间转换为24小时时间约定.但是,unutbu的答案应该仍然清楚.– 第二次编辑.我改变了数据以做出更好的例子. 以下是按日期索引的时间序列.我想从start_datetime开始进行聚合,并根据下面的timedelta(9.5小时= 34200秒)继续聚合.def main():# start_datetime = datetime.datetime(2013, 1, 1, 8)# end_datetime = datetime.datetime(2013, 1, 1, 5, 30)s = pd.Series(np.arange(...

python – 分组并计算元组列表中的平均值【代码】

我有一个像这样的元组列表:x=[('HSBC8999', 4, 179447), ('HSBC1199', 81, 864108), ('HSBC1199', 32, 715121),('HSBC8999', 4, 1447),('HSBC1199', 32, 61521) ]我想执行一些任务: >根据第1项对列表进行分组:HSBCXXXX>在每个组中,计算列表中具有相同第二项的第3项的平均值. 这样的事情:第1组:('HSBC8999', 4, 179447) ('HSBC8999', 4, 1447)平均为4:(179447 1447)/ 2 第2组:('HSBC1199', 81, 864108) ('HSBC1199', 32, 715...

python – 按周大熊猫分组【代码】

I have a dataframe,df Index eventName Count pct2017-08-09 ABC 24 95.00%2017-08-09 CDE 140 98.50%2017-08-10 DEF 200 50.00%2017-08-11 CDE 150 99.30%2017-08-11 CDE 150 99.30%2017-08-16 DEF 200 50.00%2017-08-17 DEF 200 50.00%我希望通过计算列pct中的值来按每周每周发生一次分组.例如,我们现在有:2017-08-09 h...

python – pandas groupby没有按列分组转换为索引【代码】

pandas groupby的默认行为是将按列转换为索引,并将其从数据框的列列表中删除.例如,假设我有一个包含这些列的dataFramecol1|col2|col3|col4如果我通过这种方式使用列col2和col3来应用组df.groupby(['col2','col3']).sum()数据框df不再在列列表中包含[‘col2′,’col3’].它们会自动转换为结果数据帧的索引. 我的问题是如何在列上执行groupby并将该列保留在数据框中?解决方法: df.groupby(['col2','col3'], as_index=False).sum()

python – 如何在同一个月对这个dicts列表进行分组?【代码】

Python newb …我有一份我想在同一个月组织的词典列表.年:[{'date':'2008-04-23','value':'1'}, {'date':'2008-04-01','value':'8'}, {'date':'2008-04-05','value':'3'}, {'date':'2009-04-19','value':'5'}, {'date':'2009-04-21','value':'8'}, {'date':'2010-09-09','value':'3'}, {'date':'2010-09-10','value':'4'}, ]我想要得到的是一个像这样的词典列表:[{'date':2008-04-01,'value':'12'}, {'date':2009-04-01,'value':...

python – 在熊猫中按周分组【代码】

我有这个数据框:Name Date Quantity Apple 07/11/17 20 orange 07/14/17 20 Apple 07/14/17 70 Orange 07/25/17 40 Apple 07/20/17 30我想通过名称和日期汇总这个以获得数量的总和细节: 日期:分组,结果应该在一周的开头(或者只是在星期一) 数量:总和,如果两个或多个记录具有相同的名称和日期(如果是相同的间隔) 所需的输出如下:Name Date Quantity Apple 07/10/17 90 orange 07/10/17 20 Apple 07/17/1...

python – 按结果分组保存到单独的CSV文件中【代码】

我有一个代码用于创建具有CSV数据的组,并创建具有该组的新文件! 我读了我的csv文件,然后使用它.问题是当我的功能工作并使用数据创建新文件时,新文件的名称是组的名称,我不希望这样:ID Inventory Domain Requests Impressions Fill Rate 123456 au_to/8 neighborhoodscout.com 11402 26 0.23 123456 au_to/8 sinembargo.mx ...

python – itertools.groupby()没有正确分组【代码】

我有这些数据:self.data = [(1, 1, 5.0),(1, 2, 3.0),(1, 3, 4.0),(2, 1, 4.0),(2, 2, 2.0)]当我运行此代码时:for mid, group in itertools.groupby(self.data, key=operator.itemgetter(0)):对于列表(组)我得到:[(1, 1, 5.0),(1, 2, 3.0),(1, 3, 4.0)]这就是我想要的. 但是,如果我使用1而不是0for mid, group in itertools.groupby(self.data, key=operator.itemgetter(1)):按元组中的第二个数字分组,我只得到:[(1, 1, 5.0)]即...

python – 按多个键分组并汇总字典列表的值/平均值【代码】

什么是通过多个键进行分组的最pythonic方法,并在Python中汇总字典列表的平均值?假设我有一个字典列表如下:input = [ {'dept': '001', 'sku': 'foo', 'transId': 'uniqueId1', 'qty': 100}, {'dept': '001', 'sku': 'bar', 'transId': 'uniqueId2', 'qty': 200}, {'dept': '001', 'sku': 'foo', 'transId': 'uniqueId3', 'qty': 300}, {'dept': '002', 'sku': 'baz', 'transId': 'uniqueId4', 'qty': 400}, {'dept': '002', 'sku'...

Python比较运算符从左到右链接/分组?【代码】

operator precedence的Python文档指出:Operators in the same box group left to right (except forcomparisons, including tests, which all have the same precedence andchain from left to right — see section 07001…)这是什么意思?特别: >“同一个盒子组中的运算符从左到右(除了比较……)“ – 做比较不是从左到右分组?>如果比较不是从左到右分组,那么他们做了什么呢?他们“链”而不是“群体”吗?>如果比较“链”而不...

分组 - 相关标签