【python-如何比较pandas groupby对象的列值并将其汇总到新的列行中】教程文章相关的互联网学习教程文章

python – pandas groupby一次用于多个数据帧/文件【代码】

我有多个巨大的tsv文件,我正在尝试使用pandas进行处理.我想按’col3’和’col5’进行分组.我试过这个:import pandas as pd df = pd.read_csv('filename.txt', sep = "\t") g2 = df.drop_duplicates(['col3', 'col5']) g3 = g2.groupby(['col3', 'col5']).size().sum(level=0) print g3它到目前为止工作正常,打印输出如下:yes 2 no 2我希望能够聚合多个文件的输出,即能够同时按所有文件中的这两列进行分组,并打印一个常见输出,其...

python – 在带有groupby的时间序列列上使用Pandas .diff()【代码】

我有一个客户购买的CSV文件,没有按照我读入Pandas Dataframe的特定顺序.我想为每次购买添加一个列,并显示自上次购买以来已经过了多少时间,按客户分组.我不确定它在哪里得到差异,但它们太大了(即使在几秒钟内). CSV:Customer Id,Purchase Date 4543,1/1/2015 4543,2/5/2015 4543,3/15/2015 2322,1/1/2015 2322,3/1/2015 2322,2/1/2015Python:import pandas as pd import time start = time.time() data = pd.read_csv('data.csv',...

python – Pandas:使用现有的索引和列标题创建MultiIndex / groupby【代码】

我正在尝试采用二维数据帧并将其转换为(或多或少)一维数据帧,其中现有列用作第一级索引,列标题用作第二级指数. 我一直在尝试.melt(),. groupby(),. transpose(),. MultipleIndex(),.pivot()……一切都没有运气 – 我认为主要是因为他们需要做的事实以某种方式结合起来让我望而却步. 建立:import pandas as pd from io import StringIOcsv = StringIO(u''' AXIS A B C D X 100 101 102 103...

python – 使用pandas groupby时组合复杂的聚合函数【代码】

想想下表np.random.seed(42) ix = pd.date_range('2017-01-01', '2017-01-15', freq='60s') df = pd.DataFrame({'val': np.random.random(size=ix.shape[0]),'active': np.random.choice([0,1], size=ix.shape[0])},index=ix ) df.sample(10)收益:active val 2017-01-02 06:05:00 1 0.774654 2017-01-04 08:15:00 1 0.934796 2017-01-13 01:02:00 0 0.792351...我的目标是计算: >每天总和>每天活动量的总和 每日总和这个...

Python为groupby总结了两次【代码】

在对数据帧进行分组后,我正在努力争取一系列的数据,我希望有人可以帮我一个想法.基本上我在下面的例子中我需要每个“材料”的总和.基本上材料“ABC”应该给我2,而所有其他因为它们只有一个符号操作将具有相同的值.import numpy as np import pandas as pddf = pd.DataFrame({ "Material" : ["M-12", "H4-LAMPE", "M-12", "H4-LAMPE","ABC" , "H4-LAMPE", "ABC", "ABC"] , "Quantity" : [6, 1, 3, 5, 1, 1, 10, 9],"TYPE": ["+", "-...

python – Pandas groupby并在列表中获得dict【代码】

我正在尝试提取分组行数据以使用值将标签颜色绘制为另一个文件. 我的数据框如下所示.df = pd.DataFrame({'x': [1, 4, 5], 'y': [3, 2, 5], 'label': [1.0, 1.0, 2.0]})x y label 0 1 3 1.0 1 4 2 1.0 2 5 5 2.0我想获得一组标签列表{'1.0': [{'index': 0, 'x': 1, 'y': 3}, {'index': 1, 'x': 4, 'y': 2}],'2.0': [{'index': 2, 'x': 5, 'y': 5}]}这该怎么做?解决方法:您可以使用itertuples和defulatdict:...

python – pandas – 检查dataframe groupby中的非唯一值【代码】

我有这个简单的数据帧df:a,b 1,2 1,3 1,4 1,2 2,1 2,2 2,3 2,5 2,5我想检查b中是否有关于每个组的重复项.到目前为止,我做了以下事情:g = df.groupby('a')['b'].unique()返回:a 1 [2, 3, 4] 2 [1, 2, 3, 5]但我想要的是一个列表,对于a中的每个组,在b中出现多次.在这种情况下的预期输出将是:a 1 [2] 2 [5]解决方法: g=df.groupby('a')['b'].value_counts() g.where(g>1).dropna()

python – 在Pandas中,在groupby之后,分组列已经消失了【代码】

我有以下名为ttm的数据框:usersidid clienthostid eventSumTotal LoginDaysSum score 0 12 1 60 3 1728 1 11 1 240 3 1331 3 5 1 5 3 125 4 6 1 16 2 216 2 10 3 ...

python – 使用groupby的Pandas fillna【代码】

我试图使用具有相似列值的行来估算值. 例如,我有这个数据帧one | two | three 1 1 10 1 1 nan 1 1 nan 1 2 nan 1 2 20 1 2 nan 1 3 nan 1 3 nan我想使用列[‘one’]和[‘two’]的键,这是相似的,如果列[‘three’]不完全是nan,那么从列中的值为一行类似键的现有值’3′] 这是我的愿望结果one | two | three 1 1 10 1 1 10 1 1 ...

python – 如何获得Pandas中groupby之后的列计数百分比【代码】

我正在尝试在数据列表中获取每个等级的等级分布.但是,我无法弄清楚如何获得每个年级的比例/百分比超过其等级组.这是一个例子: df.head()name rank grade Bob 1 A Bob 1 A Bob 1 B Bob 1 C Bob 2 B Bob 3 C Joe 1 C Joe 2 B Joe 2 B Joe 3 A Joe 3 B Joe 3 B我使用grade_count = df.groupby([‘n...

Python / Pandas:执行groupby-apply时的意外索引【代码】

我在Python3上使用Pandas和Numpy,具有以下版本: > Python 3.5.1(通过Anaconda 2.5.0)64位>熊猫0.19.1> Numpy 1.11.2(这里可能不相关) 以下是产生问题的最小代码:import pandas as pd import numpy as npa = pd.DataFrame({'i' : [1,1,1,1,1], 'a': [1,2,5,6,100], 'b': [2, 4,10, np.nan, np.nan]}) a.set_index(keys='a', inplace=True) v = a.groupby(level=0).apply(lambda x: x.sort_values(by='i')['b'].rolling(2, min_per...

python – Dask:使用groupby获取具有最大值的行【代码】

使用变换可以在Pandas中解决相同的问题,如here所述使用dask唯一正在工作的solution我发现使用merge.我想知道是否还有其他方法可以实现它.解决方法:首先,我想在原始问题中重写引用的脚本,以确保我已理解其意图.据我所知,正如我在下面的重写所示,你基本上想要一种方法来提取具有最高计数cnt值的值,用于foo和bar的每个唯一配对.下面是大致如何使用Pandas完成引用的脚本.# create an example dataframe df = pd.DataFrame({'foo' : ['M...

python – groupby – TypeError’DataFrame’对象不可调用【代码】

新手在这里 – 我的第一次尝试似乎没问题,但这是我第二次使用大熊猫.在Windows 7上使用Pandas 0.12.0时,我从SQL中读取了2个数据帧一个按预期使用groupby,所以我确定我的问题不是语法.但另一方面,type(reddf)返回pandas.core.frame.DataFrame,当我尝试reddf.groupby(‘any column’)时,我得到 – 最后几行 – c:\python27\lib\site-packages\pandas\core\groupby.pyc in __init__(self, index, grouper, name, level, sort)1197...

python – Pandas groupby将非连续视为不同的变量?【代码】

我想在groupby期间将非连续的id视为不同的变量,这样我就可以返回stamp的第一个值,并将增量之和作为新的数据帧.这是示例输入和输出.import pandas as pd import numpy as npdf = pd.DataFrame([np.array(['a','a','a','b','c','b','b','a','a','a']),np.arange(1, 11), np.ones(10)]).Tdf.columns = ['id', 'stamp', 'increment']df_result = pd.DataFrame([ np.array(['a','b','c','b','a']), np.array([1,4,5,6,8]), np.array([3,...

python – pandas滚动功能与时间groupby【代码】

这是我的问题.我有一个DataFrame如下:df:2013-10-24 1 2013-10-25 2 2013-11-27 3 2013-11-28 4 2013-12-01 5 2013-12-02 6我想要的是像这样的DataFrame: rolling_mean(df,window =’1M’):2013-10 1.5 2013-11 3.5 2013-12 5.5 rolling_mean(df,window =’2M’):2013-10 NAN 2013-11 2.5 2013-12 4.5 rolling_mean(df,window =’3M’):2013-10 NAN 2013...