【python-来自groupby的Pandas累积差异】教程文章相关的互联网学习教程文章

Python DataFrame-groupby和质心计算【代码】

我有一个包含两列的数据框:一列包含类别,另一列包含300维向量.对于“类别”列中的每个值,我都有很多300维向量.我需要的是按“类别”列对数据帧进行分组,并同时获取与每个类别有关的所有向量的质心值.Category Vector Balance [1,2,1,-5,....,9] Inquiry [-5,3,1,5,...,10] Card [-3,1,2,3,...1] Balance [1,3,-2,1,-5,...,7] Card [3,1,3,4,...,2] 因此,在上述情况下...

python-遍历dataframe groupby【代码】

A B C 0 Bob 10 2 1 Bob 11 8 2 Sarah 23 -2 3 Sarah 24 4 4 Jack 19 -4 5 Jack 21 -1我想获得一个新的df [“ Point”],如下所示: >对于“鲍勃”组:df [“点”]是第一个B值与C值的乘积. 10 * 2 = 20; 10 * 8 = 80.>对于“ Sarah”组:df [“ Point”]是第一个B值与C值的乘积. 23 *(-2)=(-46); 23 * 4 = 92.>对于“杰克”组:df [“点”]是第一个B值与C值的乘积. 19 *(-4)=(-76); 19 *(-1)=(-19). 我的...

python-熊猫groupby和value_counts【代码】

我想对每列中的不同值(我猜是pd.value_counts)进行计数,以便在MultiIndex中按某种级别对数据进行分组.使用groupby(level =参数可以处理multiindex,但是apply会引发ValueError 原始数据框:>>> df = pd.DataFrame(np.random.choice(list('ABC'), size=(10,5)),columns=['c1','c2','c3','c4','c5'], index=pd.MultiIndex.from_product([['foo', 'bar'], ['w','y','x','y','z']]))c1 c2 c3 c4 c5 foo w C C B A Ay A A C B ...

python-更改pandas groupby使用的函数中的值【代码】

我正在执行以下操作:def percentage(x):return x[(x<=5)].count() / x.count() * 100full_data = full_data.groupby(['Id', 'Week_id'], as_index=False).agg({'Volume': percentage})但是我想用百分比函数中的x <= 7,x <= 9,x <= 11等多个值连续进行分组.代替编写多个函数并调用它们的最简单方法是什么?所以基本上我想避免做这样的事情: def percentage_1(x):return x[(x<=5)].count() / x.count() * 100full_data_1 = full_da...

python-熊猫:groupby和unstack以创建用于分类的特征向量【代码】

我有一个熊猫数据框,显示用户在测试问题上的表现.看起来像这样:userID questionID correct -------------------------------1 1 11 5 11 6 01 8 01 10 12 3 12 5 12 6 0. . .. . .. . ...

python-GroupBy-如何使用diff()从DateTime中提取秒【代码】

我有以下数据框:In [372]: df_2 Out[372]: A ID3 DATETIME 0 B-028 b76cd912ff 2014-10-08 13:43:27 1 B-054 4a57ed0b02 2014-10-08 14:26:19 2 B-076 1a682034f8 2014-10-08 14:29:01 3 B-023 b76cd912ff 2014-10-08 18:39:34 4 B-023 f88g8d7sds 2014-10-08 18:40:18 5 B-033 b76cd912ff 2014-10-08 18:44:30 6 B-032 b76cd912ff 2014-10-08 18:46:00 7 B-037 b76cd912ff 2014-10-0...

python-从PySpark中的几列从groupby获取具有最大值的行【代码】

我有一个类似于的数据框from pyspark.sql.functions import avg, firstrdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 22,"201603", "PORT"), (0, "C", 22,"201605", "PORT"), (0, "D", 422,"201601", "DOCK"), (0, "D", 422,"201602", "DOCK"), (0, "C", 422,"201602", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"A", 3213,"201602", "DOCK"), (1,"C", 3213,"20...

python-PySpark groupby和最大值选择【代码】

我有一个PySpark数据框name city datesatya Mumbai 13/10/2016satya Pune 02/11/2016satya Mumbai 22/11/2016satya Pune 29/11/2016satya Delhi 30/11/2016panda Delhi 29/11/2016brata BBSR 28/11/2016brata Goa 30/10/2016brata Goa 30/10/2016我需要为每个名称找出最喜欢的CITY,逻辑是“如果在“名称”“城市”对上具有最大城市出现次数的城市,则将城市作为fav_city.如果发现多个相同的事...

python-Pandas DataFrame在groupby中删除行【代码】

我有一个包含三列的日期,广告商和ID的DataFrame.我首先对数据进行了分组,以查看某些广告商的体积是否太小(例如,count()小于500).然后,我想将这些行放入组表中.df.groupby(['Date','Advertiser']).ID.count()结果如下:Date Advertiser2016-01 A 50000B 50C 4000D 240002016-02 A 6800B 7800C 1232016-03 ...

Python:将功能应用于groupby【代码】

我有一些数据框的形式userid | event_time | activityA 2017-01-01 02:20:34 E1A 2017-01-01 02:20:50 E2 A 2017-03-01 11:23:43 E1 A 2017-03-01 11:23:55 E6B 2017-01-01 08:24:32 E1 B 2017-01-01 08:25:25 E4C 2017-01-01 23:19:21 E3 C 2017-01-01 23:20:04 E11我想对每个组应...

python-分组内的Pandas groupby排序保留了多个聚合【代码】

我想在groupby返回的组中应用排序和限制,如this question.但是,我有多个聚合,并且我希望所有聚合都保留在结果中. 这是一个简单的示例:products = ["A", "B", "C", "D"] stores = ["foo", "bar", "baz"] n = 30product_list = [products[i] for i in np.random.randint(0, len(products), n)] store_list = [stores[i] for i in np.random.randint(0, len(stores), n)] rating_list = np.random.random(n) * 5 sales_list = np.ran...

python-来自groupby的Pandas累积差异【代码】

我需要从MultiIndex级别的开始算起差,从级别的开始算出衰减.我的示例输入和输出将如下所示:values place time A a 120b 100c 90d 50 B e 11f 12g 10h 9valuesA a NaNb -20c -30d -70 B e Nanf +1g -1h -2我可以使用grouby获取...

python-Pandas GroupBy-仅显示具有多个唯一特征值的组【代码】

我有一个看起来像这样的DataFrame df_things,我想在训练之前预测分类的质量A B C CLASS ----------------------- al1 bal1 cal1 Ship al1 bal1 cal1 Ship al1 bal2 cal2 Ship al2 bal2 cal2 Cow al3 bal3 cal3 Car al1 bal2 cal3 Car al3 bal3 cal3 Car我想按类对行进行分组,以便我对功能的分布有所了解.我这样做(例如,在“ B”栏上),df_B = df_things.groupby('CLASS').B.value_counts()...

python-与groupby一起的熊猫数据帧总和【代码】

我有一个熊猫数据框,结构上看起来像这样:[['x', '1', '-7']['x', '2', '-2']['y', '3', '-1']['y', '4', '-3'] ]我必须对第一列进行分组(值x和ys),并为每个x和y找到第二和第三列的总和,如下所示:[['x', 3, -9]['y', 7, -4] ]如何使用熊猫来做到这一点?解决方法:设定我将您的字符串数字转换为实际数字df = pd.DataFrame([['x', '1', '-7'],['x', '2', '-2'],['y', '3', '-1'],['y', '4', '-3']] )df[1] = pd.to_numeric(df[1]) d...

扰乱Python itertools groupby中的奇怪行为/错误?【代码】

我正在使用itertools.groupby来解析一个短的制表符分隔的文本文件.文本文件有几列,我要做的就是将所有在特定列中具有特定值x的条目归为一组.下面的代码对名为name2的列执行此操作,以查找变量x中的值.我试图使用csv.DictReader和itertools.groupby来做到这一点.在表中,有8行符合此条件,因此应返回8个条目.相反,groupby返回两组条目,一组具有单个条目,另一组具有7,这似乎是错误的行为.我在下面对相同的数据手动进行匹配,并得到正确的...