【如何使用Python在一个时间段内对行进行分组】教程文章相关的互联网学习教程文章

如何在python中分组并绘制2列数据框【代码】

我有一个包含两列的数据集:“种类”和观察值“年”.我已经对数据进行了子集处理,因此在下面的数据集中它仅包含一个物种“蓝鲸”:Species Year 1 Blue Whale 1920 2 Blue Whale 1920 3 Blue Whale 1920 5 Blue Whale 1920 6 Blue Whale 1920 7 Blue Whale 1920 16 Blue Whale 1920 17 Blue Whale 1922 18 Blue Whale 1922 19 Blue Whale 1922 20 Blue Whale 1922 ...

使用Pandas在Python中对数据框的行子集进行分组【代码】

我从包含30万行的数据集中得到以下数据框:CustomerID Revenue 0 17850.0 15.30 1 17850.0 11.10 2 13047.0 17.85 3 13047.0 17.85 4 17850.0 20.34 5 13047.0 12.60 6 13047.0 12.60 7 13047.0 31.80 8 17850.0 20.34 9 17850.0 15.30 10 13047.0 9.90 11 13047.0 30.00 12 13047.0 31.80 13 12583.0 40.80 14 12583.0 39.60 15 13047.0...

python-PySpark数字窗口分组依据【代码】

我希望能够按步长设置Spark组,而不是单个值.有什么火花类似于PySpark 2.x的用于数字(非日期)值的窗口函数? 类似于以下内容:sqlContext = SQLContext(sc) df = sqlContext.createDataFrame([10, 11, 12, 13], "integer").toDF("foo") res = df.groupBy(window("foo", step=2, start=10)).count()解决方法:您可以重用时间戳一并以秒为单位表示参数.翻滚:from pyspark.sql.functions import col, windowdf.withColumn("window",win...

Python:按时间间隔分组【代码】

我有一个看起来像这样的数据框: 我正在使用python 3.6.5和datetime.time对象作为索引print(sum_by_time)TripsTime00:00:00 10 01:00:00 10 02:00:00 10 03:00:00 10 04:00:00 20 05:00:00 20 06:00:00 20 07:00:00 20 08:00:00 30 09:00:00 30 10:00:00 30 11:00:00 30如何按时间间隔将此数据帧分组以获取如下内容:TripsTime 00:00:00 - 03:00:00 40 04:00:00 - 07:00:00 ...

python-如何在给定列值的函数中对列进行分组和排序【代码】

我有一个如下数据框,我需要编写一个函数,该函数应该能够为我提供以下结果: 输入参数: >国家/地区,例如“ INDIA”>年龄,例如“学生” 我的输入数据框如下所示:Card Name Country Age Code Amount 0 AAA INDIA Young House 100 1 AAA Australia Old Hardware 200 2 AAA INDIA Student House 300 3 AAA US Young ...

python-分组相关的搜索关键字【代码】

我有一个日志文件,其中包含输入到网站搜索引擎中的搜索查询.我想将相关的搜索查询“分组”在一起以生成报告.我在大多数Web应用程序中都使用Python-因此该解决方案可以基于Python,或者如果更容易使用SQL进行操作,则可以将字符串加载到Postgres中. 示例数据:dog food good dog trainer cat food veterinarian组应包括: 猫:猫食 狗:dog food good dog trainer餐饮:dog food cat food等等… 有想法吗?也许某种“索引算法”?解决...

python-如何在Django中以比应用程序更高的粒度对单元测试进行分组?

在Django项目中,单元测试通常由应用程序组织,而Django提供了一种工具来运行所有测试,针对单个应用程序的测试,单个测试用例或单个测试方法. 但是,我发现单个应用程序中的测试用例通常属于单独的逻辑组或集群,并且仅能够运行单个测试组通常会很有用.想象一下,例如: >我有几个测试用例,涵盖了单个模型的每个不同配置,并且我想在开发模型时运行所有这些(包括它们). (这特别麻烦,因为这样做的便宜方法是将测试用例集中在一起,所以现在您...

如何将函数应用于Python熊猫中的分组数据框?【代码】

我将数据框按其列之一进行分组,如下所示(例如虹膜数据集):grouped_iris = iris.groupby(by="Name")我想为每个组应用一个函数,该函数对grouped_iris中的列的子集执行特定的操作.如何为每个组(名称的每个值)求和一个PetalLength和PetalWidth的函数,然后将其放在一个名为SumLengthWidth的新列中?我知道我可以使用agg汇总每个组的所有列,如下所示:grouped_iris.agg(sum)但是,我要寻找的是一个错误:与每个字段的总和不同的是,我只希...

在python中,如何根据键(相邻组)将元素分组在一起?【代码】

在python中,我想根据一个键将元素分组在一起(在下面的示例中,键是第二个元素或element [1]).initial_array = [[10, 0], [30, 0], [40, 2], [20, 2], [90, 0], [80, 0]]仅将键相同且相邻的元素组合在一起.splited_array = [ [[10, 0], [30, 0]], [[40, 2], [20, 2]], [[90, 0], [80, 0]] ]另外,我希望引起拆分的元素也位于上一个数组的末尾.splited_array = [ [[10, 0], [30, 0], [40, 2]], [[40, 2], [20, 2], [90, 0]], [[90, 0],...

python-根据pandas数据框中的列标签对数据进行分组【代码】

我一直在阅读有关pandas数据框中的分层索引和多索引的信息,但似乎这些都是针对有序标签的.例如,我的数据如下所示: 我希望能够根据列标签将数据分组在一起.通过平均将第3行中所有带有’d’的列汇总在一起. 将此excel数据(或绝对需要的csv)放入数据帧的最佳方法是什么,以便我可以执行这些操作,以及如何进行操作? 任何建议或参考将不胜感激 编辑 我尝试使用以下命令从csv加载数据:data = pd.read_csv('Dataset.csv', index_col=0, ...

python_分组函数

在做搜索员工的服务时,用户会输出英文名和工号,例如emma0012,这个时候使用jiaba分词不能把名字和工号分开,不能匹配不同的字段,所以在分词后使用分组函数特殊处理一下from itertools import groupby word = 'emma0012' for k, g in groupby(word, key=lambda x: x.isdigit()):words.append(''.join(list(g)))

python-绘制按列分组的熊猫数据框【代码】

我有以下熊猫数据框“ df”:---------------------------------------------------C1 C2 C3 C4 Type ---------------------------------------------------Name ---------------------------------------------------x1 a1 b1 c1 d1 'A'x2 a2 b2 c2 d2 'A'x3 a3 b3 c3 d3 'B'x4 a4 b4 c4 d4 'B'x5 a5...

我可以在Python单元测试中对测试方法和/或测试类进行分组吗【代码】

来自PHPUnit,使用@group annotation对测试类或函数进行分组很容易.这样,我可以运行或排除非常特殊的测试子集,可能跨多个文件. 我想知道python unittest是否有类似的东西.如果是这种情况,我该如何使用它并从CLI运行它? 谢谢.解决方法:通过将它们全部放在一个类中,可以运行一组测试函数.假设您的单元测试中有4个测试功能,而您想要两组2个功能.您需要使用两个类创建一个tests.py脚本,每个类具有2个函数:from unittest import TestCa...

python-Pandas Dataframe中分组依据中的多个聚合【代码】

SQL : Select Max(A) , Min (B) , C from Table group by C 我想在数据框上的熊猫中执行相同的操作.我离得更近了:DF2= DF1.groupby(by=['C']).max() 我在哪里得到两列的最大值,在分组时如何做多个操作.解决方法:试试agg()函数:import numpy as np import pandas as pddf = pd.DataFrame(np.random.randint(0,5,size=(20, 3)), columns=list('ABC')) print(df)print(df.groupby('C').agg({'A': max, 'B':min}))输出:A B C 0 ...

python-在熊猫中,如何在两个不同的轴上分组两次?【代码】

这可以按5年组将我的数据分组:dg = df.groupby((df.index//5)*5).mean()['matches-ratio'] dg.plot()这可以按性别对我的数据进行分组(一列):dg = df.groupby(['gender'])['matches-ratio'] dg.plot()但我似乎无法按性别和5年年龄段进行分组.我已经尝试过类似dg = df.groupby([‘gender’,(df.index // 5)* 5]).mean()[‘matches-ratio’]的方法,但这给出了奇怪的结果,其中日期是按性别(???)和5年组进行分组,因此x轴标记为“性别,...

分组 - 相关标签