首页 / PYTHON / python – 使用pandas对组进行分组和比较

python – 使用pandas对组进行分组和比较

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 使用pandas对组进行分组和比较，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2100字，纯文字阅读大概需要4分钟。

内容图文

我的数据看起来像：

Identifier  Category1 Category2 Category3 Category4 Category5
1000           foo      bat       678         a.x       ld
1000           foo      bat       78          l.o       op
1000           coo      cat       678         p.o       kt
1001           coo      sat       89          a.x       hd
1001           foo      bat       78          l.o       op
1002           foo      bat       678         a.x       ld
1002           foo      bat       78          l.o       op
1002           coo      cat       678         p.o       kt

我想要做的是比较1000到1001和1002,依此类推.我希望代码给出的输出是：1000与1002相同.因此,我想要使用的方法是：

>首先将所有标识符项分组到单独的数据帧中(可能？).例如,df1将是属于标识符1000的所有行,df2将是属于标识符1002的所有行.(**请注意,我希望代码自己执行此操作,因为有数百万行,而不是我编写代码手动比较标识符**).我尝试过使用pandas的groupby功能,它可以很好地进行分组,但后来我不知道如何比较这些组.
>比较每个组/子数据帧.

我想到的一种方法是将特定标识符的每一行读入数组/向量,并使用比较度量(曼哈顿距离,余弦相似性等)比较数组/向量.

感谢任何帮助,我是Python的新手.提前致谢！

解决方法:

您可以执行以下操作：

import pandas as pd

input_file = pd.read_csv("input.csv")
columns = ['Category1','Category2','Category3','Category4','Category5']

duplicate_entries = {}

for group in input_file.groupby('Identifier'):
    # transforming to tuples so that it can be used as keys on a dict
    lines = [tuple(y) for y in group[1].loc[:,columns].values.tolist()]    
    key = tuple(lines) 

    if key not in duplicate_entries:
        duplicate_entries[key] = []

    duplicate_entries[key].append(group[0])

然后,duplicate_entries值将包含重复标识符的列表

duplicate_entries.values()
> [[1000, 1002], [1001]]

编辑：

要仅获取具有重复项的条目,您可以使用以下内容：

all_dup = [dup for dup in duplicate_entries if len(dup) > 1]

解释索引(抱歉,我之前没有解释过)：迭代df.groupby结果给出一个元组,其中第一个条目是组的键(在这种情况下,它将是’标识符’),第二个条目是是一系列分组的数据帧.因此,要获取包含重复条目的行,我们将使用[1]并在[0]处找到该组的“标识符”.因为在duplicate_entries数组中我们想要该条目的标识符,所以使用group [0]会得到我们的信息.

内容总结

以上是互联网集市为您收集整理的python – 使用pandas对组进行分组和比较全部内容，希望文章能够帮你解决python – 使用pandas对组进行分组和比较所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/796201.html

来源：【匿名】

【上一篇】Python按频率排序字符串 – 无法使用sorted()函数排序【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 使用pandas对组进行分组和比较】教程文章相关的互联网学习教程文章

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

import lxml import requests from lxml import etreeurl = ‘https://datachart.500.com/ssq/history/newinc/history.php?limit=5000&sort=0‘ resp = requests.get(url) hm = etree.HTML(resp.text) # 在返回页面内容的任意位置查找id=tdata的tbody标签，并取其下所有的tr标签内容，赋给trs列表 trs = hm.xpath("//tbody[@id=‘tdata‘]/tr")f = open(‘data.csv‘, ‘w‘) # 将攫取的数据存到data.csv文件 for tr in trs:data_l...

Python Pandas库的学习（三）【代码】【图】

今天我们来继续讲解Python中的Pandas库的基本用法那么我们如何使用pandas对数据进行排序操作呢？food.sort_values("Sodium_(mg)",inplace= True) print(food["Sodium_(mg)"]) food.sort_values("Sodium_(mg)",inplace=True,ascending= False) print(food["Sodium_(mg)"])我们对food，进行sort_values方法，会自动帮我们排序，第一个参数"Sodium_(mg)"是我们数据中的列名意思是说，你要对哪一列数据进行排序，inplace 参数的意思是，...

【转载】python安装numpy和pandas【代码】

转载：原文地址 http://www.cnblogs.com/lxmhhy/p/6029465.html 最近要对一系列数据做同比比较，需要用到numpy和pandas来计算，不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了。首要条件，python版本必须是2.7以上。linux首先安装依赖包yum -y install blas blas-devel lapack-devel lapack yum -y install seaborn scipy yum -y install freetype freetype-devel libpng libpng-devel yum -y ins...

Python3快速入门（十五）——Pandas数据处理【代码】

Python3快速入门（十五）——Pandas数据处理一、函数应用1、函数应用简介如果要将自定义函数或其它库函数应用于Pandas对象，有三种使用方式。pipe()将函数用于表格，apply()将函数用于行或列，applymap()将函数用于元素。2、表格函数应用可以通过将函数对象和参数作为pipe函数的参数来执行自定义操作，会对整个DataFrame执行操作。# -*- coding=utf-8 -*- import pandas as pd import numpy as npdef adder(x, y):return x + yif ...

利用 Python 进行数据分析（九）pandas 汇总统计和计算【图】

pandas 对象拥有一些常用的数学和统计方法。例如，sum() 方法，进行列小计： sum() 方法传入 axis=1 指定为横向汇总，即行小计： idxmax() 获取最大值对应的索引：还有一种汇总是累计型的，cumsum()，比较它和 sum() 的区别：unique() 方法用于返回数据里的唯一值： value_counts() 方法用于统计各值出现的频率： isin() 方法用于判断成员资格：安装步骤已经在首篇随笔里写过了，这里不在赘述。利用 Python 进行数据分析（一）简...

Python Numpy,Pandas笔记【代码】

NumpyNumpy是python的一个库。支持维度数组与矩阵计算并提供大量的数学函数库。#浮点数转int arr = np.array([1.2,1.3,1.4],[1.5,1.6,1.7])#创建ndarray时候也可以指定dtype arr.astype(dtype = np.int) #对数组批量运算,作用在每个元素上 arr = np.array([1,2,3],[4,5,6]) print arr**5 #索引和切片 arr = np.array([1,2,3,4,5,6]) print arr[:2]#arr[0]和arr[1] arr = np.array([1,2,3],[4,5,6]) print arr[:2] #打印第1，2行#布...

利用Python进行数据分析-Pandas(第二部分)【代码】

上一个章节中我们主要是介绍了pandas两种数据类型的具体属性，这个章节主要介绍操作Series和DataFrame中的数据的基本手段。重新索引　　pandas对象的一个重要方法是reindex，其作用是创建一个新对象，它的数据符合新的索引：import pandas as pdobj = pd.Series([4.5, 7.2, -5.3, 3.6], index=[‘d‘, ‘b‘, ‘a‘, ‘c‘]) print(obj)d 4.5 b 7.2 a -5.3 c 3.6 dtype: float64 用该Series的reindex将会根据新索引进行...

2018.03.26 Python-Pandas 字符串常用方法【代码】

import numpy as np　　import pandas as pd 1#字符串常用方法 - strip 2 s = pd.Series([‘ jack ‘,‘jill‘,‘ jease ‘,‘feank‘])3 df = pd.DataFrame(np.random.randn(3,2),columns=[‘ Column A‘,‘ Column B‘],index=range(3))4print(s)5print(df.columns)6 7print(‘----‘)8print(s.str.lstrip().values)#去掉左边的空格 9print(s.str.rstrip().values)#去掉右边的空格10 df.columns = df.columns.str.strip() 11pri...

Python数据分析--Pandas知识点(三)【代码】【图】

本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘.Python数据分析--Pandas知识点(一)Python数据分析--Pandas知识点(二)下面将是在知识点一, 二的基础上继续总结. 前面所介绍的都是以表格的形式中展现数据, 下面将介绍Pandas与Matplotlib配合绘制出折线图, 散点图, 饼图, 柱形图, 直方图等五大基本图形.Matplotlib是python中的一个2D图形库, 它能以各种硬拷贝的格式和跨平台的交互式环境生成高质量的图形, 比如...

python中安装pandas【代码】【图】

在运行网上找的代码时，报错：ImportError: No module named ‘pandas‘，解决：安装pandas安装过程：（因为网上教程有的说用pip命令行安装；有的直接下载安装包，然后复制到Python的安装目录中，就对比了一下有没有区别，发现并没有什么区别。而且pip命令行安装会把pandas需要的其他安装包自动安装，而手动安装的话，需要再一个一个安装依赖包）w+r打开命令行，直接在c:\user\admin下用pip命令安装，安装后，pandas就是在"python的...

python+matplotlib制作雷达图3例分析和pandas读取csv操作【代码】【图】

1.例一图1代码1#第1步：导出模块import numpy as np import matplotlib.pyplot as plt from matplotlib import font_manager # 中文字体设置第1步，导出模块#中文字体设置第2步：引出字体模块和位置 my_font = font_manager.FontProperties(fname="/usr/share/fonts/truetype/noto/simsun.ttf")#数据来源，单独设定，非文件来源 #dataLenth = 8 #数据个数，8组数据 #标签 labels = np.array([‘3℃‘,‘5℃‘,‘6℃‘,‘3℃‘,‘1...

Python，使用pandas保存数据为csv格式的文件【代码】

使用pandas对数据进行保存时，可以有两种形式进行保存　　一、对于数据量不是很大的文件，可以放到列表中，进行一次性存储。　　二、对于大量的数据，可以考虑一边生成，一边存储，可以避免开辟大量内存空间，去往列表中存储数据。本人才疏学浅，只懂一些表面的东西，如有错误，望请指正！下面通过代码进行说明 1import pandas as pd2 3 4class SaveCsv:5 6def__init__(self):7 self.clist = [[1,2,3], [4,5,6], [7,8,9...

Python - pandas 数据分析【代码】

pandas: powerful Python data analysis toolkit官方文档： http://pandas.pydata.org/pandas-docs/stable/ 1. 导入包pandasimport pandas as pd 2. 获取文件夹下文件名称import os filenames=[]path="C:/Users/Forrest/PycharmProjects/test" for file in os.listdir(path):filenames.append(file) 3. 读前几行文件(.csv文件)# -*- coding: utf-8 -*- ##读前几行文件 f= open("C:/Users/Forrest/PycharmProjects/test/train.csv")...

Python数据分析库pandas ------ merge、concatenation 、pd.concat合并与拼接【代码】【图】

对于合并操作，熟悉SQL的读者可以将其理解为JOIN操作，它使用一个或多个键把多行数据结合在一起.事实上，跟关系型数据库打交道的开发人员通常使用SQL的JOIN查询，用几个表共有的引用值（键）从不同的表获取数据。以这些键为基础，我们能够获取到列表形式的新数据，这些数据是对几个表中的数据进行组合得到的。pandas库中这类操作叫作合并，执行合并操作的函数为 merge(). 1import pandas as pd2import numpy as np3 4 frame1 = p...

Python数据分析(二): Pandas技巧 (2)【图】

Pandas的第一部分: http://www.cnblogs.com/cgzl/p/7681974.htmlgithub地址: https://github.com/solenovex/My-Machine-Learning-Notebook很抱歉, 因为工作繁忙, 更新的比较慢.数据的选取和索引 Pandas对数据的基本操作原文：http://www.cnblogs.com/cgzl/p/7908420.html

首页 / PYTHON / python – 使用pandas对组进行分组和比较

python – 使用pandas对组进行分组和比较

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 使用pandas对组进行分组和比较】教程文章相关的互联网学习教程文章

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

Python Pandas库的学习（三）【代码】【图】

【转载】python安装numpy和pandas【代码】

Python3快速入门（十五）——Pandas数据处理【代码】

利用 Python 进行数据分析（九）pandas 汇总统计和计算【图】

Python Numpy,Pandas笔记【代码】

利用Python进行数据分析-Pandas(第二部分)【代码】

2018.03.26 Python-Pandas 字符串常用方法【代码】

Python数据分析--Pandas知识点(三)【代码】【图】

python中安装pandas【代码】【图】

python+matplotlib制作雷达图3例分析和pandas读取csv操作【代码】【图】

Python，使用pandas保存数据为csv格式的文件【代码】

Python - pandas 数据分析【代码】

Python数据分析库pandas ------ merge、concatenation 、pd.concat合并与拼接【代码】【图】

Python数据分析(二): Pandas技巧 (2)【图】

PYTHON - 相关标签

分组 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程