首页 / PYTHON / 使用python计算csv中的重复行

使用python计算csv中的重复行

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用python计算csv中的重复行，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含823字，纯文字阅读大概需要2分钟。

内容图文

我想这对于一个体面的Python开发来说很简单 – 我还在学习！给定一个带有重复电子邮件的csv,我想迭代并写出重复电子邮件的数量,例如：

infile.csv

COLUMN 0
some@email.com
some@email.com
another@address.com
example@email.com

outfile.csv

COLUMN 0                 COLUMN 1
some@email.com           2
another@address.com      1
example@email.com        1

到目前为止,我可以删除重复

import csv

f = csv.reader(open('infile.csv','rb'))
writer = csv.writer(open('outfile.csv','wb'))
emails = set()


for row in f:
    if row[0] not in emails:
        writer.writerow(row)
        emails.add( row[0] )

但我无法将计数写入新专栏.

解决方法:

使用Python2.6中的defaultdict

from collections import defaultdict

# count all the emails before we write anything out
emails = defaultdict(int)
for row in f:
    emails[row[0]] += 1

# now write the file
for row in email.items():
    writer.writerow(row)

内容总结

以上是互联网集市为您收集整理的使用python计算csv中的重复行全部内容，希望文章能够帮你解决使用python计算csv中的重复行所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/747859.html

来源：【匿名】

【上一篇】python 简单爬取今日头条热点新闻【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【使用python计算csv中的重复行】教程文章相关的互联网学习教程文章

Python 去重csv文件中相同的重复行

通常会分为两种情况，一种是去除完全重复的行数据，另一种是去除某几列重复的行数据，就这两种情况可用下面的代码进行处理。 1. 去除完全重复的行数据data.drop_duplicates(inplace=True)2. 去除某几列重复的行数据data.drop_duplicates(subset=[A,B],keep=first,inplace=True)subset：列名，可选，默认为None keep： {‘first’, ‘last’, False}, 默认值 ‘first’first：保留第一次出现的重复行，删除后面的重复行。 last： ...

python-检测几乎重复的行【代码】

假设我有一个表,其中包含日期和每个日期的值(加上其他列).我可以通过使用查找同一天具有相同值的行data.duplicated(subset=["VALUE", "DAY"], keep=False)现在,假设我要允许一天减少1或2天,值最多减少10天,我该怎么做？例：DAY MTH YYY VALUE NAME 22 9 2016 8.25 John 22 9 2016 43 John 6 11 2016 28.25 Mary 2 10 2016 50 George 23 11 2016 90 George 23 10 2016 30 Jenn 2...

python – 基于不同列中的值重复行【代码】

我有一个交易数据框.每行代表两个项目的交易(将其视为2个事件票据或其他事务的交易).我想根据销售数量复制每一行. 这是示例代码：# dictionary of transactionsd = {'1': ['20', 'NYC', '2'], '2': ['30', 'NYC', '2'], '3': ['5', 'NYC', '2'], '4': ['300', 'LA', '2'], '5': ['30', 'LA', '2'], '6': ['100', 'LA', '2']}columns=['Price', 'City', 'Quantity']# create dataframe and rename columnsdf = pd.DataFrame.f...

python – pandas透视数据帧,重复行【代码】

参见英文答案 > How to pivot a dataframe 1个在熊猫中旋转我有点麻烦.我正在处理的数据框(日期,位置,数据)如下所示：dates location data date1 A X date2 A Y date3 A Z date1 B XX date2 B YY基本上,我试图在位置上进行调整以得到如下数据框：dates A B C date1 X XX etc... date2 Y YY ...

python – 比较两个文本文件,删除重复的行,并将结果写入新的文本文件【代码】

我有两个文本文件(行数/大小不相等).我想将较短文本文件的每一行与较长文本文件的每一行进行比较.比较一下,如果有任何重复的字符串,我想删除它们.最后,我想将结果写入新的文本文件并打印内容. 是否有一个简单的脚本可以为我做这个？任何帮助将非常感激. 文本文件不是很大.一个有大约10行,另一个有大约5.我试过的代码(失败的代码)如下：for line in file2: line1 = line for line in file1:requested3 = file('request2.txt','a')i...

python – 在文件中突出但不完全重复的行【代码】

我正在梳理一个webapp的日志文件,以查找突出的语句. 大多数线条相似且无趣.我会通过Unix uniq传递它们,但是没有过滤,因为所有行都略有不同：它们都有不同的时间戳,类似的语句可能会打印不同的用户ID等. 什么是一种方法和/或工具来获得与其他任何一条明显不同的线条？ (但是,再次,不是精确的重复) 我正在考虑使用Python的difflib,但这似乎是为了区分两个文件,而不是同一个文件中的所有线对. [编辑] 我假设解决方案会为每一行提供唯一...

使用python计算csv中的重复行【代码】

我想这对于一个体面的Python开发来说很简单 – 我还在学习！给定一个带有重复电子邮件的csv,我想迭代并写出重复电子邮件的数量,例如： infile.csvCOLUMN 0 some@email.com some@email.com another@address.com example@email.comoutfile.csvCOLUMN 0 COLUMN 1 some@email.com 2 another@address.com 1 example@email.com 1到目前为止,我可以删除重复import csvf = csv.reader(open('infile....

python – 在Pandas中查找重复行,其中列值的顺序无关紧要【代码】

示例数据帧：import pandas as pddata = data = { 'num1': [1,2,3,4,5], 'num2': [1,1,2,3,1],'num3': [5,4,3,2,1]}df = pd.DataFrame(data)print(df.head())>>> df.head()num1 num2 num3 0 1 1 5 #dups with row 4 1 2 1 4 2 3 2 3 3 4 3 2 4 5 1 1 #dups with row 1在此示例数据框中,我正在尝试提取第一行和最后一...

Pandas / Python将两个数据帧组合在一起,形成重复的行【代码】

好吧,这似乎应该很容易与合并或连接操作,但我不能破解它.我在熊猫工作. 我有两个数据帧,它们之间有重复的行,我希望以不重复行或列的方式组合它们.它会像这样工作df1:A B a 1 b 2 c 3df2:A B b 2 c 3 d 4df3 = df1 combined with df2A B a 1 b 2 c 3 d 4我尝试过的一些方法是选择一个但不是另一个的行(一个XOR),然后追加它们,但我无法弄清楚如何进行选择.我的另一个想法是追加它们并删除重复的行,但我不知道如何做后者.解决方法:...

python – Pandas – 基于条件的重复行【代码】

如果行符合条件,我正在尝试创建重复行.在下表中,我创建了一个基于groupby的累积计数,然后是groupby的MAX的另一个计算.df['PathID'] = df.groupby(DateCompleted).cumcount() + 1 df['MaxPathID'] = df.groupby(DateCompleted)['PathID'].transform(max)Date Completed PathID MaxPathID 1/31/17 1 3 1/31/17 2 3 1/31/17 3 3 2/1/17 1 1 2/2/17 ...

python – Pandas – 删除除了另一列中值最高的行之外的重复行【代码】

我有一个大型数据框(超过100列,数十万行),其中包含多个包含重复数据的行.我试图删除重复的行,保持不同列中具有最大值的行. 基本上,我正在根据时间段将数据分类到单个容器中,因此在不同时期,人们可能会发现大量重复,因为大多数实体都存在于所有时间段.然而,不能允许的是同一实体在给定时间段内出现不止一次. 我在python pandas: Remove duplicates by columns A, keeping the row with the highest value in column B中尝试了一种数...

python – Pandas DataFrame计算重复行并填充列【代码】

我创建了一个DataFrame,现在需要计算每个重复的行(例如df [‘Gender’].假设性别’男性’出现两次而女性出现三次,我需要这个列：Gender Occurrence Male 1 Male 2 Female 1 Female 2 Female 3有没有办法与熊猫一起做到这一点？解决方法:按性别分组后使用cumcount方法：df = pd.DataFrame({'Gender':['Male','Male','Female','Female','Female']}) df['Occurrence'] = df.groupby('Gender').cumcount() + 1 prin...

Python Pandas使用Additional Column标识重复的行【代码】

我有以下Dataframe：df Out[23]: PplNum RoomNum Value 0 1 0 265 1 1 12 170 2 2 0 297 3 2 12 85 4 2 0 41 5 2 12 144通常,PplNum和RoomNum是这样生成的,它将始终遵循以下格式：for ppl in [1,2,2]:for room in [0, 12]:print(ppl, room)1 0 1 12 2 0 2 12 2 0 2 12但现在我想要实现的是标记PplNum和RoomNum的重复组合,以便我...

python – 将pandas数据框重塑为与重复行一样多的列【代码】

我有这个数据框：>> df = pd.DataFrame({'Place' : ['A', 'A', 'B', 'B', 'C', 'C'], 'Var' : ['All', 'French', 'All', 'German', 'All', 'Spanish'], 'Values' : [250, 30, 120, 12, 200, 112]})>> dfPlace Values Var 0 A 250 All 1 A 30 French 2 B 120 All 3 B 12 German 4 C 200 All 5 C 112 Spanish每个Place都有两行的重复模式.我想重塑它,所...

python-SQLAlchemy,防止重复的行【代码】

我想知道是否有可能防止将重复提交到数据库.例如,假设有一个如下类class Employee(Base):id = Column(Integer, primary_key=True)name = Column(String)如果我要制作一系列这些对象,employee1 = Employee(name='bob') employee2 = Employee(name='bob')session.add_all([employee1, employee2]) session.commit()我只希望将一行添加到数据库,而employee1和employee2指向内存中的同一对象(如果可能). SQLAlchemy中是否有功能可以完成...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / 使用python计算csv中的重复行

使用python计算csv中的重复行

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用python计算csv中的重复行】教程文章相关的互联网学习教程文章

Python 去重csv文件中相同的重复行

python-检测几乎重复的行【代码】

python – 基于不同列中的值重复行【代码】

python – pandas透视数据帧,重复行【代码】

python – 比较两个文本文件,删除重复的行,并将结果写入新的文本文件【代码】

python – 在文件中突出但不完全重复的行【代码】

使用python计算csv中的重复行【代码】

python – 在Pandas中查找重复行,其中列值的顺序无关紧要【代码】

Pandas / Python将两个数据帧组合在一起,形成重复的行【代码】

python – Pandas – 基于条件的重复行【代码】

python – Pandas – 删除除了另一列中值最高的行之外的重复行【代码】

python – Pandas DataFrame计算重复行并填充列【代码】

Python Pandas使用Additional Column标识重复的行【代码】

python – 将pandas数据框重塑为与重复行一样多的列【代码】

python-SQLAlchemy,防止重复的行【代码】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程