【[Python]pyhon去除txt文件重复行 python 2020.2.10】教程文章相关的互联网学习教程文章

[Python]pyhon去除txt文件重复行 python 2020.2.10【代码】

代码如下: 1import shutil2 3 readPath=‘E:/word4.txt‘#要处理的文件 4 writePath=‘E:/word5.txt‘#要写入的文件 5 lines_seen=set()6 outfiile=open(writePath,‘a+‘,encoding=‘utf-8‘)7 f=open(readPath,‘r‘,encoding=‘utf-8‘)8for line in f:9if line notin lines_seen: 10 outfiile.write(line) 11 lines_seen.add(line) 原文:https://www.cnblogs.com/zlc364624/p/12293034.html

Python 去重csv文件中相同的重复行

通常会分为两种情况,一种是去除完全重复的行数据,另一种是去除某几列重复的行数据,就这两种情况可用下面的代码进行处理。 1. 去除完全重复的行数据data.drop_duplicates(inplace=True)2. 去除某几列重复的行数据data.drop_duplicates(subset=[A,B],keep=first,inplace=True)subset: 列名,可选,默认为None keep: {‘first’, ‘last’, False}, 默认值 ‘first’first: 保留第一次出现的重复行,删除后面的重复行。 last: ...

python-检测几乎重复的行【代码】

假设我有一个表,其中包含日期和每个日期的值(加上其他列).我可以通过使用查找同一天具有相同值的行data.duplicated(subset=["VALUE", "DAY"], keep=False)现在,假设我要允许一天减少1或2天,值最多减少10天,我该怎么做? 例:DAY MTH YYY VALUE NAME 22 9 2016 8.25 John 22 9 2016 43 John 6 11 2016 28.25 Mary 2 10 2016 50 George 23 11 2016 90 George 23 10 2016 30 Jenn 2...

python – 基于不同列中的值重复行【代码】

我有一个交易数据框.每行代表两个项目的交易(将其视为2个事件票据或其他事务的交易).我想根据销售数量复制每一行. 这是示例代码:# dictionary of transactionsd = {'1': ['20', 'NYC', '2'], '2': ['30', 'NYC', '2'], '3': ['5', 'NYC', '2'], '4': ['300', 'LA', '2'], '5': ['30', 'LA', '2'], '6': ['100', 'LA', '2']}columns=['Price', 'City', 'Quantity']# create dataframe and rename columnsdf = pd.DataFrame.f...

python – pandas透视数据帧,重复行【代码】

参见英文答案 > How to pivot a dataframe 1个在熊猫中旋转我有点麻烦.我正在处理的数据框(日期,位置,数据)如下所示:dates location data date1 A X date2 A Y date3 A Z date1 B XX date2 B YY基本上,我试图在位置上进行调整以得到如下数据框:dates A B C date1 X XX etc... date2 Y YY ...

python – 比较两个文本文件,删除重复的行,并将结果写入新的文本文件【代码】

我有两个文本文件(行数/大小不相等).我想将较短文本文件的每一行与较长文本文件的每一行进行比较.比较一下,如果有任何重复的字符串,我想删除它们.最后,我想将结果写入新的文本文件并打印内容. 是否有一个简单的脚本可以为我做这个? 任何帮助将非常感激. 文本文件不是很大.一个有大约10行,另一个有大约5.我试过的代码(失败的代码)如下:for line in file2: line1 = line for line in file1:requested3 = file('request2.txt','a')i...

python – 在文件中突出但不完全重复的行【代码】

我正在梳理一个webapp的日志文件,以查找突出的语句. 大多数线条相似且无趣.我会通过Unix uniq传递它们,但是没有过滤,因为所有行都略有不同:它们都有不同的时间戳,类似的语句可能会打印不同的用户ID等. 什么是一种方法和/或工具来获得与其他任何一条明显不同的线条? (但是,再次,不是精确的重复) 我正在考虑使用Python的difflib,但这似乎是为了区分两个文件,而不是同一个文件中的所有线对. [编辑] 我假设解决方案会为每一行提供唯一...

使用python计算csv中的重复行【代码】

我想这对于一个体面的Python开发来说很简单 – 我还在学习!给定一个带有重复电子邮件的csv,我想迭代并写出重复电子邮件的数量,例如: infile.csvCOLUMN 0 some@email.com some@email.com another@address.com example@email.comoutfile.csvCOLUMN 0 COLUMN 1 some@email.com 2 another@address.com 1 example@email.com 1到目前为止,我可以删除重复import csvf = csv.reader(open('infile....

python – 在Pandas中查找重复行,其中列值的顺序无关紧要【代码】

示例数据帧:import pandas as pddata = data = { 'num1': [1,2,3,4,5], 'num2': [1,1,2,3,1],'num3': [5,4,3,2,1]}df = pd.DataFrame(data)print(df.head())>>> df.head()num1 num2 num3 0 1 1 5 #dups with row 4 1 2 1 4 2 3 2 3 3 4 3 2 4 5 1 1 #dups with row 1在此示例数据框中,我正在尝试提取第一行和最后一...

Pandas / Python将两个数据帧组合在一起,形成重复的行【代码】

好吧,这似乎应该很容易与合并或连接操作,但我不能破解它.我在熊猫工作. 我有两个数据帧,它们之间有重复的行,我希望以不重复行或列的方式组合它们.它会像这样工作df1:A B a 1 b 2 c 3df2:A B b 2 c 3 d 4df3 = df1 combined with df2A B a 1 b 2 c 3 d 4我尝试过的一些方法是选择一个但不是另一个的行(一个XOR),然后追加它们,但我无法弄清楚如何进行选择.我的另一个想法是追加它们并删除重复的行,但我不知道如何做后者.解决方法:...

python – Pandas – 基于条件的重复行【代码】

如果行符合条件,我正在尝试创建重复行.在下表中,我创建了一个基于groupby的累积计数,然后是groupby的MAX的另一个计算.df['PathID'] = df.groupby(DateCompleted).cumcount() + 1 df['MaxPathID'] = df.groupby(DateCompleted)['PathID'].transform(max)Date Completed PathID MaxPathID 1/31/17 1 3 1/31/17 2 3 1/31/17 3 3 2/1/17 1 1 2/2/17 ...

python – Pandas – 删除除了另一列中值最高的行之外的重复行【代码】

我有一个大型数据框(超过100列,数十万行),其中包含多个包含重复数据的行.我试图删除重复的行,保持不同列中具有最大值的行. 基本上,我正在根据时间段将数据分类到单个容器中,因此在不同时期,人们可能会发现大量重复,因为大多数实体都存在于所有时间段.然而,不能允许的是同一实体在给定时间段内出现不止一次. 我在python pandas: Remove duplicates by columns A, keeping the row with the highest value in column B中尝试了一种数...

python – Pandas DataFrame计算重复行并填充列【代码】

我创建了一个DataFrame,现在需要计算每个重复的行(例如df [‘Gender’].假设性别’男性’出现两次而女性出现三次,我需要这个列:Gender Occurrence Male 1 Male 2 Female 1 Female 2 Female 3有没有办法与熊猫一起做到这一点?解决方法:按性别分组后使用cumcount方法:df = pd.DataFrame({'Gender':['Male','Male','Female','Female','Female']}) df['Occurrence'] = df.groupby('Gender').cumcount() + 1 prin...

Python Pandas使用Additional Column标识重复的行【代码】

我有以下Dataframe:df Out[23]: PplNum RoomNum Value 0 1 0 265 1 1 12 170 2 2 0 297 3 2 12 85 4 2 0 41 5 2 12 144通常,PplNum和RoomNum是这样生成的,它将始终遵循以下格式:for ppl in [1,2,2]:for room in [0, 12]:print(ppl, room)1 0 1 12 2 0 2 12 2 0 2 12但现在我想要实现的是标记PplNum和RoomNum的重复组合,以便我...

python – 将pandas数据框重塑为与重复行一样多的列【代码】

我有这个数据框:>> df = pd.DataFrame({'Place' : ['A', 'A', 'B', 'B', 'C', 'C'], 'Var' : ['All', 'French', 'All', 'German', 'All', 'Spanish'], 'Values' : [250, 30, 120, 12, 200, 112]})>> dfPlace Values Var 0 A 250 All 1 A 30 French 2 B 120 All 3 B 12 German 4 C 200 All 5 C 112 Spanish每个Place都有两行的重复模式.我想重塑它,所...