通常会分为两种情况,一种是去除完全重复的行数据,另一种是去除某几列重复的行数据,就这两种情况可用下面的代码进行处理。
1. 去除完全重复的行数据data.drop_duplicates(inplace=True)2. 去除某几列重复的行数据data.drop_duplicates(subset=[A,B],keep=first,inplace=True)subset: 列名,可选,默认为None
keep: {‘first’, ‘last’, False}, 默认值 ‘first’first: 保留第一次出现的重复行,删除后面的重复行。
last: ...
假设我有一个表,其中包含日期和每个日期的值(加上其他列).我可以通过使用查找同一天具有相同值的行data.duplicated(subset=["VALUE", "DAY"], keep=False)现在,假设我要允许一天减少1或2天,值最多减少10天,我该怎么做?
例:DAY MTH YYY VALUE NAME
22 9 2016 8.25 John
22 9 2016 43 John
6 11 2016 28.25 Mary
2 10 2016 50 George
23 11 2016 90 George
23 10 2016 30 Jenn
2...
我有一个交易数据框.每行代表两个项目的交易(将其视为2个事件票据或其他事务的交易).我想根据销售数量复制每一行.
这是示例代码:# dictionary of transactionsd = {'1': ['20', 'NYC', '2'], '2': ['30', 'NYC', '2'], '3': ['5', 'NYC', '2'], '4': ['300', 'LA', '2'], '5': ['30', 'LA', '2'], '6': ['100', 'LA', '2']}columns=['Price', 'City', 'Quantity']# create dataframe and rename columnsdf = pd.DataFrame.f...
参见英文答案 > How to pivot a dataframe 1个在熊猫中旋转我有点麻烦.我正在处理的数据框(日期,位置,数据)如下所示:dates location data
date1 A X
date2 A Y
date3 A Z
date1 B XX
date2 B YY基本上,我试图在位置上进行调整以得到如下数据框:dates A B C
date1 X XX etc...
date2 Y YY
...
我有两个文本文件(行数/大小不相等).我想将较短文本文件的每一行与较长文本文件的每一行进行比较.比较一下,如果有任何重复的字符串,我想删除它们.最后,我想将结果写入新的文本文件并打印内容.
是否有一个简单的脚本可以为我做这个?
任何帮助将非常感激.
文本文件不是很大.一个有大约10行,另一个有大约5.我试过的代码(失败的代码)如下:for line in file2:
line1 = line
for line in file1:requested3 = file('request2.txt','a')i...
我正在梳理一个webapp的日志文件,以查找突出的语句.
大多数线条相似且无趣.我会通过Unix uniq传递它们,但是没有过滤,因为所有行都略有不同:它们都有不同的时间戳,类似的语句可能会打印不同的用户ID等.
什么是一种方法和/或工具来获得与其他任何一条明显不同的线条? (但是,再次,不是精确的重复)
我正在考虑使用Python的difflib,但这似乎是为了区分两个文件,而不是同一个文件中的所有线对.
[编辑]
我假设解决方案会为每一行提供唯一...
我想这对于一个体面的Python开发来说很简单 – 我还在学习!给定一个带有重复电子邮件的csv,我想迭代并写出重复电子邮件的数量,例如:
infile.csvCOLUMN 0
some@email.com
some@email.com
another@address.com
example@email.comoutfile.csvCOLUMN 0 COLUMN 1
some@email.com 2
another@address.com 1
example@email.com 1到目前为止,我可以删除重复import csvf = csv.reader(open('infile....
示例数据帧:import pandas as pddata = data = { 'num1': [1,2,3,4,5], 'num2': [1,1,2,3,1],'num3': [5,4,3,2,1]}df = pd.DataFrame(data)print(df.head())>>> df.head()num1 num2 num3
0 1 1 5 #dups with row 4
1 2 1 4
2 3 2 3
3 4 3 2
4 5 1 1 #dups with row 1在此示例数据框中,我正在尝试提取第一行和最后一...
好吧,这似乎应该很容易与合并或连接操作,但我不能破解它.我在熊猫工作.
我有两个数据帧,它们之间有重复的行,我希望以不重复行或列的方式组合它们.它会像这样工作df1:A B
a 1
b 2
c 3df2:A B
b 2
c 3
d 4df3 = df1 combined with df2A B
a 1
b 2
c 3
d 4我尝试过的一些方法是选择一个但不是另一个的行(一个XOR),然后追加它们,但我无法弄清楚如何进行选择.我的另一个想法是追加它们并删除重复的行,但我不知道如何做后者.解决方法:...
如果行符合条件,我正在尝试创建重复行.在下表中,我创建了一个基于groupby的累积计数,然后是groupby的MAX的另一个计算.df['PathID'] = df.groupby(DateCompleted).cumcount() + 1
df['MaxPathID'] = df.groupby(DateCompleted)['PathID'].transform(max)Date Completed PathID MaxPathID
1/31/17 1 3
1/31/17 2 3
1/31/17 3 3
2/1/17 1 1
2/2/17 ...
我有一个大型数据框(超过100列,数十万行),其中包含多个包含重复数据的行.我试图删除重复的行,保持不同列中具有最大值的行.
基本上,我正在根据时间段将数据分类到单个容器中,因此在不同时期,人们可能会发现大量重复,因为大多数实体都存在于所有时间段.然而,不能允许的是同一实体在给定时间段内出现不止一次.
我在python pandas: Remove duplicates by columns A, keeping the row with the highest value in column B中尝试了一种数...
我创建了一个DataFrame,现在需要计算每个重复的行(例如df [‘Gender’].假设性别’男性’出现两次而女性出现三次,我需要这个列:Gender Occurrence
Male 1
Male 2
Female 1
Female 2
Female 3有没有办法与熊猫一起做到这一点?解决方法:按性别分组后使用cumcount方法:df = pd.DataFrame({'Gender':['Male','Male','Female','Female','Female']})
df['Occurrence'] = df.groupby('Gender').cumcount() + 1
prin...
我有以下Dataframe:df
Out[23]: PplNum RoomNum Value
0 1 0 265
1 1 12 170
2 2 0 297
3 2 12 85
4 2 0 41
5 2 12 144通常,PplNum和RoomNum是这样生成的,它将始终遵循以下格式:for ppl in [1,2,2]:for room in [0, 12]:print(ppl, room)1 0
1 12
2 0
2 12
2 0
2 12但现在我想要实现的是标记PplNum和RoomNum的重复组合,以便我...
我有这个数据框:>> df = pd.DataFrame({'Place' : ['A', 'A', 'B', 'B', 'C', 'C'], 'Var' : ['All', 'French', 'All', 'German', 'All', 'Spanish'], 'Values' : [250, 30, 120, 12, 200, 112]})>> dfPlace Values Var
0 A 250 All
1 A 30 French
2 B 120 All
3 B 12 German
4 C 200 All
5 C 112 Spanish每个Place都有两行的重复模式.我想重塑它,所...
我想知道是否有可能防止将重复提交到数据库.例如,假设有一个如下类class Employee(Base):id = Column(Integer, primary_key=True)name = Column(String)如果我要制作一系列这些对象,employee1 = Employee(name='bob')
employee2 = Employee(name='bob')session.add_all([employee1, employee2])
session.commit()我只希望将一行添加到数据库,而employee1和employee2指向内存中的同一对象(如果可能).
SQLAlchemy中是否有功能可以完成...