python – 在大文本文件中查找重复记录
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python – 在大文本文件中查找重复记录,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1017字,纯文字阅读大概需要2分钟。
内容图文
我在Linux机器(Redhat)上,我有一个11GB的文本文件.文本文件中的每一行都包含单个记录的数据,该行的前n个字符包含记录的唯一标识符.该文件包含超过2700万条记录.
我需要验证文件中没有多个具有相同唯一标识符的记录.我还需要在80GB的文本文件上执行此过程,因此任何需要将整个文件加载到内存中的解决方案都不实用.
解决方法:
逐行读取文件,因此您不必将其全部加载到内存中.
对于每一行(记录),创建一个sha256哈希(32字节),除非您的标识符更短.
将哈希/标识符存储在numpy.array中.这可能是存储它们最紧凑的方式. 2700万条记录时间32字节/散列是864 MB.这应该适合现在体面的机器的记忆.
为了加快访问速度,您可以使用第一个例如将2个字节的散列作为collections.defaultdict的键,并将其余的散列放入值的列表中.这实际上会创建一个包含65536个桶的哈希表.对于27e6记录,每个桶平均包含大约400个条目的列表.
这意味着比numpy数组更快的搜索,但它会使用更多的内存.
d = collections.defaultdict(list)
with open('bigdata.txt', 'r') as datafile:
for line in datafile:
id = hashlib.sha256(line).digest()
# Or id = line[:n]
k = id[0:2]
v = id[2:]
if v in d[k]:
print "double found:", id
else:
d[k].append(v)
内容总结
以上是互联网集市为您收集整理的python – 在大文本文件中查找重复记录全部内容,希望文章能够帮你解决python – 在大文本文件中查找重复记录所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。