首页 / PYTHON / python – 在大文本文件中查找重复记录

python – 在大文本文件中查找重复记录

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 在大文本文件中查找重复记录，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1017字，纯文字阅读大概需要2分钟。

内容图文

我在Linux机器(Redhat)上,我有一个11GB的文本文件.文本文件中的每一行都包含单个记录的数据,该行的前n个字符包含记录的唯一标识符.该文件包含超过2700万条记录.

我需要验证文件中没有多个具有相同唯一标识符的记录.我还需要在80GB的文本文件上执行此过程,因此任何需要将整个文件加载到内存中的解决方案都不实用.

解决方法:

逐行读取文件,因此您不必将其全部加载到内存中.

对于每一行(记录),创建一个sha256哈希(32字节),除非您的标识符更短.

将哈希/标识符存储在numpy.array中.这可能是存储它们最紧凑的方式. 2700万条记录时间32字节/散列是864 MB.这应该适合现在体面的机器的记忆.

为了加快访问速度,您可以使用第一个例如将2个字节的散列作为collections.defaultdict的键,并将其余的散列放入值的列表中.这实际上会创建一个包含65536个桶的哈希表.对于27e6记录,每个桶平均包含大约400个条目的列表.
这意味着比numpy数组更快的搜索,但它会使用更多的内存.

d = collections.defaultdict(list)
with open('bigdata.txt', 'r') as datafile:
    for line in datafile:
        id = hashlib.sha256(line).digest()
        # Or id = line[:n]
        k = id[0:2]
        v = id[2:]
        if v in d[k]:
            print "double found:", id
        else:
            d[k].append(v)

内容总结

以上是互联网集市为您收集整理的python – 在大文本文件中查找重复记录全部内容，希望文章能够帮你解决python – 在大文本文件中查找重复记录所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/799793.html

来源：【匿名】

【上一篇】python – 发布到Facebook墙【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 在大文本文件中查找重复记录】教程文章相关的互联网学习教程文章

python删除列表中重复记录的方法

本文实例讲述了python删除列表中重复记录的方法。分享给大家供大家参考。具体实现方法如下：def removeListDuplicates(seq):seen = set()seen_add = seen.addreturn [ x for x in seq if x not in seen and not seen_add(x) ]希望本文所述对大家的Python程序设计有所帮助。

我如何使用python防止rethinkdb上的重复记录【代码】

我只想在以前没有记录的情况下将记录插入到表中,例如我有一个表用户,而我只想添加具有电话号码的唯一用户{"name":"john smith", "Age":30 , "phone_number": "556"}如果要添加另一个具有相同电话号码的用户,我将无法添加它们.现在,我正在尝试使用过滤器来确定我是否已有该电话号码的记录r.db(DB).table('users').filter({'phone_number': new_practice['phone_number']}, default=r.error()).run(conn)这就是我尝试使用该方法...