首页 / PYTHON / Python中的高性能模糊字符串比较,使用Levenshtein或difflib

Python中的高性能模糊字符串比较,使用Levenshtein或difflib

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python中的高性能模糊字符串比较,使用Levenshtein或difflib，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1455字，纯文字阅读大概需要3分钟。

内容图文

Python中的高性能模糊字符串比较,使用Levenshtein或difflib

我正在进行临床信息规范化(拼写检查),其中我检查每个给定的单词对900,000字的医学词典.我更关注时间复杂度/性能.

我想做模糊字符串比较,但我不确定使用哪个库.

选项1：

import Levenshtein
Levenshtein.ratio('hello world', 'hello')

Result: 0.625

选项2：

import difflib
difflib.SequenceMatcher(None, 'hello world', 'hello').ratio()

Result: 0.625

在这个例子中,两者给出相同的答案.在这种情况下,你认为两者都表现相似吗？

解决方法:

如果您对Levenshtein和Difflib相似性的快速视觉比较感兴趣,我计算了约230万本书籍：

import codecs, difflib, Levenshtein, distance

with codecs.open("titles.tsv","r","utf-8") as f:
    title_list = f.read().split("\n")[:-1]

    for row in title_list:

        sr      = row.lower().split("\t")

        diffl   = difflib.SequenceMatcher(None, sr[3], sr[4]).ratio()
        lev     = Levenshtein.ratio(sr[3], sr[4]) 
        sor     = 1 - distance.sorensen(sr[3], sr[4])
        jac     = 1 - distance.jaccard(sr[3], sr[4])

        print diffl, lev, sor, jac

然后我用R绘制结果：

严格来说,我也比较了Difflib,Levenshtein,Sørensen和Jaccard相似度值：

library(ggplot2)
require(GGally)

difflib <- read.table("similarity_measures.txt", sep = " ")
colnames(difflib) <- c("difflib", "levenshtein", "sorensen", "jaccard")

ggpairs(difflib)

结果：

Difflib / Levenshtein的相似性确实非常有趣.

2018年编辑：如果你正在努力识别相似的字符串,你也可以查看minhashing – 这是一个great overview here.Minhashing在线性时间内找到大文本集合中的相似性是惊人的.我的实验室整理了一个应用程序,使用minhashing检测并可视化文本重用：https://github.com/YaleDHLab/intertext

内容总结

以上是互联网集市为您收集整理的Python中的高性能模糊字符串比较,使用Levenshtein或difflib全部内容，希望文章能够帮你解决Python中的高性能模糊字符串比较,使用Levenshtein或difflib所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/713379.html

来源：【匿名】

【上一篇】python – SciPy和NumPy之间的关系【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python中的高性能模糊字符串比较,使用Levenshtein或difflib】教程文章相关的互联网学习教程文章

python用Levenshtein计算文本相似度

安装 Levenshtein 报错问题点击：解决安装python-Levenshtein时出现“Unable to find vcvarsall.bat”错误 #! /usr/bin/python# -*- coding: utf8 -*-# @Time : 2018/8/30 10:11# @Author : yukangfrom Levenshtein import *# 个人总结的关于 Levenshtein 所有函数的用法和注释apply_edit() #根据第一个参数editops（）给出的操作权重，对第一个字符串基于第二个字符串进行相对于权重的操作distance() ...

python_levenshtein 的安装和使用

下载whl地址： https://www.lfd.uci.edu/~gohlke/pythonlibs/ 搜索：python_Levenshtein-0.12.0-cp37-cp37m-win_amd64.whl并下载进入文件目录执行：pip install python_Levenshtein-0.12.0-cp37-cp37m-win_amd64.whl 使用简介： https://www.jianshu.com/p/06370a33e1ee

Python中的高性能模糊字符串比较,使用Levenshtein或difflib【代码】

我正在进行临床信息规范化(拼写检查),其中我检查每个给定的单词对900,000字的医学词典.我更关注时间复杂度/性能. 我想做模糊字符串比较,但我不确定使用哪个库. 选项1：import Levenshtein Levenshtein.ratio('hello world', 'hello')Result: 0.625选项2：import difflib difflib.SequenceMatcher(None, 'hello world', 'hello').ratio()Result: 0.625在这个例子中,两者给出相同的答案.在这种情况下,你认为两者都表现相似吗？解决方...

python – 计算Levenshtein编辑距离的复杂性【代码】

我现在一整天都在看这个简单的Levenshtein Edit Distance python实现.def lev(a, b):"""Recursively calculate the Levenshtein edit distance between two strings, a and b.Returns the edit distance."""if("" == a):return len(b) # returns if a is an empty stringif("" == b):return len(a) # returns if b is an empty stringreturn min(lev(a[:-1], b[:-1])+(a[-1] != b[-1]), lev(a[:-1], b)+1, lev(a, b[:-1])+1)来...

如何在Python中对Levenshtein距离超过80％的单词进行分组【代码】

假设我有一个清单： – person_name = ['zakesh', 'oldman LLC', 'bikash', 'goldman LLC', 'zikash','rakesh']我试图以这种方式对列表进行分组,以便两个字符串之间的Levenshtein distance最大.为了找出两个单词之间的比例,我使用的是python包fuzzywuzzy. 例子：->>> from fuzzywuzzy import fuzz >>> combined_list = ['rakesh', 'zakesh', 'bikash', 'zikash', 'goldman LLC', 'oldman LLC'] >>> fuzz.ratio('goldman LLC', 'ol...

python-Levenshtein几个计算字串相似度的函数解析【图】

linux环境下，没有首先安装python_Levenshtein，用法如下：重点介绍几个该包中的几个计算字串相似度的几个函数实现。 1. Levenshtein.hamming(str1, str2) 计算汉明距离。要求str1和str2必须长度一致。是描述两个等长字串之间对应位置上不同字符的个数。如2. Levenshtein.distance(str1, str2) 计算编辑距离（也成Levenshtein距离）。是描述由一个字串转化成另一个字串最少的操作次数，在其中的操作包括插入、删除、替换。如算法实...

首页 / PYTHON / Python中的高性能模糊字符串比较,使用Levenshtein或difflib

Python中的高性能模糊字符串比较,使用Levenshtein或difflib

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python中的高性能模糊字符串比较,使用Levenshtein或difflib】教程文章相关的互联网学习教程文章

python用Levenshtein计算文本相似度

python_levenshtein 的安装和使用

Python中的高性能模糊字符串比较,使用Levenshtein或difflib【代码】

python – 计算Levenshtein编辑距离的复杂性【代码】

如何在Python中对Levenshtein距离超过80％的单词进行分组【代码】

python-Levenshtein几个计算字串相似度的函数解析【图】

PYTHON - 相关标签

字符串 - 相关标签

性能 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程