首页 / PYTHON / python – 查找类似文档
python – 查找类似文档
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python – 查找类似文档,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1734字,纯文字阅读大概需要3分钟。
内容图文
![python – 查找类似文档](/upload/InfoBanner/zyjiaocheng/820/cec83ae6d83148adb5760e8202377f4d.jpg)
我正在开展一个项目,在这个项目中我有单页医疗报告和标签类别的流程和存储文件.用户将输入一个文档,我必须分类它属于哪个类别.
我已将所有文档转换为灰度图像格式并存储以进行比较.
我有一个包含以下数据的图像数据集,
> image_path:此列具有图像的路径
> histogram_value:此列具有图像的直方图,使用cv2.calcHist函数计算
> np_avg:此列具有图像所有像素的平均值.使用np.average计算
> category:此列是图像的一个类别.
我打算用这两种方法,
>计算输入图像的histogram_value,找到最近的10个匹配图像
>计算输入图像的np_avg,找到最近的10个匹配图像
>取两个结果集相交
>如果找到多个图像,请进行模板匹配以找到最合适的图像.
我对图像处理领域知之甚少.上述机制对我的目的是否可靠?
我检查SO,发现几个问题,但他们有一个非常不同的问题和期望的结果. This question看起来与我的情况类似,但它非常通用,我不确定它是否适用于我的场景.
解决方法:
我推荐一些东西:
基于文本的比较:
OCR文档并使用Google的Tesseract提取文本功能,这是最好的开源OCR包之一.还有一个名为PyTesseract的Python Wrapper.您可能需要使用图像的分辨率让OCR工作到您满意的程度 – 这需要一些试验和错误.
一旦你提取了单词,一个普遍接受的方法是计算TF-IDF(术语频率 – 反向文档频率),然后任何基于距离的方法(余弦相似性是常见的方法之一)来比较哪些文档是“相似的” “(更接近)彼此.
基于图像的比较
如果您已将图像作为矢量,则应用基于距离的度量来计算相似度.通常L1或L2规范可行.这个paper表明曼哈顿(L1 Norm)可能更适合自然图像.你可以从那开始并尝试其他基于距离的措施
基于集合文本和图像的比较
运行两种方法,然后在两种方法之间进行一些平均,以得到彼此相似的文档.
对于例如
基于文本的方法可能将DocB和DocC分别作为距离10和20个单元最接近DocA的2个文档.
基于图像的方法可能将DocC和DocB分别作为距离5和距离20最接近的两个.
然后你可以平均两个距离. DocB将是(10 20)/ 2 = 15,DocC将是(20 5)/ 2 =除DocA之外的12.5个单位.所以你会认为DocC在整体方法中更接近A而不是B.
内容总结
以上是互联网集市为您收集整理的python – 查找类似文档全部内容,希望文章能够帮你解决python – 查找类似文档所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。