首页 / 算法 / 自己实现文本相似度算法（余弦定理）

自己实现文本相似度算法（余弦定理）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了自己实现文本相似度算法（余弦定理），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3671字，纯文字阅读大概需要6分钟。

内容图文

最近由于工作项目，需要判断两个txt文本是否相似，于是开始在网上找资料研究，因为在程序中会把文本转换成String再做比较，所以最开始找到了这篇关于距离编辑算法 Blog写的非常好，受益匪浅。

于是我决定把它用到项目中，来判断两个文本的相似度。但后来实际操作发现有一些问题：直接说就是查询一本书中的相似章节花了我7、8分钟；这是我不能接受……

于是停下来仔细分析发现，这种算法在此项目中不是特别适用，由于要判断一本书中是否有相同章节，所以每两个章节之间都要比较，若一本书书有x章的话，这里需对比x(x-1)/2次；而此算法采用矩阵的方式，计算两个字符串之间的变化步骤，会遍历两个文本中的每一个字符两两比较，可以推断出时间复杂度至少为 document1.length × document2.length，我所比较的章节字数平均在几千～一万字；这样计算实在要了老命。

想到Lucene中的评分机制，也是算一个相似度的问题，不过它采用的是计算向量间的夹角（余弦公式），在google黑板报中的：数学之美（余弦定理和新闻分类）也有说明，可以通过余弦定理来判断相似度；于是决定自己动手试试。

首相选择向量的模型：在以字为向量还是以词为向量的问题上，纠结了一会；后来还是觉得用字，虽然词更为准确，但分词却需要增加额外的复杂度，并且此项目要求速度，准确率可以放低，于是还是选择字为向量。

然后每个字在章节中出现的次数，便是以此字向量的值。现在我们假设：

章节1中出现的字为：Z1c1,Z1c2,Z1c3,Z1c4……Z1cn；它们在章节中的个数为：Z1n1,Z1n2,Z1n3……Z1nm；

章节2中出现的字为：Z2c1,Z2c2,Z2c3,Z2c4……Z2cn；它们在章节中的个数为：Z2n1,Z2n2,Z2n3……Z2nm；

其中，Z1c1和Z2c1表示两个文本中同一个字，Z1n1和Z2n1是它们分别对应的个数，

最后我们的相似度可以这么计算：

程序实现如下：（若有可优化或更好的实现请不吝赐教）

public class CosineSimilarAlgorithm {

public static double getSimilarity(String doc1, String doc2) {

if (doc1 != null && doc1.trim().length() > 0 && doc2 != null

&& doc2.trim().length() > 0 ) {

Map<Integer, int []> AlgorithmMap = new HashMap<Integer, int []>();

//将两个字符串中的中文字符以及出现的总数封装到，AlgorithmMap中

for ( int i = 0 ; i < doc1.length(); i++) {

char d1 = doc1.charAt(i);

if (isHanZi(d1)){

int charIndex = getGB2312Id(d1);

if (charIndex != - 1 ){

int [] fq = AlgorithmMap.get(charIndex);

if (fq != null && fq.length == 2 ){

fq[ 0 ]++;

} else {

fq = new int [ 2 ];

fq[ 0 ] = 1 ;

fq[ 1 ] = 0 ;

AlgorithmMap.put(charIndex, fq);

}

for ( int i = 0 ; i < doc2.length(); i++) {

char d2 = doc2.charAt(i);

if (isHanZi(d2)){

int charIndex = getGB2312Id(d2);

if (charIndex != - 1 ){

int [] fq = AlgorithmMap.get(charIndex);

if (fq != null && fq.length == 2 ){

fq[ 1 ]++;

} else {

fq = new int [ 2 ];

fq[ 0 ] = 0 ;

fq[ 1 ] = 1 ;

AlgorithmMap.put(charIndex, fq);

}

Iterator<Integer> iterator = AlgorithmMap.keySet().iterator();

double sqdoc1 = 0 ;

double sqdoc2 = 0 ;

double denominator = 0 ;

while (iterator.hasNext()){

int [] c = AlgorithmMap.get(iterator.next());

denominator += c[ 0 ]*c[ 1 ];

sqdoc1 += c[ 0 ]*c[ 0 ];

sqdoc2 += c[ 1 ]*c[ 1 ];

}

return denominator / Math.sqrt(sqdoc1*sqdoc2);

} else {

throw new NullPointerException(

" the Document is null or have not cahrs!!" );

}

public static boolean isHanZi( char ch) {

// 判断是否汉字

return (ch >= 0x4E00 && ch <= 0x9FA5 );

}

/**

* 根据输入的Unicode字符，获取它的GB2312编码或者ascii编码，

*

* @param ch

* 输入的GB2312中文字符或者ASCII字符(128个)

* @return ch在GB2312中的位置，-1表示该字符不认识

*/

public static short getGB2312Id( char ch) {

try {

byte [] buffer = Character.toString(ch).getBytes( "GB2312" );

if (buffer.length != 2 ) {

// 正常情况下buffer应该是两个字节，否则说明ch不属于GB2312编码，故返回‘?‘，此时说明不认识该字符

return - 1 ;

}

int b0 = ( int ) (buffer[ 0 ] & 0x0FF ) - 161 ; // 编码从A1开始，因此减去0xA1=161

int b1 = ( int ) (buffer[ 1 ] & 0x0FF ) - 161 ; // 第一个字符和最后一个字符没有汉字，因此每个区只收16*6-2=94个汉字

return ( short ) (b0 * 94 + b1);

} catch (UnsupportedEncodingException e) {

e.printStackTrace();

}

return - 1 ;

}

程序中做了两小的改进，以加快效率：

1. 只将汉字作为向量，其他的如标点，数字等符号不处理；2. 在HashMap中存放汉字和其在文本中对于的个数时，先将单个汉字通过GB2312编码转换成数字，再存放。

最后写了个测试，根据两种不同的算法对比下时间，下面是测试结果：

余弦定理算法：doc1 与 doc2 相似度为：0.9954971, 耗时：22mm

距离编辑算法：doc1 与 doc2 相似度为：0.99425095, 耗时：322mm

可见效率有明显提高，算法复杂度大致为：document1.length + document2.length。

原创blog，转载请注明http://my.oschina.net/BreathL/blog/42477

原文：http://www.cnblogs.com/qtccf/p/4562260.html

内容总结

以上是互联网集市为您收集整理的自己实现文本相似度算法（余弦定理）全部内容，希望文章能够帮你解决自己实现文本相似度算法（余弦定理）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1058916.html

来源：【匿名】

【上一篇】java冒泡排序【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【自己实现文本相似度算法（余弦定理）】教程文章相关的互联网学习教程文章

python实现排序算法（一）——插入排序算法【代码】

1‘‘‘ 2插入排序算法3原始数据data4排序数据后数据SortedData,默认是从小打大排序5 61.从data第一个元素开始，该元素赋值给SortedData[0],可以认为SortedData已经被排序 7 82.取出data的一个元素data[i],9 (1)从左到右扫描SortedData， 10 如果data[i]小于SortedData的某个元素SD，那么将data[i]插入SD的位置,选取下一个元素 11 (1)如果data[i]大于SortedData最后一个元素，将data[1]插入到SortedData的末尾，选取下...

LeetCode面试题 08.12. 八皇后---回溯算法解决N皇后问题(C++实现）【代码】

N皇后问题源于著名的八皇后问题：在8×8格的国际象棋上摆放八个皇后，使其不能互相攻击，即任意两个皇后都不能处于同一行、同一列或同一斜线上，问有多少种摆法！将8x8扩展为NxN即为N皇后问题，要解决此问题，最简单的方法就是暴力枚举，此时的时间复杂度为N^2，回溯算法与简单暴力枚举类似，不同点在于当判定某种状态不符合答案时，便不再继续枚举此状态的后续状态，而是回溯到该状态之前，继续遍历其他的可能值。 1 #include <ios...

Newton-Raphson算法简介及其R实现【代码】

本文简要介绍了Newton-Raphson方法及其R语言实现并给出几道练习题供参考使用。下载PDF格式文档（Academia.edu）Newton-Raphson Method Let $f(x)$ be a differentiable function and let $a_0$ be a guess for a solution to the equation $$f(x)=0$$ We can product a sequence of points $x=a_0, a_1, a_2, \dots $ via the recursive formula $$a_{n+1}=a_n-\frac{f(a_n)}{f‘(a_n)}$$ that are successively better approxima...

php 实现各种经典算法【代码】【图】

//-------------------- // 基本数据结构算法 //-------------------- //二分查找（数组里查找某个元素） 1function bin_sch($array, $low, $high, $k){ 2if ( $low <= $high){ 3$mid = intval(($low+$high)/2 ); 4if ($array[$mid] == $k){ 5return$mid; 6 } elseif ( $k < $array[$mid]){ 7return bin_sch($array, $low, $mid-1, $k); 8 } else { 9return bin_sch($array, $mid+ ...

微信红包的算法实现【代码】

1、每个人都要能够领取到红包；2、每个人领取到的红包金额总和=总金额；3、每个人领取到的红包金额不等，但也不能差的太离谱，不然就没趣味；4、算法一定要简单，不然对不起腾讯这个招牌；header("Content-Type: text/html;charset=utf-8");//输出不乱码，你懂的 $total=10;//红包总额 $num=8;// 分成8个红包，支持8人随机领取 $min=0.01;//每个人最少能收到0.01元for ($i=1;$i<$num;$i++) {$safe_total=($total-($num-$i)*$min)/(...

垃圾回收的算法与实现,pdf

下载地址：网盘下载★ Ruby之父Matz作推荐语：上古传承的魔法，彻底揭开垃圾回收的秘密！ ★ 日本天才程序员兼Lisp黑客竹内郁雄审校本书前半介绍基本GC算法，包括标记-清除GC、引用计数、复制算法的GC、串行GC的算法、并发GC的算法等。后半介绍V8、Rubinius、Dalvik、CPython等几种具体GC的实现。本书适合各领域程序员阅读。下载地址：网盘下载原文：https://www.cnblogs.com/cf1774575641/p/9348751.html

【算法笔记】用指针实现小顶堆【代码】

本文将讨论指针堆与数组堆的区别，和指针堆的具体实现方式。题目：洛谷P3378啊对了，下文不会解释指针是什么、指针的用法、为什么加“&”等基础问题，需要的建议去看《算法竞赛入门经典训练指南》中指针版名次数(treap)的实现，或是向懂的小伙伴提问。一指针与数组的比较数组版中，由于下标的特殊性质，我们可以快速找到某个节点的父亲节点。所以在数组版中，大多使用的是从叶子往根节点更新的插入/删除方式。同时，数组版的原理是...

【LeetCode-面试算法经典-Java实现】【034-Search for a Range（搜索一个范围）】【代码】【图】

【034-Search for a Range（搜索一个范围）】【LeetCode-面试算法经典-Java实现】【所有题目目录索引】原题　　Given a sorted array of integers, find the starting and ending position of a given target value. Your algorithm’s runtime complexity must be in the order of O(log n). If the target is not found in the array, return [-1, -1]. For example, Given [5, 7, 7, 8, 8, 10] and target value 8, return [3, ...

浅谈算法和数据结构: 六符号表及其基本实现【代码】【图】

前面几篇文章介绍了基本的排序算法，排序通常是查找的前奏操作。从本文开始介绍基本的查找算法。在介绍查找算法，首先需要了解符号表这一抽象数据结构，本文首先介绍了什么是符号表，以及这一抽象数据结构的的API，然后介绍了两种简单的符号表的实现方式。一符号表在开始介绍查找算法之前，我们需要定义一个名为符号表（Symbol Table）的抽象数据结构，该数据结构类似我们再C#中使用的Dictionary，他是对具有键值对元素的一种抽象，...

【LeetCode-面试算法经典-Java实现】【225-Implement Stack using Queues（用队列实现栈操作）】【代码】【图】

【225-Implement Stack using Queues（用队列实现栈操作）】【LeetCode-面试算法经典-Java实现】【所有题目目录索引】代码下载【https://github.com/Wang-Jun-Chao】原题　　Implement the following operations of a stack using queues. push(x) – Push element x onto stack. pop() – Removes the element on top of the stack. top() – Get the top element. empty() – Return whether the stack is empty. Notes: You mus...

c++实现插入排序算法【代码】

#include <iostream> usingnamespace std;//插入排序法void insertSortMethod(int intArr[],int arrLen); void printArrInfo(int intArr[],int arrLen); int main() {int arr[] = { 1,3,5,2,4,7,9,6,8 };int len = sizeof(arr) / sizeof(int);insertSortMethod(arr,len);printArrInfo(arr,len);system("pause");return0; } //插入排序法void insertSortMethod(int intArr[],int arrLen) {int start = 0;for (int i = 0; i < arrLen...

企业集群平台LVS负载均衡算法分析与实现【图】

一、LVS集群常见架构图650) this.width=650;" src="/upload/getfiles/default/2022/11/27/20221127013840230.jpg" title="111111111.jpg" /> Load Balancer层：位于整个集群系统的最前端，由一台或多台负载调度器（Director Server）组成。LVS核心模板IPVS就安装在Director Server上，而Director的主要作用类似于一个路由器，它含有为完成LVS功能所设定的路由表，通过这些路由表把用户的请求分发给Server Array层的应用服务器（...

编程实现哈希存储算法的简单实例

编程实现哈希存储算法的简单实现实例。通过编写一个简单的哈希实例来加强对哈希算法的理解。下面实例包括存储与查找算法。拉链法解决冲突问题。如果时间长了对哈希算法的理论知识不够了解，可以先阅读前面转载的两篇文档：字符串哈希到整数函数，算法：http://blog.csdn.net/hzhsan/article/details/25552153Hash算法冲突解决方法分析：http://blog.csdn.net/hzhsan/article/details/25555127// 假设现在要实现一个存储学生信息的...

如何用Python实现常见机器学习算法-1【代码】【图】

最近在GitHub上学习了有关python实现常见机器学习算法目录一、线性回归　　　　1、代价函数　　　　2、梯度下降算法　　　　3、均值归一化　　　　4、最终运行结果　　　　5、使用scikit-learn库中的线性模型实现二、逻辑回归　　　　1、代价函数　　　　2、梯度　　　　3、正则化　　　　4、S型函数　　　　5、映射为多项式　　　　6、使用的优化方法　　　　7、运行结果　　　　8、使用scikit-learn库中的逻辑回归模型实现逻辑回...

Memcached 笔记与总结（6）PHP 实现 Memcached 的一致性哈希分布算法【代码】

首先创建一个接口，有 3 个方法：addServer：添加一个服务器到服务器列表中removeServer：从服务器列表中移除一个服务器lookup：在当前的服务器列表中找到合适的服务器存放数据interface distribute{//在当前的服务器列表中找到合适的服务器存放数据publicfunction lookup($key);//添加一个服务器到服务器列表中publicfunction addServer($server);//从服务器列表中删除一个服务器publicfunction removeServer($server); } 再定义一...

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / 自己实现文本相似度算法（余弦定理）

自己实现文本相似度算法（余弦定理）

内容导读

内容图文

内容总结

内容备注

内容手机端

【自己实现文本相似度算法（余弦定理）】教程文章相关的互联网学习教程文章

python实现排序算法（一）——插入排序算法【代码】

LeetCode面试题 08.12. 八皇后---回溯算法解决N皇后问题(C++实现）【代码】

Newton-Raphson算法简介及其R实现【代码】

php 实现各种经典算法【代码】【图】

微信红包的算法实现【代码】

垃圾回收的算法与实现,pdf

【算法笔记】用指针实现小顶堆【代码】

【LeetCode-面试算法经典-Java实现】【034-Search for a Range（搜索一个范围）】【代码】【图】

浅谈算法和数据结构: 六符号表及其基本实现【代码】【图】

【LeetCode-面试算法经典-Java实现】【225-Implement Stack using Queues（用队列实现栈操作）】【代码】【图】

c++实现插入排序算法【代码】

企业集群平台LVS负载均衡算法分析与实现【图】

编程实现哈希存储算法的简单实例

如何用Python实现常见机器学习算法-1【代码】【图】

Memcached 笔记与总结（6）PHP 实现 Memcached 的一致性哈希分布算法【代码】

算法 - 相关标签

算法 - 最新教程

算法 - 最热教程