similar_text算相似性时归一化时的疑点
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了similar_text算相似性时归一化时的疑点,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1202字,纯文字阅读大概需要2分钟。
内容图文
similar_text算相似性时归一化时的疑问我在算两个字符串的长度时,发现归一化时好像此函数采取的方式不一样。
第一次,我试了两个不一样长的字符串,算其编辑距离:
echo "levenshtein计算:\n";echo levenshtein("seller_id","selr_id");echo "\n";
得到的结果是:2
再用同样的两个字符串,用PHP的similar_text函数来求其相似性
echo "similar_text计算:\n";similar_text("seller_id","selr_id",$percent);
echo $percent;
出现在相似性是:87.5
把2这个距离归一化时,正好符合公式:1-(编辑距离/(两个字符串的长度之和))
第二次,我试了两个一样长度的字符串,分别算其编辑距离和相似性
similar_text("abcd","1234",$percent);echo $percent;echo "\n";
echo levenshtein("abcd","1234");
得到的值分别为:4和0
正好符合公式:1-(编辑距离/(任一个字符串的长度))
我的问题是:为什么对两个不一样长的字符串求相似性时,分母是两个字符串的长度之和呢?
我在网上找了些pdf文档看,对编辑距离归一化时,其分母是最长的那个字符串的长度呢。
------解决思路----------------------
应该说 similar_text 函数的设计者,考虑的还是蛮周到的
当传入的两个串长度相同时,计算的相似度与理论上并无差异
当传入的两个串长度不同时,得到的相似度不像理论上的那么陡峭。也就是说被匹配的概率变大
当然如果你不希望这样的话可以自行计算,串都是你的,他也返回了已匹配的数量。计算一下并不困难
内容总结
以上是互联网集市为您收集整理的similar_text算相似性时归一化时的疑点全部内容,希望文章能够帮你解决similar_text算相似性时归一化时的疑点所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。
来源:【匿名】