[IR课程笔记]Hyperlink-Induced Topic Search(HITS)
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了[IR课程笔记]Hyperlink-Induced Topic Search(HITS),小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含719字,纯文字阅读大概需要2分钟。
内容图文
两个假设
1. 好的hub pages: 好的对某个主题的hub pages 链接许多好的这个主题的authoritative pages.
2. 好的authoritative pages: 好的对某个主题的authoritative pages 被许多好的这个主题的hub pages链接。
注:循环定义
算法过程:
1.找出root set :用户输入一个query,根据query中的term,在文档集中找出包含至少一个term的的文档,使他们构成root set。
2. 找出base set : 在root set的基础上,找出root set中网页链入或链出并且不在root set中的网页,并把他们加入到root set中,从而构成base set。
3.计算每一个网页的hub score h(x) 和 authoritative score a(x). h(x) = x链出的网页的a值之和。a(x) = x链入的网页的所有h值之和。(初始时,所有h值和a值均为1)
4.归一化。
5.迭代直至收敛。
6.选出top-n h值得网页作为 top hubs,选出top-n a值的网页作为top authoritives.
与Page Rank 比较:
1. 范围不同 HITS:base set Page Rank:所有网页
2. HITS:与query有关,online Page Rank: 与query无关,off line
原文:http://www.cnblogs.com/leeshum/p/4925543.html
内容总结
以上是互联网集市为您收集整理的[IR课程笔记]Hyperlink-Induced Topic Search(HITS)全部内容,希望文章能够帮你解决[IR课程笔记]Hyperlink-Induced Topic Search(HITS)所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。