使用Python中的Scipy Hierarchy Clustering进行文本聚类
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了使用Python中的Scipy Hierarchy Clustering进行文本聚类,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含908字,纯文字阅读大概需要2分钟。
内容图文
![使用Python中的Scipy Hierarchy Clustering进行文本聚类](/upload/InfoBanner/zyjiaocheng/700/db8fbad281e348d4a18e3d0b2f06f6f4.jpg)
我有一个文本语料库,每个文章包含1000个文章.我试图在python中使用Scipy使用层次结构聚类来生成相关文章的集群.
这是我用来进行聚类的代码
# Agglomerative Clustering
import matplotlib.pyplot as plt
import scipy.cluster.hierarchy as hac
tree = hac.linkage(X.toarray(), method="complete",metric="euclidean")
plt.clf()
hac.dendrogram(tree)
plt.show()
我得到了这个情节
然后我用fcluster()切断了第三层的树
from scipy.cluster.hierarchy import fcluster
clustering = fcluster(tree,3,'maxclust')
print(clustering)
我得到了这个输出:
[2 2 2 …,2 2 2]
我的问题是如何在每个群集中找到前10个常用词,以便为每个群集建议一个主题?
解决方法:
您可以执行以下操作:
>将结果(您的聚类变量)与您的输入(1000篇文章)对齐.
>使用pandas库,您可以使用groupby函数将集群#作为其键.
>每组(使用get_group函数),为每个填充一个整数的defaultdict
你遇到的一句话.
>您现在可以按降序对单词计数字典进行排序,并获得所需数量的最常用单词.
祝你好运,请接受我的答案,如果你正在寻找的话.
内容总结
以上是互联网集市为您收集整理的使用Python中的Scipy Hierarchy Clustering进行文本聚类全部内容,希望文章能够帮你解决使用Python中的Scipy Hierarchy Clustering进行文本聚类所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。