python – 理解卡方特征选择的问题
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python – 理解卡方特征选择的问题,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1782字,纯文字阅读大概需要3分钟。
内容图文
![python – 理解卡方特征选择的问题](/upload/InfoBanner/zyjiaocheng/775/e8a51ee2c5764524a59d836d221a269d.jpg)
我一直在理解卡方特征选择的问题.我有两个类,正面和负面,每个类包含不同的术语和术语计数.我需要执行卡方特征选择以提取每个类的最具代表性的术语.问题是我最终得到了正面和负面类的完全相同的术语.这是我选择功能的Python代码:
#!/usr/bin/python
# import the necessary libraries
import math
class ChiFeatureSelector:
def __init__(self, extCorpus, lookupCorpus):
# store the extraction corpus and lookup corpus
self.extCorpus = extCorpus
self.lookupCorpus = lookupCorpus
def select(self, outPath):
# dictionary of chi-squared scores
scores = {}
# loop over the words in the extraction corpus
for w in self.extCorpus.getTerms():
# build the chi-squared table
n11 = float(self.extCorpus.getTermCount(w))
n10 = float(self.lookupCorpus.getTermCount(w))
n01 = float(self.extCorpus.getTotalDocs() - n11)
n00 = float(self.lookupCorpus.getTotalDocs() - n10)
# perform the chi-squared calculation and store
# the score in the dictionary
a = n11 + n10 + n01 + n00
b = ((n11 * n00) - (n10 * n01)) ** 2
c = (n11 + n01) * (n11 + n10) * (n10 + n00) * (n01 + n00)
chi = (a * b) / c
scores[w] = chi
# sort the scores in descending order
scores = sorted([(v, k) for (k, v) in scores.items()], reverse = True)
i = 0
for (v, k) in scores:
print str(k) + " : " + str(v)
i += 1
if i == 10:
break
这就是我使用该类的方法(为了简洁起见省略了一些代码,是的,我已经检查过以确保这两个语料库不包含完全相同的数据.
# perform positive ngram feature selection
print "positive:\n"
f = ChiFeatureSelector(posCorpus, negCorpus)
f.select(posOutputPath)
print "\nnegative:\n"
# perform negative ngram feature selection
f = ChiFeatureSelector(negCorpus, posCorpus)
f.select(negOutputPath)
我觉得错误来自于我计算术语/文档表但我不确定.也许我不理解某些事情.有人能指出我正确的方向吗?
解决方法:
在两类案例中,如果两者的特征,卡特等级排名是相同的
交换数据集.它们是最不同的特征
这两个班.
内容总结
以上是互联网集市为您收集整理的python – 理解卡方特征选择的问题全部内容,希望文章能够帮你解决python – 理解卡方特征选择的问题所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。