使用python和Scikit Learn为K-NN机器学习算法实现ROC曲线
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了使用python和Scikit Learn为K-NN机器学习算法实现ROC曲线,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含3422字,纯文字阅读大概需要5分钟。
内容图文
![使用python和Scikit Learn为K-NN机器学习算法实现ROC曲线](/upload/InfoBanner/zyjiaocheng/669/8bcc71c671bf43cab996c6e33201a205.jpg)
我目前正在尝试为我的kNN分类算法实现ROC曲线.我知道ROC曲线是正确率与错误率的曲线图,我只是在努力从数据集中查找那些值.我将“ autoimmune.csv”导入到我的python脚本中,并在其上运行kNN算法以输出准确性值. Scikit-learn.org文档显示,要生成TPR和FPR,我需要传递y_test和y_scores值,如下所示:
fpr, tpr, threshold = roc_curve(y_test, y_scores)
我只是在努力使用这些值.
感谢您的事先帮助和歉意,如果我错过了某些事情,这是我的第一篇文章.
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.metrics import roc_curve
from sklearn.metrics import auc
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data = pd.read_csv('./autoimmune.csv')
X = data.drop(columns=['autoimmune'])
y = data['autoimmune'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
knn = KNeighborsClassifier(n_neighbors = 10)
knn.fit(X_train,y_train)
knn.predict(X_test)[0:10]
knn.score(X_test,y_test)
print("Test set score: {:.4f}".format(knn.score(X_test, y_test)))
knn_cv = KNeighborsClassifier(n_neighbors=10)
cv_scores = cross_val_score(knn_cv, X, y, cv=10)
print(cv_scores)
print('cv_scores mean:{}' .format(np.mean(cv_scores)))
y_scores = cross_val_score(knn_cv, X, y, cv=76)
fpr, tpr, threshold = roc_curve(y_test, y_scores)
roc_auc = auc(fpr, tpr)
print(roc_auc)
plt.title('Receiver Operating Characteristic')
plt.plot(fpr, tpr, 'b', label = 'AUC = %0.2f' % roc_auc)
plt.legend(loc = 'lower right')
plt.plot([0, 1], [0, 1],'r--')
plt.xlim([0, 1])
plt.ylim([0, 1])
plt.ylabel('True Positive Rate')
plt.xlabel('False Positive Rate')
plt.title('ROC Curve of kNN')
plt.show()
解决方法:
如果查看documentation for roc_curve(),将看到关于y_score参数的以下内容:
y_score : array, shape = [n_samples] Target scores, can either be
probability estimates of the positive class, confidence values, or
non-thresholded measure of decisions (as returned by
“decision_function” on some classifiers).
您可以使用sklearn中的predict_proba() method of the KNeighborsClassifier获得概率估计.这将返回一个numpy数组,其中有两列用于二进制分类,每列分别用于负类和正类.对于roc_curve()函数,您想使用正类的概率估计,因此可以替换为:
y_scores = cross_val_score(knn_cv, X, y, cv=76)
fpr, tpr, threshold = roc_curve(y_test, y_scores)
与:
y_scores = knn.predict_proba(X_test)
fpr, tpr, threshold = roc_curve(y_test, y_scores[:, 1])
请注意,您需要如何使用[:,1]来计算第二列的所有行,以仅选择正类的概率估计.这是使用威斯康星州乳腺癌数据集的最小可重复示例,因为我没有您的autoimmune.csv:
from sklearn.datasets import load_breast_cancer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve
from sklearn.metrics import auc
import matplotlib.pyplot as plt
X, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
knn = KNeighborsClassifier(n_neighbors = 10)
knn.fit(X_train,y_train)
y_scores = knn.predict_proba(X_test)
fpr, tpr, threshold = roc_curve(y_test, y_scores[:, 1])
roc_auc = auc(fpr, tpr)
plt.title('Receiver Operating Characteristic')
plt.plot(fpr, tpr, 'b', label = 'AUC = %0.2f' % roc_auc)
plt.legend(loc = 'lower right')
plt.plot([0, 1], [0, 1],'r--')
plt.xlim([0, 1])
plt.ylim([0, 1])
plt.ylabel('True Positive Rate')
plt.xlabel('False Positive Rate')
plt.title('ROC Curve of kNN')
plt.show()
这将产生以下ROC曲线:
内容总结
以上是互联网集市为您收集整理的使用python和Scikit Learn为K-NN机器学习算法实现ROC曲线全部内容,希望文章能够帮你解决使用python和Scikit Learn为K-NN机器学习算法实现ROC曲线所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。