机器学习之路:python线性回归分类器 进行良恶性肿瘤分类预测
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了机器学习之路:python线性回归分类器 进行良恶性肿瘤分类预测,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含3113字,纯文字阅读大概需要5分钟。
内容图文
![机器学习之路:python线性回归分类器 进行良恶性肿瘤分类预测](/upload/InfoBanner/zyjiaocheng/1165/6a80fb65209c45d2ad5482a50b2e0415.jpg)
使用python3 学习了线性回归的api
分别使用逻辑斯蒂回归 和 随机参数估计回归 对良恶性肿瘤进行预测
我把数据集下载到了本地,可以来我的git下载源代码和数据集:https://github.com/linyi0604/kaggle
1
import
numpy as np
2
import
pandas as pd
3
from sklearn.cross_validation import train_test_split
4from sklearn.preprocessing import StandardScaler
5from sklearn.linear_model import LogisticRegression, SGDClassifier
6from sklearn.metrics import classification_report
7 8‘‘‘ 9线性分类器
10最基本和常用的机器学习模型
11受限于数据特征与分类目标的线性假设
12逻辑斯蒂回归 计算时间长,模型性能略高
13随机参数估计 计算时间短,模型性能略低
14‘‘‘ 15 16‘‘‘ 171 数据预处理
18‘‘‘ 19# 创建特征列表 20 column_names = [‘Sample code number‘, ‘Clump Thickness‘, ‘Uniformity of Cell Size‘,
21‘Uniformity of Cell Shape‘, ‘Marginal Adhesion‘, ‘Single Epithelial Cell size‘,
22‘Bare Nuclei‘, ‘Bland Chromatin‘, ‘Normal Nucleoli‘, ‘Mitoses‘, ‘Class‘]
23# 使用pandas.read_csv取数据集 24 data = pd.read_csv(‘./data/breast/breast-cancer-wisconsin.data‘, names=column_names)
25# 将?替换为标准缺失值表示 26 data = data.replace(to_replace=‘?‘, value=np.nan)
27# 丢失带有缺失值的数据 只要有一个维度有缺失就丢弃 28 data = data.dropna(how=‘any‘)
29# 输出data数据的数量和维度 30# print(data.shape) 31 32 33‘‘‘ 342 准备 良恶性肿瘤训练、测试数据部分
35‘‘‘ 36# 随机采样25%数据用于测试 75%数据用于训练 37 x_train, x_test, y_train, y_test = train_test_split(data[column_names[1:10]],
38 data[column_names[10]],
39 test_size=0.25,
40 random_state=33)
41# 查验训练样本和测试样本的数量和类别分布 42# print(y_train.value_counts()) 43# print(y_test.value_counts()) 44‘‘‘ 45训练样本共512条 其中344条良性肿瘤 168条恶性肿瘤
462 344
474 168
48Name: Class, dtype: int64
49测试数据共171条 其中100条良性肿瘤 71条恶性肿瘤
502 100
514 71
52Name: Class, dtype: int64
53‘‘‘ 54 55 56‘‘‘ 573 机器学习模型进行预测部分
58‘‘‘ 59# 数据标准化,保证每个维度特征的方差为1 均值为0 预测结果不会被某些维度过大的特征值主导 60 ss = StandardScaler()
61 x_train = ss.fit_transform(x_train) # 对x_train进行标准化 62 x_test = ss.transform(x_test) # 用与x_train相同的规则对x_test进行标准化,不重新建立规则 63 64# 分别使用 逻辑斯蒂回归 和 随机参数估计 两种方法进行学习预测 65 66 lr = LogisticRegression() # 初始化逻辑斯蒂回归模型 67 sgdc = SGDClassifier() # 初始化随机参数估计模型 68 69# 使用 逻辑斯蒂回归 在训练集合上训练 70lr.fit(x_train, y_train)
71# 训练好后 对测试集合进行预测 预测结果保存在 lr_y_predict中 72 lr_y_predict = lr.predict(x_test)
73 74# 使用 随机参数估计 在训练集合上训练 75sgdc.fit(x_train, y_train)
76# 训练好后 对测试集合进行预测 结果保存在 sgdc_y_predict中 77 sgdc_y_predict = sgdc.predict(x_test)
78 79‘‘‘ 804 性能分析部分
81‘‘‘ 82# 逻辑斯蒂回归模型自带评分函数score获得模型在测试集合上的准确率 83print("逻辑斯蒂回归准确率:", lr.score(x_test, y_test))
84# 逻辑斯蒂回归的其他指标 85print("逻辑斯蒂回归的其他指标:\n", classification_report(y_test, lr_y_predict, target_names=["Benign", "Malignant"]))
86 87# 随机参数估计的性能分析 88print("随机参数估计准确率:", sgdc.score(x_test, y_test))
89# 随机参数估计的其他指标 90print("随机参数估计的其他指标:\n", classification_report(y_test, sgdc_y_predict, target_names=["Benign", "Malignant"]))
91 92‘‘‘ 93recall 召回率
94precision 精确率
95fl-score
96support
97 98逻辑斯蒂回归准确率: 0.9707602339181286
99逻辑斯蒂回归的其他指标:
100 precision recall f1-score support
101102 Benign 0.96 0.99 0.98 100
103 Malignant 0.99 0.94 0.96 71
104105avg / total 0.97 0.97 0.97 171
106107随机参数估计准确率: 0.9649122807017544
108随机参数估计的其他指标:
109 precision recall f1-score support
110111 Benign 0.97 0.97 0.97 100
112 Malignant 0.96 0.96 0.96 71
113114avg / total 0.96 0.96 0.96 171
115‘‘‘
原文:https://www.cnblogs.com/Lin-Yi/p/8970510.html
内容总结
以上是互联网集市为您收集整理的机器学习之路:python线性回归分类器 进行良恶性肿瘤分类预测全部内容,希望文章能够帮你解决机器学习之路:python线性回归分类器 进行良恶性肿瘤分类预测所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。