首页 / PYTHON / 机器学习之路：python线性回归分类器进行良恶性肿瘤分类预测

机器学习之路：python线性回归分类器进行良恶性肿瘤分类预测

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了机器学习之路：python线性回归分类器进行良恶性肿瘤分类预测，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3113字，纯文字阅读大概需要5分钟。

内容图文

使用python3 学习了线性回归的api

分别使用逻辑斯蒂回归和随机参数估计回归对良恶性肿瘤进行预测

我把数据集下载到了本地，可以来我的git下载源代码和数据集:https://github.com/linyi0604/kaggle

            
                  1
                import
                 numpy as np

                  2
                import
                 pandas as pd

                  3
                from sklearn.cross_validation import train_test_split
  4from sklearn.preprocessing import StandardScaler
  5from sklearn.linear_model import  LogisticRegression, SGDClassifier
  6from sklearn.metrics import classification_report
  7  8‘‘‘  9线性分类器
 10最基本和常用的机器学习模型
 11受限于数据特征与分类目标的线性假设
 12逻辑斯蒂回归 计算时间长，模型性能略高
 13随机参数估计 计算时间短，模型性能略低
 14‘‘‘ 15 16‘‘‘ 171 数据预处理
 18‘‘‘ 19# 创建特征列表 20 column_names = [‘Sample code number‘, ‘Clump Thickness‘, ‘Uniformity of Cell Size‘,
 21‘Uniformity of Cell Shape‘, ‘Marginal Adhesion‘, ‘Single Epithelial Cell size‘,
 22‘Bare Nuclei‘, ‘Bland Chromatin‘, ‘Normal Nucleoli‘, ‘Mitoses‘, ‘Class‘]
 23# 使用pandas.read_csv取数据集 24 data = pd.read_csv(‘./data/breast/breast-cancer-wisconsin.data‘, names=column_names)
 25# 将?替换为标准缺失值表示 26 data = data.replace(to_replace=‘?‘, value=np.nan)
 27# 丢失带有缺失值的数据 只要有一个维度有缺失就丢弃 28 data = data.dropna(how=‘any‘)
 29# 输出data数据的数量和维度 30# print(data.shape) 31 32 33‘‘‘ 342 准备 良恶性肿瘤训练、测试数据部分
 35‘‘‘ 36# 随机采样25%数据用于测试 75%数据用于训练 37 x_train, x_test, y_train, y_test = train_test_split(data[column_names[1:10]],
 38                                                     data[column_names[10]],
 39                                                     test_size=0.25,
 40                                                     random_state=33)
 41# 查验训练样本和测试样本的数量和类别分布 42# print(y_train.value_counts()) 43# print(y_test.value_counts()) 44‘‘‘ 45训练样本共512条 其中344条良性肿瘤  168条恶性肿瘤
 462    344
 474    168
 48Name: Class, dtype: int64
 49测试数据共171条 其中100条良性肿瘤 71条恶性肿瘤
 502    100
 514     71
 52Name: Class, dtype: int64
 53‘‘‘ 54 55 56‘‘‘ 573 机器学习模型进行预测部分
 58‘‘‘ 59# 数据标准化，保证每个维度特征的方差为1 均值为0 预测结果不会被某些维度过大的特征值主导 60 ss = StandardScaler()
 61 x_train = ss.fit_transform(x_train)     # 对x_train进行标准化 62 x_test = ss.transform(x_test)       # 用与x_train相同的规则对x_test进行标准化，不重新建立规则 63 64# 分别使用 逻辑斯蒂回归 和 随机参数估计 两种方法进行学习预测 65 66 lr = LogisticRegression()   # 初始化逻辑斯蒂回归模型 67 sgdc = SGDClassifier()  # 初始化随机参数估计模型 68 69# 使用 逻辑斯蒂回归 在训练集合上训练 70lr.fit(x_train, y_train)
 71# 训练好后 对测试集合进行预测 预测结果保存在 lr_y_predict中 72 lr_y_predict = lr.predict(x_test)
 73 74# 使用 随机参数估计 在训练集合上训练 75sgdc.fit(x_train, y_train)
 76# 训练好后 对测试集合进行预测 结果保存在 sgdc_y_predict中 77 sgdc_y_predict = sgdc.predict(x_test)
 78 79‘‘‘ 804 性能分析部分
 81‘‘‘ 82# 逻辑斯蒂回归模型自带评分函数score获得模型在测试集合上的准确率 83print("逻辑斯蒂回归准确率：", lr.score(x_test, y_test))
 84# 逻辑斯蒂回归的其他指标 85print("逻辑斯蒂回归的其他指标：\n", classification_report(y_test, lr_y_predict, target_names=["Benign", "Malignant"]))
 86 87# 随机参数估计的性能分析 88print("随机参数估计准确率：", sgdc.score(x_test, y_test))
 89# 随机参数估计的其他指标 90print("随机参数估计的其他指标:\n", classification_report(y_test, sgdc_y_predict, target_names=["Benign", "Malignant"]))
 91 92‘‘‘ 93recall 召回率
 94precision 精确率
 95fl-score
 96support
 97 98逻辑斯蒂回归准确率： 0.9707602339181286
 99逻辑斯蒂回归的其他指标：
100              precision    recall  f1-score   support
101102     Benign       0.96      0.99      0.98       100
103  Malignant       0.99      0.94      0.96        71
104105avg / total       0.97      0.97      0.97       171
106107随机参数估计准确率： 0.9649122807017544
108随机参数估计的其他指标:
109              precision    recall  f1-score   support
110111     Benign       0.97      0.97      0.97       100
112  Malignant       0.96      0.96      0.96        71
113114avg / total       0.96      0.96      0.96       171
115‘‘‘

原文：https://www.cnblogs.com/Lin-Yi/p/8970510.html

内容总结

以上是互联网集市为您收集整理的机器学习之路：python线性回归分类器进行良恶性肿瘤分类预测全部内容，希望文章能够帮你解决机器学习之路：python线性回归分类器进行良恶性肿瘤分类预测所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1164110.html

来源：【匿名】

【上一篇】Python的lambda匿名函数的简单介绍【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【机器学习之路：python线性回归分类器进行良恶性肿瘤分类预测】教程文章相关的互联网学习教程文章

可能是史上最全的机器学习和Python（包括数学）速查表【图】

新手学习机器学习很难，就是收集资料也很费劲。所幸Robbie Allen从不同来源收集了目前最全的有关机器学习、Python和相关数学知识的速查表大全。强烈建议收藏！机器学习有很多方面。当我开始刷新这个主题时，我遇到了各种“速查表”，仅仅列出了需要知道的给定主题的所有要点。最后，我收集了与机器学习相关的速查表。有些我经常参考，认为其他人也可能从中受益。因此，这篇文章把我在网上发现的很好的27个速查表分享出来，以供大...

机器学习经典算法详解及Python实现--CART分类决策树、回归树和模型树【图】

摘要：Classification And Regression Tree(CART)是一种很重要的机器学习算法，既可以用于创建分类树（Classification Tree），也可以用于创建回归树（Regression Tree），本文介绍了CART用于离散标签分类决策和连续特征回归时的原理。决策树创建过程分析了信息混乱度度量Gini指数、连续和离散特征的特殊处理、连续和离散特征共存时函数的特殊处理和后剪枝；用于回归时则介绍了回归树和模型树的原理、适用场景和创建过程。个人认为...

python学习之机器学习【图】

线性回归第一个机器学习算法 - 单变量线性回归原文：https://blog.51cto.com/13810716/2468505

Python机器学习（三十四）Numpy 介绍

Numpy代表numeric python，是一个用于计算、处理多维数组的python包。NumPy包由Travis Oliphant在2005年创建，基于原来的Numeric模块与Numarray模块，大部分是用c语言编写的。NumPy提供各种强大的数据结构(多维数组和矩阵)，以及对这些数据结构的强大运算能力。为什么需要NumPy随着数据科学革命的到来，NumPy、SciPy、pandas等数据分析库得到了很大的发展。python的语法比其他编程语言简单很多，同时又具有强大的数据计算能力，是数...

吴裕雄 python 机器学习-DMT（1）【代码】【图】

import numpy as np import operator as opfrom math import logdef createDataSet():dataSet = [[1, 1, ‘yes‘],[1, 1, ‘yes‘],[1, 0, ‘no‘],[0, 1, ‘no‘],[0, 1, ‘no‘]]labels = [‘no surfacing‘,‘flippers‘]return dataSet, labelsdataSet,labels = createDataSet() print(dataSet) print(labels)def calcShannonEnt(dataSet):labelCounts = {}for featVec in dataSet: currentLabel = featVec[-1]if(currentLabel...

机器学习之路: python 回归树 DecisionTreeRegressor 预测波士顿房价【代码】

python3 学习api的使用git: https://github.com/linyi0604/MachineLearning代码： 1from sklearn.datasets import load_boston2from sklearn.cross_validation import train_test_split3from sklearn.preprocessing import StandardScaler4from sklearn.tree import DecisionTreeRegressor5from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error6import numpy as np7 8‘‘‘ 9回归树： 10 严格上说 ...

Python机器学习--聚类【代码】【图】

K-means聚类算法测试：# -*- coding: utf-8 -*-""" Created on Thu Aug 31 10:59:20 2017@author: Administrator """‘‘‘ 现有1999年全国31个省份城镇居民家庭平均每人全年消费性支出的八个主要变量数据，这八个变量分别是：食品、衣着、家庭设备用品及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住以及杂项商品和服务。利用已有数据，对31个省份进行聚类。 ‘‘‘import numpy as np from sklearn.cluster imp...

数学建模及机器学习算法（一）：聚类-kmeans（Python及MATLAB实现，包括k值选取与聚类效果评估）【代码】【图】

一、聚类的概念聚类分析是在数据中发现数据对象之间的关系，将数据进行分组，组内的相似性越大，组间的差别越大，则聚类效果越好。我们事先并不知道数据的正确结果(类标)，通过聚类算法来发现和挖掘数据本身的结构信息，对数据进行分簇(分类)。聚类算法的目标是，簇内相似度高，簇间相似度低二、基本的聚类分析算法　1. K均值(K-Means)：　　　　基于原型的、划分的距离技术，它试图发现用户指定个数(K)的簇。　　2. 凝聚的层次距...

python—机器学习合并数据【代码】

import numpy as npa = np.arange(6).reshape(2,3)b = np.random.randint(10,20,size=(4,3))#concatenate(array_list,axis=0/1) 沿着指定axis进行数组合并 0为行，1为列，默认为0#np.vstack或者np.row_stack（array_list）按照行合并#np.hstack或者np.column_stack(array_list) 按照列合并c=np.concatenate([a,b])d=np.vstack([a,b])e=np.row_stack([a,b])m= np.arange(6).reshape(3,2)n= np.random.randint(10,20,size=(3,2))p= n...

机器学习之路：python线性回归分类器进行良恶性肿瘤分类预测【代码】

使用python3 学习了线性回归的api分别使用逻辑斯蒂回归和随机参数估计回归对良恶性肿瘤进行预测我把数据集下载到了本地，可以来我的git下载源代码和数据集:https://github.com/linyi0604/kaggle 1import numpy as np2import pandas as pd3from sklearn.cross_validation import train_test_split4from sklearn.preprocessing import StandardScaler5from sklearn.linear_model import LogisticRegression, SGDClassifier6...

吴裕雄 python 机器学习——数据预处理标准化StandardScaler模型【代码】【图】

from sklearn.preprocessing import StandardScaler#数据预处理标准化StandardScaler模型def test_StandardScaler():X=[[1,5,1,2,10],[2,6,3,2,7],[3,7,5,6,4,],[4,8,7,8,1]]print("before transform:",X)scaler=StandardScaler()scaler.fit(X)print("scale_ is :",scaler.scale_)print("mean_ is :",scaler.mean_)print("var_ is :",scaler.var_)print("after transform:",scaler.transform(X))# 调用 test_StandardScaler test_S...

python机器学习密码之初来乍到【图】

机器学习近来火得可谓人尽皆知。其实楼主现在的研究方向是椭圆曲线密码的硬件实现。so，我一直以为这跟Python，神经网络啥的确是八竿子打不着，然而，这个世界上就是不缺那种能开先河能摆证据撂服众生的大神。举个栗子这篇文章learing the enigma with recurrent Neural Networks。是 2017年发表于AAAI 的一篇文章，AAAI 2017是指第31届人工智能大会AAAI-17，是人工智能领域的最重磅会议之一。所以楼主也是很好奇，这里的RNN究竟是...

菜鸟入门_Python_机器学习（3）_回归【代码】【图】

@sprt *写在开头：博主在开始学习机器学习和Python之前从未有过任何编程经验，这个系列写在学习这个领域一个月之后，完全从一个入门级菜鸟的角度记录我的学习历程，代码未经优化，仅供参考。有错误之处欢迎大家指正。系统：win7-CPU; 编程环境：Anaconda2-Python2.7，IDE：pycharm5; 参考书籍：《Neural Networks and Learning Machines(Third Edition)》- Simon Haykin; 《Machine Learning in Action》- Peter Harringto...

吴裕雄 python 机器学习——数据预处理正则化Normalizer模型【代码】【图】

from sklearn.preprocessing import Normalizer#数据预处理正则化Normalizer模型def test_Normalizer():X=[[1,2,3,4,5],[5,4,3,2,1],[1,3,5,2,4,],[2,4,1,3,5]]print("before transform:",X)normalizer=Normalizer(norm=‘l2‘)print("after transform:",normalizer.transform(X))# 调用 test_Normalizer test_Normalizer() 原文：https://www.cnblogs.com/tszr/p/10801982.html

机器学习之路：python k近邻回归预测波士顿房价【代码】

python3 学习机器学习api使用两种k近邻回归模型分别是平均k近邻回归和距离加权k近邻回归进行预测git: https://github.com/linyi0604/MachineLearning代码： 1from sklearn.datasets import load_boston2from sklearn.cross_validation import train_test_split3from sklearn.preprocessing import StandardScaler4from sklearn.neighbors import KNeighborsRegressor5from sklearn.metrics import r2_score, mean_squared_err...

首页 / PYTHON / 机器学习之路：python线性回归分类器 进行良恶性肿瘤分类预测

机器学习之路：python线性回归分类器 进行良恶性肿瘤分类预测

内容导读

内容图文

内容总结

内容备注

内容手机端

【机器学习之路：python线性回归分类器 进行良恶性肿瘤分类预测】教程文章相关的互联网学习教程文章

机器学习 - 相关标签

线性回归 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程

首页 / PYTHON / 机器学习之路：python线性回归分类器进行良恶性肿瘤分类预测

机器学习之路：python线性回归分类器进行良恶性肿瘤分类预测

【机器学习之路：python线性回归分类器进行良恶性肿瘤分类预测】教程文章相关的互联网学习教程文章