首页 / PYTHON / Python机器学习(Sebastian著 ) 学习笔记——第四章数据预处理(Windows Spyder Python 3.6)

Python机器学习(Sebastian著 ) 学习笔记——第四章数据预处理(Windows Spyder Python 3.6)

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python机器学习(Sebastian著 ) 学习笔记——第四章数据预处理(Windows Spyder Python 3.6)，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4492字，纯文字阅读大概需要7分钟。

内容图文

数据预处理

import pandas as pd
from io import StringIO

csv_data = '''A,B,C,D
    1.0,2.0,3.0,4.0
    5.0,6.0,,8.0
    0.0,11.0,12.0
    
'''
df = pd.read_csv(StringIO(csv_data)) #read_csv函数将CSV格式的数据读取到pandas的数据框DataFrame中
#StringIO函数做演示作用。如果数据来自于硬盘上的CSV文件，通过此函数以字符串的方式从文件中读取数据，并将其转换成DataFrame的格式赋值给csv_data
print (df)

#统计缺失值的数量 sum()
#isnull()返回一个布尔型的DataFrame值 DataFrame元素单元中包含数字型数值则返回False，数据值缺失则返回True，sum()得到每列中缺失值的数量
print (df.isnull().sum())
print (df.values)  #通过DataFrame的value属性访问相关的NumPy数组
print (df.dropna()) #dropna()删除包含缺失值的行
print (df.dropna(axis = 1)) #axis=1 删除数据集中至少包含一个NaN值的列


print (df.dropna(how='all'))
print (df.dropna(thresh=4))
print (df.dropna(subset=['C']))


#均值插补 即使用相应的特征均值来替换缺失值 使用scikit-learn中的Impute类
from sklearn.preprocessing import Imputer
imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
imr = imr.fit(df)
imputed_data = imr.transform(df.values)
print (imputed_data)

将数据集划分为训练数据集合测试数据集本例数据集包含178个葡萄酒样本，每个样本通过13个特征
对其化学特征进行描述。

import pandas as pd


df_wine = pd.read_csv('D:\Python\data\wine.data', header=None) #本地硬盘读取数据集
#df_wine = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data', header=None) #在线读取开源的葡萄酒数据集
df_wine.columns = ['Class label', 'Alcohol',
                   'Malic acid', 'Ash',
                   'Alcalinity of ash', 'Magnesium',
                   'Total phenols', 'Flavanoids',
                   'Nonflavanoid phenols',
                   'Proanthocyanins',
                   'Color intensity', 'Hue',
                   'OD280/0D315 of diluted wines',
                   'Proline'
                   ]
#print ('Class labels', np.unique(df_wine['Class label']))
#print (df_wine.head())

数据集随机划分为测试数据集合训练数据集使用scikit-learn下cross_validation子模块中的train_test_split函数：

from sklearn.cross_validation import train_test_split
X, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)                   
print (X_train, X_test, y_train, y_test)

数据集随机划分为测试数据集合训练数据集使用scikit-learn下cross_validation子模块中的train_test_split函数：

from sklearn.cross_validation import train_test_split
X, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)                   
#print (X_train, X_test, y_train, y_test)

特征缩放是数据预处理过程中至关重要的一步特征值缩放到相同的区间可以使其性能更佳

#scikit-learn 最小-最大缩放
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
X_train_norm = mms.fit_transform(X_train)
X_test_norm = mms.transform(X_test)
#print (X_train_norm, X_test_norm)

#scikit-learn 标准化类
from sklearn.preprocessing import StandardScaler
stdsc = StandardScaler()
X_train_std = stdsc.fit_transform(X_train)
X_test_std = stdsc.transform(X_test)
print (X_train_std, X_test_std)

减少过拟合问题：正则化、特征选择降维,scikit-learn 中支持L1的正则化模型将penalty参数设定为'l1'进行简单的数据稀疏处理

from sklearn.linear_model import LogisticRegression
LogisticRegression(penalty='l1')
lr = LogisticRegression(penalty='l1', C=0.1)
lr.fit(X_train_std, y_train)
#print ('Training accuracy:', lr.score(X_train_std, y_train))
#print ('Test accuracy:', lr.score(X_test_std, y_test)) #训练和测试精确度大于98% 显示此模型未出现过拟合。
#print (lr.intercept_) #lr.intercept_ 得到截距项后，返回三个数值的数组
#print (lr.coef_) #lr.coef_ 得到的权重数组包含三个权重系数向量

绘制正则化效果图展示将权重系数(正则化参数)应用于多个特征上时所产生的不同的正则化效果

import matplotlib.pyplot as plt
fig = plt.figure()
ax = plt.subplot(111)
colors = ['blue', 'green', 'red', 'cyan', 'magenta', 'yellow', 'black', 'pink', 'lightgreen', 'lightblue', 'gray', 'indigo', 'orange']
weights, params = [], []


for c in np.arange(-4, 6, dtype=float):
    lr = LogisticRegression(penalty='l1',
                            C=10**c,
                            random_state=0)
    lr.fit(X_train_std, y_train)
    weights.append(lr.coef_[1])
    params.append(10**c)
    
weights = np.array(weights)
for column, color in zip(range(weights.shape[1]), colors):
    plt.plot(params, weights[:, column],
             label=df_wine.columns[column+1],
                                  color=color)
    
plt.axhline(0, color='black', linestyle='--', linewidth=3)
plt.xlim([10**(-5), 10**5])
plt.ylabel('weight coefficient')
plt.xlabel('C')
plt.xscale('log')
plt.legend(loc='upper left')
ax.legend(loc='upper center',
          bbox_to_anchor=(1.38, 1.03),
                         ncol=1, fancybox=True)
plt.show()

Python机器学习(Sebastian著 ) 学习笔记——第四章数据预处理(Windows Spyder Python 3.6) - 文章图片

内容总结

以上是互联网集市为您收集整理的Python机器学习(Sebastian著 ) 学习笔记——第四章数据预处理(Windows Spyder Python 3.6)全部内容，希望文章能够帮你解决Python机器学习(Sebastian著 ) 学习笔记——第四章数据预处理(Windows Spyder Python 3.6)所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/967197.html

来源：【匿名】

【上一篇】如何在python / django中分叉进程？【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python机器学习(Sebastian著 ) 学习笔记——第四章数据预处理(Windows Spyder Python 3.6)】教程文章相关的互联网学习教程文章

【Python】学习笔记七：函数【代码】【图】

函数的目的：重复使用相同的一段程序函数的定义下面是我自定义的一个求a,b,c三个参数平方和的函数#a,b,c三个参数的平方和def pow_sum(a,b,c):x = pow(a,2)+pow(b,2)+pow(c,2)return a,b,c,x#调用print(pow_sum(1,2,3))首先，def通知Python我是一个函数，pow_sum是一个函数括号中的a,b,c三个是参数，参数也可以为空，但括号是必须要有以下两段代码的缩进代表隶属关系Return可以返回多个值，用逗号分隔。相当于一个tuple(定值表)在Py...

吴裕雄--天生自然python学习笔记：WEB数据抓取与分析【代码】【图】

Web 数据抓取技术具有非常巨大的应用需求及价值，用 Python 在网页上收集数据，不仅抓取数据的操作简单，而且其数据分析功能也十分强大。通过 Python 的时lib 组件中的 urlparse 函数，可轻松解析指定网址的内容，在接收返回的 ParseResult 对象后，即可通过其属性取出网址中各项有用信息。 Python 还可进一步用 requests 函数抓取网页源代码，再通过相关语句或正则表达式搜索得到指定的数据。如果要抓取的数据比较复杂， ...

python学习笔记（四）-数据类型【代码】

0. 在 Python 中的数据类型详解http://www.cnblogs.com/scios/p/8026576.html1. 为什么布尔类型(bool)的 True 和 False 分别用 1 和 0 来代替吗？计算机只认识二进制数，所以所有的编程语言最终都会转换成简单的二进制序列给CPU按照一定的规则解析。由于二进制只有两个数：0 和 1，因此用 0 和 1 来表示False和True再适合不过了，因为不用浪费资源在转换的过程上！2. 使用int()将小数转换为整数，结果是向上取整还是向下取整呢？小...

【Python爬虫学习笔记12】Ajax数据爬取简介【图】

有时候在我们设计利用requests抓取网页数据的时候，会发现所获得的结果可能与浏览器显示给我们的不一样：比如说有的信息我们通过浏览器可以显示，但一旦用requests却得不到想要的结果。这种现象是因为我们通过requests获得的都是HTML源文档，而浏览器中见到的页面数据都是经过JavaScript处理的，而这些处理的数据可能是通过Ajax加载、本身包含于HTML中或是经过JavaScript自动生成。由Web发展趋势来看，越来越多的网页都通过Ajax加载...

python学习笔记(22) 模块

加载模块：　　1.先从sys.modules里查看是否已导入　　2.如果没有导入，就依据sys.path路径寻找模块　　3.找到模块就导入　　4.创建这个模块的命名空间　　5.执行文件，把文件中的名字放到命名空间里执行demo.read会优先查找demo里的函数和变量import time as t　　#给模块起别名，原名不再可用if file_format == ‘xml‘:　　import xmlreader as readerelif file_format == ‘csv‘:　　import csvreader as readerdata = reade...

python学习笔记二：if语句及循环语句，断点，模块，pyc

if语句注意：语句块中的内容要强制缩进，否则出错。IndentationError，缩进错误所有代码，如果是顶级的，必须顶格写，前面不能有空格if … : …elif … : …else: … while语句while …: …else: …for语句for i in range(10)——i默认0，步长默认1,最大为9for i in range (0,2,10)——从0开始，步长为2，最大为8for i in range(…): …else: …break——结束本层循环...

Python学习笔记（七）Python循环语句

1.死循环 while 1==1:　　print("ok")另一个例子import timewhile 1==1:　　print("ok",time.time()) count = 0while count<10　　count=count+1　　print("ok",time.time())")print(123) 原文：https://www.cnblogs.com/zengtaoyunwei/p/10371618.html

Python学习笔记（一）

写一写最近学的知识点1.文件读写打开一个文件：f=open(‘路径’，‘r’,encoding=‘utf-8‘) 文件以读‘r’的方式打开，可以读取文件内容，但是不能写入f=open(‘路径’，‘w’,encoding=‘utf-8‘) 文件以写‘w’的方式打开，可以写入文件内容，但是不能读出文件内容以读的方式打开的文件，调用read（）方法可以一次读取文件的全部内容，Python把内容读到内存，用一个str对象表示以写的方式打开的文件，调用wri...

python学习笔记（10）--组合数据类型(字典类型)【代码】

理解映射：映射是一种键（索引）和值（数据）的对应。字典是键值对的集合，键值之间无序。用大括号表示{}，和dict()创建，键值对用冒号：表示。{键：值，键：值，键：值}>>> d={"中国":"北京", "美国":"华盛顿","英国":"伦敦"} >>> d {‘中国‘: ‘北京‘, ‘美国‘: ‘华盛顿‘, ‘英国‘: ‘伦敦‘} >>> d["中国"] ‘北京‘ >>> de={} ‘‘‘定义一个空字典‘‘‘ >>> type(de) <class ‘dict‘>{}用来生成空字典类型，集合类...

个人Python学习笔记

--个人python学习笔记，内容记录自鱼C论坛，仅供个人学习参考使用内容持续更新中...本文出自 “迷茫的IT男孩” 博客，请务必保留此出处http://mimangitboy.blog.51cto.com/4487103/1696276原文：http://mimangitboy.blog.51cto.com/4487103/1696276

python学习笔记（一）【代码】

如果环境当中有多个python版本，则在头部指定相应版本：#!/usr/bin/python Python中默认的编码格式是 ASCII 格式，在没修改编码格式时无法正确打印汉字，所以在读取中文时会报错。解决方法为只要在文件开头加入 # -*- coding: UTF-8 -*- 或者 #coding=utf-8 python 标识符在python 里，标识符由字母、数字、下划线组成。在python 中，所有标识符可以包含英文、数字以及下划线(_)，但是不能以数字开头。python 中的标识符是区分大...

Python学习笔记12—类【代码】

典型的类和调用方法：#!/usr/bin/env Python # coding=utf-8__metaclass__ = type #新式类class Person: #创建类def__init__(self, name): #初始化函数self.name = namedef getName(self): #类中的方法（函数）return self.namedef color(self, color):print"%s is %s" % (self.name, color) girl = Person(‘wangguniang‘) #实例化 name = girl.getName() #调用方法（函数）print"the person‘s name is: ", na...

Python 学习笔记（一）Python 简介

Python 简介Python 1989年吉多 · 范罗苏姆（Guido van Rossum）发明Python 是一种解释型、面向对象、动态数据类型的高级程序设计语言Python 应用于众多领域，如：云基础设施、DevOps、网络爬虫、数据处理等。原文：https://www.cnblogs.com/wangruihua-521/p/8536029.html

Python学习笔记组织文件之将指定目录下的指定格式文件压缩到指定文件夹【代码】【图】

随笔记录方便自己和同路人查阅。#------------------------------------------------我是可耻的分割线-------------------------------------------　　假如你想把一个路径下的某格式文件都压缩到一个zip文件中，如果文件较多，手动压缩可能会比较繁琐和麻烦，重要的是还可能重复压缩，所以你希望有一段程序帮你完成这个繁琐且容易出错的工作。#------------------------------------------------我是可耻的分割线----------------...

Python学习笔记-系统性能信息模块psutil【代码】

系统性能信息模块 psutil：参考：https://github.com/giampaolo/psutil 安装psutil模块：[root@kurol ~]# python36 -m easy_install -i http://pypi.douban.com/simple/ psutil1、获取系统性能信息： 1.1、获取CPU信息：import psutil 获取CPU完整信息:>>> psutil.cpu_times() scputimes(user=60984.989999999998, nice=27.280000000000001, system=37572.639999999999, idle=6605536.1100000003, iowait=88463.1...

首页 / PYTHON / Python机器学习(Sebastian著 ) 学习笔记——第四章数据预处理(Windows Spyder Python 3.6)

Python机器学习(Sebastian著 ) 学习笔记——第四章数据预处理(Windows Spyder Python 3.6)

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python机器学习(Sebastian著 ) 学习笔记——第四章数据预处理(Windows Spyder Python 3.6)】教程文章相关的互联网学习教程文章

【Python】学习笔记七：函数【代码】【图】

吴裕雄--天生自然python学习笔记：WEB数据抓取与分析【代码】【图】

python学习笔记（四）-数据类型【代码】

【Python爬虫学习笔记12】Ajax数据爬取简介【图】

python学习笔记(22) 模块

python学习笔记二：if语句及循环语句，断点，模块，pyc

Python学习笔记（七）Python循环语句

Python学习笔记（一）

python学习笔记（10）--组合数据类型(字典类型)【代码】

个人Python学习笔记

python学习笔记（一）【代码】

Python学习笔记12—类【代码】

Python 学习笔记（一）Python 简介

Python学习笔记组织文件之将指定目录下的指定格式文件压缩到指定文件夹【代码】【图】

Python学习笔记-系统性能信息模块psutil【代码】

WINDOWS - 相关标签

PYTHON - 相关标签

机器学习 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程