总结:量纲化(归一化,标准化)缺失值处理(补0、均值、中值、众数、自定义)编码/哑变量:忽略数字中自带数学性质(文字->数值类型)连续特征离散化(二值化/分箱处理)原文:https://www.cnblogs.com/afanti/p/10881435.html
sklearn监督学习的各个模块neighbors近邻算法,svm支持向量机,kernal_ridge核岭回归,discriminant_analysis判别分析,linear_model广义线性模型ensemble集成方法,tree决策树,native_bayes朴素贝叶斯,cross_decomposition交叉分解,gaussian_process高斯过程neural_network多层神经网络,calibration概率校准,isotonk保序回归,feature_selection监督特征选择,multiclass多类多标签算法sklearn无监督学习模块decomposition矩阵因子分解,...
本文整理了60个机器学习算法应用场景实例,含分类算法应用场景20个、回归算法应用场景20个、聚类算法应用场景10个以及关联规则应用场景10个。包含了天池、DataCastle、DataFountain中所有竞赛场景。 目录1 分类算法应用场景实例 1.1 O2O优惠券使用预测 1.2 市民出行选乘公交预测 1.3待测微生物种类判别 1.4 基于运营商数据的个人征信评估 1.5 商品图片分类 1.6 广告点击行为预测 1.7 基于文本内容的垃圾短信识...
免费学习推荐:python视频教程导入必要通用模块import pandas as pdimport matplotlib.pyplot as pltimport osimport numpy as npimport copyimport reimport math一 机器学习通用框架:以knn为例#利用邻近点方式训练数据不太适用于高维数据from sklearn.model_selection import train_test_split#将数据分为测试集和训练集from sklearn.neighbors import KNeighborsClassifier#利用邻近点方式训练数据#1.读取数据data=pd.read_exc...
免费学习推荐:python视频教程导入必要通用模块import pandas as pdimport matplotlib.pyplot as pltimport osimport numpy as npimport copyimport reimport math一 机器学习通用框架:以knn为例#利用邻近点方式训练数据不太适用于高维数据from sklearn.model_selection import train_test_split#将数据分为测试集和训练集from sklearn.neighbors import KNeighborsClassifier#利用邻近点方式训练数据#1.读取数据data=pd.read_exc...
目录
1、线性回归简介1.1 线性回归应用场景1.2 什么是线性回归1.2.1 定义与公式1.2.2 线性回归的特征与目标的关系分析2、线性回归api初步使用2.1 线性回归API2.2 举例2.2.1 步骤分析2.2.2 代码过程3、线性回归的损失和优化3.1 损失函数3.2 优化算法3.2.1 正规方程(1)什么是正规方程(2)正规方程求解举例
3.2.2 正规方程的推导
**推导方式一**:**推导方式二**:3.2.2 梯度下降(Gradient Descent)(1)什么是梯度下降(2)梯度的...
文章目录
随机森林分类器 RandomForestClassifierⅠ.基本参数Ⅱ.重要参数 n_estimatorsⅢ.随机森林探索wine数据集Ⅳ.交叉验证绘制学习曲线比较决策树与随机森林Ⅴ.绘制n_estimator学习曲线Ⅵ.重要参数、属性和接口参数random_state、属性estimators_参数bootstrap、参数oob_score、属性oob_score_feature_importance、重要接口随机森林分类器 RandomForestClassifier
class sklearn.ensemble.RandomForestClassifier (n_estimators...
我们经常使用决策树处理分类问题,近来的调查表明决策树也是经常使用的数据挖掘算法。这一系列博客文章都是基于前人的经验,加入一些自己的拙见,仅供参考。一、决策树构建
1、工作原理图3-1所示的流程图就是一个决策树,正方形代表判断模块,椭圆形代表终止模块,表示已经得出结论,可以终止运行。从判断模块引出的左右箭头称作分支,它可以到达另一个判断模块或者终止模块。
图3-1构建了一个假想的邮件分类系统,它首先检测发送邮...
一、维度:
1、对于数组和series来说,维度就是功能shape返回的结果,shape中返回了几个数字,就是几维。
2、维度指的是样本的数量或特征的数量,一般无特别说明,指的都是特征的数量。
3、对图像来说,维度就是图像中特征向量的个数,特征向量可以理解为坐标轴,一个特征向量代表一维。也就是说,三维及一下的特征矩阵是可以被可视化的,三维以上的则不能。
二、特征矩阵:
特征矩阵特指二维,一定有行列,一个特征是一维。若将特...
上次介绍了KNN的基本原理,以及KNN的几个窍门,这次就来用sklearn实践一下KNN算法。
一.Skelarn KNN参数概述
要使用sklearnKNN算法进行分类,我们需要先了解sklearnKNN算法的一些基本参数,那么这节就先介绍这些内容吧。
def KNeighborsClassifier(n_neighbors = 5,weights = 'uniform',algorithm = '',leaf_size = '30',p = 2,metric = 'minkowski',metric_params = None,n_jobs = None)- n_neighbors: 这个值就是指KNN中的"K"了,...
一、背景好记性不如烂笔头。记录 一下项目上用到的算法与思路
二、问题描述近期收到一个项目,为A公司做数据整合,并开发出一套人物画像系统与俩个算法模型,其中的一个模型就是做图纸的分类。甲方(A公司)在最终会议前,给了点样例数据,让我们先做出个demo,给甲方的大老板们看一下
三、数据样例甲方给的数据,包括:项目数据,人员数据,图纸数据。以下的内容只用了图纸数据,毕竟只是做图纸的分类,用不到其他的样本数据下面是...
重要参数n_components
n_components是我们降维后需要的维度,即降维后需要保留的特征数量,降维流程中第二步里需要确认的k值,一般输入[0, min(X.shape)]范围中的整数。一说到K,大家可能都会想到,类似于KNN中的K和随机森林中的n_estimators,这是一个需要我们人为去确认的超参数,并且我们设定的数字会影响到模型的表现。如果留下的特征太多,就达不到降维的效果,如果留下的特征太少,那新特征向量可能无法容纳原始数据集中的大...
因为注释已经很详细了,所以直接上代码: 1 from sklearn.datasets import load_iris2 from sklearn.model_selection import train_test_split3 #k临近算法4 from sklearn.neighbors import KNeighborsClassifier5 import numpy as np6 import pandas as pd7 def get数据():8 iris_dataset=load_iris()9 print("keys:\n{}".format(iris_dataset.keys()))
10 print("预测花的品种\n:{}".format(iris_dataset[target_nam...
#机器学习分类算法的评价指标#二分类问题的算法评价指标import numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn import datasetsd=datasets.load_digits()x=d.datay=d.target.copy() #防止原来数据改变print(len(y))y[d.target==9]=1y[d.target!=9]=0print(y)print(pd.value_counts(y)) #统计各个数据出现的个数from sklearn.model_selection import train_test_splitx_train,x_test,y_train,y_test...
#向量化运算import matplotlib as mplmpl.rcParams[agg.path.chunksize] = 1000000import numpy as npimport matplotlib.pyplot as pltm=100x=np.random.random(size=m)y=x*2.0+3.0+np.random.normal(size=m) #带有噪声数据的线性相关数据plt.scatter(x,y,color="red")plt.show()#波士顿房产数据集合from sklearn import datasetsb=datasets.load_boston()print(b.DESCR)print(b.feature_names)x=b.data[:,5] #取第五列的数据,房...