首页 / MAC / CART回归树（chap9）Machine Learning In Action学习笔记

CART回归树（chap9）Machine Learning In Action学习笔记

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了CART回归树（chap9）Machine Learning In Action学习笔记，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1146字，纯文字阅读大概需要2分钟。

内容图文

CART回归树（chap9）Machine Learning In Action学习笔记

后续再次学习，现在理解有些模糊。

优点：可以对复杂和非线性的数据建模

缺点：结果不易理解

适用数据类型：数值型（转换成二值型）和标称型数据

树回归的一般方法

收集数据：采用任意方法收集数据。

准备数据：需要数值型的数据，标称型数据应该映射成二值型数据。

分析数据：绘出数据的二维可视化显示结果，以字典方式生成树。

训练算法：大部分时间都花费在叶节点树模型的构建上。

测试算法：使用测试数据上的R2值来分析模型的效果。

使用算法：使用训练出的树做预测，预测结果还可以用来做很多事情

回归树与分类树的思路类似，但叶节点的数据类型不是离散型，而是连续型。

使用一部字典来存储树的数据结构，该字典将包含:

待切分的特征。
待切分的特征值。
右子树。当不再需要切分的时候，也可以是单个值。
左子树。与右子树类似。

计算连续型数值的混乱度：首先计算所有数据的均值，然后计算每条数据的值到均值的差值。为了对正负差值同等看待，一般使用绝对值或平方值来代替上述差值。类似于方差，方差是平方误差的均值（均方差），而这里需要的是平方误差的总值（总方差）。总方差可以通过均方差乘以数据集中样本点的个数来得到。

函数createTree()的伪代码：

找到最佳的待切分特征:

如果该节点不能再分，将该节点存为叶节点

执行二元切分

在右子树调用createTree()方法

在左子树调用createTree()方法

函数chooseBestSplit()的伪代码:

对每个特征：

对每个特征值：

将数据集切分成两份

计算切分的误差

如果当前误差小于当前最小误差，那么将当前切分设定为最佳切分并更新最小误差

返回最佳切分的特征和阈值

通过降低决策树的复杂度来避免过拟合的过程称为剪枝。

预剪枝：提前设定终止条件

后剪枝：使用测试集和训练集

后剪枝：将数据集分成测试集和训练集。首先指定参数，使得构建出的树足够大、足够复杂，便于剪枝。接下来从上而下找到叶节点，用测试集来判断将这些叶节点合并是否能降低测试误差。如果是的话就合并。

函数prune()的伪代码如下：

基于已有的树切分测试数据：

如果存在任一子集是一棵树，则在该子集递归剪枝过程

计算将当前两个叶节点合并后的误差

计算不合并的误差

如果合并会降低误差的话，就将叶节点合并

用树来对数据建模，除了把叶节点简单地设定为常数值之外，还有一种方法是把叶节点设定为分段线性函数，这里所谓的分段线性（piecewise linear）是指模型由多个线性片段组成。

来自为知笔记(Wiz)

原文：http://www.cnblogs.com/woaielf/p/5522183.html

内容总结

以上是互联网集市为您收集整理的CART回归树（chap9）Machine Learning In Action学习笔记全部内容，希望文章能够帮你解决CART回归树（chap9）Machine Learning In Action学习笔记所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1237348.html

来源：【匿名】

【下一篇】Mac电脑设置hosts的方法（图文步骤）

更多 ►

【CART回归树（chap9）Machine Learning In Action学习笔记】教程文章相关的互联网学习教程文章

CART回归树（chap9）Machine Learning In Action学习笔记

后续再次学习，现在理解有些模糊。优点：可以对复杂和非线性的数据建模缺点：结果不易理解适用数据类型：数值型（转换成二值型）和标称型数据树回归的一般方法收集数据：采用任意方法收集数据。准备数据：需要数值型的数据，标称型数据应该映射成二值型数据。分析数据：绘出数据的二维可视化显示结果，以字典方式生成树。训练算法：大部分时间都花费在叶节点树模型的构建上。测试算法：使用测试数据上的R2值来分析模型的效果。使用...

Coursera Machine Learning 学习笔记（六）【图】

- Gradient descent 梯度下降算法是一个用来求得函数最小值的算法，这里我们将使用梯度下降算法来求出代价函数的最小值。梯度下降的思想是：开始的时候我们随机选择一个参数的组合并计算代价函数，之后我们寻找下一个能使得代价函数值下降最多的参数的组合。我们持续如此过程直到一个局部最小值（local minimum），由于我们并没有完全尝试完所有参数的组合，所以我们不能够确定我们得到的局部最...

Machine Learning In Action 第二章学习笔记: kNN算法【代码】【图】

本文主要记录《Machine Learning In Action》中第二章的内容。书中以两个具体实例来介绍kNN（k nearest neighbors)，分别是：约会对象预测手写数字识别通过“约会对象”功能，基本能够了解到kNN算法的工作原理。“手写数字识别”与“约会对象预测”使用完全一样的算法代码，仅仅是数据集有变化。约会对象预测1 约会对象预测功能需求主人公“张三”喜欢结交新朋友。“系统A”上面注册了很多类似于“张三”的用户，大家都想结交心朋友...

Factorization Machines 学习笔记（三）回归和分类【代码】【图】

最近学习了一种叫做 Factorization Machines（简称 FM）的算法，它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景；2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍，并对其训练算法 — 随机梯度下降（SGD）法和交替最小二乘（ALS）法进行详细推导。相关链接：（一）预测任务（二）模型方程（三）回归和分类（四）学习算法作者: peghoty 出处: http://blog.csdn.net/itplus/article/details/4053...

machine learning学习笔记

看到Max Welling教授主页上有不少学习notes，收藏一下吧，其最近出版了一本书呢还，还没看过。http://www.ics.uci.edu/~welling/classnotes/classnotes.html Statistical Estimation [ps]- bayesian estimation- maximum a posteriori (MAP) estimation- maximum likelihood (ML) estimation- Bias/Variance tradeoff & minimum description length (MDL)Expectation Maximization (EM) Algorithm [ps]- detailed derivation plus ...

【Machine Learning 学习笔记】OSX Octave 输出图像问题

Uninstall any existing gnuplot on your OSXbrew uninstall gnuplotInstall gnuplot with either X or X11brew-install gnuplot --with-x11Finally, set the GNUTERM to X11setenv("GNUTERM","X11") 或者 brew install gnuplot --with-qt setenv("GNUTERM","qt")原文：http://www.cnblogs.com/turtle920/p/5197786.html

Coursera课程《Machine Learning》学习笔记（week1）【图】

这是Coursera上比较火的一门机器学习课程，主讲教师为Andrew Ng。在自己看神经网络的过程中也的确发现自己有基础不牢、一些基本概念没搞清楚的问题，因此想借这门课程来个查漏补缺。目前的计划是先看到神经网络结束，后面的就不一定看了。当然，看的过程中还是要做笔记做作业的，否则看了也是走马观花。此笔记只针对我个人，因此不会把已经会了的内容复述一遍，相当于是写给自己的一份笔记吧。如果有兴趣，可以移步《Machine Learn...

机器学习（Machine Learning）- 吴恩达（Andrew Ng）学习笔记（六）【代码】【图】

Logistic Regression 逻辑回归ClassificationexamplesEmail: Spam/Not Spam? 电子邮件是否是垃圾邮件Online Transactions: Fraudulent(Yes / No)? 网上交易是否是诈骗Turmor: Malignant / Benign? 肿瘤是良性还是恶性\(y \in \{0, 1\}\) 要预测的变量y能够取0和1两个值0: "Negative Class" (e.g., benign tumor) 通常标记为0的类称为“负类”，如良性肿瘤1: "Positive Class" (e.g., malignant tumor) 通常标记为1的类称为“正类”...

Python 学习笔记（Machine Learning In Action）【图】

shape函数是numpy.core.fromnumeric中的函数，它的功能是读取矩阵的长度，比如shape[0]就是读取矩阵第一维度的长度。它的输入参数可以使一个整数表示维度，也可以是一个矩阵。使用shape需要导入numpytile函数位于python模块 numpy.lib.shape_base中，他的功能是重复某个数组。比如tile(A,n)，功能是将数组A重复n次，构成一个新的数组使用shape需要导入numpy 原文：http://www.cnblogs.com/wlc297984368/p/5748502.html

机器学习（Machine Learning）- 吴恩达（Andrew Ng）学习笔记（十一）【代码】【图】

Machine learning system designPrioritizing what to work on: Spam classification example在设计复杂的机器学习系统时将会遇到的主要问题，以及给出一些如何巧妙构建一个复杂的机器学习系统的建议。Building a spam classifier 垃圾邮件分类器思想：通过分词，将一封邮件转化为一个向量，从而将实际生活问题转化为了数学问题。具体：\(x\)是对应单词是否出现：出现为1，不出现为0；\(y\)表示邮件是否为垃圾邮件，是为1，否为0。...

机器学习（Machine Learning）- 吴恩达（Andrew Ng）学习笔记（七）【图】

Regularization 正则化The problem of overfitting 过拟合问题什么是过拟合问题、利用正则化技术改善或者减少过拟合问题。Example: Linear regression (housing prices) 线性回归中的过拟合对5个训练集建立线性回归模型，分别进行如下图所示的三种分析。如果拟合一条直线到训练数据（图一），会出现欠拟合(underfitting)/高偏差(high bias)现象（指没有很好地拟合训练数据）。试着拟合一个二次函数的曲线（图二），符合各项要求。...

Android基于XMPP Smack及Openfire学习笔记（1）【代码】【图】

之前开发的项目中实用到IM聊天功能。可是这块功能公司有专门的IM团队来开发，由他们开发好后。直接接入到我们APP中。我參与写IM相关功能非常地少，所以也一直想学习相关知识。眼下Android主要用的是XMPP协议及OPenfireserver来实现IM功能，我也从这块入手学习。也感谢全部分享资料让我有机会学习的同行们。如今正式開始啦。第一步：搭建Openfireserver： Openfire工具下载地址：http://www.igniterealtime.org/downloads/inde...

极限学习机（Extreme Learning Machine）学习笔记【图】

最近研究上了这个一个东西--极限学习机。　　在很多问题中，我大多会碰到两个问题，一个是分类，另一个就是回归。简单来说，分类是给一串数打个标签，回归是把一串数变为一个数。在这里我们需要处理的数据一般维度都比较高，在处理这两类问题时最简单的方法就是加权。使那些对最终结果影响大的维度的数据的权设大点，影响小的权设小点。其实，影响小的这些维度的数据对于我们整个建立的模型也不是完全没有用的。至少它们保证...

支持向量机-Machine Learning In Action学习笔记【图】

P.S. SVM比较复杂，代码没有研究清楚，进一步学习其他知识后再来补充。以下仅罗列了最核心的知识，来自《机器学习实战》的学习摘要。优点：泛化错误率低，计算开销不大，结果易解释。缺点：对参数调节和核函数的选择敏感，原始分类器不加修改仅适用于处理二类问题。适用数据类型：数值型和标称型数据。线性可分数据：画出一条直线将两组数据点分开。超平面（将数据集分隔开来的直线，为N-1维）：分类的决策边界。如果数据点离决策边...

courseraMachineLearningWeek2学习笔记【图】

Part4: Linear Regression with Multiple Variables 进入多变量线性回归~在看视频的时候发现了视频里面的一个错误:在Normal Equation的第8分钟左右,那个x的上下标写反了,应该是上标为1,2,3,4,下标一直为1. 多变量线性回归其实就是在单变量线性回归的基础上进Part4: Linear Regression with Multiple Variables进入多变量线性回归~在看视频的时候发现了视频里面的一个错误:在Normal Equation的第8分钟左右,那个x的上下标写反了,应该...

学习笔记 - 相关标签

学习笔记模板

MAC - 最热教程

Windows安装Chocolatey或Mac安装Homebr...如何在Mac上更新Chrome？设置apple watch解锁mac显示无法通信解...mac下安装magento2+nginx配置访问 VMware 16 安装苹果MAC OS 10.13 原版...mac鼠标会动但无法点击苹果Mac窗口整理、排列、缩放工具：Moo...php获取计算机唯一标识信息(cpu,网卡,M...MAC下MySQL的安装与使用 mac机启动apache出现问题启动不了

首页 / MAC / CART回归树（chap9）Machine Learning In Action学习笔记

CART回归树（chap9）Machine Learning In Action学习笔记

内容导读

内容图文

内容总结

内容备注

内容手机端

【CART回归树（chap9）Machine Learning In Action学习笔记】教程文章相关的互联网学习教程文章

学习笔记 - 相关标签

MAC - 最新教程

MAC - 最热教程