集成学习之Adaboost算法

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了集成学习之Adaboost算法，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含246313字，纯文字阅读大概需要352分钟。

内容图文

1、Adaboost算法概述¶

集成学习按照个体学习器之间是否存在依赖关系进行划分，主要代表算法是bagging系列算法和boosting系列算法，今天主要讲述的是boosting系列代表算法之Adaboost。Adaboost算法不需要预先知道弱学习算法学习正确率的下限，并且最后得到的强分类器的分类精度依赖于所有弱分类器的分类精度。

2、算法流程介绍¶

算法流程图如下：

集成学习之Adaboost算法 - 文章图片

1.初始化训练样本的权值分布。

假设训练集有m个样本，则每一个训练样本最开始时都被赋予相同的权值：1/m。

2.训练弱分类器。

如果某个样本已经被准确地分类，那么在构造下一个训练集中，它的权值就会被降低，反之升高。目的是为了更新数据集的权重集和弱学习器的权重。

3.将各个训练得到的弱分类器组合成强分类器。

基于弱分类器的权重值和分类结果线性组合得到强分类器，而分类误差率越低的弱分类器在最终分类器中权重越大，误差率越高则权重越小。

3、Adaboost分类算法¶

假设二分类的训练数据集$T=\{(x_1,y_1),(x_2,y_2),???,(x_m,y_m)\}$，分类标记定义为$y_i\in \{+1,?1\}$。

3.1 初始化权重¶

假设每一个训练样本最开始时都被赋予相同的权值：$1/m$，即每个训练样本在基本分类器的学习中作用相同。数学化的语言表示为$$w^{t=1}_i=\frac{1}{m}$$

3.2 训练弱分类器¶

假设执行M轮弱分类器的训练可以组合得到一个强分类器，则第k轮的训练样本的基分类$G_k(x):\{-1,1\}$，权值分布为$D_m:\{w_{k1},w_{k2},…,w_{km}\}$。

训练过程主要包含3步操作。即计算分类误差率、计算基分类器权重、更新下一个弱分类器权重。下面将对第k步的弱学习器计算进行叙述。

（1）计算分类误差率

第$k$轮基分类器$G_k(x)$在训练数据集上的分类误差率$e_k$定义为 $$e_k = P(G_k(x_i) \neq y_i) = \sum\limits_{i=1}^{m}w_{ki}I(G_k(x_i) \neq y_i)，且\sum\limits_{i=1}^{m}w_{ki}=1。$$

可以看出，$G_k(x)$在加权的训练数据集上的分类误差率是被$G_k(x)$误分类样本的权值之和，由此可以看出数据权值分布$D_m$与基本分类器$G_k(x)$的分类误差率的关系。

（2）计算基分类器权重系数

该系数表示$G_M(x)$在最终分类器中的重要程度，目的在于使我们得到基分类器在最终分类器中所占的权值，系数计算公式如下： $$\alpha_k = \frac{1}{2}log\frac{1-e_k}{e_k}$$

如果分类误差率$e_k$越大，则对应的弱分类器权重系数$\alpha_k$越小。也就是说，误差率小的弱分类器权重系数越大。

由表达式可知，当$e_k\leq 12$时，$\alpha_k\geq 0$，并且$\alpha_k$随着$e_k$的减小而增大，意味着分类误差越小的基本分类器在最终分类器的作用越大，而$e_k\geq 12$则刚好相反，这正好验证了集成学习中每个个体分类器的分类精度必须大于0.5的前提条件。

（3）更新训练集的权值分布

假设第$k$个弱分类器的样本集权重系数为$D(k) = (w_{k1}, w_{k2}, ...w_{km})$，则对应的第$k+1$个弱分类器的样本集权重系数为 $$w_{k+1,i} = \frac{w_{ki}}{Z_k}exp(-\alpha_ky_iG_k(x_i))$$

$Z_k$是规范化因子 $$Z_k = \sum\limits_{i=1}^{m}w_{ki}exp(-\alpha_ky_iG_k(x_i))$$

3.3 组合强分类器¶

基分类器根据权重参数线性组合的结合策略，最终的强分类器为 $$f(x) = sign(\sum\limits_{k=1}^{M}\alpha_kG_k(x))$$

4、Adaboost回归算法¶

假设二分类的训练数据集$T=\{(x_1,y_1),(x_2,y_2),???,(x_n,y_n)\}$。

4.1 初始化权重¶

假设每一个训练样本最开始时都被赋予相同的权值：$1/m$，即每个训练样本在基本分类器的学习中作用相同。数学化的语言表示为$$w^{t=1}_i=\frac{1}{m}$$

4.2 训练弱分类器¶

假设执行M轮弱分类器的训练可以组合得到一个强分类器，则第k轮的训练样本的基分类$G_k(x)$，权值分布为$Dn:\{w_{k1},w_{k2},…,w_{km}\}$。

训练过程主要包含5步操作。即计算训练集最大误差、计算每个样本的相对误差、计算分类误差率、计算基分类器权重、更新下一个弱分类器权值分布。下面将对第k步的弱学习器计算进行叙述。

（1）计算训练集最大误差

$$E_k= max|y_i - G_k(x_i)|\;i=1,2...m$$

（2）计算每个样本的相对误差

若是线性误差，则$$e_{ki}= \frac{|y_i - G_k(x_i)|}{E_k}$$

若是平方误差，则$$e_{ki}= \frac{(y_i - G_k(x_i))^2}{E_k^2}$$

若是指数误差，则$$e_{ki}= 1 - exp(\frac{-y_i + G_k(x_i))}{E_k})$$

（3）计算分类误差率 $$e_k = \sum\limits_{i=1}^{m}w_{ki}e_{ki}$$

（4）计算基分类器权重系数

$$\alpha_k =\frac{e_k}{1-e_k}$$

（5）更新训练集的权值分布

假设第$k$个弱分类器的样本集权重系数为$D(k) = (w_{k1}, w_{k2}, ...w_{km})$，则对应的第$k+1$个弱分类器的样本集权重系数为

$$w_{k+1,i} = \frac{w_{ki}}{Z_k}\alpha_k^{1-e_{ki}}$$

$Z_k$是规范化因子

$$Z_k = \sum\limits_{i=1}^{m}w_{ki}\alpha_k^{1-e_{ki}}$$

4.3 组合强分类器¶

基于对加权的弱学习器取权重中位数对应的弱学习器作为强学习器的结合策略，最终的强回归器为

$$f(x) =[\sum_{k=1}^M(\ln(\frac{1}{\alpha_k}))]g(x)$$

其中，$g(x)$是所有$\alpha_kG_k(x), k=1,2,....M$的中位数。

另外还有基于加权平均的结合策略，则最终的强回归类器为

$$f(x) =\sum_{k=1}^M(\ln(\frac{1}{\alpha_k}))G_k(x)$$ ?

5、总结¶

总的来说，Adaboost的分类和回归算法原理非常相似，区别之处就是误差计算和结合策略有所差异。对于弱学习器（决策树）而言，Adaboost分类一般使用CART分类树，而Adaboost回归一般使用CART回归树。

内容总结

以上是互联网集市为您收集整理的集成学习之Adaboost算法全部内容，希望文章能够帮你解决集成学习之Adaboost算法所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/640493.html

来源：【匿名】

【上一篇】清华大学机试需要二刷 *贪心算法，比较虎人【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【集成学习之Adaboost算法】教程文章相关的互联网学习教程文章

1.Boosting思路 Boosting是将若学习器提升为强学习器的算法。弱学习器仅能获得比随机猜测稍好一点的结果，而强学习器可以非常接近最优学习器。 Boosting的过程相当简单。以将示例分为正类和负类的二分类任务为例，假设弱学习器可以在任何给定分布上工作，训练样本独立同分布地根据分布 D\mathcal{D}D 从空间 X\mathcal{X}X 中抽取，并由函数 f\mathcal{f}f 打上真实标记。假设空间 X\mathcal{X}X 由 X1\mathcal{X_1}X1? , X2\mathc...

04-04 AdaBoost算法代码(鸢尾花分类)【代码】【图】

目录AdaBoost算法代码(鸢尾花分类)一、导入模块二、导入数据三、构造决策边界四、训练模型4.1 训练模型(n_e=10, l_r=0.8)4.2 可视化4.3 训练模型(n_estimators=300, learning_rate=0.8)4.4 训练模型(n_estimators=300, learning_rate=0.5)4.5 训练模型(n_estimators=600, learning_rate=0.7)AdaBoost算法代码(鸢尾花分类)一、导入模块import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import ListedCol...

机器学习-集成学习-boosting之AdaBoost算法详解【图】

1. 概述1.1 集成学习目前存在各种各样的机器学习算法，例如SVM、决策树、感知机等等。但是实际应用中，或者说在打比赛时，成绩较好的队伍几乎都用了集成学习(ensemble learning)的方法。集成学习的思想，简单来讲，就是“三个臭皮匠顶个诸葛亮”。集成学习通过结合多个学习器(例如同种算法但是参数不同，或者不同算法)，一般会获得比任意单个学习器都要好的性能，尤其是在这些学习器都是"弱学习器"的时候提升效果会很明显。弱学习...

机器学习算法（一） | Adaboost算法详解【图】

重磅干货，第一时间送达 1 前言用一条垂直于X轴或者Y轴的直线将蓝色点和黄色点成功分离，无论这个直线是怎么选取，这个分类都不可能达到100％的准确率。当年感知机的提出为我们解决线性问题提供了解题思路，当面对异或问题的时候，感知机却无能为力。后来引入了激活函数，解决了异或问题，给感知机注入了活力。回到正题，当一条直线无法正确划分这个分类的时候，要怎么做呢？引入激活函数，可以吗？ 2 Bagging Bagging训练流程：在...

04-04 AdaBoost算法代码(鸢尾花分类)【代码】【图】

目录AdaBoost算法代码(鸢尾花分类)一、导入模块二、导入数据三、构造决策边界四、训练模型4.1 训练模型(n_e=10, l_r=0.8)4.2 可视化4.3 训练模型(n_estimators=300, learning_rate=0.8)4.4 训练模型(n_estimators=300, learning_rate=0.5)4.5 训练模型(n_estimators=600, learning_rate=0.7) 更新、更全的《机器学习》的更新网站，更有python、go、数据结构与算法、爬虫、人工智能教学等着你：https://www.cnblogs.com/nickchen121...

机器学习集成学习篇——python实现Bagging和AdaBOOST算法【代码】

机器学习集成学习篇——python实现Bagging和AdaBOOST算法摘要Bagging算法Adaboost算法摘要本文通过python实现了集成学习中的Bagging和AdaBOOST算法，并将代码进行了封装，方便读者调用。 Bagging算法 import numpy as np import pandas as pd class Cyrus_bagging(object):def __init__(self,estimator,n_estimators = 20):self.estimator = estimatorself.n_estimators = n_estimatorsself.models = Nonedef fit(self,x,y):x =...

集成学习之Adaboost算法

AdaBoost算法理解【图】

AdaBoost的前身和今世强可学习和弱可学习在概率近似正确(PAC)学习框架中, 一个类如果存在:一个多项式复杂度的学习算法,正确率略大于随机猜测(例如二分类问题中大于1/2),称弱可学习的一个多项式复杂度的学习算法,并且正确率很高,称强可学习的Kearns和Valiant证明了强可学习和弱可学习是等价的 The Strength of Weak Learnability Adaboost算法就是将弱学习器组成强学习器的算法 Explaining AdaBoost 算法受到工业界和学术界的关注...

[转载]AdaBoost算法【图】

[转载]AdaBoost算法原文：https://blog.csdn.net/v_july_v/article/details/40718799 这里就不转载了，到原文看吧。但是有几点可以注意下：上一个基本分类器训练出来的权值是下一个基本分类器的初始权值。并且每次分类器更新后，预测时都是这个分类器和前面的分类器的组合，例如原文中的f3(x)=0.4236G1(x) + 0.6496G2(x)+0.7514G3(x) 一个基本分类器只更新一次权值基本分类器的构建在精度达到某一要求的时候停止 Adaboost的误差上...

# 机器学习算法总结-第六天(Adaboost算法)【代码】【图】

SKlearn中的Adaboost使用主要调的参数：第一部分是对我们的Adaboost的框架进行调参，第二部分是对我们选择的弱分类器进行调参。使用 Adaboost 进行手写数字识别导入库，载入数据 import pandas as pd import numpy as np import matplotlib.pyplot as pltfrom sklearn.ensemble import AdaBoostClassifier from sklearn.tree import DecisionTreeClassifierfrom sklearn.metrics import accuracy_score from sklearn.model_sele...

adaboost算法原理及sklearn中使用办法【图】

转自https://www.cnblogs.com/pinard/p/6136914.html，感谢作者在集成学习原理小结中，我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类，第一个是个体学习器之间存在强依赖关系，另一类是个体学习器之间不存在强依赖关系。前者的代表算法就是是boosting系列算法。在boosting系列算法中， Adaboost是最著名的算法之一。Adaboost既可以用作分类，也可以用作回归。本文就对Adaboost算法做一个总结。 1. 回顾b...

基于AdaBoost算法——世纪晟结合Haar-like特征训练人脸检测识别【图】

AdaBoost?算法是一种快速人脸检测算法，它将根据弱学习的反馈，适应性地调整假设的错误率，使在效率不降低的情况下，检测正确率得到了很大的提高。系统在技术上的三个贡献： 1.用简单的Haar-like矩形特征作特征，可快速计算 2.基于AdaBoost的分类器设计 3.采用了Cascade(分级分类器)技术提高检测速度人脸的特征表示方法——Haar-like矩形特征矩形特征的值是所有白色矩形中点的亮度值的和减去所有灰色矩形中点的亮度值的和...

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / 集成学习之Adaboost算法

集成学习之Adaboost算法

内容导读

内容图文

1、Adaboost算法概述¶

2、算法流程介绍¶

3、Adaboost分类算法¶

3.1 初始化权重¶

3.2 训练弱分类器¶

3.3 组合强分类器¶

4、Adaboost回归算法¶

4.1 初始化权重¶

4.2 训练弱分类器¶

4.3 组合强分类器¶

5、总结¶

内容总结

内容备注

内容手机端

【集成学习之Adaboost算法】教程文章相关的互联网学习教程文章

Boosting的思路与AdaBoost算法

04-04 AdaBoost算法代码(鸢尾花分类)【代码】【图】

机器学习-集成学习-boosting之AdaBoost算法详解【图】

机器学习算法（一） | Adaboost算法详解【图】

04-04 AdaBoost算法代码(鸢尾花分类)【代码】【图】

机器学习集成学习篇——python实现Bagging和AdaBOOST算法【代码】

集成学习之Adaboost算法

AdaBoost算法理解【图】

[转载]AdaBoost算法【图】

# 机器学习算法总结-第六天(Adaboost算法)【代码】【图】

adaboost算法原理及sklearn中使用办法【图】

基于AdaBoost算法——世纪晟结合Haar-like特征训练人脸检测识别【图】

算法 - 相关标签

算法 - 最新教程

算法 - 最热教程