首页 / 算法 / 集成算法（随机森林）【知识整理】

集成算法（随机森林）【知识整理】

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了集成算法（随机森林）【知识整理】，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3539字，纯文字阅读大概需要6分钟。

内容图文

集成算法·随机森林的原理介绍（分析基础）

综述
Ensemble Learning

Bagging模型

Random Forest
KKN

Boosting模型

Adaboost

Stacking模型

小结

综述

整理一些关于数据分析的知识：本章为集成算法（随机森林）的原理介绍，具体的实现代码在下一章的titanic获救数据分析中具体讲述。

Ensemble Learning

目的：让机器学习的效果更好。例如：单个决策树模型预测的准确性不太高，如果我们同时采用50棵决策树时可能达到的效果就比较好了。
典型的两个模型：
1、Bagging：训练多个分类器取平均值 $f(x)=\frac{1}{M}\sum_{m= 1}^{M}f_m(x)$ f(x)=M1?m=1∑M?fm?(x)
2、Boosting:从弱学习器开始加强，通过加权来进行训练 $F_m(x)=F_{m-1}(x)+argmin_h\sum_{i = 1}^{n}L(F_{m-1}(x_i)+h(x_i))$ Fm?(x)=Fm?1?(x)+argminh?i=1∑n?L(Fm?1?(xi?)+h(xi?))(加入一棵树后，效果上升)
3、Stacking：聚合多个分类或回归模型（简单来说就是用很多个预测模型对数据进行预测，再将所有的预测值与实际值做线性回归，得到各个预测模型的权重，最后使用整个预测系统进行预测的方式）

Bagging模型

全称：bootstrap aggregation （简单说就是并行的训练一堆分类器），最典型的代表就是随机森林
随机处理：为了使得每次分类器得到的结果都不一样，我们通常采用随机选取60%-80%的样本和一定数据的特征，作为一个分类器的分类输入。注意：同一个模型中样本选取比例相同，特征值选取的数量相同
森林：就是将多个分类器（决策树）并行放在一起，注意：并是树的数量越多越好有时候当数量达到一定值时，效果可能很难提升，甚至会下降

Random Forest

构造树模型：由于二重随机性，使得每次树基本上都不会一样，最终的结果也会有区别
树模型：每个树模型中我们都进行随机选取输入，是保证泛化能力，如果每棵树都一样就没有实际意义了。
模型优势：
1、它能处理很高纬度的数据，并且不用做特征选择（也可以做）
2、在训练完后，它能够给出重要性较高的feature
3、容易做成并行化方法，速度比较快
4、可以进行可视化操作（但是当树过于庞大时不建议）
拓展部分（随机森林如何判断feature重要性）
现有 $A$ A， $B$ B， $C$ C， $D$ D这4个特征这时候我们做随机森林的模型： $A+B+C+D\rightarrow E_1$ A+B+C+D→E1?
当我们需要判断 $A$ A特征的重要性时，我们可以将 $A$ A中的数据用噪音数据代替掉，我们用 $A'$ A′表示，在应用模型 $A'+B+C+D\rightarrow E_2$ A′+B+C+D→E2?
此时我们就得到了对于特征 $A$ A的两个结果值，如果这两个结果值得偏差很小，那我们认为 $A$ A对回归的作用是微乎其微的；反之， $A$ A有具体的作用。

KKN

该方法不太适合，使用这种方法很难去随机让模型的泛化能力变强。（具体介绍之后补充）

Boosting模型

该模型典型代表有Adaboost，Xgboost后者在以后哦的数据分析中具体说明。

Adaboost

Adaboost会根据前一次的分类效果调整数据的权重

具体实现方式：如果一个数据在这次分错了，那么在下一次我就会给它更大的权重
最终结果：每个分类器根据自身的准确性来确定各种的权重，再结合
实例：

0	1	2	3	4
0.2	0.2	0.2	0.2	0.2

开始我们给这些数据的权重是相同的，当进行预测后：

0	1	2	3	4
0.2	0.2	0.2	0.2	0.2
√	×	√	√	√

发现 1 数据出错了，此时我们再调成权重：

0	1	2	3	4
0.1	0.6	0.1	0.1	0.1

大致上是这样一个思想。然后每个分类器都会有优劣，好的分类器权重越大，差的越小。

Stacking模型

堆叠思想：简单粗暴，直接用很多个回归模型套数据，分类器可以多种多样（KNN，SVM，RF等等）
分阶段：第一阶段每个模型得出各自的结果，第二阶段将用前一阶段结果进行训练得出模型。
大致思想：
第一阶段：单独预测

model	1	2	3
RF	1	0	1
LR	1	0	1
SVM	1	1	0
Xgboost	0	0	1

第二阶段：结果训练
$\left( \begin{matrix} 1 & 0 & 1& 0 \\ 1 & 0 & 1& 0 \\ 1 & 1 & 0& 0 \\ 0 & 0 & 1& 0 \end{matrix} \right ) \tag{2} \xrightarrow{LR} \left( \begin{matrix} 1 & 0 & 1& 0 \end{matrix} \right )$ ?????1110?0010?1101?0000??????LR?(1?0?1?0?)(2)

小结

如果数据分析时没有太好的方法做回归，推荐先使用随机森林看看效果。此外，集成算法看着比较高级，适合数学建模使用。具体的实现方式，在titanic分析中展示。

内容总结

以上是互联网集市为您收集整理的集成算法（随机森林）【知识整理】全部内容，希望文章能够帮你解决集成算法（随机森林）【知识整理】所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/838504.html

来源：【匿名】

【上一篇】RSA算法浅入浅出【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【集成算法（随机森林）【知识整理】】教程文章相关的互联网学习教程文章

随机素数测试（Miller_Rabin算法）和求整数素因子（Pollard_rho算法）【代码】

POJ1811给一个大数，判断是否是素数，如果不是素数，打印出它的最小质因数随机素数测试（Miller_Rabin算法）求整数素因子（Pollard_rho算法）科技题 1 #include<cstdlib>2 #include<cstdio>3constint maxn=10005;4constint S=20;5int tot;6longlong n;7longlong factor[maxn]; 8longlong muti_mod(longlong a,longlong b,longlong c)9{10//(a*b) mod c a,b,c<2^63 11 a%=c;12 b%=c;13longlong ret=0;14while(b)15 {16i...

算法-随机不重复数列生成【代码】

今天上班的时候网上看到题目很简单，题目是这样的：给定一个正整数n，需要输出一个长度为n的数组，数组元素是随机数，范围为0 – n-1，且元素不能重复。比如 n = 3 时，需要获取一个长度为3的数组，元素范围为0-2；简单的理解就是生成一个无序的随机数组，在路上想了一下回来用三种方式方式实现了一下；OC实现了一下，文章最末尾顺便有C#的是实现方法；永远的Whilewhile基本上学过语言的最开始的流程分支语句都会涉及到while，如果...

[LOJ#2540][PKUWC2018]随机算法(概率DP)【代码】

场上数据很水，比较暴力的做法都可以过90分以上，下面说几个做法。1. 暴力枚举所有最大独立集，对每个独立集分别DP。复杂度玄学，但是由于最大独立集并不多，所以可以拿90.2. dp[S][k]表示考虑到排列的第k位，当前独立集为S的方案数，枚举第k+1位，根据是否与S相连转移到dp[S][k+1]或dp[S | a[k+1]][k+1]。$O(n^22^n)$3. dp[S]表示排列的状态为S时的正确率，mx[S]表示排列状态为S时能得到的最大独立集大小，考虑转移，枚举排列里最...

NPC随机响应算法

45%的概率友好致敬25%的概率转身离开20%的概率攻击10%的概率送礼int choose(){float[] propArray = {45%,25%,20%,10%}float total = 0.0f;for(int i = 0 ; i < propArray.length;i++){total += propArray[i];}float propValue = Random.value*total;for(int i = 0 ; i< propArray.length; i++){if(propValue < propArray[i]){ return i;}else{ propValue -= propArray[i];}}return propArray.length - 1;}原文：http://56846...

C语言之实现随机数产生算法【图】

随机数，也就是在不同的时刻产生不同的数值。在UNIX操作系统和window的操作系统上，我们知道有一个函数rand，它就是用来产生随机数的函数API接口，那么它的原理如何实现？如果约定a1=f(seed),an+1=f(an)，那么可以得到一个序列a1,a2,a3..an，那么要制作一个伪随机函数rand，只需要让它每调用一次就返回序列的下一个元素就行。其实就是相当于第1次调用rand返回a1，第2次返回a2，…，第n次返回an，这样每次返回的数值都不一样，也就是...

抽奖算法-指定概率的随机【图】

抽奖算法参考Return random `list` item by its `weight`原文：http://www.cnblogs.com/HQFZ/p/5945219.html

LOJ2540 随机算法【代码】

看到$n\leq 20$,马上想到状压$dp$. 考虑用$f[S][i]$表示集合$S$已经被考虑过了,独立集大小为$i$的方案数. 显然,这个集合$S$的最外层显然都没有被选. 考虑如何转移. 枚举一个$j\notin S$,那么独立集大小显然$+1$,然后所有和$j$相连的点都不能选了. 那么用$w[j]$记录与$j$相邻的集合,然后就可以转移了.$f[S\cup j][i+1]\leftarrow f[S\cup j][i+1]+f[S][i]*A_{n-|S|-1}^{|w[j]|-|w[j]\cap S|-1}$ 时间复杂度...

mahout 随机森林RF算法

在随机森林中的随机性体现在：1.训练数据的随机性 2. 选择分割属性的随机性能解决分类与回归问题，并且都有很好的估计表现1.生成数据说明文件mahout describe -p input.csv -f input.info-d2 I 3 N I 5 N I 3 C L（执行describe生成数据的说明文件）2.训练模型mahout buildforest -d input.csv -ds input.info -sl 5 -p -t 5 -o forest_result(生成随机森林模型结果)3.测试Mahout testforest -i input.csv -ds input.info -m fore...

随机函数rand()算法【代码】

今天学习了一下随机函数rand的算法。这个算法叫做线性同余算法(linear congruential generator (LCG))。不同的编译器取的常数不同，可以参考wiki：http://en.wikipedia.org/wiki/Linear_congruential_generator以下程序可以输出和系统一样的随机数。 1 #include <stdio.h>2 #include <stdlib.h>3 4 5#define _A 214013LL6#define _B 2531011LL7 8 9int a; 101112void mysrand(int x) 13{ 14 a = x; 15} 161718int myrand() 19{...

史上最全的java随机数生成算法[转载]【代码】

1package com.zuidaima.core.util;2 3import java.util.Random;4 5publicclass RandomUtil {6publicstaticfinal String ALLCHAR = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ";7publicstaticfinal String LETTERCHAR = "abcdefghijkllmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ";8publicstaticfinal String NUMBERCHAR = "0123456789";9 10/** 11 * 返回一个定长的随机字符串(只包含大小写字母、数字...

伪随机数算法【代码】

Random转载内容，有更改，感谢原作者（）Java中的Random类生成的是伪随机数，使用的是48-bit的种子，然后调用一个linear congruential formula线性同余方程（Donald Knuth的编程艺术的3.2.1节）如果两个Random实例使用相同的种子，并且调用同样的函数，那么生成的sequence是相同的也可以调用Math.random()生成随机数Random实例是线程安全的，但是并发使用Random实例会影响效率，可以考虑使用ThreadLocalRandom变量。Random实例不是...

加权随机算法改良版【代码】【图】

func (this *LoadBalance) SelectByWeightBetter(ip string) *HttpServer {rand.Seed(time.Now().UnixNano())sumList := make([]int, len(this.Servers)) //this.servers是服务器列表sum := 0for i := 0; i < len(this.Servers); i++ {sum += this.Servers[i].Weight //如果是5，7，9权重之和为5 12 21，分三个区间[0:5) [5:12) [12,21) 0-20的随机数落在哪个区间就代表当前随机是哪个权重sumList[i] = sum //生成权重区间列表}_...

笔试题--红包算法，给定一个红包总金额和分红包的人数，输出每个人随机抢到的红包数量。【代码】

* 红包算法，给定一个红包总金额和分红包的人数，输出每个人随机抢到的红包数量。* 要求：* 每个人都要抢到红包，并且金额随机* 每个人抢到的金额数不小于1* 每个人抢到的金额数不超过总金额的30%* 例如总金额100，人数10，输出【19 20 15 1 25 14 2 2 1 1】//最少分得红包数privatestaticfinaldouble min = 1;//最多分得红包数占比privatestaticfinaldouble percentMax = 0.3;publicvoid allocateMoney(double money, int peopleN...

随机算法【代码】

staticvoid Test7(){var strs = new List<string>{"192.168.100.125","192.168.100.126","192.168.100.127","192.168.100.128","192.168.100.130","192.168.100.131"};var d = GetRandom(strs);}publicstatic T GetRandom<T>(List<T> list){System.Random ran = new System.Random(GetRandomSeed());var t = ran.Next(0, list.Count);return list[t];} 原文：https://www.cnblogs.com/liuxiaoji/p/10319781.html

Java中使用TreeMap权重随机算法，以及验证与分析【代码】

权重下随机，就是给定各个值不同的权重，再根据权重的比例随机选出一个值 1/** 2 * Created by Jungle on 2020/2/23.3 *4 * @author JungleZhang5 * @version 1.0.06 * @Description 权重下随机的算法7*/ 8publicclass WeightRandom<K, V extends Number> {9private TreeMap<Double, K> weightMap = new TreeMap<>(); 1011public WeightRandom(@NotNull List<Pair<K, V>> list) { 12// 先排除权重为0的项13 Iterator<Pair<...

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / 集成算法（随机森林）【知识整理】

集成算法（随机森林）【知识整理】

内容导读

内容图文

集成算法·随机森林的原理介绍（分析基础）

综述

Ensemble Learning

Bagging模型

Random Forest

KKN

Boosting模型

Adaboost

Stacking模型

小结

内容总结

内容备注

内容手机端

【集成算法（随机森林）【知识整理】】教程文章相关的互联网学习教程文章

随机素数测试（Miller_Rabin算法）和求整数素因子（Pollard_rho算法）【代码】

算法-随机不重复数列生成【代码】

[LOJ#2540][PKUWC2018]随机算法(概率DP)【代码】

NPC随机响应算法

C语言之实现随机数产生算法【图】

抽奖算法-指定概率的随机【图】

LOJ2540 随机算法【代码】

mahout 随机森林RF算法

随机函数rand()算法【代码】

史上最全的java随机数生成算法[转载]【代码】

伪随机数算法【代码】

加权随机算法改良版【代码】【图】

笔试题--红包算法，给定一个红包总金额和分红包的人数，输出每个人随机抢到的红包数量。【代码】

随机算法【代码】

Java中使用TreeMap权重随机算法，以及验证与分析【代码】

算法 - 相关标签

随机 - 相关标签

算法 - 最新教程

算法 - 最热教程