随机森林算法原理解析

随机森林算法原理解析集成学习有两个流派 一个是 boosting 派系 它的特点是各个弱学习器之间有依赖关系 另一种是 bagging 流派 它的特点是各个弱学习器之间没有依赖关系 可以并行拟合 1 bagging 的原理在集成学习原理总结中 给出 bagging 的原理图 1 Bagging 的特点 随机采样 随机采集跟训练集个数 m 相同的样本 采集 T 次 得到采样集 注意 GBDT Gr

1.  bagging的原理

在集成学习原理总结中,给出bagging的原理图。

随机森林算法原理解析

  (1)、Bagging的特点“随机采样”。随机采集跟训练集个数m相同的样本,采集T次。得到采样集。

  (注意:GBDT(Gradient Boosted Decision Tree)的子采样是无放回采样,而Bagging的子采样是放回采样。)

  

  (2)、对于一个样本,在m个样本的随机采样中,每次被采集到的概率是1/m。

  在m次采样中没有采集到的概率是:

P(一次都未被采集) = (1-1/m)m

  对m取极限得到:

随机森林算法原理解析

  也就是说bagging的每轮随机采样中,训练集大约有36.8%的数据没被采集。

  对于大约36.8%没被采样的数据,称为“袋外数据”。这些数据没参与训练集模型的拟合,但可以作为测试集用于测试模型的泛化能力,这样的测试结果称为“外包估计”。

  

  (3)、bagging对于弱学习器没有限制,这和Adaboost一样。但是最常用的一般也是决策树和神经网络。

  (4)、bagging的结合策略也比较简单,对于分类问题,通常使用简单投票法,得到最多票数的类别或者类别之一为最终的模型输出。对于回归问题,通常使用简单平均法,对T个弱学习器得到的回归结果进行算术平均得到最终的模型输出。

  由于Bagging算法每次都进行采样来训练模型,因此泛化能力很强,对于降低模型的方差很有作用。当然对于训练集的拟合程度就会差一些,也就是模型的偏倚会大一些。

 

2.  bagging算法流程 

  相对于Boosting系列的Adaboost和GBDT,bagging算法简单的多。

  输入样本集随机森林算法原理解析,弱学习器算法,迭代次数T。

  输出为最终的强分类器 f(x)

  (1)对于 t = 1,2,…,T:

  •   对训练街进行第t次随机采样,共采集m次,得到包含m个样本的采样集Dt
  •   用采样集Dt训练第 t 个弱学习器Gt(x)

  (2)如果是分类算法预测,则T个弱学习器投出最多票数的类别或者类别之一为最终类别。如果是回归算法,T个弱学习器得到的回归结果进行算术平均得到的值为最终的模型输出。

3. 随机森林算法

  RF(Random Forest)算法是对Bagging算法进行了改进。

  首先,RF使用了CART决策树作为弱学习器,这让我们想到梯度提升树GBDT。

  第二,在使用决策树的基础上,RF对决策树的建立做了改进,对于普通的决策树,我们会在节点上所有的n个样本特征中选择一个最优的特征来做决策树的左右子树划分,但是RF通过的随机选择节点上的一部分样本特征,这个数字小于n,假设为nsub,然后在这些随机选择的nsub(小于n)个样本特征中,选择一个最优的特征来做决策树的左右子树划分。这样进一步增强了模型的泛化能力。

  除了上面两点,RF和普通的bagging算法没什么不同,下面简单总结下RF的算法。

  输入为样本集随机森林算法原理解析,弱分类器迭代次数T。

  输出为最终的强分类器f(x)

  (1)对于t = 1,2,3,…,T;

  • 对训练集进行第t次采样,共采集m次,得到包含m个样本的采样集Dt
  • 用采样集Dt训练第t个决策树模型Gt(x),在训练决策树模型的节点的时候,在节点上所有的样本特征中选择一部分样本特征,在这些随机选择的部分样本特征中选择一个最优的特征来做决策树的左右子树划分。

  (2)如果是分类算法预测,则T个弱学习器投出最多票数的类别或者类别之一为最终类别。如果是回归算法,T个弱学习器得到的回归结果进行算术平均得到的值为最终的模型输出。

———————————————————————————————————————————————-

 

 随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是它可以很方便的并行训练,在如今大数据大样本的的时代很有诱惑力。

  随机森林是一种比较新的机器学习模型,经典的机器学习模型是神经网络。神经网络预测精确,但是计算量很大。

  随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。

随机森林算法原理:
  随机森林是从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合,然后根据自助样本集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖于一个独立抽取的样品,森林中的每棵树具有相同的分布,分类误差取决于每一棵树的分类能力和它们之间的相关性。特征选择采用随机的方法去分裂每一个节点,然后比较不同情况下产生的误差。能够检测到的内在估计误差、分类能力和相关性决定选择特征的数目。单棵树的分类能力可能很小,但在随机产生大量的决策树后,一个测试样品可以通过每一棵树的分类结果经统计后选择最可能的分类。

  在建立每一棵决策树的过程中,有两点需要注意采样与完全分裂。首先是两个随机采样的过程,random forest对输入的数据要进行行、列的采样。对于行采样,采用有放回的方式,也就是在采样得到的样本集合中,可能有重复的样本。假设输入样本为N个,那么采样的样本也为N个。这样使得在训练的时候,每一棵树的输入样本都不是全部的样本,使得相对不容易出现over-fitting。然后进行列采样,从M个feature中,选择m个(m << M)。之后就是对采样之后的数据使用完全分裂的方式建立出决策树,这样决策树的某一个叶子节点要么是无法继续分裂的,要么里面的所有样本的都是指向的同一个分类。一般很多的决策树算法都一个重要的步骤——剪枝,但是这里不这样干,由于之前的两个随机采样的过程保证了随机性,所以就算不剪枝,也不会出现over-fitting。

关于随机:
(1)训练每棵树时,从全部训练样本中选取一个子集进行训练(即bootstrap取样)。用剩余的数据进行评测,评估其误差;
(2)在每个节点,随机选取所有特征的一个子集,用来计算最佳分割方式。

算法流程:
(1)训练总样本的个数为N,则单棵决策树从N个训练集中有放回的随机抽取n个作为此单颗树的训练样本(bootstrap有放回取样)。
(2)令训练样例的输入特征的个数为M,m远远小于M,则我们在每颗决策树的每个节点上进行分裂时,从M个输入特征里随机选择m个输入特征,然后从这m个输入特征里选择一个最好的进行分裂。m在构建决策树的过程中不会改变。
注意:要为每个节点随机选出m个特征,然后选择最好的那个特征来分裂。
注意:决策树中分裂属性的两个选择度量:信息增益和基尼指数。
(3)每棵树都一直这样分裂下去,直到该节点的所有训练样例都属于同一类,不需要剪枝。由于之前的两个随机采样的过程保证了随机性,所以就算不剪枝,也不会出现over-fitting。




结果判定:
(1)目标特征为数字类型:取t个决策树的平均值作为分类结果。
(2)目标特征为类别类型:少数服从多数,取单棵树分类结果最多的那个类别作为整个随机森林的分类结果。

预测:
  随机森林是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类,然后看看哪一类被选择最多,就预测这个样本为那一类。
  说明:通过bagging有放回取样后,大约36.8%的没有被采样到的数据,我们常常称之为袋外数据。这些数据没有参与训练集模型的拟合,因此可以用来检测模型的泛化能力。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/203427.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月19日 下午9:49
下一篇 2026年3月19日 下午9:50


相关推荐

  • pip常用命令以及升级方法

    pip常用命令以及升级方法pip常用命令以及升级方法使用python时经常使用到pip命令,可以方便安装python的各种第三方库1:查看pip打开cmd窗口,输入pip命令,会显示pip所有的参数使用方法如果输入pip提示Didnotprovideacommand,可能是没有配置环境变量导致的,也可能系统安装有多个pip2:查看pip的安装路径wherepip3:查看pip版本pip-V(注意V要大写)4:pip升级方法安装python第三方包时,会有pip版本的提示方法一:输入pipin

    2022年6月4日
    60
  • oracle游标的使用详解_oracle游标失效

    oracle游标的使用详解_oracle游标失效1、游标的概念游标(CURSOR):游标是把从数据表中提取出来的数据,以临时表的形式存放在内存中,在游标中有一个数据指针,在初始状态下指向的是首记录,利用fetch语句可以移动该指针,从而对游标中的数据进行各种操作。2、游标的作用游标是用来处理使用SELECT语句从数据库中检索到的多行记录的工具。借助于游标的功能,数据库应用程序可以对一组记录逐条进行处理,每次处理一行。3、游标的类型…

    2025年7月27日
    4
  • “龙虾”打破AI付费墙

    “龙虾”打破AI付费墙

    2026年3月15日
    3
  • Linux keypad 设备树,matrix_keypad 矩阵按键驱动分析

    Linux keypad 设备树,matrix_keypad 矩阵按键驱动分析matrix_keypad矩阵按键驱动分析//主要函数调用过程matrix_keypad_probematrix_keypad_parse_dt//根据设备树构造pdatapdata->num_row_gpios=nrow=of_gpio_named_count(np,”row-gpios”);pdata->num_col_gpios=ncol=of_gpio_…

    2022年6月12日
    98
  • Java中的native修饰符

    Java中的native修饰符今天偶然看代码,发现别人有这样写的方法,并且jar里面有几个dll文件,比较奇怪,于是把代码打开,发现如下写法。public native String GSMModemSMSReadAll(String s, int i);public native String GSMModemGetErrorMsg(String s);public native boolean GSMModemI…

    2022年6月13日
    35
  • springboot的启动流程图_卫生间装修步骤流程

    springboot的启动流程图_卫生间装修步骤流程首先会new一个SpringApplication然后在构造方法里初始化一些属性。判断应用类型是响应式REACTIVE的还是Web应用SERVLET去spring.factories文件加载初始化器ApplicationContextInitializer去spring.factories文件加载监听器ApplicationListener实例化之后执行run方法主体,run执行流程是基于观察者模式的,整个SpringBoot的启动流程就是各种事件的发布。获取并启用监听器Applicati..

    2022年8月20日
    10

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号