随机森林算法原理简要总结怎么写_旋转森林算法

随机森林算法原理简要总结怎么写_旋转森林算法①RandomForest随机森林算法原理:即bagging法+CART算法生成决策树的结合。RF=bagging+fully-grownCARTdecisiontree②bagging法的核心:bootstrap在原始数据集D中选择若干个子数据集Dt,将子数据集单个单个进行决策树生成。③随机森林的优点:可并行化计算(子集的训练相互独立),效率高继承了CART算法的优点(使用Gini系数选择最优特征及切分点)减小了完全生成树的弊端(因为完全生成树过于复杂,Ein小但E

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

①Random Forest 随机森林算法原理:
即bagging法+CART算法生成决策树的结合。

R F = bagging + fully-grown CART decision tree

②bagging法的核心:bootstrap在原始数据集D中选择若干个子数据集Dt,将子数据集单个单个进行决策树生成。

③随机森林的优点:

  • 可并行化计算(子集的训练相互独立),效率高
  • 继承了CART算法的优点(使用Gini系数选择最优特征及切分点)
  • 减小了完全生成树的弊端(因为完全生成树过于复杂,Ein小但Eout大;如果不与bagging结合的话,决策树的训练是要先生成再剪枝的,而RF当中就不需要剪枝了,因为bagging法使得各个子集的决策树不会过于复杂)

④误差Eoob(out of bag 袋外误差)

此处参考博客:
作者:快乐的小飞熊
链接:https://www.jianshu.com/p/b94ec2fc345d
来源:简书

  • 在随机森林bagging法中可以发现booststrap每次约有1/3的样本不会出现在bootstrap所采集的样本集合中,故没有参加决策树的建立,这些数据称为袋外数据oob,用于取代测试集误差估计方法,可用于模型的验证。(优点是不需要另外划分validation验证集,袋外数据直接作为验证数据,在模型训练之时就计算出了误差。即袋外误差)
    下面先介绍下oob的使用,其中(x,y)代表输入的样本和label,g表示的是构建的树。
    在这里插入图片描述
    上图中(xN,yN)没有用于g2、g3、gt,所以(xN,yN)可以作为g2、g3、gt的验证数据,然后此oob数据作为输入,输入到模型中,然后投票,少数服从多数。
    同理,对于(x1,y1)、(x2,y2)等也存在同样的计算,最终计算评判错误的样本占比,就是oob-error.
    所以oob可以用来衡量RF模型的好坏。

  • 同时,也可以引出随机森林输出特征重要性的原理:如果特征i对于模型是有利的,那么第i维特征置换成随机值,将会降低模型的性能,也就是会使oob-error变大。
    根据这个原理,我们可以进行特征选取,即去除冗余的、相关性差的特征。(也称为置换试验)
    importance(i) = Eoob(G) – Eoob^p(G)
    其中Eoob^p(G)就是被替换掉第i维特征值后的数据集的Eoob。


END

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/215492.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • HTML转word_讯飞语记怎么变成word文档

    HTML转word_讯飞语记怎么变成word文档HTML转word背景介绍1.使用POI进行转化1.1思路1.2代码示例1.3思考2.使用jacob进行转化2.1思路2.2代码示例2.3思考3.总结背景介绍业务:将平台中尽调笔记(富文本)以word形式导出。1.使用POI进行转化依赖jarpoi-3.17.jarpoi-excelant-3.17.jarpoi-ooxml-3.17.jarpoi-ooxml-…

    2022年10月12日
    0
  • 网络流量分析

    网络流量分析网络流量分析具体要求收集自己本机的网络流量数据(至少1小时)并进行数据显示。可用wireshark软件抓包网络流量大小的时序图,可按每半分钟、每分钟、每五分钟、每十分钟进行分别显示。流量协议类型直方图可设置过滤条件,显示指定协议数据包、显示时间段数据包、显示长度范围内的数据包提示:由于代码导入pyshark模块,注意wireshark安装路径为C盘programfils文件夹下,…

    2022年4月29日
    66
  • Script failed for StoredProcedure ‘………’ Index was outside the bounds of the array.(Microsof…

    Script failed for StoredProcedure ‘………’ Index was outside the bounds of the array.(Microsof…本地数据库远程登陆数据库服务器,右击存储过程,报错如下:原因:本地数据库版本2008R2,但服务器数据库版本2012,版本不一致导致的。转载于:https://www.cnblogs.com/vitaminC/p/6907827.html…

    2022年7月26日
    11
  • encoder和decoder的区别_decode作用

    encoder和decoder的区别_decode作用I’veneverbeensurethatIunderstandthedifferencebetweenstr/unicodedecodeandencode.Iknowthatstr().decode()isforwhenyouhaveastringofbytesthatyouknowhasacertaincharacterenco…

    2022年10月6日
    0
  • java 死链检测_网站死链检测工具/网站地图生成工具「建议收藏」

    java 死链检测_网站死链检测工具/网站地图生成工具「建议收藏」转载自http://www.yshjava.cn/post/483.html今天在谷歌站长工具上看到谷歌爬虫在笔者的个人博客网站上找到了3个无效的404链接,稍微有一点SEO常识的人都知道,404是搜索引擎爬虫非常讨厌的页面,会直接降低网站在搜索引擎中的权重和排名,这是广大站长都不愿意看到的事情。如果自己手动的去寻找这些404页面,或许很难:404存在于哪些页面中?出现一次还是多次?偶然还是必然…

    2022年7月23日
    16
  • 网页内容变化监控提醒

    网页内容变化监控提醒有很多的人都需要查看网站的变化并且提醒,比如说股票的股市,商品的价格等等。这次案例以实时监控天气温度来简要的说明监控方法,监控的时广州的实时气温,网站会不断的更新当前的气温。首先打开软件网页自动操作通用工具PageOperator,在任务菜单中新建一个刷新操作。点击添加按钮,并把网址输入到对应的地方。点击自动获取,获取网站的编码方案,点击添加,…

    2022年7月17日
    39

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号