RF、GBDT、XGboost特征选择方法「建议收藏」

全栈程序员-站长 • 2022年4月10日下午12:00 • 未分类 • 阅读 114

RF、GBDT、XGboost都可以做特征选择，属于特征选择中的嵌入式方法。比如在sklearn中，可以用属性feature_importances_去查看特征的重要度,比如：fromsklearnimportensemble#grd=ensemble.GradientBoostingClassifier(n_estimators=30)grd=ensemble.Rando…

大家好，又见面了，我是你们的朋友全栈君。

RF、GBDT、XGboost都可以做特征选择，属于特征选择中的嵌入式方法。比如在sklearn中，可以用属性feature_importances_去查看特征的重要度, 比如：

from sklearn import ensemble
#grd = ensemble.GradientBoostingClassifier(n_estimators=30)
grd = ensemble.RandomForestClassifier(n_estimators=30)
grd.fit(X_train,y_train)
grd.feature_importances_

但是这三个分类器是如何计算出特征的重要度呢？下面来分别的说明一下。

1. 随机森林（Random Forest）

用袋外数据 (OOB) 做预测。随机森林在每次重抽样建立决策树时，都会有一些样本没有被选中，那么就可以用这些样本去做交叉验证，这也是随机森林的优点之一。它可以不用做交叉验证，直接用oob _score_去对模型性能进行评估。

具体的方法就是：

1. 对于每一棵决策树，用OOB 计算袋外数据误差，记为 errOOB1；

2. 然后随机对OOB所有样本的特征i加入噪声干扰，再次计算袋外数据误差，记为errOOB2；

3. 假设有N棵树，特征i的重要性为sum(errOOB2-errOOB1)/N;

如果加入随机噪声后，袋外数据准确率大幅下降，说明这个特征对预测结果有很大的影响，进而说明它的重要程度比较高

2. 梯度提升树（GBDT）

主要是通过计算特征i在单棵树中重要度的平均值，计算公式如下：

RF、GBDT、XGboost特征选择方法「建议收藏」

其中，M是树的数量。特征i在单棵树的重要度主要是通过计算按这个特征i分裂之后损失的减少值

RF、GBDT、XGboost特征选择方法「建议收藏」

其中，L是叶子节点的数量，L-1就是非叶子结点的数量。

3. XGboost

XGboost是通过该特征每棵树中分裂次数的和去计算的，比如这个特征在第一棵树分裂1次，第二棵树2次……，那么这个特征的得分就是(1+2+…)。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/127541.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

Proxy实现mysql读写分离

上一篇 2022年4月10日下午12:00

什么是聚类分析？聚类分析方法的类别[通俗易懂]

下一篇 2022年4月10日下午12:20

python django 数据库_Apache+Mysql+PHP/Python简单项目

python django 数据库_Apache+Mysql+PHP/Python简单项目基于Python+Django+mysql的实验室设备管理系统当今时代是飞速发展的信息时代，在各行各业中离不开信息处理，这正是计算机被广泛应用于信息管理系统环境原因。计算机的最大好处在于利用它能够进行信息管理。使用计算机进行信息控制，不仅提高了工作效率，而且大大的提高了其安全性。尤其对于复杂的信息管理，计算机能够充分发挥它的优越性。计算机进行信息管理与信息管理系统的开发密切相关，系统的开发是系统管理的前提。高校的实验室设备管理水平和实验室设备管理规模日益成为反映高校综合实…

全栈程序员-站长
2022年10月9日
4
看完让你彻底搞懂Websocket原理

看完让你彻底搞懂Websocket原理

全栈程序员-站长
2021年10月14日
56
VS 2017安装教程

VS 2017安装教程 1、首先下载安装包，地址是：https://www.microsoft.com/zh-cn/download/，进入首页后选择开发人员工具，进入开发人员工具后即可下载VS，VS有三个版本，分别是社区版、专业版、企业版。我选择的是社区版。点击下载VisualStudio（蓝色底纹）左下侧的发行说明，即可下载以前的旧版本（https://my.visualstudio.com/download…

全栈程序员-站长
2022年6月9日
46
PyCharm+Miniconda3安装配置教程

PyCharm+Miniconda3安装配置教程PyCharm 是 Python 著名的 Python 集成开发环境 IDE conda 有 Miniconda 和 Anaconda 前者应该是类似最小化版本后者可能是功能更为强大的版本我们这里安装 Miniconda 按官方文档的说法 conda 相当于 pip 与 virtualenv 的结合但实际安装来看 conda 本身包括了 Python 所以简单起见可以认为 conda Python pip vi

全栈程序员-站长
2026年3月27日
1
从伯努利分布到多项式分布的条件_伯努利分布的期望

从伯努利分布到多项式分布的条件_伯努利分布的期望1.伯努利分布(bernoulidistribution)又称0-1分布，指一次随机试验，结果只有两种。也就是一个随机变量的取值只有0和1。其中p表示一次伯努利实验中结果为正或为1的概率。概率计算：

全栈程序员-站长
2022年10月12日
4
idea

goland 激活【2021免费激活】

(goland 激活)最近有小伙伴私信我，问我这边有没有免费的intellijIdea的激活码，然后我将全栈君台教程分享给他了。激活成功之后他一直表示感谢，哈哈~IntelliJ2021最新激活注册码，破解教程可免费永久激活，亲测有效，下面是详细链接哦~https://javaforall.net/100143.html1M…

全栈程序员-站长
2022年3月28日
71

发表回复

关注全栈程序员社区公众号