RF、GBDT、XGboost特征选择方法「建议收藏」

 RF、GBDT、XGboost都可以做特征选择,属于特征选择中的嵌入式方法。比如在sklearn中,可以用属性feature_importances_去查看特征的重要度,比如:fromsklearnimportensemble#grd=ensemble.GradientBoostingClassifier(n_estimators=30)grd=ensemble.Rando…

大家好,又见面了,我是你们的朋友全栈君。

  RF、GBDT、XGboost都可以做特征选择,属于特征选择中的嵌入式方法。比如在sklearn中,可以用属性feature_importances_去查看特征的重要度, 比如:

from sklearn import ensemble
#grd = ensemble.GradientBoostingClassifier(n_estimators=30)
grd = ensemble.RandomForestClassifier(n_estimators=30)
grd.fit(X_train,y_train)
grd.feature_importances_

  但是这三个分类器是如何计算出特征的重要度呢?下面来分别的说明一下。

1. 随机森林(Random Forest)

    用袋外数据 (OOB) 做预测。随机森林在每次重抽样建立决策树时,都会有一些样本没有被选中,那么就可以用这些样本去做交叉验证,这也是随机森林的优点之一。它可以不用做交叉验证,直接用oob _score_去对模型性能进行评估。

    具体的方法就是:

        1. 对于每一棵决策树,用OOB 计算袋外数据误差,记为 errOOB1;

        2. 然后随机对OOB所有样本的特征i加入噪声干扰,再次计算袋外数据误差,记为errOOB2;

        3. 假设有N棵树,特征i的重要性为sum(errOOB2-errOOB1)/N;

    如果加入随机噪声后,袋外数据准确率大幅下降,说明这个特征对预测结果有很大的影响,进而说明它的重要程度比较高

2. 梯度提升树(GBDT)

    主要是通过计算特征i在单棵树中重要度的平均值,计算公式如下:

RF、GBDT、XGboost特征选择方法「建议收藏」

其中,M是树的数量。特征i在单棵树的重要度主要是通过计算按这个特征i分裂之后损失的减少值

RF、GBDT、XGboost特征选择方法「建议收藏」

其中,L是叶子节点的数量,L-1就是非叶子结点的数量。

3. XGboost

    XGboost是通过该特征每棵树中分裂次数的和去计算的,比如这个特征在第一棵树分裂1次,第二棵树2次……,那么这个特征的得分就是(1+2+…)。

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/127541.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 50道经典MySQL练习题(含解答)

    50道经典MySQL练习题(含解答)本文摘要:本篇主要分享50道经典MySQL练习题(含解答)。

    2022年9月18日
    2
  • 计算机网络基础知识整理「建议收藏」

    参考书目:计算机网络(第6版谢希仁)一、概述1、三网:电信网络、有线电视网络和计算机网络2、电路交换、报文交换、分组交换的比较电路交换公共电话网(PSTN网)和移动网(包括GSM和CDMA网)采用的都是电路交换技术,它的基本特点是采用面向连接的方式,在双方进行通信之前,需要为通信双方分配一条具有固定宽带的通信电路,通信双方在通信过程中一直占用所分配的资源,直到通信结束,并且在电…

    2022年4月17日
    80
  • sqlserver临时表详解_怎么把临时表的数据更新到正式表

    sqlserver临时表详解_怎么把临时表的数据更新到正式表[转自]http://zhengweisincere.blog.163.com/blog/static/498446492009625749522/在SQLServer的性能调优中,有一个不可比面的问题:那就是如何在一段需要长时间的代码或被频繁调用的代码中处理临时数据集?表变量和临时表是两种选择。记得在给一家国内首屈一指的海运公司作SQLServer应用性能评估和调优的时候就看到过

    2022年8月21日
    4
  • java运行环境安装及配置教程

    java运行环境安装及配置教程用来进行web开发的工具有很多,Tomcat是其中一个开源的且免费的javaWeb服务器,是Apache软件基金会的项目。电脑上安装配置Tomcat的方法和java有些相同,不过首先需要配置好java的环境才行。一.java环境的配置1.下载安装javaJDK,注意安装的路径,我们需要进行环境变量的配置(安装jdk随意选择目录只需把默认安装目录\java之前的目录修改即可)

    2022年7月17日
    23
  • Windows系统日志分析_windows日志命令

    Windows系统日志分析_windows日志命令这篇文章记录windows事件和日志的对应关系。

    2025年10月6日
    4
  • 巩固知识体系!淘宝秒杀脚本java

    巩固知识体系!淘宝秒杀脚本java一轮:第一轮面试官(是一位女性,喜欢钻研一些细节性的东西)自我介绍1、HashMap和ArrayList的原理解释下。2、Netty原理介绍下。3.了解过NIO,BIO,AIO么?介绍下异同,代码中如何使用?4.分布式锁用过么?用什么函数?什么使用场景?5.能介绍下垃圾回收机制么?6.redis的数据结构介绍下。项目中用过哪些?什么场景7.幂等性是什么?如何保障?8.交易系统中的数据一致性咋保障?二轮:第二轮面试官(年龄看起来不大,人很好说话,给人一种很舒服的感觉)

    2022年5月24日
    34

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号