决策树CART算法、基尼系数的计算方法和含义[通俗易懂]

全栈程序员-站长 • 2022年10月13日上午6:46 • 未分类 • 阅读 6

决策树CART算法、基尼系数的计算方法和含义[通俗易懂]决策树CART算法——基尼系数决策树的CART算法使用基尼系数来选择划分属性。一个数据集的纯度可以用基尼系数来度量Gini(D)=∑k=1∣y∣∑k′≠kpkpk′=1−∑k=1∣y∣pk2\begin{aligned}Gini(D)=\sum_{k=1}^{|y|}\sum_{k'\nek}p_kp_{k'}=1-\sum_{k=1}^{|y|}…

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

决策树CART算法——基尼系数

决策树的CART算法使用基尼系数来选择划分属性。一个数据集的纯度可以用基尼系数来度量

$\begin{aligned}Gini(D) = \sum_{k=1}^{|y|}\sum_{k'\ne k}p_kp_{k'} = 1-\sum_{k=1}^{|y|}p_k^2\end{aligned}$

直观来说，数据集的基尼系数反映了从数据集D中随机抽取两个样本，其类别不一样的概率。因此，基尼系数越小，数据集的纯度越高。

那么属性a的基尼系数为

$\begin{aligned}Gini\_index(D,a) = \sum_{v=1}^{V}\frac{|D^v|}{D}Gini(D^v)\end{aligned}$

与数据集D中a属性的熵值计算类似，参考我的博文1和我的博文2

于是，我们在候选属性集合A中，选择那个使得划分后的基尼指数值最小的属性作为最优划分属性

$a_* = argmin_{a\in A}Gini\_index(D,a)$

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/182588.html原文链接：https://javaforall.net

赞 (0)

全栈程序员-站长

0 0

pycharm如何同时选中多个相同内容_jsonobject.parsearray

pycharm如何同时选中多个相同内容_jsonobject.parsearrayPycharm使用技巧：ShowasJSON（以友好的方式显示输出框的json字符串）

全栈程序员-站长
2022年8月26日
11
redis 本地连接可以远程连接不上问题

redis 本地连接可以远程连接不上问题

全栈程序员-站长
2021年11月3日
41
等价类划分法设计用例（超详细）「建议收藏」

等价类划分法设计用例（超详细）「建议收藏」等价类划分法等价类：1、解决了不能穷举测试的问题、控制成本、控制测试用例数量2、数据值要明确，对文字敏感3、依据需求将输入划分为若干个等价类，划分等价类（需求、数据特征）等价类设计用例的难点：如何根据时间成本划分等价类等价类分为： 1、有效等价类 2、无效等价类如上图可以划分为：有效等价类1：[-99，99] 无效等价类2：<-99 无效等

全栈程序员-站长
2022年10月18日
2
Cesium简介「建议收藏」

Cesium简介「建议收藏」一、Cesium介绍Cesium是国外一个基于JavaScript编写的使用WebGL的地图引擎。Cesium支持3D,2D,2.5D形式的地图展示，可以自行绘制图形，高亮区域，并提供良好的触摸支持，

全栈程序员-站长
2022年7月1日
31
如何用 fiddler 捕获 https 请求

如何用 fiddler 捕获 https 请求

全栈程序员-站长
2021年9月11日
56
idea

idea 2021.5 激活码【注册码】「建议收藏」

idea 2021.5 激活码【注册码】，https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧！

全栈程序员-站长
2022年3月19日
45

发表回复

关注全栈程序员社区公众号