决策树CART算法、基尼系数的计算方法和含义[通俗易懂]

决策树CART算法、基尼系数的计算方法和含义[通俗易懂]决策树CART算法——基尼系数决策树的CART算法使用基尼系数来选择划分属性。一个数据集的纯度可以用基尼系数来度量Gini(D)=∑k=1∣y∣∑k′≠kpkpk′=1−∑k=1∣y∣pk2\begin{aligned}Gini(D)=\sum_{k=1}^{|y|}\sum_{k'\nek}p_kp_{k'}=1-\sum_{k=1}^{|y|}…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

决策树CART算法——基尼系数

决策树的CART算法使用基尼系数来选择划分属性。一个数据集的纯度可以用基尼系数来度量

G i n i ( D ) = ∑ k = 1 ∣ y ∣ ∑ k ′ ≠ k p k p k ′ = 1 − ∑ k = 1 ∣ y ∣ p k 2 \begin{aligned}Gini(D) = \sum_{k=1}^{|y|}\sum_{k'\ne k}p_kp_{k'} = 1-\sum_{k=1}^{|y|}p_k^2\end{aligned} Gini(D)=k=1yk̸=kpkpk=1k=1ypk2

直观来说,数据集的基尼系数反映了从数据集D中随机抽取两个样本,其类别不一样的概率。因此,基尼系数越小,数据集的纯度越高。

那么属性a的基尼系数为

G i n i _ i n d e x ( D , a ) = ∑ v = 1 V ∣ D v ∣ D G i n i ( D v ) \begin{aligned}Gini\_index(D,a) = \sum_{v=1}^{V}\frac{|D^v|}{D}Gini(D^v)\end{aligned} Gini_index(D,a)=v=1VDDvGini(Dv)

与数据集D中a属性的熵值计算类似,参考我的博文1我的博文2

于是,我们在候选属性集合A中,选择那个使得划分后的基尼指数值最小的属性作为最优划分属性

a ∗ = a r g m i n a ∈ A G i n i _ i n d e x ( D , a ) a_* = argmin_{a\in A}Gini\_index(D,a) a=argminaAGini_index(D,a)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/182588.html原文链接:https://javaforall.net

(0)
上一篇 2022年10月13日 上午6:46
下一篇 2022年10月13日 上午7:00


相关推荐

  • 2026年OpenClaw(Clawdbot)快速部署的几种方法

    2026年OpenClaw(Clawdbot)快速部署的几种方法

    2026年3月13日
    2
  • 文件上传(JavaScript实现)

    文件上传(JavaScript实现)设计思路 form 实现文件上传内在也是通过 form 实现 在 Js 中创建一个 form 对象 点击按钮 触发事件 模拟 form 被点击 得到文件 通过构造的 form 对象上传文件前端代码 DOCTYPE tml html head metacharset UTF 8 title amp title metacharset UTF 8 head html

    2026年3月18日
    1
  • 强大的Windows 10数字权利获取工具HWIDGEN

    强大的Windows 10数字权利获取工具HWIDGEN前言 每当 windows10 系统过期就是头疼的 key 激活 更奇怪的是每次激活的方式不同 上次有效下次就不知道有没有效了 今天发现一种更改数字权利的工具脚本 不要太牛逼 安装之前的准备工作 打开 windowsupdat 服务 win10 系统如何打开 windowsupdat 服务 WIN R 打开运行 输入 services msc 找到 windowsupdat 如下图启

    2026年3月19日
    2
  • 【文心智能体】使用文心一言来给智能体设计一段稳定调用工作流的提示词

    【文心智能体】使用文心一言来给智能体设计一段稳定调用工作流的提示词

    2026年3月12日
    1
  • 二项式分布和超几何分布有什么区别_多项分布的协方差

    二项式分布和超几何分布有什么区别_多项分布的协方差原文转自:http://hi.baidu.com/leifenglian/item/636198016851cee7f55ba652一、前言参数估计是一个重要的话题。对于典型的离散型随机变量分布:二项式分布,多项式分布;典型的连续型随机变量分布:正态分布。他们都可以看着是参数分布,因为他们的函数形式都被一小部分的参数控制,比如正态分布的均值和方差,二项式分布事件发生的概

    2022年10月9日
    10
  • 硬核!高频Linux命令大总结,建议收藏~

    硬核!高频Linux命令大总结,建议收藏~前言记得不久前跟大家大分享了一波个人在平时日常工作、学习、开发、写文字、做视频等过程中,一些好用高效的在线工具和网站,并且把自己的浏览器收藏夹书签离线文件都导出给大家了。很多小伙伴后台反馈还不错,说书签一导入后,很多工具确实挺好用,主要省了很多找资源和整理的时间。今天继续分享,最近花了不少时间把平时开发过程中常用的一些Linux系统命令给做了一个大整理,形成一个常用高频Linux速查备忘录。有了它,还怕Linux操作系统常用操作和命令记不住么?接下来直接上菜吧。注:本文GitHubhtt

    2022年5月8日
    40

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号