描述基于基尼系数法构建决策树的步骤_决策树 基尼系数

描述基于基尼系数法构建决策树的步骤_决策树 基尼系数决策树的基尼系数计算过程1、基尼指数的计算在介绍具体的计算之前,先从一个例子入手吧。先看看下面这个数据,我们需要通过前三列的特征来推断出最后一列是yes,no1、数据ChestPainGoodBloodCirculationBlockedArteriesHeartDiseaseNoNoNoNoYesYesYesYesYesYesNoNoYesNo???Yesetc…etc…etc…etc…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

决策树的基尼系数计算过程

1、基尼指数的计算

在介绍具体的计算之前,先从一个例子入手吧。

先看看下面这个数据,我们需要通过前三列的特征来推断出最后一列是yes,no

1、数据

Chest Pain

Good Blood Circulation

Blocked Arteries

Heart Disease

No

No

No

No

Yes

Yes

Yes

Yes

Yes

Yes

No

No

Yes

No

???

Yes

etc…

etc…

etc…

etc…

2、统计

Chest Pain

true

Heart Disease

Yes:105

No:39

false

Heart Disease

Yes:34

No:125

Good Blood Circulation

true

Heart Disease

Yes:37

No:127

false

Heart Disease

Yes:100

No:33

Blocked Arteries

true

Heart Disease

Yes:92

No:31

false

Heart Disease

Yes:45

No:129

在统计数据的时候,若遇见缺失值,最简单的办法就是先跳过这个缺失值

从统计的数据可以看出,在某一特征的条件下,无论是true或者false都有患有Heart Disease的人,同时也都有健康的人。且这两个分布是不同,有的true中患有Heart Disease的多一些,有的false中患有Heart Disease的多一些,则就要引出另一个概念—纯度。刚刚将的那种情况其实就是不纯的,那么我们接下来的操作就是对其不断的提纯。

接下来引出基尼指数的概念:基尼指数遵循最小的准则,计算得到的基尼指数越小,则越纯。接下来则以该特征作为决策树的一个分支。但若当前节点的基尼指数小于待划分节点的基尼指数时,则不需要划分。

3、基尼指数的基本公式

Single_gini = 1 − ( a a + b ) 2 − ( b a + b ) 2 1-(\dfrac{a}{a+b})^2-(\dfrac{b}{a+b})^21−(a+ba​)2−(a+bb​)2

Gini_Index = Single_gini_true * a + b a + b + c + d \dfrac{a+b}{a+b+c+d}a+b+c+da+b​ + Single_gini_false * c + d a + b + c + d \dfrac{c+d}{a+b+c+d}a+b+c+dc+d​

4、上述例子的计算过程

第一次分支

Chest Pain

Gini_index = 0.364

Good Blood

Gini_indx = 0.360

Blocked Arteries

Gini_index = 0.381

有上面这些结果可知,我们第一次分叉应该选择Good Blood这个特征,因为前面我们提到,在同一情况下一个特征的基尼指数越小,其纯度也就越高,也就越具有代表性,分类的效果也就越好。上面三个例子相比较,我们应该选择Good Blood这个作为决策树的一个分支。

第二次分支

我们第一次是以Good Blood为分支的那么,假设选定该分支的true,那么其基尼指数,用上面的公式可以得到大概是0.35(false分支上的计算也是同理,这里我们只进行true分支上的基尼指数的计算)

进行分支后我们对剩余的两个特征的值进行统计

Chest Pain

true

Heart Disease

Yes:13

No:98

false

Heart Disease

Yes:24

No:29

Blocked Arteries

true

Heart Disease

Yes:24

No:25

false

Heart Disease

Yes:13

No:102

并在此基础上,我们进行第二次分支

接下来来计算Chest Pain和Blocked Arteries这两类特征在Good Blood这类特征的分支下的基尼指数

Chest Pain

Gini_index = 0.3

Blocked Arteries

Gini_index = 0.29

因为0.29<0.3<0.35,故我们选择Blocked Arteries作为 Good Blood的true分支下的一个分支节点

第三次分支

假设选定该分支的true,那么其基尼指数,用上面的公式可以得到大概是0.5

进行分支后我们对剩余的特征的值进行统计

Chest Pain

true

Heart Disease

Yes:17

No:3

false

Heart Disease

Yes:7

No:22

并在此基础上,我们进行第三次分支

接下来来计算Chest Pain这类特征在Blocked Arteries这类特征的分支下的基尼指数

Chest Pain

Gini_index = 0.33

因为0.33<0.5,故我们选择Chest Pain作为Blocked Arteries的true分支下的一个分支节点

但假如选定的分支是false,那么其基尼指数计算得到大概是0.2

Chest Pain

true

Heart Disease

Yes:7

No:26

false

Heart Disease

Yes:6

No:76

接下来来计算Chest Pain这类特征在Blocked Arteries这类特征的分支下的基尼指数

Chest Pain

Gini_index = 0.29

因为0.29>0.2故该节点不需要分支,因为分支的目的是提纯,而提纯,则是选择使基尼指数变小的那个特征,而0.29>0.2基尼系数上升,没有达到提纯的目的,故不需要分支。

学习视频:https://www.bilibili.com/video/BV17J411C7zZ?p=59

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/182506.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 华为Mate40/华为Mate40Pro忘记密码怎么解锁激活手机设备已锁定恢复出厂无法解锁账户ID屏幕锁解除刷机方法教程[通俗易懂]

    华为Mate40/华为Mate40Pro忘记密码怎么解锁激活手机设备已锁定恢复出厂无法解锁账户ID屏幕锁解除刷机方法教程[通俗易懂]今天带来一台用户华为Mate40Pro手机强制清除华为账号锁案例分享,这个台手机是用户公司手机,由于前使用者离职后未能退出手机的华为账号和锁屏密码,导致手机无法使用。自己通过简单的恢复出厂设置后,发现手机有华为账号锁无法激活手机,这才联系到刷机爱好者技术人员,给予远程强制刷机移除华为Mate40Pro的账号锁。在此提醒广大用户,登录的华为账号建议绑定经常使用的手机号码,防止无法找回密码从而到时手机无法使用。在刷机解锁过程中需要准备以下工具:链接:百度网盘请输入提取码提取码:8888–来

    2022年6月16日
    50
  • 首个可用于深度学习的ToF相关数据集!基于置信度的立体相机以及ToF相机深度图融合框架…

    首个可用于深度学习的ToF相关数据集!基于置信度的立体相机以及ToF相机深度图融合框架…点击上方“计算机视觉工坊”,选择“星标”干货第一时间送达作者|cocoon编辑|3D视觉开发者社区目录✦contents1.概述2.方法以及网络结构2.1使用网络学习置信度2.1.1训练细节2.2双目以及ToF视差的fusion3.合成数据4.实验结果4.1测试集场景4.2置信度估计结果4.3视差估计定性以及定量结果5.参考文献附录:数据…

    2022年5月25日
    38
  • 自然语言处理之词袋模型Bag_of_words

    自然语言处理之词袋模型Bag_of_words文章目录读取训练数据BeautifulSoup处理获取词袋和向量预测结果使用随机森林分类器进行分类输出提交结果尝试使用xgb还是随机森林好用教程地址:https://www.kaggle.com/c/word2vec-nlp-tutorial/overview/part-1-for-beginners-bag-of-words读取训练数据训练数据的内容是2500条电影评论。impor…

    2022年5月21日
    31
  • 《MySQL45讲》读书笔记(六):数据库事务概述[通俗易懂]

    《MySQL45讲》读书笔记(六):数据库事务概述[通俗易懂]此文为极客时间:MySQL实战45讲的3、8、18、19节事务相关部分的总结一、事务的启动方式mysql主要有两种事务的启动方式:begin或starttransaction显式启动事

    2022年8月16日
    5
  • stm32cubemx软件库_STM32cube

    stm32cubemx软件库_STM32cube前言:本系列教程将HAL库与STM32CubeMX结合在一起讲解,使您可以更快速的学会各个模块的使用在我们的HAL库中,对硬件SPI函数做了很好的集成,使得之前SPI几百行代码,在HAL库中,只需要寥寥几行就可以完成那么这篇文章将带你去感受下它的优异之处,这些优异的函数,也正是HAL库的优点所在所用工具:1、芯片:STM32F103ZET62、STM32CubeMx软件3、IDE:…

    2022年8月31日
    4
  • C#拆分器控件Splitcontainer

    C#拆分器控件Splitcontainer拆分器控件Splitcontainer拆分器控件Splitcontainer,是一个含有Splitter拆分条的容器,它包含两个面板容器Panel1,Panel2,可以移动拆分条,对面板大小进行控制!控件学习示例程序!属性介绍;//拆分条的是否启用禁用boolIsSplitterFixed{get;set;} bool类型,true:不能调节拆分条;false

    2022年7月18日
    18

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号