信息熵和基尼系数_信息熵和基尼系数

信息熵和基尼系数_信息熵和基尼系数一、基尼系数是什么?1)定义    下面是摘自李航《统计学习方法》中基尼系数的定义,非常清晰。2)基尼系数有什么意义?    我们可以先来看一组数据X的取值 方案一 方案二 方案三 方案四 P的平方 方案一 方案二 方案三 方案四类别一 0.9 0.5 0.4 0.2 p1^2 0.81 0.25 0.16 0.04类别二 0.1 0.5 0.3 0.2 p2^2 0.01 0.25 0.09 0…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

一、基尼系数是什么?

1)定义

    下面是摘自李航《统计学习方法》中基尼系数的定义,非常清晰。

信息熵和基尼系数_信息熵和基尼系数

2)基尼系数有什么意义?
    我们可以先来看一组数据

X的取值 方案一 方案二 方案三 方案四 P的平方 方案一 方案二 方案三 方案四
类别一 0.9 0.5 0.4 0.2 p1^2 0.81 0.25 0.16 0.04
类别二 0.1 0.5 0.3 0.2 p2^2 0.01 0.25 0.09 0.04
类别三 0 0 0.3 0.2 p3^2 0 0 0.09 0.04
类别四 0 0 0 0.2 p4^2 0 0 0 0.04
类别五 0 0 0 0.2 p5^2 0 0 0 0.04
基尼系数 0.18 0.5 0.66 0.8 总和 0.82 0.5 0.34 0.2
总和 1 1 1 1 基尼系数 0.18 0.5 0.66 0.8

信息熵和基尼系数_信息熵和基尼系数

    由上图我们可以观察到,类别的个数是 方案一(2个) < 方案三(3个) < 方案四(4个) ,基尼系数为 方案一 < 方案三 < 方案四;而方案一和方案二类别个数相同,但方案一的类别集中度比方案二要高,而基尼系数为  方案一  <  方案二

    基尼系数的特质是:
1) 类别个数越少,基尼系数越低;    
2)类别个数相同时,类别集中度越高,基尼系数越低。
当类别越少,类别集中度越高的时候,基尼系数越低;当类别越多,类别集中度越低的时候,基尼系数越高。
【类别集中度是指类别的概率差距,0.9+0.1的概率组合,比起0.5+0.5的概率组合集中度更高】

二、熵


1)熵是什么?

下面是摘自李航《统计学习方法》中熵的定义。

信息熵和基尼系数_信息熵和基尼系数

2)怎样理解熵的意义?
我们可以先来看一组数据

X的取值 方案一 方案二 方案三 方案四 P的平方 方案一 方案二 方案三 方案四
类别一 0.9 0.5 0.4 0.2 p1*(-lnp1) 0.09 0.35 0.37 0.32
类别二 0.1 0.5 0.3 0.2 p2*(-lnp2) 0.23 0.35 0.36 0.32
类别三 0 0 0.3 0.2 p3*(-lnp3) 0.00 0.00 0.36 0.32
类别四 0 0 0 0.2 p4*(-lnp4) 0.00 0.00 0.00 0.32
类别五 0 0 0 0.2 p5*(-lnp5) 0.00 0.00 0.00 0.32
0.82 0.50 0.34 0.20 0.82 0.50 0.34 0.20 

信息熵和基尼系数_信息熵和基尼系数

 可以看到,这幅图跟基尼系数的图是差不多的。也就是熵和基尼系数都有着类似的特质,它们都可以用来衡量信息的不确定性。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/183334.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • C#中实现模拟鼠标事件

    C#中实现模拟鼠标事件

    2021年8月15日
    175
  • rootfs.bin_libhdfs

    rootfs.bin_libhdfs忘了到底前几年看的一篇什么busybox的教程,写的及其复杂,以至于让我这么久以来一直不敢再去碰这个东西,直到今天又再次有了这个需求,特来再搞一次,没想到不到俩小时,一次搞定,特将这过程记录下来,以后也好有个参考。1环境宿主机:Ubuntu18.04交叉编译工具链:aarch64-linux-gnu-gcc7.4.0目标机:Armv8i.MX8EVKboard2下载…

    2022年10月7日
    2
  • datagrip 激活码-激活码分享

    (datagrip 激活码)本文适用于JetBrains家族所有ide,包括IntelliJidea,phpstorm,webstorm,pycharm,datagrip等。IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.net/100143.html…

    2022年3月22日
    221
  • 增量式光电编码器原理及其结构图_绝对式光电编码器工作原理

    增量式光电编码器原理及其结构图_绝对式光电编码器工作原理增量式光电编码器原理及其结构     增量式光电编码器的特点是每产生一个输出脉冲信号就对应于一个增量位移,但是不能通过输出脉冲区别出在哪个位置上的增量。它能够产生与位移增量等值的脉冲信号,其作用是提供一种对连续位移量离散化或增量化以及位移变化(速度)的传感方法,它是相对于某个基准点的相对位置增量,不能够直接检测出轴的绝对位置信息。一般来说,增量式光电编码器输出A、B两相互差90°

    2022年9月30日
    2
  • 政府大数据应用案例,政府大数据治理方法[通俗易懂]

    政府大数据应用案例,政府大数据治理方法[通俗易懂]​大数据不仅将改变生产方式、生活方式,社会组织方式尤其是政府治理也将因之发生深刻变革。以大数据提升政府治理能力是大势所趋。科技革命的加速推进特别是大数据时代的到来,迫切要求政府治理加快。大数据将成为加快政府治理能力现代化的最重要、最有力推手。在大数据思维下,基于大数据的科学决策、精细管理、精准服务将成为常态,将大大推动政府管理理念和社会治理模式进步,推进法治政府、创新政府、廉洁政府、智慧政府和服务型政府建设,逐步实现治理能力现代化。政府如何利用大数据提升治理水平?1.用数据说话治理理念的转变是提高政府

    2022年6月4日
    45
  • 面向过程

    面向过程现在前端技术不是几年前的前端那样,熟练掌握JavaScript、Jquery、Ajax、DOM操作、其他框架等等这些就够了。而随着业务的复杂等多种因素,如今前端有了面向对象的方式编程,如:TypeSc

    2022年8月2日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号