信息熵和基尼系数_信息熵和基尼系数

信息熵和基尼系数_信息熵和基尼系数一、基尼系数是什么?1)定义    下面是摘自李航《统计学习方法》中基尼系数的定义,非常清晰。2)基尼系数有什么意义?    我们可以先来看一组数据X的取值 方案一 方案二 方案三 方案四 P的平方 方案一 方案二 方案三 方案四类别一 0.9 0.5 0.4 0.2 p1^2 0.81 0.25 0.16 0.04类别二 0.1 0.5 0.3 0.2 p2^2 0.01 0.25 0.09 0…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

一、基尼系数是什么?

1)定义

    下面是摘自李航《统计学习方法》中基尼系数的定义,非常清晰。

信息熵和基尼系数_信息熵和基尼系数

2)基尼系数有什么意义?
    我们可以先来看一组数据

X的取值 方案一 方案二 方案三 方案四 P的平方 方案一 方案二 方案三 方案四
类别一 0.9 0.5 0.4 0.2 p1^2 0.81 0.25 0.16 0.04
类别二 0.1 0.5 0.3 0.2 p2^2 0.01 0.25 0.09 0.04
类别三 0 0 0.3 0.2 p3^2 0 0 0.09 0.04
类别四 0 0 0 0.2 p4^2 0 0 0 0.04
类别五 0 0 0 0.2 p5^2 0 0 0 0.04
基尼系数 0.18 0.5 0.66 0.8 总和 0.82 0.5 0.34 0.2
总和 1 1 1 1 基尼系数 0.18 0.5 0.66 0.8

信息熵和基尼系数_信息熵和基尼系数

    由上图我们可以观察到,类别的个数是 方案一(2个) < 方案三(3个) < 方案四(4个) ,基尼系数为 方案一 < 方案三 < 方案四;而方案一和方案二类别个数相同,但方案一的类别集中度比方案二要高,而基尼系数为  方案一  <  方案二

    基尼系数的特质是:
1) 类别个数越少,基尼系数越低;    
2)类别个数相同时,类别集中度越高,基尼系数越低。
当类别越少,类别集中度越高的时候,基尼系数越低;当类别越多,类别集中度越低的时候,基尼系数越高。
【类别集中度是指类别的概率差距,0.9+0.1的概率组合,比起0.5+0.5的概率组合集中度更高】

二、熵


1)熵是什么?

下面是摘自李航《统计学习方法》中熵的定义。

信息熵和基尼系数_信息熵和基尼系数

2)怎样理解熵的意义?
我们可以先来看一组数据

X的取值 方案一 方案二 方案三 方案四 P的平方 方案一 方案二 方案三 方案四
类别一 0.9 0.5 0.4 0.2 p1*(-lnp1) 0.09 0.35 0.37 0.32
类别二 0.1 0.5 0.3 0.2 p2*(-lnp2) 0.23 0.35 0.36 0.32
类别三 0 0 0.3 0.2 p3*(-lnp3) 0.00 0.00 0.36 0.32
类别四 0 0 0 0.2 p4*(-lnp4) 0.00 0.00 0.00 0.32
类别五 0 0 0 0.2 p5*(-lnp5) 0.00 0.00 0.00 0.32
0.82 0.50 0.34 0.20 0.82 0.50 0.34 0.20 

信息熵和基尼系数_信息熵和基尼系数

 可以看到,这幅图跟基尼系数的图是差不多的。也就是熵和基尼系数都有着类似的特质,它们都可以用来衡量信息的不确定性。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/183334.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • oracle与mysql的区别面试题_oracle和db2的主要区别

    oracle与mysql的区别面试题_oracle和db2的主要区别Oracle与Mysql区别Oracle是大型数据库而Mysql是中小型数据库,Oracle市场占有率达40%,Mysql只有20%左右,同时Mysql是开源的而Oracle价格非常高。Oracle支持大并发,大访问量,是OLTP最好的工具。安装所用的空间差别也是很大的,Mysql安装完后才152M而Oracle有3G左右,且使用的时候Oracle占用特别大的内存空间和其他机器性能。Oracle也Mysql操作上的一些区别①主键Mysql一般使用自动增长类型,在创建表时只要指定表的主键为

    2022年9月14日
    0
  • C++键盘钩子

    C++键盘钩子C++键盘钩子Windows系统是建立在事件驱动的机制上的,整个系统都是通过消息传递来实现的。而钩子是Windows系统中非常重要的系统接口,用它可以截获并处理送给其他应用程序的消息,来完成普通应用程序难以实现的功能。钩子可以监视系统或进程中的各种事件消息,截获发往目标窗口的消息并进行处理。这样,我们就可以在系统中安装自定义的钩子,监视系统中特定事件的发生,完成特定的功能,比如截获键盘、鼠标的…

    2022年4月26日
    43
  • Mesos 配置项解析

    Mesos 配置项解析

    2022年2月4日
    31
  • STM32F103学习笔记三 串口通信

    STM32F103学习笔记三 串口通信本文参照正点原子STM32F1xx官方资料:《STM32中文参考手册V10》-第25章通用同步异步收发器(USART)及【STM32】串口通信基本原理(超基础、详细版)单片机入门学习十STM32单片机学习七串口通讯-风水月的专栏](https://blog.csdn.net/fengshuiyue/article/details/79095389)1、串口通信背景知识1.1、…

    2022年10月9日
    0
  • Pycharm如何提交代码至github仓库配置操作步骤[通俗易懂]

    Pycharm如何提交代码至github仓库配置操作步骤[通俗易懂]需求:同Eclipse解决提交代码至github仓库初衷一致详细操作步骤如下:github创建准备提交的git地址:https://github.com/xxxxxxx/test.git打开pycharm,File–>settings–VersionControl–Github配置账户密码,根据习惯选择认证方式:创建demo项目,pycharm工具条选择VCS,右键选择共享项目…

    2022年8月29日
    0
  • mysql设置隔离级别_修改mysql事务隔离级别

    mysql设置隔离级别_修改mysql事务隔离级别引言开始我们的内容,相信大家一定遇到过下面的一个面试场景面试官:“讲讲mysql有几个事务隔离级别?”你:“读未提交,读已提交,可重复读,串行化四个!默认是可重复读”面试官:“为什么mysql选可重复读作为默认的隔离级别?”(你面露苦色,不知如何回答!)面试官:”你们项目中选了哪个隔离级别?为什么?”你:“当然是默认的可重复读,至于原因。。呃。。。”(然后你就可以回去等通知了!)为了避免上述尴尬的…

    2022年9月3日
    9

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号