信息熵和基尼系数_信息熵和基尼系数

全栈程序员-站长 • 2022年10月10日下午11:46 • 未分类 • 阅读 3

一、基尼系数是什么？

1)定义

下面是摘自李航《统计学习方法》中基尼系数的定义，非常清晰。

信息熵和基尼系数_信息熵和基尼系数

2)基尼系数有什么意义？
我们可以先来看一组数据

信息熵和基尼系数_信息熵和基尼系数

由上图我们可以观察到，类别的个数是方案一(2个) < 方案三(3个) < 方案四(4个) ，基尼系数为方案一 < 方案三 < 方案四；而方案一和方案二类别个数相同，但方案一的类别集中度比方案二要高，而基尼系数为方案一 < 方案二

基尼系数的特质是：

1) 类别个数越少，基尼系数越低;

2)类别个数相同时，类别集中度越高，基尼系数越低。

当类别越少，类别集中度越高的时候，基尼系数越低；当类别越多，类别集中度越低的时候，基尼系数越高。

【类别集中度是指类别的概率差距，0.9+0.1的概率组合，比起0.5+0.5的概率组合集中度更高】

二、熵

1）熵是什么？

下面是摘自李航《统计学习方法》中熵的定义。

信息熵和基尼系数_信息熵和基尼系数

2）怎样理解熵的意义？
我们可以先来看一组数据