信息熵条件熵信息增益信息增益比 GINI系数

全栈程序员-站长 • 2026年3月19日下午12:32 • 未分类 • 阅读 1

在信息论与概率统计学中，熵（entropy）是一个很重要的概念。在机器学习与特征工程中，熵的概念也用得灰常多。今天就把跟熵有关的东东稍微整理一下，权当笔记。

1.信息熵

每次看到这个式子，都会从心底里感叹数学的伟大与奇妙。在这之前，信息这东东对于人们来说，是个看着好像挺清晰实际还是很模糊的概念。Shannon用最简洁美妙的方式，告诉了整个世界信息到底应该怎么去衡量去计算。今天每个互联网人都知道，这个衡量的标准就是bit。正是由于bit的出现，才引领了我们今天信息时代的到来。所以即使把Shannon跟世界上最伟大的那些科学家相提并论，我觉得也丝毫不为过。

举个例子，如果一个分类系统中，类别的标识是 $c$ ，取值情况是 $c_1,c_2,\cdots,c_n$ ，n为类别的总数。那么此分类系统的熵为：
$H(c)=-\sum_{i=1}^n p(c_i) \cdot \log_2 p(c_i)$
更特别一点，如果是个二分类系统，那么此系统的熵为：
$H(c) = p(c_0) \log _2p(c_0) + p(c_1) \log_2 p(c_1)$
其中 $p(c_0)$ 、 $p(c_1)$ 分别为正负样本出现的概率。

2.条件熵(Conditional Entropy)与信息增益（Information Gain）

第一节我们谈到，信息的不确定性我们用熵来进行描述。很多时候，我们渴望不确定性，渴望明天又是新的一天，希望寻找新的刺激与冒险，所谓的七年之庠就是最好的例子。但是又有很多时候，我们也讨厌不确定性，比如现在的RTB广告，很多时候广告主其实希望不管什么情况下，这个广告位都是归我所有来投广告，别人都别跟我来抢，我把广告素材准备好以后，媒体按排期给我播就行了。所以在这种情况下，我们又要竭力去消除系统的不确定性。

因为我们加了一个特征x：结果为偶数，所以整个系统的熵减小，不确定性降低。

其中，n为特征 $X$ 所出现所有种类的数量。

举个别人文章中例子：文本分类系统中的特征X,那么X有几个可能的值呢？注意X是一个固定的特征，比如关键词”经济”，当我们说特征”经济”可能的取值时，实际上只有两个，要么出现，要么不出现。假设 $x$ 代表 $x$ 出现，而 $\bar x$ 表示 $x$ 不出现。注意系统包含 $x$ 但 $x$ 不出现与系统根本不包含 $x$ 可是两回事。
因此固定 $X$ 时系统的条件熵为：
\begin{align}
H(C|X) &= -p(x)H(c|x) – p(\bar x) H(C| \bar x) \
\end{align}

特征 $X$ 给系统带来的信息增益(IG)为：
\begin{align}
IG(X) &= H© – H(c|X) \
& =-\sum_{i=1}^n p(c_i) \log_2 p(c_i) + p(x) \sum_{i=1}^n p(c_i|x) \log_2 p(c_i|x) + p(\bar x)\sum_{i=1}^n p(c_i| \bar x) \log_2 p(c_i| \bar x)
\end{align}

式子看上去很长，其实计算起来很简单，都是一些count的操作。 $-\sum_{i=1}^n p(c_i) \log_2 p(c_i)$ 这一项不用多说，就是统计各个类别的概率，将每个类别的样本数量除以总样本量即可。$ p(x) \sum_{i=1}^n p(c_i|x) \log_2 p(c_i|x) $这一项，$ p(x) $表示特征在样本中出现的概率，将特征出现的次数除以样本总量即可。$ p(c_i|x) $表示特征出现的情况下，每个类别的概率分别为多少，也全是 c o u n t 操作。$ p(c_i| \bar x)$操作以此类推。

3.信息增益做特征选择的优缺点

4.信息增益比(Infomation Gain Ratio)

在决策树算法中，ID3使用信息增益，c4.5使用信息增益比。

5.Gini系数

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/208027.html原文链接：https://javaforall.net

信息熵条件熵信息增益信息增益比 GINI系数

1.信息熵

2.条件熵(Conditional Entropy)与信息增益（Information Gain）

3.信息增益做特征选择的优缺点

4.信息增益比(Infomation Gain Ratio)

5.Gini系数

关于作者

全栈程序员-站长

发表回复

信息熵 条件熵 信息增益 信息增益比 GINI系数

1.信息熵

2.条件熵(Conditional Entropy)与信息增益（Information Gain）

3.信息增益做特征选择的优缺点

4.信息增益比(Infomation Gain Ratio)

5.Gini系数

关于作者

全栈程序员-站长

相关推荐

无法解析的外部符号问题小结

ab网站压力测试

MATLAB绘图总结

Python中的numpy库介绍！

蚁群算法 matlab程序（已执行）

一个Python小白5个小时爬虫经历

发表回复

信息熵条件熵信息增益信息增益比 GINI系数