信息熵、联合熵、条件熵、互信息
1. 自信息量
一个随机事件 x x x的自信息量1定义为:
I ( x ) = log 1 p ( x ) I(x)=\log\frac{1}{p(x)} I(x)=logp(x)1
注意,在信息论中, log \log log函数的底通常设置为2,此时,自信息量的单位为比特(bit);在机器学习中, log \log log函数的底通常设置为自然常数e,此时,自信息量的单位为奈特(nat)。
需要从以下两方面来理解自信息量:
- 自信息量表示,如果随机事件 x x x发生的概率 p ( x ) p(x) p(x)越小,一旦其发生,所获得的信息量就越大
- 自信息量反映了事件发生的不确定性
举例说明,“中彩票”事件的概率极小,但是一旦中了彩票,“中彩票”事件的自信息量很大,也就是说,“中彩票”会获得极大的信息量(即收益)。另一方面,“中彩票”事件的概率很低,自信息量很大,意味着“中彩票”事件发生的不确定性也很大。
- 发生概率越高的事情,具有的自信息量越少
- 发生概率越低的事情,具有的自信息量越多
2. 信息熵
一个随机变量 X X X的信息熵2定义为:
H ( X ) = ∑ x i ∈ X p ( x i ) I ( x i ) = ∑ x i ∈ X p ( x i ) log 1 p ( x i ) . H(X) = \sum_{x_i\in X}p(x_i)I(x_i)\\ = \sum_{x_i\in X}p(x_i)\log\frac{1}{p(x_i)}. H(X)=xi∈X∑p(xi)I(xi)=xi∈X∑p(xi)logp(xi)1.
简记为: H ( X ) = − ∑ x p ( x ) log p ( x ) . H(X)=-\sum_{x}p(x)\log p(x). H(X)=−x∑p(x)logp(x).
信息熵的单位与自信息量一样。一个随机变量 X X X可以有多种取值可能,信息熵是随机变量 X X X所有可能情况的自信息量的期望。信息熵 H ( X ) H(X) H(X)表征了随机变量 X X X所有情况下的平均不确定度。
- 不确定度越大,信息量越大
- 不确定度越小,信息量越小
3. 最大熵定理
当随机变量 X X X所有取值的概率相等时,即 p ( x i ) p(x_i) p(xi)的概率都相等时,信息熵取最大值,随机变量具有最大的不确定性。例如,情景一:买彩票中奖和不中奖的概率都是 0.5 0.5 0.5时,此时买彩票是否中奖的不确定性最大。情景二:真实情况中,不中奖的概率远远大于中奖的概率,此时的不确定性要小于情景一,因为几乎能确定为不中奖。
-
最大熵定理
-
当随机变量
X X X,在离散情况下所有取值概率相等(或在连续情况下服从均匀分布),此时熵最大。即
0 ≤ H ( X ) ≤ log ∣ X ∣ 0\leq H(X)\leq \log |X| 0≤H(X)≤log∣X∣,其中
∣ X ∣ |X| ∣X∣表示
X X X的取值个数。
例1. 根据经验判断,买彩票中奖的概率是 80 % 80\% 80%,不中奖的概率是 20 % 20\% 20%,求买彩票的信息熵。
解: 买彩票的概率空间为:
( X P ) = ( x 1 x 2 0.8 0.2 ) \binom{X}{P}=\begin{pmatrix} x_{1} &x_{2} \\ 0.8 & 0.2 \end{pmatrix} (PX)=(x10.8x20.2)
其中, x 1 x_{1} x1表示买的彩票没奖, x 2 x_{2} x2表示买的彩票有奖。
- 买彩票后,“没中奖”事件获得的自信息量为:
I ( x 1 ) = log 2 1 0.8 = log 2 1.25 = log 10 1.25 log 10 2 = 0.322 bit I(x_1)=\log_2\frac{1}{0.8}=\log_21.25=\frac{\log_{10}1.25}{\log_{10}2}=0.322~\text{bit} I(x1)=log20.81=log21.25=log102log101.25=0.322 bit - 买彩票后,“中奖”事件获得的自信息量为:
I ( x 2 ) = log 2 1 0.2 = log 2 5 = log 10 5 log 10 2 = 2.322 bit I(x_2)=\log_2\frac{1}{0.2}=\log_25=\frac{\log_{10}5}{\log_{10}2}=2.322~\text{bit} I(x2)=log20.21=log25=log102log105=2.322 bit
由 I ( x 1 ) < I ( x 2 ) I(x_1)
I(x1)<I(x2)
可知,彩票有奖的不确定性要大于彩票没奖。
结果分析:由最大熵定理可知,信息熵 H ( X ) H(X) H(X)的最大值为 H ( X ) max = − log 1 / 2 = 1 H(X)_{\max}=-\log 1/2=1 H(X)max=−log1/2=1。例 1 1 1中 H ( X ) H(X) H(X)小于1比特,意味着不确定性减少,带来的信息量也减少。也就是说,先验经验(买彩票大概率不中奖)减少了不确定性。
4. 联合熵
随机变量 X X X和 Y Y Y的联合熵定义为:
H ( X , Y ) = ∑ x i ∈ X ∑ y i ∈ Y p ( x i , y i ) I ( x i , y i ) = ∑ x i ∈ X ∑ y i ∈ Y p ( x i , y i ) l o g 1 p ( x i , y i ) H(X, Y)=\sum_{x_i\in X}\sum_{y_i\in Y}p(x_i, y_i)I(x_i, y_i)\\ =\sum_{x_i\in X}\sum_{y_i\in Y}p(x_i, y_i)log\frac{1}{p(x_i, y_i)} H(X,Y)=xi∈X∑yi∈Y∑p(xi,yi)I(xi,yi)=xi∈X∑yi∈Y∑p(xi,yi)logp(xi,yi)1
简记为: H ( X , Y ) = − ∑ x , y p ( x , y ) log p ( x , y ) H(X, Y)=-\sum_{x,y}p(x,y)\log p(x,y) H(X,Y)=−x,y∑p(x,y)logp(x,y)
联合熵 H ( X , Y ) H(X, Y) H(X,Y)表示随机变量 X X X和 Y Y Y一起发生时的信息熵,即 X X X和 Y Y Y一起发生时的确定度。通俗地讲,联合熵 H ( X , Y ) H(X, Y) H(X,Y)表示 X X X和 Y Y Y一起发生时,产生的信息量。
5. 条件熵 H ( X ∣ Y ) H(X|Y) H(X∣Y)
随机变量 X X X和 Y Y Y的条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)定义为:
H ( X ∣ Y ) = ∑ y j ∈ Y p ( y j ) H ( X ∣ Y = y j ) H(X|Y)=\sum_{y_j\in Y}p(y_j)H(X|Y=y_j) H(X∣Y)=yj∈Y∑p(yj)H(X∣Y=yj)
条件熵 H ( X ∣ Y ) H(X|Y) H(X∣Y)表示已知随机变量 Y Y Y的情况下,随机变量 X X X的信息熵,即在 Y Y Y发生的前提下, X X X发生后新带来的不确定度。通俗地讲,条件熵 H ( X ∣ Y ) H(X|Y) H(X∣Y)表示在 Y Y Y发生的前提下, X X X发生新带来的信息量。
简记为: H ( X ∣ Y ) = − ∑ x , y p ( x , y ) log p ( x ∣ y ) H(X|Y)=-\sum_{x,y}p(x,y)\log p(x|y) H(X∣Y)=−x,y∑p(x,y)logp(x∣y)
条件熵 H ( X ∣ Y ) H(X|Y) H(X∣Y)与联合熵 H ( X , Y ) H(X,Y) H(X,Y)的关系为:
H ( X ∣ Y ) = H ( X , Y ) − H ( Y ) H(X|Y)=H(X,Y)-H(Y) H(X∣Y)=H(X,Y)−H(Y)
5. 条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)
随机变量 X X X和 Y Y Y的条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)定义为:
H ( Y ∣ X ) = ∑ x i ∈ X p ( x i ) H ( Y ∣ X = x i ) H(Y|X)=\sum_{x_i\in X}p(x_i)H(Y|X=x_i) H(Y∣X)=xi∈X∑p(xi)H(Y∣X=xi)
条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)表示已知随机变量 X X X的情况下,随机变量 Y Y Y的信息熵,即在 X X X发生的前提下, Y Y Y发生后新带来的不确定度。通俗地讲,条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)表示在 X X X发生的前提下, Y Y Y发生新带来的信息量。
简记为: H ( Y ∣ X ) = − ∑ x , y p ( x , y ) log p ( y ∣ x ) H(Y|X)=-\sum_{x,y}p(x,y)\log p(y|x) H(Y∣X)=−x,y∑p(x,y)logp(y∣x)
条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)与联合熵 H ( X , Y ) H(X,Y) H(X,Y)的关系为:
H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X)=H(X,Y)-H(X) H(Y∣X)=H(X,Y)−H(X)
推导过程见 H ( X ∣ Y ) H(X|Y) H(X∣Y)。
7. 互信息
互信息的理解:
H ( X ) H(X) H(X)是 X X X的不确定度, H ( X ∣ Y ) H(X|Y) H(X∣Y)是 Y Y Y已知时是 X X X的不确定度,则 I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y)=H(X)-H(X|Y) I(X;Y)=H(X)−H(X∣Y)表示 Y Y Y已知使得 X X X的不确定度减少了 I ( X ; Y ) I(X;Y) I(X;Y)。 Y Y Y已知时 X X X的不确定度为 H ( X ∣ Y ) = H ( X ) − I ( X ; Y ) H(X|Y)=H(X)-I(X;Y) H(X∣Y)=H(X)−I(X;Y)。
8. 小结
| 名称 | 公式 | 含义 |
|---|---|---|
| 熵 H ( X ) H(X) H(X) | H ( X ) = − ∑ x ∈ X p ( x ) log p ( x ) H(X)=-\sum_{x\in X}p(x)\log p(x) H(X)=−∑x∈Xp(x)logp(x) | 熵 H ( X ) H(X) H(X)表示 X X X的不确定度 |
| 联合熵 H ( X , Y ) H(X, Y) H(X,Y) | H ( X , Y ) = − ∑ x , y p ( x , y ) log p ( x , y ) H(X, Y)=-\sum_{x,y}p(x,y)\log p(x,y) H(X,Y)=−∑x,yp(x,y)logp(x,y) | 联合熵 H ( X , Y ) H(X, Y) H(X,Y)表示 X X X和 Y Y Y一起发生的不确定度 |
| 条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X) | H ( Y ∣ X ) = − ∑ x , y p ( x , y ) log p ( y ∣ x ) H(Y|X)=-\sum_{x,y}p(x,y)\log p(y|x) H(Y∣X)=−∑x,yp(x,y)logp(y∣x) | 条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)表示 X X X发生后, Y Y Y的不确定度 |
| 条件熵 H ( X ∣ Y ) H(X|Y) H(X∣Y) | H ( X ∣ Y ) = − ∑ x , y p ( x , y ) log p ( x ∣ y ) H(X|Y)=-\sum_{x,y}p(x,y)\log p(x|y) H(X∣Y)=−∑x,yp(x,y)logp(x∣y) | 条件熵 H ( X ∣ Y ) H(X|Y) H(X∣Y)表示 Y Y Y发生后, X X X的不确定度 |
| 互信息 I ( X ; Y ) I(X;Y) I(X;Y) | I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y) = H(X)-H(X|Y) I(X;Y)=H(X)−H(X∣Y); I ( Y ; X ) = H ( Y ) − H ( Y ∣ X ) I(Y;X) = H(Y)-H(Y|X) I(Y;X)=H(Y)−H(Y∣X); I ( X ; Y ) = I ( Y ; X ) I(X;Y) = I(Y;X) I(X;Y)=I(Y;X) | 互信息 I ( X ; Y ) I(X;Y) I(X;Y)表示 Y Y Y发生后, X X X的不确定度减少了 I ( X ; Y ) I(X;Y) I(X;Y) |
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/208888.html原文链接:https://javaforall.net
