kl散度和交叉熵的区别_散度的概念

kl散度和交叉熵的区别_散度的概念通用的说,熵(Entropy)被用于描述一个系统中的不确定性(theuncertaintyofasystem)。在不同领域熵有不同的解释,比如热力学的定义和信息论也不大相同。要想明白交叉熵(CrossEntropy)的意义,可以从熵(Entropy)->KL散度(Kullback-LeiblerDivergence)->交叉熵这个顺序入手。当然,也有多种解释方法…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

通用的说,熵(Entropy)被用于描述一个系统中的不确定性(the uncertainty of a system)。在不同领域熵有不同的解释,比如热力学的定义和信息论也不大相同。

要想明白交叉熵(Cross Entropy)的意义,可以从熵(Entropy) -> KL散度(Kullback-Leibler Divergence) -> 交叉熵这个顺序入手。 当然,也有多种解释方法[1]。

先给出一个“接地气但不严谨”的概念表述:

  • 熵:可以表示一个事件A的自信息量,也就是A包含多少信息。
  • KL散度:可以用来表示从事件A的角度来看,事件B有多大不同。
  • 交叉熵:可以用来表示从事件A的角度来看,如何描述事件B。

一句话总结的话:KL散度可以被用于计算代价,而在特定情况下最小化KL散度等价于最小化交叉熵。而交叉熵的运算更简单,所以用交叉熵来当做代价

我知道你现在看着有点晕,但请保持耐心继续往下看。
为了通俗易懂,我没有严格按照数学规范来命名概念,比如文中的“事件”指的是“消息”,望各位严谨的读者理解。

1. 什么是熵(Entropy)?

放在信息论的语境里面来说,就是一个事件所包含的信息量。我们常常听到“这句话信息量好大”,比如“昨天花了10万,终于在西二环买了套四合院”。

这句话为什么信息量大?因为它的内容出乎意料,违反常理。由此引出:

  • 越不可能发生的事件信息量越大, 比如“我不会死”这句话信息量就很大。而确定事件的信息量就很低,比如“我是我妈生的”,信息量就很低甚至为0
  • 独立事件的信息量可叠加。比如“a. 张三今天喝了阿萨姆红茶,b. 李四前天喝了英式早茶”的信息量就应该恰好等于a+b的信息量,如果张三李四喝什么茶是两个独立事件。

因此熵被定义为
s ( x ) = − ∑ i P ( x i ) l o g b P ( x i ) s(x) = – \sum_{i}P(x_i)log_b P(x_i) s(x)=iP(xi)logbP(xi)
x x x指的不同的事件比如喝茶, P ( x i ) P(x_i) P(xi)指的是某个事件发生的概率比如喝红茶的概率。对于一个一定会发生的事件,其发生概率为1, S ( x ) = − l o g ( 1 ) ∗ 1 = − 0 ∗ 1 = 0 S(x) = – log(1)*1 = -0*1 =0 S(x)=log(1)1=01=0,信息量为0。

2. 如何衡量两个事件/分布之间的不同(一):KL散度

我们上面说的是对于一个随机变量x的事件A的自信息量,如果我们有另一个独立的随机变量x相关的事件B,该怎么计算它们之间的区别?

此处我们介绍默认的计算方法:KL散度,有时候也叫KL距离,一般被用于计算两个分布之间的不同。看名字似乎跟计算两个点之间的距离也很像,但实则不然,因为KL散度不具备有对称性。在距离上的对称性指的是A到B的距离等于B到A的距离。

举个不恰当的例子,事件A:张三今天买了2个土鸡蛋,事件B:李四今天买了6个土鸡蛋。我们定义随机变量x:买土鸡蛋,那么事件A和B的区别是什么?有人可能说,那就是李四多买了4个土鸡蛋?这个答案只能得50分,因为忘记了”坐标系”的问题。换句话说,对于张三来说,李四多买了4个土鸡蛋。对于李四来说,张三少买了4个土鸡蛋。选取的参照物不同,那么得到的结果也不同。更严谨的说,应该是说我们对于张三和李四买土鸡蛋的期望不同,可能张三天天买2个土鸡蛋,而李四可能因为孩子满月昨天才买了6个土鸡蛋,而平时从来不买。

KL散度的数学定义:

  • 对于离散事件我们可以定义事件A和B的差别为(2.1):
    D K L ( A ∣ ∣ B ) = ∑ i P A ( x i ) l o g ( P A ( x i ) P B ( x i ) ) = ∑ i P A ( x i ) l o g ( P A ( x i ) ) − P A ( x i ) l o g ( P B ( x i ) ) D_{KL}(A||B) = \sum_{i}P_{A}(x_i) log\bigg(\frac{P_{A}(x_i)}{P_{B}(x_i)} \bigg) = \sum_{i}P_{A}(x_i)log(P_{A}(x_i ))- P_{A}(x_i)log(P_{B}(x_i)) DKL(AB)=iPA(xi)log(PB(xi)PA(xi))=iPA(xi)log(PA(xi))PA(xi)log(PB(xi))

  • 对于连续事件,那么我们只是把求和改为求积分而已(2.2)。
    D K L ( A ∣ ∣ B ) = ∫ a ( x ) l o g ( a ( x ) b ( x ) ) D_{KL}(A||B) = \int a(x) log\bigg(\frac{a(x)}{b(x)} \bigg) DKL(AB)=a(x)log(b(x)a(x))
    从公式中可以看出:

  • 如果 P A = P B P_A=P_B PA=PB ,即两个事件分布完全相同,那么KL散度等于0。

观察公式2.1,可以发现减号左边的就是事件A的熵,请记住这个发现

  • 如果颠倒一下顺序求 D K L ( B ∣ ∣ A ) D_{KL}(B||A) DKL(BA) ,那么就需要使用B的熵,答案就不一样了。所以KL散度来计算两个分布A与B的时候是不是对称的,有“坐标系”的问题
    D K L ( A ∣ ∣ B ) ≠ D K L ( B ∣ ∣ A ) D_{KL}(A||B)\ne D_{KL}(B||A) DKL(AB)̸=DKL(BA)

换句话说,KL散度由A自己的熵与B在A上的期望共同决定。当使用KL散度来衡量两个事件(连续或离散),上面的公式意义就是求 A与B之间的对数差 在 A上的期望值。

3. KL散度 = 交叉熵 – 熵?

如果我们默认了用KL散度来计算两个分布间的不同,那还要交叉熵做什么?

事实上交叉熵和KL散度的公式非常相近,其实就是KL散度的后半部分(公式2.1):A和B的交叉熵 = A与B的KL散度 – A的熵。
D K L ( A ∣ ∣ B ) = − S ( A ) + H ( A , B ) D_{KL}(A||B) = -S(A)+H(A,B) DKL(AB)=S(A)+H(A,B)

对比一下这是KL散度的公式:
D K L ( A ∣ ∣ B ) = ∑ i P A ( x i ) l o g ( P A ( x i ) P B ( x i ) ) = ∑ i P A ( x i ) l o g ( P A ( x i ) ) − P A ( x i ) l o g ( P B ( x i ) ) D_{KL}(A||B) = \sum_{i}P_{A}(x_i) log\bigg(\frac{P_{A}(x_i)}{P_{B}(x_i)} \bigg) = \sum_{i}P_{A}(x_i)log(P_{A}(x_i ))- P_{A}(x_i)log(P_{B}(x_i)) DKL(AB)=iPA(xi)log(PB(xi)PA(xi))=iPA(xi)log(PA(xi))PA(xi)log(PB(xi))

这是熵的公式:
S ( A ) = − ∑ i P A ( x i ) l o g P A ( x i ) S(A) = -\sum_{i}P_A(x_{i})logP_A(x_{i}) S(A)=iPA(xi)logPA(xi)

这是交叉熵公式:
H ( A , B ) = − ∑ i P A ( x i ) l o g ( P B ( x i ) ) H(A,B)= -\sum_{i}P_{A}(x_i)log(P_{B}(x_i)) H(A,B)=iPA(xi)log(PB(xi))

此处最重要的观察是,如果 S ( A ) S(A) S(A)是一个常量,那么 D K L ( A ∣ ∣ B ) = H ( A , B ) D_{KL}(A||B) = H(A,B) DKL(AB)=H(A,B)也就是说KL散度和交叉熵在特定条件下等价。这个发现是这篇回答的重点。

同时补充交叉熵的一些性质:

  • 和KL散度相同,交叉熵也不具备对称性: H ( A , B ) ≠ H ( B , A ) H(A,B) \ne H(B,A) H(A,B)̸=H(B,A) ,此处不再赘述。
  • 从名字上来看,Cross(交叉)主要是用于描述这是两个事件之间的相互关系,对自己求交叉熵等于熵。即 H ( A , A ) = S ( A ) H(A,A) = S(A) H(A,A)=S(A),注意只是非负而不一定等于0。

*4. 另一种理解KL散度、交叉熵、熵的角度(选读)- 可跳过

那么问题来了,为什么有KL散度和交叉熵两种算法?为什么他们可以用来求分布的不同?什么时候可以等价使用?

一种信息论的解释是

  • 熵的意义是对A事件中的随机变量进行编码所需的最小字节数。
  • KL散度的意义是“额外所需的编码长度”如果我们用B的编码来表示A。
  • 交叉熵指的是当你用B作为密码本来表示A时所需要的“平均的编码长度”。

对于大部分读者,我觉得可以不用深入理解。感谢评论区@王瑞欣的指正,不知道为什么@不到他。

一些对比与观察:

  • KL散度和交叉熵的不同处:交叉熵中不包括“熵”的部分
  • KL散度和交叉熵的相同处:a. 都不具备对称性 b. 都是非负的

等价条件(章节3):当 A A A 固定不变时,那么最小化KL散度 D K L ( A ∣ ∣ B ) D_{KL}(A||B) DKL(AB) 等价于最小化交叉熵 H ( A , B ) H(A,B) H(A,B)
D K L ( A ∣ ∣ B ) = H ( A , B ) D_{KL}(A||B) = H(A,B) DKL(AB)=H(A,B)
既然等价,那么我们优先选择更简单的公式,因此选择交叉熵。

5. 机器如何“学习”?

机器学习的过程就是希望在训练数据上模型学到的分布 P ( m o d e l ) P(model) P(model)真实数据的分布 P ( r e a l ) P(real) P(real) 越接近越好,那么我们已经介绍过了…怎么最小化两个分布之间的不同呢?用默认的方法,使其KL散度最小

但我们没有真实数据的分布,那么只能退而求其次,希望模型学到的分布和训练数据的分布 $P(training)$ 尽量相同,也就是把训练数据当做模型和真实数据之间的代理人

假设训练数据是从总体中独立同步分布采样(Independent and identically distributed sampled)而来,那么我们可以利用最小化训练数据的经验误差来降低模型的泛化误差。简单说:

  • 最终目的是希望学到的模型的分布和真实分布一致: P ( m o d e l ) ≃ P ( r e a l ) P(model) \simeq P(real ) P(model)P(real)
  • 但真实分布是不可知的,我们只好假设 训练数据 是从真实数据中独立同分布采样而来: P ( t r a i n i n g ) ≃ P ( r e a l ) P(training) \simeq P(real ) P(training)P(real)
  • 退而求其次,我们希望学到的模型分布至少和训练数据的分布一致 P ( m o d e l ) ≃ P ( t r a i n i n g ) P(model) \simeq P(training) P(model)P(training) 由此非常理想化的看法是如果模型(左)能够学到训练数据(中)的分布,那么应该近似的学到了真实数据(右)的分布: P ( m o d e l ) ≃ P ( t r a i n i n g ) ≃ P ( r e a l ) P(model) \simeq P(training) \simeq P(real) P(model)P(training)P(real)

6. 为什么交叉熵可以用作代价?

接着上一点说,最小化模型分布 P ( m o d e l ) P(model) P(model) 与 训练数据上的分布 P ( t r a i n i n g ) P(training) P(training) 的差异 等价于 最小化这两个分布间的KL散度,也就是最小化 K L ( P ( t r a i n i n g ) ∣ ∣ P ( m o d e l ) ) KL(P(training)||P(model)) KL(P(training)P(model))

比照第四部分的公式:

  • 此处的A就是数据的真实分布: P ( t r a i n i n g ) P(training) P(training)
  • 此处的B就是模型从训练数据上学到的分布: P ( m o d e l ) P(model) P(model)

巧的是,训练数据的分布A是给定的。那么根据我们在第四部分说的,因为A固定不变,那么求 D K L ( A ∣ ∣ B ) D_{KL}(A||B) DKL(AB) 等价于求 H ( A , B ) H(A,B) H(A,B) ,也就是A与B的交叉熵

得证,交叉熵可以用于计算“学习模型的分布”与“训练数据分布”之间的不同。当交叉熵最低时(等于训练数据分布的熵),我们学到了“最好的模型”。

但是,完美的学到了训练数据分布往往意味着过拟合,因为训练数据不等于真实数据,我们只是假设它们是相似的,而一般还要假设存在一个高斯分布的误差,是模型的泛化误差下线。

7. 总结

因此在评价机器学习模型时,我们往往不能只看训练数据上的误分率和交叉熵,还是要关注测试数据上的表现。如果在测试集上的表现也不错,才能保证这不是一个过拟合或者欠拟合的模型。交叉熵比照误分率还有更多的优势,因为它可以和很多概率模型完美的结合。

所以逻辑思路是,为了让学到的模型分布更贴近真实数据分布,我们最小化 模型数据分布 与 训练数据之间的KL散度,而因为训练数据的分布是固定的,因此最小化KL散度等价于最小化交叉熵。

因为等价,而且交叉熵更简单更好计算,当然用它咯 ʕ•ᴥ•ʔ


[1] 不同的领域都有不同解释,更传统的机器学习说法是似然函数的最大化就是交叉熵。正所谓横看成岭侧成峰,大家没必要非说哪种思路是对的,有道理就好

原文转载自https://www.zhihu.com/question/65288314,感谢作者“微调”分享!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/203687.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • matlab画三维图形_matlab的三维函数

    matlab画三维图形_matlab的三维函数对散点图拟合三维网格图形:num=xlsread(‘data_2011a.xls’,’B4:E322′)//读取出该区域的数据作为表格A=num(:,1)//从B矩阵取出第一列的所有行B=num(:,2)C=num(:,3)xx=linspace(min(A),max(A),50);//产生min(A)到max(A)均摊的50个点,目的上拟合离散点数量上的不足yy=linsp…

    2022年10月11日
    0
  • 抖音推荐算法总结[通俗易懂]

    抖音推荐算法究竟如何是做抖音短视频运营的同学非常关心的问题,抖音官方并没有披露正式的算法,但凭借着民间的智慧和官方披露的部分信息中,网友已经总结出抖音推荐算法的秘密。这里整理资料如下:1.发布后的推荐流程第0步:双重审核在抖音,每天有数量庞大的新作品上传,纯靠机器审核容易被钻空子,纯靠人工审核又不太现实。因此,双重审核成为抖音算法筛选视频内容的第一道门槛。机器审核(检测是否违…

    2022年4月11日
    56
  • linux命令杀进程脚本_shell脚本获取进程号并杀死进程

    linux命令杀进程脚本_shell脚本获取进程号并杀死进程由于代码调试进程一直存在需要手动杀死,比较费时,写个小脚本节省下时间#viclear.sh​!/bin/bashecho”$1″pid=`ps-ef|grep$1|grep-vgrep|grep-vbash|awk'{print$2}’`echo”$pid”if[-n”$pid”]thenecho”kill-9pid:$pid”kill-9$pidfi[点击并拖拽以移动]​#chmod.

    2022年9月29日
    0
  • msf 漏洞扫描_漏洞扫描方案

    msf 漏洞扫描_漏洞扫描方案目录1msfconsole介绍1msfconsole介绍msfconsole简称msf是一款常用的安全测试工具,包含了常见的漏洞利用模块和生成各种木马,其提供了一个一体化的集中控制台,通过msfconsole,你可以访问和使用所有的metaslopit插件,payload,利用模块,post模块等等。msfconsole还有第三方程序的接口,比如nmap、sqlmap等,可以直接在msfconsole里面使用。kali可直接在命令使用:msfconsoleMsfconsole的系统

    2022年9月4日
    2
  • javascript 怎么阻止事件冒泡

    javascript 怎么阻止事件冒泡1.停止事件冒泡//如果提供了事件对象,则这是一个非IE浏览器  if(e&&e.stopPropagation){    //因此它支持W3C的stopPropagation()方法    e.stopPropagation();  }  else{    //否则,我们需要使用IE的方式来取消事件冒泡   

    2025年6月13日
    0
  • 协同过滤推荐算法详解「建议收藏」

    协同过滤推荐算法详解「建议收藏」一、什么是协同过滤?协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤(CollaborativeFiltering,简称CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。协同过滤一般是在海量的用户中发掘

    2022年6月29日
    25

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号