交叉熵代价函数（作用及公式推导）

全栈程序员-站长 • 2022年4月29日上午9:33 • 未分类 • 阅读 81

交叉熵代价函数（作用及公式推导）交叉熵代价函数（Cross-entropycostfunction）是用来衡量人工神经网络（ANN）的输出值与实际值的一种方式。与二次代价函数（Quadraticcostfunction）相比，它能更有效地配合反向传播算法，促进ANN的训练。

大家好，又见面了，我是你们的朋友全栈君。

交叉熵代价函数（Cross-entropy cost function）是用来衡量人工神经网络（ANN）的预测值与实际值的一种方式。与二次代价函数相比，它能更有效地促进ANN的训练。在介绍交叉熵代价函数之前，本文先简要介绍二次代价函数，以及其存在的不足。

1. 二次代价函数的不足

ANN的设计目的之一是为了使机器可以像人一样学习知识。人在学习分析新事物时，当发现自己犯的错误越大时，改正的力度就越大。比如投篮：当运动员发现自己的投篮方向离正确方向越远，那么他调整的投篮角度就应该越大，篮球就更容易投进篮筐。同理，我们希望：ANN在训练时，如果预测值与实际值的误差越大，那么在反向传播训练的过程中，各种参数调整的幅度就要更大，从而使训练更快收敛。然而，如果使用二次代价函数训练ANN，看到的实际效果是，如果误差越大，参数调整的幅度可能更小，训练更缓慢。

以一个神经元的二类分类训练为例，进行两次实验（ANN常用的激活函数为sigmoid函数，该实验也采用该函数）：输入一个相同的样本数据x=1.0（该样本对应的实际分类y=0）；两次实验各自随机初始化参数，从而在各自的第一次前向传播后得到不同的输出值，形成不同的代价（误差）：

交叉熵代价函数（作用及公式推导）

实验1：第一次输出值为0.82

交叉熵代价函数（作用及公式推导）

实验2：第一次输出值为0.98

在实验1中，随机初始化参数，使得第一次输出值为0.82（该样本对应的实际值为0）；经过300次迭代训练后，输出值由0.82降到0.09，逼近实际值。而在实验2中，第一次输出值为0.98，同样经过300迭代训练，输出值只降到了0.20。

从两次实验的代价曲线中可以看出：实验1的代价随着训练次数增加而快速降低，但实验2的代价在一开始下降得非常缓慢；直观上看，初始的误差越大，收敛得越缓慢。

其实，误差大导致训练缓慢的原因在于使用了二次代价函数。二次代价函数的公式如下：

交叉熵代价函数（作用及公式推导）

其中，C表示代价，x表示样本，y表示实际值，a表示输出值，n表示样本的总数。为简单起见，同样一个样本为例进行说明，此时二次代价函数为：

交叉熵代价函数（作用及公式推导）

目前训练ANN最有效的算法是反向传播算法。简而言之，训练ANN就是通过反向传播代价，以减少代价为导向，调整参数。参数主要有：神经元之间的连接权重w，以及每个神经元本身的偏置b。调参的方式是采用梯度下降算法（Gradient descent），沿着梯度方向调整参数大小。w和b的梯度推导如下：

交叉熵代价函数（作用及公式推导）

其中，z表示神经元的输入，交叉熵代价函数（作用及公式推导）表示激活函数。从以上公式可以看出，w和b的梯度跟激活函数的梯度成正比，激活函数的梯度越大，w和b的大小调整得越快，训练收敛得就越快。而神经网络常用的激活函数为sigmoid函数，该函数的曲线如下所示：

交叉熵代价函数（作用及公式推导）

如图所示，实验2的初始输出值（0.98）对应的梯度明显小于实验1的输出值（0.82），因此实验2的参数梯度下降得比实验1慢。这就是初始的代价（误差）越大，导致训练越慢的原因。与我们的期望不符，即：不能像人一样，错误越大，改正的幅度越大，从而学习得越快。

可能有人会说，那就选择一个梯度不变化或变化不明显的激活函数不就解决问题了吗？图样图森破，那样虽然简单粗暴地解决了这个问题，但可能会引起其他更多更麻烦的问题。而且，类似sigmoid这样的函数（比如tanh函数）有很多优点，非常适合用来做激活函数，具体请自行google之。

2. 交叉熵代价函数

换个思路，我们不换激活函数，而是换掉二次代价函数，改用交叉熵代价函数：

交叉熵代价函数（作用及公式推导）

其中，x表示样本，n表示样本的总数。那么，重新计算参数w的梯度：

交叉熵代价函数（作用及公式推导）

其中（具体证明见附录）：

交叉熵代价函数（作用及公式推导）

因此，w的梯度公式中原来的被消掉了；另外，该梯度公式中的交叉熵代价函数（作用及公式推导）表示输出值与实际值之间的误差。所以，当误差越大，梯度就越大，参数w调整得越快，训练速度也就越快。同理可得，b的梯度为：

交叉熵代价函数（作用及公式推导）

实际情况证明，交叉熵代价函数带来的训练效果往往比二次代价函数要好。

3. 交叉熵代价函数是如何产生的？

以偏置b的梯度计算为例，推导出交叉熵代价函数：

交叉熵代价函数（作用及公式推导）

在第1小节中，由二次代价函数推导出来的b的梯度公式为：

交叉熵代价函数（作用及公式推导）

为了消掉该公式中的交叉熵代价函数（作用及公式推导），我们想找到一个代价函数使得：

交叉熵代价函数（作用及公式推导）

即：

交叉熵代价函数（作用及公式推导）

对两侧求积分，可得：

交叉熵代价函数（作用及公式推导）

而这就是前面介绍的交叉熵代价函数。

附录：

sigmoid函数为：

可证：

交叉熵代价函数（作用及公式推导）

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/130569.html原文链接：https://javaforall.net

赞 (0)

全栈程序员-站长

0 0

此工作站和主域间的信任关系失败又一解决办法_域与主机失去信任关系

此工作站和主域间的信任关系失败又一解决办法_域与主机失去信任关系在服务器的日志上，这个错误应该大家都不陌生了，错误的特征，我给大致描述一下：在域中总是会有计算机由于某种原因，导致计算机账户的密码无法和lsasecret同步系统会在计算机登陆到域的时候，提示已经丢失域的信任关系。日志大致如下：EventID:5SourceNETLOGONTypeErrorDescriptionThesessionsetupfromthecomputer…

全栈程序员-站长
2022年10月19日
2
mysql怎么加载数据库_如何导入mysql数据库

mysql怎么加载数据库_如何导入mysql数据库展开全部方法一:1、首先我e68a84e8a2ad3231313335323631343130323136353331333363393134们使用MySQL提供的命令行界面来导入数据库，确保自己的电脑中安装了MySQL数据库，我们可以通过命令行来确认是否安装了MySQL数据库，当然，第一步是打开Mysql的数据库服务，我们使用命令行来打开，2、启动MySQL后，我们找到需要用到的脚本文件，也就是…

全栈程序员-站长
2022年7月27日
9
Keytool命令详解

以前用过几次这个东东，但每次都重新查询一次。本文原始出处是这里。－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－Keytool 是一个Java 数据证书的管理工具,Keytool 将密钥（key）和证书（certificates）存在一个称为keystore的文件中在keystore里，包含两种数据：密钥

全栈程序员-站长
2022年4月4日
46
运维架构体系

运维架构体系

全栈程序员-站长
2022年7月17日
21
用Python做图像处理[通俗易懂]

用Python做图像处理[通俗易懂]用Python做图像处理最近在做一件比较evil的事情——验证码识别，以此来学习一些新的技能。因为我是初学，对图像处理方面就不太了解了，欲要利吾事，必先利吾器，既然只是做一下实验，那用Python来作原型开发再好不过了。在Python中，比较常用的图像处理库是PIL(PythonImageLibrary)，当前版本是1.1.6，用起来非常方便。大家可以在

全栈程序员-站长
2022年5月13日
41
Java开发工程师简历_工作业绩自我评价50字

Java开发工程师简历_工作业绩自我评价50字面试Java工程师时一份好的简历是很必要的，简历当然少不了个人的自我评价了。下面学习啦小编给大家分享一些java工程师个人简历自我评价范文，希望能够帮到大家。更多热门的Java工程师面试简历、笔试题、薪资待遇☟欢迎赏析☟java工程师个人简历自我评价范文篇一具有很强的团队精神，有良好的组织和协调能力，有强烈的集体荣誉感。自学能力强，喜欢钻研新技术，敢于面对和克服困难。熟练使用spring+stru…

全栈程序员-站长
2022年9月23日
4

发表回复

关注全栈程序员社区公众号