交叉熵代价函数(作用及公式推导)

交叉熵代价函数(作用及公式推导)交叉熵代价函数(Cross-entropycostfunction)是用来衡量人工神经网络(ANN)的输出值与实际值的一种方式。与二次代价函数(Quadraticcostfunction)相比,它能更有效地配合反向传播算法,促进ANN的训练。

大家好,又见面了,我是你们的朋友全栈君。

        交叉熵代价函数(Cross-entropy cost function)是用来衡量人工神经网络(ANN)的预测值与实际值的一种方式。与二次代价函数相比,它能更有效地促进ANN的训练。在介绍交叉熵代价函数之前,本文先简要介绍二次代价函数,以及其存在的不足。


1. 二次代价函数的不足

        ANN的设计目的之一是为了使机器可以像人一样学习知识。人在学习分析新事物时,当发现自己犯的错误越大时,改正的力度就越大。比如投篮:当运动员发现自己的投篮方向离正确方向越远,那么他调整的投篮角度就应该越大,篮球就更容易投进篮筐。同理,我们希望:ANN在训练时,如果预测值与实际值的误差越大,那么在反向传播训练的过程中,各种参数调整的幅度就要更大,从而使训练更快收敛。然而,如果使用二次代价函数训练ANN,看到的实际效果是,如果误差越大,参数调整的幅度可能更小,训练更缓慢。

        以一个神经元的二类分类训练为例,进行两次实验(ANN常用的激活函数为sigmoid函数,该实验也采用该函数):输入一个相同的样本数据x=1.0(该样本对应的实际分类y=0);两次实验各自随机初始化参数,从而在各自的第一次前向传播后得到不同的输出值,形成不同的代价(误差):

交叉熵代价函数(作用及公式推导)

实验1:第一次输出值为0.82

     交叉熵代价函数(作用及公式推导)

实验2:第一次输出值为0.98

        

        在实验1中,随机初始化参数,使得第一次输出值为0.82(该样本对应的实际值为0);经过300次迭代训练后,输出值由0.82降到0.09,逼近实际值。而在实验2中,第一次输出值为0.98,同样经过300迭代训练,输出值只降到了0.20。

        从两次实验的代价曲线中可以看出:实验1的代价随着训练次数增加而快速降低,但实验2的代价在一开始下降得非常缓慢;直观上看,初始的误差越大,收敛得越缓慢

        其实,误差大导致训练缓慢的原因在于使用了二次代价函数。二次代价函数的公式如下:

交叉熵代价函数(作用及公式推导)


        其中,C表示代价,x表示样本,y表示实际值,a表示输出值,n表示样本的总数。为简单起见,同样一个样本为例进行说明,此时二次代价函数为:

交叉熵代价函数(作用及公式推导)


        目前训练ANN最有效的算法是反向传播算法。简而言之,训练ANN就是通过反向传播代价,以减少代价为导向,调整参数。参数主要有:神经元之间的连接权重w,以及每个神经元本身的偏置b。调参的方式是采用梯度下降算法(Gradient descent),沿着梯度方向调整参数大小。w和b的梯度推导如下:

交叉熵代价函数(作用及公式推导)


        其中,z表示神经元的输入,交叉熵代价函数(作用及公式推导)表示激活函数。从以上公式可以看出,w和b的梯度跟激活函数的梯度成正比,激活函数的梯度越大,w和b的大小调整得越快,训练收敛得就越快。而神经网络常用的激活函数为sigmoid函数,该函数的曲线如下所示:

交叉熵代价函数(作用及公式推导)


        如图所示,实验2的初始输出值(0.98)对应的梯度明显小于实验1的输出值(0.82),因此实验2的参数梯度下降得比实验1慢。这就是初始的代价(误差)越大,导致训练越慢的原因。与我们的期望不符,即:不能像人一样,错误越大,改正的幅度越大,从而学习得越快。

        可能有人会说,那就选择一个梯度不变化或变化不明显的激活函数不就解决问题了吗?图样图森破,那样虽然简单粗暴地解决了这个问题,但可能会引起其他更多更麻烦的问题。而且,类似sigmoid这样的函数(比如tanh函数)有很多优点,非常适合用来做激活函数,具体请自行google之。



2. 交叉熵代价函数

        换个思路,我们不换激活函数,而是换掉二次代价函数,改用交叉熵代价函数:

交叉熵代价函数(作用及公式推导)


        其中,x表示样本,n表示样本的总数。那么,重新计算参数w的梯度:

交叉熵代价函数(作用及公式推导)


        其中(具体证明见附录):

交叉熵代价函数(作用及公式推导)


        因此,w的梯度公式中原来的交叉熵代价函数(作用及公式推导)被消掉了;另外,该梯度公式中的交叉熵代价函数(作用及公式推导)表示输出值与实际值之间的误差。所以,当误差越大,梯度就越大,参数w调整得越快,训练速度也就越快。同理可得,b的梯度为:

交叉熵代价函数(作用及公式推导)


        实际情况证明,交叉熵代价函数带来的训练效果往往比二次代价函数要好。



3. 交叉熵代价函数是如何产生的?

        以偏置b的梯度计算为例,推导出交叉熵代价函数:

交叉熵代价函数(作用及公式推导)


        在第1小节中,由二次代价函数推导出来的b的梯度公式为:

交叉熵代价函数(作用及公式推导)


        为了消掉该公式中的交叉熵代价函数(作用及公式推导),我们想找到一个代价函数使得:

交叉熵代价函数(作用及公式推导)


        即:

交叉熵代价函数(作用及公式推导)


        对两侧求积分,可得:

交叉熵代价函数(作用及公式推导)


        而这就是前面介绍的交叉熵代价函数。




附录:

        sigmoid函数为:

交叉熵代价函数(作用及公式推导)

        可证:

交叉熵代价函数(作用及公式推导)





版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/130569.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • xshell7安装步骤_快影下载安装

    xshell7安装步骤_快影下载安装文章目录第一部分下载第一步去官方下载界面第二步填写正确的手机号和密码,之后会有一个下载链接第二部分安装过程第一步双击exe文件,进入安装界面第二步接受统一许可证书第三步选择安装的路径第四步随便选一个图面的目录第五步进行安装界面,等待安全完成第三部分设置ssh配置连接第一步设置名称、主机、端口第二步设置链接方式,我选的账号和密码第三步选择接受密钥第四步成功链接主机摘抄第一部分下载第一步去官方下载界面https://www.xshellcn.com/xiazai.html

    2025年10月12日
    2
  • Php Laravel框架 多表关系处理 之 Eloquent一对多关系处理

    Php Laravel框架 多表关系处理 之 Eloquent一对多关系处理

    2022年2月1日
    40
  • [M枚举] lc5. 最长回文子串(枚举+中心拓展+区间dp)「建议收藏」

    [M枚举] lc5. 最长回文子串(枚举+中心拓展+区间dp)「建议收藏」文章目录1.题目来源2.题目解析方法一:枚举1.题目来源链接:lc5.最长回文子串2.题目解析方法一:枚举回文串一共有两种,即长度为奇数的回文串,长度为偶数的回文串。我们可以枚举回文串的中心(偶数长度回文串假想一个中心就行了),然后分别拿两个指针l=i-1,r=i+1向左右两边同时拓展,若s[l]=s[r]则,l–,r++。一直进行该操作,直到不等或一方到达边界位置。我们针对每一个枚举位置i,都考虑其两种情况,即偶数,奇数都考虑一遍,取个最大的就行了。

    2022年7月24日
    5
  • 多重共线性检验-方差膨胀系数(VIF)-相关系数(机器学习)sklearn

    多重共线性检验-方差膨胀系数(VIF)-相关系数(机器学习)sklearn文章目录多重共线性检验-方差膨胀系数(VIF)1、原理:2、多重共线性:3、检验方法:方差膨胀系数(VIF):相关性检验:4、代码测试4.1导入相关库4.2准备数据4.3计算膨胀因子4.4计算相关系数4.5分割测试集4.6模型选择4.7AUC值4.8模型调整4.8.1删除账户资金4.8.2删除累计交易佣金5、总结多重共线性检验-方差膨胀系数(VIF)1、原理:方差膨胀系数是衡量多元线性回归模型中多重共线性严重程度的一种度量。它表示回归系数估计量的方差与假设自变量间不线性相关时方差相比的比值。

    2022年6月9日
    47
  • LWIP使用解析_lwip tcp

    LWIP使用解析_lwip tcp1:环境STM32F407RT-thread2:结构体使用最上层:structrt_stm32_ethstructrt_stm32_eth{/*inheritfromethernetdevice*/structeth_deviceparent;/*interfaceaddressinfo,hwaddress*/rt_uint8_tdev_addr[MAX_ADDR_LEN];/*ETH_Speed*/

    2025年6月21日
    3
  • VBoxManage常用命令用法

    VBoxManage常用命令用法VBoxManage命令常用用法系统环境:CentOS6.3x86_64VirtualBox版本:4.2.8VirtualBox扩展版本:4.2.8增加一个新的扩展包VBoxManageextpackinstall<.vbox-extpack>卸载指定扩展包VBoxManageextpackuninstall<name>显示已安装的扩展包VBoxManagelistextpacks移除安装扩展包失败或卸载扩展包失败时可能遗留下来的文件和

    2022年6月9日
    34

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号