BPTT深度理解「建议收藏」

BPTT深度理解「建议收藏」本博客适合那些BP网络很熟悉的读者一基本结构和前向传播符号解释:1. cltctl:t时刻第l层的神经元的集合,因为cltctl表示的是一层隐藏层,所以图中一个圆圈表示多个神经元。2. hlthtl:第l层在t时刻的输出。因为hlthtl是一层隐藏层的输出,所以表示的是一个向量。3. LjLj:表示的是在j时刻,网络的输出的值和目标输出值的平方差,L表示的是所有时刻的平方差的和。4. WvWv:…

大家好,又见面了,我是你们的朋友全栈君。

本博客适合那些BP网络很熟悉的读者

一 基本结构和前向传播

BPTT深度理解「建议收藏」

符号解释:

1. cltctl:t时刻第l层的神经元的集合,因为cltctl表示的是一层隐藏层,所以图中一个圆圈表示多个神经元。

2. hlthtl:第l层在t时刻的输出。因为hlthtl是一层隐藏层的输出,所以表示的是一个向量。

3. LjLj:表示的是在j时刻,网络的输出的值和目标输出值的平方差,L表示的是所有时刻的平方差的和。

4. WvWv:是一个矩阵,表示的是输入x到c的权值矩阵,那么他的大小是(c的维度)x(x的维度)。

5. WhWh:是一个矩阵,表示的是输入同一层的上一个时刻h到c的权值矩阵,那么他的大小是(c的维度)x(h的维度)。

6. b:表示的是偏置。

(PS:个人感觉c,h和W这些符号表示的维度很重要,因为理解了维度,才能更好的理解网络的结构,才能更好的去实现这个结构。另外在这里我们要学习的参数是WvWvWhWh)
图中左边的网络结构是一个RNN的时序上展开的结构,所有的列表示的是同一个神经网络,只是时间依次排开而已,紫色(横向)的箭头表示的是时序上的联系。蓝色(竖向)的箭头表示的是空间上的传播(也就是普通的前向传播),而紫色(横向)的箭头表示的上一个时刻隐藏层的输出和当前时刻上一层的输出共同组成当前隐藏层的的输入。例如:cl+1t+1ct+1l+1表示的是t+1时刻第l+1层,那么这一层的输入是该层的上一个时刻的输出hl+1thtl+1和当前时刻的上一层的输出hlt+1ht+1l共同作为cl+1t+1ct+1l+1的输入。

图中右边的公式分别是ct+1lct+1l的输入;ct+1lct+1l的输入的输出,用ht+1lht+1l表示;所有时刻的平方差的和。

二 梯度爆炸或梯度消失

2.1 Back-Propagation Through Time (BPTT)算法

BPTT深度理解「建议收藏」

上图左边的网络结构表示的反向传播的过程。其中绿色的表示的是时间上的反向传播的过程,红色的是同一个时刻空间上的传播的过程(其实也就是普通前馈神经网络的误差过程),

上图右边的公式表示的反向传播的计算,n个输入的误差平方和的关于每个神经元的偏导(也就是δδ),这个过程使用的是链式求导法则。而右边是关于δltδtl的偏导。

第一个公式:将与δltδtl同一个误差时刻(红色部分,也就是普通的前馈传播造成的误差)分离出来,其他时刻的误差(绿色部分)是时序上的,这个也是造成梯度消失或爆炸的原因。

第二个公式,LtLt关于cltctl的分解过程,这是BP网络的分解方式。

第三个公式,Lj∑Lj关于cltctl的分解过程,这和BP网络的分解方式类似。

2.2 BPTT算法存在的问题

BPTT深度理解「建议收藏」

上图表示的是从Lj∑Lj中取出最后一个Lt+nLt+n求关于cltctl,存在n个||Wh||||δ(clτ)||||Wh||||δ′(cτl)||相乘,一般来说||δ(clτ)||||δ′(cτl)||小于等于0.25,如果WhWh小于4,那么就会出现梯度消;如果大于4,那么就会出现梯度爆炸。

2.3 解决方法:Constant Error Carrousel (CEC)

BPTT深度理解「建议收藏」

http://www.cnblogs.com/xweiblogs/p/5914622.html#undefined

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/152297.html原文链接:https://javaforall.net

(0)
上一篇 2022年6月23日 下午3:16
下一篇 2022年6月23日 下午3:36


相关推荐

  • 文心大模型最新版有哪些技术创新?百度吴甜详解

    文心大模型最新版有哪些技术创新?百度吴甜详解

    2026年3月12日
    2
  • 机器学习之朴素贝叶斯分类算法

    机器学习之朴素贝叶斯分类算法一、数学知识相关1.独立事件–前提2.条件概率3.全概率公式4.贝叶斯公式5.朴素贝叶斯公式其中:P(A)叫做A事件的先验概率,即一般情况下,认为A发生的概率。 P(B|A)叫做似然度,是A假设条件成立的情况下发生B的概率。 P(A|B)叫做后验概率,在B发生的情况下发生A的概率,也就是要求的概率。P(B)叫做标准化常量,即在一般情况下,认为B…

    2022年10月15日
    3
  • Vue CLI3.0 中使用jQuery 和 Bootstrap

    Vue CLI3.0 中使用jQuery 和 Bootstrap

    2021年7月1日
    78
  • 〖Python零基础入门篇④〗- Pycharm插件安装与常用的插件

    〖Python零基础入门篇④〗- Pycharm插件安装与常用的插件插件是安装在特定程序上软件组件,以增强程序某项功能。一个好的IDE都会提供插件平台,允许第三方在遵循插件平台集成条款的前提下,使用插件平台对外提供的能力,扩展出更广泛更丰富的功能。PyCharm提供了大量商业与免费插件,内容涉及了方方面面,开发者根据工作的实际需要,可以在Marketplace搜索对应的插件,合理的使用正确插件,将极大的提高开发效率,并且保证代码质量。

    2022年6月24日
    35
  • 服务端稳定性测试_web端性能测试怎么做

    服务端稳定性测试_web端性能测试怎么做1概述1.1背景系统的稳定性是系统长期稳定运行能力,需要时间累积才能度量。平台的某些问题需要达到一定时间、一定的使用量后才会暴露出来。如内存泄漏,系统运行过程中发现部分服务的部分接口会发生服务不可达的情况。从而团队提出对平台进行稳定性分析,通过给系统施加一定业务压力大情况下,使系统持续运行一段时间,以此来检测系统是否稳定运行(下统称稳定性测试或测试)。1.2服务说明平台运行的服务包括系统服务和业务服务,系统服务包括Consul、Redis、Cap、RabbitMQ、Exceptionless

    2025年9月16日
    6
  • windows下nginx启动一闪而过(原因以及查看和解决的办法)「建议收藏」

    windows下nginx启动一闪而过(原因以及查看和解决的办法)「建议收藏」解决问题的思路清晰比确切解决的办法更加有效原因:这是80端口被占用的缘故,修改下端口即可。得出此原因的方法:运行“nginx.exe”文件即可,运行后,界面一闪而过。这是查看log日志,就能得到原因2018/08/2321:43:34[emerg]16612#13696:bind()to0.0.0.0:80failed(10013:Anatt…

    2025年8月14日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号