LSTM简介以及数学推导(FULL BPTT)

全栈程序员-站长 • 2022年6月23日下午4:00 • 未分类 • 阅读 25

LSTM简介以及数学推导(FULL BPTT)前段时间看了一些关于LSTM方面的论文，一直准备记录一下学习过程的，因为其他事儿，一直拖到了现在，记忆又快模糊了。现在赶紧补上，本文的组织安排是这样的：先介绍rnn的BPTT所存在的问题，然后介绍最初的LSTM结构，在介绍加了遗忘控制门的，然后是加了peepholeconnections结构的LSTM，都是按照真实提出的时间顺序来写的。本文相当于把各个论文核心部分简要汇集一下而做的笔记，已提供快

大家好，又见面了，我是你们的朋友全栈君。

前段时间看了一些关于LSTM方面的论文，一直准备记录一下学习过程的，因为其他事儿，一直拖到了现在，记忆又快模糊了。现在赶紧补上，本文的组织安排是这样的：先介绍rnn的BPTT所存在的问题，然后介绍最初的LSTM结构，在介绍加了遗忘控制门的，然后是加了peephole connections结构的LSTM，都是按照真实提出的时间顺序来写的。本文相当于把各个论文核心部分简要汇集一下而做的笔记，已提供快速的了解。

一.rnn结构的BPTT学习算法存在的问题

先看一下比较典型的BPTT一个展开的结构，如下图，这里只考虑了部分图，因为其他部分不是这里要讨论的内容。

LSTM简介以及数学推导(FULL BPTT)

对于t时刻的误差信号计算如下：

LSTM简介以及数学推导(FULL BPTT)

这样权值的更新方式如下：

LSTM简介以及数学推导(FULL BPTT)

上面的公式在BPTT中是非常常见的了，那么如果这个误差信号一直往过去传呢，假设任意两个节点u, v他们的关系是下面这样的：

LSTM简介以及数学推导(FULL BPTT)

那么误差传递信号的关系可以写成如下的递归式：

LSTM简介以及数学推导(FULL BPTT)

n表示图中一层神经元的个数，这个递归式的大概含义不难理解，要求t-q时刻误差信号对t时刻误差信号的偏导，就先求出t-q+1时刻对t时刻的，然后把求出来的结果传到t-q时刻，递归停止条件是q = 1时，就是刚开始写的那部分计算公式了。将上面的递归式展开后可以得到：

LSTM简介以及数学推导(FULL BPTT)

论文里面说的是可以通过归纳来证明，我没仔细推敲这里了，把里面连乘展开看容易明白一点：

LSTM简介以及数学推导(FULL BPTT)

整个结果式对T求和的次数是n^(q-1), 即T有n^(q-1)项，那么下面看问题出在哪儿。

如果|T| > 1, 误差就会随着q的增大而呈指数增长，那么网络的参数更新会引起非常大的震荡。

如果|T| < 1，误差就会消失，导致学习无效，一般激活函数用simoid函数，它的倒数最大值是0.25, 权值最大值要小于4才能保证不会小于1。

误差呈指数增长的现象比较少，误差消失在BPTT中很常见。在原论文中还有更详细的数学分析，但是了解到此个人觉的已经足够理解问题所在了。

二.最初的LSTM结构

为了克服误差消失的问题，需要做一些限制，先假设仅仅只有一个神经元与自己连接，简图如下：

LSTM简介以及数学推导(FULL BPTT)

根据上面的，t时刻的误差信号计算如下：

LSTM简介以及数学推导(FULL BPTT)

为了使误差不产生变化，可以强制令下式为1：

LSTM简介以及数学推导(FULL BPTT)

根据这个式子，可以得到：

LSTM简介以及数学推导(FULL BPTT)

这表示激活函数是线性的，常常的令fj(x) = x, wjj = 1.0，这样就获得常数误差流了，也叫做CEC。

但是光是这样是不行的，因为存在输入输出处权值更新的冲突(这里原论文里面的解释我不是很明白)，所以加上了两道控制门，分别是input gate, output gate，来解决这个矛盾，图如下：

LSTM简介以及数学推导(FULL BPTT)

图中增加了两个控制门，所谓控制的意思就是计算cec的输入之前，乘以input gate的输出，计算cec的输出时，将其结果乘以output gate的输出，整个方框叫做block, 中间的小圆圈是CEC, 里面是一条y = x的直线表示该神经元的激活函数是线性的，自连接的权重为1.0

三.增加forget gate

最初lstm结构的一个缺点就是cec的状态值可能会一直增大下去，增加forget gate后，可以对cec的状态进行控制，它的结构如下图：

LSTM简介以及数学推导(FULL BPTT)

这里的相当于自连接权重不再是1.0，而是一个动态的值，这个动态值是forget gate的输出值，它可以控制cec的状态值，在必要时使之为0，即忘记作用，为1时和原来的结构一样。

四.增加Peephole的LSTM结构

上面增加遗忘门一个缺点是当前CEC的状态不能影响到input gate, forget gate在下一时刻的输出，所以增加了Peephole connections。结构如下：

LSTM简介以及数学推导(FULL BPTT)

这里的gate的输入部分就多加了一个来源了，forget gate, input gate的输入来源增加了cec前一时刻的输出，output gate的输入来源增加了cec当前时刻的输出，另外计算的顺序也必须保证如下：

input gate, forget gate的输入输出
cell的输入
output gate的输入输出
cell的输出(这里也是block的输出)

五.一个LSTM的FULL BPTT推导(用误差信号)

我记得当时看论文公式推导的时候很多地方比较难理解，最后随便谷歌了几下，找到一个写的不错的类似课件的PDF,但是已经不知道出处了，很容易就看懂LSTM的前向计算，误差反传更新了。把其中关于LSTM的部分放上来，首先网络的完整结构图如下：

LSTM简介以及数学推导(FULL BPTT)

这个结构也是rwthlm源码包中LSTM的结构，下面看一下公式的记号：

wij表示从神经元i到j的连接权重(注意这和很多论文的表示是反着的)
神经元的输入用a表示，输出用b表示
下标 ι, φ 和 ω分别表示input gate, forget gate，output gate
c下标表示cell，从cell到 input, forget和output gate的peephole权重分别记做 wcι , wcφ and wcω
Sc表示cell c的状态
控制门的激活函数用f表示，g，h分别表示cell的输入输出激活函数
I表示输入层的神经元的个数，K是输出层的神经元个数，H是隐层cell的个数

前向的计算：

LSTM简介以及数学推导(FULL BPTT)

误差反传更新：

LSTM简介以及数学推导(FULL BPTT)

LSTM简介以及数学推导(FULL BPTT)

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/152289.html原文链接：https://javaforall.net

赞 (0)

全栈程序员-站长

0 0

IPV6服务器搭建「建议收藏」

IPV6服务器搭建「建议收藏」环境准备：1.安装虚拟机（virtualbox）2.在虚拟机中安装Ubuntu系统3.dhcp-4.2.5.tar源码配置虚拟机环境：1.配置虚拟机gcc命令,快捷键：CTRL

全栈程序员-站长
2022年8月2日
7
Java编程基础（1）

Java编程基础（1）经常遇到规范问题，搞的总是在网页上查找，这里总计一下：1、命名规范问题：（1）类名：首字母要大写（2）方法名：首字母要小写，如果是多个单词，第二个单词首字母可以大写，比如setPeople（3）变量：一般变量都是小写（4）常量：一般全部要大写…

全栈程序员-站长
2022年7月8日
29
Ubuntu 安装rabbitvcs

Ubuntu 安装rabbitvcssudoadd-apt-repositoryppa:rabbitvcs/ppa#会提示确认,直接按回车键sudoapt-getupdatesudoapt-getinstallrabbitvcs-corerabbitvcs-clirabbitvcs-thunarthunarx-pythonsudoapt-getinstallrabbitvcs-geditsud

全栈程序员-站长
2022年7月18日
16
hashmap动态扩容死循环_HashMap扩容

hashmap动态扩容死循环_HashMap扩容HashMap扩容死循环问题源码分析问题(jdk1.7)一、首先hashmap单线程正常扩容遍历每个数组，依次遍历每个数组的链表，根据头插法由原来的1，2，3变为了3，2，1二、hashmap多线程扩容死循环问题两个线程e1,e2此时线程一先执行，但线程二的指向发生改变，改为线程变换后的具体存储；初始的e2指向0号位的1，但经过线程一的变换指向了2号位的1了，next也发生改变线程二开始在线程一的基础存储，当next2指向空时。e.next=newTable[i],也就

全栈程序员-站长
2026年2月6日
4
java getclass_Java–getClass()和.Class的区别

java getclass_Java–getClass()和.Class的区别在程序运行时期动态获得对象类型信息的操作，对比传统编程和反射的区别。传统编程：在编译阶段决定使用的类型反射：动态获得类型每个类都会产生一个对应的Class对象，也就是保存在.class文件。所有类都是在对其第一次使用时，动态加载到JVM的，当程序创建一个对类的静态成员的引用时，就会加载这个类。Class对象仅在需要的时候才会加载。类加载器首先会检查这个类的Class对象是否已被加载过，如果尚未加载…

全栈程序员-站长
2022年6月15日
27
Django（51）drf渲染模块源码分析[通俗易懂]

Django（51）drf渲染模块源码分析[通俗易懂]前言渲染模块的原理和解析模块是一样，drf默认的渲染有2种方式，一种是json格式，另一种是模板方式。渲染模块源码入口入口：APIView类中dispatch方法中的：self.response

全栈程序员-站长
2022年7月30日
7

发表回复

关注全栈程序员社区公众号