[深入浅出] LSTM神经网络

[深入浅出] LSTM神经网络由来人类并不是每时每刻都从一片空白的大脑开始他们的思考 在你阅读这篇文章时候 你都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义 我们不会将所有的东西都全部丢弃 然后用空白的大脑进行思考 我们的思想拥有持久性 传统的神经网络并不能做到这点 看起来也像是一种巨大的弊端 例如 假设你希望对电影中的每个时间点的时间类型进行分类 传统的神经网络应该很难来处理这个问题 使用电影中先前的事件推

由来

人类并不是每时每刻都从一片空白的大脑开始他们的思考。在你阅读这篇文章时候,你都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义。我们不会将所有的东西都全部丢弃,然后用空白的大脑进行思考。我们的思想拥有持久性。

传统的神经网络并不能做到这点,看起来也像是一种巨大的弊端。例如,假设你希望对电影中的每个时间点的时间类型进行分类。传统的神经网络应该很难来处理这个问题——使用电影中先前的事件推断后续的事件。

RNN 解决了这个问题。RNN 是包含循环的网络,允许信息的持久化。

RNN 的关键点之一就是他们可以用来连接先前的信息到当前的任务上,例如使用过去的视频段来推测对当前段的理解。不幸的是,当时间间隔不断增大时,RNN 会丧失学习到连接如此远的信息的能力。

幸运的是,LSTM 并没有这个问题!

——摘自简书<[译]理解LSTM>

LSTM思路

长短时记忆网络(Long Short Term Memory Network, LSTM),是一种改进之后的循环神经网络,可以解决RNN无法处理长距离的依赖的问题,目前比较流行。

 

长短时记忆网络的思路:

原始 RNN 的隐藏层只有一个状态,即h,它对于短期的输入非常敏感。

再增加一个状态,即c,让它来保存长期的状态,称为单元状态(cell state)

[深入浅出] LSTM神经网络

把上图按照时间维度展开:

[深入浅出] LSTM神经网络

在 t 时刻,LSTM 的输入有三个:当前时刻网络的输入值 x_t、上一时刻 LSTM 的输出值 h_t-1、以及上一时刻的单元状态 c_t-1
LSTM 的输出有两个:当前时刻 LSTM 输出值 h_t、和当前时刻的单元状态 c_t.

关键问题是:怎样控制长期状态 c ?

方法是:使用三个控制开关

[深入浅出] LSTM神经网络

如何在算法中实现这三个开关?

方法:用 门(gate)

[深入浅出] LSTM神经网络

回忆一下它的样子:

[深入浅出] LSTM神经网络


gate 如何进行控制?

LSTM前向计算

在 LSTM-1 中提到了,模型是通过使用三个控制开关来控制长期状态 c 的:

[深入浅出] LSTM神经网络

这些开关就是用门(gate)来实现:

[深入浅出] LSTM神经网络

接下来具体看这三重门

LSTM 的前向计算(一共有 6 个公式)

遗忘门(forget gate)
它决定了上一时刻的单元状态 c_t-1 有多少保留到当前时刻 c_t
输入门(input gate)
它决定了当前时刻网络的输入 x_t 有多少保存到单元状态 c_t
输出门(output gate)
控制单元状态 c_t 有多少输出到 LSTM 的当前输出值 h_t

遗忘门的计算为

[深入浅出] LSTM神经网络


输入门的计算:

[深入浅出] LSTM神经网络

根据上一次的输出和本次输入来计算当前输入的单元状态:

[深入浅出] LSTM神经网络

当前输入的单元状态c_t的计算:由上一次的单元状态 c_t-1 按元素乘以遗忘门 f_t,再用当前输入的单元状态 c_t 按元素乘以输入门 i_t,再将两个积加和:

这样,就可以把当前的记忆 c_t 和长期的记忆 c_t-1 组合在一起,形成了新的单元状态 c_t

由于遗忘门的控制,它可以保存很久很久之前的信息,由于输入门的控制,它又可以避免当前无关紧要的内容进入记忆。

[深入浅出] LSTM神经网络


输出门的计算:

[深入浅出] LSTM神经网络

LSTM反向传播

1. 前向计算每个神经元的输出值,一共有 5 个变量,计算方法就是前一部分:

[深入浅出] LSTM神经网络

2. 反向计算每个神经元的误差项值。与 RNN 一样,LSTM 误差项的反向传播也是包括两个方向:
一个是沿时间的反向传播,即从当前 t 时刻开始,计算每个时刻的误差项;
一个是将误差项向上一层传播。

3. 根据相应的误差项,计算每个权重的梯度。



gate 的激活函数定义为 sigmoid 函数,输出的激活函数为 tanh 函数,导数分别为:

[深入浅出] LSTM神经网络

具体推导公式为:

[深入浅出] LSTM神经网络

[深入浅出] LSTM神经网络

具体推导公式为:

[深入浅出] LSTM神经网络

调参

目标是要学习 8 组参数,如下图所示:

[深入浅出] LSTM神经网络

又权重矩阵 W 都是由两个矩阵拼接而成,这两部分在反向传播中使用不同的公式,因此在后续的推导中,权重矩阵也要被写为分开的两个矩阵。

1. 误差项沿时间的反向传递:

[深入浅出] LSTM神经网络

目的是要计算出 t-1 时刻的误差项:

[深入浅出] LSTM神经网络

利用 h_t c_t 的定义,和全导数公式,可以得到 将误差项向前传递到任意k时刻的公式:

[深入浅出] LSTM神经网络

2. 将误差项传递到上一层的公式:

[深入浅出] LSTM神经网络

3. 权重梯度的计算:

[深入浅出] LSTM神经网络

以上就是 LSTM 的训练算法的全部公式。

来自 LSTM Hyperparameter Tuning:
https://deeplearning4j.org/lstm

还有一个用 LSTM 做 text_generation 的例子

https://github.com/fchollet/keras/blob/master/examples/lstm_text_generation.py学习资料:
https://zybuluo.com/hanbingtao/note/
原文链接:
https://www.jianshu.com/p/dcec3f07d3b5


 近期热文

推荐 | 中文文本标注工具Chinese-Annotator

资源 | 2017年GitHub中Top 30开源机器学习项目

自然语言对话引擎(技术类)

AdaBoost元算法如何提高分类性能——机器学习实战

分享 | 由0到1走入Kaggle-入门指导 (长文、干货)

常见文本相似度量方法总结

干货|免费文本语料训练数据集

Experience is the mother of wisdom

经验是智慧之母

[深入浅出] LSTM神经网络

更多干货内容请关注微信公众号“AI 深入浅出”

长按二维码关注

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/230700.html原文链接:https://javaforall.net

(0)
上一篇 2026年2月7日 下午6:01
下一篇 2026年2月7日 下午6:22


相关推荐

  • SOAPAction是什么[通俗易懂]

    SOAPAction是什么[通俗易懂]SOAPAction是什么?最近在工作中遇到一个SOAPAction的问题,正好拿出来研究一把。  据说SOAPActionheader这玩意在SOAP1.1规范中着实让不少开发者喝了一壶。真的有这么难理解么?我想这应该是因为SOAP有两种非常不同的使用方式,而SOAPAction主要是被用来支持其中应用较少的一种方式的原因。在我看来,这种方式也非常有价值。  让我们先看看S…

    2022年7月24日
    11
  • ubuntu过期版本软件源[通俗易懂]

    ubuntu过期版本软件源[通俗易懂]ubuntu10.04软件源国内源,参考:https://blog.csdn.net/snaking616/article/details/52966634debhttp://mirrors.ustc.edu.cn/ubuntu-old-releases/ubuntu/lucidmainrestricteduniversemultiversedebhttp://mi…

    2022年10月14日
    5
  • matlab中wavedec2函数,[转载]小波滤波器–wavedec2函数

    matlab中wavedec2函数,[转载]小波滤波器–wavedec2函数wavedec2函数:1.功能:实现图像(即二维信号)的多层分解.多层,即多尺度.2.格式:[c,s]=wavedec2(X,N,’wname’)[c,s]=wavedec2(X,N,Lo_D,Hi_D)(我不讨论它)3.参数说明:对图像X用wname小波基函数实现N层分解,这里的小波基函数应该根据实际情况选择,具体办法可以:db1、db2、……db45、haar.输出为c,s.c为各层分…

    2022年6月16日
    77
  • 【游戏开发实战】2D游戏摄像机镜头跟随,屏幕边缘限制镜头移动(使用Cinemachine组件)

    【游戏开发实战】2D游戏摄像机镜头跟随,屏幕边缘限制镜头移动(使用Cinemachine组件)【游戏开发实战】2D游戏摄像机镜头跟随,屏幕边缘限制镜头移动(使用Cinemachine组件)

    2022年5月28日
    48
  • 相对熵(KL散度)

    相对熵(KL散度)上一篇文章我们简单介绍了信息熵的概念 知道了信息熵可以表达数据的信息量大小 是信息处理一个非常重要的概念 对于离散型随机变量 信息熵公式如下 H p H X Ex p x log p x i 1np x log p x H p H X mathrm E x simp x logp x s

    2026年3月20日
    3
  • exclusions来进行排除依赖

    exclusions来进行排除依赖xclusions 但依赖调节并不解决所有问题 我们还需要 exclusions 来进行排除依赖 例如这样一个情况 工程中引入了 A A 依赖 B 但是 B 的版本过旧 此时可以使用 exclusions 排除该传递性依赖 并显示声明一个最新版本的 B 依赖 比如这样 lt dependency gt lt groupId gt com lowagie lt groupId

    2026年3月18日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号