通俗易懂的RNN

一、什么是RNN

RNN（Recurrent Neural Network）是一类用于处理序列数据的神经网络。首先我们要明确什么是序列数据，摘取百度百科词条：时间序列数据是指在不同时间点上收集到的数据，这类数据反映了某一事物、现象等随时间的变化状态或程度。这是时间序列数据的定义，当然这里也可以不是时间，比如文字序列，但总归序列数据有一个特点——后面的数据跟前面的数据有关系。

RNN是神经网络的一种，类似的还有深度神经网络DNN，卷积神经网络CNN，生成对抗网络GAN，等等。RNN对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息，利用了RNN的这种能力，使深度学习模型在解决语音识别、语言模型、机器翻译以及时序分析等NLP领域的问题时有所突破。

举几个具有序列特性的例子：

拿人类的某句话来说，也就是人类的自然语言，是不是符合某个逻辑或规则的字词拼凑排列起来的，这就是符合序列特性。
语音，我们发出的声音，每一帧每一帧的衔接起来，才凑成了我们听到的话，这也具有序列特性。
股票，随着时间的推移，会产生具有顺序的一系列数字，这些数字也是具有序列特性。

二、为什么要发明RNN

我们先来看一个NLP很常见的问题，命名实体识别，举个例子，现在有两句话：

第一句话：I like eating apple！（我喜欢吃苹果！）

第二句话：The Apple is a great company！（苹果真是一家很棒的公司！）

现在的任务是要给apple打Label，我们都知道第一个apple是一种水果，第二个apple是苹果公司，假设我们现在有大量的已经标记好的数据以供训练模型，当我们使用全连接的神经网络时，我们做法是把apple这个单词的特征向量输入到我们的模型中（如下图），在输出结果时，让我们的label里，正确的label概率最大，来训练模型，但我们的语料库中，有的apple的label是水果，有的label是公司，这将导致，模型在训练的过程中，预测的准确程度，取决于训练集中哪个label多一些，这样的模型对于我们来说完全没有作用。问题就出在了我们没有结合上下文去训练模型，而是单独的在训练apple这个单词的label，这也是全连接神经网络模型所不能做到的，于是就有了我们的循环神经网络。

【全连接神经网络结构】

三、RNN的基础知识

1、循环核介绍

ht：记忆体内当前时刻存储的状态信息
xt：当前时刻输入特征
ht-1：记忆体上一时刻存储的状态信息
yt：当前时刻循环核的输出特征

2、循环核按时间步展开

3、记忆体

4、循环计算层

5、TF描述循环计算层

tf.keras.layers.SimpleRNN(记忆体个数, activation = '激活函数', # 其中默认为tanh return_sequences = Ture or False # 是否每个时刻输出ht到下一层， # 如果不是则仅最后时间步输出ht，False为默认值 )

二、RNN的补充知识

1、RNN梯度消失的原因

RNN和DNN梯度消失的原因是不同的，DNN梯度消失及梯度爆炸的原因可见之前的文章，这里我们介绍RNN梯度消失的原因。

RNN结构如图：

假设我们的时间序列只有三段， [公式] 为给定值，神经元没有激活函数，则RNN最简单的前向传播过程如下：

$S_{1}=W_{x}X_{1}+W_{s}S_{0}+b_{1}$
$O_{1}=W_{o}S_{1}+b_{2}$
$S_{2}=W_{x}X_{2}+W_{s}S_{1}+b_{1}$
$O_{2}=W_{o}S_{2}+b_{2}$
$S_{3}=W_{x}X_{3}+W_{s}S_{2}+b_{1}$
$O_{3}=W_{o}S_{3}+b_{2}$

输入时间序列长度为t的数据，假设在t时刻，损失函数为 $L_{t}=\frac{1}{2}(Y_{t}-O_{t})^{2}$ 。

使用随机梯度下降算法训练RNN，其实就是对 $W_{x}、W_{s}、W_{o}$ 以及 $b_{1}、b_{2}$ 求偏导，并不断调整它们，使得 $L_{t}$ 尽可能小的过程。
现在假设我们的时间序列只有3段， $t_{1}、t_{2}、t_{3}$ 。

我们对 $t_{3}$ 时刻的 $W_{x}、W_{s}、W_{o}$ 求偏导（其他时刻类似）：

$\frac{\partial{L_{3}}}{\partial{W_{0}}}=\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{W_{o}}}$

$\frac{\partial{L_{3}}}{\partial{W_{x}}}=\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{W_{x}}}+\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{S_{2}}}\frac{\partial{S_{2}}}{\partial{W_{x}}}+\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{S_{2}}}\frac{\partial{S_{2}}}{\partial{S_{1}}}\frac{\partial{S_{1}}}{\partial{W_{x}}}$

$\frac{\partial{L_{3}}}{\partial{W_{s}}}=\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{W_{s}}}+\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{S_{2}}}\frac{\partial{S_{2}}}{\partial{W_{s}}}+\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{S_{2}}}\frac{\partial{S_{2}}}{\partial{S_{1}}}\frac{\partial{S_{1}}}{\partial{W_{s}}}$

可以看出对于 $W_{0}$ 求偏导并没有长期依赖，但是对于 $W_{x}、W_{s}$ 求偏导，会随着时间序列产生长期依赖。因为 $S_{t}$ 随着时间序列向前传播，而 $S_{t}$ 又是 $W_{x}、W_{s}$ 的函数。

根据上述求偏导的过程，我们可以得出任意时刻对 $W_{x}、W_{s}$ 求偏导的公式：

$\frac{\partial{L_{t}}}{\partial{W_{x}}}=\sum_{k=0}^{t}{\frac{\partial{L_{t}}}{\partial{O_{t}}}\frac{\partial{O_{t}}}{\partial{S_{t}}}}(\prod_{j=k+1}^{t}{\frac{\partial{S_{j}}}{\partial{S_{j-1}}}})\frac{\partial{S_{k}}}{\partial{W_{x}}}$

$\frac{\partial{L_{t}}}{\partial{W_{s}}}=\sum_{k=0}^{t}{\frac{\partial{L_{t}}}{\partial{O_{t}}}\frac{\partial{O_{t}}}{\partial{S_{t}}}}(\prod_{j=k+1}^{t}{\frac{\partial{S_{j}}}{\partial{S_{j-1}}}})\frac{\partial{S_{k}}}{\partial{W_{s}}}$

如果加上激活函数， $S_{j}=tanh(W_{x}X_{j}+W_{s}S_{j-1}+b_{1})$ ，

则 $\prod_{j=k+1}^{t}{\frac{\partial{S_{j}}}{\partial{S_{j-1}}}}=\prod_{j=k+1}^{t}{tanh^{‘}}W_{s}$

由于激活函数tanh的导数是小于1的，因此随着累乘的增加，RNN会出现梯度消失的情况。

现在来解释一下，为什么说RNN和DNN的梯度消失问题含义不一样？

先来说DNN中的反向传播：在DNN梯度消失及梯度爆炸的文章中，我推导了两个权重的梯度，第一个梯度是直接连接着输出层的梯度，求解起来并没有梯度消失或爆炸的问题，因为它没有连乘，只需要计算一步。第二个梯度出现了连乘，也就是说越靠近输入层的权重，梯度消失或爆炸的问题越严重，可能就会消失会爆炸。一句话总结一下，DNN中各个权重的梯度是独立的，该消失的就会消失，不会消失的就不会消失。
再来说RNN：RNN的特殊性在于，它的权重是共享的。抛开 $W_o$ 不谈，因为它在某时刻的梯度不会出现问题（某时刻并不依赖于前面的时刻），但是 $W_s$ 和 $W_x$ 就不一样了，每一时刻都由前面所有时刻共同决定，是一个相加的过程，这样的话就有个问题，当距离长了，计算最前面的导数时，最前面的导数就会消失或爆炸，但当前时刻整体的梯度并不会消失，因为它是求和的过程，当下的梯度总会在，只是前面的梯度没了，但是更新时，由于权值共享，所以整体的梯度还是会更新，通常人们所说的梯度消失就是指的这个，指的是当下梯度更新时，用不到前面的信息了，因为距离长了，前面的梯度就会消失，也就是没有前面的信息了，但要知道，整体的梯度并不会消失因为当下的梯度还在，并没有消失。
一句话概括：RNN的梯度不会消失，RNN的梯度消失指的是当下梯度用不到前面的梯度了，但DNN靠近输入的权重的梯度是真的会消失，RNN 所谓梯度消失的真正含义是，梯度被近距离梯度主导，导致模型难以学到远距离的依赖关系。

【注】RNN实战可参考B站技术视频：北京大学-Tensorflow2.0-曹健老师

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/175835.html原文链接：https://javaforall.net

通俗易懂的RNN

目录

一、什么是RNN

二、为什么要发明RNN