BPTT-应用于简单的循环神经网络「建议收藏」

大家好，又见面了，我是你们的朋友全栈君。

这里写图片描述
上面是一组序列变量，即四个变量 $z_1, z_2, z_3, z_4$ 中的任一 $z_i$ 的值均依赖于它前面的变量 $z_1, z_2, .., z_{i-1}$ ，且有
$z_2 = 2 * z_1$

$z_3 = 3*z_2 + z_1$

$z_4 = 4*z_3 + 2*z_2 + z_1$

$E = 4*z_4 + 2*z_2$

现在我们定义：

$\frac{\partial E}{\partial z_i}$ : 目标函数 $E$ 对变量 $z_i$ 的偏微分,
$\frac{\partial^ +E}{d z_i}$ : 目标函数 $E$ 对变量 $z_i$ 的全微分。比如，

$\frac{\partial^+ E}{\partial z_4}=\frac{\partial E}{\partial z_4}=4$

$\frac{\partial^+ E}{\partial z_3}=\frac{\partial E}{\partial z_3}+\frac{\partial^+ E}{\partial z_4}\cdot \frac{\partial z_4}{\partial z_3} =16$

$\frac{\partial^+ E}{\partial z_2}=\frac{\partial E}{\partial z_2}+\frac{\partial^+ E}{\partial z_4}\cdot \frac{\partial z_4}{\partial z_2} +\frac{\partial^+ E}{\partial z_3}\cdot \frac{\partial z_3}{\partial z_2}=58$

$\frac{\partial^+ E}{\partial z_1}=\frac{\partial E}{\partial z_1}+\frac{\partial^+ E}{\partial z_4}\cdot \frac{\partial z_4}{\partial z_1} +\frac{\partial^+ E}{\partial z_3}\cdot \frac{\partial z_3}{\partial z_1}+ \frac{\partial^+ E}{\partial z_2}\cdot \frac{\partial z_2}{\partial z_1}=136$

综上，我们有如下的链式法则[1]

\partial + E \partial z i = \partial E \partial z i + \sum j > i T \partial + E \partial z j \cdot \partial z j \partial z i E q . 1

$\frac{\partial^+ E}{\partial z_i} = \frac{\partial E}{\partial z_i}+\sum_{j>i}^{T} \frac{\partial^+ E}{\partial z_j}\cdot \frac{\partial z_j}{\partial z_i} \qquad Eq. 1$

traditional recurrent neural network

下图是一个基础的循环神经网络示意图

Fig. 1: 循环神经网络示意图

其中x_t, h_t, y_t 分别代表 t 时刻网络的输入向量，隐藏层向量， 输出向量， w_ih, w_ho均为 权重矩阵，具体的计算公式如下：

$x_{ct} = [x_t, h_{t-1}]$

$h_t = \phi (z^h_t) = tanh (w_{ih} \odot x_{ct} + b_{ih})$

$y_t = \sigma(z^o_t) = softmax( w_{ho} \odot h_t + b_{ho})$

成本函数采用信息熵形式

C = \sum t = 1 T \sum k (1 - y^(t) k) * l o g (y (t) k) = \sum t = 1 T c (y t)

$C=\sum_{t=1}^{T}\sum_{k} (1-\hat{y}(t)_{k})*log(y(t)_{k}) = \sum_{t=1}^{T} c(y_t)$

k表示输出层节点个数，

$\hat{y}$ 表示真实的目标输出。

我们的目标是计算

\partial + C \partial w i h

$\frac{\partial^+ C}{\partial w_{ih}}$

和

\partial + C \partial w h o

$\frac{\partial^+ C}{\partial w_{ho}}$

即在给定

$x_1, x_2, ... x_T$ 作为输入序列，

$\hat{y}_1, \hat{y}_2, ..., \hat{y}_T$ 作为目标输出序列的前提下，计算成本函数

$C$ 对权重矩阵

$w_{ih}, w_{ho}$ 的全微分（这里我们暂时忽略

$b_{ih}, b_{ho}$ ）。为此，我们先计算

$\frac{\partial^+ C}{\partial z^{h}_{t}}$ 和

$\frac{\partial^+ C}{\partial z^o_{t}}$ , 其中

$z^h_t$ 和

$z^o_t$ 分别是图中绿色模块和黄色模块的输入。

根据 Fig. 1，我们看出绿色模块之间有如下的依赖关系
differciate_h
那么 $z^h_i$ 仅仅依赖于 $z^h_{i-1}$ ，根据链式方程 Eq. 1：

\partial + C \partial z h t = \partial C \partial z h t + \sum t' > t T \partial + C \partial z h t ' \cdot \partial z h t ' \partial z h t = \partial C \partial z h t + \partial + C \partial z h t + 1 \cdot \partial z h t + 1 \partial z h t

$\begin{align}\frac{\partial^+ C}{\partial z^h_{t}} & = \frac{\partial C}{\partial z^h_{t}} + \sum_{t'>t}^{T} \frac{\partial^+ C}{\partial z^h_{t'}} \cdot \frac{\partial z^h_{t'}}{\partial z^h_t} \\& = \frac{\partial C}{\partial z^h_{t}} + \frac{\partial^+ C}{\partial z^h_{t+1}} \cdot \frac{\partial z^h_{t+1}}{\partial z^h_t}\end{align}$

并且，

\partial + C \partial z h T = \partial C \partial z h T = \partial C \partial z o T ⊙ w h o \cdot ϕ ˙ (z h T)

$\frac{\partial^+ C}{\partial z^h_{T}} = \frac{\partial C}{\partial z^h_{T}} = \frac{\partial C}{\partial z^o_{T}} \odot w_{ho} \cdot \dot{\phi}(z^h_T)$

因为 Fig. 1 中黄色模块之间的相互依赖关系是通过绿色模块产生的，它们之间并没有直接的依赖关系，所以有

\partial + C \partial z o t = = \partial C \partial z o t c ˙ (y t) σ ˙ (z o t)

$\begin{align}\frac{\partial^+ C}{\partial z^o_{t}} = & \frac{\partial C}{\partial z^o_{t}} \\ \\=& \dot{c}(y_t) \dot{\sigma}(z^o_t) \end{align}$

由上面的三个公式，可进而依次求出

$t = T-1, T-2, ..., 2, 1$ 时刻时的

$\frac{\partial^+ C}{\partial z^h_{t}}$ 值。

最终有：

\partial + C \partial w h o = \sum t = 1 T \partial + C \partial z o t \partial z o t \partial w h o = \sum t = 1 T \partial + C \partial z o t ⊙ h t

$\frac{\partial^+ C}{\partial w_{ho}} = \sum^T_{t=1}\frac{\partial^+ C}{\partial z^o_t} \frac{\partial z^o_t}{\partial w_{ho}} = \sum^T_{t=1}\frac{\partial^+ C}{\partial z^o_t} \odot h_t$

\partial + C \partial w i h = \sum t = 1 T \partial + C \partial z h t \partial z h t \partial w i h = \sum t = 1 T \partial + C \partial z h t ⊙ x c t

$\frac{\partial^+ C}{\partial w_{ih}} = \sum^T_{t=1}\frac{\partial^+ C}{\partial z^h_t} \frac{\partial z^h_t}{\partial w_{ih}} = \sum^T_{t=1}\frac{\partial^+ C}{\partial z^h_t} \odot x_{ct}$

[1] Backpropagation through time: what it does and how to do it
(web)

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/152284.html原文链接：https://javaforall.net