RNN BPTT算法推导

RNN BPTT算法推导BPTT(沿时反向传播算法)基本原理与BP算法一样,包含三个步骤:前向计算每个神经元的输出值反向计算每个神经元的误差项δjδ_jδj​,它是误差函数E对神经元j的加权输入netjnet_jnetj​的偏导数计算每个权重的梯度最后再用随机梯度下降算法更新权重循环曾如图所示:1.1前向计算循环层的前向计算:隐层:st=f(Uxt+Wst−1)s_t=f(Ux_t+Ws_{t-1})…

大家好,又见面了,我是你们的朋友全栈君。

BPTT(沿时反向传播算法)基本原理与BP算法一样,包含三个步骤:

  • 前向计算每个神经元的输出值
  • 反向计算每个神经元的误差项 δ j δ_j δj,它是误差函数E对神经元j的加权输入 n e t j net_j netj的偏导数
  • 计算每个权重的梯度
  • 最后再用随机梯度下降算法更新权重
    循环曾如图所示:
    在这里插入图片描述
    1.1前向计算
    循环层的前向计算:
    隐层: s t = f ( U x t + W s t − 1 ) s_t=f(Ux_t+Ws_{t-1}) st=f(Uxt+Wst1)
    1.2误差项的计算
    BPTT算法将第l层t时刻的误差项 δ t l δ_t^l δtl值沿两个方向传播,一个方向时传递到上一层网络,得到 δ t l − 1 δ_t^{l-1} δtl1,这部分只和权重矩阵U有关;另一方向是将其沿着时间线传递到初始 t 1 t_1 t1时刻,得到 δ 1 l δ_1^l δ1l,这部分只和权重矩阵W有关。
    用向量 n e t j net_j netj表示神经元在t时刻的加权输入:
    n e t j = U x t + W s t − 1 net_j=Ux_t+Ws_{t-1} netj=Uxt+Wst1
    s t − 1 = f ( n e t t − 1 ) s_{t-1}=f(net_{t-1}) st1=f(nett1)
    因此:
    ∂ n e t t ∂ n e t t − 1 = ∂ n e t t ∂ s t − 1 ∂ s t − 1 ∂ n e t t − 1 \frac{\partial net_t}{\partial net_{t-1}}=\frac{\partial net_t}{\partial s_{t-1}}\frac{\partial s_{t-1}}{\partial net_{t-1}} nett1nett=st1nettnett1st1
    ∂ n e t t ∂ s t − 1 = W \frac{\partial net_t}{\partial s_{t-1}}=W st1nett=W
    第二项是一个jacobian矩阵
    在这里插入图片描述
    在这里插入图片描述
    最后,将两项合在一起,可得:
    ∂ n e t t ∂ n e t t − 1 = ∂ n e t t ∂ s t − 1 ∂ s t − 1 ∂ n e t t − 1 = W ∗ d i a g [ f ′ ( n e t t − 1 ) ] \frac{\partial net_t}{\partial net_{t-1}}=\frac{\partial net_t}{\partial s_{t-1}}\frac{\partial s_{t-1}}{\partial net_{t-1}}=W*diag[f^{'} (net_{t-1})] nett1nett=st1nettnett1st1=Wdiag[f(nett1)]
    上式描述了将 δ \delta δ沿时间向前传递一个时刻的规律,可以求的任意时刻k的误差项 δ k \delta_k δk:
    在这里插入图片描述
    这就是将误差项沿着时间反向传播的算法。

循环层将误差项反向传递到上一层网络,与普通的全连接层是完全一样的。
循环层的加权输入 n e t l net^l netl与上一层的加权输入 n e t l − 1 net^{l-1} netl1关系如下:
n e t t l = U a t l − 1 + W s t − 1 net^l_t=Ua^{l-1}_t+Ws_{t-1} nettl=Uatl1+Wst1
a t l − 1 = f l − 1 ( n e t t l − 1 ) a^{l-1}_t=f^{l-1}(net^{l-1}_t) atl1=fl1(nettl1)
上式中 n e t t l net^l_t nettl是第l层神经元的加权输入; n e t t l − 1 net^{l-1}_t nettl1是l-1层神经元的加权输入; a t l − 1 a^{l-1}_t atl1是第l-1层神经元的输出; f l − 1 f^{l-1} fl1是第l-1层的激活函数。
∂ n e t t l ∂ n e t t l − 1 = ∂ n e t t l ∂ a t l − 1 ∂ a t l − 1 ∂ n e t t l − 1 = U ∗ d i a g [ f ′ l − 1 ( n e t t l − 1 ) ] \frac{\partial net^l_t}{\partial net^{l-1}_t}=\frac{\partial net^l_t}{\partial a^{l-1}_t}\frac{\partial a^{l-1}_t}{\partial net^{l-1}_t}=U*diag[f^{'l-1}(net^{l-1}_t)] nettl1nettl=atl1nettlnettl1atl1=Udiag[fl1(nettl1)]
所以:
δ t l − 1 = ∂ E ∂ n e t t l − 1 = ∂ E ∂ n e t t l ∂ n e t t l ∂ n e t t l − 1 = δ t l ∗ U ∗ d i a g [ f ′ l − 1 ( n e t t l − 1 ) ] \delta^{l-1}_t=\frac{\partial E}{\partial net^{l-1}_t}=\frac{\partial E}{\partial net^l_t}\frac{\partial net^l_t}{\partial net^{l-1}_t}=\delta^l_t*U*diag[f^{'l-1}(net^{l-1}_t)] δtl1=nettl1E=nettlEnettl1nettl=δtlUdiag[fl1(nettl1)]
上式就是将误差项传递到上一层算法。
1.3权重梯度的计算
接下来是BPTT算法的最后一步:计算每个权重的梯度
首先计算误差函数E对权重矩阵W的梯度: ∂ E ∂ W \frac{\partial E}{\partial W} WE
在这里插入图片描述
上图为我们前两步计算得到的量,包括每个时刻t循环层的输出值 s t s_t st,以及误差项 δ t \delta_t δt
我们知道了任意一个时刻的误差项 δ t \delta_t δt,以及上一个时刻循环层的输出值 s t − 1 s_{t-1} st1,就可以按照下面的公式求出权重矩阵在t时刻的梯度:
在这里插入图片描述
上式中, δ i t \delta^t_i δit表示t时刻误差项向量的第i各分量,即第i层的误差项;KaTeX parse error: Double subscript at position 8: s_{t-1}_̲i表示t-1时刻循环层第i各神经元的输出值。
权重梯度推导:
在这里插入图片描述
1.4梯度爆炸与梯度消失

RNNs并不能很好地处理较长的序列。主要原因是RNN在训练中很容易发生梯度爆炸和梯度消失,导致训练时梯度不能在较长序列中一直传递下去,从而使RNN无法捕捉到长距离的影响。
三种方法应对梯度消失问题:
1)合理的初始化权重值。初始化权重,使每个神经元尽可能不要取极大或极小值,以躲开梯度消失的区域。
2)使用Relu代替sigmod和tanh作为激活函数。
3)使用其它结构的RNNs,比如长短时记忆网络(LSTM)和Gated Recurrent Unit(GRU),这是最流行的做法。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/152300.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 全排列 leetcode_8的全排列

    全排列 leetcode_8的全排列给定一个没有重复数字的序列,返回其所有可能的全排列。示例:输入:[1,2,3]输出:[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]]classSolution:defpermute(self,nums):res=[]defbackt…

    2022年9月20日
    3
  • 给Ubuntu18.04(18.10)安装mac os主题

    给Ubuntu18.04(18.10)安装mac os主题2020-04-29Ubuntu20.04的Gnome版本与18.04有些许差别,完全按照本文效果并不好,20.04的美化博主正在连夜赶制中,尚未完成,敬请期待,如果实在等不及了,就看下面链接的

    2022年7月3日
    32
  • mysql executereader_C# 操作MySQL数据库, ExecuteReader()方法参数化执行T-SQL语句, 游标读取数据…

    mysql executereader_C# 操作MySQL数据库, ExecuteReader()方法参数化执行T-SQL语句, 游标读取数据…C#操作MySQL数据库需要引用”MySql.Data”,可通过两种方式获取。1、从NuGet下载”Install-PackageMySql.Data-Version6.8.7″推荐使用方式一,从NuGet上直接获取所需dll,方便快捷。C#操作MySQL数据库,ExecuteReader()方法参数化执行T-SQL语句,游标读取数据–ExecuteNonQuery()对连接执…

    2022年6月20日
    28
  • mysql declare 语法_sql_declare等语法 | 学步园[通俗易懂]

    mysql declare 语法_sql_declare等语法 | 学步园[通俗易懂]===sqlserver:—sqldeclare–简单赋值declare@aintset@a=5select@a–使用select语句赋值declare@user1nvarchar(50)select@user1=’张三’select@user1declare@user2nvarchar(50)select@user2=NamefromST_Userwhe…

    2022年8月20日
    32
  • QT QList介绍及应用

    QT QList介绍及应用QList是目前最常用的容器类,它存储了给定类型的值的一个列表,而这些值可以通过索引访问。QList使用数组来实现,以确保进行快速的基于索引的访问。使用QList::append和QList::prepend在列表的两端进行添加项目。使用QList::insert()在列表的中间插入项目。实例:#include<QCoreApplication>#include<Q…

    2025年6月14日
    3
  • er图实体关系图怎么画_uml时序图怎么画实例

    er图实体关系图怎么画_uml时序图怎么画实例关于绘图,我一般遵循这样的原则:绘图前先充分理解这类图形,回答它是什么,具有哪些绘图规范,最后才是怎么画。一、什么是E-R图?E-R图又称实体关系图,是一种提供了实体,属性和联系的方法,用来描述现实世界的概念模型。通俗点讲就是,当我们理解了实际问题的需求之后,需要用一种方法来表示这种需求,概念模型就是用来描述这种需求。比如学生生活中的校园卡系统数据库、公交卡系统数据库等等,都离不来实体关系图。学生就业系统E-R图E-R图中的基本元素(以上面的学生饭卡E-R图为例)..

    2022年9月2日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号