对于梯度消失和梯度爆炸的理解

对于梯度消失和梯度爆炸的理解

一、梯度消失、梯度爆炸产生的原因

   说白了,对于1.1 1.2,其实就是矩阵的高次幂导致的。在多层神经网络中,影响因素主要是权值和激活函数的偏导数。

1.1 前馈网络

  假设存在一个网络结构如图:

<span>对于梯度消失和梯度爆炸的理解</span>

  其表达式为:

<span>对于梯度消失和梯度爆炸的理解</span>

 

  若要对于w1求梯度,根据链式求导法则,得到的解为:

 <span>对于梯度消失和梯度爆炸的理解</span>

  通常,若使用的激活函数为sigmoid函数,其导数:

<span>对于梯度消失和梯度爆炸的理解</span>

  这样可以看到,如果我们使用标准化初始w,那么各个层次的相乘都是0-1之间的小数,而激活函数f的导数也是0-1之间的数,其连乘后,结果会变的很小,导致梯度消失。若我们初始化的w是很大的数,w大到乘以激活函数的导数都大于1,那么连乘后,可能会导致求导的结果很大,形成梯度爆炸

   当然,若对于b求偏导的话,其实也是一个道理:

<span>对于梯度消失和梯度爆炸的理解</span>

  推出:

<span>对于梯度消失和梯度爆炸的理解</span>

1.2 RNN

  对于RNN的梯度下降方法,是一种基于时间的反向求导算法(BPTT),RNN的表达式:

<span>对于梯度消失和梯度爆炸的理解</span>

  通常我们会将一个完整的句子序列视作一个训练样本,因此总误差即为各时间步(单词)的误差之和。

<span>对于梯度消失和梯度爆炸的理解</span>

  而RNN还存在一个权值共享的问题,即这几个w都是一个,假设,存在一个反复与w相乘的路径,t步后,得到向量:

<span>对于梯度消失和梯度爆炸的理解</span>

  若特征值大于1,则会出现梯度爆炸,若特征值小于1,则会出现梯度消失。因此在一定程度上,RNN对比BP更容易出现梯度问题。主要是因为RNN处理时间步长一旦长了,W求导的路径也变的很长,即使RNN深度不大,也会比较深的BP神经网络的链式求导的过程长很大;另外,对于共享权值w,不同的wi相乘也在一定程度上可以避免梯度问题。

 1.3 悬崖和梯度爆炸

  对于目标函数,通常存在梯度变化很大的一个“悬崖”,在此处求梯度,很容易导致求解不稳定的梯度爆炸现象。

<span>对于梯度消失和梯度爆炸的理解</span>

 

 三、梯度消失和梯度爆炸哪种经常出现

  事实上,梯度消失更容易出现,因为对于激活函数的求导:

<span>对于梯度消失和梯度爆炸的理解</span>

  可以看到,当w越大,其wx+b很可能变的很大,而根据上面sigmoid函数导数的图像可以看到,wx+b越大,导数的值也会变的很小。因此,若要出现梯度爆炸,其w既要大还要保证激活函数的导数不要太小。

 

 二、如何解决梯度消失、梯度爆炸

  1、对于RNN,可以通过梯度截断,避免梯度爆炸

  2、可以通过添加正则项,避免梯度爆炸

  3、使用LSTM等自循环和门控制机制,避免梯度消失,参考:https://www.cnblogs.com/pinking/p/9362966.html

  4、优化激活函数,譬如将sigmold改为relu,避免梯度消失

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/119443.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • python安装uwsgi_微服务怎么部署到服务器的

    python安装uwsgi_微服务怎么部署到服务器的什么是uWSGIuWSGI旨在为部署分布式集群的网络应用开发一套完整的解决方案。主要面向web及其标准服务。由于其可扩展性,能够被无限制的扩展用来支持更多平台和语言。uWSGI是一个web服务器,实现了WSGI协议,uwsgi协议,http协议等。uWSGI的主要特点是:超快的性能低内存占用多app管理详尽的日志功能高度可定制uWSGI服务器自己实现了基于uwsgi协议的ser…

    2025年9月12日
    7
  • Java数据结构与算法入门

    Java数据结构与算法入门第一部分:Java数据结构要理解Java数据结构,必须能清楚何为数据结构?数据结构:Data_Structure,它是储存数据的一种结构体,在此结构中储存一些数据,而这些数据之间有一定的关系。而各数据元素之间的相互关系,又包括三个组成成分,数据的逻辑结构,数据的存储结构和数据运算结构。而一个数据结构的设计过程分成抽象层、数据结构层和实现层。数据结构在Java的语言体系中按逻辑结构可以分为两大类:线…

    2022年7月18日
    16
  • Tomcat优化详细教程

    Tomcat是我们经常使用的servlet容器之一,甚至很多线上产品都使用Tomcat充当服务器。而且优化后的Tomcat性能提升显著,本文从以下几方面进行分析优化。      一、内存优化    默认情况下Tomcat的相关内存配置较低,这对于一些大型项目显然是不够用的,这些项目运行就已经耗费了大部分内存空间,何况大规模访问的情况。即使是本文中的这个只有

    2022年4月3日
    44
  • 【转载】C#相等性比较

    【转载】C#相等性比较

    2021年11月21日
    47
  • java静态内部类和非静态内部类的区别_静态内部类有什么问题

    java静态内部类和非静态内部类的区别_静态内部类有什么问题一、非静态内部类:1、变量和方法不能声明为静态的。(类的编译顺序:外部类–静态方法或属性–内部类,如果内部类声明为静态的,造成编译顺序冲突。个人理解)2、实例化的时候需要依附在外部类上面。比如:B是A的非静态内部类,实例化B,则:A.Bb=newA().newB();3、内部类可以引用外部类的静态或者非静态属性或者方法。二、静态内部类:1、属性和方法可以声明为静态的或者非静态的…

    2022年10月11日
    3
  • oracle触发器类型

    http://www.cnblogs.com/roucheng/p/3506033.html触发器是许多关系数据库系统都提供的一项技术。在ORACLE系统里,触发器类似过程和函数,都有声明,执行和异

    2021年12月23日
    54

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号