随机梯度下降算法_梯度下降算法的正确步骤

随机梯度下降算法_梯度下降算法的正确步骤主要内容:提供不同算法的原理以及效果直观展示,并希望读者能够在实际问题中更合理的选用梯度下降类算法。目录:1.简介梯度下降法2.随机梯度下降3.随机梯度下降的问题与挑战4.随机梯度下降的优化算法(主要内容)

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

主要内容:提供不同算法的原理以及效果直观展示,并希望读者能够在实际问题中更合理的选用梯度下降类算法。
目录:
1.简介梯度下降法
2.随机梯度下降
3.随机梯度下降的问题与挑战
4.随机梯度下降的优化算法(主要内容)

梯度下降算法的困难之处:
1.梯度的计算
在机器学习和统计参数估计问题中目标函数经常是求和函数的形式
J x ( θ ) = ∑ i J x i ( θ ) J_x (\theta)= \sum_{i} J_{x_i}(\theta) Jx(θ)=iJxi(θ)

其中每一个函数都对应一个样本
当样本极大时,梯度的计算就变得非常耗时耗力。
2.学习率的选择
学习率选择过小会导致算法收敛太慢,学习率选择过大容易导致算法不收敛

如何选择学习率需要具体问题具体分析:

  1. 局部梯度的反方向不一定是函数整体下降的方向
    对图像比较崎岖的函数,尤其是隧道型曲面,梯度下降表现不佳对图像比较崎岖的函数,尤其是隧道型曲面,梯度下降表现不佳
  2. 预定学习率衰减法的问题
    学习率衰减法很难根据当前数据进行自适应
  3. 对不同参数采取不同的学习率的问题
    在数据由一定稀疏性时,希望对不同特征采取不同的学习率
  4. 神经网络训练中梯度下降法容易被困在鞍点附近的问题
    比起局部极小值,鞍点更加可怕

为什么不用牛顿法?
牛顿法要求计算目标函数的二阶导数,在高维特征情形下这个矩阵非常巨大,计算和存储都成问题
在使用小批量情形下,牛顿法对于二阶导数的估计噪声太大
在目标函数非凸时,牛顿法更容易受到鞍点甚至最大值点的吸引

随机梯度下降法主要为了解决第一问题:梯度计算
由于随机梯度下降的引入,我们通常将梯度下降法分为三种类型:
1.批量梯度下降法(GD)
原始的梯度下降法
2.随机梯度下降法(SGD)
每次梯度计算只使用一个样本

  • 避免在类似样本上计算梯度造成的冗余计算
  • 增加了跳出当前的局部最小值的潜力
  • 在逐渐缩小学习率的情况下,由于批梯度下降法类似的收敛速度

3.小批量随机梯度下降法(Mini Batch SGD)
每次梯度计算使用一个小批量样本

  • 梯度计算比单样本更加稳定
  • 可以很好的利用县城的高度优化的矩阵运算工具

动量法(Momentum)(适用于隧道型曲面)
动量法每次更新都吸收一部分上次更新的余势:
V t = γ V t − 1 + δ ∇ θ J ( θ ) V_t=\gamma V_{t-1} +\delta\nabla \theta J(\theta) Vt=γVt1+δθJ(θ) θ t = θ t − 1 − V t \theta_t= \theta_{t-1} -V_{t} θt=θt1Vt
这样主体方向的更新就得到了更大的保留,从而效果被不断放大。
物理上这就像是推一个很重的铁球下山,因为铁球保持了下山主体方向的动量,所以在隧道伤沿两侧震荡侧次数就会越来越少。

Nesterov(动量法的改进算法)
动量法的一个问题在于:从山顶退下的铁球会越滚越快,以至于到了山底停不下来。我们希望算法更加聪明一些,可以在到达底部之前就自己刹车。
利用主题下降方向提供的先见之明,预判自己下一步的位置,并到预判位置计算梯度。
v t = γ v t − 1 + δ ∇ θ J ( θ − v t − 1 ) v_t=\gamma v_{t-1}+\delta {\nabla \theta} J(\theta – v_{t-1}) vt=γvt1+δθJ(θvt1) θ = θ − v t \theta= \theta -v_{t} θ=θvt

Adagrad(自动调整学习率,适用于稀疏数据)
梯度下降法在每一步对每一个参数使用同样的学习率,这种一刀切的做法不能有效地利用每一个数据及自身的特点。
Adagrad是一种自动调整学习率的方法

  • 随着模型的训练,学习率自动衰减
  • 对于更新频繁的参数,采取较小的学习率
  • 对于更新不频繁的参数,采取较大的学习率
    为了实现对于更新频繁的参数使用较小的学习率,Adagrad对每个参数历史上的每次更新进行叠加,并以此来做下一次更新的惩罚系数。

梯度: g t , i = ∇ θ J ( θ i ) g_{t,i}=\nabla \theta J(\theta_i) gt,i=θJ(θi)
梯度历史矩阵: G t G_t Gt对角矩阵,其中 G t , i i = ∑ k g k , i 2 G_{t,ii}=\sum_{k} g_{k,i}^2 Gt,ii=kgk,i2
参数更新: θ t + 1 , i = θ t , i − δ G t , i i + ε g t , i \theta_{t+1,i} =\theta_{t,i} – \dfrac{\delta}{ \sqrt{G_{t,ii}+\varepsilon}}g_{t,i} θt+1,i=θt,iGt,ii+ε
δ
gt,i

Adadelta(Adagrad的改进算法)
Adagrad的一个问题在于随着训练的进行,学习率快速单调衰减。
Adadelta 则使用梯度平方的移动平均来取代全部历史平方和。
定义移动平方: E [ g 2 ] t = γ E [ g 2 ] t − 1 + ( 1 − γ ) g t 2 E[g^2]_t=\gamma E[g^2]_{t-1}+(1-\gamma)g_t^2 E[g2]t=γE[g2]t1+(1γ)gt2
于是就得到参数更新法则:
θ t + 1 , i = θ t , i − δ E [ g 2 ] t , i i + ε g t , i \theta_{t+1,i}=\theta_{t,i}- \dfrac{\delta}{ \sqrt{E[g^2]_{t,ii}+\varepsilon}}g_{t,i} θt+1,i=θt,iE[g2]t,ii+ε
δ
gt,i

由于梯度与参数的单位不匹配。
Adadelta使用参数更新的移动平均来取代学习率 δ \delta δ,于是参数的更新法则:
θ t + 1 , i = θ t , i − E [ Δ θ ] t − 1 E [ g 2 ] t , i i + ε g t , i \theta_{t+1,i}=\theta_{t,i}- \dfrac{\sqrt{E[\Delta\theta]_{t-1}}}{ \sqrt{E[g^2]_{t,ii}+\varepsilon}}g_{t,i} θt+1,i=θt,iE[g2]t,ii+ε
E[Δθ]t1
gt,i

Adam(结合了动量法和Adamdelta算法)
如果把Adadelta里面梯度的平方和看成是梯度的二阶矩,那么梯度自身的求和就是一阶矩。Adam算法在Adadelta的二阶矩基础上又引入了1一阶矩。
而一阶矩,其实就类似于动量法里面的动量。
m t = β 1 m t − 1 + ( 1 − β 1 ) g t m_t = \beta_1 m_{t-1}+(1-\beta_1)g_t mt=β1mt1+(1β1)gt v t = β 2 v t − 1 + ( 1 − β 2 ) g t 2 v_t = \beta_2 v_{t-1}+(1-\beta_2)g_t^2 vt=β2vt1+(1β2)gt2

于是参数更新法则为:
θ t + 1 = θ t − δ v t + ε m t \theta_{t+1}=\theta_t – \dfrac{\delta}{\sqrt{v_t}+\varepsilon}m_t θt+1=θtvt
+ε
δ
mt

究竟如何选择算法呢?
动量法和Nesterov的改进方法着重解决目标函数图像崎岖的问题
Adagrad和Adadelta主要解决学习率更新问题
Adam集中了前述两种做法的主要优点
目前为止Adam可能是几种算法中综合表现最好的

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/195100.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 托马斯微积分什么时候学_普林斯顿微积分好在哪

    托马斯微积分什么时候学_普林斯顿微积分好在哪托马斯微积分和微积分学教程Samewithlinearalgebra,calculusisalsocloselyrelatedtoprogramming.与线性代数一样,微积分也与编程紧密相关。Youmightknowthefirsttwocoursesinthefirstgradeofcomputerscienceandengineerin…

    2022年10月25日
    0
  • datax(12):调度源码解读AbstractScheduler「建议收藏」

    datax(12):调度源码解读AbstractScheduler「建议收藏」datax的jobContainer最终会通过调度周期性的执行,今天把它看完;一、基类AbstractScheduler概述类继承关系全部方法二、AbstractScheduler的主要属性和方法1、主要属性/***脏数据行数检查器,用于运行中随时检查脏数据是否超过限制(脏数据行数,或脏数据百分比)*/privateErrorRecordCheckererrorLimit;/***积累容器通讯器,来处理JobContainer、Tas.

    2022年5月17日
    44
  • 朱晔和你聊Spring系列S1E8:凑活着用的Spring Cloud(含一个实际业务贯穿所有组件的完整例子)…[通俗易懂]

    朱晔和你聊Spring系列S1E8:凑活着用的Spring Cloud(含一个实际业务贯穿所有组件的完整例子)…[通俗易懂]朱晔和你聊Spring系列S1E8:凑活着用的Spring Cloud(含一个实际业务贯穿所有组件的完整例子)…

    2022年4月20日
    36
  • vb连接access数据库

    vb连接access数据库

    2021年3月12日
    172
  • Hans Berger脑电图之父的人生摘要「建议收藏」

    Hans Berger脑电图之父的人生摘要「建议收藏」摘要:在1938年当脑电图被学术界接受之时,第二次世界大战要开始了,因为英美法都是敌对国,Berger访美计划搁浅。同时大概因为只是英美法学者对脑电图重视,德国本土学者根本不相信,德国当时的纳粹政权禁止研究脑电图。【转载】HansBerger(1873-1941)(上图)是德国精神病学家,精神生理学家,他对神经科学的贡献是发明了和命名了脑电图-Electroencephalography,EEG,德语是Elektrenkephalogramm。此外,Berger发现了“阿尔法波-AlphaWave”,

    2022年8月11日
    5
  • SOAP协议解析「建议收藏」

    SOAP协议解析「建议收藏」一、SOAP协议简介1、SOAP简介 SOAP(SimpleObjectAccrssProtocol,简单对象访问协议)是一种简单的基于XML的协议,可以使应用程序在分散或分布式的环境中通过HTTP来交换信息。         SOAP基于XML语言和XSD标准,其定义了一套编码规则,编码规则定义如何将数据表示为消息,以及怎样通过HTTP协议来传输SOAP消息,由四部分组成:…

    2022年4月20日
    221

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号