随机梯度下降算法_梯度下降算法的正确步骤

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元售后保障童叟无欺

主要内容：提供不同算法的原理以及效果直观展示，并希望读者能够在实际问题中更合理的选用梯度下降类算法。
目录：
1.简介梯度下降法
2.随机梯度下降
3.随机梯度下降的问题与挑战
4.随机梯度下降的优化算法（主要内容）

梯度下降算法的困难之处：
1.梯度的计算
在机器学习和统计参数估计问题中目标函数经常是求和函数的形式
$J_x (\theta)= \sum_{i} J_{x_i}(\theta)$

其中每一个函数都对应一个样本
当样本极大时，梯度的计算就变得非常耗时耗力。
2.学习率的选择
学习率选择过小会导致算法收敛太慢，学习率选择过大容易导致算法不收敛

如何选择学习率需要具体问题具体分析：

局部梯度的反方向不一定是函数整体下降的方向
对图像比较崎岖的函数，尤其是隧道型曲面，梯度下降表现不佳对图像比较崎岖的函数，尤其是隧道型曲面，梯度下降表现不佳
预定学习率衰减法的问题
学习率衰减法很难根据当前数据进行自适应
对不同参数采取不同的学习率的问题
在数据由一定稀疏性时，希望对不同特征采取不同的学习率
神经网络训练中梯度下降法容易被困在鞍点附近的问题
比起局部极小值，鞍点更加可怕

为什么不用牛顿法？
牛顿法要求计算目标函数的二阶导数，在高维特征情形下这个矩阵非常巨大，计算和存储都成问题
在使用小批量情形下，牛顿法对于二阶导数的估计噪声太大
在目标函数非凸时，牛顿法更容易受到鞍点甚至最大值点的吸引

随机梯度下降法主要为了解决第一问题：梯度计算
由于随机梯度下降的引入，我们通常将梯度下降法分为三种类型：
1.批量梯度下降法（GD）
原始的梯度下降法
2.随机梯度下降法（SGD）
每次梯度计算只使用一个样本

避免在类似样本上计算梯度造成的冗余计算
增加了跳出当前的局部最小值的潜力
在逐渐缩小学习率的情况下，由于批梯度下降法类似的收敛速度

3.小批量随机梯度下降法（Mini Batch SGD）
每次梯度计算使用一个小批量样本

梯度计算比单样本更加稳定
可以很好的利用县城的高度优化的矩阵运算工具

动量法（Momentum）（适用于隧道型曲面）
动量法每次更新都吸收一部分上次更新的余势：
$V_t=\gamma V_{t-1} +\delta\nabla \theta J(\theta)$ $\theta_t= \theta_{t-1} -V_{t}$
这样主体方向的更新就得到了更大的保留，从而效果被不断放大。
物理上这就像是推一个很重的铁球下山，因为铁球保持了下山主体方向的动量，所以在隧道伤沿两侧震荡侧次数就会越来越少。

Nesterov(动量法的改进算法)
动量法的一个问题在于：从山顶退下的铁球会越滚越快，以至于到了山底停不下来。我们希望算法更加聪明一些，可以在到达底部之前就自己刹车。
利用主题下降方向提供的先见之明，预判自己下一步的位置，并到预判位置计算梯度。
$v_t=\gamma v_{t-1}+\delta {\nabla \theta} J(\theta – v_{t-1})$ $\theta= \theta -v_{t}$

Adagrad(自动调整学习率，适用于稀疏数据)
梯度下降法在每一步对每一个参数使用同样的学习率，这种一刀切的做法不能有效地利用每一个数据及自身的特点。
Adagrad是一种自动调整学习率的方法

随着模型的训练，学习率自动衰减
对于更新频繁的参数，采取较小的学习率
对于更新不频繁的参数，采取较大的学习率
为了实现对于更新频繁的参数使用较小的学习率，Adagrad对每个参数历史上的每次更新进行叠加，并以此来做下一次更新的惩罚系数。

梯度： $g_{t,i}=\nabla \theta J(\theta_i)$
梯度历史矩阵： $G_t$ 对角矩阵，其中 $G_{t,ii}=\sum_{k} g_{k,i}^2$
参数更新： $\theta_{t+1,i} =\theta_{t,i} – \dfrac{\delta}{ \sqrt{G_{t,ii}+\varepsilon}}g_{t,i}$

Adadelta（Adagrad的改进算法）
Adagrad的一个问题在于随着训练的进行，学习率快速单调衰减。
Adadelta 则使用梯度平方的移动平均来取代全部历史平方和。
定义移动平方： $E[g^2]_t=\gamma E[g^2]_{t-1}+(1-\gamma)g_t^2$
于是就得到参数更新法则：
$\theta_{t+1,i}=\theta_{t,i}- \dfrac{\delta}{ \sqrt{E[g^2]_{t,ii}+\varepsilon}}g_{t,i}$
由于梯度与参数的单位不匹配。
Adadelta使用参数更新的移动平均来取代学习率 $\delta$ ,于是参数的更新法则：
$\theta_{t+1,i}=\theta_{t,i}- \dfrac{\sqrt{E[\Delta\theta]_{t-1}}}{ \sqrt{E[g^2]_{t,ii}+\varepsilon}}g_{t,i}$

Adam(结合了动量法和Adamdelta算法)
如果把Adadelta里面梯度的平方和看成是梯度的二阶矩，那么梯度自身的求和就是一阶矩。Adam算法在Adadelta的二阶矩基础上又引入了1一阶矩。
而一阶矩，其实就类似于动量法里面的动量。
$m_t = \beta_1 m_{t-1}+(1-\beta_1)g_t$ $v_t = \beta_2 v_{t-1}+(1-\beta_2)g_t^2$