最优化学习笔记（四）——最速下降法

一、最速下降法的理念

最速下降法是梯度方法的一种实现，它的理念是在每次的迭代过程中，选取一个合适的步长 $\alpha_k$ ，使得目标函数的值能够最大程度的减小。 $\alpha_k$ 可以认为是函数 $\phi_k(\alpha) = f(x^{(k)}-\alpha \nabla f(x^{(k)}))$ 的极小值点：

α k = a r g min f (x (k) - α \nabla f (x (k))), α \geq 0

$\alpha_k = arg \min f(x^{(k)}-\alpha \nabla f(x^{(k)})), \alpha \ge 0$

由梯度迭代公式可知： $x^{(k+1)} = x^{(k)}-\alpha \nabla f(x^{(k)})$ , 上式的解释是找到最优的迭代点 $x^{(k+1)}$ , 使得函数 $f(x)$ 取得极小值时，求出步长 $\alpha_k$ 。
概述最速下降法的过程：在每一步的迭代中，从点 $x^{(k)}$ 出发，沿着梯度的负方向（求极小值点）展开一维搜索，直到找到步长最优值，确定新的迭代点 $x^{(k+1)}$ 。 最速下降法的相邻搜索方向都是正交的。

二、最速下降法的两个命题和停止条件

2.1 最速下降法的两个命题

命题1 利用最速下降法搜索函数 $f: \mathbb {R^2} \to \mathbb {R}$ 的极小值点，迭代过程产生的序列为 $\{x^{(k)}\}_{k=0}^\infty$ , 那么， $x^{(k+1)}-x^{(k)}$ 与 $x^{(k+2)} - x^{(k+1)}$ 正交对所有 $k \ge 0$ 都成立。

命题2 利用最速下降法搜索函数 $f: \mathbb {R^n} \to \mathbb {R}$ 的极小值点，迭代过程产生的序列为 $\{x^{(k)}\}_{k=0}^\infty$ , 如果 $\nabla f(x^{(k)}) \ne 0$ ，那么 $f(x^{(k+1)}) < f(x^{(k)})$ 。

命题1说明在迭代过程中，没产生一个新点，对应的目标函数值都会下降。命题2说明了最速下降法的下降特性：只要 $\nabla f(x^{(k)}) \ne 0$ ，就有 $f(x^{(k+1)}) < f(x^{(k)})$ 。对于某个 $k$ , 如果 $\nabla f(x^{(k)}) = 0$ ，说明 $x^{(k)}$ 满足局部极小点的一阶必要条件，此时 $x^{(k+1)} = x^{(k)}$ ,这可以作为停止规则的基础。

2.2 几种停止规则

在实际中，采用数值计算的方法很难恰好得到梯度为0的结果，因此以梯度为0作为停止规则很不恰当。以下, $\epsilon > 0$

1. $|f(x^{(k+1)})-f(x^{(k)})| < \epsilon$

2. $||x^{(k+1)}-x^{(k)}|| < \epsilon$

3. $\frac{|f(x^{(k+1)})-f(x^{(k)})| }{|f(x^{(k)})|} < \epsilon$

4. $\frac{||x^{(k+1)}-x^{(k)}|| }{||x^{(k)}||}< \epsilon$

5. $\frac{|f(x^{(k+1)})-f(x^{(k)})| }{\max \{1,|f(x^{(k)})|\}} < \epsilon$

6. $\frac{||x^{(k+1)}-x^{(k)}|| }{\max \{1,||x^{(k)}||\}}< \epsilon$

上边的3,4式为1,2式的相对值，而5,6式是为了避免3,4式中的分母过小进行的修改。

三、二次型中最速下降法的应用

f (x) = 1 2 x T Q x - b T x

$f( \boldsymbol{x}) = \frac{1}{2}\boldsymbol{x}^T\boldsymbol{Qx}-\boldsymbol{b}^T\boldsymbol{x}$
其中， $\boldsymbol{Q}为对称正定矩阵（假设）， \boldsymbol{b} \in \mathbb{R^n}, \boldsymbol{x} \in \mathbb{R^n},$ 故有：

\nabla f (x) = Q x - b

$\nabla f( \boldsymbol{x}) = \boldsymbol{Qx-b}$
令:

g (k) = \nabla f (x (k)) = Q x (k) - b

$g^{(k)} = \nabla f( \boldsymbol{x^{(k)}}) = \boldsymbol{Qx^{(k)}-b}$
则，最速下降法的迭代公式：

x (k + 1) = x (k) - α k g (k)

$\boldsymbol{x^{(k+1)}} = \boldsymbol{x^{(k)}} - \alpha_k g^{(k)}$
其中，

α k = a r g min α \geq 0 f (x (k) - α g (k)) ϕ k (α) = f (x (k) - α g (k))

$\alpha_k = arg \min_{\alpha \ge 0 } f(x^{(k)}-\alpha g^{(k)}) \\ \phi_k(\alpha) = f(x^{(k)}-\alpha g^{(k)})$
当目标函数是二次型函数时，可以确定 $x^{(k)}$ 处的步长 $\alpha_k$ 的解析式。当 $g^{(k)} = 0$ 时，迭代停止，当 $g^{(k)} \ne 0$ 时，利用局部极小点的一阶必要条件可得：

ϕ' k (α) = (x (k) - α g (k)) T Q (- g (k)) - b T (- g (k))

$\phi_k'(\alpha) = (\boldsymbol{x}^{(k)}- \alpha g^{(k)})^T\boldsymbol{Q}(-g^{(k)})- \boldsymbol{b}^T(-g^{(k)})$
$\phi_k'(\alpha)=0$ 时， $\alpha g^{(k)T}\boldsymbol{Q}g^{(k)}=(\boldsymbol{x}^{(k)T}Q-\boldsymbol{b}^T)g^{(k)}$ ,因为 $\boldsymbol{Q}$ 对称， $\boldsymbol{Q} = \boldsymbol{Q}^T$ ,得：

x (k) T Q - b T = g (k) T

$\boldsymbol{x}^{(k)T}Q-\boldsymbol{b}^T = g^{(k)T}$
所以：

α k = g ( k ) T g ( k ) g ( k ) T Q g ( k )

$\alpha_k = \frac{g^{(k)T}g^{(k)}}{g^{(k)T}\boldsymbol{Q}g^{(k)}}$
所以，目标函数为二次型函数时，最速下降法的迭代公式为：

x (k + 1) = x (k) - g ( k ) T g ( k ) g ( k ) T Q g ( k ) g (k)

$x^{(k+1)} = x^{(k)}-\frac{g^{(k)T}g^{(k)}}{g^{(k)T}\boldsymbol{Q}g^{(k)}}g{(k)}$
其中，

g (k) = \nabla f (x (k)) = Q x (k) - b

$g^{(k)} = \nabla f( \boldsymbol{x^{(k)}}) = \boldsymbol{Qx^{(k)}-b}$

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/229614.html原文链接：https://javaforall.net

最优化学习笔记（四）——最速下降法

一、最速下降法的理念

二、最速下降法的两个命题和停止条件

2.1 最速下降法的两个命题

2.2 几种停止规则

三、二次型中最速下降法的应用

关于作者

全栈程序员-站长

发表回复

最优化学习笔记（四）——最速下降法

一、最速下降法的理念

二、最速下降法的两个命题和停止条件

2.1 最速下降法的两个命题

2.2 几种停止规则

三、二次型中最速下降法的应用

关于作者

全栈程序员-站长

相关推荐

UDP攻击是什么呢

Intellij IDEA 2021 Maven 配置指南「建议收藏」

今天在 AGI Bar，与智谱核心研发面对面

静态vlan的配置方式_实例方法与静态方法的区别

InnoDB学习之死锁[通俗易懂]

在Eclipse中怎样公布创建的JavaWebproject

发表回复