牛顿法求函数零点和极值点

文章目录

牛顿法求解函数零点

基本思想

设有一个连续可导函数 $y = f (x)$ ，为了求解方程 $f (x) = 0$ ，可采用这样的方法来近似求解，因为 $f (x)$ 在 $x = x_0$ 处的泰勒展开式为：
$f(x_0) +f^{\prime}(x_0)(x-x_0)+\frac{f^{\prime\prime}(x_0)(x-x_0)^2}{2!} +...+\frac{f^{(n)}(x_0)(x-x_0)^n}{n!}+o((x-x_0)^n)$
考虑到一次方程容易解，而二次以及以上高次方程不一定有解，取泰勒展开式的线性部分来近似 $f (x)$ 有：
$f(x)=f(x_0) +f^{\prime}(x_0)(x-x_0)$
若 $f^{\prime}(x_0)$ 不等于0，将 $f (x) = 0$ 代入上式可得：
$x_1 = x_0 - \frac{f(x_0)}{f^{\prime}(x_0)}$
称 $x_1$ 是方程 $f (x) = 0$ 的一次近似根，由此得到一个n次迭代式：
$x_{n+1}=x_n-\frac{f(x_n)}{f^{\prime}(x_n)} \tag{1}$
利用 $(1)$ 求解时，先对方程 $f (x) = 0$ 的根猜一个初始的估计值 $x_0$ ,可以证明如果 $f (x)$ 是连续的，并且待求的零点是孤立的，那么在零点周围存在一个区域，只要初始猜测值 $x_0$ 位于这个邻近区域内，进行多次迭代后那么牛顿法必定收敛。

形象理解

图片来源：https://magi003769.github.io
如上图所示，过 $x_0, f(x_0))$ 做 $f (x)$ 的切线，切线与 $x$ 轴交点为 $x_1$ , 过 $x_1, f(x_1))$ 继续做 $f (x)$ 的切线，与 $x$ 轴交点为 $x_2$ …不断迭代， $x_n$ 的值将趋近于方程 $f (x) = 0$ 的根。

牛顿法求解函数极值点

一维情况

对于 $f (x)$ 的泰勒展开式，若取到二次项来近似，则：
$f(x_0) +f^{\prime}(x_0)(x-x_0)+\frac{f^{\prime\prime}(x_0)(x-x_0)^2}{2!}$
两边对 $x$ 求导，有：
$f^{\prime}(x) = f^{\prime}(x_0) + f^{\prime\prime}(x_0)(x-x_0)$
函数 $f (x)$ 的极值点满足 $f^{\prime}(x) = 0$ ,代入上式中，有：
$x_1=x_0 - \frac{ f^{\prime}(x_0)}{f^{\prime\prime}(x_0)}$
由此可以得到一个求解方程 $f^\prime(x)=0$ 的迭代式：
$x_{n+1}=x_n - \frac{ f^{\prime}(x_n)}{f^{\prime\prime}(x_n)} \tag{2}$

高维情况

上述描述的是自变量 $x$ 是一维的情况，当 $x$ 是一个多维向量时，同样有：
$x_{n+1} = x_{n} - H^{-1}(x_n)\nabla{f(x_n)} \tag{3}$
其中 $\nabla{f(x_n)}$ 是 $f (x)$ 在 $x_n$ 处的梯度， $H(x_n)$ 是 $f (x)$ 在 $x_n$ 处的海森矩阵(高维函数的二阶导)。
当然，为了在迭代的时候使选取的 $x_n$ 落在导数为0的点附近，记 $d=H^{-1}(x_n)\nabla{f(x_n)}$
给 $d$ 加一个类似于学习率的系数 $\gamma$ 有：
$x_{n+1} = x_n-\gamma d \tag{4}$
每次迭代时需要选择合适的 $\gamma$ 。

求极值点时与梯度下降法比较

相同点

和梯度下降法一样，牛顿法寻找的也是导数为0的点，这不一定是极值点，因此会面临局部极小值和鞍点问题。

不同点

与梯度下降法相比，牛顿法求解函数极值点时需要求解海森矩阵的逆矩阵，当 $x$ 的维度较高时，这个计算过程会很费时，不如梯度下降法快。

Reference

牛顿法
 理解牛顿法

原文链接：https://blog.csdn.net/sinat_29244519/article/details/101872198