1.最小二乘法作用

最小二乘法是拟合超定线形方程的一中使用广泛的方法，以下介绍其推导过程。

模型假设及推导

设存在n个特征组成的向量 $x=\left[ x_0,x_1,x_2,...,x_n \right]$ ，并且有训练集 $D=\left( x^{\left( i \right)},y^{\left( i \right)} \right) ,i=1,2,...,m$ 。
现如今，把 $D$ 带入 $x$ 中，得到 $\times(n+1)$ 的输入矩阵：
$X=\left( \begin{matrix}{} x_{0}^{\left( 1 \right)}& x_{1}^{\left( 1 \right)}& ...& x_{n}^{\left( 1 \right)}\\ x_{0}^{\left( 2 \right)}& x_{1}^{\left( 2 \right)}& ...& x_{n}^{\left( 2 \right)}\\ ...& ...& ...& ...\\ x_{0}^{\left( m \right)}& x_{1}^{\left( m \right)}& ...& x_{n}^{\left( m \right)}\\ \end{matrix} \right)$
以及输出矩阵：
$Y=\left[ y^{\left( 1 \right)},y^2,...,y^{\left( m \right)} \right] ^T$

现设线形拟合函数为 $h_W\left( X \right) =XW^T$

其中， $W$ 为权重向量，其组成为： $W=\left[ w_1,w_2,...,w_n \right]$ ，这也是所求的目标量。

根据经验风险最小原则：
$\min \left( J\left( W \right) \right) =\min \left( \frac{1}{2m}\sum_{i=1}^m{\left( Y^{\left( i \right)}-X^{\left( i \right)}W^T \right) ^2} \right)$

上式中，
损失函数同样可以表达为：
$J\left( W \right) =\frac{1}{2m}\left( XW^T-Y \right) ^T\left( XW^T-Y \right) =\frac{1}{2m}||XW^T-Y||^2$
正好是求 $J\left( W \right)$ 二范数的最小值。

损失函数求导

对于损失函数的最小值的求法，在这通过求其极值点即可（损失函数最高次是二次）。
以下为详细描述求导过程：
$\frac{\partial J\left( W \right)}{\partial w_j}=\frac{1}{2m}\sum_{i=1}^m{\frac{\partial}{\partial w_j}\left( \left( Y^{\left( i \right)}-X^{\left( i \right)}W^T \right) ^2 \right)}=\frac{1}{m}\sum_{i=1}^m{X_{j}^{\left( i \right)}\left( Y^{\left( i \right)}-X^{\left( i \right)}W^T \right)}$
而：
$\frac{\partial J\left( W \right)}{\partial W}=\left[ \frac{\partial J\left( W \right)}{\partial w_0},\frac{\partial J\left( W \right)}{\partial w_1},...,\frac{\partial J\left( W \right)}{\partial w_n} \right] ^T$
因此得：
$\frac{\partial J\left( W \right)}{\partial W}=\frac{1}{m}X^T\left( XW^T-Y \right)$

使 $\frac{\partial J\left( W \right)}{\partial W}=0$ ，得到最优参数 $W^*$ ：
$W^*=\left( X^TX \right) ^{-1}X^TY$
从而得到拟合线 $h_{W^*}\left( X \right)$ 。

岭回归(Ridge Regression)

对于最小二乘法，使用的基本条件是要求各个特征间要相互独立，保证 $X^TX$ 可逆；并且，当特征间有较大的多重共线性，也会使得 $X^TX$ 计算结果不准确。

在此，Hoerl 提出了岭回归理论，给 $X^TX$ 对角线元素都添加一个超参数 $\lambda>0$ (常数)，从而使得矩阵 $X^TX$ 满秩，由此得到最优结果：
$W^*=\left( X^TX+\lambda I \right) ^{-1}X^TY$
该方法主要用于解决 $X^TX$ 矩阵为病态情况。

梯度下降法与最小二乘法关系

在之前关于梯度下降的文章(https://blog.csdn.net/qq_37279306/article/details/105630512)中，通过不断迭代 $W$ ,从而达到满足精度的权值 $W$ ，实质上是让 $J\left( W \right)$ 趋于0。
对于最小二乘法，这个过程相当于加上强制的条件使得 $J\left( W \right)=0$ ，从而得到最完美的结果 (损失函数最小值理论解)，然而，当样本的数量比较大的时候，矩阵的求解难度会非常大，甚至有点时候无法求解。一般对于较大的矩阵，通过主成分分析可以降低特征的维度，之后再用最小二乘法会在一定程度上降低计算难度。

因此，在求这类模型及损失函数时，梯度下降法更为常用。

参考文献

https://baike.sogou.com/v200960.htm
fromTitle=%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%98%E6%B3%95

https://baike.sogou.com/v305550.htm?fromTitle=%E5%B2%AD%E5%9B%9E%E5%BD%92

原文链接：https://blog.csdn.net/qq_37279306/article/details/105651482