线性回归之最小二乘法(Least Squares)推导

假设 $n - 1$ 维空间变量点为 $\vec{x}= (x_1, x_2, \cdots, x_{n-1})^T$ , 并假设有 $m$ 个这样的样本点记为 $\vec{x}^{(1)}, \vec{x}^{(2)}, \cdots ,\vec{x}^{(m)}$ ，我们希望找到一个这样的超平面，来使得尽可能的拟合这些样本点，形式化表示等价于我们希望找到这样的系数 $\vec{w}$ 和 $b$ 使得 ${\vec{w}}^T\vec{x}+b \approx y$ ，为了简化上述表达式，我们将 $\vec{w}$ 和 $b$ 放到一起简记为 $({\vec{w}}^T,b) = {\vec{w}}^T$ ，并令 $\vec{x}^{(i)}_{n} = 1$ ，于是上述表达式等价于找到 $\vec{w}$ 使得 ${\vec{w}}^T\vec{x}\approx y$

我们记样本点集为矩阵 $X$ ，则有 $\begin{pmatrix} {\vec{x}^{(1)}}^{T} \\ {\vec{x}^{(2)}}^{T} \\ \vdots \\ {\vec{x}^{(m)}}^{T} \end{pmatrix} = \begin{pmatrix} x_1^{(1)} & x_2^{(1)} & \cdots & x_n^{(1)}\\ x_1^{(2)} & x_2^{(2)} & \cdots & x_n^{(2)}\\ \vdots & \vdots & \ddots & \vdots \\ x_1^{(m)} & x_2^{(m)} & \cdots & x_n^{(m)}\\ \end{pmatrix}$

于是上述表述等价于找到 $\vec{w}$ 使得 $X\vec{w} \approx \vec{y}$ .

考虑这样的一个特殊情形：假设所有的样本点正好在一个超平面，且样本点所张成的空间( $Span\ Space$ )为该 $n$ 维空间，意味着 $\ge n$ 且 $r a n k (X) = n$
此时方程 $X\vec{w} = \vec{y}$ 恰好有唯一解(即为该超平面) ,推导如下: $X\vec{w} = \vec{y} \Leftrightarrow X^TX\vec{w}=X^T\vec{y} \Leftrightarrow \vec{w} = (X^TX)^{-1}X^T\vec{y}$

(注：因为 $X$ 为列满秩，所以 $rank(X^TX)= rank(X) = n$ ，即 $X^TX$ 为可逆方阵)

而对于一般情形，所有的样本点一般不会在同一个超平面中，所以方程 $X\vec{w} = \vec{y}$ 此时是无解的，这个方程组也称之为超定方程组( $Overdetermined\ System$ )，即方程数量超过未知数个数，此时我们希望找到一个超平面使得 $X\vec{w} \approx \vec{y}$ 且误差 $\Vert X\vec{w} - \vec{y}\Vert$ 尽可能的小（这里符号 $\Vert\ \Vert$ 为 $L_2$ 范数，利用度量欧几里得距离来衡量误差大小是比较符合常识的，这也是least square的由来）。形式化表达等价于 $\vec{\hat{{w}}} = \arg\min_{\vec{w}}\Vert X\vec{w} - \vec{y}\Vert$

为了便于计算，我们不妨令 $\vec{\hat{{w}}} = \arg\min_{\vec{w}}\Vert X\vec{w} - \vec{y}\Vert = {\arg\min_{\vec{w}}\Vert X\vec{w} - \vec{y}\Vert}^2$

且令 $L(w_1,w_2,\cdots,w_n)={\Vert X\vec{w} - \vec{y}\Vert}^2$

仍不妨假设此时 $X$ 是列满秩的
上述问题转化为了求极值问题，我们很自然的想到了利用导数来寻找极值。
于是对 $w_i$ 求偏导且令其为零 $\frac{\partial{L}}{\partial{w_i}}=2(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(m)})(X\vec{w}-\vec{y})=0$

于是 $(\frac{\partial{L}}{\partial{w_1}}, \frac{\partial{L}}{\partial{w_2}}, \cdots,\frac{\partial{L}}{\partial{w_n}})^T=\vec{0}^T \Leftrightarrow 2X^T(X\vec{w}-\vec{y})=\vec{0} \Leftrightarrow X^TX\vec{w}-X^T\vec{y}=\vec{0}$

即推出 $\vec{w}=(X^TX)^{-1}X^T \vec{y}$

上述就是众所周知的线性最小二乘法的基本思想
然而，这里会有两个问题
(1) 为什么在这个情况下我们找到的是极小值？
(2) 为什么这个极小值就是我们需要的最小值？

原文链接：https://blog.csdn.net/qq_27576655/article/details/82218489