本文我们将从样本角度和特征角度进行线性回归的几何解析,并进行参数估计。
- 样本角度就是我们最初的常规理解,利用最小二乘估计进行参数估计(计算量较大)。
- 特征空间角度则可以在理解的基础上,快速得到模型解析解,完成参数估计(开拓思路,不妨一看哦)。
1. 线性回归模型-数据介绍
线性回归定义:对回归问题,构建线性模型拟合,并进行参数估计。
数据集D a t a = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } Data=\left\{(x_1,y_1),(x_2,y_2), ... ,(x_N,y_N)\right\}Data={(x1,y1),(x2,y2),...,(xN,yN)}
其中,X是N行p列的矩阵,共有N个样本,p个特征。x i ∈ R p , ( i = 1 , 2 , . . . , N ) x_i \in R^p, (i=1,2,...,N)xi∈Rp,(i=1,2,...,N) , x i x_ixi为p维向量,X的矩阵表示如下:
X = ( x 1 , x 2 , . . . x N ) T = [ x 11 x 12 . . . x 1 p x 21 x 22 . . . x 2 p . . . . . . . . . . . . x N 1 x N 2 . . . x N p ] N ∗ p X=(x_1,x_2,...x_N)^T={\left [ \begin{matrix} x_{11} & x_{12} & ... &x_{1p} \\ x_{21} & x_{22} & ... &x_{2p} \\ ... & ... & ... &... \\ x_{N1} & x_{N2} & ... &x_{Np} \end{matrix}\right ]}_{N*p}X=(x1,x2,...xN)T=⎣⎢⎢⎡x11x21...xN1x12x22...xN2............x1px2p...xNp⎦⎥⎥⎤N∗p
Y是N行1列的矩阵,共有N个样本。y i ∈ R , ( i = 1 , 2 , . . . , N ) y_i \in R,(i=1,2,...,N)yi∈R,(i=1,2,...,N),Y的矩阵表示如下:
Y = [ y 1 y 2 . . . y N ] N ∗ 1 Y={\left [ \begin{matrix} y_1\\ y_2 \\ ... \\ y_N \end{matrix}\right ]}_{N*1}Y=⎣⎢⎢⎡y1y2...yN⎦⎥⎥⎤N∗1
2. 几何角度解析回归模型-样本角度
2.1 几何分析(样本角度)
如下图所示,每个红色的点表示一个原始样本,蓝色的直线为拟合的线性模型,黑色箭头表示每个样本点实际值和预测值之间的距离。

- 目标:所有样本点的实际值和预测值之间距离的总和最小。
- 模型:f ( x ) = w T x f(x)=w^Txf(x)=wTx,求w。
- 损失函数:L ( w ) = ∑ i = 1 n ∣ ∣ w T x i − y i ∣ ∣ 2 L(w)=\sum_{i=1}^{n}||w^Tx_i-y_i||_2L(w)=∑i=1n∣∣wTxi−yi∣∣2
- 核心思想:最小化预测误差
- 参数估计方法:最小二乘估计,或最大似然估计,或最大后验估计
2.2 参数估计
本节详细介绍,使用最小二乘法估计的具体步骤,如下:
L ( w ) = ∑ i = 1 n ∣ ∣ w T x i − y i ∣ ∣ 2 = ∑ i = 1 n ( w T x i − y i ) 2 ( 写 成 矩 阵 形 式 ) = [ w T x 1 − y 1 w T x 2 − y 2 . . . w T x N − y N ] [ w T x 1 − y 1 w T x 2 − y 2 . . . w T x N − y N ] L(w)=\sum_{i=1}^{n}||w^Tx_i-y_i||_2=\sum_{i=1}^{n}{(w^Tx_i-y_i)}^2\\(写成矩阵形式)= \left[ \begin{matrix} w^Tx_1-y_1 & w^Tx_2-y_2 & ... & w^Tx_N-y_N \end{matrix}\right ] \left [ \begin{matrix} w^Tx_1-y_1\\ w^Tx_2-y_2 \\ ... \\ w^Tx_N-y_N \end{matrix}\right ]L(w)=i=1∑n∣∣wTxi−yi∣∣2=i=1∑n(wTxi−yi)2(写成矩阵形式)=[wTx1−y1wTx2−y2...wTxN−yN]⎣⎢⎢⎡wTx1−y1wTx2−y2...wTxN−yN⎦⎥⎥⎤
A = [ w T x 1 − y 1 w T x 2 − y 2 . . . w T x N − y N ] = [ w T x 1 w T x 2 . . . w T x N ] − [ y 1 y 2 . . . y N ] = w T [ x 1 x 2 . . . x N ] − [ y 1 y 2 . . . y N ] = w T X T − Y T A=\left[ \begin{matrix} w^Tx_1-y_1 & w^Tx_2-y_2 & ... & w^Tx_N-y_N \end{matrix}\right ]\\= \left[ \begin{matrix} w^Tx_1 & w^Tx_2 & ... &w^Tx_N \end{matrix}\right ]- \left[ \begin{matrix} y_1 & y_2 & ... &y_N \end{matrix}\right ]\\=w^T \left[ \begin{matrix} x_1 & x_2 & ... &x_N \end{matrix}\right ]- \left[ \begin{matrix} y_1 & y_2 & ... &y_N \end{matrix}\right ]\\= w^TX^T-Y^TA=[wTx1−y1wTx2−y2...wTxN−yN]=[wTx1wTx2...wTxN]−[y1y2...yN]=wT[x1x2...xN]−[y1y2...yN]=wTXT−YT
B = A T = X w − Y B=A^T=Xw-YB=AT=Xw−Y
固有:L ( w ) = A B = ( w T X T − Y T ) ( X w − Y ) = w T X T x w − 2 w T X T Y + Y T Y L(w)=AB=(w^TX^T-Y^T)(Xw-Y)\\=w^TX^Txw-2w^TX^TY+Y^TYL(w)=AB=(wTXT−YT)(Xw−Y)=wTXTxw−2wTXTY+YTY
参数估计w − = a r g m i n L ( w ) w^-=argminL(w)w−=argminL(w),进一步对L ( w ) L(w)L(w)求偏导,得到:
∂ L ( w ) ∂ w = 2 X T X w − 2 X T Y = 0 \frac{\partial L(w)}{\partial w}=2X^TXw-2X^TY=0∂w∂L(w)=2XTXw−2XTY=0
得到线性回归的解析解:w = ( X T X ) − 1 X T Y w=(X^TX)^{-1}X^TYw=(XTX)−1XTY
3. 几何角度解析回归模型-特征角度
3.1 几何分析(特征空间角度)
同样的数据和模型,我们第2节的角度:使得所有样本预测值和实际值距离总和最小,这一节我们从特征空间角度给出解析。如下为X的矩阵表达,我们一列一列来看,每一列表示一个特征,分别记为x 1 , x 2 , . . . x p x_1,x_2,...x_px1,x2,...xp,p维特征向量共同构成了特征空间。

- 模型改写:f ( x ) = w T x = x T β f(x)=w^Tx=x^T\betaf(x)=wTx=xTβ,求β \betaβ。
- 核心思想:找到p维空间中距离y最近的直线。
如下图所示,假设特征空间有两个向量:x 1 x_1x1和x 2 x_2x2,一个预测向量:Y,x T β x^T\betaxTβ为模型的解,在图中x β x\betaxβ为向量Y在特征空间的投影,红色的虚线为x β x\betaxβ的法向量,该法向量垂直于p维空间的每一维。

- 法向量的向量表示:Y − x β Y-x\betaY−xβ。
- 法向量垂直于p维特征空间x T x^TxT:x T ( Y − x β ) = 0 x^T(Y-x\beta)=0xT(Y−xβ)=0。
- 参数估计方法:解x T ( Y − x β ) = 0 x^T(Y-x\beta)=0xT(Y−xβ)=0即可。
3.2 参数估计
3.1节中根据法向量垂直于p维特征空间x T x^TxT,得到方程:
x T ( Y − x β ) = 0 x^T(Y-x\beta)=0xT(Y−xβ)=0求解得到:β = ( X T X ) − 1 X T Y \beta=(X^TX)^{-1}X^TYβ=(XTX)−1XTY,与最小二乘估计得到的解一样。