从几何角度解析线性回归模型,并进行参数估计

本文我们将从样本角度特征角度进行线性回归的几何解析,并进行参数估计。

  1. 样本角度就是我们最初的常规理解,利用最小二乘估计进行参数估计(计算量较大)。
  2. 特征空间角度则可以在理解的基础上,快速得到模型解析解,完成参数估计(开拓思路,不妨一看哦)。

1. 线性回归模型-数据介绍

线性回归定义:对回归问题,构建线性模型拟合,并进行参数估计。
数据集D a t a = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } Data=\left\{(x_1,y_1),(x_2,y_2), ... ,(x_N,y_N)\right\}Data={(x1,y1),(x2,y2),...,(xN,yN)}

其中,X是N行p列的矩阵,共有N个样本,p个特征。x i ∈ R p , ( i = 1 , 2 , . . . , N ) x_i \in R^p, (i=1,2,...,N)xiRp,(i=1,2,...,N) , x i x_ixi为p维向量,X的矩阵表示如下:

X = ( x 1 , x 2 , . . . x N ) T = [ x 11 x 12 . . . x 1 p x 21 x 22 . . . x 2 p . . . . . . . . . . . . x N 1 x N 2 . . . x N p ] N ∗ p X=(x_1,x_2,...x_N)^T={\left [ \begin{matrix} x_{11} & x_{12} & ... &x_{1p} \\ x_{21} & x_{22} & ... &x_{2p} \\ ... & ... & ... &... \\ x_{N1} & x_{N2} & ... &x_{Np} \end{matrix}\right ]}_{N*p}X=(x1,x2,...xN)T=x11x21...xN1x12x22...xN2............x1px2p...xNpNp

Y是N行1列的矩阵,共有N个样本。y i ∈ R , ( i = 1 , 2 , . . . , N ) y_i \in R,(i=1,2,...,N)yiR,(i=1,2,...,N)Y的矩阵表示如下:
Y = [ y 1 y 2 . . . y N ] N ∗ 1 Y={\left [ \begin{matrix} y_1\\ y_2 \\ ... \\ y_N \end{matrix}\right ]}_{N*1}Y=y1y2...yNN1

2. 几何角度解析回归模型-样本角度

2.1 几何分析(样本角度)

如下图所示,每个红色的点表示一个原始样本,蓝色的直线为拟合的线性模型,黑色箭头表示每个样本点实际值预测值之间的距离

  • 目标:所有样本点的实际值和预测值之间距离的总和最小。
  • 模型:f ( x ) = w T x f(x)=w^Txf(x)=wTx,求w。
  • 损失函数:L ( w ) = ∑ i = 1 n ∣ ∣ w T x i − y i ∣ ∣ 2 L(w)=\sum_{i=1}^{n}||w^Tx_i-y_i||_2L(w)=i=1nwTxiyi2
  • 核心思想:最小化预测误差
  • 参数估计方法:最小二乘估计,或最大似然估计,或最大后验估计
2.2 参数估计

本节详细介绍,使用最小二乘法估计的具体步骤,如下:
L ( w ) = ∑ i = 1 n ∣ ∣ w T x i − y i ∣ ∣ 2 = ∑ i = 1 n ( w T x i − y i ) 2 ( 写 成 矩 阵 形 式 ) = [ w T x 1 − y 1 w T x 2 − y 2 . . . w T x N − y N ] [ w T x 1 − y 1 w T x 2 − y 2 . . . w T x N − y N ] L(w)=\sum_{i=1}^{n}||w^Tx_i-y_i||_2=\sum_{i=1}^{n}{(w^Tx_i-y_i)}^2\\(写成矩阵形式)= \left[ \begin{matrix} w^Tx_1-y_1 & w^Tx_2-y_2 & ... & w^Tx_N-y_N \end{matrix}\right ] \left [ \begin{matrix} w^Tx_1-y_1\\ w^Tx_2-y_2 \\ ... \\ w^Tx_N-y_N \end{matrix}\right ]L(w)=i=1nwTxiyi2=i=1n(wTxiyi)2()=[wTx1y1wTx2y2...wTxNyN]wTx1y1wTx2y2...wTxNyN
A = [ w T x 1 − y 1 w T x 2 − y 2 . . . w T x N − y N ] = [ w T x 1 w T x 2 . . . w T x N ] − [ y 1 y 2 . . . y N ] = w T [ x 1 x 2 . . . x N ] − [ y 1 y 2 . . . y N ] = w T X T − Y T A=\left[ \begin{matrix} w^Tx_1-y_1 & w^Tx_2-y_2 & ... & w^Tx_N-y_N \end{matrix}\right ]\\= \left[ \begin{matrix} w^Tx_1 & w^Tx_2 & ... &w^Tx_N \end{matrix}\right ]- \left[ \begin{matrix} y_1 & y_2 & ... &y_N \end{matrix}\right ]\\=w^T \left[ \begin{matrix} x_1 & x_2 & ... &x_N \end{matrix}\right ]- \left[ \begin{matrix} y_1 & y_2 & ... &y_N \end{matrix}\right ]\\= w^TX^T-Y^TA=[wTx1y1wTx2y2...wTxNyN]=[wTx1wTx2...wTxN][y1y2...yN]=wT[x1x2...xN][y1y2...yN]=wTXTYT
B = A T = X w − Y B=A^T=Xw-YB=AT=XwY

固有:L ( w ) = A B = ( w T X T − Y T ) ( X w − Y ) = w T X T x w − 2 w T X T Y + Y T Y L(w)=AB=(w^TX^T-Y^T)(Xw-Y)\\=w^TX^Txw-2w^TX^TY+Y^TYL(w)=AB=(wTXTYT)(XwY)=wTXTxw2wTXTY+YTY

参数估计w − = a r g m i n L ( w ) w^-=argminL(w)w=argminL(w),进一步对L ( w ) L(w)L(w)求偏导,得到:

∂ L ( w ) ∂ w = 2 X T X w − 2 X T Y = 0 \frac{\partial L(w)}{\partial w}=2X^TXw-2X^TY=0wL(w)=2XTXw2XTY=0

得到线性回归的解析解w = ( X T X ) − 1 X T Y w=(X^TX)^{-1}X^TYw=(XTX)1XTY

3. 几何角度解析回归模型-特征角度

3.1 几何分析(特征空间角度)

同样的数据和模型,我们第2节的角度:使得所有样本预测值和实际值距离总和最小,这一节我们从特征空间角度给出解析。如下为X的矩阵表达,我们一列一列来看,每一列表示一个特征,分别记为x 1 , x 2 , . . . x p x_1,x_2,...x_px1,x2,...xp,p维特征向量共同构成了特征空间。

  • 模型改写:f ( x ) = w T x = x T β f(x)=w^Tx=x^T\betaf(x)=wTx=xTβ,求β \betaβ
  • 核心思想:找到p维空间中距离y最近的直线。

如下图所示,假设特征空间有两个向量:x 1 x_1x1x 2 x_2x2,一个预测向量:Y,x T β x^T\betaxTβ为模型的解,在图中x β x\betaxβ为向量Y在特征空间的投影,红色的虚线为x β x\betaxβ的法向量,该法向量垂直于p维空间的每一维。

  • 法向量的向量表示:Y − x β Y-x\betaYxβ
  • 法向量垂直于p维特征空间x T x^TxTx T ( Y − x β ) = 0 x^T(Y-x\beta)=0xT(Yxβ)=0
  • 参数估计方法:解x T ( Y − x β ) = 0 x^T(Y-x\beta)=0xT(Yxβ)=0即可。
3.2 参数估计

3.1节中根据法向量垂直于p维特征空间x T x^TxT,得到方程:
x T ( Y − x β ) = 0 x^T(Y-x\beta)=0xT(Yxβ)=0求解得到:β = ( X T X ) − 1 X T Y \beta=(X^TX)^{-1}X^TYβ=(XTX)1XTY,与最小二乘估计得到的解一样。


版权声明:本文为weixin_41938903原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。