从几何角度解析线性回归模型，并进行参数估计

本文我们将从样本角度和特征角度进行线性回归的几何解析，并进行参数估计。

样本角度就是我们最初的常规理解，利用最小二乘估计进行参数估计（计算量较大）。
特征空间角度则可以在理解的基础上，快速得到模型解析解，完成参数估计（开拓思路，不妨一看哦）。

1. 线性回归模型-数据介绍

线性回归定义：对回归问题，构建线性模型拟合，并进行参数估计。
数据集 $Data=\left\{(x_1,y_1),(x_2,y_2), ... ,(x_N,y_N)\right\}$

其中，X是N行p列的矩阵，共有N个样本，p个特征。 $x_i \in R^p, (i=1,2,...,N)$ , $x_i$ 为p维向量，X的矩阵表示如下:

$X=(x_1,x_2,...x_N)^T={\left [ \begin{matrix} x_{11} & x_{12} & ... &x_{1p} \\ x_{21} & x_{22} & ... &x_{2p} \\ ... & ... & ... &... \\ x_{N1} & x_{N2} & ... &x_{Np} \end{matrix}\right ]}_{N*p}$

Y是N行1列的矩阵，共有N个样本。 $y_i \in R,(i=1,2,...,N)$ ，Y的矩阵表示如下：
$Y={\left [ \begin{matrix} y_1\\ y_2 \\ ... \\ y_N \end{matrix}\right ]}_{N*1}$

2. 几何角度解析回归模型-样本角度

2.1 几何分析（样本角度）

如下图所示，每个红色的点表示一个原始样本，蓝色的直线为拟合的线性模型，黑色箭头表示每个样本点实际值和预测值之间的距离。

目标：所有样本点的实际值和预测值之间距离的总和最小。
模型： $f(x)=w^Tx$ ，求w。
损失函数： $L(w)=\sum_{i=1}^{n}||w^Tx_i-y_i||_2$
核心思想：最小化预测误差
参数估计方法：最小二乘估计，或最大似然估计，或最大后验估计

2.2 参数估计

本节详细介绍，使用最小二乘法估计的具体步骤，如下：
$L(w)=\sum_{i=1}^{n}||w^Tx_i-y_i||_2=\sum_{i=1}^{n}{(w^Tx_i-y_i)}^2\\(写成矩阵形式)= \left[ \begin{matrix} w^Tx_1-y_1 & w^Tx_2-y_2 & ... & w^Tx_N-y_N \end{matrix}\right ] \left [ \begin{matrix} w^Tx_1-y_1\\ w^Tx_2-y_2 \\ ... \\ w^Tx_N-y_N \end{matrix}\right ]$
$A=\left[ \begin{matrix} w^Tx_1-y_1 & w^Tx_2-y_2 & ... & w^Tx_N-y_N \end{matrix}\right ]\\= \left[ \begin{matrix} w^Tx_1 & w^Tx_2 & ... &w^Tx_N \end{matrix}\right ]- \left[ \begin{matrix} y_1 & y_2 & ... &y_N \end{matrix}\right ]\\=w^T \left[ \begin{matrix} x_1 & x_2 & ... &x_N \end{matrix}\right ]- \left[ \begin{matrix} y_1 & y_2 & ... &y_N \end{matrix}\right ]\\= w^TX^T-Y^T$
$B=A^T=Xw-Y$