概念

简单的说，线性回归代表基于某些特征 X （自变量）和预测变量 y（因变量）的线性关系。
公式如下：
$y^{(i)} = w_0 x_0^{(i)} + w_1 x_1^{(i)} + w_2 x_2^{(i)} + … + w_n x_n^{(i)}$ ；其中 $x_0^{(i)}=1$ (公式1_1)
即：
$h_w(x^{(i)}) = y^{(i)} = \displaystyle\sum_{j=1}^{n}w_jx_j^{(i)}$ ；(公式1_2)
其中 w 代表每一个特征的权重，
$x^{(i)}$ 代表每一个特征的值。
$i$ 代表每一个样本

也可以用矩阵的方式表达:
$h_W(X) = y = X∙ W^T$ ； (公式2)
其中 X 代表 m 个样本，每个样本包含 n 个特征值，即 m × n 的矩阵
W 代表 n 个特征值的权重，即 1 × n 的行向量
W.T 为 W 的转置，为 n × 1 的列向量
y 代表预测值，为 m × 1 的列向量

线性回归是一种监督学习，即已知特征 X 和标记 y 。由公式2可知，未知的是权重 W
即线性回归模型实际上是求解每个特征 X 的权重 W

求解

求解线性回归主要有两种方法：最小二乘法和最大似然估计。下面我们具体来看下。

最小二乘法

最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。
最小二乘法以估计值与观测值的平方和作为损失函数J(W) 。
有如下公式：
$\displaystyle\sum_{i=1}^{m} (y^{(i)} - y_p^{(i)})^2$ ； (公式3)
其中 y^{(i)} 是样本标记，为实际值
$y_p^{(i)},$ 为模型预测值

由公式1_2和公式3可得：
$\displaystyle\sum_{i=1}^{m} (y^{(i)} - h_w(x^{(i)}))^2$ ； (公式4)

为了方便表示，我们令 $θ = W^T$
用矩阵表示可得到如下公式并化简：
$J(θ) = (Xθ - y)^T(Xθ -y)$
$θ^TX^T - y^T)(Xθ -y)$
$θ^TX^TXθ - θ^TX^Ty - y^TXθ + y^Ty$ (公式5)

要想使得线性回归模型拟合数据的能力变强，就要是得损失函数变小。
即求得一个 θ 使得 J(θ) 最小，我们常用求驻点得方法得到 θ
关于向量、矩阵求导知识参见机器学习算法推导过程中的数学基础知识
公式5两边对 θ 求导：
$({θ^TX^TXθ})'-X^Ty-X^Ty$
$X^TXθ+X^TXθ-2X^Ty$
$2X^TXθ-2X^Ty$
令 $J (θ)^{'} = 0$
得 $X^TXθ=X^Ty$
若 $X^TX$ 可逆，则 $θ=(X^TX)^{-1}X^Ty$
若 $X^TX$ 不可逆，则需要加上一个干扰项使得 $X^TX+λI)$ 可逆，
从而求得 $θ=(X ^TX+λI)^{-1}X^Ty$

最大似然估计

最大似然估计是一个在已知观察结果（即样本）和给定概率分布模型的基础上，估计概率分布模型的参数，并使得在该参数下，生成这个已知样本的可能性最大的方法。
换句话说，最优的线性模型，其发生样本 X，y 的概率最大。
所以可以在预测值后加上一个误差 $ε^{(i)}$ ：
$y^{(i)} = h_w(x^{(i)}) - ε^{(i)}$ ；（公式6）
其中 $y^{(i)}$ ：某个样本的实际值。
$h_w(x^{(i)})$ ：使用模型预测出来的值
$ε^{(i)}$ ：误差
所有样本的误差是独立同分布的，服从均值为0，方差为某个定值的高斯分布（即正态分布）
举个简单的例子：
比如现在有A，B 两个口袋，
A口袋里面有9个白球，1个黑球。
B口袋里面有1个白球，9个黑球。
现在我从某一个口袋里面拿到了一个白球，那么你猜我是从哪个口袋拿的？
大部分人都会猜是从A口袋拿的，因为A口袋拿到白球的概率是90%，而B口袋只有10%

最大似然估计也是同一个道理，我们已知已经拿到了样本X，y的数据，那么我们是从哪个口袋拿出来的概率最大呢？这里的口袋就代表权重W

接下来我们从概率最大的角度来求解权重W
我们由公式6可得：
$ε^{(i)}=y^{(i)}- h_w(x^{(i)})$ ；（公式7）
又因为误差服从高斯分布，可得概率密度函数：
$p(ε^{(i)})=\frac{1}{σ\sqrt 2π}e^{(-\frac{(ε^{(i)})^2}{2σ^2})}$ ；（公式8）
联合公式7，8可得：
$p(y^{(i)}|h_w(x^{(i)})=\frac{1}{σ\sqrt 2π}e^{(-\frac{(y^{(i)}-h_w(x^{(i)})^2}{2σ^2})}$
此公式表示在给定模型 $h_w(x^{(i)})$ 的情况下，发生结果为实际值y的概率。
那么似然函数公式如下：
$L(h_w(x^{(i)}))=\displaystyle\prod_{i=1}^{m} p(y^{(i)}|h_w(x^{(i)})$
$=\displaystyle\prod_{i=1}^{m} \frac{1}{σ\sqrt 2π}e^{(-\frac{(y^{(i)}-h_w(x^{(i)})^2}{2σ^2})}$ ；（公式9）
对公式9两边取对数，不影响求该函数的驻点。得：
$ln(L(h_w(x^{(i)})))=ln(\displaystyle\prod_{i=1}^{m} p(y^{(i)}|h_w(x^{(i)}))$
$=\displaystyle\sum_{i=1}^{m}ln \frac{1}{σ\sqrt 2π}e^{(-\frac{(y^{(i)}-h_w(x^{(i)})^2}{2σ^2})}$
$\frac{1}{σ\sqrt 2π}-\frac{1}{2σ^2}\displaystyle\sum_{i=1}^{m}(y^{(i)}-h_w(x^{(i)})^2$ ；（公式10）
我们知道 $h_w(x^{(i)})$ 是关于权重W的函数，那么公式10也是一个关于权重W的函数
设为 $l (W)$ ，则有：
$\frac{1}{σ\sqrt 2π}-\frac{1}{2σ^2}\displaystyle\sum_{i=1}^{m}(y^{(i)}-h_w(x^{(i)})^2$
$\frac{1}{σ\sqrt 2π}$ 这是一个常数项，所以要想 $l (W)$ 最大，
只需 $\frac{1}{2σ^2}\displaystyle\sum_{i=1}^{m}(y^{(i)}-h_w(x^{(i)})^2$ 这个最小。去掉前面的常数系数，不影响求驻点。其实这个就是公式4最小二乘法。之后的求解过程同最小二乘法。

总结

细心的同学可以发现，可以通过最大似然估计来推导最小二乘法。
两种方法从两个角度出发都得到了同一个结果。
最大似然估计比较难理解，可以多学习下概率知识。

以上如有不对之处，还望指出。

原文链接：https://blog.csdn.net/lt793843439/article/details/91392646