简述一下线性回归流程：首先可以进行数据的预处理，包括但不限于：缺失值处理、线性相关的特征值处理、误差较大的脏数据处理。然后搭建一个线性回归模型，运用梯度下降或者正规方程法可以求出参数，这样模型就确定了。之后再用一些检测方法，评估模型是否合理并进行针对性的优化。
文中 $\hat{y}$ 为预测值， $y^{(i)}$ 为实际值， $x_{i}$ 表示第 $i$ 个变量（特征）， $x^{(i)}$ 表示第 $i$ 组数据（样本），同理 $x_{n}^{(m)}$ 表示第m个样本的第n个特征

来源

Lecture_01

本章视频

06_线性回归算法原理推导、07_线性回归参数的求解

一、线性回归算法原理推导

二、线性回归参数的求解（求函数最小值）

1.正规方程法

将目标函数（04）转化为矩阵形式可以简化推导过程，有利于代码实现： $J(\theta)=\frac{1}{2} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}=\frac{1}{2}(X \theta-Y)^{T}(X \theta-Y) （06）$ 其中 $\mathbf{X} = \left[\begin{array}{cccc}{x_{0}^{(1)}} & {x_{1}^{(1)}} & {\cdots} & {x_{n}^{(1)}} \\ {x_{0}^{(2)}} & {x_{1}^{(2)}} & {\cdots} & {x_{n}^{(2)}} \\ {\cdots} & {\cdots} & {\cdots} & {\cdots} \\ {x_{0}^{(m)}} & {x_{1}^{(m)}} & {\cdots} & {x_{n}^{(m)}}\end{array}\right] = \left[\begin{array}{cccc}{1} & {x_{1}^{(1)}} & {\cdots} & {x_{n}^{(1)}} \\ {1} & {x_{1}^{(2)}} & {\cdots} & {x_{n}^{(2)}} \\ {\cdots} & {\cdots} & {\cdots} & {\cdots} \\ {1} & {x_{1}^{(m)}} & {\cdots} & {x_{n}^{(m)}}\end{array}\right]$ ， $\theta=\left[\begin{array}{l}{\theta_{0}} \\ {\theta_{1}} \\ {\cdots} \\ {\theta_{n}}\end{array}\right]$ ， $Y=\left[\begin{array}{l}{y^{(1)}} \\ {y^{(2)}} \\{\cdots} \\ {y^{(m)}}\end{array}\right]$
现在问题转化为求目标函数的极小值点，只要令 $\frac{\mathrm{d} \mathrm{J}(\theta)}{\mathrm{d} \theta}$ =0即可解出 $\theta$ 的值，目标函数 $J(\theta)$ 对 $\theta$ 求导得： $\nabla_{\theta} J(\theta)=\nabla_{\theta}\left(\frac{1}{2}(X \theta-Y)^{T}(X \theta-Y)\right)=\nabla_{\theta}\left(\frac{1}{2}\left(\theta^{T} X^{T}-Y^{T}\right)(X \theta-Y)\right)$ $=\nabla_{\theta}\left(\frac{1}{2}\left(\theta^{T} X^{T} X \theta-\theta^{T} X^{T} Y-Y^{T} X \theta+Y^{T} Y\right)\right)$ $=\frac{1}{2}\left(2 X^{T} X \theta-X^{T} Y-\left(Y^{T} X\right)^{T}\right)=X^{T} X \theta-X^{T} Y （07）$ 结果是一个 $(n + 1) * 1$ 的向量，形似 $\left[\begin{array}{c}{Z_{0}} \\ {\vdots} \\ {Z_{n}}\end{array}\right]$
令（05）式为0，得最终参数值： $\theta=\left(X^{T} X\right)^{-1} X^{T} Y （08）$
关于正规方程法的几点说明：

对于那些不可逆的矩阵（通常是因为特征之间不独立，如同时包含英尺为单位的尺寸和米为单位的尺寸两个特征，也有可能是特征数量大于训练集的数量），正规方程方法是不能用的。也就是说，只有矩阵 $\left(X^{T} X\right)$ 是可逆矩阵的时候，这个方法才可行。矩阵可逆=矩阵对应的行列式不为0=满秩=行（列）向量线性无关
如果特征数量 $n$ 较大则运算代价大，因为矩阵逆的计算时间复杂度为 $O\left(n^{3}\right)$ ，通常来说当 $n$ 小于100时还是可以接受的
只适用于线性模型，不适合逻辑回归模型等其他模型。事实上对于那些更复杂的学习算法，我们将不得不仍然使用梯度下降法，但对于这个特定的线性回归模型，正规方程法是一个比梯度下降法更快的替代算法。
关于矩阵求导术

2.梯度下降法

正规方程法并不是什么情况都能奏效的，事实上大多数复杂算法都不适用。而梯度下降法作为一种求函数最小值更加通用的手段，适用的范围更广，操作方法也更符合机器学习的理念（让机器循着特定的算法程序进行迭代运行）。梯度的方向是函数值变化最快的方向，如果是求极大值，沿着梯度的方向迭代即可；如果是求极小值，则沿着梯度相反的方向迭代

【补充一点个人理解】为什么要用梯度来进行参数的更新？当只有一个参数 $\theta$ 时，初始化以后，下一步 $\theta$ 是变大还是变小呢？我们用导数就可以很好的回答这个问题，当这个点导数为正时，增大 $\theta$ 的值则函数值（这里是损失函数）增加，减小 $\theta$ 则函数值减小。所以梯度充当的就是一个方向的作用，它指导参数 $\theta$ 的变化方向，在这个时候梯度的大小不是非常重要，因为更新参数 $\theta$ 时还要乘上步长，可以通过调整步长来控制更新的幅度。当参数 $\theta$ 是一个向量时 $\left(\theta_{0}, \theta_{1}, \ldots, \theta_{n}\right)$ ，也是类似的，梯度代表的是向量的方向，是兼顾了各个参数方向最终得出来的，也可以认为一次性更新 $\theta_{0}, \theta_{1}, \ldots, \theta_{n}$ ，幅度由步长来控制。

梯度下降背后的思想

开始时我们随机选择一个参数的组合 $\left(\theta_{0}, \theta_{1}, \ldots, \theta_{n}\right)$ ，计算代价函数，然后我们寻找下一个能让代价函数值下降最多的参数组合。
我们持续这么做直到得到一个局部最小值（local minimum），因为我们并没有尝试完所有的参数组合，所以不能确定我们得到的局部最小值是否便是全局最小值（global minimum），选择不同的初始参数组合，可能会找到不同的局部最小值。
$\begin{array}{l}{\text { Repeat }\{ } \\ {\qquad \theta_{j} :=\theta_{j}-\alpha \frac{\partial}{\partial \theta_{j}} J\left(\theta_{0}, \theta_{1}, \ldots, \theta_{n}\right)} \\ {\}}\end{array}$

梯度下降的迭代方法

1.代数法

构建一个代价函数（参照（05）式）： $J\left(\theta_{0}, \theta_{1} \ldots \theta_{n}\right)=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}，其中h_{\theta}(x)=\theta_{0} x_{0}+\theta_{1} x_{1}+\theta_{2} x_{2}+\ldots+\theta_{n} x_{n}，x_{0}=1$ $\frac{\partial}{\partial \theta_{j}} \mathrm{J}\left(\theta_{0}, \theta_{1}, \ldots, \theta_{\mathrm{n}}\right)=\frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}，导数可能是正的也可能是负的，取决于切线的斜率$
重复迭代： $\theta_{j} :=\theta_{j}-\alpha \frac{\partial}{\partial \theta_{j}} \mathrm{J}\left(\theta_{0}, \theta_{1}, \ldots, \theta_{\mathrm{n}}\right)，其中j=0,1,...,n$ $即\theta_{j} :=\theta_{j}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)} （09）$

2.矩阵法

构建一个代价函数（参照（06）式）： $J(\theta)=\frac{1}{2m}(X \theta-Y)^{T}(X \theta-Y)，\nabla_{\theta} J(\theta)=\frac{1}{m}(X^{T} X \theta-X^{T} Y)$
重复迭代： $\theta_{j} :=\theta_{j}-\alpha \frac{\partial}{\partial \theta_{j}} \mathrm{J}\left(\theta_{0}, \theta_{1}, \ldots, \theta_{\mathrm{n}}\right)，其中j=0,1,...,n$ $即\theta :=\theta-\alpha\frac{1}{m}\left(X^{T} X \theta-X^{T} Y\right) （10）$

3.几点补充

$\alpha$ 取正数，以凸函数为例（形如 $y=x^{2}$ ）：当 $\theta_{j}$ 位于极小值点右侧，导数大于0，更新后 $\theta_{j}$ 向左移动；当 $\theta_{j}$ 位于极小值点左侧，导数小于0，更新后 $\theta_{j}$ 向右移动。同理，若是凹函数，则会远离极大值点。也就是说，在学习率a的大小选取合适的情况下， $\theta_{j}$ 越来越靠近极小值点，随着迭代次数不断增加，函数值在极小值点左右晃动。
对 $\theta$ 的更新方式一般采用同时更新，即采用老的一组 $\left(\theta_{0}, \theta_{1}, \ldots, \theta_{n}\right)$ 来更新 $\theta_{j}$ ，也就是说更新 $\theta_{1}$ 的时候， $\theta_{0}$ 还是那个没有更新的 $\theta_{0}$ 。其实矩阵法就很能说明过程
不适用于非光滑函数，即某些位置的导数可能不存在

梯度下降的参数选取

1.初始参数

初始值不同，获得的最小值也有可能不同，因此梯度下降求得的只是局部最小值
由于有局部最优解的风险，需要多次用不同初始值运行算法，比较这些局部最优解，选择使目标函数最小的值

2.学习率（步长）

$\alpha$ 是学习率（learning rate），它决定了我们让代价函数下降的步子有多大。如果 $\alpha$ 选取太小，它会需要很多步才能到达最低点。如果 $\alpha$ 选取的太大，它会导致无法收敛甚至发散。可以考虑尝试这些学习率： $\alpha$ =0.001，0.003，0.01，0.03，0.1，0.3，1…每两个取值大概相差三倍，起始位置可以考虑 $\alpha$ =0.01
之所以让代价函数除以一个样本数 $m$ ，就是考虑对于不同的模型来说样本数可能是100也可能是100万，为了使每次取的 $\alpha$ 变化不会太过剧烈（让人对起始位置无从下手），于是对误差的求和除以一个 $m$ ，这样每次都可以用 $\alpha$ =0.01来开始尝试
当我们接近局部最低时，导数值会自动变得越来越小，所以梯度下降将自动采取较小的幅度，因此实际上没有必要再另外减小 $\alpha$ ，当然非要进行减小也是可以的

3.特征缩放

在我们面对多维特征问题的时候，我们要尽量使这些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。
以房价问题为例，假设我们使用两个特征，房屋的尺寸和房间的数量，尺寸的值为 0-2000平方英尺，而房间数量的值则是0-5，以两个参数分别为横纵坐标，绘制代价函数的等高线图，则图像会显得扁长，梯度下降算法需要非常多次的迭代才能收敛，而我们理想的等高线图尽量是圆形的好。解决的方法是尝试将所有特征的尺度都尽量缩放到-1到1之间（-1/3到1/3，-3到3都可以）
另一种可行的方法是令： $x_{i}=\frac{x_{i}-\mu_{n}}{s_{n}}$ ，其中 $\mu_{n}$ 是平均值， $S_{n}$ 是标准差（用最大值减最小值就可以了）。特征缩放不需要太精确，主要是让梯度下降算法运行的能够更快一些。

4.终止条件

可以通过绘制“迭代次数”和“代价函数的值”的图，来观测算法在何时趋于收敛

一种方法是：定义一个合理的阈值如0.001，当两次迭代之间 $J(\theta)$ 的差值小于该阈值时，迭代结束。
或者设置一个大概的迭代步数，比如1000或500，梯度下降法最终的迭代肯定会收敛，只要达到相应迭代次数，多了也没关系。

5.其他模型转化为线性模型

有时对于一批数据，线性模型不一定是最好的拟合方式，可能需要曲线来适应我们的数据，比如一个二次方模型： $h_{\theta}(x)=\theta_{0}+\theta_{1} x_{1}+\theta_{2} x_{2}^{2}$ ，或者三次方模型： $h_{\theta}(x)=\theta_{0}+\theta_{1} x_{1}+\theta_{2} x_{2}^{2}+\theta_{3} x_{3}^{3}$
此时，我们可以令： $x_{2}=x_{1}^{2}, x_{3}=x_{1}^{3}$ ，从而将模型转化为线性回归模型。
根据函数图形特性，我们还可以使： $h_{\theta}(x)=\theta_{0}+\theta_{1}(s i z e)+\theta_{2} \sqrt{\operatorname{siz} e}$

3.梯度下降法家族

批量梯度下降

上文所提到的就是批量梯度下降（Batch Gradient Descent），这是梯度下降法最基本的形式，具体做法就是在更新参数 $\theta$ 时用上所有的 $m$ 个样本。
优点是计算得精度比较高，容易得到最优解。
缺点是由于样本数量太大，计算速度很慢。

随机梯度下降

随机梯度下降（Stochastic Gradient Descent），在更新参数 $\theta$ 时没有用所有的m个样本的数据，而是随机选取一个样本 $i$ 来求梯度： $\theta_{j} :=\theta_{j}-\alpha \left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}，其中j=0,1,...,n （11）$
优点：相比于批量梯度下降，随机梯度下降只选取了一个样本，因此迭代速度提升了很多
缺点：由于随机梯度下降法每次迭代只选择一个样本，导致迭代方向变化很大，不能很快的收敛到局部最优解。如果选择的样本属于一个误差比较大的脏数据，前进的方向都不一定是收敛方向。

小批量梯度下降

小批量梯度下降（Mini-batch Gradient Descent），是批量梯度下降法和随机梯度下降法的折衷。也就是对于m个样本，我们选取其中的 $x$ 个样本来迭代， $1 < x < m$ ，即： $\theta_{j} :=\theta_{j}-\alpha \frac{1}{x} \sum_{i=t}^{x+t-1}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)} ，其中j=0,1,...,n （12）$
这个算法每次选择一部分数据更新，在实际操作中是最实用的。每次选择的样本数 $x$ 可以是32、64、128，差不多选择64就可以了，具体取决于你能容忍算法运行多久，选择的越多则精度越高。

三、线性回归的模型评估

原文链接：https://blog.csdn.net/weixin_41577426/article/details/95866774

第1.2章：线性回归（Linear Regression）_参数的求解

第1.2章：线性回归参数的求解

来源