回归算法

回归算法概念

1.什么是回归算法

回归算法是一种有监督算法
回归算法是一种比较常用的机器学习算法,用来建立“解释”变量(自变量X)和观测值(因变量Y)之间的关系;从机器学习的角度来讲,用于构建一个算法模型(函数)来做属性(X)与标签(Y)之间的映射关系,在算法的学习过程中,试图寻找一个函数 使得参数之间的关系拟合性最好。
回归算法中算法(函数)的最终结果是一个连续的数据值,输入值(属性值)是一个d维度的属性/数值向量
举个例子
对于房屋租赁价格画出如下图:
在这里插入图片描述

横坐标为房屋租赁面积10,纵坐标是租赁价格1000,通过模型学习,会找到一个函数,使得参数之间的拟合性最好,在这个例子中我们找到的函数时y=ax+b,通过计算可得y=0.4.71x+0.4679。这时,我们相当训练好了一个模型,如果此时要预测面积为110即x=110时的y值,就直接可以带入上式计算得到结果。这是最简单的训练流程,实际中我们要求的不止这么简单。

2.线性回归

线性回归公式如下:
在这里插入图片描述
如果对应到刚才的房屋租赁,图像如下:
在这里插入图片描述
线性回归的目的在于:计算出 θ 的值,并选择最优的 值构成算法公式
在这里插入图片描述
:上面的计算方法是矩阵一行承一列(自行复习一下矩阵乘法)

3.公式推导

前面近似的把线性回归函数比作y=ax+b,后续我们将y=ax+b换成如下公式:在这里插入图片描述

我们既然有了线性回归的函数,那么如何才能是的该函数的结果可以最为接近真实值呢,在这之前,先说一下最小二乘法
我们线性回归模型最优的时候是所有样本的预测值和实际值之间的差值最小化,由于预测值和实际值之间的差值存在正负性,所以要求平方后的值最小化。也就是可以得到如下的一个目标函数:在这里插入图片描述
我们对模型优化,最终都是要求得上式函数结果的最小值
h(x)式模型预测出来的结果,y是原始的真实值,意思就是:假如有三天数据,我们全部送入模型训练,将训练好的模型拿来预测第三天的数据,然后用预测数据减去第三天真实数据,求平方后累加,最后除以2(可不除),如果上式求得的结果最小,那么代表我们的数据越接近真实值
用一句话去解释线性回归算法:首先求得一个线性回归的函数(这个函数中的参数未知),预测值与真实值存在一定的误差,如果我们求得参数带入线性回归函数使得预测值与真实值的误差最小,那么就代表所求参数最优

具体求解过程如下
在这里插入图片描述
明天接着写


版权声明:本文为soyb968原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。