机器学习笔记(二)回归
回归这个概念最早是由英国生物统计学家高尔顿和它的学生皮尔逊在研究父母亲和子女的身高遗传特性时提出的。
“子女的身高趋向于高于父母的身高的平均值,但一般不会超过父母的身高。”–《遗传的身高向平均数方向的回归》
Y=0.8567+0.516*X(单位为米)
回归如今指的用一个或多个自变量来预测因变量的数学方法,在机器学习中,回归指的是一类预测变量为连续值的有监督学习方法,在回归模型中,需要预测的变量叫做因变量,用来解释因变量变化的变量叫做自变量。
线性回归需要一个线性模型,属于监督学习,因此方法和监督学习应该是一样的,先给定一个训练集,根据这个训练集学习出一个线性函数,然后测试这个函数是否足够拟合训练集数据。
一元线性回归
一元指的是一个自变量,模型为y=wx+w在数学中这个式子称作一元线性方程,w是斜率,w是截距,而在回归中w,w称为回归系数。给定训练集D={(x,y),…,(x,y)},我们的目标是找到一条直线,使的所有样本尽可能落在它的附近,预测的值与真实值的差称为误差。
优化目标:让误差尽可能的小
求解就是对该式求导并令导数等于零,得到ww值。
多元线性回归
即多个自变量,训练集D={(x,y),…,(x,y)},其中x为d维特征向量
对x的预测值为
优化目标:
多项式回归:
使用原始特征(x)的二次项、三次项,利用线性回归解决非线性问题,但可能遇到维度灾难、过度拟合的问题,解决方式通常使用正则化、主成分回归、偏最小二乘回归
版权声明:本文为Smile___Tiger原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。