课程读者问我,为什么需要残差图?怎么看残差图?
线性回归有诸多假设条件,对于残差来说,要求符合正态性、同方差、无自相关,因此残差诊断分析成为线性回归中必不可少一个环节。
(上图来自医咖会微信号)
利用残差图来判断检验以上残差问题是常用,直观,而且简单有效的方法。
具体来说,残差图是指以某种残差为纵坐标,以其他适宜的变量为横坐标的散点图,所以残差图、残差散点图都是一个概念。这里横坐标有多种选择,最常见的选择是:1.因变量的拟合值;2. 某自变量的观察值等。
那怎么看残差图呢?能看出什么吗?我的经验是,利用反证法、倒推的方法来看。
咱们先明确一下完全满足线性回归假设条件的情况下,残差图应该什么样子的,把这个特征作为标准,然后自己做残差图出来,只要发现它的分布特征和标准有偏离,那么就可以认为残差诊断存在问题。
一般统计教材关于线性拟合完美残差图的描述大概是这样子的:
残差均值为0;
各残差点随机、均匀分布与-2到2之间;
残差点的分布看不出任何规律;
残差不应该包含任何可预测的信息;
好,这些特征就是金标准了,我们可以简单粗暴的,把与此金标准有较大偏差的残差图,都认为是或多或少存在问题的即可。
有人用散点图的形式做了形象展示:
(上图来自网络)
(上图来自网络)
咱们马上用一枚案例来说明问题。
当前薪金为Y,起始薪金为X,拟合简单线性回归模型。
打开【图】对话框,在这里我们要定制残差散点图。虽然我一直说SPSS是最好的统计软件,但我看到左侧的可用变量框里面有DEPENDNT、ZPRED、ZRESID、DRESID、ADJPRED等7个变量时还是有点懵,软件给的越多,越是会给使用者造成更多的困扰,7个变量可用于残差图,我到底选择哪两个作为横轴和纵轴呢?
多不如少,繁不如简。
我建议使用ZRESID为Y轴,ZPRED为X轴制作标准化残差图。或者保存标准化残差变量,然后与自变量X构成残差图。
来看残差图的结果。
我在软件输出的原始图基础上描了一个红框,隐约上可看到似乎呈现下行或上扬的趋势规律,并不是随机分布,这和前面讲过的“完美态”有偏差,所以简单粗暴认为本次线性回归拟合并未完全满足使用条件,可能存在异方差和其他拟合不足的问题。