SAS 学习笔记（七）— SAS与回归分析

文章目录

回归预备分析

计算相关系数
（pearson, spearman, kendall）相关系数衡量变量之间的线性相关性

proc corr data=数据集名;
	var 变量名列;
	with 变量名列;
	partial 变量名列;  //去除某因素影响后计算的偏相关系数
	by 变量名列;
run;

<options>
pearson (默认)
spearman
kendall
nosimple 不进行简单描述统计

绘制散点图
plot 或 gplot过程步

线性回归分析

REG / GLM 过程步的回归分析

proc REG data=;    //也可以用 GLM 过程步
	MODEL 因变量=自变量名列 / <options1>;
	ID 变量名;
	PLOT y*x / <options2>
	OUTPUT out=数据集名 关键统计量名=输出名;
SYMNOLn cv=点的颜色 ci=连线颜色 co=置信带颜色
run;

<options1>:
p: 预测值
r: 残差值
clm: 均值置信区间
cli: 预测值置信区间
noint: 不带截距项
noprint: 不输出拟合的结果

<options2>:
conf95: 预测均值的置信曲线
pred95: 预测值的置信曲线
overlay: 多张图叠加
AIC CP MSE SSE: 在图形左侧显示相应统计量

<y*x>
x和y可以是因变量、自变量和其他与回归分析结果有关的变量
p.  r.  U95.  L95.  U95M.  L95M.

回归线作图

PROC GPLOT DATA= ;
	PLOT y1*x1  y2*x2  /overlay
	SYMBOL1 <options>;
	SYMBOL2 <options>;
RUN;

<options>:
i = rlcli<95> | rlclm<95> : 添加置信百分数
c=  cv=  ci=  value=  height=  font=  line=  width=  
interpol = r<类型><0><clm|cli><50...99>

Alt

变量选择

PROC  REG  DATA=数据集名;
	MODEL  因变量=自变量名列/p  cli  clm  r  noprint
    selection= backward |forward| stepwise rsquare |adjrsq|cp
    slentry=0.05  slstay=0.10       //严进宽出(?_?? ≤ ?_???)
    best=个数 aic sbc rmse include=n ;
    ID  变量名;
    OUTPUT  out=数据集名 关键统计量名=输出名. . .;
RUN;

<options>
NONE:	全部进入，不筛选变量;
FORWARD: 	向前加入法,即逐个加入变量;
BACKWARD: 向后删除法,全部加入后逐个剔除;
STEPWISE:	 逐步筛选法,边进边出;
MAXR：	逐个加入和对换，使R2增加最大;
MINR： 	逐个加入和对换，使R2增加最小.
RSQRARE：对不同个数自变量分别选择RSQ最大的模型
ADJRSQ:   选Adj-RSQ最大的模型
Cp:选最先满足?_?≤? 的模型，其中?为进入回归的变量数
Hocking建议: ?_?≤? (预测)和 ?_?≤2?−?+1(估计)， (?为全模型的变量个数)

曲线回归

其中，多项式回归中，次数低的写在前面，次数高的写在后面

SS1和SS2
若进入回归模型的变量有一定的优先次序（如对多项式,线性项先于二次项,二次项先于三次项等）,应该用I型平方和(SS1)及相应的F统计量。若平等地考虑各个变量是否进入回归模型，则可用II型平方和(SS2)及其相应的F统计量

回归诊断

PLOT r.*p.  //残差-预测值图 
PLOT nqq.*student. (nqq.*r.); //残差分布正态性
MODEL 因变量=自变量 /r  influence  //返回cook距离和强影响点的统计指标
                     partial      //偏杠杆图
                     vif          //方差膨胀系数

在这里插入图片描述
多重共线性判别：

原文链接：https://blog.csdn.net/qq_43528771/article/details/103262793