回归预备分析
计算相关系数
(pearson, spearman, kendall)相关系数衡量变量之间的线性相关性
proc corr data=数据集名;
var 变量名列;
with 变量名列;
partial 变量名列; //去除某因素影响后计算的偏相关系数
by 变量名列;
run;
<options>
pearson (默认)
spearman
kendall
nosimple 不进行简单描述统计
绘制散点图
plot 或 gplot过程步
线性回归分析
REG / GLM 过程步的回归分析
proc REG data=; //也可以用 GLM 过程步
MODEL 因变量=自变量名列 / <options1>;
ID 变量名;
PLOT y*x / <options2>
OUTPUT out=数据集名 关键统计量名=输出名;
SYMNOLn cv=点的颜色 ci=连线颜色 co=置信带颜色
run;
<options1>:
p: 预测值
r: 残差值
clm: 均值置信区间
cli: 预测值置信区间
noint: 不带截距项
noprint: 不输出拟合的结果
<options2>:
conf95: 预测均值的置信曲线
pred95: 预测值的置信曲线
overlay: 多张图叠加
AIC CP MSE SSE: 在图形左侧显示相应统计量
<y*x>
x和y可以是因变量、自变量和其他与回归分析结果有关的变量
p. r. U95. L95. U95M. L95M.
回归线作图
PROC GPLOT DATA= ;
PLOT y1*x1 y2*x2 /overlay
SYMBOL1 <options>;
SYMBOL2 <options>;
RUN;
<options>:
i = rlcli<95> | rlclm<95> : 添加置信百分数
c= cv= ci= value= height= font= line= width=
interpol = r<类型><0><clm|cli><50...99>

变量选择
![]() | ![]() |
PROC REG DATA=数据集名;
MODEL 因变量=自变量名列/p cli clm r noprint
selection= backward |forward| stepwise rsquare |adjrsq|cp
slentry=0.05 slstay=0.10 //严进宽出(?_?? ≤ ?_???)
best=个数 aic sbc rmse include=n ;
ID 变量名;
OUTPUT out=数据集名 关键统计量名=输出名. . .;
RUN;
<options>
NONE: 全部进入,不筛选变量;
FORWARD: 向前加入法,即逐个加入变量;
BACKWARD: 向后删除法,全部加入后逐个剔除;
STEPWISE: 逐步筛选法,边进边出;
MAXR: 逐个加入和对换,使R2增加最大;
MINR: 逐个加入和对换,使R2增加最小.
RSQRARE:对不同个数自变量分别选择RSQ最大的模型
ADJRSQ: 选Adj-RSQ最大的模型
Cp:选最先满足?_?≤? 的模型,其中?为进入回归的变量数
Hocking建议: ?_?≤? (预测)和 ?_?≤2?−?+1(估计), (?为全模型的变量个数)
曲线回归
其中,多项式回归中,次数低的写在前面,次数高的写在后面
SS1和SS2
若进入回归模型的变量有一定的优先次序(如对多项式,线性项先于二次项,二次项先于三次项等),应该用I型平方和(SS1)及相应的F统计量 。若平等地考虑各个变量是否进入回归模型,则可用II型平方和(SS2)及其相应的F统计量
回归诊断
PLOT r.*p. //残差-预测值图
PLOT nqq.*student. (nqq.*r.); //残差分布正态性
MODEL 因变量=自变量 /r influence //返回cook距离和强影响点的统计指标
partial //偏杠杆图
vif //方差膨胀系数

多重共线性判别:

版权声明:本文为qq_43528771原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。

