实验五__回归分析SAS过程(2)共23页
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验五 回归分析SAS 过程(2)
实验目的:
1.会对实际问题建立有效的多元回归模型,能对回归模型进行残差分析;
2.掌握SAS 输出结果用于判别回归方程优良性的不同统计量,能对回归模型进行运用,对实际问题进行预测或控制. 实验要求:编写程序,结果分析. 实验内容:
1.误差的正态性检验有几种方法,何时认为误差项服从正态分布? 答:1.学生化残差
2.残差正态性的频率检验
3.残差的正态QQ 图检验 判断
若散点),()()(i i r q ),,2,1(n i 大致在一条直线上
相关系数:1)
()()
)((1
)(1
2)
(1
)()
(
n
i i n
i i i i i q q r r
q q r r
认为i r ),,2,1(n i 来自正态分布,接受误差正态性检验.
2.回归方程的选取的穷举法中,评价回归方程优良性的准则有哪些?根据
准则何 时方程最优?
答:1)修正的复相关系数准则或均方残差准则()(2p R a 或p MSE 准则)
2)p C 准则
3)预测平方和准则(p PRESS 准则)
拟合所有可能的121 M 个回归方程,画出p C 图:),(p C p ,在p C 图中选取最接近参考直线p C p 的点所对应的回归方程为最优方程.
3.简述逐步回归方法的思想和步骤.
基本思想:逐个引入自变量建立回归方程,每次引入对Y影响最显著的自变量, 并对方程中旧变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉,最终得到的方程中,既不漏掉对Y显著影响的变量,又不包含对Y 影响不显著的变量. 添加或删除某个自变量的准则是用残差平方和的相对减少或增加来衡量.
步骤:(1)修正的复相关系数准则、
C准则选择模型
p
(2)预测平方和准则选择PRESSp最优回归方程
(3)最优模型的拟合检验
4.做2.6 2.8(选作) 2.9
注意:可以选课外综合题目。
2.6
程序:
data examp2_6;
input x1 x2 y;
cards;
8.3 70 10.3
8.6 65 10.3
8.8 63 10.2
10.5 72 16.4
10.7 81 18.8
10.8 83 19.7
11.0 66 15.6
11.1 80 22.6 11.2 75 19.9 11.3 79 24.2 11.4 76 21.0 11.4 76 21.4
11.7 69 21.3
12.0 75 19.1 12.9 74 22.2
12.9 85 33.8
13.3 86 27.4 13.7 71 25.7
13.8 64 24.9
14.0 78 34.5 14.2 80 31.7 14.5 74 36.3 16.0 72 38.3
16.3 77 42.6
17.3 81 55.4 17.5 82 55.7
17.9 80 58.3
18.0 80 51.5
20.6 87 77.0
run;
proc reg data= examp2_6;
model y=x1-x2;
output out=a p=predict r=resid h=h student=r;
run;
data b;
set a;
drop x1-x2;
run;
proc print data=b;
run;
proc capability graphics noprint data=a; /* 对数据集a调用capability
过程,高分辨图,不打印输出 */
qqplot r/normal; /* 作student数据的正态QQ图*/
run;
goptions reset=all; /*将图形的设置恢复为默认状态*/
proc gplot data=a; /* 对数据集a作出画高分辨的散点图或曲线图*/
plot resid*predict; /* 画纵坐标为残差、横坐标为yi散点图 */ symbol v=dot i=none; /* 散点表示符号圆点•,不画连线 */
run;
/*此处至Quit 是计算学生化残差对应的标准正态分布的分位数*/ proc sort data=a;
by r; /* 按r 排序*/
proc iml; /* 调用iml 矩阵分析模块,计算数据 */ use a; /* 打开数据集a */
read all var{r} into rr; /* 读入集a 中变量r(学生化残差)各观测值到矩阵rr 中*/
do i=1 to 31; /* 此循环计算 */ qi=probit((i-0.375)/54.25);
q=q//qi; /* 矩阵qi 上下连接而成,即得54*1阶矩q=(q(1),q(2),,q(30))T */ end;
rq=rr||q; /* 表示矩阵rq=(rr q )*/
create correl var{r q}; /* 创建数据集correl, 变量为r 、q */
append from rq; /* 从矩阵rq 读取数据 ( ) */ quit; /* iml 过程结束 */
proc corr data=correl; /* 计算学生化残差与对应的标准正态分布的分位数的相关系数*/ run;
(a )学生化残差的正态QQ 图
(b )拟合值y
ˆ的残差图 结果分析:1) 由学生化残差的正态QQ 图可知,其点明显不在一条直线上;
2) 求得有序学生化残差与相应正态分布的分位数的相关系数
=0.94091
与1相差较大.因此,若拟合线性回归模型,则误差分布与正
态分布有较大的偏离;
3) Y 拟合值的残差图也表明Y 与21,X X 不满足线性关系,且两个