实验报告五-SAS方差分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验报告
实验项目名称方差分析
所属课程名称统计分析及SAS实现实验类型验证性实验
实验日期2016-11-12
班级数学与应用数学
学号
姓名
成绩
libname Lmf "E:\sas homework\lmf";
data Lmf.p51;
input Yield Project$@@;
cards;
5.73 1
13.49 1
0.22 1
2.08 1
0.49 1
0.26 1
1.51 2
13.27 2
6.11 2
3.68 2
2.46 2
4.28 2
8.95 3
14.38 3
12.95 3
0.68 3
3.29 3
5.15 3
;
run;
利用INSIGHT模块实现单因素方差分析:
步骤如下:
结果:
表5.1:
Yield = Project
Response Distribution: Normal
Link Function: Identity
由表5.1拟合模型的信息知,这个分析是以Yield为响应变量、Project为自变量的线性模型;相应变量的分布(Response Distribution)为正态分布
值之差的估计值,其后的t检验是检验这一均值之差是否为0,因p=0.4292>0.05,因此不拒绝均值之差为0的原假设,因此项目2、3的效益率无显著差异。
图5.1 Residual-Predict散点图
图5.1残差预测值的散点图可以帮助校验模型的假定。
从图中看出,残差有大体相同的散布,它表明等方差的假设没有问题。
为了验证残差为正态分布的假定,回到数据窗口。
下面利用INSIGHT模块进行残差的正态性检验:
结果:
表5.8 Tests for Distribution
Curve Distribution Mean/Theta Sigma Kolmogorov D Pr > D
Normal -0.0000 0.0470 0.1902 0.0841
由表5.8残差的正态性检验(Tests for Distribution)得知,p值为0.0841>0.05,因此不拒绝残差是正态分布的原假设。
综上,用单因子方分析检验这三个项目的收益率不存在明显的差异。
99 Bachelor
40 Bachelor
24 Bachelor
20 Bachelor
;
run;
利用“分析家”实现单因素方差分析:
结果:
The ANOVA Procedure
表5.9 Class Level Information
Class Levels Values
degree 4 Bachelor College High Middle
由表5.9因素水平信息(Class Level Information)得知变量学历(degree)下由4个水平,分别为大学学历(Bachelor)、大专学历(College)、高中学历(High)、初中学历(Middle)。
表5.10:
Source DF Sum of Squares Mean Square F Value Pr>F
Model 3 7008.33333 2336.11111 4.97 0.0097
Error 20 9395.00000 469.75000
Corrected Total 23 16403.33333
11.8659176、25.1190499。
图5.2 各水平盒形图
由图5.2看出,从左到右依次为本科、初中、大专、高中的盒形图,可以从中对不同水平下均值的差异以及方差的差异有一个直观的了解。
综上,利用单因子方差分析,不同学历的购房者对房价不是有一致的看法。
【练习5-3】工厂订单的多少直接反映了工厂生产的产品的畅销程度,因此工厂
订单数目的增减是经营者所关心的。
经营者为了研究产品的外形设计及销售地区对月订单数目的影响,记录了一个月中不同外形设计的该类产品在不同地区的订单数据。
District
1 2 3
District
Design
1 700 450 560
2 397 357 420
3 697 552 720
4 543 302 515
试用双因子方差分析检验该产品的外形设计与销售地区是否对订单的数量有所影响。
【解答】
利用data数据步实现题目数据:
data Lmf.p53;
output;
end;
end;
end;
cards;
652 521 67 486
711 548 59 338
481 521 50 391
509 425 55 348
397 561 28 147
314 570 24 184
157 138 8 96
164 194 5 57
217 499 5 147
145 492 8 108
;
run;
利用“分析家”实现存在交互作用的双因素方差分析:
结果:
The GLM Procedure
表5.19 Class Level Information
Class Levels Values
Dist 5 1 2 3 4 5
Type 4 1 2 3 4
由表5.19多因素水平信息得知地区(Dist)有5个水平,房型(Type)有四个水平。
图5.3 双因素不同水平下因变量均值差异的连线图
由图5.3得出,在因素地区(Dist)的5个水平位置上(朝阳区、海淀区、大兴区、通州区、其他)有5条竖线,对应于因素房型(Type)的四个水平(三室两厅、两室两厅、复式房型、其他)有4条不同颜色的连线。
每条连线与竖线的交点纵坐标是在两因素相应水平下因变量销量(Sale)的均值。
从因素房型(Type)的四个水平对应的连线可以看出:复式房型的销售量最低,且与所在地区关系不大;两室两厅的销售量比较均衡,需求量较多;三室两厅与其它房型的销量则与所在地区密切相关,在朝阳区、海淀区的销量较高,在大兴、通州及其他地区的销量则较低。
从因素地区(Dist)来看,通州区各种房型的销量都较低。
在市区销量最好的房型为三室两厅,在郊区销量最好的房型是两室两厅。
从两室两厅的连线与其他三条连线的交叉可直观地看出地区(Dist)与房型(Type)有交互作用。
表5.20 Analysis of Variance
Source DF Sum of Squares Mean Square F Value Pr > F
Model 19 1789228.275 94169.909 65.07 <.0001
Error 20 28942.500 1447.125
Corrected Total 39 1818170.775
由表5.20方差分析得知,双因素考虑交互作用的方差分析模型是显著的,其中F统计量的值为65.07,对应的p值小于0.0001。
表5.21 Summary of fit
R-Square Coeff Var Root MSE Sale Mean
0.984082 14.05416 38.04110 270.6750
input Prof@@;
output;
end;
end;
end;
cards;
0.1035 -0.0289 -0.0504 0.0529
0.0447 0.003 0.0261 -0.0344
0.1125 0.0485 0.0182 0.0976
0.0792 0.0512 0.0056 0.0193
-0.0655 -0.0906 -0.0967 -0.0281
-0.0432 -0.0348 -0.1243 -0.0408
;
run;
①利用INSIGHT模块实现单因素各公司(Comp)方差分析:
结果:
表5.23:
Prof = Comp
Response Distribution: Normal
Link Function: Identity
由表5.23拟合模型的信息知,这个分析是以Prof为响应变量、Comp为自变量的线性模型;相应变量的分布(Response Distribution)为正态分布(Normal);关联函数(Link Function)是恒等函数(Identity)。
表5.24 Nominal Variable Information
Level Comp
1 1
2 2
3 3
之差的估计值,其后的t检验是检验这一均值之差是否为0,因p=0.4595>0.05,因此不拒绝均值之差为0的原假设,因此公司1、4的利润率无显著差异。
同理子公司1、2、3、4的利润率无显著差异。
②利用“分析家”实现单因素(主营业务)方差分析:
结果:
The ANOVA Procedure
表5.31 Class Level Information
Class Level Information
Class Levels Values
Work 3 1 2 3
由表5.31因素水平信息(Class Level Information)得知变量Work(主营业务)下由3个水平,分别为1、2、3。
表5.32 Analysis of Variance
Source DF Sum of Squares Mean Square F Value Pr > F
Model 2 0.05933212 0.02966606 16.23 <.0001
Error 21 0.03839531 0.00182835
Corrected Total 23 0.09772742
由表5.32方差分析表可知,经过F检验,F统计量的值为16.23,对应的p
图5.4 各水平盒形图
由图5.4看出,从左到右依次为主营业务1、2、3的盒形图,可以从中对不同水平下均值的差异以及方差的差异有一个直观的了解。
综上,利用单因子方差分析,各主营业务的利润率有显著差异。
③利用proc glm过程步实现双因素方差分析:
proc glm data=Lmf.p55;
class Work Comp;
model prof=Work Comp;
run;
结果:
The GLM Procedure
表5.37 Class Level Information
Class Levels Values
Work 3 1 2 3
Comp 4 1 2 3 4
由表5.37多因素水平信息得知主营业务(Work)有三个水平,子公司(Comp)有四个水平。
表5.38 Analysis of Variance
Source DF Sum of Squares Mean Square F Value Pr > F
Model 5 0.07757365 0.01551473 13.86 <.0001
Error 18 0.02015377 0.00111965
Corrected Total 23 0.09772742
由表5.38方差分析得知,F统计量的值为13.86,对应的p值小于0.0001,因此拒绝两因素主营业务(Work)与子公司(Comp)对利润率无影响的原假设。