第4章方差分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章方差分析
方差分析(Analysis of Variance,ANOVA)是将待分析资料的总变异剖分为不同的变异来源,以获得不同变异来源的总体方差的估计值。通过F检验,完成多个样本平均数之间的差异显著性检验(即多重比较),若处理效应为随机模型时,则进行方差组分的估计。
4.1 方差分析的SAS过程
用于方差分析的主要过程有方差分析(ANOVA)和广义线性模型(GLM)。对于无缺省(缺值、缺组等)资料,或称平衡资料,一般采用(ANOVA)过程,对缺省资料(非平衡资料)应采用(GLM)过程。事实上根据效应模型的不同,还有VARCOME(方差组分)过程,MIXED(混合模型)过程等。
4.1.1 ANOVA过程
1. 名词解释
自变量与依变量在方差分析中,自变量可称为独立变量、定性变量(Qualitative Variale)、分类变量(Classiflcation Variable)或类别变量(Categorcal Variable),相当于因素处理、水平变量。依变量又称反应变量(Response Variable),相当于观察值变量。
实验效应方差分析的目的是找出对依变量产生的实验效应,这种效应可分为3种:主效应,常以自变量的英文字母表示,如A、B等。互作效应,常以星号联接自变量表示,如A*B。嵌套效应,以小括号表示,如A(B)表示A效应嵌套在B效应之内。
2
语句说明:
CLASS指令必须出现在MODEL指令之前,如选用TEST、MANOVA指令,则它们必须出现在MODEL指令之后。MEANS、TEST及MANOVA等指令可重复使用,其他指令则只能出现一次。
PROC ANOV A选项串中:⑴DA TA=输入数据集名称,指明对它执行ANOV A分析。⑵MANOV A 要求将含一个或一个以上依变量遗漏数据的观察值剔除。⑶OUTPUT=(含分析结果的)输出文件名称,包括平方和(SS),F检验值,以及各效应的显著程度。
CLASS变量名称串指明自变量,自变量可以是数值的或文字的。
MODEL指令定义分析所用的线性数学模型(见表6—1),删除号(/)后的选项:⑴NOUNI:不印出单变量方差分析的结果,适用于多变量的方差分析。⑵INT:要求SAS把线性模型内的截距(即资料的总平均数)当成一个参数,同时对这个截距作是否为零的假设检验。
MEANS指令前半部要求算出某些自变量(或互作)中各组的平均数,后半部(删除号后)共有24个选项,前17个选项分别对MEANS指令中所列的主效应平均数进行多种方法的多重比较。这些选项有:⑴BON:修正最小显著差异t检验。⑵DUNCAN:邓肯多重范围检验,即邓肯氏新复极差法。⑶DUNNETT(控制组组名):邓尼特控制差异检验。它是依据t分布由各组平均数与控制组(指定组如对照组)进行比较,采用双尾检验。⑷DUNNETTL(控制组组名):邓尼特小于控制均数检验。与控制组平均数的比较,采用单尾检验,临界值订在t分布的下端。⑸DUNNETTU(控制组组名):邓尼特大于控制均数检验。与控制组平均数的比较,采用单尾检验,临界值订在t分布的上端。⑹GABRIEL:贵博氏多重比较。⑺REGWF:R—E—G—W多重F检验。⑻REGWQ:R—E—G—W多种t检验。⑼SCHEFFE:执行沙菲氏(Scheffe)的多重比较检验。⑽SIDAK:Sidak调整T检验。⑾SUM(或⑿GTI):Sidak独立样本t检验。当两组样本含量不等时为哈氏(Hochberg)的GTI 检验。⒀SNK:纽曼—库尔多重范围检验,即q检验。⒁T(或⒂LSD):配对t检验或费歇尔最小显著差异检验。⒃TUKEY:图基固定极差检验。⒄W ALLER:娃尔—邓肯K—比率t检验。以上17种检验法最常用的为⑵、⑶、⑸、⒀、⒁。其它主要选项还有⒅ALPHA=P:界定检验的显著水准。内设值为P=0.05。当上面选项与选项⑵并用时,P值必须是0.10、0.05、0.01三者之一。与上面其他检验选项时,P可以是0.0001与0.9999间任何的值。⒆LINES:将显著性检验的平均数,由大到小排列。若某一对平均数之间无显著差异,则将它们印在同一行上,并以虚线将它们与其他有显著差异的平均数分开。当选用⑵、⑺、⑻、⒀或⒄等检验时,此选项会自动被包括在内,否则,必须附加此选项。⒇CLM:效应的各组平均数以置信区间方式表示。此项必须与⑴、⑹、⑼、⑽、⑾、⒁、⒂等联用。(21)CLDIFF:与(20)相仿,选用⑵、⑺、⑻、⒀、⒄时,附加此选项,将以置信区间方式显示各组平均数。(22)E=效应名称:它界定各显著检验的分母,缺省时以误差项的均方自动成为分母。
FREQ指令指明该变量值为各观察值重复出现的次数。
TEST指令用来指定F检验的分子与分母,H=分子,E=分母;一般而言,系统自动采用误差项的均方作为F检验的分母。但对于随机模型等,可选此项。
MANOV A指令主要用于执行多变量(多元)方差分析。
BY指令用于把数据文件分成几个小文件,然后逐一进行ANOV A分析,但文件内的数据必须先按照BY变量串的值做由小到大的重新排列。此步骤可籍PROC SORT达成。
以上指令中MODEL指令至关重要,同一资料,分析结果依模型不同而异。常用的模型定义语句有:MODEL Y=A;单因素方差分析,MODEL Y=A B两因素主效应模型,MODEL Y=A B A*B两因素带互作模型,MODEL Y=A B(A)嵌套(NESTED)模型用
于系统分组资料。MODEL Y1、Y2=A两元单因素方差分析。
在模型定义中,可用“|”和“@n”简化表达。“|”等价于按Searle规则将效应从左到右展开,“@n”表示互作效应和嵌套效应所包含的最多变量数。各种模型简化表示法及其等价形式列于下表。
表4—1模型简化表示法及其等价形式
结果输出包括分类变量信息表,方差分析表及多重比较表等。
4.1.2 GLM过程
1. 概述
GLM是广义线性模型(General Linear Model)的简称,其推算参数的理论依据是最小误差平方法(The Least Squares Method)。最适宜于非平衡设计的资料,该过程可应用于多种不同的统计分析。本章仅介绍在方差分析方面的用途。
2.
语句说明:
格式中第1、3条指令是不可省略的,CLASS指令必须出现在MODEL、MEANS指令之前,其余均应出现在MODEL指令之后(但BY可出现在RUN前任何一处)。