第6章方差分析
第6章-正交试验设计结果的方差分析
(4)计算F值
• 各均方除以误差的均方,例如:
FABiblioteka VA Ve或FA
VA V e
FAB
VAB Ve
或
FAB
VAB Ve
(5)显著性检验
• 例如: • 若 FAF(fA,f,e)则因素A对试验结果有显著影
响 • 若 F A BF (fA B,fe,)则交互作用A×B对试验结
果有显著影响
(6)列方差分析表
设:
QT
n
x
2 i
i1
n
T xi i1
②各因素引起的离差平方和
• 第j列所引起的离差平方和 :
Sj
1( m r p1
Kp2j
)T2 n
k
ST S j Se j 1
③交互作用的离差平方和
• 若交互作用只占有一列,则其离差平方和就等于 所在列的离差平方和
• 若交互作用占有多列,则其离差平方和等于所占 多列离差平方和之和,
• 例:3时
S S S AB ( AB ) 1 ( AB ) 2
④试验误差的离差平方和
• 方差分析时,在进行表头设计时一般要求留有空 列,即误差列
• 误差的离差平方和为所有空列所对应离差平方和 之和 :
Se S空列
(2)计算自由度
①总自由度 :=n-1 ②任一列离差平方和对应的自由度 :
=m-1 ③交互作用的自由度 :(以A×B为例) ×B= × ×B=(m-1 ) 若m = 2, ×B= 若m = 3, ×B= 2 + ④误差的自由度:
• 方差分析的基本步骤如下: • (1)计算离差平方和 • (2)计算自由度 • (3)计算平均离差平方和(均方) • (4)计算F 值 • (5)显著性检验
5第六章方差分析
练习
• 以小鼠研究正常肝核糖核酸(RNA)对癌细 胞的生物学作用,试验分为对照组(生理 盐水)、水层 RNA组和酚层RNA组,分别用 此三种不同处理诱导肝细胞的FDP酶活力, 得数据如下。该三组资料均服从正态分布, 试比较三组均数有无差别?
ex_36.sas
表 6.1 对照组
2.79 2.69 3.11 3.47 1.77 2.44 2.83 2.52
复相关系数(确定系数),变异系数,均方根,总均数
对自变量的检验
R-Square:等于模型的平方和除以总 平方和,用于度量在因变量的变差 里能够由模型决定的比例有多少, 越接近1,效果越好。
检验的显著水平、自由度、 误差均方
具有相同字母的组间 均值差异没有统计学意义。
第2组具有A和B两个字母,所以 第二组和第三组,第一组均没有差异。
单因素方差分析
假设某单因素试验有k个处理,每个处理有n次重 复,共有nk个观测值。这类试验资料的数据模式
如下表所示。
(一)总平方和的分解 在上表中,反映全部观测值总变异的总平方和
是各观测值xij与总平均数的离均差平方和,记 为SST。即
kn
SST
( xij x.. ) 2
i1 j 1
nj 组内样本容量j 1,2,,n ki 组数,即水平数i 1,2,,k x.. 总平均数 xij i水平下第 j个样样本
变 差
组间 变差
总 变 差 组内 变差
组数(水平数)
(二)总自由度的剖分
在计算总平方和时,资料中的各个观测值要
kn
受 (xij x这..) 一0 条件的约束,故总自由度等于 i1 j1
资料中观测值的总个数减1,即kn-1。
dfT kn 1 df t k 1 df e dfT df t
第6章方差分析
• 结果解读5
➢ S-N-K检验结果将无统计学意义的比较组列在同 一列中。即样本均数显示在同一列时,表示两组 总体均数差别无统计学意义。
➢单因素方差分析 完全随机设计的单因素方差分析 多个样本均数间的多重比较 ➢多因素方差分析 随机区组设计的方差分析 交叉设计的方差分析 拉丁方设计的方差分析 析因设计的方差分析 正交设计的方差分析 重复测量资料的方差分析 协方差分析
区组 I组
II组
III组
1
3.6
3.0
0.4
2
4.5
2.3
1.7
3
4.2
2.4
2.3
4
4.4
1.1
4.5
5
3.7
4.0
3.6
6
5.6
3.7
1.3
7
7.0
2.7
3.2
8
4.1
1.9
3.0
9
5.0
2.6
2.1
10
4.5
1.3
2.5
IV组 3.3 1.2 0.0
2.7 3.0 3.2 0.6 1.4 1.2 2.1
• 第五步:点击模型。在单变量:模型对话框中,选 定“设定”后,将“患者编号”、“阶段”、“药 物”移入右模型框。
第六步:设置两两比较。将“药物”选入两两 比较检验。勾上LSD、S-N-K、Dunnett。
• 第七步:设置选项。勾上“描述统计”。
第八步:完成,解读结果 • 结果解读1
阶段F=0.313, p=0.583;(药物顺序与疗效无关) 药物间F=0.522, p=0.479;(功效相当) 患者间F=2.537,p=0.027。
第六章 方差分析
第六章 方差分析3
b xi . x SS A
i 1
a
2
A因素平方和: A 因素各水平的平均数 与总平均数的离差平方和。反映了A因 素各水平的效应的差异。
a x. j x SSB
j 1
b
2
B因素平方和: B 因素各水平的平均数 与总平均数的离差平方和。反映了B因 素各水平的效应的差异。 误差平方和: 剔除了A因素和B 因素的影响后的影响因素。
15
• 2、列出方差分析表,进行F检验
表6-22 表6-21资料的方差分析表
变异来源 A 因素(品系) B 因素(剂量) 误差 总变异
平方和 6457.6667 6074.0000 543.3333 13075.0000
自由度 3 2 6 11
均方 2152.5556 3037.0000 90.5556
x.1
X1. X2. …… Xa. x..
x1. x2 . ...... xa .
x.2 ……
x.2
x.b
x.b
x..
……
各个字母的含义
3
资料模式:
xijl i j ijl
i 1, ......,a; 2, j 1, ......,b; 2, X ijl:因素A的第i个水平和因素B的第j个水平组合中的观察值;
17
• 3、多重比较 (1)不同品系的子宫平均重量比较 各品系平均数 多重比较表见表6-23。 表6-23 各品系子宫平均重量多重比较(q法)
品系 A1 A3 A2 A4 平均数 xi . 122.3 104.7 75.0 64.0
xi . -64.0
58.3** 40.7** 11.0
第六章方差分析
2se( 2 LSD检验)
x
n0
x1 x2
n0
第三节双因素方差分析
1、试验指标:衡量试验结果的标准 2、因素(factor):也叫因子,是指对试验指标有影响,在研究中加以(控制)考虑的试验
4
条件。 3、可控因子:在试验中可以人为地加以调控的因子浓度、温度等 4、非控因子:不能人为调控的因素(气象、环境等) 5、固定因素:指因素的水平是经过特意选择的 6、随机因素:指因素的水平是从该因素水平总体中随机抽出的样本 7、水平(level):每个因素的不同状态(从质或量方面分成不同的等级) (因素是一个抽象的概念,水平则是一个较为具体的概念) 8、处理:指对试验对象施以不同的措施(对单因素试验而言,水平和处理是一致的,一个 水平就是一个处理;对多因素试验而言,处理就是指水平与水平的组合) 9、固定效应(fixed effect):由固定因素所引起的效应。 10、随机效应(random effect):由随机因素引起的效应。 11、二因素方差分析:是指对试验指标同时受到两个试验因素作用的试验资料的方差分析。 12、固定模型:二因素都是固定因素 13、随机模型:二因素均为随机因素 14、混合模型:一个因素是固定因素,一个因素是随机因素 15、主效应(main effect):各试验因素的相对独立作用 16、互作(interaction):某一因素在另一因素的不同水平上所产生的效应不同。 17、因素间的交互作用显著与否关系到主效应的利用价值 如果交互作用不显著,则各因素的效应可以累加,各因素的最优水平组合起来,即为最优的 处理组合。 如果交互作用显著,则各因素的效应就不能累加,最优处理组合的选定应根据各处理组合的 直接表现选定。有时交互作用相当大,甚至可以忽略主效应。 二因素间是否存在交互作用有专门的统计判断方法,有时也可根据专业知识判断。 (一)无重复观测值的二因素方差分析 依据经验或专业知识,判断二因素无交互作用时,每个处理可只设一个观测值,即假定 A 因素有 a 各水平,B 因素有 b 个水平,每个处理组合只有一个观测值。
生物统计学 第六章 方差分析
该法是最小显著差数(Least significant difference) 法的简称,是Fisher 1935年提出的,多用于检验某一对 或某几对在专业上有特殊探索价值的均数间的两两比 较,并且在多组均数的方差分析没有推翻无效假设H0 时也可以应用。该方法实质上就是t检验,检验水准无 需作任何修正,只是在标准误的计算上充分利用了样 本信息,为所有的均数统一估计出一个更为稳健的标 准误,因此它一般用于事先就已经明确所要实施对比 的具体组别的多重比较。
xij i ij
它是方差分析的基础。
6.2 方差分析的原理
方差分析的基本原理是认为不同处理组的均数间 的差别基本来源有两个: (1) 随机误差,如测量误差造成的差异或个体间的差 异,称为组内差异,用变量在各组的均值与该组内变 量值之偏差平方和的总和表示,记作 SS e ,组内自由度 df e 。 (2) 实验条件,即不同的处理造成的差异,称为组间 差异。用变量在各组的均值与总均值之偏差平方和表 示,记作 SSt ,组间自由度 df t 。 总偏差平方和 SST SSt SSe 。
6.1 方差分析的相关术语
研究马氏珠母贝三亚、印度品系在不同地区的生 长差异,选择同一批繁殖的两品系马氏珠母贝的稚贝, 分别在海南黎安港、广东流沙港、广西防城港三个海 区进行养殖,每个地区每个品系养殖1000个,1年后 测定马氏珠母贝壳高与总重,比较生长差异。 这里壳高与总重称为试验指标,在试验中常会测定 日增重、产仔数、产奶量、产蛋率、瘦肉率、某些生 理生化和体型指标(如血糖含量、体高、体重)等,这些 都是试验指标,就是我们需要测量的数据。
6.4 均值间的两两比较
对完全随机设计多组平均水平进行比较时,当资料满 足正态性和方差齐性,就可以尝试方差分析,若得到 P>α的结果,不拒绝零假设,认为各组样本来自均数相 等的总体,即不同的处理产生的效应居于同一水平, 分析到此结束; 若方差分析结果P≤α,则拒绝零假设, 接受备择假设,认为各处理组的总体均数不等或不全 相等,即各个处理组中至少有两组的总体均数居于不 同水平。这是一个概括性的结论,研究者往往希望进 一步了解具体是哪两组的总体均数居于不同水平,哪 两组的总体均数相等,这就需要进一步作两两比较来 考察各个组别之间的差别。
第六章 方差分析
5.交互作用(Interaction)
如果一个因素的效应大小在另一个因素不同水平下明显不同, 则称为两因素间存在交互作用。
方差分析的数学推导和计算过程 平方和和自由度的分解
平方和的分解
总变异=处理间变异+处理内变异
自由度的分解
总自由度=处理间自由度+处理内自由度 总自由度=处理间自由度+
SST=SSt+SSe
第六章 方差分析
教学目的和要求
1、掌握方差分析的基本原理及其基本概念,包括方差分析的理论 模型、处理因素、处理水平、单元、元素、均衡交互作用等。 2、掌握多猪比较的概念及其常用的多猪的几种多猪比较的方法。 3、进行方差分析的基本条件,方差齐次性检验。 、进行方差分析的基本条件,方差齐次性检验。 4、掌握进行双因子及多因子方差分析的条件和类型。 、掌握进行双因子及多因子方差分析的条件和类型。 5、熟练掌握应用SPSS for Windows下进行方差分析的步骤并且 Windows下进行方差分析的步骤并且 、熟练掌握应用SPSS 能对处理结果作出正确的解释。 教学难点 1、均方的分解。 2、试验处理和水平的确定。
进行方差分析的几个猪要的概念 1.因素(Factor) .因素
因素是可能对应变量有影响的变量,通常就是数学模型中的处理 处理。一 处理 般来说,因素会有不止一个水平,分析的目的就是考察或比较各个水 平对应变量的影响是否相同。因素的取值范围不能无限,只能有若干 个水平,在SPSS中应当将因素作为分类变量来处理。
在t检验中,
例6.1
Multiple Comparisons
Dependent Variable: 猪猪多(kg ) LSD
(I) GROUP
(J) GROUP
Mean Difference (I-J) 5.10000* 6.85000* 3.05000 -5.10000* 1.75000 -2.05000 -6.85000* -1.75000 -3.80000 -3.05000 2.05000 3.80000
spss之统计挖掘第6章 方差分析
5.“两两比较”
6.“保存”
▪ 单击“保存”按钮,弹出图6-18所示的“单变 量:保存”对话框
7.“选项”
▪ 单击“选项”按钮,弹出图6-19所示的“单变 量:选项”对话框。
析因设计方差分析
▪ 例6.3 A、B两种药物联合应用对红细胞增加数 的影响,数据见表6-8。数据库见6-3.sav。
▪ 1.操作步骤
▪ (4)单击“选项”按钮,将“因子与因子交互 ”列表中的“组别”移入右侧“显示均值”框 ,同时勾选“比较主效应”复选框;“输出” 列表中选择“描述统计”和“方差齐性检验” ,单击“继续”按钮,返回主对话框,单击“ 确定”按钮运行。
▪ 2.主要结果解读
▪ 图6-33所示给出两组的例数、均值和标准差; 图6-34所示为两组治疗后血压的Levene方差齐 性检验,本例F=0.049,P=0.826>0.05,因此 方差齐性,符合方差分析条件要求;图6-35所 示为协方差分析结果,可见组别因素F=0.820, P=0.373,组别因素(即两种药物)对降压效果 没有差别;而治疗前血压因素的F=6.463, P=0.017,说明治疗前血压确实对治疗后血压有 影响。
▪ (1)单击“分析”|“一般线性模型”|“单变 量”命令。
▪ (2)将“治疗后血压”放入“因变量”框;将 分组变量“组别”放入“固定因子”框;将“ 治疗前血压”放入“协变量”框。
▪ (3)单击“模型”按钮,在弹出框中将“因子 与协变量”列表中的“组别”和“治疗前血压 ”放入右侧“模型”列表。“构建项”中类型 选择“主效应”。其他默认,单击继续返回。
▪ 实例详解
▪ 例6.1:比较三个不同电池生产企业生产电池的 寿命,见例6-1.sav。此例企业为因素,不同厂 家为水平,本例为单因素3水平设计。
【生物统计】第六章 方差分析
722 922 562 1162 SSt C 7056 504 n 4
Ti 2
dft k 1 4 1 3
SSe SST SSt 602 504 98
dfe dfT dft k (n 1) 4 (4 1) 12
yij y
C
试 验 误 差
yi y
A BLeabharlann yij yiA B C
A
B
C
-2 -2 -2 -2
0 0 0 0
2 2 2 2
-3 -2 -2 -1
-1 0 0 1
0 1 2 5
-1 0 0 1
-1 0 0 1
-2 -1 0 3
SSt n( yi y )2 32
SST ( yij y )2 50
2 2
因为
SST ( yij y ) ( yij yi yi y )
2
( y y ) 0
i
所以 SST SSt SSe
第一节 方差分析的基本原理
自由度的分解 总自由度: 处理项自由度: 误差项自由度:
dfT nk 1
dft k 1
dfe dfT dft k (n 1)
SSe ( yij yi )2 18
第一节 方差分析的基本原理
通过前面的平方和的直观分解可以看出: SSe SSt
SST SSt SSe
2
当然也可以由公式推导出来:
( yij yi ) ( yi y ) 2 (yij yi ) ( yi y )
18 23 14 29
y 21
第一节 方差分析的基本原理
SPSS_第6章 方差分析
-12.3756
15.7090
-31.0423
-2.9577
-15.7090
12.3756
-32.7090
-4.6244
2.9577
31.0423
4.6244
32.7090
40
结果2
英语
Subset for alpha = .05
Student-Newman-Keul sa
g rou p 2 1 3 Si g.
Std. Deviation 13.70280 12.42176 6.96898 13.79175
Std. Error 5.59414 5.07116 2.84507 3.25075
95% Confidence Interval for M ea n
Lower Bound Upper Bound
58.7865
75 70
74
80 72
72
77 66
68
68 72
71
75 70
71
75 70
Xt =72
4
从上表可知,三种不同实验教材的教学效果不完全 一致,表现在三个不同实验处理组的平均数之间存 在差异;同时,同一实验组内部的5名样本的反应变 量也存在差异。
5
我们可以将三个实验组的所有15名样本分数的差异 分为两部分:实验组间的差异(称为组间差异)和 实验组内的差异(称为组内差异)。
18.66667* 6.58815
*. The mean difference is significant at the .05 level.
Si g. .804 .021 .804 .013 .021 .013
95% Confidence Interval
统计学第六章方差分析
总离差平方和=组间离差平方和+组内离差平方和
方差的分解
组间方差反映出不同的因子对样本波动的影响;组内方差则是不考虑组间方差的纯随机影响。
如果组间方差明显高于组内方差,说明样本数据波动的主要来源是组间方差,因子是引起波动的主要原因,可认为因子对实验的结果存在显著的影响 ;
第28页,共55页。
X4
第24页,共55页。
如果备择假设成立,即H1: (i=1,2,3,4)不全相等
– 至少有一个总体的均值是不同的
– 有系统误差
Xi
这意味着四个样本分别来自均值不同的四个正态总体 。
第25页,共55页。
f(X)
X
X1 X2 X3
X4
第26页,共55页。
方差的分解 样本数据的波动又两个来源:一个是随机波动;一个是因子影响。样本数据的波动,可通过离差平方和来反映。这个离差平 方和可分解为组间方差与组内方差两部份。即
算术均值
x1 x...2....
x3
方差
S12 S22
.......
Sr2
si2ni1 1jn i1
2
xijxi
(i1,2, ,r)
第37页,共55页。
SST是全部观察值 与总平均值的离差平方和,反映全部观察值的离散状况。 其计算公式为:
r n
2
SST
xij X
i1 j1
SST反映了全部数据总的误差程度。
样本均值越不同,我们推断总体均值不同的证据就越充分。
第22页,共55页。
• 如果原假设成立,即H0: = = • 四种颜色饮料销售的均值都相等
– 没有系统误差
•
这意味着每个样本都来自均值为 、方差为2的同一正态总体
第六章 方差分析
班组
水平
观测值
因素
分析均值间是否有明显差异。
3、方差分析的基本假定
方差分析基本假定的一般性的表述为,设因
素 A 有个 k 水平,在每个具体水平下,总体分布
为 N j, 2 ,j 1, 2, ,k 。注意这里个总体
方差均相等,并且在每个水平下抽取一个样本,
所取得的个样本相互独立。
注:
最后,构造统计量: 不加证明的引入如下的结论: 1)SSA与SSE相互独立
2) SSE ~ 2 n k 2 3)原假设成立情况下 SSA ~ 2 k 1 2 因此构造统计量:
SSA 2 k 1 F = SSE 2 n k SSA H 0为真 k 1 ,则F ~ F k 1,n k SSE nk
实际计算中主要有如下计算流程 a)水平均值 水平均值是指根据具体水平下的观察值的均 值。有计算公式为 nj 1 xi xij ni j 1 b)总均值 总均值是指全部观察值的均值
x 1
ni
i 1
k
x
i 1 j 1
k
ni
ij
1
ni
i 1
k
x
i 1
k
i
ni
c)总离差平方和 反映了全部观察值离散程度的总规模。有
H1:1, 2, , k 不全相等
2) 构造统计量及拒绝域 首先,分析三类离差平方和: a)总离差(总变差)平方和: 各样本观察值之间的差异称之为总差异,用总 离差平方和来表示。总离差平方和是每一观察值与 其总均值的离差的平方的总和。 b)组内离差(组内变差)平方和: 同一水平下观察值之间的差异,用组内离差平 方和来度量。 c)组间离差(组间变差)平方和: 不同水平观察值之间的差异,称之为组间离差, 用组间离差平方和来度量。
第6章 方差分析
6-6
方差分析中基本假定
►
如果原假设成立, 如果原假设成立,即H0 :µ1 = µ2 = µ3 = µ4
不同处理的均值都相等 意味着每个样本都来自均值为 意味着每个样本都来自均值为 µ、方差为σ 2的同一正态总体
f(X)
X
µ1 = µ2 = µ3 = µ4
统计学
6-7
方差分析中基本假定
►
若备择假设成立, 若备择假设成立,即H1 : µi (i=1,2,3,4)不全相等 不全相等
自变量对因变量没有显著影响 自变量对因变量有显著影响
►H1 : µ1 ,µ2 ,… ,µk不全相等
注意: 拒绝原假设, 注意 : 拒绝原假设 , 只表明至少有两 个总体的均值不相等, 个总体的均值不相等 , 并不意味着所 有的均值都不相等
6-15
统计学
计算水平的均值
1. 假定从 第 i个总体中抽取一个容量为 i 的简单 假定从第 个总体中抽取一个容量为 个总体中抽取一个容量为n
SSA = ∑∑(xi − x) = ∑ni (xi − x)
k 2 k i=1 j=1 i=1
ni
2
前例的计算结果: 前例的计算结果:SSA = 1456.608696
统计学
6-20
计算误差项平方和 SSE
1. 每个水平或组的各样本数据与其组平均值的离
差平方和 2. 反映每个样本各观察值的离散状况,又称组内 反映每个样本各观察值的离散状况, 平方和 3. 该平方和反映的是随机误差的大小 4. 计算公式为
2. 水平或处理 水平或处理(treatment)
因子的不同表现 上述问题中, 值得各种取值就是水平 上述问题中,IQ值得各种取值就是水平
生物统计学 第六章 方差分析
【���������2���
=
���������2��� ������−1
=
(������������−������)���2��� ������−1
���������2��� 为效应方差,������������为处理效应】
方差分析
4.F检验
4.1 F值和F分布 F=������������������������������������=������2+���������2������������2���,自由度������������1 = k − 1, ������������2=������������������=kn-k 在������������1, ������������2确定条件下,F值对应的概率分布称为F 分布, 对应的密度函数为f(F)。������������1, ������������2决定F分布 的形状, 随着自由度的增加,曲线趋向对称。
������������. 各处理观测值之和。
方差分析
自由度的剖分
总自由度dfT=kn-1 处理间自由度dft=k-1 误差自由度 dfe=dfT-dft 均方
试验的总均方、处理间均方、处理内均方分别为:
MST=���������������2���
=
������������������ ������������������
第六章 方差分析
第一节 方差分析的基本原理和步骤
1.基本概念
试验指标 为衡量试验结果的好坏或处理效应 的高低,在试验中具体测定的性状或观测的项 目。
试验因子 试验中所研究的影响试验指标的因素。 当试验中考察的因素只有一个时,称为单因素试 验;若同时研究两个或两个以上的因素对试验指 标的影响时,则称为两因素或多因素试验。试验 因素常用大写字母A、B、C、…等表示。
薛薇,《SPSS统计分析方法及应用》第六章 方差分析
单因素方差分析的数学模型为 xij ai ij (i 1, 2,..., k; j 1, 2,...r)
(1)建立原假设和备择假设
H0 : 1 2 L K
H1 : 1, 2 L , K 不全相等
(2)构造统计量
F MSA SSA /(k 1) : F (k 1, n k) 小显著性差异法。用T检验完成组间成对均值的 比较。检验的敏感度较高,即使是各个水平间的均 值存在细微差别也有可能被检验出来,但此方法对 第一类弃真错误不进行控制和调整。
Bonferroni方法
修正最小显著性差异法。用T检验完成组间成对均值的比 较,但通过设置每个检验的误差率来控制整个误差率。因此 采用此方法看到的显著值是多重比较完成后的调整值。
S-N-K方法
目的是寻找同质子集,简单地说,各组均值首先按从小 到大的顺序排列,然后根据多重比较结果将所有的组分为若 干个子集,子集之间的各组间有差别(P值小于0.05),子集 之内的各组间无差别。
例如:学历是对工资收入的影响。
基本思想
明确观测变量和控制变量
eg.前面例子中观测变量是收入;控制变量是学历
剖析观测变量的方差
SST SSA SSE
k ni
2
SST (xij x)
i1 j1
k
SSA ni (xi x)2 i 1
k ni
2
SSE
(xij xi )
i1 j1
都可以使用方差分析方法去解决
方差分析概念
方差分析是检验多个总体均值是否相等的一种方法。本质上是研 究分类型自变量对数值型因变量的影响。
几个基本概念
控制因素(控制变量):在方差分析中,所要检验的对象称为因素。 其常为一个或多个离散型的分类变量。 水平:因素的不同类别或不同取值为因素的不同水平。因素的 每一个水平可以看作一个整体。 观测因素(观测变量):在进行方差分析时,每个控制因素水 平下得到的样本数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章方差分析方差分析(Analysis of Variance,ANOVA)是将待分析资料的总变异剖分为不同的变异来源,以获得不同变异来源的总体方差的估计值。
通过F检验,完成多个样本平均数之间的差异显著性检验(即多重比较),若处理效应为随机模型时,则进行方差组分的估计。
6.1 方差分析的SAS过程用于方差分析的主要过程有方差分析(ANOVA)和广义线性模型(GLM)。
对于无缺省(缺值、缺组等)资料,或称平衡资料,一般采用(ANOVA)过程,对缺省资料(非平衡资料)应采用(GLM)过程。
事实上根据效应模型的不同,还有VARCOME(方差组分)过程,MIXED(混合模型)过程等。
6.1.1 ANOVA过程1. 名词解释自变量与依变量在方差分析中,自变量可称为独立变量、定性变量(Qualitative Variale)、分类变量(Classiflcation Variable)或类别变量(Categorcal Variable),相当于因素处理、水平变量。
依变量又称反应变量(Response Variable),相当于观察值变量。
实验效应方差分析的目的是找出对依变量产生的实验效应,这种效应可分为3种:主效应,常以自变量的英文字母表示,如A、B等。
互作效应,常以星号联接自变量表示,如A*B。
嵌套效应,以小括号表示,如A(B)表示A效应嵌套在B效应之内。
2语句说明:CLASS指令必须出现在MODEL指令之前,如选用TEST、MANOVA指令,则它们必须出现在MODEL指令之后。
MEANS、TEST及MANOVA等指令可重复使用,其他指令则只能出现一次。
PROC ANOV A选项串中:⑴DA TA=输入数据集名称,指明对它执行ANOV A分析。
⑵MANOV A 要求将含一个或一个以上依变量遗漏数据的观察值剔除。
⑶OUTPUT=(含分析结果的)输出文件名称,包括平方和(SS),F检验值,以及各效应的显著程度。
CLASS变量名称串指明自变量,自变量可以是数值的或文字的。
MODEL指令定义分析所用的线性数学模型(见表6—1),删除号(/)后的选项:⑴NOUNI:不印出单变量方差分析的结果,适用于多变量的方差分析。
⑵INT:要求SAS把线性模型内的截距(即资料的总平均数)当成一个参数,同时对这个截距作是否为零的假设检验。
MEANS指令前半部要求算出某些自变量(或互作)中各组的平均数,后半部(删除号后)共有24个选项,前17个选项分别对MEANS指令中所列的主效应平均数进行多种方法的多重比较。
这些选项有:⑴BON:修正最小显著差异t检验。
⑵DUNCAN:邓肯多重范围检验,即邓肯氏新复极差法。
⑶DUNNETT(控制组组名):邓尼特控制差异检验。
它是依据t分布由各组平均数与控制组(指定组如对照组)进行比较,采用双尾检验。
⑷DUNNETTL(控制组组名):邓尼特小于控制均数检验。
与控制组平均数的比较,采用单尾检验,临界值订在t分布的下端。
⑸DUNNETTU(控制组组名):邓尼特大于控制均数检验。
与控制组平均数的比较,采用单尾检验,临界值订在t分布的上端。
⑹GABRIEL:贵博氏多重比较。
⑺REGWF:R—E—G—W多重F检验。
⑻REGWQ:R—E—G—W多种t 检验。
⑼SCHEFFE:执行沙菲氏(Scheffe)的多重比较检验。
⑽SIDAK:Sidak调整T检验。
⑾SUM(或⑿GTI):Sidak独立样本t检验。
当两组样本含量不等时为哈氏(Hochberg)的GTI检验。
⒀SNK:纽曼—库尔多重范围检验,即q检验。
⒁T(或⒂LSD):配对t检验或费歇尔最小显著差异检验。
⒃TUKEY:图基固定极差检验。
⒄W ALLER:娃尔—邓肯K—比率t检验。
以上17种检验法最常用的为⑵、⑶、⑸、⒀、⒁。
其它主要选项还有⒅ALPHA=P:界定检验的显著水准。
内设值为P=0.05。
当上面选项与选项⑵并用时,P值必须是0.10、0.05、0.01三者之一。
与上面其他检验选项时,P可以是0.0001与0.9999间任何的值。
⒆LINES:将显著性检验的平均数,由大到小排列。
若某一对平均数之间无显著差异,则将它们印在同一行上,并以虚线将它们与其他有显著差异的平均数分开。
当选用⑵、⑺、⑻、⒀或⒄等检验时,此选项会自动被包括在内,否则,必须附加此选项。
⒇CLM:效应的各组平均数以置信区间方式表示。
此项必须与⑴、⑹、⑼、⑽、⑾、⒁、⒂等联用。
(21)CLDIFF:与(20)相仿,选用⑵、⑺、⑻、⒀、⒄时,附加此选项,将以置信区间方式显示各组平均数。
(22)E=效应名称:它界定各显著检验的分母,缺省时以误差项的均方自动成为分母。
FREQ指令指明该变量值为各观察值重复出现的次数。
TEST指令用来指定F检验的分子与分母,H=分子,E=分母;一般而言,系统自动采用误差项的均方作为F检验的分母。
但对于随机模型等,可选此项。
MANOV A指令主要用于执行多变量(多元)方差分析。
BY指令用于把数据文件分成几个小文件,然后逐一进行ANOV A分析,但文件内的数据必须先按照BY变量串的值做由小到大的重新排列。
此步骤可籍PROC SORT达成。
以上指令中MODEL指令至关重要,同一资料,分析结果依模型不同而异。
常用的模型定义语句有:MODEL Y=A;单因素方差分析,MODEL Y=A B两因素主效应模型,MODEL Y=A B A*B两因素带互作模型,MODEL Y=A B(A)嵌套(NESTED)模型用于系统分组资料。
MODEL Y1、Y2=A两元单因素方差分析。
在模型定义中,可用“|”和“@n”简化表达。
“|”等价于按Searle规则将效应从左到右展开,“@n”表示互作效应和嵌套效应所包含的最多变量数。
各种模型简化表示法及其等价形式列于下表。
表6—1模型简化表示法及其等价形式结果输出包括分类变量信息表,方差分析表及多重比较表等。
6.1.2 GLM过程1. 概述GLM是广义线性模型(General Linear Model)的简称,其推算参数的理论依据是最小误差平方法(The Least Squares Method)。
最适宜于非平衡设计的资料,该过程可应用于多种不同的统计分析。
本章仅介绍在方差分析方面的用途。
2.语句说明:格式中第1、3条指令是不可省略的,CLASS指令必须出现在MODEL、MEANS指令之前,其余均应出现在MODEL指令之后(但BY可出现在RUN前任何一处)。
PROC GLM选项串中:⑴DA TA、⑵MANOV A、⑶OUTPUT的含义与ANOV A选项串中的相同。
⑷NOPRINT:要求分析结果不在报表上打印出来,一般不用此选项。
⑸MULTIPASS:要求重读输入资料文件内的数据,也不常用。
⑹ORDER=FREQ |DATA| INTERNAL|FORMA TTED:界定自变量内各水平(组别)的次序,该选项与CONTRAST 及ESTIMATE指令相关。
当ORDER=FREQ时,观察值个数最多的那一组为第一组,余类推。
当ORDER=DATA时,组别按输入资料文件中各组第一次出现的次序而定。
当ORDER=INTERNAL时,组别按其代号由小到大排列,或按各组名称的英文字母顺序排列。
当ORDER=FORMATTED时,则组别的顺序以外部的格式而定,此项为内设值。
CLASS指令指明自变量。
MODEL指令的前半部可参见表4—1,删除号后的选项串大致可分四类。
第一类与截距(常数项)有关。
⑴NOINT:把截距排除模型之外。
⑵INT:印出截距统计检验。
第二类与报表有关。
⑴NOUNI:不打印单因素方差分析结果(常用于多变量分析)。
⑵SOLUTION:打印一般线模型中参数的估计值,当省略CLASS指令时,程序会自动印出此解。
⑶TOLERANCE:印出容忍量。
其定义为1-R2,R2为自变量与依变量的相关指数。
第三类与无效假设的检验有关。
⑴E:要求印出所有可估计函数(Estimable Functions)的值。
⑵E1;或E2:或E3:或E4:只要求印出每一效应第一、或第二、或第三、或第四型可估计函数值。
⑶SSI:或SS2:或SS3:或SS4:只印出每一效应第一、或第二、或第三、或第四型的平方和。
第四类与控制计算过程的打印有关。
⑴XPX:要求印出(X'X)的向量积距阵⑵INVERST(或I):要求印出(X'X)的逆距阵,或(X'X)通用逆距阵。
MEANS指令的后半部分(删除号后)的选项,前22项可参见ANOV A过程。
另有DEPONL Y:要求印出依变量的平均数,若省略此项,程序会印出文件中所有连续性变量的平均数。
ETYPE=1(或2、或3、或4):界定F检验中分母距阵的均方类型,内设为分析过程检验中最高的一型。
HTYPE=1(或2、或3、或4):与W ALLER选项并用,界定F检验中分子距阵的均方类型,内设为分析过程检验中最高的一型。
CONTRAST指令用于对比检验,即以线性方程序重新组合参数据执行检验。
其中“比较式的名字”必须放在单引号内,名字长度以20个字母为限;各组效应系数前必须先注明所要比较的效应,这些效应必须是MODEL中出现过的。
横行系数总和必须是0,不接受分数。
若有多个比较式,则以逗号将各横行隔开。
删除号后有E:印出线性函数的向量L。
E=效应名称:界定F检验的分母内设为误差项均方。
ETYPE=1(或2:或3:或4):界定平方和的类型等。
ESTIMA TE指令用于检验参数线性组合。
LSMEANS指令用于计算依据最小误差平方法所得的平均数。
主要选项有:⑴E:最小误差平方平均数(Lsm)计算过程中所用到的可估计函数值。
⑵STDERR:印出t检验(Ho:Lsm≠0) 的分母与其显著程度。
⑶TDIFF:印出各平均数比较的t值及显著程度。
⑷PDIFF:印出各平均数比较后的显著程度。
⑸E=效应名称:必须与⑵、⑶、⑷选项并用,指定某一效应均方作为t检验的分母。
缺省时,GLM自动采用误差项的均方作为t检验的分母。
⑹ETYPE=1(或2:或3:或4):指定⑸中效应均方的类型。
MANOV A指令请参阅6.3。
OUTPUT指令中,OUT=输出资料文件名称,这个文件含原输入资料文件的所有变量,以及指令中所提到的关键字。
关键字=变量名称串:关键字主要有⑴P=预测值。
⑵R=预测误差。
⑶L95M(或U95M)=依变量平均数95%置信区间的下限(或上限)。
⑷L95(或U95)=依变量预测值95%置信区间的下(或上)限。
⑸STDP=预测值平均数的标准差。
⑹KSTDP=误差的标准差。
⑺STDI=个别预测值的标准差。
⑻STUDENT=经过标准化的误差。
⑼H=影响力,定义为X i(X'X)X i。
RANDOM指令指定模型中的随机效应。