第六讲方差分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第六讲⽅差分析
第五章⽅差分析
第⼀节概述
前⾯介绍了两样本均数⽐较的t 检验,但在实际研究中经常需要多组均数的⽐较。

如:例5.1 患有某种肿瘤的⼤⽩⿏接受不同实验处理后(对照未服药;服抗癌A 药;服抗癌B 药;服抗癌C 药),2周后体内存活的肿瘤细胞数如表5.1所⽰,⽐较不同实验处理后的平均存活肿瘤细胞数是否有差异。

表5.1 不同实验处理后存活肿瘤细胞数(有丝分裂细胞/10个⾼倍镜视野)对照服抗癌A 药
服抗癌B 药
服抗癌C 药
合计
48 45 23 5 50 51 20 6 46 47 22 0 52 48 19 2 48 47 21 2
50 4 N
5 6 5 6 22 x
48.80 48.00 21.00 3.17 33.45 s
2.28
2.19
1.58
2.23
20.14
本例中共有4种实验处理,在实验设计中称为⼀个因素中的4个⽔平:第⼀个⽔平为对照处理;第⼆个⽔平为服⽤A 药处理;第三个⽔平为服⽤B 药处理;第四个⽔平为服⽤C 药处理。

根据本例的研究问题,相应的假设检验为
H 0:µ1=µ2=µ3=µ4 vs H 1:µ1,µ2,µ3,µ4不全相同●不能⽤t 检验进⾏两两⽐较,第⼀类错误会增⼤。

由于本例共有4组的均数需要⽐较。

如果⽤t 检验进⾏两两⽐较,共要进⾏2
46C =次
t 检验。

如果每次t 检验犯第⼀类错误的概率为0.05,则不犯第⼀类错误的概率为0.95,
6次都不犯第⼀类错误的概率为60.950.7351=,因此在6次t 检验中⾄少有⼀次犯第⼀类错误的概率为610.950.26490.05-=>>。

由此可见⽤t 检验进⾏多组均数的⽐较会增⼤犯第⼀类错误的概率。

●要⽤⽅差分析或多组的秩和检验(Kruskal Wallis test)的⽅法进⾏多组⽐较:
⽅差分析的英⽂全称为Analysis of Variance ,缩写简称为ANOVA 。

●统计分析策略
如果每⼀组资料服从正态分布(或⼤样本),并且⽅差齐性,则可以⽤⽅差分析的⽅
法进⾏⽐较。

如果⽅差不齐或⼩样本⽽⾮正态分布,则⽤Kruskal Wallis 进⾏检验。

第⼆节完全随机设计资料的⽅差分析
⼀、完全随机设计
表5.1 不同实验处理后存活肿瘤细胞数(有丝分裂细胞/10个⾼倍镜视野)对照(i=1) 服抗癌A 药(I=2) 服抗癌B 药(I=3) 服抗癌
C 药(I=4) 合计
48 45 23 5
50 51 20 6 46 47 22 0 52 48 19 2 48 47 21 2 50 4 n 5 6 5 6 22
x 48.80
48.00 21.00 3.17 33.45 s 2.28 2.19 1.58 2.23 20.14
例5.1就是完全随机设计的资料。

该例中的处理因素是不同的实验处理(即服⽤不同药物情况),共有4个⽔平,对照未服药、服抗癌A 药、服抗癌B 药和服抗癌C 药,观察指标是⼤⽩⿏体内存活肿瘤细胞数,观察结果及部分描述统计量见表5.1。

⼆、变异的分解(以本例为例)
组间变异11223344()()()()SS n X X n X X n X X n X X =-+-+-+-组间
其中1234,,,X X X X 为第1组,第2组,第3组和第4组的样本均数,X 为所有数据的平均数。

⾃由度v=4-1=3
组内变异2
2
2
2
11223344(1)(1)(1)(1)SS n S n S n S n S =-+-+-+-组内
1234,,,S S S S 为各组的样本标准差。

⾃由度v=22-4=18 可以证明:
H 0:µ1=µ2=µ3=µ4成⽴时,SS 组间较⼩ ? H 0:µ1=µ2=µ3=µ4不成⽴时,SS 组间较⼤
H 0:µ1=µ2=µ3=µ4是否成⽴与组内变异SS 组内⽆关。

? SS 总=SS 组间+SS 组内,其中
()()()()()()
ij j i SS x X x X x X x X x X x X ==-+-+
+-+-++-=-∑∑22222
11215112644
2
1

其中X 表⽰所有资料的平均数,⽤N 表⽰总样本量(本例N=5+6+5+6=22)。

资料X i j 越离散,SS 越⼤,反之亦然。

SS 还与样本的⾃由度(degree of freedom )=N -1有关(N 为总样本量),⾃由度增⼤,SS 增⼤。

组内变异⾃由度为k N -=组内ν
由于组间变异和组内变异与⾃由度有关,所以不能直接⽐较离均差平⽅和。

将各部分的离均差平⽅和除以各⾃的⾃由度,得到相应的平均变异指标:均⽅(mean square ,记为MS )。

组间变异和组内变异的均⽅可通过公式5.7和公式5.8计算得到。

组间
组间
组间νSS MS =
(5.7)
组内
组内
组内νSS MS =
(5.8)
均⽅消除了⾃由度的影响,因⽽可以进⾏⽐较。

将组间均⽅除以组内均⽅,就得到⽅差分析的检验统计量F 。

组内
组间MS MS F =
(5.9)
可以证明,当H 0成⽴时,则 F 服从⾃由度为k -1和N -k 的F 分布;若H 0不成⽴,则F 不服从F 分布,且⼤多数情况下,F 远⼤于1。

因此,可通过F 的⼤⼩判断H 0的成⽴与否。

三、⽅差分析的步骤
1.建⽴假设并确定检验⽔准根据例5.1的题意,可作如下假设:
H 0:不同实验组⼤⽩⿏体内存活的肿瘤细胞数的总体均数相同,即4321µµµµ===; H 1:不同实验组⼤⽩⿏体内存活的肿瘤细胞数的总体均数不全相同。

检验⽔准:05.0=α
2、计算检验统计量根据表5.3的计算公式,可计算各变异部分的离均差平⽅和、⾃由度、均⽅和检验统计量F 值。

表5.3 完全随机设计资料⽅差分析的计算公式(k 个样本)
变异来源离均差平⽅和(SS )⾃由度(υ)均⽅(MS ) F 值
组间变异 .()j j
j n x
X -∑2 1-k
组间
组间
νSS 组内
组间MS MS
组内变异 .()ij
j j
i
x
x -∑∑2
k N - 组内
组内
νSS
总变异
()ij i
j
x X -∑∑2
1-N
本例计算为⽤Stata 软件计算如下
由于本例样本量较少,正态性检验有些困难。

可以采⽤各组资料减去相应的样本均数,然后再检验。

因此先计算各组的样本均数,Stata 命令 tab group,su(x)
gen d=0
replace d=x-48.8 if group==1
replace d=x-48 if group==2
replace d=x-21 if group==3
replace d=x-3.166667 if group==4
d称为残差。

进⾏正态性检验
sktest d
Skewness/Kurtosis tests for Normality
------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+-------------------------------------------------------d | 0.853 0.181 2.03 0.3633 没有证据认为资料偏态分布。

Stata命令:oneway 观察变量分组变量,t
本例命令: oneway x group,t
蓝⾊处为⽅差齐性检验。

P =0.898>0.1,所以不能认为⽅差不齐。

均数的⽐较的P 值<0.0001,因此拒绝H 0:4321µµµµ===,并可以认为各组均数不全相等。

因此需⽤进⼀步组间两两⽐较,以确定那些组之间确有差异。

两两⽐较有许多⽅法,此处近介绍两种⽅法:lsd ⽅法和Bonferroni ⽅法 lsd 称为最⼩差异检验,适⽤于探索性研究。

命令如下:
. lsd x group
LSD ⽅法进⾏两两均数⽐较
输⼊效应变量分组变量
mean1-mean2= 0.800000 P-value=0.537814
mean1-mean3= 27.800000 P-value=0.000000
mean1-mean4= 45.633333 P-value=0.000000
mean2-mean3= 27.000000 P-value=0.000000
mean2-mean4= 44.833333 P-value=0.000000
mean3-mean4= 17.833333 P-value=0.000000
因此第1组和第2组之间的差异没有统计学意义(no significant),第1组和第2组的平均存活肿瘤细胞数分别⾼于第3组和第4组,第3组的平均存活肿瘤细胞数也⾼于第4组,差别有统计学意义。

(the differences are statistically significant)。

Bonferroni 是⼀种⽐较保守的两两⽐较⽅法,通常⽤于⽐较慎重的研究结果。

命令如下:
红⾊处为P值。

本例结果与LSD相同。

Bonferroni⽅法计算的P值=min(LSD的P值×⽐较次数,1)
本例的⽐较次数为3,所以Bonferroni⽅法计算的P值=LSD的P值×3
但是,第⼀组与第⼆组⽐较的LSD的P值×3>1,所以Bonferroni⽅法计算的P值=1。

单因素多组资料的秩和检验
成组设计多组计量资料的处理效应的⽐较,如果资料不满⾜完全随机设计的⽅差分析的应⽤条件,可⽤Kruskal-Wallis H检验(Kruskal-Wallis H test)。

Kruskal-Wallis H检验⽤于推断计量资料或等级资料的多个独⽴样本所来⾃的多个总体的分布是否相同。

统计检验⽅法、步骤和基本思想见例8.4。

(⼀)计量资料的多个样本⽐较
例8.4 研究单味中药对⼩⿏细胞免疫机能的影响,把40只⼩⿏随机分为4组,每组10只,雌雄各半,⽤药15天后,测定E-玫瑰
结形成率(X:%),结果见表8.4第(1)、(3)、(5)、(7)栏。

问:单味中药对E-玫瑰结形成率有⽆影响?
表8.4 四组E-玫瑰结形成率(X:%)⽐较
对照组党参组黄芪组淫⽺霍组
X X X X
(1) (2) (3) (4)
14 21 24 35
10 24 20 27
12 18 22 33
16 17 18 29
13 22 17 31
14 19 21 40 12 18 18 35 10 23 22 30 13 20 19 28 i
本例为百分率资料,不符合正态分布,现⽤Kruskal-Wallis H 检验。

统计分析步骤如
下:
(1)检验假设:
0H :四组E-玫瑰结形成率的总体分布相同
1H :四组E-玫瑰结形成率的总体分布不全相同
0.05α=
(2)编秩:
把四个样本数据混合从⼩到⼤编秩次,(3)求秩和并确定检验统计量:
分组求秩和,按下式求检验统计量H 值。

2
2
12
12()()3(1)(1)
(1)
i
i
i
i
R H n R R N N N N N n =
-=
-+++∑∑
(8.5)
如果0H 成⽴,各个总体相同,各组的平均秩i R 应该⾮常接近总的平均秩R ,即:在通常情况下,统计量H 应该⽐较⼩,在样本量⽐较⼤时,近似服从χ2分布(Chi -Square )。

反之,
0H 不成⽴时,各个总体不相同,各组的平均秩i R 应远离总的平均秩R ,统计量H 值会增⼤。

⽤Stata 软件进⾏检验如下:
Stata 格式如下:
Stata 命令
kwallis 观察变量 ,by(分组变量) 本例: kwallis x,by(g)
Kruskal-Wallis检验的P值=0.0001< ,所以可以认为四组样本所在总体不全相同。

进⼀步检验可以⽤两组⽐较的Wilcoxon秩和检验,结合Bonferroni校正P值的⽅法进⾏检验,但要根据研究问题,有选择地进⾏⽐较,仅可能地减少⽐较的次数。

第⼆节随机区组设计资料的⽅差分析
随机区组设计的优点是每个区组内的k个受试对象有较好的同质性,组间均衡性较好,与完全随机设计相⽐,可以较好地减少⾮研究因素对观察结果的影响(称为偏倚,Bias);缺点是要求区组内受试对象数与处理数相等,实验结果中若有数据缺失,统计分析较⿇烦。

在医学科学研究中的随机区组设计主要有以下⼏种情况:1. 配对或配伍的k(k≥2)个受试对象分别接受 k种处理(即⼀个处理因素的k个⽔平)之后的数据;2. 同⼀样品⽤k 种⽅法(或仪器等)检验的结果;3. 同⼀受试对象k个部位的数据。

对于随机区组设计资料的统计分析,根据资料性质(定量或分类资料)、处理组数以及符合的统计分析条件,可选⽤配对t检验,配对秩和检验,配对卡⽅检验,随机区组的⽅差分析,随机区组的秩和检验等。

例1:某研究者将24名贫⾎患⼉按年龄及贫⾎程度分成8个区组(b=8),每个区组的3个对象的年龄⾮常接近并且贫⾎程度也⾮常接近,每区组中三名⼉童⽤随机的⽅式分配给A、B和C三种不同的治疗⽅法(处理组,k=3)。

治疗后⾎红蛋⽩含量的增加量(g/L)列表如下(倪宗瓒,《医学统计学》第⼆版P84)
表1贫⾎患⼉不同疗法治疗后⾎红蛋⽩含量的增加量(g/L)
区组A疗法B疗法C疗法
1 16 18 18
2 15 16 20
3 19 27 35
4 13 13 23
5 11 14 17
6 10 8 12
7 5 3 8
8 -2 -2 3
随机区组设计要求每个处理组内的研究对象个数必须是相同的,并且每个区组的观察例数也是相同的。

随机区组设计的观察资料⼀般形式如表5.6所⽰的
⼆、变异分解
根据随机区组设计的性质,在例5.2中,⾎红蛋⽩含量增加量的变异除了总变异、处理组间变异(不同治疗⽅案之间)和个体变异外,还有区组间变异(不同组年龄和贫⾎程度之间)。

各种变异之间的关系可⽤公式5.10表⽰:
SS总=SS处理组间+ SS区组间+SS误差(5.10)
1、处理组间变异描述了不同治疗⽅案对应的⾎红蛋⽩含量增加量的样本均数之间的差异 ∑-j
j X x SS 2.)(n =处理 (5-11)
其中j x .为第j 个处理组的样本均数,⾃由度为1k -=处理v 。

如果3种治疗效果相同,则对应的总体均数应该相同,各个样本均数之间的差异⼀般会很⼩,所以SS 处理较⼩;如果3种治疗效果不同,对应的总体均数不同,各个样本均数之间的差异会较⼤,相应的SS 处理较⼤。

3、区组间变异是指不同区组的⾎红蛋⽩含量增加量样本均数之间差异
∑-i
i X x k SS 2.)(=区组 (5.12)
由于同⼀区组的年龄和贫⾎程度⾮常接近,⽽不同年龄和贫⾎程度不同,它反映了不同年龄和贫⾎程度对⾎红蛋⽩含量增加量样本均数的影响。

4、误差是指总变异中排除了处理变异和区组变异外,仅仅由随机误差引起的变异。

其SS 误差的计算公式可以根据公式(5.13)来获得:
SS 误差=SS 总-SS 处理-SS 区组 (5.13)
其⾃由度为 (1)()k ν=-误差n-1
根据计算所得的SS 和⾃由度,可计算变异来源各部分的均⽅:
SS MS ν=
处理
处理处理
(5.14)
SS MS ν=
区组
区组区组
(5.15)
SS MS ν=
误差
误差误差
(5.16)
然后可以得到两个F 值:
MS F MS =
处理
处理
误差 (5.17)
MS F MS =
区组
区组误差
(5.18)
然后⽤F 分布进⾏检验。

即:⽐完全随机分组的⽅差分析多分离⼀个区组变异
⽤Stata软件进⾏统计分析如下
数据格式
Stata命令:
anova 观察变量处理变量区组变量本例命令
anova x g block
这⾥有3个P值,
Model的P值,对应的⽆效假设H0是处理效应和区组相应均对观察因素⽆作⽤变量g对应的P值,对应的⽆效假设H0是处理效应对观察因素⽆作⽤。

区组变量Block对应的P值,对应的⽆效假设H0是区组效应对观察因素⽆作⽤。

本例的处理效应说明3种不同的治疗⽅案的疗效不全相同。

应⽤⽅差分析的注意事项
⼀、⽅差分析的应⽤条件
并⾮所有的数据都能作⽅差分析,进⾏多个样本均数⽐较⽅差分析的资料应该满⾜以下条件:
1. 完全随机设计资料的多个样本必须是相互独⽴的随机样本;
2. 样本均来⾃正态分布的总体;
3. 样本来⾃的总体⽅差相等,即⽅差齐性(homogeneity of variance)。

⽅差分析的⽤途⾮常⼴泛,不仅可以进⾏单个处理因素下多个样本均数的⽐较,还可以分析多个处理因素之间是否存在交互作⽤。

本章仅仅介绍完全随机设计资料和随机区组设计资料的⽅差分析。

三、⽅差分析与t检验的关系
对于成组设计的两组均数⽐较,可以⽤成组t检验,也可以⽤完全随机设计的⽅差分析,可以证明t2=F,t的⾃由度正好为⽅差分析中的组内⾃由度,结果和结论完全是⼀致的,但是t检验可以做单侧假设检验,也可以做双侧假设检验;⽽⽅差分析只能做双侧假设检验。

对于1:1配对设计的均数⽐较问题,可以⽤配对t检验,也可以⽤随机区组设计的⽅差分析,同样可以证明t2=F,t的⾃由度正好为⽅差分析中的组内⾃由度,结果和结论完全是⼀致的,同理配对t检验可以做单侧假设检验,也可以做双侧假设检验;但⽅差分析只能做双侧假设检验。

相关文档
最新文档