方差分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章方差分析
【例8-1】某医生想了解不同血糖水平的人其血脂水平是否也不同。
该研究者从门诊病人中随机抽取了10名糖尿病患者,该院同期的体检人群按照血糖水平分为糖耐量受损(IGT)者、血糖正常者,然后随机抽取了10名IGT,12名血糖正常者,同时收集了32名研究对象的空腹总胆固醇水平(mmol/L),结果如下表所示(假设三组研究对象的年龄、性别是均衡)。
表8-1 血糖正常者、IGT以及糖尿病患者中总胆固醇测定结果(mmol/L)正常人 2.62 1.94 3.27 3.37 3.54 4.12 3.23 3.12 2.55 3.96 3.17 3.92
IGT 3.52 3.88 3.35 3.61 3.82 3.92 3.12 3.69 3.42 2.94
糖尿病 4.59 4.58 3.93 4.15 4.67 4.52 3.79 4.24 3.29 4.84
【问题8-1】
(1)该实验属何种设计方案?
(2)如果对上述资料采用两样本t检验进行两两比较,以分析不同血糖水平的人其
血脂水平是否也不同,统计分析方法是否正确?为什么?
【分析】
(1)该研究从血糖水平不同的三个人群中随机取样,属于完全随机设计方案。
(2)研究者采用的统计分析方法不正确。
因为将多个样本均数的同时比较转化为多次的两两比较会增大I型错误的概率。
要进行多个样本均数的比较,可以采用本章介绍的方差分析方法。
第一节完全随机设计的方差分析
完全随机设计(completely random design),又称成组设计。
在实验研究中,按随机化原则将受试对象随机分配到某一研究因素的多个水平中去,然后观察实验效应;在调查研究中,按一个研究因素的不同水平分组,比较各组的效应。
其目的是推断不同水平下各组均数之间的差别有无统计学意义。
这种完全随机设计的多个样本均数的比较可用完全随机设计的方差分析(analysis of variance, ANOV A)。
一、方差分析的基本思想
方差分析是20世纪20年代发展起来的一种统计方法,最早由英国著名统计学家R.A.Fisher提出,故又称F检验(F test),用于多个均数的比较。
下面以例8-1 来说明方差分析基本思想。
首先将表8-1资料经计算列成表8-2。
表8-2 四组牙髓细胞中IL-6(ng /mL )的水平
观察值 空白对照
LPS LPS+
2.5μg /mL 五倍子 LPS+
5.0μg /mL 五倍子
合计
ij x
108.31 677.25 221.84 176.45
115.57
591.89 242.15 231.51 114.47 669.75 225.26 177.35 115.07 715.67 238.38 162.85 116.13 632.90 213.35 186.12 107.62
584.76 226.75 206.21 n i
6 6 6 6 24(N ) i x
112.86
645.37
227.96
190.08
294.07(x )
1
i
n ij j x =∑
677.16
3872.22 1367.76 1140.48 7057.61(
11i
n k
ij
i j x
==∑∑)
2
1
i
n ij j x =∑
76500.18 2512256.40 312350.46 219867.84 3120974.40(
2
1
1
i
n k
ij i j x ==∑∑
)
由表8-2可见,各组样本均数各不相等,这种差异可能由两种原因引起:①随机误差,包括抽样误差、测量误差等,即各样本来自同一总体,但由于随机误差使得样本均数各不相等;②处理因素,即不同的处理(本例为不同的浓度)引起不同的作用或效果,导致各处理组的均数不同。
本例的目的是推断各组的总体均数是否不等或不同处理的效应是否有差别,那么如何才能排除随机因素的干扰而作出推断呢?
我们仍然分析上表资料,全部实验结果存在三种不同的变异: (一)总变异
24孔牙髓细胞中IL-6水平各不相等,这种变异称为总变异(total variation)。
该变异的大小可用所有观察值ij x 与总均数x 的离均差平方和表示,记为总SS 。
2
1
1
2
2
1
1
1
1
()
() 1
j
j
j
n k
ij
n n k
k
i j ij ij i j i j x
SS x x x N N
ν=======
-=
-
=-∑∑∑∑
∑∑
总总 (8-1)
式中,i N n =∑为总例数。
(二)组间变异
接受不同处理的四组牙髓细胞中的IL-6样本均数i x 大小不等,这种变异称为组间变异(variation between groups)。
如果处理因素确有效应,它反映了处理因素的影响和随机误差;反之,则仅反映随机误差。
其大小用各组均数i x 与总均数x 的离均差平方和表示,记为组间SS 。
2
1
() 1
k
i i
i SS n
x x k ν==
-=-∑组间组间 (8-2)
式中,k 为处理组数。
(三)组内变异
各组内观察值ij x 大小亦不等,这种变异称为组内变异(variation within groups)。
组内变异仅反映随机误差,故又称误差变异。
其大小可用各组内每个测量值ij x 与该组均数i x 的离均差平方和表示,记为组内SS 。
i
n k
2
i=1
j=1
1
() (1)k
ij
i i
i SS x
x n
N k
ν==
-=
-=-∑∑∑组内组内 (8-3)
数理统计可以证明,上述三种变异及相应自由度的关系为:
SS SS SS ννν=+=+总总组间组内组间组内 (8-4)
以上各离均差平方和均与自由度有关,为了便于比较,可将各离均差平方和除以相应的自由度,得各自的均方(mean square ,MS ,即前面章节所提到的方差2S )。
均方反映平均变异的大小。
SS SS M S M S νν=
=
组内
组间
组间组内组间组内
, (8-5)
将组间均方除以组内均方即得方差分析的统计量F :
M S F M S =
组间组内
(8-6)
如果各样本均数来自同一总体012(:)k H μμμ=== ,即处理因素无效应,则组间变异和组内变异均只反映随机误差,此时理论上组内
组间
MS
MS
=,F =1,但由于抽
样误差的影响,F ≈1。
反之,若各样本不是来自同一总体(处理因素有效应),则组间变异不仅反映随机误差,还包括处理因素的效应,此时组间均方应明显大于组内均方,即M S M S >组间组内,F >1。
那么,F 值要大到何种程度才有统计学意义呢?或者说,F 值要大到何种程度才能认为各组均数间的差异是由处理因素引起而非随机误差呢?我们可以通过查方差分析用的F 界值表,根据P 值作出统计推断。
若)
,(2
1
ν
ν
αF F ≥,则α≤P ,按α水准拒绝H 0,
接受H 1,差别有统计学意义,可以认为各总体均数不等或不全相等(处理因素有效应);反之,则差别无统计学意义,尚不能认为各总体均数不等或不全相等(尚不能认为处理因素有效应)。
因此,方差分析的基本思想是:根据资料的设计类型(即变异的不同来源),将全部观察值之间的变异——总变异分解为两个或多个部分,除随机误差外其余每个部分的变异都可由某个因素的作用加以解释,通过比较不同变异来源的均方,借助F 分布作出统计推断,以了解某个因素对观察指标是否有影响或某个因素是否具有效应。
二、完全随机设计方差分析的基本步骤
(一)建立检验假设,确定检验水准
0123:H μμμ==,即四组牙髓细胞中的IL-6总体均数相等。
11234:,,,H μμμμ 不等或不全相等,即至少有二组牙髓细胞的IL-6总体均数不
等。
05.0=α
(二)计算检验统计量F 值
完全随机设计的方差分析计算见表8-3。
表8-3 完全随机设计方差分析计算表
435
.4063.3498.7=-=-=组间总组内SS SS SS
变异来源 SS
ν MS F
组间(处理)
2
1
()k i
i
i n x
x =-∑或2
1
1
()
i
n ij k
j i i
x C n ==-∑∑
k -1
1
-k SS 组间
组内
组间MS
MS
组内(误差)
SS 总-SS 组间 或2
=1
(1)k
i i i n s -∑
N -k
k
N SS -组内
总变异
2
1
1
i
n k ij i j x C ==-∑∑
N -1
表中2
1
1
()
i
n k
ij i j x C N
===
∑∑
本例的计算结果如下:
2
(7057.61)242075410.79c ==
3120974.402075410.791045563.61 24123 SS ν=-==-=总总
2
2
2
2
677.16
3872.22
1367.76
1140.48
2075410.791028605.12
6
6
6
6
41 3
SS ν=
+
+
+
-==-=组间组间 SS 组内=1045563.61-1028605.12=16958.49 ν组内=23-3=10
将计算结果列成表8-4。
表8-4 方差分析结果
变异来源 SS ν
MS F P 组间 1028605.12 3 34268.37 40.41 <0.01 组内 16958.49 20 847.92 总变异 1045563.61
23
3.确定P 值,做出统计推断 以1ν=2、2ν=21 查附表?(F 界值表)得:)21,2(05.0F =3.47, )21,2(01.0F =5.78, P <0.01。
按05
.0=α水准,拒绝H 0,接受H 1,差异有统计学意义,可以
认为不同粉尘环境影响大鼠的全肺湿重。
三、方差分析的应用条件
任何统计分析方法都有其适用条件,对于方差分析来说,理论上要求数据满足以下三个条件:
1.独立性:各观察单位之间的取值是相互独立的,互不影响;
2.正态性:每一水平下的观察值的总体均服从正态分布;
3.方差齐性:各样本的总体方差相等。
资料的正态性以及方差齐性检验可以通过统计学方法来判断,详见第八章部分内容。