重复测量资料的方差分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浙江大学医学院流行病与卫生统计学教研室 沈毅
协方差阵的球形性质是指该矩阵主对角线元素(方差)
相等、非主对角线元素(协方差)为零。用Mauchly氏法
检验协方差阵的球形性质。Mauchly氏检验的 P值若大于
研究者所选择的显著性水准α时,说明协方差阵的球形性
质得到满足。否则,必须对与时间有关的F统计量的分子、
(1)Greenhouse-Geisser调整系数
(G
G
)
为:
a2 (sk2k s2 )2
(a
1)
k
l
(sk2l )2 (2a)(
k
(sk2
)2
)
a
2
(
s
2
)2
(10 2)
式(10-2)中的 sk2l 是矩阵(10-1)中第k行第l列元素,
浙江大学医学院流行病与卫生统计学教研室 沈毅
SAS程序给出本例的协方差阵Mauchly球形性检验的结果为P
=0.1628,故不必进行自由度的调整。查F界值表得:F0.01(3,24) =3.01,F0.01(3,24)=4.72。本例处理因素的F值为8.22,大于 F0.01(3,24),故拒绝无效假设,说明处理因素间的差别具有统计 学意义。
当 1.0时,取=1.0。
浙江大学医学院流行病与卫生统计学教研室 沈毅
2.调整规则 只对具有重复测定性质的时间效应的
F值的自由度,和处理时间交互作用的F值的自由度进行
调整。由于F值有两个自由度v1和v2,调整的分子自由
度
v1' v1× ,
,分母自由度 v2'
v2
×。具体计算时可用
浙江大学医学院流行病与卫生统计学教研室 沈毅
一、协方差阵的球形性检验
方差是指在某一时点上测定值变异性的大小,而协方 差是指在两个不同时点上测定值相互变异性的大小。如 果在某个时点上的取值不影响其他时点上的取值,则协 方差为0,反之,则不为0。由方差协方差构成的矩阵称 协方差阵。
浙江大学医学院流行病与卫生统计学教研室 沈毅
由表10-2看出,受试对象内离均差平方和等于处理因素的离均 差平方和与误差的离均差平方和两项之和。
SAS程序给出G
G
0.7774,
H
F
1.1169 。用
调整的处理因素
的分子自由度为0.77743 2.33 2.0 ;分母自由度
为 0.7774*24 18.66 19 。查F界值表得调整自由度后的F临界值
浙江大学医学院流行病与卫生统计学教研室 沈毅
第一节 重复测量资料方差分析对协方差阵的要求
在对重复测量资料进行方差分析时,除要求样本是随机 的、在处理的同一个水平上的观察是独立的以及每一水平上 的测定值都来自正态总体外,特别强调协方差阵 (covariance matrix)的球形性(sphericity)或为符合对称 性(compound symmetry)。Box(1954)指出,若球形性 质得不到满足,则方差分析的F值是有偏的,这会造成过多 的拒绝本来是真的无效假设(增加Ⅰ型错误)。
或 代替ε。用调整所得的
及 v1'
v
' 2
的值查
F界值表,
得 Fa(v1' ,v2' ) 。由于ε≤1,所以调整后的F临界值要大于调整 前的F临界值。
浙江大学医学院流行病与卫生统计学教研室 沈毅
第二节 单因素重复测量资料的方差分析
一、单因素重复测量资料的例子
浙江大学医学院流行病与卫生统计学教研室 沈毅
浙江大学医学院流行病与卫生统计学教研室 沈毅
重复测量数据结构与独立数据结构的区别及其优缺点 为了解重复测量数据与独立观察数据之间的区别,下面用一个完全随机设计的
独立数 据结构与具有一个受试者内因素(时间)的重复测量数据结构进行比较。 完全随机设计的独立数据结构:从正常人、可疑硅沉着病者及一期硅沉着病病人
设 k、l为两个测定时点,sk2l 代表协方差阵中的元素。当 k=l时为方差,k≠l时为协方差。共有a个测定时点,将这a 个方差和(a-1)/2个协方差排成协方差阵V为:
s121
s122
V
s221
s222
sa21
sa22
s12a
s22a
sa2a
(10 1)
分母自由度进行调整,以便减少犯Ι类错误的概率。调整
系数为ε(epsilon)。
s121 s222 ... sa2a
s121
V
0
0 s222
0 0
0
0
sa2a
浙江大学医学院流行病与卫生统计学教研室 沈毅
二、自由度调整方法
1. 调整系数ε的计算 有两种调整系数。
根据以上4种离均差平方和与自由度计算所得的均方见表 10-2。
3. 计算F值 由于主要是处理因素的统计学检验,故只计算处理因素的F 值。
F处理=MS处理/MS误差,F处理服从v1=v处理与v2=v误差的F分布
本例,F处理=395.14/48.08=8.22;v1=3,v2=24。所有计算结果均列 于表10-2中。
浙江大学医学院流行病与卫生统计学教研室 沈毅
2.计算离均差平方和、自由度及均方 有总离均差平方 和、处理因素离均差平方和、受试对象间离均差平方和及受 试对象内离均差平方和等。计算公式为:
(1)总离均差平方和SS总及总自由度v总的计算
an
2
SS总
Yij Y S T 2 / N, v总 N 1
上表的下部及右侧所列的数据均从表体部分的原始测量 值派生而来,是为方差分析而准备的。本例药物水平数a= 4,每组观察例数n=9,观察值总个数N=a×n=36。
浙江大学医学院流行病与卫生统计学教研室 沈毅
二、方差分析的步骤
1.提出检验假设 检验假设为: H0:μ1=μ2=μ3=μ4; H1:μi≠μh,至少有一个不等式成立。
a
1
(10 5)
本例,SS处理
1 9
7182 6062
6242 26652 / 36 1185.42,v处理 4 1 3
浙江大学医学院流行病与卫生统计学教研室 沈毅
(3)受试对象间离均差平方和SS对象间及自由度v对象 间的计算
n
SS对象间 a×
例10-1 一项关于不同药物治疗心律失常效果的对比研 究。对9例经常出现心室早搏的病人于用药前测定其心率后 进行随机化给药。一部分病人按A药→安慰剂(C药)→B药 的顺序给药,另一部分病人按B药→安慰剂(C药)→A药的 顺序给药。安慰剂(C药)持续一周作为药物后效的清除期。 比较用药前与各种药物及A药与B药之间的心律差别。表101列出9名受试病人在用药前、安慰剂(C药)期及用药(A 与B)期的心率。
在实际工作中,重复测量资料比独立观察资料往往更为多见。如在临床研究中, 需要观察病人在不同时间的某些生理、生化或病理指标的变化趋势,不同时间或 疗程的治疗效果。在流行病学研究中观察队列人群在不同时间上的发病情况。在 卫生学研究中,纵向观察儿童的生长发育规律等。重复测量资料在自然科学和社 会科学的很多领域内都有元素的总平均值,sk2k ( sl2l ) / a2 是主对角
kl
l
线元素的平均值, sk2 ( sk2l ) / a
是第k行的平均值。
的取
l
值在1.0与1/(a-1)之间。
浙江大学医学院流行病与卫生统计学教研室 沈毅
(2)Huynh-Feldt调整系数
F0.05(2,19)=3.52,比未调整的F临界值大。未调整的概率 P=
0.0006,
G G
调整概率P=0.0020。
浙江大学医学院流行病与卫生统计学教研室 沈毅
三、平均值之间的多重比较 以上用单因素重复测量方差分析方法对心率资料进行分 析之后所得到的统计学结论是:拒绝无效假设,即在治疗药 物的四个水平中,至少有一个水平的总体平均值不同于其他 水平的总体平均值。为了确定这个特殊总体,必须进行平均 值之间的多重比较。但此处不能采用上一讲中介绍的多重比 较方法,因为那些方法都是建立在独立样本基础之上的。这 里可采用配对样本的差值t检验,因为配对样本就是重复测量 试验中一种最简单的对比研究设计。其检验步骤如下:
重复测量设计的主要优点是可以减少样本含量,其次是能够控制个体变异, 即个体差异。例如在单因素实验中,可以用随机区组(或称配伍组)设计方法来 缩小随机误差。而重复测量设计是以同一个受试者作为一个区组,故可以把它 看成为是随机区组设计的一种极端形式。但在随机区组设计下的每一测量都是在 不同受试者身上进行的,它们对某种处理因素的反应是独立的,符合独立性的假 定。而在重复测量设计下的测量是在同一受试者身上进行的,它们对同一处理因 素在不同时间上的反应可能是不独立的,后一次的测量结果可能受到前一次测量 结果的影响。因此,对同一个体在不同时间上的测量值之间就可能存在相关关系。 这给分析工作带来了一定的复杂性。
方差分析(三): 重复测量资料的方差分析
浙江大学医学院公共卫生系 流行病与卫生统计教研室
沈毅 2005.3
浙江大学医学院流行病与卫生统计学教研室 沈毅
重复测量(repeated measure)是指对同一观察对象 的同一观察指标在不同时间点上进行的多次测量,用于分 析该观察指标在不同时间上的变化特点。这类测量资料在 临床和流行病学研究中比较常见。例如,为研究某种药物 对高血压病人的治疗效果,需要定时多次测定受试者的血 压,以分析其血压的变动情况。一些传统的统计方法,如t 检验、方差分析、线性回归模型等,都要求各次观察是相 互独立的。而重复测量资料由于是对同一受试者的某项观 察指标进行的多次测量,在同一受试者的多次测量之间可 能存在某种相关性,用通常的统计方法就不能充分揭示出 其内在的特点,有时甚至会得出错误的结论。因此,有关 重复测量资料的分析方法是近代统计学研究的热点之一。
i 1
Yi Y
2
1 a
n i 1
Ti 2
T2 N
, v对象间
n
1
(10 6)
本例,SS对象间
1 4
3182 2332
3262 26652 / 36 2023.72,v对象间 9 1 8
(4)受试对象内离均差平方和SS对象内及自由度v对象内的
中各随机抽取5人,测量他们的血清黏蛋白含量(mg/L),结果列于下表中第一部分。 重复测量的数据结构:对5名粉尘作业工人的血清黏蛋白含量(mg几)连续3年的测量
结果列于下表中第二部分。
非独立数据
浙江大学医学院流行病与卫生统计学教研室
沈毅
从上表的例子可以看出,独立数据结构的各个观察值是彼此独立的,它适宜于 用通常的方差分析方法做统计分析。重复测量数据结构是对每一受试者的同一 观察指标(血清黏蛋白含量)进行的多次测量。由于这种多次测量之间可能存在相 关性,就需要用特殊的统计方法进行分析。
(10 4)
j1 i1
本例,SS总=201647-(2665)2-/(4×9)=4362.97,
v总=36-1=35。
(2)处理因素的离均差平方和SS处理及自由度v处理的计算
a
SS处理 n×
j 1
Y j Y
2
1 n
a j=1
T
2 j
T2 N
,v处理
计算
n
SS对象内 a
i 1
Yij Y i
2
n Si
i1
Ti2 a
,v对象内
n
a 1
(10 7)
SS对象内
25914
3182 4
13739
2332 4
26700
3262 4
2339.25
v对象内 9(4 1) 27
浙江大学医学院流行病与卫生统计学教研室 沈毅
(5)误差的离均差平方和SS误差与自由度v误差的计算
SS误差=SS总-SS处理-SS对象间,v误差=(n-1)(a-1)
(10-8)
本例,SS误差=4362.97-1185.42-2023.72=1153.83,v误差=(9-1) (4-1)=24
研究表明,当ε真值在0.7以上时,用
进行自由度凋整后
的统计学结论偏于保守,故Huynh和Feldt提出用平均调整
值 值进行调整。 值的计算公式为
ng(a 1) 2
(a 1)[n g (a 1) ]
(10 3)
式(10-3)中的g是对受试对象的某种特征(如性别或 年龄)进行分组的组数,n是每组的观察例数。