协方差分析(三版)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十三章 协方差分析
协方差分析的意义
对试验进行统计控制 对协方差组分进行估计
• 为了提高试验的精确性和准确性,对处理以外的一切条 件都需要采取有效措施严加控制,使它们在各处理间尽 量一致,这叫试验控制。但在有些情况下,即使作出很 大努力也难以使试验控制达到预期目的。
• 统计控制是试验控制的一种辅助手段。经过这种修 正,试验误差将减小,对试验处理效应估计更为准
总 修正均数间 组内
(Y Yˆ)修2 正均数间
(Y
修正均数间
Yˆ)组2 内
MS修正均数间 MS组内
F
组内
组1
( X 0,Y 1 )
Y ( X 1,Y 1 )
(X2,Y2 )
(X0,Y2 )
组2
Y2 Y1 Y2 Y1
X1
X0
X2
二、应用条件
所以, 处理平均数的回归修正和修正平均数的显著 性检验,能够提高试验的准确性和精确性,从而更 真实地反映试验实际。这种将回归分析与方差分析 结合在一起,对试验数据进行分析的方法,叫做协 方差分析(analysis of covariance)。
• 例13-1 为研究某降血糖药物的有效性及其 合用盐酸二甲双胍片的有效性,选择收治 90名2型糖尿病患者,并采用随机对照试验 ,分为三个治疗组,第一组为该降糖药组 ,第二组为盐酸二甲双胍片组,第三组为 该降糖药+盐酸二甲双胍片组,每组30名患 者,治疗3个月,主要有效性指标为糖化血 红蛋白。测得每个患者入组前(X)和3个 月后(Y)的糖化血红蛋白含量(%), 试分析三种治疗降糖化血红蛋白的效果是 否不同。
协方差分析步骤
1.H0:各总体糖化血红蛋白的修正均数相等 H1:各总体糖化血红蛋白的修正均数不全相等 α= 0.05
完全随机设计资料的 协方差分析
表13-1 kn对观测值x、y的单向分组资料的 一般形式
方法步骤
数据准备 数据分布检验 方差齐性检验 Байду номын сангаас电脑运算
具体步骤
•
1、计算各组
X j 、Yj
,平方和
X
2 j
、Y
2 j
,积和 X jYj
均数 X j Yj 及其合计项
• 2、利用合计项各数据计算校正数C1、C2、C3,以 及总变异的离均差平方和 lXX lYY ,积和 lXY 及自 由度
确。若 y 的变异主要由x的不同造成(处理没有显著
效应),则各修正后的y 间将没有显著差异(但原y
间的差异可能是显著的)。若 y的变异除掉x不同的
影响外, 尚存在不同处理的显著效应,则可期望各
y间 将有显著差异 (但原y间差异可能是不显著的)。 此外,修正后的 y 和原y的大小次序也常不一致。
l XX
总的减去组内的平方和即为“修正均数”的平方 和
6、以修正均数及组内的估计误差平方和分别除以 相应的自由度得到修正均数及组内估计误差均方, 求F值
7、查F界值表得P值,做出统计推断
8、多重比较的q检验
例13-1
药物治疗是人为可控制的定性因素,称定性变量 初始糖化血红蛋白是难以控制的定量因素,称协变 量X 3月后的糖化血红蛋白是实验观察指标,称应变量Y
28
11.2
9.5
10.7
9.3
9.4
7.8
29
9.6
8.2
10.4
8.7
8.3
6.6
30
8.0
7.2
9.4
8.7
9.2
7.2
若不考虑初始糖化血红蛋白X对Y的影响
H0:μ1=μ2=μ3 H1:μ1、μ2、μ3不等或不全相等
α=0.05
结论:三种治疗组降糖化血红蛋白的效果不同。
如何在扣除或均衡这些不可控制因素的影 响后比较多组均数间的差别,应用协方差分 析。
1.各组协变量X与因变量Y的关系是线性的, 即各样本回归系数b本身有统计学意义。
2.各样本回归系数b间的差别无统计学意义, 即各回归直线平行。
3.各组残差呈正态分布。 4.各协变量均数间的差别不能太大,否则有
的修正均数在回归直线的外推延长线上。
要求:在进行协方差分析前,应先进行方 差齐性检验和回归系数的检验。
注意问题:如果不满足以上条件,建议进 行变量变换,符合上述条件后,再进行协方 差分析。
协方差分析的基本步骤
1.确定协变量(即未加以控制或难以控制 的因素)
2.检验条件是否满足 3.建立因变量Y随协变量X变化的线性回归
关系 4.利用回归关系把协变量X化为相等后再进
行各组Y的修正均数间比较的假设检验
表13-3 三组患者治疗前后的糖化血红蛋白含量(%)
第一组
第二组
第三组
X1
Y1
X2
Y2
X3
Y3
1
10.8
9.4
10.4
9.2
9.8
7.6
2
11.6
9.7
9.7
9.0
11.2
7.9
3
10.6
8.7
9.9
8.9
10.7 9.0
4
9.0
7.2
9.8
8.6
9.6
7.8
5
11.2
10.0
11.1
9.9
10.1
当有一个协变量时,称一元协方差分析; 当有两个或两个以上协变量时,称多元协方 差分析。
协方差分析是将线性回归与方差分析相结合
的一种分析方法。
把对反应变量Y有影响的因素X看作协变量,
建立Y对X的线性回归,利用回归关系把X值
化为相等,再进行各组Y的修正均数间比较。
修正均数是假设各协变量取值固定在其总
8.5
6
9.9
8.5
8.2
7.1
9.8
7.5
7
10.6
8.3
8.8
7.8
10.1
8.3
8
10.4
8.1
10.0
7.9
10.3
8.2
...
...
...
...
...
...
...
25
9.4
7.6
10.3
9.6
10.0
7.4
26
9.2
8.0
9.8
8.1
10.3 8.2
27
10.5
8.8
10.5
9.9
9.9
7.6
• 3、计算各处理组间的离均差平方和,积和及自由 度
• 4、列出协方差分析计算表填入上述结果,再由总 变异的及减去处理组相应各值,得到组内离均差平 方和及自由度
5、计算回归估计误差平方和 (Y Yˆ )2 及自由
度,其中总的及组内平方和分别按下式计算
(Y
Yˆ )2
lYY
l
2 XY
均数时的反应变量Y的均数。
其实质是从Y的总离均差平方和 (Y Y)2 中
扣除协变量X对Y的回归平方和 (Y Y)2 ,
对残差平方和
(Y
Y)2
作进一步分解后再进
行方差分析。
Y
Y
(YY)
(Y Yˆ )
(Yˆ Y)
Y
X
残差平方和的分解
(Y Yˆ)总2 (Y Yˆ)修2 正均数间 (Y Yˆ)组2 内
协方差分析的意义
对试验进行统计控制 对协方差组分进行估计
• 为了提高试验的精确性和准确性,对处理以外的一切条 件都需要采取有效措施严加控制,使它们在各处理间尽 量一致,这叫试验控制。但在有些情况下,即使作出很 大努力也难以使试验控制达到预期目的。
• 统计控制是试验控制的一种辅助手段。经过这种修 正,试验误差将减小,对试验处理效应估计更为准
总 修正均数间 组内
(Y Yˆ)修2 正均数间
(Y
修正均数间
Yˆ)组2 内
MS修正均数间 MS组内
F
组内
组1
( X 0,Y 1 )
Y ( X 1,Y 1 )
(X2,Y2 )
(X0,Y2 )
组2
Y2 Y1 Y2 Y1
X1
X0
X2
二、应用条件
所以, 处理平均数的回归修正和修正平均数的显著 性检验,能够提高试验的准确性和精确性,从而更 真实地反映试验实际。这种将回归分析与方差分析 结合在一起,对试验数据进行分析的方法,叫做协 方差分析(analysis of covariance)。
• 例13-1 为研究某降血糖药物的有效性及其 合用盐酸二甲双胍片的有效性,选择收治 90名2型糖尿病患者,并采用随机对照试验 ,分为三个治疗组,第一组为该降糖药组 ,第二组为盐酸二甲双胍片组,第三组为 该降糖药+盐酸二甲双胍片组,每组30名患 者,治疗3个月,主要有效性指标为糖化血 红蛋白。测得每个患者入组前(X)和3个 月后(Y)的糖化血红蛋白含量(%), 试分析三种治疗降糖化血红蛋白的效果是 否不同。
协方差分析步骤
1.H0:各总体糖化血红蛋白的修正均数相等 H1:各总体糖化血红蛋白的修正均数不全相等 α= 0.05
完全随机设计资料的 协方差分析
表13-1 kn对观测值x、y的单向分组资料的 一般形式
方法步骤
数据准备 数据分布检验 方差齐性检验 Байду номын сангаас电脑运算
具体步骤
•
1、计算各组
X j 、Yj
,平方和
X
2 j
、Y
2 j
,积和 X jYj
均数 X j Yj 及其合计项
• 2、利用合计项各数据计算校正数C1、C2、C3,以 及总变异的离均差平方和 lXX lYY ,积和 lXY 及自 由度
确。若 y 的变异主要由x的不同造成(处理没有显著
效应),则各修正后的y 间将没有显著差异(但原y
间的差异可能是显著的)。若 y的变异除掉x不同的
影响外, 尚存在不同处理的显著效应,则可期望各
y间 将有显著差异 (但原y间差异可能是不显著的)。 此外,修正后的 y 和原y的大小次序也常不一致。
l XX
总的减去组内的平方和即为“修正均数”的平方 和
6、以修正均数及组内的估计误差平方和分别除以 相应的自由度得到修正均数及组内估计误差均方, 求F值
7、查F界值表得P值,做出统计推断
8、多重比较的q检验
例13-1
药物治疗是人为可控制的定性因素,称定性变量 初始糖化血红蛋白是难以控制的定量因素,称协变 量X 3月后的糖化血红蛋白是实验观察指标,称应变量Y
28
11.2
9.5
10.7
9.3
9.4
7.8
29
9.6
8.2
10.4
8.7
8.3
6.6
30
8.0
7.2
9.4
8.7
9.2
7.2
若不考虑初始糖化血红蛋白X对Y的影响
H0:μ1=μ2=μ3 H1:μ1、μ2、μ3不等或不全相等
α=0.05
结论:三种治疗组降糖化血红蛋白的效果不同。
如何在扣除或均衡这些不可控制因素的影 响后比较多组均数间的差别,应用协方差分 析。
1.各组协变量X与因变量Y的关系是线性的, 即各样本回归系数b本身有统计学意义。
2.各样本回归系数b间的差别无统计学意义, 即各回归直线平行。
3.各组残差呈正态分布。 4.各协变量均数间的差别不能太大,否则有
的修正均数在回归直线的外推延长线上。
要求:在进行协方差分析前,应先进行方 差齐性检验和回归系数的检验。
注意问题:如果不满足以上条件,建议进 行变量变换,符合上述条件后,再进行协方 差分析。
协方差分析的基本步骤
1.确定协变量(即未加以控制或难以控制 的因素)
2.检验条件是否满足 3.建立因变量Y随协变量X变化的线性回归
关系 4.利用回归关系把协变量X化为相等后再进
行各组Y的修正均数间比较的假设检验
表13-3 三组患者治疗前后的糖化血红蛋白含量(%)
第一组
第二组
第三组
X1
Y1
X2
Y2
X3
Y3
1
10.8
9.4
10.4
9.2
9.8
7.6
2
11.6
9.7
9.7
9.0
11.2
7.9
3
10.6
8.7
9.9
8.9
10.7 9.0
4
9.0
7.2
9.8
8.6
9.6
7.8
5
11.2
10.0
11.1
9.9
10.1
当有一个协变量时,称一元协方差分析; 当有两个或两个以上协变量时,称多元协方 差分析。
协方差分析是将线性回归与方差分析相结合
的一种分析方法。
把对反应变量Y有影响的因素X看作协变量,
建立Y对X的线性回归,利用回归关系把X值
化为相等,再进行各组Y的修正均数间比较。
修正均数是假设各协变量取值固定在其总
8.5
6
9.9
8.5
8.2
7.1
9.8
7.5
7
10.6
8.3
8.8
7.8
10.1
8.3
8
10.4
8.1
10.0
7.9
10.3
8.2
...
...
...
...
...
...
...
25
9.4
7.6
10.3
9.6
10.0
7.4
26
9.2
8.0
9.8
8.1
10.3 8.2
27
10.5
8.8
10.5
9.9
9.9
7.6
• 3、计算各处理组间的离均差平方和,积和及自由 度
• 4、列出协方差分析计算表填入上述结果,再由总 变异的及减去处理组相应各值,得到组内离均差平 方和及自由度
5、计算回归估计误差平方和 (Y Yˆ )2 及自由
度,其中总的及组内平方和分别按下式计算
(Y
Yˆ )2
lYY
l
2 XY
均数时的反应变量Y的均数。
其实质是从Y的总离均差平方和 (Y Y)2 中
扣除协变量X对Y的回归平方和 (Y Y)2 ,
对残差平方和
(Y
Y)2
作进一步分解后再进
行方差分析。
Y
Y
(YY)
(Y Yˆ )
(Yˆ Y)
Y
X
残差平方和的分解
(Y Yˆ)总2 (Y Yˆ)修2 正均数间 (Y Yˆ)组2 内