卫生统计学课件---方差分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1-0.05)3=0.857
四均数比较作6次 (1-0.05)6=0.735 五均数比较作10次 (1-0.05)10=0.599 六均数比较作15次 (1-0.05)15=0.463
鉴于以上的原因,对多组均数的比较问题 我 们 采 用 方 差 分 析 ( analysis of variance),简称ANOVA。
下,问小白鼠经三种不同营养素喂养后 所增体重有无差别?
本例的总变异中除了不同营养素的变异(处理 差异)、随机误差外,还存在着区组之间的 变异,是由小白鼠的遗传特征不同所致。
x xij表表i.示示第第i个i个处处理理组组第的j个均区数组(=样本n1观i j察x值ij ,),
x表示第j个区组的均数(= .j
ij
ij
ν总=ν处理+ν区组+ν误差 (νT=νA+νB+νE)
ν总=N-1=bk-1 ν处理=k-1 ν区组=b-1 ν误差=(k-1)(b-1)
(1) 建立假设和确定检验水准
H0: μ1=μ2=μ3 H1: 三组总体均数不相等 α=0.05 (2) 计算检验统计量 C=(Σx)2/N=(1335.9)2/24=74359.53 SST=ΣΣxij 2-C=2681.84 νT=23
方差分析采用F检验统计量,也称F检验。
2.基本思想
先讲述几个记号:
xij表示第i组第j个样本观察值,
x 表示第i组的均数(= i.
1
xij ), ni j
x( x..)
表示总平均=
x 1
N i j ij
例1 某克山病区测得11例克山病患者与13名健康 人的血磷值(mmol/L)如下,问该地急性克山 病患者与健康人的血磷值是否不同?
SST=Σx2-C=372974.87-365093=7881.87
SSE=SST-SSA=7881.87-2384.026=5497.84
νT=N-1=29 νA=k-1=2 νE=N-k=30-3=27 MSA=SSA/νA =1192.01 MSE=SSE/νE =203.62 F=MSA/MSE=5.8540
GROUP
2 0.4281 0.2141 3.99 0.0425
block
7 21.6556 3.0937 57.68 0.0001
Error
14 0.7509 0.0536
Corrected Total 23 22.8346
Analysis of Variance Procedure
Sum of Mean
1. 平方根变换 y=
适用于各组方差与其均数之间有某种 比例关系的资料,尤其适用于总体 呈 Poisson 分 布 的 资 料 , 如 放 射 性 物 质在单位时间内的放射次数等表现 为稀有现象的计数资料。
2.对数变换 y=lg x
适用于各组标准差与其均数之间有某种 比例关系的资料,如研究动物的体重 等资料,尤其是关于生长率的资料。
(3)查表确定p值和作出推断结论
按α=0.05水平不拒绝H0,认为小白鼠经三 种不同营养素喂养后所增体重无差别。
注:作方差分析时同样可以检验区组效应, 本例区组效应显著,即不同窝别的小白 鼠的增重不全相等。
要区别完全随机化设计和随机区组设计
例 某湖水不同季节的氯化物含量测定值如 下,问在不同季节该湖水中氯化物含量有 无差别?
如果两组样本来自同一总体,即克山病患 者与健康人血磷值相同,则理论上F应 等于1,因为两种变异都只反映随机误 差。由于抽样误差的影响,F值未必是1, 但应在1附近。若F较小,我们断定2组 均数相同,或者说来自同一总体,F较 大,推断不是来自同一总体。
5.优点
① 不受比较的组数限制。 ② 可同时分析多个因素的作用。 ③ 可分析因素间的交互作用。
2.多个实验组与一个对照组均数间的两两比较
有是并不要将几组均数都一一作比较,而 只须将对照组与几个实验组作比较。常 用的方法有:
(1)最小显著差数法(LSD法),侧重于减 少第二类错误,此法精度较差,易把不 该判断为显著的差异错判为显著。
例(续例2)
IGT异常与糖尿病患者的比较 H0:μ1=μ2 H1: μ1≠μ2 α=0.05
方和
SST=
(xij x)2
x
2
N
2
x
ij
ij
ij
及N来反映,总自由度 νT=N-1。
2个组各组内部血磷值也不等,这种变异称为 组内变异,
其大小可用2组组内离均差平方和
及各组例数ni来反映,自由度νE=N-k(k是组 数),它反映了随机误差。
2组样本均数也不等,这种变异称为组间 变异,反映了克山病对血磷值的影响和 随机误差
在医学研究中,也存在区组因素,比如动 物试验中动物的窝别、年龄、性别、地 区的差异等。
例3 对小白鼠喂以A、B、C三种不同的营 养素,目的是了解不同营养素增重的效
果,采用随机区组设计方法,以窝别作
为划分区组的特征,以消除遗传因素对
体重增长的影响。现将同品系同体重的 24只小白鼠分为8个区组,每个区组3只 小白鼠。三周后体重增量结果(克)如
3.三者关系
SST (xij x)2 ij
x
[( ij xi ) (xi x)]2
ij
x
( ij xi )2
(xi
x)2
ij
ij
SST=SSA+SSE
νT=νA+νE
4.直观意义
检验统计量
F
MSA MSE
SSA (k 1)
SSE
(N k)
F统计量具2个自由度: ν1, ν2
方差分析
analysis of variance
一.方差分析的基本思想
1.1.意义 前一章介绍了两个样本均数比较的假设检验方 法,但对于3个、4个、5个均数或更多个的比 较,t检验或u检验就无能为力了,或许有人会 想起将几个均数两两比较分别得到结论,再 将结论综合,其实这种做法是错误的。试想 假设检验时通常检验水平α取0.05,亦即弃真 概率控制在0.05以内,但将3个均数作两两比 较,要作三次比较,可靠度成为
患者x1:0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11
健康人x2:0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87
24名患者与健康人的血磷值大小不等,称
这种变异为总变异。可以用总离均差平
1 xij), nj i
x( x表..) 示总平均=
x 1
N i j ij
SS总=SS处理+SS区组+SS误差
=
[(xi. x)(x. j x)(xij xi. x. j x)]2 ij
(xi. x)2 (x. j x)2 (xij xi. x. j x)2
ij
五.多个方差的齐性检验
方差分析中要求各总体的方差相等,所以 在作方差分析前,应作多个方差的齐性 检验,通常用Bartlett法,检验统计量为:
ni为各组样本例数,k为组数 N=Σni si2 为各组方差, sc2为合并方差。
基本思想:假设各总体方差相等,均等于 合并方差(各组方差的加权平均),则 各概率si2与P小sc,2相若差P≤不а会,很拒大绝,方出差现相大等的的x2值假的设, P值可查 P208的x2界值表。
14.8
某湖水中不同季节氯化物含量测定值 (mg/L)
采样点 春
夏
秋
冬
1
22.6
19.1
18.9
19.0
2
22.8
22.8
13.6
16.9
3
21.0
24.5
17.2
17.6
4
16.9
18.0
15.1
14.8
5பைடு நூலகம்
20.0
15.2
16.6
13.1
6
21.9
18.4
14.2
16.9
7
21.5
20.1
16.7
6.应用条件
① 各样本是相互独立的随机样本 ② 各样本来自正态总体 ③ 各组总体方差相等,即方差齐
二.成组设计的多个样本均数比较
例 某社区随机抽取了30名糖尿病患者、 IGT异常和正常人进行载脂蛋白(mg/dL) 测定,结果如下,问三种人的载脂蛋白 有无差别?
所有人的载脂蛋白的变异可分解为两部 分:
方差不齐时不宜作方差分析,解决方法有: (1)变量变换,使方差齐
(2) 秩和检验 (3)近似F检验
六.变量变换
方差分析和t检验要求:方差齐性、正态 分布。
有时并不能满足,上节已介绍了3种不同 的方法。通过变量变换来改变原数据分 布形式,使之满足上述条件,经过变换, 虽然分布形式已改变,但数据之间的相 对关系仍保留,可以用变换后的数据作 统计分析。
得到方差分析表,查表确定P 值:
(3) 作出推断结论 按 α=0.05 水 平 拒 绝 H0 , 接 受 H1 , 认 为 三
种人载脂蛋白的总体均数不同。
三.随机区组设计的方差分析
随机区组设计又称配伍组设计(Random Block Design)。
在农业中如要比较三种化肥的效果,即要比较 施用不同化肥对农作物产量的影响,可以抽 取若干块试验田,分成三组,每组施用一种 肥料,但是地有贫瘠之分,如果某组分得的 地都是瘦地,即使所施化肥效果好,但从农 作物产量上也反映不出来,此时应将地的肥 沃程度考虑进去,以消除田地的影响,这种 因素称作区组因素。
Source
DF Squares Square F Value Pr > F
GROUP
2 0.4281 0.2141 0.20 0.8198
Error
21 22.4065 1.0670
Corrected Total 23 22.8346
四.多个样本均数间的两两比较(又称多重比较)
1.多个样本均数间每两个均数的比较 适用于:在研究设计阶段未预先考虑或未
预料到,经数据结果的提示后,才决定 的多个均数间的两两比较,常见于探索 性研究。 常用方法是q检验(又称Student-NewmanKeuls法,简称SNK法)
检验统计量
q检验界值表见表4,它有两个自由度,一个是 ν=νE,另一个是a,a指将方差分析中的几组样 本均数按从小到大顺序排列后要比较的A、B 两组所包含的组数(包含A、B两组本身)。
组内变异,反映载脂蛋白测定值的随机 误差和个体差异;
组间变异,反映随机误差和不同的生理 病理状态对载脂蛋白的影响。
(1) 建立假设和确定检验水平 H0: 三种人载脂蛋白的总体均数相等, μ1=μ2=μ3 H1: 三组总体均数不相等 α=0.05 (2)计算
C=(Σx) 2/N=(3309.5) 2/30=365093
p>0.05, ∴认为二者无差别
IGT异常与正常人的比较 H0:μ2=μ3 H1: μ2≠μ3 α=0.05
ν=27 0.002<p<0.005, ∴认为二者有差别
(3)Dunnett-t检验
Dunnett-t检验界值表见表5 除了以上介绍的三种方法以外,还有:
Duncan法、Scheffe法等等。
16.2
8
21.2
21.2
19.6
14.8
方法不当会影响统计结果
例 某医师为研究脾切除手术过程中门静脉 压力kPa的变化,测得以下数据,试作 分析。
脾切除手术中不同时期的门静脉压力kPa
病例号 1 2 3 4 5 6 7 8
切脾后 3.92 1.86 3.92 5.29 3.53 3.92 3.53 3.53
当数据中有0或较小值时,也可y=lg(x+1)
例(续例3)对三个人群的载脂蛋白作两两比较。
H0即: 任μA2=个μB人群的载脂蛋白的总体均数相等,
H1: μA≠μB 将3组样本均数从小到大(或从大到小)
顺序排列,并编上组次
组次
1
2
3
均数 102.39 105.45 122.80
组别 IGT异常 糖尿病患者 正常人
三组均数比较的q检验
从p值一栏中可以推断出结论,即IGT异常与正 常人的载脂蛋白有差别, 糖尿病患者与正常人的 载脂蛋白有差别。
某湖水中不同季节氯化物含量测定值 (mg/L)
春
夏
秋
冬
22.6
19.1
18.9
19.0
22.8
22.8
13.6
16.9
21.0
24.5
17.2
17.6
16.9
18.0
15.1
14.8
20.0
15.2
16.6
13.1
21.9
18.4
14.2
16.9
21.5
20.1
16.7
16.2
21.2
21.2
19.6
贲门周围断流后 胃底断流后
3.53
3.53
1.67
1.77
3.92
4.21
5.49
5.68
3.24
3.92
3.92
4.31
4.21
4.31
3.92
4.21
结论:
Analysis of Variance Procedure
Sum of Mean
Source
DF Squares Square F Value Pr > F
四均数比较作6次 (1-0.05)6=0.735 五均数比较作10次 (1-0.05)10=0.599 六均数比较作15次 (1-0.05)15=0.463
鉴于以上的原因,对多组均数的比较问题 我 们 采 用 方 差 分 析 ( analysis of variance),简称ANOVA。
下,问小白鼠经三种不同营养素喂养后 所增体重有无差别?
本例的总变异中除了不同营养素的变异(处理 差异)、随机误差外,还存在着区组之间的 变异,是由小白鼠的遗传特征不同所致。
x xij表表i.示示第第i个i个处处理理组组第的j个均区数组(=样本n1观i j察x值ij ,),
x表示第j个区组的均数(= .j
ij
ij
ν总=ν处理+ν区组+ν误差 (νT=νA+νB+νE)
ν总=N-1=bk-1 ν处理=k-1 ν区组=b-1 ν误差=(k-1)(b-1)
(1) 建立假设和确定检验水准
H0: μ1=μ2=μ3 H1: 三组总体均数不相等 α=0.05 (2) 计算检验统计量 C=(Σx)2/N=(1335.9)2/24=74359.53 SST=ΣΣxij 2-C=2681.84 νT=23
方差分析采用F检验统计量,也称F检验。
2.基本思想
先讲述几个记号:
xij表示第i组第j个样本观察值,
x 表示第i组的均数(= i.
1
xij ), ni j
x( x..)
表示总平均=
x 1
N i j ij
例1 某克山病区测得11例克山病患者与13名健康 人的血磷值(mmol/L)如下,问该地急性克山 病患者与健康人的血磷值是否不同?
SST=Σx2-C=372974.87-365093=7881.87
SSE=SST-SSA=7881.87-2384.026=5497.84
νT=N-1=29 νA=k-1=2 νE=N-k=30-3=27 MSA=SSA/νA =1192.01 MSE=SSE/νE =203.62 F=MSA/MSE=5.8540
GROUP
2 0.4281 0.2141 3.99 0.0425
block
7 21.6556 3.0937 57.68 0.0001
Error
14 0.7509 0.0536
Corrected Total 23 22.8346
Analysis of Variance Procedure
Sum of Mean
1. 平方根变换 y=
适用于各组方差与其均数之间有某种 比例关系的资料,尤其适用于总体 呈 Poisson 分 布 的 资 料 , 如 放 射 性 物 质在单位时间内的放射次数等表现 为稀有现象的计数资料。
2.对数变换 y=lg x
适用于各组标准差与其均数之间有某种 比例关系的资料,如研究动物的体重 等资料,尤其是关于生长率的资料。
(3)查表确定p值和作出推断结论
按α=0.05水平不拒绝H0,认为小白鼠经三 种不同营养素喂养后所增体重无差别。
注:作方差分析时同样可以检验区组效应, 本例区组效应显著,即不同窝别的小白 鼠的增重不全相等。
要区别完全随机化设计和随机区组设计
例 某湖水不同季节的氯化物含量测定值如 下,问在不同季节该湖水中氯化物含量有 无差别?
如果两组样本来自同一总体,即克山病患 者与健康人血磷值相同,则理论上F应 等于1,因为两种变异都只反映随机误 差。由于抽样误差的影响,F值未必是1, 但应在1附近。若F较小,我们断定2组 均数相同,或者说来自同一总体,F较 大,推断不是来自同一总体。
5.优点
① 不受比较的组数限制。 ② 可同时分析多个因素的作用。 ③ 可分析因素间的交互作用。
2.多个实验组与一个对照组均数间的两两比较
有是并不要将几组均数都一一作比较,而 只须将对照组与几个实验组作比较。常 用的方法有:
(1)最小显著差数法(LSD法),侧重于减 少第二类错误,此法精度较差,易把不 该判断为显著的差异错判为显著。
例(续例2)
IGT异常与糖尿病患者的比较 H0:μ1=μ2 H1: μ1≠μ2 α=0.05
方和
SST=
(xij x)2
x
2
N
2
x
ij
ij
ij
及N来反映,总自由度 νT=N-1。
2个组各组内部血磷值也不等,这种变异称为 组内变异,
其大小可用2组组内离均差平方和
及各组例数ni来反映,自由度νE=N-k(k是组 数),它反映了随机误差。
2组样本均数也不等,这种变异称为组间 变异,反映了克山病对血磷值的影响和 随机误差
在医学研究中,也存在区组因素,比如动 物试验中动物的窝别、年龄、性别、地 区的差异等。
例3 对小白鼠喂以A、B、C三种不同的营 养素,目的是了解不同营养素增重的效
果,采用随机区组设计方法,以窝别作
为划分区组的特征,以消除遗传因素对
体重增长的影响。现将同品系同体重的 24只小白鼠分为8个区组,每个区组3只 小白鼠。三周后体重增量结果(克)如
3.三者关系
SST (xij x)2 ij
x
[( ij xi ) (xi x)]2
ij
x
( ij xi )2
(xi
x)2
ij
ij
SST=SSA+SSE
νT=νA+νE
4.直观意义
检验统计量
F
MSA MSE
SSA (k 1)
SSE
(N k)
F统计量具2个自由度: ν1, ν2
方差分析
analysis of variance
一.方差分析的基本思想
1.1.意义 前一章介绍了两个样本均数比较的假设检验方 法,但对于3个、4个、5个均数或更多个的比 较,t检验或u检验就无能为力了,或许有人会 想起将几个均数两两比较分别得到结论,再 将结论综合,其实这种做法是错误的。试想 假设检验时通常检验水平α取0.05,亦即弃真 概率控制在0.05以内,但将3个均数作两两比 较,要作三次比较,可靠度成为
患者x1:0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11
健康人x2:0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87
24名患者与健康人的血磷值大小不等,称
这种变异为总变异。可以用总离均差平
1 xij), nj i
x( x表..) 示总平均=
x 1
N i j ij
SS总=SS处理+SS区组+SS误差
=
[(xi. x)(x. j x)(xij xi. x. j x)]2 ij
(xi. x)2 (x. j x)2 (xij xi. x. j x)2
ij
五.多个方差的齐性检验
方差分析中要求各总体的方差相等,所以 在作方差分析前,应作多个方差的齐性 检验,通常用Bartlett法,检验统计量为:
ni为各组样本例数,k为组数 N=Σni si2 为各组方差, sc2为合并方差。
基本思想:假设各总体方差相等,均等于 合并方差(各组方差的加权平均),则 各概率si2与P小sc,2相若差P≤不а会,很拒大绝,方出差现相大等的的x2值假的设, P值可查 P208的x2界值表。
14.8
某湖水中不同季节氯化物含量测定值 (mg/L)
采样点 春
夏
秋
冬
1
22.6
19.1
18.9
19.0
2
22.8
22.8
13.6
16.9
3
21.0
24.5
17.2
17.6
4
16.9
18.0
15.1
14.8
5பைடு நூலகம்
20.0
15.2
16.6
13.1
6
21.9
18.4
14.2
16.9
7
21.5
20.1
16.7
6.应用条件
① 各样本是相互独立的随机样本 ② 各样本来自正态总体 ③ 各组总体方差相等,即方差齐
二.成组设计的多个样本均数比较
例 某社区随机抽取了30名糖尿病患者、 IGT异常和正常人进行载脂蛋白(mg/dL) 测定,结果如下,问三种人的载脂蛋白 有无差别?
所有人的载脂蛋白的变异可分解为两部 分:
方差不齐时不宜作方差分析,解决方法有: (1)变量变换,使方差齐
(2) 秩和检验 (3)近似F检验
六.变量变换
方差分析和t检验要求:方差齐性、正态 分布。
有时并不能满足,上节已介绍了3种不同 的方法。通过变量变换来改变原数据分 布形式,使之满足上述条件,经过变换, 虽然分布形式已改变,但数据之间的相 对关系仍保留,可以用变换后的数据作 统计分析。
得到方差分析表,查表确定P 值:
(3) 作出推断结论 按 α=0.05 水 平 拒 绝 H0 , 接 受 H1 , 认 为 三
种人载脂蛋白的总体均数不同。
三.随机区组设计的方差分析
随机区组设计又称配伍组设计(Random Block Design)。
在农业中如要比较三种化肥的效果,即要比较 施用不同化肥对农作物产量的影响,可以抽 取若干块试验田,分成三组,每组施用一种 肥料,但是地有贫瘠之分,如果某组分得的 地都是瘦地,即使所施化肥效果好,但从农 作物产量上也反映不出来,此时应将地的肥 沃程度考虑进去,以消除田地的影响,这种 因素称作区组因素。
Source
DF Squares Square F Value Pr > F
GROUP
2 0.4281 0.2141 0.20 0.8198
Error
21 22.4065 1.0670
Corrected Total 23 22.8346
四.多个样本均数间的两两比较(又称多重比较)
1.多个样本均数间每两个均数的比较 适用于:在研究设计阶段未预先考虑或未
预料到,经数据结果的提示后,才决定 的多个均数间的两两比较,常见于探索 性研究。 常用方法是q检验(又称Student-NewmanKeuls法,简称SNK法)
检验统计量
q检验界值表见表4,它有两个自由度,一个是 ν=νE,另一个是a,a指将方差分析中的几组样 本均数按从小到大顺序排列后要比较的A、B 两组所包含的组数(包含A、B两组本身)。
组内变异,反映载脂蛋白测定值的随机 误差和个体差异;
组间变异,反映随机误差和不同的生理 病理状态对载脂蛋白的影响。
(1) 建立假设和确定检验水平 H0: 三种人载脂蛋白的总体均数相等, μ1=μ2=μ3 H1: 三组总体均数不相等 α=0.05 (2)计算
C=(Σx) 2/N=(3309.5) 2/30=365093
p>0.05, ∴认为二者无差别
IGT异常与正常人的比较 H0:μ2=μ3 H1: μ2≠μ3 α=0.05
ν=27 0.002<p<0.005, ∴认为二者有差别
(3)Dunnett-t检验
Dunnett-t检验界值表见表5 除了以上介绍的三种方法以外,还有:
Duncan法、Scheffe法等等。
16.2
8
21.2
21.2
19.6
14.8
方法不当会影响统计结果
例 某医师为研究脾切除手术过程中门静脉 压力kPa的变化,测得以下数据,试作 分析。
脾切除手术中不同时期的门静脉压力kPa
病例号 1 2 3 4 5 6 7 8
切脾后 3.92 1.86 3.92 5.29 3.53 3.92 3.53 3.53
当数据中有0或较小值时,也可y=lg(x+1)
例(续例3)对三个人群的载脂蛋白作两两比较。
H0即: 任μA2=个μB人群的载脂蛋白的总体均数相等,
H1: μA≠μB 将3组样本均数从小到大(或从大到小)
顺序排列,并编上组次
组次
1
2
3
均数 102.39 105.45 122.80
组别 IGT异常 糖尿病患者 正常人
三组均数比较的q检验
从p值一栏中可以推断出结论,即IGT异常与正 常人的载脂蛋白有差别, 糖尿病患者与正常人的 载脂蛋白有差别。
某湖水中不同季节氯化物含量测定值 (mg/L)
春
夏
秋
冬
22.6
19.1
18.9
19.0
22.8
22.8
13.6
16.9
21.0
24.5
17.2
17.6
16.9
18.0
15.1
14.8
20.0
15.2
16.6
13.1
21.9
18.4
14.2
16.9
21.5
20.1
16.7
16.2
21.2
21.2
19.6
贲门周围断流后 胃底断流后
3.53
3.53
1.67
1.77
3.92
4.21
5.49
5.68
3.24
3.92
3.92
4.31
4.21
4.31
3.92
4.21
结论:
Analysis of Variance Procedure
Sum of Mean
Source
DF Squares Square F Value Pr > F