混杂效应和随机效应模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
PROC GLM DATA = example_1; /* model 2: Randomized block design model */ CLASS drug patient; MODEL y=drug patient; RUN;
Source Model Error Corrected Total Source drug patient
Sum of DF Squares 6 206.8333333 5 39.4166667 11 246.2500000 DF Type III SS 1 52.0833333 5 154.7500000
Mean Square 34.4722222 7.8833333
F Value Pr > F 4.37 0.0634
Source Model Error Corrected Total Parameter Intercept drug A drug B
Sum of DF Squares 1 52.0833333 10 194.1666667 11 246.2500000
Mean Square 52.0833333 19.4166667
随机效应概念与混合效应模型 (Concept of Random Effects and Mixed Effects Models)
余松林 教授(退休) 流行病学与卫生统计学系 华中科技大学 同济医学院 公共卫生学院 E-mail address:slyu6153@hotmail.com
1
介绍内容
观察值与完全随机设计固定效应模型预报值及随机效应模型预报值的 比较
病人号 drug 观察值 固定效 应预报 随机效 应预报 A 20 22.8 19.3 B 12 18.7 15.1 1 均 值 16.0 20.8 17.2 A 26 22.8 26.0 B 24 18.7 21.8 2 均 值 25.0 20.8 23.9 A 16 22.8 19.7 3 B 17 18.7 15.5 均 值 16.5 20.8 17.6 A 29 22.8 26.0 B 21 18.7 21.8 4 均 值 25.0 20.8 23.9 A 22 22.8 23.4 B 21 18.7 19.2 5 均 值 21.5 20.8 21.3 A 24 22.8 22.7 B 17 18.6 18.5 6 均值 20.5 20.8 20.6
F Value Pr > F 2.68 0.1325
Estimate 18.66666667 B 4.16666667 B 0.00000000 B
Standard Error t Value 1.79891943 10.38 2.54405625 1.64 .
Pr > |t| <.0001 (μ) 0.1325 (βA=4.17) . (βB=0.00)
5
完全随机设计模型的PROC ANOVA 计算结果:
PROC ANOVA DATA=example_1; CLASS drug; MODEL y=drug; MEANS drug / SNK ALPHA=0.05; run;
Source Model Error Corrected Total
Sum of DF Squares 1 52.0833333 10 194.1666667 11 246.250000
一. 统计模型的概念 二. 随机效应的概念与识别 三. 混合效应模型 四. 混合效应模型分析的例子
2
一. 统计模型的概念
统计模型是对资料结构的一种数学表述. 数量关系的概念化结构.包含两个元素 1.函数表达式: 描述结果变量与解释变量之间的关系(固定效应). 2. 误差表达式:描述结果变量观察值随机变异的概率分布(随机变异). 例如: 2种药物(A、B)治疗某种疾病的疗效分析。用均衡设计,每种药物治疗 的病人数相等,都为n. 反应变量: Yij表示生化测定值,i=1,…,为病例编号,J=1,2为药物编号 自变量:药物种类(A,B),令Xj= 第j种药物, 传统的统计分析方法(固定效应模型,效应为常数)为: (1)用单向方差分析模型表示为: Yij=μj+eij = μ+βj +eij , eij ~ N(0,σe2), Yij ~ N(μi, σe2) , βj =μj-μ, H0:βj =0, 限制条件:Σβj=0 (2)用线形回归模型表示为: Yij=β0+βiXij+eij, , Yij ~ N(β0+βiXij, σe2), H0:βi =0, 限制条件:βB=0 含随机效应的混合效应模型为: Yij=(β0 +γi )+βiXij+ eij, , γi ~ N(0, σγ2), eij ~ N(0,σe2) 这时 Yij ~ N(β0+βiXij, γi2+σe2), Var( Yij)=Var(γi)+Var(eij) = γi² +σe2 , 3
Cov Parm Estimate patient 11.5333 (用PROC GLM的RANDOM语句得不到此方差分量) Residual 7.8833 (组内相关系数ICC=11.53/(11.53+7.88)=0.59) Type 3 Tests of Fixed Effects Num Den Effect DF DF F Value Pr > F drug 1 5 6.61 0.0500 在本例中,对drug 的检验,用PROC MIXED的计算结果与用PROC GLM(2)的计算结 果同(F=6.61),即规定病人是固定效应,还是随机效应,对处理效应的检验结果没有 影响(这是由于方差的性质决定的,即观察值的方差与中心化值的方差相等).但 如果有缺失值时,其结果不同. 在本例的模型三中,假定病人具有随机效应.病人来自一个具有均值为0,方差为σα2的 正态分布总体.因此它们的期望值为0,但每个病人彼此不同。 每个病人都具有相同期望值的假定与直观不符.须根据每例病人的观察值,确定其在 正态分布中的一个位点.这一预报值的可信区间较固定效应的可信区间要窄,在统计10 学上称为收缩”shrunken”估计.
模型一:完全随机设计模型: βJ:第J种药物效应
yij j eij ,
Patient
1 2 3 4 5 6
eij ~ N 2
Treatment
A 20 26 16 29 22 24 B 12 24 17 21 21 17
cov( j eij , j ' ei ' j ' ) cov(eij , ei ' j ' ) 0
Difference (A – B)
8 2 -1 8 1 7
Patient Mean
16.0 25.0 16.5 25.0 21.5 20.5
Mean
22.83
18.67 4.17
20.75
从上表估计模型参数: μ=20.75, αA=22.83-20.75= 2.08, αB=18.67-20.75=-2.08 差值(difference)=22.83-18.67=4.17(或α A ─αB=2.08-(-2.08))
9
用SAS中的 PROC MIXED 计算结果:
PROC MIXED DATA= example_1; CLASS drug patient; MODEL y=drug; RANDOM patient / S; RUN; /* Model 3: Random effects model by using PROC MIXED */
ӯi
(Patient Mean) 16.0 25.0 16.5 25.0
5 6
Mean
22 24
22.83
21 17
18.67
1 7
4.17
21.5 20.5
20.75
构造三种模型: 1. 完全随机设计模型:不考虑区组(病人)效应: Yij= μ+βj +eij , βj 为药物效应 2.随机化区组设计模型: 考虑区组(病人)效应: Yij= μ+βj +αi+eij 3.随机效应模型:病人是从病人总体中随机的,也存在随机误差,统计学中用病人间的 方差来衡量这种随机误差.。 Yij= μ+βj +(γi)+eij == (μ +βj+ (γj+eij ), γj~N(0,τγ2),eij ~N(0,σe2) , Var(Yij)= (τγ2+σe2) 4 在此简单情况下,(3)与(2)等价,但解释不同。在有缺失值情况下的结果不同。
随机效应模型的反应变量估计或预报
在本例的模型三中,假定病人具有随机效应.即规定病人来自一个具有均值 为0,方差为σα2的正态分布总体.因此它们的期望值为0。 但每个病人彼此不同。每个病人都具有同一期望值的假定与直观不符.须根 据每例病人的观察值,确定其在正态分布中的一个位点.这一预报值的可信 区间较固定效应的可信区间要窄,在统计学上称为收缩”shrunken”估计.这一 收缩的幅度与病人方差分量和残差方差分量有关。当病人方差分量为0时, 所有病人的预报值相等。对每个病人的观察值越少时,收缩的幅度相对越 大。
Mean Square 52.0833333 30.9500000
F Value Pr > F 6.61 0.0500 3.93 0.0798
(与模型一比较,残差均方(Mean Square(Error,σ2)由19.4166667降到7.88)
difference A B 4.16 1 1 1 1 se( A B ) 2 7.88 1.62 6 6 nA nB
difference A B 4.16 1 1 1 1 se( A B ) 19.42 2.54 6 6 nA nB
2
7
模型二: 随机区组设计模型(考虑病人效应αi): yij=μ+βj+αi+eij
eij~N(0, σ2),
Mean Square 52.0833333 19.4166667
F Value Pr > F 2.68 0.1325
Means with the same letter are not significantly different. SNK Grouping A A A Mean 22.833 18.667 N 6 6 drug A B
8
模型三:病人为随机效应的模型:
yij j i eij eij ~ N 0, e2
i ~ N 0, 2
var yij 2 e2
在固定效应模型中, var yij e2
2 组内相关系数(Intracl ass correl ati on coeffi ci en t) =
difference A B 4.16 1 1 1 1 se( A B ) 19.42 2.54 6 6 nA nB
2
6
完全随机设计模型的 PROC GLM 计算结果:
PROC GLM DATA = example _1; /* Model 1: completely randomized design model */ CLASS drug; MODEL y=drug / SOLUTION; RUN;
例1:A.B两种治疗药物在同一病人体内实验,采用区组随机化设计方案(即用药 先后顺序是随机化的),对每种药物处理后的反应变量进行测定.用6例病人.结 果如下表.
Patient (i) 1 2 3 4 yij A (j=1) 20 26 16 29 B (j=2) 12 24 17 21 Difference (yi1 – yi2)) 8 2 -1 8
Fra Baidu bibliotek
2
e2
因此,对同一病人的不同观察之间是相关的,具有协方差 σγ2, 包含在总方差Var(yij)= σe2+σγ2内, σγ2和σe2 都称为方差分量.但特别指σγ2。
cov( yij , yi ' j ' ) cov j i , j ' i ' cov( i eij , i ' ei ' j ' ) cov( i , i ' ) 2 如果i i', 由于病人内部不独立 cov( i eij , i ' ei ' j ' ) 如果 i i' , 由于病人间是独立的 cov( i , i ' ) 0