第25章 多水平统计模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

如何合理的分析层次数据?
多水平统计模型
回归的不同模式:
yij 0 1 xij e0ij
yij 0 j 1 xij e0ij
yij 0 j 1 j xij e0ij
第一节 方差成份模型
(Variance Component Model)
假定两水平的层次结构数据: 水平 2--医院,水平 1--患者 仅有一个解释变量 x
Subject specific effects of X on Pr(Death), OR = 20 per 1 unit increase in X Population average effect of X on Pr(Death), OR = 2.7 per 1 unit increase in X
Varyij | 0 , 1 , xij Var(u0 j e0ij )
Var(u0 j ) Var(e0ij ) Cov(u0 j , e0ij )

2 u0

2 e0
即水平 2 和水平 1 方差之和
同一医院中两个患者(用i1,i2 表示)间的协方差:
Cov u0 j e0i1 j , u0 j e0i2 j Covu0 j , u0 j
假定已知方差
2 u0的值,则可直接构造
残差的协方差矩阵 V 采用广义最小二乘法 (Generalized Least
Squares GLS)可获得固定系数的估计:
β = (X V X) X V Y
T
-1
Байду номын сангаас-1
T
-1
假定方差
2 u0未知
在初始阶段,假定

2 u0 =
0 ,则给出固定系数
ˆ ,得到粗残差: 通常的 OLS 估计 (0)
可将这些向量间关系表达为以下线性模型:


~ y 2 11 ~ ~ y 21 y11 ~ y 31 ~ y11 ~ ~ y11 y 21 2 ~ y 21 = . . . ~ ~ y12 y 22 ~2 y 22

重复测量值:
医院1
1水平
医院2
个体1
个体2
个体1
个体2
个体3
重复测量 1
重复测量 2
重复测量 1
重复测量 2
重复测量 1
重复测量 2
重复测量 1
重复测量 2
重复测量 2
重复测量 1
重复测量 2
3
水平 (level) :
数据层次结构中的某一层次 单位 (unit) : 数据层次结构中某水平上的一个实体
层次结构数据
非独立数据:
如同一只雌性大鼠的重复观测值 同一家庭的子女,其生理和心理特征更为相
似,相似性或聚集性(clustering)
相 关 程 度 常 用 组 内 相 关 (intra-class
correlation, ICC)度量
两水平层次结构示意图
水平2
水平1
非独立:相关程度常用组内相关 (intra-class correlation,ICC)度量
~ ˆ ˆx ) yij yij ( 0 1 ij
对应于 2 个医院,一个诊疗 3 名患者,另
~~T 和 一个诊疗 2 名患者,则 VecY Y Vec (V ) 均具
~ ~ T 的期望为 有 9+4=13 个元素。因为 YY V
~~T Vec YY Vec(V ) R
究独立且研究假设相同,可以得到的数据包括各项研究的
OR值或Ln(OR)值及其标准误、研究水平上的有关解释变 量包括样本含量、是否进行性别调整以及设计类型等。
2016/4/14
高级卫生统计学
41
三、应用实例
表25-1 49篇吸烟与肺癌文献的研究结果
样本含量
研究 Ln(OR) 1 2 … 49 3.12 1.59 … -0.32
2016/4/14
高级卫生统计学
17
yij 0 j 1 xij e0ij
j 1,2,...,m
水平 2 单位
i 1,2,...,n j 水平 1 单位
yij

xij 分别为第 j 个医院中第 i 个患者应变
量观测值和解释变量观测值
0 j 和 1 为参数
e0ij
为随机误差项
2016/4/14
高级卫生统计学
44
三、应用实例
表 25-2 模型的拟合结果 估计值 固定参数 随机参数(水平 2) (水平 1) 1.44 0.63 1.00 标准误 0.11 0.12 0.00 160.00 24.38 -P <0.01 <0.01 --
全部Ln(OR)的平均估计值:1.44
固定部分 随机部分
两个残差项,多水平模型区别于经典模型的关键
u0 j 即水平2残差,随机效应
需估计4个参数: 两个固定系数0 和 1
2 2 两个随机参数 u 和 e
0 0
其中
2 u0
医院水平的方差成份
e2 患者水平的方差成份
0
组内相关的度量
方差成份模型中,应变量方差为
2 u
Var e. j e2 n j
Y. j
2016/4/14
为第j个研究的Ln(OR)值
高级卫生统计学
43
三、应用实例
总方差:
Var Y. j
2 u
2 e
nj
定义:
z0 1, z1 j 1
nj
变换为:
Y. j 0 u. j e. j z1 j
分解:

不满足模型独立性假定,回归系数及其标准误
的估计无效

未能有效分析水平高的效应
聚合:


损失大量水平1单位的信息
可能导致“生态学谬误”(ecological fallacy)

根据聚合单位的分析结果作关于个体的断言, 研究结果与真实情况不符
一个虚拟的例子(Extreme Example )
2016/4/14 高级卫生统计学 45
三、应用实例
引入解释变量:
Y. j 0 1 X1. j 2 X 2. j u. j e. j z1 j
X1. j
第25章
第二十五章 多水平统计模型
Multilevel Statistical Models
2016/4/14
高级卫生统计学
1
内容
第一节 方差成份模型 第二节 随机系数模型 第三节 离散数据的多水平模型
2016/4/14
高级卫生统计学
2
多中心临床试验的多水平结构


中心(医院):
个体:
3水平
2水平
应变量向量的协方差结构
两水平数据结构
只包括随机参数 和
2 u0
2 e0
Varyij | 0 , 1 , xij Var(u0 j e0ij )

2 u0
2 e0
同一医院所诊疗的三名患者的协差阵:
2 u0 u2 0
2 u0

2 e0
1 0 0 0 1 +R . . . 0 1
R 为一个残差向量
模型右边包含两个已知的解释变量,其系数即
待估计的随机参数
2 u0和

2 e0
0 0
2 通过 GLS 方法获得 u 和 e 的估计 2
2 2 1 u0 e0 2 u0 1 2 1 u0 2 u0 1 2 2 1 u e 0 0 2 +R= + u0 . . . . . . 2 u0 1 2 2 1 u0 e0
nj
性别调整 1 0 … 1
X1. j
设计类型 X 2. j 1 0 … 1
(0=未调整、1=调整) (0=病例对照、1=队列研究)
598 10704 … 226
2016/4/14
高级卫生统计学
42
三、应用实例
水平 2:文献研究结果(效应尺度) 水平1:个体数据不可得
Y. j 0 u. j e. j Var u. j


2 u0
组内相关(intra-class correlation, ICC)


2 u0
2 u0 2 e0

反映了医院内个体间相关,即水平 1 单位(患者) 在水平 2 单位(医院)中的聚集性或相似性
0
不具层次结构,可忽略医院的存在 简化为传统的单水平模型
0
不能忽略医院的存在 采用多水平模型
固定与随机参数估计
迭 代 广 义 最 小 二 乘 算 法 (Iterative Generalized
Least Squares,IGLS) (Goldstein,1986)
限制性迭代广义最小二乘法(Restricted Iterative
Generalized Least Squares,RIGLS) (Goldstein, 1989)
2 e0

2 u0
2 u0 2 e0

2 u0
2 u0 2 2 u0 e0

2 u0
医院1:3名患者 , 医院2:2名患者
应变量向量 Y 总的协方差阵:
u20 e20 u20 u20 2 2 2 2 u0 e0 u0 u0 2 2 2 2 u0 u0 e0 u0 u20 e20 u20 2 2 2 u0 u0 e0
区别: 经典模型: 方差成份模型:
0
0 j
第j 个截距值:x = 0 时,第 j 个医院 y 的平均 估计值
0 j 0 u0 j
0 为平均截距,反映 yij 与 x 的平均关系, ij
x = 0 时,所有 y 的总平均估计值
u0 j 为随机变量,表示第 j 个医院 y 之平均估
如发生牙病的危险与个体的遗传倾向、饮食文化、环境
因素(氟)等有关

经典模型 单一水平 多水平
层次结构数据
随机误差项单一 随机误差项>=2 包含高水平单位对应变量的效应 独立 非独立
采用经典模型可能失去参数估计的有效性
经典方法框架下的分析策略

分解(disaggregation)

聚合(aggregation)
两水平方差成份模型:
yij 0 1x1ij u0 j e0ij
1 x11 1 x 21 . . X . . . . 1 xn m m
y11 y 21 . Y . . yn m m
常见的层次结构数据
多中心临床试验研究 临床试验和动物实验的重复测量 纵向观测 如儿童生长发育研究 流行病学现场调查 如整群抽样调查 遗传学 家系调查资料 meta 分析资料
经典线性模型只对某一层数据进行分析
层次结构数据:

可能同时受水平1和水平2变量的影响

还受到两个水平变量的交互影响(cross-level interaction)
计值与总均数的离差值,反映了第 j 个医院对 y 的 随机效应
1 表示协变量 x 的固定效应估计值
y 与协变量 x 的关系在各医院间是相同的
医院间 y 的变异与协变量 x 的变化无关
方差成份模型拟合 j 条平行的回归线,截 距不同( 0 j ),斜率相同( 1 ) 随机截距模型
对医院水平残差的假定
回到初始模型则获得固定系数新的估计
在随机与固定参数估计间反复迭代直至收敛
分析软件
ML3 (1994) / MLN (1996) / MLwiN (1999)
HLM (Hierarchical Linear Model)
SAS (Mixed)
三、应用实例
例25-1 检索有关吸烟与肺癌关系研究的文献共49篇,各项研
E(u0 j ) 0 , Var(u0 j )
E (e0ij ) 0 , Var(e0ij )
Cov(u0 j , e0ij ) 0
2 u0
对患者水平残差的假定与传统模型一致
2 e0
水平 1 上的残差与水平 2 上的残差相互独立
yij 0 1 xij u0 j e0ij
相关文档
最新文档