多水平统计模型 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

多水平统计模型简介
A Brief Introduction to Multilevel Statistical Models

概述层次结构数据的普遍性经典方法及其局限性基本多水平模型多水平模型的应用
概
述
80 年代中后期，英、美等国教育统计学家开始探讨分析层次结构数据 (hierarchically structured data) 的统计方法，并相继提出不同的模型理论和算法。
e0为患者水平的方差成份。医院水平的方差成份，
2
组内相关的度量
方差成份模型中，应变量方差为
Varyij | 0 , 1 , xij Var(u0 j e0ij )
Var(u0 j ) Var(e0ij ) Cov(u0 j , e0ij )

2 u0

2 e0
将模型改记为：
yij 0 1 xij u0 j u1 j xij e0ij
即表达为固定部分与随机部分之和。其
中，固定效应用均数描述，它决定了全部医院的平均回归线，这条直线的截距即平均截
距 0 ，直线的斜率即平均斜率 1 。u1 j 为随
机系数。
随机效应用方差描述，它反映了各医院之间 y 的变异与协变量 x 的关系。
2 u1
的方差。
1 j 1 u1 j
Байду номын сангаас
Var (u1 j ) Cov(u0 j , u1 j ) u
u1 j示第
E(u0 j ) E(u1 j ) 0
2 u1
01
j 个医院的斜率与平均斜率的离
差值， u01 指上述截距离差值与斜率离差值的协方差，反映了它们之间的相关关系。
协变量 x 的关系在各医院间是相同的，换言之，医院间 y 的变异与协变量 x 的变化无关。
方差成份模型拟合 j 条平行的回归线，截
距不同( 0 j )，斜率相同( 1 )。
对医院水平残差的假定
2 E(u0 j ) 0， Var(u0 j ) u
0
对患者水平残差的假定与传统模型一致
0
的
，则不能忽略医院的存在。
水平 2 单位中的水平 1 单位间存在相关，通常的“普通最小二乘法”(Ordinary Least Squares OLS)进行参数估计是不适宜的。
进一步，如数据具有三个水平的层次结构，如医院、医生和患者三个水平，则将有两个这样的相关系数，即医院内相关和医生内相关。
随机系数模型
(Random Coefficient Model)
随机系数模型是指协变量的系数估计不是固定的而是随机的，即协变量对反应变量
的效应在不同的水平 2 单位间是不同的。
仍以医院与患者两水平数据结构说明随机系数模型基本结构与假设。
yij 0 j 1 j xij e0ij
此即水平 2 和水平 1 方差之和。同一医院中两个患者(用i1，i2 表示)间的协方差
为：
2 Cov u0 j e0i1 j , u0 j e0i2 j Covu0 j , u0 j u 0

组内相关(intra-class correlation, ICC)

多水平模型 (multilevel models) 最先应用于教育学领域，后用于心理学、社会学、经济学、组织行为与管理科学等领域，逐步应用到医学及公共卫生等领域。
Harvey Goldstein, UK, University of London, Institute of Education 《Multilevel Models in Educational and Social Research》1987
当数据存在层次结构时，随机误差项则不满足独立常方差的假定。模型的误差项不仅包含了模型不能解释的应变量的残差成份，也包含了高水平单位自身对应变量的效应成份。
多水平模型将单一的随机误差项分解到与数
据层次结构相应的各水平上，具有多个随机误差项并估计相应的残差方差及协方差。构建与数据层次结构相适应的复杂误差结构，这是多水平模型区别于经典模型的根本特征。
多水平分析的概念为人们提供了这样一个框架，即可将个体的结局联系到个体特征以及个体所在环境或背景特征进行分析，从而实现研究的事物与其所在背景的统一。
基本的多水平模型
经典模型的基本假定是单一水平和单一的随机误差项，并假定随机误差项独立、服从方差为
常量的正态分布，代表不能用模型解释的残留的
随机成份。
(Variance Component Model)
假定一个两水平的层次结构数据，医院为水
平 2 单位，患者为水平 1 单位，医院为相应总体
的随机样本，模型中仅有一个解释变量 x 。
yij 0 j 1 xij e0ij
j 1,2,...,m
示水平 2 单位示水平 1 单位
i 1,2,...,n j
Nicholas Longford, Princeton University,
Education Testing Service
《Random Coefficient Models》1993

多水平主成分分析多水平因子分析多水平判别分析多水平logistic回归多水平Cox模型多水平Poisson回归多水平时间序列分析多元多水平模型多水平结构方程模型
2 Var ( e ) E (e0ij ) 0 ， 0ij e0
水平 1 上的残差与水平 2 上的残差相互独立
Cov(u0 j , e0ij ) 0
yij 0 1 xij u0 j e0ij
反应变量可表达为固定部分 0 1 xij
随机部分 u0 j e0ij 之和。模型具有两个残差项，
上的一个实体。例如，每个子女是一个水平 1 单
位，每个家庭是一个水平 2 单位。
临床试验和动物实验的重复测量多中心临床试验研究纵向观测如儿童生长发育研究流行病学现场调查如整群抽样调查遗传学家系调查资料 meta 分析资料
层次结构数据为一种非独立数据，即某观察值在观察单位间或同一观察单位的各次观察间不独立或不完全独立，其大小常用组内相关 (intraclass correlation，ICC)度量。例如，来自同一家庭的子女，其生理和心理特征较从一般总体中随机抽取的个体趋向于更为相似，即子女特征在家庭中具有相似性或聚集性 (clustering)，数据是非独立的(non independent)。
非独立数据不满足经典方法的独立性条件，采用经典方法可能失去参数估计的有效性并导致不合理的推断结论。但非独立数据的组内相关结构各异，理论上，不同的结构应采用相应的统计方法。如纵向观测数据常用广义估计方程 (GEE)，但有两个局限性：一是对误差方差的分解仅局限于 2 水平的情形，二是没有考虑解释变量对误差方差的影响。当应变量的协差阵为分块对角阵时，一般采用多水平模型。
0 j 0 u0 j
0 为平均截距，反映 yij 与 xij 的平均关系，
即当 x 取 0 时，所有 y 的总平均估计值。
u0 j 为随机变量，表示第 j 个医院 y 之平均估
计值与总均数的离差值，反映了第 j 个医院对 y 的随机效应。
1 表示协变量 x 的固定效应估计值。即 y 与
与方差成份模型的区别在于 1 j 。
方差成份模型中协变量 xij 的系数估计为固定的 1 ，示协变量 xij 对反应变量的效应是固定不变的。在随机系数模型中协变量 xij 的系数估计为 1 j ，示每个医院都有其自身的斜率估计，表明协变量 xij 对反应变量的效应在各个医院间是不同的。
Anthony Bryk, University of Chicago Stephen Raudenbush, Michigan State University , Department of Educational Psychology
《Hierarchical Linear Models： Applications and Data Analysis Methods》1992

分解(disaggregation) 聚合(aggregation)

分解：不满足模型独立性假定，回归系数及其标准误的估计无效，且未能有效区分个体效应与背景效应。另一种分析策略是用哑变量拟合高水平单位的固定效应。聚合：损失大量水平1单位的信息，更严重的是可能导致“生态学谬误”(ecological fallacy)。
模型随机部分具多个残差项，需估计4个
随机参数，即方差协方差 u0 1 。

2 u0
、 2 和 2 以及
u1 e0
模型的反应变量方差为：
Varyij | 0 , 1 , xij Varu0 j u1 j xij e0ij
这是多水平模型区别于经典模型的关键部分。

与
u0 j 即水平 2 残差，随机效应、又称潜变量
(latent variable)
此模型需估计4个参数，除两个固定系数 0 和 1 ，
2 2 还需估计两个随机参数 u 和 e2。其中 u 即为 0 0 0

ML3 (1994) / MLN (1996) / MLwiN (1999)
HLM (Hierarchical Linear Model)
SAS (Mixed)
SPSS STATA
层次结构数据的普遍性
水平2
水平1
两水平层次结构数据
“水平” (level) ：指数据层次结构中的某一层次。例如，子女为低水平即水平 1 ，家庭为高水平即水平 2 。 “单位” (unit) ：指数据层次结构中某水平
0 j 的假定及其含义与方差成份模型一
致。现
1 j 为随机变量，假定：
E ( 1 j ) 1
Var(1 j )
2 u1
1 j 表示第 j 个医院的 y 随 x 变化的斜
率； 1 表示全部医院的 y 随 x 变化的斜率的平均值(平均斜率)。
是指各医院的 y 随 x 变化的斜率
yij
计,
和
xij 分别为第 j 个医院中第 i 个患者应变
1 为参数估
量观测值和解释变量观测值， 0 j 和
e0ij
为通常的随机误差项。
与经典模型的区别在于 0 j 。经典模型中的估计为 0 ，仅一个估计值，表示固定的截距，而在方差成份模型中 0 j 表示 j 个截距值，即当 x 取 0 时，第 j 个医院在基线水平时 y 的平均估计值。
多水平模型由固定与随机两部分构成，与一般的混合效应模型的不同之处在于，其随机部分可以包含解释变量，故又称为随机系数模型 (random coefficient model)，其组内相关也可为解释变量的函数。换言之，多水平模型可对不同水平上的误差方差进行深入和精细的分析。
1. 方差成份模型
2 u0
2 u0 2 e0

测量了医院间方差占总方差的比例，
实际上它反映了医院内个体间相关，即水平 1
单位(患者)在水平 2 单位(医院)中的聚集性或相似性。
由于模型不止一个残差项，就产生了非零的组内相关。若为 0，表明数据不具
层次结构，可忽略医院的存在，即简化为
2 传统的单水平模型；反之，若存在u非零
经典方法框架下的分析策略
经典的线性模型只对某一层数据的问题进行分析，而不能将涉及两层或多层数据的问题进行综合分析。但有时某个现象既受到水平 1变量的影响，又受到水平 2变量的影响，还受到两个水平变量的交互影响(cross-level interaction)。
个体的某事件既受到其自身特征的影响，也受到其生活环境的影响，即既有个体效应，也有环境或背景效应(context effect)。例如，个体发生某种牙病的危险可能与个体的遗传倾向、个体所属的社会阶层 (如饮食文化和口腔卫生习惯 ) 、环境因素 ( 如饮水中氟浓度 ) 等有关。