多水平统计模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《Hierarchical Linear Models: Applications and
Data Analysis Methods》1992
A
5
Nicholas Longford, Princeton University, Education Testing Service 《Random Coefficient Models》1993
A
37
进一步,如数据具有三个水平的层次 结构,如医院、医生和患者三个水平,则 将有两个这样的相关系数,即医院内相关 和医生内相关。
A
38
随机系数模型
(Random Coefficient Model)
随机系数模型是指协变量的系数估计不 是固定的而是随机的,即协变量对反应变量 的效应在不同的水平 2 单位间是不同的。
例如,来自同一家庭的子女,其生理和心理 特征较从一般总体中随机抽取的个体趋向于更为 相似,即子女特征在家庭中具有相似性或聚集性 (clustering),数据是非独立的(non independent)。
A
12
非独立数据不满足经典方法的独立性条件, 采用经典方法可能失去参数估计的有效性并导致 不合理的推断结论。
零的组内相关。若 为 0,表明数据不具层
次结构,可忽略医院的存在,即简化为传 统的单水平模型;反之,若存在非零的 u20 , 则不能忽略医院的存在。
A
36
水平 2 单位中的水平 1 单位间存在相关, 通常的“普通最小二乘法”(Ordinary Least Squares OLS)进行参数估计是不适宜的。
即表达为固定部分与随机部分之和。其 中,固定效应用均数描述,它决定了全部医 院的平均回归线,这条直线的截距即平均截
距 0 ,直线的斜率即平均斜率 1 。u 1 j 为随
机系数。
A
45
随机效应用方差描述,它反映了各
医院之间 y 的变异与协变量 x 的关系。
模型随机部分具多个残差项,需估计4个
随机参数,即方差
V a r ( u 0 j) V a r ( e 0 ij) C o v ( u 0 j,e 0 ij)
2
2
u0
e0
A
32
此即水平 2 和水平 1 方差之和。
同一医院中两个患者(用i1,i2 表示)间的协方差 为:
C u 0 j e 0 o i 1 j , u 0 j v e 0 i 2 j C u 0 j , u 0 j o u 2 0 v
2 u0
、
2 u1
和
2 以及
e0
协方差 u 01 。
A
46
模型的反应变量方差为:
V y i|j0 a ,1 , x i r j V u 0 j u a 1 j x i j e 0 i r j
u 2 02u 0x 1iju 2 1xi2je 2 0
表明各医院间 y 的变异与协变量 x 有关,
A
30
此模型需估计4个参数,除两个固定系数 0 和 1 ,
还需估计两个随机参数
2 u0
和
2 。其中
e0
2 u0
即为
医院水平的方差成份, e20为患者水平的方差成份。
A
31
组内相关的度量
方差成份模型中,应变量方差为
V y i|j a 0 ,1 , r x ij V ( u 0 j a e 0 i) jr
A
33
组内相关(intra-class correlation, ICC)
2 u0
2
2
u0
e0
A
34
测 量 了 医 院 间 方 差 占 总 方 差 的 比 例 ,
实际上它反映了医院内个体间相关,即水平 1 单位(患者)在水平 2 单位(医院)中的聚集性或 相似性。
A
35
由于模型不止一个残差项,就产生了非
《Multilevel Models in Educational and Social Research》1987
A
4
Anthony Bryk, University of Chicago Stephen Raudenbush, Michigan State University , Department of Educational Psychology
SAS (Mixed) SPSS STATA
A
8
层次结构数据的普遍性
水平2 水平1
两水平层次结构数据
A
9
“水平” (level) :指数据层次结构中的某一层 次。例如,子女为低水平即水平 1 ,家庭为高水 平即水平 2 。
“单位” (unit) :指数据层次结构中某水平 上的一个实体。例如,每个子女是一个水平 1 单 位,每个家庭是一个水平 2 单位。
医院间 y 的变异与协变量 x 的变化无关。
A
27
方差成份模型拟合 j 条平行的回归线,截
距不同( 0 j ),斜率相同( 1 )。
A
28
来自百度文库
对医院水平残差的假定
E(u0j ) 0,
Va(u r0j)
2 u0
对患者水平残差的假定与传统模型一致
E(e0ij) 0, Va(er0ij)e20
水平 1 上的残差与水平 2 上的残差相互独立
例如,个体发生某种牙病的危险可能与个体 的遗传倾向、个体所属的社会阶层(如饮食文化和 口腔卫生习惯)、环境因素(如饮水中氟浓度)等有 关。
A
15
分解(disaggregation) 聚合(aggregation)
A
16
分解:不满足模型独立性假定,回归系数及 其标准误的估计无效,且未能有效区分个体效应 与背景效应。另一种分析策略是用哑变量拟合高 水平单位的固定效应。
A
25
0j 0u0j
0 为平均截距,反映 y ij 与 x ij 的平均关系,
即当 x 取 0 时,所有 y 的总平均估计值。
u 0 j 为随机变量,表示第 j 个医院 y 之平均估
计值与总均数的离差值,反映了第 j 个医院对 y 的 随机效应。
A
26
表示协变量
1
x
的固定效应估计值。即
y
与
协变量 x 的关系在各医院间是相同的,换言之,
Co(uv0j,e0ij)0
A
29
y i j 0 1 x i j u 0 j e 0 i j
反应变量可表达为固定部分 01xij 与 随机部分 u0j e0ij 之和。模型具有两个残差项,
这是多水平模型区别于经典模型的关键部分。
u 0 j 即水平2残差,随机效应、又称潜变量
(latent variable)
A
19
当数据存在层次结构时,随机误差项则不满足 独立常方差的假定。模型的误差项不仅包含了模型 不能解释的应变量的残差成份,也包含了高水平单 位自身对应变量的效应成份。
A
20
多水平模型将单一的随机误差项分解到与数 据层次结构相应的各水平上,具有多个随机误差 项并估计相应的残差方差及协方差。构建与数据 层次结构相适应的复杂误差结构,这是多水平模 型区别于经典模型的根本特征。
A
6
多水平主成分分析 多水平因子分析 多水平判别分析 多水平logistic回归 多水平Cox模型 多水平Poisson回归 多水平时间序列分析 多元多水平模型 多水平结构方程模型
A
7
✓ ML3 (1994) / MLN (1996) / MLwiN (1999)
✓ HLM (Hierarchical Linear Model)
2 u1
是指各医院的
y
随
x
变化的斜率
的方差。
A
43
1j 1u1j
E(u0j)E(u1j)0
Var(u1j
)
2 u1
C ov(u0j,u1j)u01
u 1 j示第 j 个医院的斜率与平均斜率的离
差值, u01 指上述截距离差值与斜率离差值的
协方差,反映了它们之间的相关关系。
A
44
将模型改记为: y i j 0 1 x i ju 0 j u 1 j x i je 0 ij
多水平模型(multilevel models)最先应用于教育 学领域,后用于心理学、社会学、经济学、组织行 为与管理科学等领域,逐步应用到医学及公共卫生 等领域。
A
3
Harvey Goldstein, UK, University of London, Institute of Education
A
21
多水平模型由固定与随机两部分构成,与一
般的混合效应模型的不同之处在于,其随机部分 可以包含解释变量,故又称为随机系数模型 (random coefficient model),其组内相关也可为 解释变量的函数。换言之,多水平模型可对不同 水平上的误差方差进行深入和精细的分析。
A
22
1. 方差成份模型 (Variance Component Model)
经典的线性模型只对某一层数据的问题进行 分析,而不能将涉及两层或多层数据的问题进行 综合分析。
但有时某个现象既受到水平1变量的影响, 又受到水平2变量的影响,还受到两个水平变量 的交互影响(cross-level interaction)。
A
14
个体的某事件既受到其自身特征的影响,也 受到其生活环境的影响,即既有个体效应,也有 环境或背景效应(context effect)。
仍以医院与患者两水平数据结构说明随 机系数模型基本结构与假设。
A
39
yij0j 1jxije0ij
与方差成份模型的区别在于 1 j 。
A
40
方差成份模型中协变量 x ij 的系数估计为 固定的 1 ,示协变量 x ij 对反应变量的效应 是固定不变的。在随机系数模型中协变量 x ij
的系数估计为 1 j ,示每个医院都有其自身的
即每条回归线不仅截距不同,且斜率也不同。
斜率估计,表明协变量 x ij 对反应变量的效应
在各个医院间是不同的。
A
41
0 j 的假定及其含义与方差成份模型一
致。现 1 j 为随机变量,假定:
E(1j)1 Va(r1j)u21
A
42
1 j 表示第 j 个医院的 y 随 x 变化的斜
率; 1 表示全部医院的 y 随 x 变化的斜率
的平均值(平均斜率)。
假定一个两水平的层次结构数据,医院为水平 2 单位,患者为水平 1 单位,医院为相应总体的 随机样本,模型中仅有一个解释变量 x 。
A
23
yij0j1xije0ij
j1,2,...m , 示水平 2 单位 i 1,2,...n,j 示水平 1 单位
x y ij 和 ij 分别为第 j 个医院中第 i 个患者应变
聚合:损失大量水平1单位的信息,更严重的 是可能导致“生态学谬误”(ecological fallacy)。
A
17
多水平分析的概念为人们提供了这样一个框架,即 可将个体的结局联系到个体特征以及个体所在环境或背 景特征进行分析,从而实现研究的事物与其所在背景的 统一。
A
18
基本的多水平模型
经典模型的基本假定是单一水平和单一的随 机误差项,并假定随机误差项独立、服从方差为 常量的正态分布,代表不能用模型解释的残留的 随机成份。
A
10
临床试验和动物实验的重复测量 多中心临床试验研究 纵向观测如儿童生长发育研究 流行病学现场调查如整群抽样调查 遗传学家系调查资料 meta 分析资料
A
11
层次结构数据为一种非独立数据,即某观察 值在观察单位间或同一观察单位的各次观察间不 独立或不完全独立,其大小常用组内相关(intraclass correlation,ICC)度量。
量观测值和解释变量观测值, 0 j 和 1 为参数估
计, e 0 ij 为通常的随机误差项。
A
24
与经典模型的区别在于 0 j 。经典模型中的估 计为 0 ,仅一个估计值,表示固定的截距,而在 方差成份模型中 0 j 表示 j 个截距值,即当 x 取 0
时,第 j 个医院在基线水平时 y 的平均估计值。
但非独立数据的组内相关结构各异,理论上, 不同的结构应采用相应的统计方法。如纵向观测 数据常用广义估计方程(GEE),但有两个局限性: 一是对误差方差的分解仅局限于2水平的情形, 二是没有考虑解释变量对误差方差的影响。当应 变量的协差阵为分块对角阵时,一般采用多水平 模型。
A
13
经典方法框架下的分析策略
多水平统计模型简介
A Brief Introduction to Multilevel Statistical Models
A
1
概述 层次结构数据的普遍性 经典方法及其局限性 基本多水平模型 多水平模型的应用
A
2
概述
80 年代中后期,英、美等国教育统计学家开始 探 讨 分 析 层 次 结 构 数 据 (hierarchically structured data)的统计方法,并相继提出不同的模型理论和算 法。
Data Analysis Methods》1992
A
5
Nicholas Longford, Princeton University, Education Testing Service 《Random Coefficient Models》1993
A
37
进一步,如数据具有三个水平的层次 结构,如医院、医生和患者三个水平,则 将有两个这样的相关系数,即医院内相关 和医生内相关。
A
38
随机系数模型
(Random Coefficient Model)
随机系数模型是指协变量的系数估计不 是固定的而是随机的,即协变量对反应变量 的效应在不同的水平 2 单位间是不同的。
例如,来自同一家庭的子女,其生理和心理 特征较从一般总体中随机抽取的个体趋向于更为 相似,即子女特征在家庭中具有相似性或聚集性 (clustering),数据是非独立的(non independent)。
A
12
非独立数据不满足经典方法的独立性条件, 采用经典方法可能失去参数估计的有效性并导致 不合理的推断结论。
零的组内相关。若 为 0,表明数据不具层
次结构,可忽略医院的存在,即简化为传 统的单水平模型;反之,若存在非零的 u20 , 则不能忽略医院的存在。
A
36
水平 2 单位中的水平 1 单位间存在相关, 通常的“普通最小二乘法”(Ordinary Least Squares OLS)进行参数估计是不适宜的。
即表达为固定部分与随机部分之和。其 中,固定效应用均数描述,它决定了全部医 院的平均回归线,这条直线的截距即平均截
距 0 ,直线的斜率即平均斜率 1 。u 1 j 为随
机系数。
A
45
随机效应用方差描述,它反映了各
医院之间 y 的变异与协变量 x 的关系。
模型随机部分具多个残差项,需估计4个
随机参数,即方差
V a r ( u 0 j) V a r ( e 0 ij) C o v ( u 0 j,e 0 ij)
2
2
u0
e0
A
32
此即水平 2 和水平 1 方差之和。
同一医院中两个患者(用i1,i2 表示)间的协方差 为:
C u 0 j e 0 o i 1 j , u 0 j v e 0 i 2 j C u 0 j , u 0 j o u 2 0 v
2 u0
、
2 u1
和
2 以及
e0
协方差 u 01 。
A
46
模型的反应变量方差为:
V y i|j0 a ,1 , x i r j V u 0 j u a 1 j x i j e 0 i r j
u 2 02u 0x 1iju 2 1xi2je 2 0
表明各医院间 y 的变异与协变量 x 有关,
A
30
此模型需估计4个参数,除两个固定系数 0 和 1 ,
还需估计两个随机参数
2 u0
和
2 。其中
e0
2 u0
即为
医院水平的方差成份, e20为患者水平的方差成份。
A
31
组内相关的度量
方差成份模型中,应变量方差为
V y i|j a 0 ,1 , r x ij V ( u 0 j a e 0 i) jr
A
33
组内相关(intra-class correlation, ICC)
2 u0
2
2
u0
e0
A
34
测 量 了 医 院 间 方 差 占 总 方 差 的 比 例 ,
实际上它反映了医院内个体间相关,即水平 1 单位(患者)在水平 2 单位(医院)中的聚集性或 相似性。
A
35
由于模型不止一个残差项,就产生了非
《Multilevel Models in Educational and Social Research》1987
A
4
Anthony Bryk, University of Chicago Stephen Raudenbush, Michigan State University , Department of Educational Psychology
SAS (Mixed) SPSS STATA
A
8
层次结构数据的普遍性
水平2 水平1
两水平层次结构数据
A
9
“水平” (level) :指数据层次结构中的某一层 次。例如,子女为低水平即水平 1 ,家庭为高水 平即水平 2 。
“单位” (unit) :指数据层次结构中某水平 上的一个实体。例如,每个子女是一个水平 1 单 位,每个家庭是一个水平 2 单位。
医院间 y 的变异与协变量 x 的变化无关。
A
27
方差成份模型拟合 j 条平行的回归线,截
距不同( 0 j ),斜率相同( 1 )。
A
28
来自百度文库
对医院水平残差的假定
E(u0j ) 0,
Va(u r0j)
2 u0
对患者水平残差的假定与传统模型一致
E(e0ij) 0, Va(er0ij)e20
水平 1 上的残差与水平 2 上的残差相互独立
例如,个体发生某种牙病的危险可能与个体 的遗传倾向、个体所属的社会阶层(如饮食文化和 口腔卫生习惯)、环境因素(如饮水中氟浓度)等有 关。
A
15
分解(disaggregation) 聚合(aggregation)
A
16
分解:不满足模型独立性假定,回归系数及 其标准误的估计无效,且未能有效区分个体效应 与背景效应。另一种分析策略是用哑变量拟合高 水平单位的固定效应。
A
25
0j 0u0j
0 为平均截距,反映 y ij 与 x ij 的平均关系,
即当 x 取 0 时,所有 y 的总平均估计值。
u 0 j 为随机变量,表示第 j 个医院 y 之平均估
计值与总均数的离差值,反映了第 j 个医院对 y 的 随机效应。
A
26
表示协变量
1
x
的固定效应估计值。即
y
与
协变量 x 的关系在各医院间是相同的,换言之,
Co(uv0j,e0ij)0
A
29
y i j 0 1 x i j u 0 j e 0 i j
反应变量可表达为固定部分 01xij 与 随机部分 u0j e0ij 之和。模型具有两个残差项,
这是多水平模型区别于经典模型的关键部分。
u 0 j 即水平2残差,随机效应、又称潜变量
(latent variable)
A
19
当数据存在层次结构时,随机误差项则不满足 独立常方差的假定。模型的误差项不仅包含了模型 不能解释的应变量的残差成份,也包含了高水平单 位自身对应变量的效应成份。
A
20
多水平模型将单一的随机误差项分解到与数 据层次结构相应的各水平上,具有多个随机误差 项并估计相应的残差方差及协方差。构建与数据 层次结构相适应的复杂误差结构,这是多水平模 型区别于经典模型的根本特征。
A
6
多水平主成分分析 多水平因子分析 多水平判别分析 多水平logistic回归 多水平Cox模型 多水平Poisson回归 多水平时间序列分析 多元多水平模型 多水平结构方程模型
A
7
✓ ML3 (1994) / MLN (1996) / MLwiN (1999)
✓ HLM (Hierarchical Linear Model)
2 u1
是指各医院的
y
随
x
变化的斜率
的方差。
A
43
1j 1u1j
E(u0j)E(u1j)0
Var(u1j
)
2 u1
C ov(u0j,u1j)u01
u 1 j示第 j 个医院的斜率与平均斜率的离
差值, u01 指上述截距离差值与斜率离差值的
协方差,反映了它们之间的相关关系。
A
44
将模型改记为: y i j 0 1 x i ju 0 j u 1 j x i je 0 ij
多水平模型(multilevel models)最先应用于教育 学领域,后用于心理学、社会学、经济学、组织行 为与管理科学等领域,逐步应用到医学及公共卫生 等领域。
A
3
Harvey Goldstein, UK, University of London, Institute of Education
A
21
多水平模型由固定与随机两部分构成,与一
般的混合效应模型的不同之处在于,其随机部分 可以包含解释变量,故又称为随机系数模型 (random coefficient model),其组内相关也可为 解释变量的函数。换言之,多水平模型可对不同 水平上的误差方差进行深入和精细的分析。
A
22
1. 方差成份模型 (Variance Component Model)
经典的线性模型只对某一层数据的问题进行 分析,而不能将涉及两层或多层数据的问题进行 综合分析。
但有时某个现象既受到水平1变量的影响, 又受到水平2变量的影响,还受到两个水平变量 的交互影响(cross-level interaction)。
A
14
个体的某事件既受到其自身特征的影响,也 受到其生活环境的影响,即既有个体效应,也有 环境或背景效应(context effect)。
仍以医院与患者两水平数据结构说明随 机系数模型基本结构与假设。
A
39
yij0j 1jxije0ij
与方差成份模型的区别在于 1 j 。
A
40
方差成份模型中协变量 x ij 的系数估计为 固定的 1 ,示协变量 x ij 对反应变量的效应 是固定不变的。在随机系数模型中协变量 x ij
的系数估计为 1 j ,示每个医院都有其自身的
即每条回归线不仅截距不同,且斜率也不同。
斜率估计,表明协变量 x ij 对反应变量的效应
在各个医院间是不同的。
A
41
0 j 的假定及其含义与方差成份模型一
致。现 1 j 为随机变量,假定:
E(1j)1 Va(r1j)u21
A
42
1 j 表示第 j 个医院的 y 随 x 变化的斜
率; 1 表示全部医院的 y 随 x 变化的斜率
的平均值(平均斜率)。
假定一个两水平的层次结构数据,医院为水平 2 单位,患者为水平 1 单位,医院为相应总体的 随机样本,模型中仅有一个解释变量 x 。
A
23
yij0j1xije0ij
j1,2,...m , 示水平 2 单位 i 1,2,...n,j 示水平 1 单位
x y ij 和 ij 分别为第 j 个医院中第 i 个患者应变
聚合:损失大量水平1单位的信息,更严重的 是可能导致“生态学谬误”(ecological fallacy)。
A
17
多水平分析的概念为人们提供了这样一个框架,即 可将个体的结局联系到个体特征以及个体所在环境或背 景特征进行分析,从而实现研究的事物与其所在背景的 统一。
A
18
基本的多水平模型
经典模型的基本假定是单一水平和单一的随 机误差项,并假定随机误差项独立、服从方差为 常量的正态分布,代表不能用模型解释的残留的 随机成份。
A
10
临床试验和动物实验的重复测量 多中心临床试验研究 纵向观测如儿童生长发育研究 流行病学现场调查如整群抽样调查 遗传学家系调查资料 meta 分析资料
A
11
层次结构数据为一种非独立数据,即某观察 值在观察单位间或同一观察单位的各次观察间不 独立或不完全独立,其大小常用组内相关(intraclass correlation,ICC)度量。
量观测值和解释变量观测值, 0 j 和 1 为参数估
计, e 0 ij 为通常的随机误差项。
A
24
与经典模型的区别在于 0 j 。经典模型中的估 计为 0 ,仅一个估计值,表示固定的截距,而在 方差成份模型中 0 j 表示 j 个截距值,即当 x 取 0
时,第 j 个医院在基线水平时 y 的平均估计值。
但非独立数据的组内相关结构各异,理论上, 不同的结构应采用相应的统计方法。如纵向观测 数据常用广义估计方程(GEE),但有两个局限性: 一是对误差方差的分解仅局限于2水平的情形, 二是没有考虑解释变量对误差方差的影响。当应 变量的协差阵为分块对角阵时,一般采用多水平 模型。
A
13
经典方法框架下的分析策略
多水平统计模型简介
A Brief Introduction to Multilevel Statistical Models
A
1
概述 层次结构数据的普遍性 经典方法及其局限性 基本多水平模型 多水平模型的应用
A
2
概述
80 年代中后期,英、美等国教育统计学家开始 探 讨 分 析 层 次 结 构 数 据 (hierarchically structured data)的统计方法,并相继提出不同的模型理论和算 法。