第25章 多水平统计模型
多水平模型简介

,
*条件两水平模型 *条件两水平模型既是在截距模型中加入了解释变
量,其中既包括一水平解释变量也可能包括二水 平解释变量。设 为因变量, 为一水平解释变量, 为二水平解释变量,且均为线性函数形式的关系 (可以具有其他函数形式的关系)。
当只有一水平解释变量时模型如下:
水平1: yij i i xij eij
以定义水平1方差可解释的比例
R1
ˆ
2
(零模型ˆ(2)零 模ˆ(2 型设)定模型)
1
ˆ 2 (设定模型) ˆ(2 零模型)
水平2方差可解释的比例
R220
ˆu20 (零模型ˆu20)(零模ˆu2(0型设)定模型) 1
ˆu2(0 设定模型) ˆu20 (零模型)
*例1:农户的收入函数模型
*为了研究影响西部民族地区农户收入的因素,我们考虑如下变量:
水平2: i 0 u0i i 0 u1i
总模型为:
yij 0 0 xij u0i u1i eij
*当存在二水平解释变量时模型如下:
水平1: yij i i xij eij
水平2: i 0 1wi u0i
总模型为:
i 0 1wi u1i
yij 0 1wi 0 xij 1wi xij u0i u1i xij eij
因此在对学习成绩与个体水平变量如性别智力水平种族等关系的研究中可将学生个体嵌套在班级里而将班级嵌套在学校里的形式迚行数据采集由此形成了3个水平层次的结构数据第1个水平层次的观察数据单位是学生个体第2个水平层次的观察数据单位是班级第3个水平层次的观察数据单位是学校
*
* 社会科学研究中的一个基本概念是,社会是一个具有分级结构的
*
*
* till和Structure的方差估计分别为0.002449和0.01518,对应的Z
多水平统计模型简介SPSS操作

-数据变换,增加样本含量
2.方差非齐性
-增加协变量 -数据变换 -广义线性模型或非线性模型
3.独立性不满足
-S.E.的稳健估计 -GEE估计方法 -拟合非独立性来源的模型
Chongqing Medical University Peng Bin
非独立性来源
1.区域环境对反应变量的影响
还需估计三个随机参数
2 u0
u21和
。e20 其中
u2即0 为
学校水平的方差成份, 为e学20 生水平的方差成份。
1.模型中的参数估计值、标准误有偏差 2.残差方差偏大,即模型拟合优度差 3.损失高水平(如水平二:学校)对结果的影响信息
Chongqing Medical University Peng Bin
基本的多水平模型
• 经典模型的基本假定是单一水平和单一的随机 误差项,并假定随机误差项独立、服从方差为 常量的正态分布,代表不能用模型解释的残留 的随机成份
截距不同,斜率不同
yij 0 j 1 j xij eij
Chongqing Medical University Peng Bin
按学校绘制散点图及拟合线
该模型即为多水平模型
yij 0 j 1 j xij eij
Chongqing Medical University Peng Bin
0 j 00 u0 j
00 为平均截距,反映 yij 与 xij 的平均关系,
即当 x 取 0 时,所有 y 的总平均估计值。
u0 j 为随机变量,表示第 j 个学校 y 的平均估
计值与总均数的离差值,反映了第 j 个学校对 y 的 随机效应。
Chongqing Medical University Peng Bin
多水平统计分析模型(混合效应模型)

多⽔平统计分析模型(混合效应模型)⼀、概述普通的线性回归只包含两项影响因素,即固定效应(fixed-effect)和噪声(noise)。
噪声是我们模型中没有考虑的随机因素。
⽽固定效应是那些可预测因素,⽽且能完整的划分总体。
例如模型中的性别变量,我们清楚只有两种性别,⽽且理解这种变量的变化对结果的影响。
那么为什么需要 Mixed-effect Model?因为有些现实的复杂数据是普通线性回归是处理不了的。
例如我们对⼀些⼈群进⾏重复测量,此时存在两种随机因素会影响模型,⼀种是对某个⼈重复测试⽽形成的随机噪声,另⼀种是因为⼈和⼈不同⽽形成的随机效应(random effect)。
如果将⼀个⼈的测量数据看作⼀个组,随机因素就包括了组内随机因素(noise)和组间随机因素(random effect)。
这种嵌套的随机因素结构违反了普通线性回归的假设条件。
你可能会把⼈员(组间的随机效应)看作是⼀种分类变量放到普通线性回归模型中,但这样作是得不偿失的。
有可能这个factor的level很多,可能会⽤去很多⾃由度。
更重要的是,这样作没什么意义。
因为⼈员ID和性别不⼀样,我们不清楚它的意义,⽽且它也不能完整的划分总体。
也就是说样本数据中的路⼈甲,路⼈⼄不能完全代表总体的⼈员ID。
因为它是随机的,我们并不关⼼它的作⽤,只是因为它会影响到模型,所以不得不考虑它。
因此对于随机效应我们只估计其⽅差,不估计其回归系数。
混合模型中包括了固定效应和随机效应,⽽随机效应有两种⽅式来影响模型,⼀种是对截距影响,⼀种是对某个固定效应的斜率影响。
前者称为 Random intercept model,后者称为Random Intercept and Slope Model。
Random intercept model的函数结构如下Yij = a0 + a1*Xij + bi + eija0: 固定截距a1: 固定斜率b: 随机效应(只影响截距)X: 固定效应e: 噪声混合线性模型有时⼜称为多⽔平线性模型或层次结构线性模型由两个部分来决定,固定效应部分+随机效应部分,⼆、R语⾔中的线性混合模型可⽤包1、nlme包这是⼀个⽐较成熟的R包,是R语⾔安装时默认的包,它除了可以分析分层的线性混合模型,也可以处理⾮线性模型。
多水平统计模型简介操作 PPT

水平 2 方差之与:
Var yij | 0 , 1, xij Var(u0 j e0ij )
2 u0
2 e0
• 同一个学校得两个学生(用 i1, i表2 示)间得
协方差为:
Cov u0 j ei1 j ,u0 j ei2 j
Cov u0 j , u0 j
2 u0
• 因此,同一学校三名学生得协差阵为
例如,来自同一家庭得子女,其生理与心理特征 较从一般总体中随机抽取得个体趋向于更为相似, 即子女特征在家庭中具有相似性或聚集性 (clustering),数据就是非独立得(non independent)。
忽略多水平层次结构得后果
1、模型中得参数估计值、标准误有偏差 2、残差方差偏大,即模型拟合优度差 3、损失高水平(如水平二:学校)对结果得影响信息
Cov u0 j ei1 j , u0 j ei2 j
Cov u0 j , u0 j
2 u0
组内相关(intra-class correlation, ICC)
2 u0
2
2
u0
e0
ICC测量了学校间方差占总方差得比例, 实际上它反映了学校内个体间相关,即水平 1 单位(学生)在水平 2 单位(学校)中得聚集性或 相似性。
第二层:0 j 00 u0 j
组内相关得度量
应变量方差为(可含固定效应协变量)
Var yij | 0 , 1, xij Var(u0 j eij )
Var(u0 j ) Var(eij ) Cov(u0 j , eij )
2 u0
2 e0
此即水平 2 与水平 1 方差之与。
同一学校中两学生(用i1,i2 表示)间得协方差为:
• SAS、SPSS默认采用REML
多水平统计模型简介SPSS操作

Chongqing Medical University Peng Bin
随机系数模型基本形式 第一层: 第二层:
yij 0 j 1 j xij e0ij
0 j 00 u0 j
1 j 10 u1 j
方差成份模型中协变量 xij 的系数估计为固定 的 1 ,表示示协变量 xij 对反应变量的效应是固定 不变的。在随机系数模型中协变量 xij 的系数估计 为 1 j ,示每个学校都有其自身的斜率估计,表明协 变量 xij 对反应变量的效应在各个学校间是不同的。
2 2 2 2 u0 e0 u0 u0 2 2 2 2 u0 e0 u0 u0 2 2 2 2 u0 u0 u0 e0 2 2 2 u0 e0 u0 2 2 2 u0 u0 e0
完整模型(水平1和水平2上均有解释变量)
第一层: 第二层:
yij 0 j 1 j xij e0ij
0 j 00 j u1 j
W1 j 为第二层的解释变量(可包含多个),可以在
零模型与完整模型之间,根据研究目的,设置不同的 随机成分和固定成分,构建一系列分析模型。
yij 和 xij 分别为第 j 个
00是0 j的平均值,为固定成分 ,u0 j 为0 j的随机成分 , 服从正态分布
01是1 j的平均值,为固定成分 ,u1 j 为1 j的随机成分 , 服从正态分布
E (u0 j ) 0, E (u1 j ) 0, E (eij ) 0,
次结构,可忽略学校的存在,即简化为传
2 统的单水平模型;反之,若存在非零的 u ,
0
则不能忽略学校的存在。
多水平统计模型

多水平统计模型
Harvey Goldstein, UK, University of London, Institute of Education 《Multilevel Models in Educational and Social Research》1987
多水平统计模型
经典方法框架下的分析策略
经典的线性模型只对某一层数据的问题进行 分析,而不能将涉及两层或多层数据的问题进行 综合分析。
但有时某个现象既受到水平1变量的影响, 又受到水平2变量的影响,还受到两个水平变量 的交互影响(cross-level interaction)。
多水平统计模型
个体的某事件既受到其自身特征的影响,也 受到其生活环境的影响,即既有个体效应,也有 环境或背景效应(context effect)。
多水平统计模型
层次结构数据为一种非独立数据,即某观察 值在观察单位间或同一观察单位的各次观察间不 独立或不完全独立,其大小常用组内相关(intraclass correlation,ICC)度量。
例如,来自同一家庭的子女,其生理和心理 特征较从一般总体中随机抽取的个体趋向于更为 相似,即子女特征在家庭中具有相似性或聚集性 (clustering),数据是非独立的(non independent)。
多水平统计模型
✓ ML3 (1994) / MLN (1996) / MLwiN (1999) ✓ HLM (Hierarchical Linear Model)
SAS (Mixed) SPSS STБайду номын сангаасTA
多水平统计模型简介SPSS操作课件.ppt

Multilevel Models
ko
1
Chongqing Medical University Peng Bin
单水平模型
1,2,...,i,...n个观察对象
yi 0 1xi ei ,
ei
~
N
(0,
2 e
)
模型假设: 正态性、独立性、残差方差齐同性 协变量的影响保持不变
• 多水平模型将单一的随机误差项分解到与数据 层次结构相应的各水平上,具有多个随机误差 项并估计相应的残差方差及协方差。
• 构建与数据层次结构相适应的复杂误差结构, 是多水平模型区别于经典模型的根本特征
• 多水平模型由固定与随机两部分构成,其随机
部分可以包含解释变量ko
8
多水平模型基本结构
假定一个两水平的层次结构数据,学校为水 平 2 单位,学生为水平 1 单位,学校为相应总体 的随机样本。
yij 0 1 j xij eij
截距不同,斜率不同
yij
ko
0 j 1 j xij eij11
Chongqing Medical University Peng Bin
按学校绘制散点图及拟合线
该模型即为多水平模型
yij 0 j 1 j xij eij
计值与总均数的离差值,反映了第 j 个学校对 y 的 随机效应。
ko
15
Chongqing Medical University Peng Bin
1 j 01 u1 j
01 表示协变量 x 在所有学校的平均效应估计
值(固定部分),u1 j 表示协变量 x 在不同学校所
产生的特殊效应(随机部分),反映协变量与学 校之间产生的交互效应,即学校间 y 的变异与协 变量 x 的变化有关。
多水平模型简介PPT精选文档

14
15
16
* 在模型中纳入水平1解释方差估计分别为0.002449和0.01518,
对应的Z检验统计量为1.65和2.30,prob(Z)分别为 0.0490和0.0108,说明这两个变量的回归系数是随机
系数。 *水平1随机斜率检验
5
*1)由于多水平模型同时考虑不同水平上的
差异,因此当数据水平结构较多时,多水平 模型结构较一般计量模型结构复杂;
*(2)需要较大的样本量才可以保证多水平
模型估计的稳定性,较小的样本会带来偏差
*多水平模型的局限性
6
*无条件两水平模型
首先建立无条件两水平模型,又称为截距模型(intercept-only model) 或空模型(empty model),是两水平模型建模的基础。其模型形式为:
*多水平模型简介
1
*社会科学研究中的一个基本概念是,社会是一个具有
分级结构的整体,社会的分级结构自然而然地使由其 所产生的数据呈现水平(层次)结构。在该类数据中, 低一水平(层次)的数据单位嵌套与或聚集在高一水 平(层次)的单位中。
*长期以来用以说明具有多种水平结构的数据的例子是
对学生学习成绩的研究。学生的学习状况不仅与个人 的内在因素(如智力水平)相联系,而且与其所处的 环境相联系,如学习风气、教师的教学经验、学校的 设施等。因此在对学习成绩与个体水平变量(如性别、 智力水平、种族等)关系的研究中,可将学生个体嵌 套在班级里,而将班级嵌套在学校里的形式进行数据
*空模型
12
结果表明:各村农户的人均收入增长率存在显著差异。组内相关 系数(ICC):
ICC=0.368表明结局测量中约有36.8%的总变 异是由村之间的差异造成的。
演示文稿多水平统计模型简介操作

第一层: yij 0 j eij 或,yij 0 j 1xij eij
第二层: 0 j 00 u0 j
组内相关的度量
应变量方差为(可含固定效应协变量)
Var yij | 0 , 1, xij Var(u0 j eij )
Var(u0 j ) Var(eij ) Cov(u0 j ,eij )
例如,来自同一家庭的子女,其生理和心理 特征较从一般总体中随机抽取的个体趋向于更为 相似,即子女特征在家庭中具有相似性或聚集性 (clustering),数据是非独立的(non independent)。
忽略多水平层次结构的后果
1.模型中的参数估计值、标准误有偏差 2.残差方差偏大,即模型拟合优度差 3.损失高水平(如水平二:学校)对结果的影响信息
yij 0 j 1 j xij eij
0 j 00 u0 j 1 j 01 u1 j
x yij 和 ij 分别为第 j 个
学校中第 i 个学生应变量 观测值和解释变量观测值
00是
0
的平均值,为固定成分
j
,u0
j为0
的随机成分
j
,
服从正态分布
01是1
的平均值,为固定成分
j
,u1
j
为1
01 表示协变量 x 在所有学校的平均效应估计
值(固定部分),u1 j 表示协变量 x 在不同学校所
产生的特殊效应(随机部分),反映协变量与学 校之间产生的交互效应,即学校间 y 的变异与协 变量 x 的变化有关。
yij ( 00 01xij ) (u0 j u1 j xij eij )
(优选)多水平统计模型简介 操作
多水平统计模型(共108张PPT)

时间的变化;
1 此即水平 2 和水平 1 方差之和。
空模型的结果可以说明总结局测量变异中多大程度是由组内变异引起,多大程度是由组间变异引起。 (3) 第一水平模型纳入第一水平解释变量
随机系数模型
(Random Coefficient Model)
随机系数模型是指协变量的系数估计不是固 定的而是随机的,即协变量对反应变量的效应在
不同的水平 2 单位间是不同的。
仍以医院与患者两水平数据结构说明随机系 数模型基本结构与假设。
yij0j 1jxije0ij
与方差成份模型的区别在于 。 1 j
结构,可忽略医院的存在,即简化为传统的单
水平模型;反之,若存在非零的 略医院的存在。
,则不u20能忽
水平 2 单位中的水平 1 单位间存在相关,
通 常 的 “ 普 通 最 小 二 乘 法 ” (Ordinary Least Squares OLS)进行参数估计是不适宜的。
进一步,如数据具有三个水平的层次结 构,如医院、医生和患者三个水平,则将有 两个这样的相关系数,即医院内相关和医生 内相关。
多水平统计模型简介
A Brief Introduction to
Multilevel Statistical Models
概述 层次结构数据的普遍性 经典方法及其局限性 基本多水平模型 多水平模型的应用
概述
80 年代中后期,英、美等国教育统计学家开始探讨分析
层次结构数据(hierarchically structured data)的统计方法, 并相继提出不同的模型理论和算法。
多水平统计模型研究生版-PPT文档资料

多水平分析的概念为人们提供了这样一个框架,即 可将个体的结局联系到个体特征以及个体所在环境或背 景特征进行分析,从而实现研究的事物与其所在背景的 统一。
基本的多水平模型
经典模型的基本假定是单一水平和单一的随 机误差项,并假定随机误差项独立、服从方差为
常量的正态分布,代表不能用模型解释的残留的
随机成份。
MLwiN (2019)
SAS (Mixed) SPSS STATA
层次结构数据的普遍性
水平2
水平1
两水平层次结构数据
“水平” (level) :
指数据层次结构中的某一层次。例如,子女为低水平
即水平 1 ,家庭为高水平即水平 2 。
“单位” (unit) :
指数据层次结构中某水平上的一个实体。例
2 Var ( e ) E ( e ) 0 0 ij e 0 ij , 0
多水平统计模型简介
A Brief Introduction to Multilevel Statistical Models
概述 层次结构数据的普遍性 经典方法及其局限性 基本多水平模型 多水平模型的应用
多水平主成分分析 多水平因子分析 多水平判别分析 多水平logistic回归 多水平Cox模型 多水平Poisson回归 多水平时间序列分析 多元多水平模型 多水平结构方程模型
u 0 j 0 0 j
0 为平均截距,反映 y ij
与
x ij
的平均关系,
即当 x 取 0 时,所有 y 的总平均估计值。
u 0 j 为随机变量,表示第 j 个医院 y 之平均估
计值与总均数的离差值,反映了第 j 个医院对 y 的 随机效应。
3多水平统计模型简介

Cov e
, e0i2 j
组内相关(intra-class correlation, ICC)
2 u0
2 u0 2 e0
代表组间方差, 组水平方差。
代表组内方差, 个体水平方差
ICC测量了医院间方差占总方差的比例,实际上它反映 了医院内个体间相关,即水平 1 单位(患者)在水平 2 单位(医院)中的聚集性或相似性。 当组内各个体间趋于相互独立时,ICC 趋于0,表示没有 群组效应,此时多层模型可简化为固定效应模型。
项,并假定随机误差项独立、服从方差为常量的正态分布, 代表不能用模型解释的残留的随机成份。Y 0i 1i x1
当数据存在层次结构时,随机误差项则不满足独立
常方差的假定。模型的误差项不仅包含了模型不能解释的 应变量的残差成份,也包含了高水平单位自身对应变量的 效应成份。
多水平模型将单一的随机误差项分解到与数据层次结
2.随机系数模型(Random Coefficient Model)
随机系数模型是指协变量的系数估计不是固定的而是 随机的,即协变量对反应变量的效应在不同的水平 2 单位 间是不同的。(仍以医院与患者两水平数据结构说明随机系
数模型基本结构与假设。)
yij 0 j 1 j xij e0ij
1. 方差成份模型(多水平模型中最简单的)
(Variance Component Modelቤተ መጻሕፍቲ ባይዱ 1.1固定效应模型 1.2不含协变量的随机 效应方差成分模型(空 模型) 1.3含协变量的随机效 应方差成分模型
方差成分模型
1.1固定效应模型
某研究中有多个不同处理因素,若研究者感兴趣的各 种处理都设计在研究当中,则认为这一因素具有固定 效应,如以下例2. 1 中对小白鼠给予三种不同的营养 素.
多水平模型简介

hosp no time group age gender ess0 adl0 ess adl
1~15 1~456
1~3周
试验组=1,对照组=0 18~75岁 女性=0,男性=1 40~80 (评分高病情轻) 0~95 (评分高病情轻) 0~100 0~100
新药临床试验原始资料格式
疗后1周 疗后2周 疗后3周 疗前 医院 患者 组别 年龄 性别 编号 编号 ESS0 ADL0 ESS1 ADL1 ESS2 ADL2 ESS3 ADL3
资料特点
• 两水平层次结构
• 地区(水平2单位) 15 • 各地区内逐年重复观察(水平1单位) 1980
• 资料按性别、年龄分组 • 反应变量是肺癌死亡人数
定性反应变量的多水平模型
重点:二分类反应变量的两水平模型
调查研究
• 某省调查其农村居民的卫生服务
随机抽取30个乡镇,每个乡镇分别抽取2
个行政村,每个村再随机抽取33户(家庭),
2
0
•
1
为处理因素的效应参数,又称固定效应 (fixed effect)参数
• u0 j为 水 平 2 单 位 的 logit 均 值 0 j 与 总 均 值 0 之差,又称为随机效应(random effect) 或高水平的残差。
•
2 u0 j 的 方 差 u 又 称 为 随 机 参 数 ( random
1 1 1 1 1 1
1 2 3 4 5 6
1 0 1 1 0 1
60 43 61 71 71 67
0 1 1 1 1 1
69 50 73 50 86 90 85 100 76 75 82 75 84 100 90 100 40 30 42 35 55 35 72 45 78 80 90 95 92 100 93 100 72 75 75 75 82 - 82 - 80 80 93 85 100 95 - -
多水平模型

1.2 学校效果
教育系统是这种层次结构的一个典型例子,学生嵌套进学校,学校自身或许又嵌套进教育 或委员会。教育研究者的兴趣在于比较学校或教育机构的学生成绩。这种比较有许多目的 dstein,1992),但学术上的兴趣主要在于研究那些解释学校间差异的因素。
多水平模型(一)
页码,1/9
今天是: 2006年8月22日 星期二
设为首页 加入收藏 联系站长
| 首页 | 统计文章 | 统计下载 | 在线留言 | 统计论坛 | | 统计文章首页 | 本站告示 | 统计学 | 统计软件 | 相关学科 | 文章 | 本站新闻 | 关于本站 | 统计理论 | 统计应用 | 统计信息 | SAS 应用 | SPSS应用 | 企业招 下载 | 统计软件 | 统计教程 | 统计书籍 | 应用软件 | 医学统计 | 计量经济 | 名著翻译 | 社区论
/Article/art/use/200501/598.html
2006-8-22
多水平模型(一)
页码,3/9
图1.1 一所学校中5名学生的期末考试成绩与入学成绩
另一个忽略层次结构分析的极端情况是,对每一所学校分别拟合不同的回归模型。在某些 下,例如只有很少的学校,而每个学校中具有较多的学生,这种方法或许是有效的。如果 者仅仅对这几所学校作出某种推断感兴趣,这种方法或许也是适宜的。然而,如果我们将 所学校作为学校总体中的一个随机样本,而且研究者希望就学校之间的变异作出一般的推 那么,就需要完全的多水平方法。同样地,如果一些学校中只有很少的学生,对每所学校 拟合模型,将不会产生可靠的估计。通过将学校作为总体的一个随机样本以及利用整个样 据可以得到的信息,则对任何一所学校作估计时,可以获得更高的精度。这种方法在重复 资料中尤其重要,因为每个水平2单位通常只有很少的水平1单位。
多水平统计模型讲课文档

基本的多水平模型
经典模型的基本假定是单一水平和单一的随机误差 项,并假定随机误差项独立、服从方差为常量的正态分 布,代表不能用模型解释的残留的随机成份。
现在十九页,总共一百零八页。
当数据存在层次结构时,随机误差项则不满足独立 常方差的假定。模型的误差项不仅包含了模型不能解释 的应变量的残差成份,也包含了高水平单位自身对应变 量的效应成份。
SAS (Mixed) SPSS STATA
现在八页,总共一百零八页。
层次结构数据的普遍性
两水平层次结构数据
水平2 水平1
现在九页,总共一百零八页。
“水平” (level) :指数据层次结构中的某一层次 。例如,子女为低水平即水平 1 ,家庭为高水平即水 平2。
“单位” (unit) :指数据层次结构中某水平上的一个
实体。例如,每个子女是一个水平 1 单位,每个家庭是一 个水平 2 单位。
现在十页,总共一百零八页。
临床试验和动物实验的重复测量
多中心临床试验研究 纵向观测如儿童生长发育研究 流行病学现场调查如整群抽样调查 遗传学家系调查资料 meta 分析资料
现在十一页,总共一百零八页。
层次结构数据为一种非独立数据,即某观察值 在观察单位间或同一观察单位的各次观察间不独立 或 不 完 全 独 立 , 其 大 小 常 用 组 内 相 关 (intra-class correlation,ICC)度量。
经典方法框架下的分析策略
经典的线性模型只对某一层数据的问题进行分析 ,而不能将涉及两层或多层数据的问题进行综合分析 。
但有时某个现象既受到水平1变量的影响,又受到 水平2变量的影响,还受到两个水平变量的交互影响 (cross-level interaction)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Subject specific effects of X on Pr(Death), OR = 20 per 1 unit increase in X Population average effect of X on Pr(Death), OR = 2.7 per 1 unit increase in X
如发生牙病的危险与个体的遗传倾向、饮食文化、环境
因素(氟)等有关
经典模型 单一水平 多水平
层次结构数据
随机误差项单一 随机误差项>=2 包含高水平单位对应变量的效应 独立 非独立
采用经典模型可能失去参数估计的有效性
经典方法框架下的分析策略
分解(disaggregation)
聚合(aggregation)
假定已知方差
2 u0的值,则可直接构造
残差的协方差矩阵 V 采用广义最小二乘法 (Generalized Least
Squares GLS)可获得固定系数的估计:
β = (X V X) X V Y
T
-1
-1
T
-1
假定方差
2 u0未知
在初始阶段,假定
2 u0 =
0 ,则给出固定系数
ˆ ,得到粗残差: 通常的 OLS 估计 (0)
2016/4/14 高级卫生统计学 45
三、应用实例
引入解释变量:
Y. j 0 1 X1. j 2 X 2. j u. j e. j z1 j
X1. j
重复测量值:
医院1
1水平
医院2
个体1
个体2
个体1
个体2
个体3
重复测量 1
重复测量 2
重复测量 1
重复测量 2
重复测量 1
重复测量 2
重复测量 1
重复测量 2
重复测量 2
重复测量 1
重复测量 2
3
水平 (level) :
数据层次结构中的某一层次 单位 (unit) : 数据层次结构中某水平上的一个实体
应变量向量的协方差结构
两水平数据结构
只包括随机参数 和
2 u0
2 e0
Varyij | 0 , 1 , xij Var(u0 j e0ij )
2 u0
2 e0
同一医院所诊疗的三名患者的协差阵:
2 u0 u2 0
2 u0
计值与总均数的离差值,反映了第 j 个医院对 y 的 随机效应
1 表示协变量 x 的固定效应估计值
y 与协变量 x 的关系在各医院间是相同的
医院间 y 的变异与协变量 x 的变化无关
方差成份模型拟合 j 条平行的回归线,截 距不同( 0 j ),斜率相同( 1 ) 随机截距模型
对医院水平残差的假定
2 u
Var e. j e2 n j
Y. j
2016/4/14
为第j个研究的Ln(OR)值
高级卫生统计学
43
三、应用实例
总方差:
Var Y. j
2 u
2 e
nj
定义:
z0 1, z1 j 1
nj
变换为:
Y. j 0 u. j e. j z1 j
两水平方差成份模型:
yij 0 1x1ij u0 j e0ij
1 x11 1 x 21 . . X . . . . 1 xn m m
y11 y 21 . Y . . yn m m
2 u0
组内相关(intra-class correlation, ICC)
2 u0
2 u0 2 e0
反映了医院内个体间相关,即水平 1 单位(患者) 在水平 2 单位(医院)中的聚集性或相似性
0
不具层次结构,可忽略医院的存在 简化为传统的单水平模型
0
不能忽略医院的存在 采用多水平模型
分解:
不满足模型独立性假定,回归系数及其标准误
的估计无效
未能有效分析水平高的效应
聚合:
Hale Waihona Puke 损失大量水平1单位的信息可能导致“生态学谬误”(ecological fallacy)
根据聚合单位的分析结果作关于个体的断言, 研究结果与真实情况不符
一个虚拟的例子(Extreme Example )
~ ˆ ˆx ) yij yij ( 0 1 ij
对应于 2 个医院,一个诊疗 3 名患者,另
~~T 和 一个诊疗 2 名患者,则 VecY Y Vec (V ) 均具
~ ~ T 的期望为 有 9+4=13 个元素。因为 YY V
~~T Vec YY Vec(V ) R
区别: 经典模型: 方差成份模型:
0
0 j
第j 个截距值:x = 0 时,第 j 个医院 y 的平均 估计值
0 j 0 u0 j
0 为平均截距,反映 yij 与 x 的平均关系, ij
x = 0 时,所有 y 的总平均估计值
u0 j 为随机变量,表示第 j 个医院 y 之平均估
第25章
第二十五章 多水平统计模型
Multilevel Statistical Models
2016/4/14
高级卫生统计学
1
内容
第一节 方差成份模型 第二节 随机系数模型 第三节 离散数据的多水平模型
2016/4/14
高级卫生统计学
2
多中心临床试验的多水平结构
中心(医院):
个体:
3水平
2水平
回到初始模型则获得固定系数新的估计
在随机与固定参数估计间反复迭代直至收敛
分析软件
ML3 (1994) / MLN (1996) / MLwiN (1999)
HLM (Hierarchical Linear Model)
SAS (Mixed)
三、应用实例
例25-1 检索有关吸烟与肺癌关系研究的文献共49篇,各项研
Varyij | 0 , 1 , xij Var(u0 j e0ij )
Var(u0 j ) Var(e0ij ) Cov(u0 j , e0ij )
2 u0
2 e0
即水平 2 和水平 1 方差之和
同一医院中两个患者(用i1,i2 表示)间的协方差:
Cov u0 j e0i1 j , u0 j e0i2 j Covu0 j , u0 j
2016/4/14
高级卫生统计学
44
三、应用实例
表 25-2 模型的拟合结果 估计值 固定参数 随机参数(水平 2) (水平 1) 1.44 0.63 1.00 标准误 0.11 0.12 0.00 160.00 24.38 -P <0.01 <0.01 --
全部Ln(OR)的平均估计值:1.44
2 e0
2 u0
2 u0 2 e0
2 u0
2 u0 2 2 u0 e0
2 u0
医院1:3名患者 , 医院2:2名患者
应变量向量 Y 总的协方差阵:
u20 e20 u20 u20 2 2 2 2 u0 e0 u0 u0 2 2 2 2 u0 u0 e0 u0 u20 e20 u20 2 2 2 u0 u0 e0
nj
性别调整 1 0 … 1
X1. j
设计类型 X 2. j 1 0 … 1
(0=未调整、1=调整) (0=病例对照、1=队列研究)
598 10704 … 226
2016/4/14
高级卫生统计学
42
三、应用实例
水平 2:文献研究结果(效应尺度) 水平1:个体数据不可得
Y. j 0 u. j e. j Var u. j
2016/4/14
高级卫生统计学
17
yij 0 j 1 xij e0ij
j 1,2,...,m
水平 2 单位
i 1,2,...,n j 水平 1 单位
yij
和
xij 分别为第 j 个医院中第 i 个患者应变
量观测值和解释变量观测值
0 j 和 1 为参数
e0ij
为随机误差项
固定与随机参数估计
迭 代 广 义 最 小 二 乘 算 法 (Iterative Generalized
Least Squares,IGLS) (Goldstein,1986)
限制性迭代广义最小二乘法(Restricted Iterative
Generalized Least Squares,RIGLS) (Goldstein, 1989)
可将这些向量间关系表达为以下线性模型:
~ y 2 11 ~ ~ y 21 y11 ~ y 31 ~ y11 ~ ~ y11 y 21 2 ~ y 21 = . . . ~ ~ y12 y 22 ~2 y 22
层次结构数据
非独立数据:
如同一只雌性大鼠的重复观测值 同一家庭的子女,其生理和心理特征更为相
似,相似性或聚集性(clustering)
相 关 程 度 常 用 组 内 相 关 (intra-class
correlation, ICC)度量
两水平层次结构示意图
水平2