多层时间序列回归模型方法综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多层统计模型方法综述
目前为止,研究多层统计模型的学者有很多,但大家基本上接受两组人分别独立开发出同一模型的结果,这两组人分别有各自分析的成熟的软件。一组是S.Raudenbush 与A.Bryk 建立的hierarchical linear model ,开发的软件为HLM 。另一组是由H.Goldstein 定义的multilevel models ,开发出的软件为MLwiN(早期版本称ML3,MLn)。
多层统计模型有许多名称,有multilevel models,hierarchical linear model,random-effect
model,random
coefficient
model,various
component
model,mixed-effect model,empirical Bayes model.
多层统计模型主要用于对横截面数据(即面板数据)以及层次结构数据的研究。详情见下表:
多层统计模型
横截面数
据 层次结构数据
实例
模型
临床实验和动物实验的重复测量 多水平主成分分析 多中心临床试验研究
多水平判别分析 纵向观测如儿童生长发育研究
多水平logistic 回归 流行病学现场调查如整群抽样调查 多水平Poisson 回归 遗传学家系调查资料 多水平时间序列分析 Meta 分析资料 多元多水平模型
多水平结构方程模型
虽然多层统计模型应用于不同的研究方向有不同的模型,但这些模型的基本原理是相同的。现在介绍基本的多水平模型:
经典模型的基本假定是单一水平和单一的随机误差项,并假定随机误差项ε独立、服从方差为常量的正态分布,代表不能用模型解释的残留的随机成分。模型为:0i 11Y=i x ββε++。但是,当数据存在层次结构时,随机误差项ε则不满足独立常方差的假定。模型的误差项不仅包含了模型不能解释的应变量的残差成分,也包含了高水平单位自身对应变量的效应成分。多水平模型将单一的随机误差项分解到与数据层次结构相应的各水平上,具有多个随机误差项并估计相应的
残差方差(方差是各个数据分别与其平均数之差的平方的和的平均数,方差(Variance )用来度量随机变量和其数学期望(即均值)之间的偏离程度。)及协方差(协方差用于衡量两个变量的总体误差,为正值时,两个变量变化趋势一致,为负值时,两个变量变化趋势不一致)。构建与数据层次结构相适应的复杂误差结构,这是多水平模型区别于经典模型的根本特征。多水平模型由固定和随机两部分构成,与一般的混合效应模型的不同之处在于其随机部分可以包含解释变量,故又称为随机系数模型(random coefficient model ),其组内相关也可为解释变量的函数。
多水平模型中最简单的是方差成分模型,该模型包括固定效应模型,不含协变量的随机效应方差成分模型(空模型),含协变量的随机效应方差成分模型。现对含协变量的随机效应方差成分模型进行介绍:
假定一个两水平的层次结构数据,医院为水平2单位,患者为水平1单位,医院为相应总体的随机样本,模型中仅有一个解释变量X (即协变量)。
010ij j ij ij
y x e ββ=++
1,2,m j = , 示水平2单位 1,2,,i n = 示水平1单位
ij
y 和
ij
x 分别为第j 个医院中第i 个患者应变量观测值和解释变量观测值,0j β
和
1
β为参数估计,0ij e 为通常的随机误差项。
与经典模型的区别在于0j β,经典模型中的估计为0β,仅一个估计值,表示固定的截距,而在方差成分模型中0j β表示j 个截距值,即当x 取0时,第j 个医院在基线水平时y 的平均估计值。
000j j u ββ=+ 0β为平均截距,反映ij
y 和
ij
x 的平均关系,即当x 取0时,所有y 的总平均估计
值。
0j u 为随机变量,表示第j 个医院y 的平均估计值与总均数的离差值,反映
了第j 个医院对y 的随机效应。
1β表示协变量x 的固定效应估计值,即y 与协变量X 的关系在各医院间是相同
的,换言之,医院间y 的变异与协变量x 的变化无关。
方差成分模型拟合j 条平行的回归线,截距不同(0j β),斜率相同(1β)
对医院水平残差的假定0(u )0
j E =,
20(u )o
j u Var σ= 对患者水平残差的假定与传统模型一致0(e )0ij E =20(e )o ij e Var σ= 水平1上的残差与水平2上的残差相互独立00(u ,e )0j ij Cov =
随机系数模型
随机系数模型是指协变量(自变量是指研究者主动操纵,而引起因变量发生变化的因素或条件,因此自变量被看作是因变量的原因。协变量:在实验的设计中,协变量是一个独立变量(解释变量),不为实验者所操纵,但仍影响响应。同时,它指与因变量有线性相关并在探讨自变量与因变量关系时通过统计技术加以控制的变量。常用的协变量包括因变量的前测分数、人口统计学指标以及与因变量明显不同的个人特征等)的系数估计不是固定的而是随机的,即协变量对反应变量的效应在不同的水平2单位间是不同的。
010ij j j ij ij
y x e ββ=++
与方差成分模型的区别在于1j β
方差成分模型中协变量ij x 的系数估计为固定的1β,表示协变量ij x 对反应变量的效应是不变的.在随机系数模型中,协变量ij x 的系数估计为1j β,表示每个医院都有其自身的斜率估计,表明协变量ij x 对反应变量的效应在各个医院是不同的。