分层线性模型

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分层线性模型(hierarchical linear model HLM)的原理及应用

一、概念:

分层线性模型(hierarchical linear model HLM)又名多层线性模型(Multilevel Linear Model MLM)、层次线性模型(Hierarch Linear Mode1)、多层分析(Multilevel Analysis/Model)。相对于传统的两种统计方法:一般线性模型(general linear model GLM)和广义线性模型(generalized linear models GLMs),它们又有所不同,HLM中的线性模型指的是线性回归,不过它与一般的分层线性回归(Hierarchical Regression)又是不同的,具体的不同见下面数学模型部分。HLM又被通俗的称为“回归的回归”。

Wikipedia:“一般线性回归和多重线性回归都是发生在单一层面,HLM相对于更适用于嵌套数据(nest data)。”

在理解HLM之前应了解有关回归分析和嵌套设计(分层设计)的基本知识。

二、模型:

1、假设:由于个体行为不仅受个体自身特征的影响,也受到其所处环境(群体/层次)的影响。相对于不同层次的数据,传统的线性模型在进行变异分解时,对群组效应分离不出,而增大模型的误差项。而且不同群体的变异来源也可能分布不同,可能满足不了传统回归的方差齐性假设。在模型应用方面,不同群体(层次)的数据,也不能应用同一模型。鉴于传统方法的局限性,分层技术则解决了这些生态谬误(Ecological Fallacy)。它包含了两个层面的假设:

a、个体层面:这个与普通的回归分析相同,只考虑自变量X对因变量Y的影响。

b、群组层面:群组因素W分别对个体层面中回归系数和截距的影响。

2、数学模型:

a、个体层面:

Yij=Β0j+Β1jXij+eij

b、群组层面:

Β0j=γ00+γ01Wj+U0j

Β1j=γ10+γ11Wj+U1j

涉及到多个群组层次的时候原理与之类似,可以把较低级层次的群组,如不同的乡镇层面与不同的县市层面,可以这样理解,乡镇即是一个个体,群组即是不同的县市。更多层次的可以这样理解,一直是下一层对上一层回归系数和截距的回归。与普通的“回归的回归”不同的是,整个计算过程通过迭代过程完成。

3、因变量:

此处数学模型仅适用于连续的单因变量。非连续因变量、多因变量、潜变量以及非典型的嵌套设计,多层线性模型也可以进行处理,但对模型的设定会更复杂。

4、与分层回归的区别:

a、向前回归、向后回归和逐步回归:

向前回归:根据自变量对因变量的贡献率,首先选择一个贡献率最大的

自变量进入,一次只加入一个进入模型。然后,再选择另一个最好的加入模型,直至选择所有符合标准者全部进入回归。

向后回归:将自变量一次纳入回归,然后根据标准删除一个最不显著者,再做一次回归判断其余变量的取舍,直至保留者都达到要求。

逐步回归是向前回归法和向后回归法的结合。首先按自变量对因变量的贡献率进行排序,按照从大到小的顺序选择进入模型的变量。每将一个变量加入模型,就要对模型中的每个变量进行检验,剔除不显著的变量,然后再对留在模型中的变量进行检验。直到没有变量可以纳入,也没有变量可以剔除为止。

向前回归、向后回归和逐步回归都要按照一定判断标准执行。即在将自变量加入或删除模型时,要进行偏F检验。

b、分层回归与前三者的区别与联系:

在理解分层回归与以上三者的区别时,应理解以下三个概念。

总体变异:预测变量X和结果变量Y之间相关的平方,它包括该X和Y 之间的所有关系。

共同变异:在每个X互相独立的理想情况下,共同变异为0。它指的是X 对Y的影响的重叠部分。

独特变异:在控制了其他变量以后,特定X对Y的影响。它表示了Y中由特定X所单独解释的变异。假如X之间存在重叠,那么它们共有的变异就会削弱独特变异。X的独特效应指的是去除重叠效应后该X与Y的偏相关的平方。可以看出,X的独特变异依赖于其他预测变量。

在强制回归(ENTER法)中,所有预测变量的偏决定系数之和要小于整个模型的决定系数(R2)。总决定系数包括偏决定系数之和与共同变异。强制回归(ENTER 法)的局限性在于不能将重叠(共同)变异归因于模型中的任何一个预测变量,每个预测变量只能分配到它所解释的独特变异,共同变异则被抛弃了。此时的偏相关的平方与回归系数是等同的。分层回归与以上三种方法则提供了一种可以将共同变异分配给特定预测变量的方法。共同变异将会分配给优先进入模型的变量。在分层回归中,将会把重叠(共同)变异分配给第一层模型中的预测变量。因此,上面三种方法则是针对自变量而言的,而分层回归则针对第一层(优先层的模型)。分层回归则是由研究者根据经验和理论思考来将自变量分成不同的组(block),然后再安排每一组变量进入模型的顺序,进入的顺序不是根据贡献率,而是根据相应的理论假设。而且,研究者还可以为不同组的自变量选用不同的纳入变量的方法。从这个意义上说,它与前面三种回归方法只是指定变量进入模型的方式不同。

c、分层回归与分层线性模型:

从回归模型中,可以看出,分层回归更像是分组回归或者分块回归,而与分层线性模型中的分层,性质是完全不一样的。

三、类型

1、群组模型:

即以上所介绍的研究背景效应的数据处理方式。

2、发展模型:

主要用于追踪研究的模型建构。不同时间的观察结果(第一层)嵌套于被观察个体(第二层),研究不同的个体对时间效应的回归系数和截距产生了何

种影响。在这个模型中,个体不是第一层,而是时间效应,这是发展模型与群组模型在模型建构上的区别。

四、应用评价

多层线性模型的适用范围非常广,凡是具有嵌套和分层的数据均可使用多层线性模型进行分析。此外,多层线性模型还可以用于纵向研究。采用多层分析的方法处理重复测量数据与时间变量之间的关系。在多层结构中可以对非平衡测量数据得到参数的有效估计。因此用多层分析法处理重复测量的数据,不要求所有的观测个体有相同的观测次数。在纵向调查研究中,由于各种各样的原因,被试个体观测值部分缺失的情况时有发生,因此多层分析法处理缺失数据而不影响参数估计精度的这一特征,使得多层分析法处理在处理纵向观测数据时,比传统多元重复测量方法有很大的优势。

与传统的用于处理多元重复测量数据的方差分析和回归分析方法相比,多层分析法至少具有以下优点:

1、多层分析法通过考虑测量水平和个体水平不同的差异,明确表示出个体在水平1(不同测量点)的变化情况,因而对于数据的解释(个体随时间的增长趋势)是在个体与重复测量交互作用基础上的解释,即不仅包含了不同测量点的差异,而且包含了个体之间存在的差异。

2、多层分析法对数据资料较传统多元重复测量方法有较低的要求,对于重复测量的次数和重复测量之间的时间跨度都没有严格的限制。不同个体可以有不同的测量次数,测量与测量之间的时间跨度也可以不同。

3、多层分析模型可以定义重复观测变量之间复杂的协方差结构,并且对所定义的不同的协方差结构进行显著性检验。在多层分析模型中,通过定义第一水平和第二水平的随机变异来解释个体随时间的复杂变化情况,当数据满足传统多变量重复测量模型对数据的要求和假设时,层次分析法得到与传统固定效应多元重复测量模型相同的参数估计和假设检验结果。用多层分析模型可以考虑更高一层的变量,如不同地区儿童对个体增长的影响。

但是多层分析模型也有缺点,首先用于多层分析模型的参数估计方法较传统估计参数的方法要复杂得多,而且不能处理变量之间间接的影响关系和处理复杂的观测变量和潜变量之间的关系。

五、HLM软件分析步骤:

具体操作步骤可以参看:张雷等.多层线性模型应用.北京:教育科学出版社,2005.p42.

1、创建HLM可识别的数据文件(*.ssm/mdm格式)

a、创建SSM数据文件的原始数据准备:

HLM支持的原始数据格式包括纯文本,SPSS,SAS,STAT等主流统计软件,如果不兼容,可以转换成HLM支持的数据格式。一般而言,一层结构一个数据文件,而且这些数据文件,需要存在一个同样的标识变量(ID),最好是数字型的。每层的数据文件均按照这个标识变量排序。

b、生成MDM文件(指定数据层级及相关信息):

选择你需要建立的模型层数,以下以两层为例。选择群组嵌套设计还是追踪测量设计=》浏览指定第一层的文件=》指定标识变量和非标识变量=》指定对缺失数据的处理;浏览指定第二层的文件=》指定标识变量和非标识变量(HLM的高层

相关文档
最新文档