分层线性模型
HLM多层线性模型教程
HLM多层线性模型教程:[1]认识多层线性模型
•
•|
•浏览:111
•|
•更新:2014-03-01 09:43
1.在社会科学研究进行取样时,样本往往来自于不同的层级和单位,由此得
到的数据带来了很多跨级(多层)。多层线性模型又叫做“多层分析(multilevel analysis)”或者是“分层线性模型(hierarchical liner modeling)”。
2.在社会科学中,多层线性的结构非常具有普遍性,如以下图列出四种常见
的情况
3.拿两层举例子,假如说现在我们考察学生自我效能感对学生成绩的影响,
在20
4.所学校中抽取了1000名学生,那么很有可能的情况就是有些学校学生的
自我效能感平均值较高,而这就有可能是因为学校为贵族学校,学生的经济水平很高。而也可能有民工学校,经济水平较低,自我效能感普遍较低。那么这就存在一种情况就是学生的成绩受到学生个体的自我效能感影响,而每个学校的自我效能感可能与整个学校的整体经济水平有关。那么这就是学生嵌套在学校之间的例子。
5.多层线性模型的基本公式
6.拿上面的例子我们可以写出对于这个案例的多层线性模型。
第一层:学生成绩=β0+β1*学生自我效能感+r
第二层:β0=γ00+γ01*学校社会经济生活水平+μ1
β1=γ10+γ11*学校社会经济生活水平+μ2
7.那么对于这样一类的多层线性的数据,我们该如何进行数据处理呢,小编
将持续为大家呈现与讲解。
原delta数据工作室
HLM多层线性模型教程:[3]认识HLM6.0界面
•
•|
•浏览:186
•|
•更新:2014-03-04 09:44
hlm模型的概念和原理
hlm模型的概念和原理
HLM模型(Hierarchical Linear Model,分层线性模型)是一种用于分析多层数据结构的统计方法,可以用于研究个体差异、群体差异以及群体与个体相互作用等方面的问题。在社会科学、心理学、医学等领域得到广泛应用。
HLM的原理是基于线性模型的,但它将数据分为多个层次,并对每个层次的变量进行单独分析和建模。HLM可以解决一些传统线性模型无法解决的问题,例如在研究个体差异时,传统线性模型只能考虑个体内差异,而HLM可以同时考虑个体内和个体间的差异。
在具体实现上,HLM模型涉及到两个重要的专业术语,分别是‘固定效应’和‘随机效应’。固定效应是指做HLM模型时,不涉及group 干扰时的影响关系研究;随机效应可指在group层面时的影响关系情况。如果完全不考虑group,即不考虑‘聚集性’问题,那么直接使用线性回归即可,并不需要使用HLM模型;而HLM模型就是处理‘聚集性’问题的一种进阶方法。如果说使用HLM模型,并且在分析时只考虑个体效应不需要考虑group层面的效应,即只有固定效应项并无随机效应项;如果说使用HLM模型,并且在分析时考虑个体效应的同时还考虑group层面的效应,即包括固定效应项和随机效应项。
(完整版)多层线性模型介绍
多层线性模型:
HLM(hierarchical linear model)计量模型,为解决传统统计方法如回归分析在处理多层嵌套数据时的局限而产生的,是目前国际上较前沿的一套社会科学数据分析的理论和方法,优势体现两个方面:一是解决了数据嵌套问题;二是为追踪研究或重复测量研究引入了新方法。
传统的线性模型,例如,ANOV A或者回归分析,只能对涉及某一层数据的问题进行分析,而不能将涉及两层或多层数据的问题进行综合分析,而多层线性模型对解决这些问题提供了有效的统计方法。多层线性模型的参数估计方法与进行两次回归的方法在概念上是相似的, 但二者的统计估计和验证方法却是不同的, 并且多层线性模型的参数估计方法更为稳定。因此多层模型的应用范围也相当广泛,与传统的用于处理多元重复测量数据的方法相比,该模型具有对数据资料要求低、能够明确表示个体在第一层次的变化情况、可以通过定义第一层次和第二层次的随机变异解释个体随时间的复杂变化情况、可以考虑更高一层次的变量对于个体增长的影响等特点。
多层线性模型( multilevel model ) 由Lindley 等于1972 年提出,是用于分析具有嵌套结构数据的一种统计分析技术。作为传统方差分析模型的有效扩展Korendijk 等和Duncan 等众多的研究者对多层线性模型进行了广泛研究。20 多年来,该方法在社会科学领域获得了广泛应用。近年来,有研究者提出使用多层线性模型进行面板研究,并且已在社会科学领域取得较大进展。
面板研究中多层线性模型的应用优势:
由上述分析可知,在面板研究中,传统的数据分析方法会遇到很多难以克服的困难,而多层线性模型可以很好地处理上述问题。近年来,越来越多的面板研究开始采用多层线性模型的分析方法,显示出多层线性模型在面板研究中的独特优势。
多层线性模型简介
多层线性模型——发展模型
“确定发展变异”的第二层:
线性发展斜率 的总体平均值
0j
00
u0 j
1 j 10
var(0 j ) 00
cov(0 j , 1 j ) 10
指个体j与平均 截据的离差
u1 j
var(1 j ) 11
指个体j与平 均发展斜率 的离差
var(1 j ) 11
cov(0 j , 1 j ) 10
多层线性模型——三层模型
三层模型是二层模型的直接扩展,我们也可以根据 需要选择零模型与完整模型之间的任何模型。 模型1:零模型 第一层: 2
Yijk 0 j k eijk var(eijk )
00
eij指第j个二层单位Y的变异
指所有二层单位的Y的总体平均数 0 j 指第二层方程的残差(随机项) 跨级相关:指Y的总体变异中有多大比例是由 第二层的变异引起的。
00 / 00
2
多层线性模型——完整模型
完整模型(The Full Model) 既包含了第一层的预测变量,又包含了第二层的 预测变量,可通过理论建构来说明解释Y的总体 变异是怎样受第一层和第二层因素的影响。 第一层: Y X e
0 j 00 01W j 0 j 1 j 10 11W j 1 j
(完整版)多层线性模型介绍
多层线性模型:
HLM(hierarchical linear model)计量模型,为解决传统统计方法如回归分析在处理多层嵌套数据时的局限而产生的,是目前国际上较前沿的一套社会科学数据分析的理论和方法,优势体现两个方面:一是解决了数据嵌套问题;二是为追踪研究或重复测量研究引入了新方法。
传统的线性模型,例如,ANOV A或者回归分析,只能对涉及某一层数据的问题进行分析,而不能将涉及两层或多层数据的问题进行综合分析,而多层线性模型对解决这些问题提供了有效的统计方法。多层线性模型的参数估计方法与进行两次回归的方法在概念上是相似的, 但二者的统计估计和验证方法却是不同的, 并且多层线性模型的参数估计方法更为稳定。因此多层模型的应用范围也相当广泛,与传统的用于处理多元重复测量数据的方法相比,该模型具有对数据资料要求低、能够明确表示个体在第一层次的变化情况、可以通过定义第一层次和第二层次的随机变异解释个体随时间的复杂变化情况、可以考虑更高一层次的变量对于个体增长的影响等特点。
多层线性模型( multilevel model ) 由Lindley 等于1972 年提出,是用于分析具有嵌套结构数据的一种统计分析技术。作为传统方差分析模型的有效扩展Korendijk 等和Duncan 等众多的研究者对多层线性模型进行了广泛研究。20 多年来,该方法在社会科学领域获得了广泛应用。近年来,有研究者提出使用多层线性模型进行面板研究,并且已在社会科学领域取得较大进展。
面板研究中多层线性模型的应用优势:
由上述分析可知,在面板研究中,传统的数据分析方法会遇到很多难以克服的困难,而多层线性模型可以很好地处理上述问题。近年来,越来越多的面板研究开始采用多层线性模型的分析方法,显示出多层线性模型在面板研究中的独特优势。
分层线性模型操作方法
分层线性模型操作方法
分层线性模型(Hierarchical Linear Model,简称HLM)是一种用于分析多层数据结构的统计模型。它将数据分类到不同的层次,并在每个层次上拟合线性模型,然后将这些层次之间的关系建模。
以下是分层线性模型的操作方法:
1. 确定层次结构:首先需要确定数据的层次结构,即数据是如何分成不同层次的。例如,研究可以有多个学校,每个学校有多个班级,每个班级有多个学生。在这种情况下,学校可以被定义为第一层,班级为第二层,学生为第三层。
2. 数据准备:准备好所需的层次数据。这意味着将每个层次的数据分为不同的变量或列。例如,在上述例子中,可以为每个学生收集学校、班级和个人的信息,然后将其分为不同的列。
3. 建立模型:使用统计软件或编程语言,将分层线性模型拟合到数据中。通常,HLM的建模过程包括选择固定效应和随机效应,指定相应的层次结构和层次间关系。
4. 检验模型:一旦建立了HLM模型,需要对其进行检验以评估其拟合优度。这可以通过检查模型参数的统计显著性、模型拟合度量(如R方)以及残差分析来完成。
5. 解释和解读结果:在完成模型检验后,可以解释和解读结果以回答研究问题。这可能涉及解释固定效应和随机效应之间的差异以及层次间关系的影响。
6. 进行推断和预测:最后,可以使用已建立的HLM模型进行推断和预测。这可以通过根据模型参数和已知变量的值来预测响应变量的值,或者通过使用模型进行假设检验和置信区间构建来推断总体水平上的差异。
总的来说,分层线性模型的操作方法包括确定层次结构、准备数据、建立模型、检验模型、解释和解读结果,以及进行推断和预测。
多层线性模型——原理与应用
一、多层线性模型简介
对相同的数据进行三次计算: •一是在组内的个体层上进行的分析,称为组内效应; •二是通过平均或整合第一层中的个体数据,得到第二 层的组间数据,称为组间效应; •三是忽视组的特性而对所有的数据进行分析,称为总 效应。
在此基础上,计算组内效应和组间效应在总效应中的比 例,从而确定变异来自组间还是组内。
一、多层线性模型简介
✓ 5、多层线性模型的优点 (1) 用于类似组织管理、学校教育等具有多层数据结
构的领域研究。 ( 2) 用于个体重复测量数据的追踪研究。测量层面作
为第一水平,个体层面作为第二水平。 ( 3) 用Hale Waihona Puke Baidu做文献综述,即对众多研究成果进行定量综
合。探讨不同研究中进行的处理、研究方法、被试特征和 背景上的差异与效应之间的关系。
(4) 充分利用多层模型较为高级的统计估计方法来改 善单层回归的估计和分析。
二、多层线性模型基本原理
✓ 1、多层线性模型的基本模型 (1) 虚无模型(The Null Model) 第一层和第二层都没有预测变量,只是将方程分解为由
个体差异造成的部分和由组差异造成的部分,这种方法即 方差成分分析。
Level-1: Yij 0 j eij var(eij ) 2
Level-2: 0 j 00 u0 j var(u0 j ) 00 0 j 指第j个二层单位Y的平均值; eij 反应第j个二层单位对Y的随机效应; 00 指所有二层单位的Y的总体平均数; u0 j 指第二层方程的残差(随机误差项)。
HLM多层线性模型教程
HLM多层线性模型教程
HLM(Hierarchical Linear Modeling)是一种多层线性模型,常用于分析层级结构的数据。相比于传统的线性模型,HLM能够更好地处理多层数据的结构,并考虑到不同层级之间的相关性。
HLM模型由两个部分组成:固定效应和随机效应。固定效应表示不同的自变量对因变量的影响,而随机效应则表示不同层级之间的方差和协方差。通过区分这两种效应,HLM能够更准确地估计模型参数。
首先,我们来看一下HLM的基本模型。假设我们有一个层级结构的数据集,其中个体(比如学生)位于组(比如班级)之中。我们可以建立以下的多层线性模型:
Level 1: Y = β0 + β1*X + r
Level 2: β0 = γ00 + u0
β1=γ10+u1
在Level 1中,Y表示因变量(比如学生成绩),X表示一个或多个自变量(比如学生的背景信息),β0和β1表示固定效应,r表示误差项。在Level 2中,β0和β1被分解为γ00和γ10(固定效应)以及u0和u1(随机效应)。通过HLM模型,我们可以估计出固定效应和随机效应的值。
HLM模型的建模过程主要包括以下几个步骤:
1.数据准备:将多层数据按照层级结构整理,确保每个样本都有相应的层级信息。
2.模型设定:根据研究问题和数据特点,确定模型的层级结构、因变量、自变量以及需要考虑的随机效应。
3. 模型估计:使用统计软件(如HLM软件)进行模型估计。HLM模
型的估计通常使用迭代加权最小二乘(Iterative Weighted Least Squares, IWLS)方法。
多层线性模型
.
11
多层线性模型简介
❖ (3)组内分析组间分析
❖ 对相同的数据进行三次计算:
❖ 一是在组内的个体层上进行的分析,称为组内效应
❖ 二是通过平均或整合第一层中的个体数据,得到第二层的组 间数据,称为组间效应
❖ 三是忽视组的特性而对所有的数据进行分析,称为总效应。
❖ 在此基础上,计算组内效应和组间效应在总效应的比例,从 而确定变异来自于组间还是组内。
.
39
多层线性模型——发展模型
❖ 发展模型
❖ 发展模型是把多次观测结果作为时间的某种 数学函数来建构模型。它多用于发展研究、 纵向研究或者追踪研究。
❖ 在这种模型中,第一层数据为不同时间的观 察结果,第二层数据为个体的特征。
.
40
多层线性模型——发展模型
❖ 第一层:线性发展模型
Y ij0j1j T IM E e ij
有相同的 0 j和1 j
❖ 误差项间方差不等:相同第二层单位内的个
体间相似性比不同单位内个体相似性高
❖ 误差项与自变量有关:残差项包含 x i j
.
28
多层线性模型基本原理
❖ 因此,多层数据并不满足传统OLS回归分析 关于残差项的诸多假设。而多层线性模型将 残差项进行了分解,更符合实际情况,所以 对于多层数据使用多层线性模型进行分析更 为合理。
.
多层线性模型
多层线性模型简介
• (3)组内分析组间分析
• 对相同的数据进行三次计算: • 一是在组内的个体层上进行的分析,称为组内效应 • 二是通过平均或整合第一层中的个体数据,得到第二层的组
多层线性模型简介
• 3、多层线性模型分析方法
• 回归的回归方法
• Eg:学生成绩(X)
学习动机(Y)
•
•
班级教师教学水平(W)
• (1)求各个班级学生成绩对学习动机的回归
Yij 0 j 1j X i j rij
多层线性模型简介
• (2)求教师教学水平对β 0j和 β 1j 的回归方程
违背了传统回归(OLS)中关于残差相互独立的假设
采用经典方法可能失去参数估计的有效性并导致不合理的推断结 论。
经典方法框架下的分析策略
Байду номын сангаас经典的线性模型只对某一层数据的问题进 行分析,而不能将涉及两层或多层数据的问题进 行综合分析。
但有时某个现象既受到水平1变量的影 响,又受到水平2变量的影响,还受到两个水平 变量的交互影响(cross-level interaction)。
• 2、多层数据的传统分析方法 • 个体的行为既受个体自身特征的影响,也受到其所处环境的影响,所
分层线性模型
分层线性模型
分层线性模型,是分析多级层次数据的一种统计模型。它的基本思想是:将不同层次的变量分开,按照一定的规则进行数据拟合,用以预测多级层次数据的行为。分层线性模型具有精确的分析性,可以有效地分析出结果的影响因素,从而找出最佳的解决方案。
在统计学中,分层线性模型根据变量分层,分为两个主要类型,即固定效应模型和随机效应模型。固定效应模型采用每个因素的固定系数,以提升模型的拟合度。随机效应模型的因素可以用一系列可以控制的变量来表示,模型可以从中推断出更多的模式,从而更有效地分析结果。
分层线性模型还有另外一些优点,比如可以有效控制方差,防止过拟合,可以让模型收敛。另外,由于变量被分层,可以更加容易地理解模型,得出可信的结论。
此外,分层线性模型还支持多种分析方法,比如Exact Logit(特征准确性)和Polychotomous Logit(多分类日志),可以更有效的分析多分类的结果。
在应用中,分层线性模型已经被广泛应用于金融、医疗、教育等多个行业,以帮助企业更有效的进行决策。比如,在医疗行业,可以用分层线性模型对病人的诊断结果进行多分类分析,以便提供更全面的改善方案。另外,在教育行业,可以用分层线性模型对学生的学习表现进行分析,以确定哪些学习策略最有效。
总之,分层线性模型是一种有效的、全面的统计模型,可以用于
帮助企业提高决策效率,寻求最佳解决方案。它既可以用于定量分析,也可以用于定性分析。它通过将变量分层,可以得出更准确的结果,从而帮助企业获得更多的竞争优势。
多层线性模型的原理与应用
多层线性模型的原理与应用
1. 简介
多层线性模型是一种数据分析和建模方法,适用于解决复杂的非线性关系问题。本文将介绍多层线性模型的原理和应用,并提供一些实际案例。
2. 原理
多层线性模型基于线性回归模型的基本思想,通过添加多个隐藏层来实现对非
线性关系的拟合。具体步骤如下:
2.1 数据准备
首先,需要准备一组有标签的训练数据作为模型的输入。训练数据应包括输入
特征和对应的输出标签。
2.2 构建模型
多层线性模型由输入层、隐藏层和输出层组成。输入层接受输入特征,将其传
递给隐藏层。隐藏层通过计算加权和并经过一个激活函数得到输出。输出层将隐藏层的输出进行线性组合得到最终的预测值。
2.3 定义损失函数
为了评估模型的准确性,需要定义一个损失函数来衡量预测值与真实值之间的
差异。常用的损失函数包括平方损失和交叉熵损失。
2.4 模型优化
使用优化算法,如梯度下降法,来最小化损失函数,找到模型参数的最优解。
通过反复迭代更新参数,逐渐优化模型性能。
3. 应用案例
多层线性模型在许多领域都有广泛的应用。以下是几个常见的应用案例:
3.1 信用评分
在金融领域,多层线性模型可用于信用评分模型的构建。通过收集借贷者的相
关信息,如年龄、收入、负债情况等,可以预测借贷者的信用风险。
3.2 图像识别
多层线性模型也可应用于图像识别任务中。通过将图像像素作为输入特征,使
用多层线性模型可以对图像进行分类。例如,可以将猫和狗的图像分别作为正样本和负样本,训练模型来识别图像中的动物种类。
3.3 自然语言处理
在自然语言处理领域,多层线性模型可用于情感分析和文本分类任务。通过将
多层线性模型的解读:原理与应用
多层线性模型的解读:原理与应用
浙江师范大学心理研究所陈海德
********************
一、多层数据结构的普遍性
多水平、多层次的数据结构普遍存在,如学生嵌套于班级,班级有嵌套与学校。
传统的线性模型,如方差分析和回归分析,只能涉及一层数据的问题进行分析,不能综合多层数据问题。在实际研究中,更令人感兴趣的是学生一层的变量与班级一层的变量之间的交互作用,比如,学生之间的个体差异在不同班级之间可能是相同的、也可能是不同的。学生数据层中,不同变量之间的关系可能因班级的不同而不同。因此,学生层的差异可以解释为班级层的变量。
另一种类型的两层嵌套数据来自纵向研究数据,不同时间观测数据形成了数据结构的第一层,而被试之间的个体差异形成了第二层。可以探索个体在发展趋势上的差异。
二、传统技术处理多层数据结构的局限
如果把变量分解到个体水平,在个体水平上分析。但是我们知道这些学生是来自同一班级的,不符合观察独立原则。导致个体间随机误差相互独立的假设不能满足。
如果把个体变量集中到较高水平,在较高水平上进行分析。这样丢弃了组内信息,而组内变异可能占了大部分。
三、原理
☆水平1(学生)的模型与传统的回归模型类似,所不同的是回归方程的截距和斜率不再是一个常数,而是水平2变量水平不同(不同的班级),其回归方程的截距和斜率也不同的,是一个随机变量。如,每个班级的回归方程的截距和斜率都直接依赖于班级教师教学方法。
☆多层线性模型分为“随机截距模型”和“随机截距和随机斜率模型”。“随机截距模型”假定因变量的截距随着群体的不同而不同,但各群体的回归斜率是固定,因此不同层次因素之间缺乏互动。“随机截距和随机斜率模型”假定截距和回归斜率都因群体而异,允许不同层次因素之间的互动。
分层线性模型
变量间存在直线关系, 变量总体上服从正态分布, 方差齐性, 个体间随机误差相互独立。 只有在这些条件下,传统的回归系数的估计才是有效估计,检验才是精确检验。
但当数据带有层次特征时,不再满足基本假设的后两条, 即方差齐性,个体间随机误差相互独立。
做法二:
将数据进行简单合并 用每个学校学生的平均成绩代替这个学校的成绩 直接在学校水平上估计入学成绩对高考成绩的影响,得出一条回归直线 如图所示,这种回归方法忽略了不同学生之间的差异
一
概念
分层线性回归模型: hierarchical linear models (HLM)
分层模型是由不同层次的自变量解释同一变量的一体化模型。
3、多层线性模型使用的参数估计方法:
多层线性模型使用的参数估计方法主要有迭代广义最小二乘法(IGLS)、 限制性的广义最小二乘估计(RIGLS)和马尔科夫链蒙特卡罗法。 除此之外还有期望最小二乘法(EGLS),广义估计方程法(GEE), 经验贝叶斯估计等(MCMC)。这些方法在正态性假设成立,样本容量较大时, 得到参数的一致有效的估计。而大多数线性分析依靠的是普通最小二乘估计。
三
原理
一个简单的HLM模型:
重写成
i 表示个体,j 表示上层群体单位。 (i表示学生个体,j就表示学校) 该模型意味着按学校j对学生i进行回归
多层线性模型简介
该模型具有很高的灵活性,可以适应各种 数据结构和统计假设,包括随机效应和固 定效应的组合。
由于其计算效率和可扩展性,多层线性模 型适用于处理大规模数据集。
模型局限
模型过于复杂
由于其灵活性,多层线性模型 可能变得过于复杂,导致解释
和理解变得困难。
过度拟合风险
如果模型过于复杂或数据不足 以支持模型的复杂性,则可能 会出现过度拟合的风险。
05
CATALOGUE
模型优势与局限
模型优势
解释变量之间的关系
处理复杂数据结构
通过建立多层线性模型,可以有效地解释 自变量与因变量之间的关系,并百度文库计每个 解释变量的系数。
多层线性模型能够处理复杂的数据结构, 例如嵌套数据或集群数据,允许在模型中 考虑个体和群体之间的差异。
灵活性
适用于大规模数据集
最小二乘估计
最小二乘法的原理
通过最小化预测值与实际值之间的残差平方和,求解最优的参数估计值。
最小二乘估计的数学表达
min ||β||² = min Σ(y_i - (β0 + β1*x1_i + ... + βn*xn_i))²
03
CATALOGUE
多层线性模型
两层模型概述
01
02
03
定义
多层线性模型是一种用于 分析数据的方法,它允许 数据具有两个或更多的层 次。
分层线性模型
分层线性模型(hierarchical linear model HLM)的原理及应用
一、概念:
分层线性模型(hierarchical linear model HLM)又名多层线性模型(Multilevel Linear Model MLM)、层次线性模型(Hierarch Linear Mode1)、多层分析(Multilevel Analysis/Model)。相对于传统的两种统计方法:一般线性模型(general linear model GLM)和广义线性模型(generalized linear models GLMs),它们又有所不同,HLM中的线性模型指的是线性回归,不过它与一般的分层线性回归(Hierarchical Regression)又是不同的,具体的不同见下面数学模型部分。HLM又被通俗的称为“回归的回归”。
Wikipedia:“一般线性回归和多重线性回归都是发生在单一层面,HLM相对于更适用于嵌套数据(nest data)。”
在理解HLM之前应了解有关回归分析和嵌套设计(分层设计)的基本知识。
二、模型:
1、假设:由于个体行为不仅受个体自身特征的影响,也受到其所处环境(群体/层次)的影响。相对于不同层次的数据,传统的线性模型在进行变异分解时,对群组效应分离不出,而增大模型的误差项。而且不同群体的变异来源也可能分布不同,可能满足不了传统回归的方差齐性假设。在模型应用方面,不同群体(层次)的数据,也不能应用同一模型。鉴于传统方法的局限性,分层技术则解决了这些生态谬误(Ecological Fallacy)。它包含了两个层面的假设:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分层线性模型(hierarchical linear model HLM)的原理及应用
一、概念:
分层线性模型(hierarchical linear model HLM)又名多层线性模型(Multilevel Linear Model MLM)、层次线性模型(Hierarch Linear Mode1)、多层分析(Multilevel Analysis/Model)。相对于传统的两种统计方法:一般线性模型(general linear model GLM)和广义线性模型(generalized linear models GLMs),它们又有所不同,HLM中的线性模型指的是线性回归,不过它与一般的分层线性回归(Hierarchical Regression)又是不同的,具体的不同见下面数学模型部分。HLM又被通俗的称为“回归的回归”。
Wikipedia:“一般线性回归和多重线性回归都是发生在单一层面,HLM相对于更适用于嵌套数据(nest data)。”
在理解HLM之前应了解有关回归分析和嵌套设计(分层设计)的基本知识。
二、模型:
1、假设:由于个体行为不仅受个体自身特征的影响,也受到其所处环境(群体/层次)的影响。相对于不同层次的数据,传统的线性模型在进行变异分解时,对群组效应分离不出,而增大模型的误差项。而且不同群体的变异来源也可能分布不同,可能满足不了传统回归的方差齐性假设。在模型应用方面,不同群体(层次)的数据,也不能应用同一模型。鉴于传统方法的局限性,分层技术则解决了这些生态谬误(Ecological Fallacy)。它包含了两个层面的假设:
a、个体层面:这个与普通的回归分析相同,只考虑自变量X对因变量Y的影响。
b、群组层面:群组因素W分别对个体层面中回归系数和截距的影响。
2、数学模型:
a、个体层面:
Yij=Β0j+Β1jXij+eij
b、群组层面:
Β0j=γ00+γ01Wj+U0j
Β1j=γ10+γ11Wj+U1j
涉及到多个群组层次的时候原理与之类似,可以把较低级层次的群组,如不同的乡镇层面与不同的县市层面,可以这样理解,乡镇即是一个个体,群组即是不同的县市。更多层次的可以这样理解,一直是下一层对上一层回归系数和截距的回归。与普通的“回归的回归”不同的是,整个计算过程通过迭代过程完成。
3、因变量:
此处数学模型仅适用于连续的单因变量。非连续因变量、多因变量、潜变量以及非典型的嵌套设计,多层线性模型也可以进行处理,但对模型的设定会更复杂。
4、与分层回归的区别:
a、向前回归、向后回归和逐步回归:
向前回归:根据自变量对因变量的贡献率,首先选择一个贡献率最大的
自变量进入,一次只加入一个进入模型。然后,再选择另一个最好的加入模型,直至选择所有符合标准者全部进入回归。
向后回归:将自变量一次纳入回归,然后根据标准删除一个最不显著者,再做一次回归判断其余变量的取舍,直至保留者都达到要求。
逐步回归是向前回归法和向后回归法的结合。首先按自变量对因变量的贡献率进行排序,按照从大到小的顺序选择进入模型的变量。每将一个变量加入模型,就要对模型中的每个变量进行检验,剔除不显著的变量,然后再对留在模型中的变量进行检验。直到没有变量可以纳入,也没有变量可以剔除为止。
向前回归、向后回归和逐步回归都要按照一定判断标准执行。即在将自变量加入或删除模型时,要进行偏F检验。
b、分层回归与前三者的区别与联系:
在理解分层回归与以上三者的区别时,应理解以下三个概念。
总体变异:预测变量X和结果变量Y之间相关的平方,它包括该X和Y 之间的所有关系。
共同变异:在每个X互相独立的理想情况下,共同变异为0。它指的是X 对Y的影响的重叠部分。
独特变异:在控制了其他变量以后,特定X对Y的影响。它表示了Y中由特定X所单独解释的变异。假如X之间存在重叠,那么它们共有的变异就会削弱独特变异。X的独特效应指的是去除重叠效应后该X与Y的偏相关的平方。可以看出,X的独特变异依赖于其他预测变量。
在强制回归(ENTER法)中,所有预测变量的偏决定系数之和要小于整个模型的决定系数(R2)。总决定系数包括偏决定系数之和与共同变异。强制回归(ENTER 法)的局限性在于不能将重叠(共同)变异归因于模型中的任何一个预测变量,每个预测变量只能分配到它所解释的独特变异,共同变异则被抛弃了。此时的偏相关的平方与回归系数是等同的。分层回归与以上三种方法则提供了一种可以将共同变异分配给特定预测变量的方法。共同变异将会分配给优先进入模型的变量。在分层回归中,将会把重叠(共同)变异分配给第一层模型中的预测变量。因此,上面三种方法则是针对自变量而言的,而分层回归则针对第一层(优先层的模型)。分层回归则是由研究者根据经验和理论思考来将自变量分成不同的组(block),然后再安排每一组变量进入模型的顺序,进入的顺序不是根据贡献率,而是根据相应的理论假设。而且,研究者还可以为不同组的自变量选用不同的纳入变量的方法。从这个意义上说,它与前面三种回归方法只是指定变量进入模型的方式不同。
c、分层回归与分层线性模型:
从回归模型中,可以看出,分层回归更像是分组回归或者分块回归,而与分层线性模型中的分层,性质是完全不一样的。
三、类型
1、群组模型:
即以上所介绍的研究背景效应的数据处理方式。
2、发展模型:
主要用于追踪研究的模型建构。不同时间的观察结果(第一层)嵌套于被观察个体(第二层),研究不同的个体对时间效应的回归系数和截距产生了何
种影响。在这个模型中,个体不是第一层,而是时间效应,这是发展模型与群组模型在模型建构上的区别。
四、应用评价
多层线性模型的适用范围非常广,凡是具有嵌套和分层的数据均可使用多层线性模型进行分析。此外,多层线性模型还可以用于纵向研究。采用多层分析的方法处理重复测量数据与时间变量之间的关系。在多层结构中可以对非平衡测量数据得到参数的有效估计。因此用多层分析法处理重复测量的数据,不要求所有的观测个体有相同的观测次数。在纵向调查研究中,由于各种各样的原因,被试个体观测值部分缺失的情况时有发生,因此多层分析法处理缺失数据而不影响参数估计精度的这一特征,使得多层分析法处理在处理纵向观测数据时,比传统多元重复测量方法有很大的优势。
与传统的用于处理多元重复测量数据的方差分析和回归分析方法相比,多层分析法至少具有以下优点:
1、多层分析法通过考虑测量水平和个体水平不同的差异,明确表示出个体在水平1(不同测量点)的变化情况,因而对于数据的解释(个体随时间的增长趋势)是在个体与重复测量交互作用基础上的解释,即不仅包含了不同测量点的差异,而且包含了个体之间存在的差异。
2、多层分析法对数据资料较传统多元重复测量方法有较低的要求,对于重复测量的次数和重复测量之间的时间跨度都没有严格的限制。不同个体可以有不同的测量次数,测量与测量之间的时间跨度也可以不同。
3、多层分析模型可以定义重复观测变量之间复杂的协方差结构,并且对所定义的不同的协方差结构进行显著性检验。在多层分析模型中,通过定义第一水平和第二水平的随机变异来解释个体随时间的复杂变化情况,当数据满足传统多变量重复测量模型对数据的要求和假设时,层次分析法得到与传统固定效应多元重复测量模型相同的参数估计和假设检验结果。用多层分析模型可以考虑更高一层的变量,如不同地区儿童对个体增长的影响。
但是多层分析模型也有缺点,首先用于多层分析模型的参数估计方法较传统估计参数的方法要复杂得多,而且不能处理变量之间间接的影响关系和处理复杂的观测变量和潜变量之间的关系。
五、HLM软件分析步骤:
具体操作步骤可以参看:张雷等.多层线性模型应用.北京:教育科学出版社,2005.p42.
1、创建HLM可识别的数据文件(*.ssm/mdm格式)
a、创建SSM数据文件的原始数据准备:
HLM支持的原始数据格式包括纯文本,SPSS,SAS,STAT等主流统计软件,如果不兼容,可以转换成HLM支持的数据格式。一般而言,一层结构一个数据文件,而且这些数据文件,需要存在一个同样的标识变量(ID),最好是数字型的。每层的数据文件均按照这个标识变量排序。
b、生成MDM文件(指定数据层级及相关信息):
选择你需要建立的模型层数,以下以两层为例。选择群组嵌套设计还是追踪测量设计=》浏览指定第一层的文件=》指定标识变量和非标识变量=》指定对缺失数据的处理;浏览指定第二层的文件=》指定标识变量和非标识变量(HLM的高层