第四讲 多层模型
(完整版)多层线性模型介绍
多层线性模型:HLM(hierarchical linear model)计量模型,为解决传统统计方法如回归分析在处理多层嵌套数据时的局限而产生的,是目前国际上较前沿的一套社会科学数据分析的理论和方法,优势体现两个方面:一是解决了数据嵌套问题;二是为追踪研究或重复测量研究引入了新方法。
传统的线性模型,例如,ANOV A或者回归分析,只能对涉及某一层数据的问题进行分析,而不能将涉及两层或多层数据的问题进行综合分析,而多层线性模型对解决这些问题提供了有效的统计方法。
多层线性模型的参数估计方法与进行两次回归的方法在概念上是相似的, 但二者的统计估计和验证方法却是不同的, 并且多层线性模型的参数估计方法更为稳定。
因此多层模型的应用范围也相当广泛,与传统的用于处理多元重复测量数据的方法相比,该模型具有对数据资料要求低、能够明确表示个体在第一层次的变化情况、可以通过定义第一层次和第二层次的随机变异解释个体随时间的复杂变化情况、可以考虑更高一层次的变量对于个体增长的影响等特点。
多层线性模型( multilevel model ) 由Lindley 等于1972 年提出,是用于分析具有嵌套结构数据的一种统计分析技术。
作为传统方差分析模型的有效扩展Korendijk 等和Duncan 等众多的研究者对多层线性模型进行了广泛研究。
20 多年来,该方法在社会科学领域获得了广泛应用。
近年来,有研究者提出使用多层线性模型进行面板研究,并且已在社会科学领域取得较大进展。
面板研究中多层线性模型的应用优势:由上述分析可知,在面板研究中,传统的数据分析方法会遇到很多难以克服的困难,而多层线性模型可以很好地处理上述问题。
近年来,越来越多的面板研究开始采用多层线性模型的分析方法,显示出多层线性模型在面板研究中的独特优势。
首先,多层线性模型通过考察个体水平在不同时间点的差异,明确表达出个体在层次一的变化情况,因而对于数据的解释(个体随时间的增长趋势)是在个体与重复观测交互作用基础上的解释,即不仅包含不同观测时点的差异,也包含个体之间存在的差异。
多层线性模型的原理及其运用介绍
多层线性模型的原理及其运用介绍2009年03月16日星期一 21:28多层线性模型的原理及其运用介绍传统线性模型的基本假设是线性、正态、方差齐性和独立,后两个假设在嵌套的取样中很难成立。
比如在对学校的学生进行的研究中,收集到的变量可以分为一定的层次:首先是学生本身的变量,比如年龄、学习成绩等等;其次是班级的变量,比如班级的人数,男女生的比例、班主任的管理风格等等;再次是学校的变量,比如重点或者非重点,学校所在地等。
这样的数据就构成了一种具有层次的嵌套结构。
传统方法处理这种嵌套数据有几种变通的方法:(1)基于个体水平的分析,即直接把来自不同组的数据进行合并,在个体层次上进行分析,获得对个体整体状况的了解。
这样做的一个不足是放弃了对不同组之间差异的考虑,使得很多本来由分组带来的差异被解释为个体的差异。
(2)基于组水平的分析,即把个体的数据以均数或其它形式带到高一层变量的分析中,仅仅考虑组水平的因素对因变量的影响。
这种做法在一定程度上可以反映组因素的作用,不足之处是放弃了对个体差异的解释——而使得很多结论没有说服力。
多层和嵌套分析的思想由来已久,但在上世纪90年代才发展为系统完整的理论和方法。
分层技术解决了困扰社会科学很久的生态谬误(Ecological Fallacy)。
多层线性模型这一术语最早是由Lindley和Smith于1972年提出,但是由于该模型参数估计的方法较传统的回归方法不同,所以在很长一段时间,它的应用受到了计算技术的限制。
直到1977年,Dempster, Laud和Rubi。
等人提出了EM (Expectation Maximization)算法,1981年,Dempster等人将EM算法应用于解决多层线性模型的参数估计,使得这一方法的应用成为可能。
1983年,Strenio, Weisberg和Bryk等相继将这一方法应用于社会学的研究。
随后,1986年Goldstein应用迭代加权广义最小二乘法(Iteratively Reweighted Generalized Least Squares)估计参数,1987年,Longford应用费歇得分算法( Fisher Scoring Algorithm )对模型参数进行了估计。
多层线性模型的解读:原理与应用
多层线性模型的解读:原理与应用多层线性模型的解读:原理与应用浙江师范大学心理研究所陈海德Chenhaide351@ 一、多层数据结构的普遍性多水平、多层次的数据结构普遍存在,如学生嵌套于班级,班级有嵌套与学校。
传统的线性模型,如方差分析和回归分析,只能涉及一层数据的问题进行分析,不能综合多层数据问题。
在实际研究中,更令人感兴趣的是学生一层的变量与班级一层的变量之间的交互作用,比如,学生之间的个体差异在不同班级之间可能是相同的、也可能是不同的。
学生数据层中,不同变量之间的关系可能因班级的不同而不同。
因此,学生层的差异可以解释为班级层的变量。
另一种类型的两层嵌套数据来自纵向研究数据,不同时间观测数据形成了数据结构的第一层,而被试之间的个体差异形成了第二层。
可以探索个体在发展趋势上的差异。
二、传统技术处理多层数据结构的局限如果把变量分解到个体水平,在个体水平上分析。
但是我们知道这些学生是来自同一班级的,不符合观察独立原则。
导致个体间随机误差相互独立的假设不能满足。
如果把个体变量集中到较高水平,在较高水平上进行分析。
这样丢弃了组内信息,而组内变异可能占了大部分。
三、原理☆水平1的模型与传统的回归模型类似,所不同的是回归方程的截距和斜率不再是一个常数,而是水平2变量水平不同,其回归方程的截距和斜率也不同的,是一个随机变量。
如,每个班级的回归方程的截距和斜率都直接依赖于班级教师教学方法。
☆多层线性模型分为“随机截距模型”和“随机截距和随机斜率模型”。
“随机截距模型”假定因变量的截距随着群体的不同而不同,但各群体的回归斜率是固定,因此不同层次因素之间缺乏互动。
“随机截距和随机斜率模型”假定截距和回归斜率都因群体而异,允许不同层次因素之间的互动。
参数估计方法有:迭代广义最小二乘法、限制性的广义最小二乘估计、马尔科夫链蒙特卡罗法。
这些方法代替了传统的最小二乘法估计,更为稳定和精确。
比如,当第二层的某单位只有少量的被试,或不同组样本量不同时,多层线性模型进行了加权估计、迭代计算。
多层线性模型讲议.完整版PPT资料
多层线性模型分析数据的特点
多层线性模型的分析例子
1、层次结构(嵌套结构)特点数据在社会 ——两水平线性模型
多层线性模型分析数据的特点
研 究中的普遍性 (2)随机效应单因素协方差分析(one –way ANCOVA with Random Effect)
合并模型表示为:
Yij=r00+r10Xij+r01Wj+r11XijWj+u0jXij+u0j+eij
2、多层线性分析模型中参数的类型:
固定参数、水平1的随机系数、方差与协方差成分
3、多水平分析常用的简化模型类型
(1)随机效应一元方差分析模型(one –way ANOVA with Random Effect)
多层线性模型分析例子——两水平分析模型 3、多水平分析常用的简化模型类型
2、传统回归对多层数据的处理 水平1(如:学生):Yij= β0j+ β1jXij+eij
基于HLM的多层线性模型 ——原理与操作 3、多水平分析常用的简化模型类型
用多H层L线M性软模件型分分析析两(数水据平1的线)特性点模将型所有更高一层的变量都看作是第一水平的变量, 13、 、多多层层线线性性模模型型的产多生直学 所科经接应历用的在性三个第阶段一水平上对数据进行分析(缺点是什么?) (多3层)线一性般模的型线分性析(回数归据2模的)型特点将第一水平的观测直接合并为第二水平的观测, 然后直接对第二水平进行分析(缺点是什么?) 3、多水平分析常用的简化模型类型
(2)随机效应单因素协方差分析(one –way ANCOVA with Random Effect)
《多层线性模型》课件
03
多层线性模型的实例分析
实例一:教育数据分析
总结词
多层线性模型在教育数据分析中应用广泛,主要用于分析学 生成绩、学习行为等变量之间的关系。
详细描述
在教育领域,多层线性模型可以用于分析不同层次的学生数 据,如班级、学校或地区等。通过多层线性模型,可以同时 考虑学生个体特征和班级、学校等环境因素的影响,从而更 准确地估计各个因素的影响程度。
应用领域的拓展
生物医学研究
应用于基因组学、蛋白质组学等 领域,探索生物标志物与疾病之 间的关系。
社会学研究
应用于社会调查、人口统计等领 域,研究社会经济地位、教育程 度等因素对个体发展的影响。
经济学研究
应用于金融市场分析、消费者行 为等领域,探究经济变量之间的 相互关系。
跨学科融合与交叉应用
人工智能与机器学习
06
多层线性模型的未来发展与展望
算法优化与改进
算法并行化
利用多核处理器或分布式计算资源,实现多层线 性模型的快速计算,提高分析效率。
算法收敛性改进
针对现有算法的收敛速度和稳定性进行优化,减 少迭代次数,提高计算精度。
算法自适应调整
根据数据特性自动调整模型参数,减少人工干预, 提高模型的泛化能力。
对初值敏感
对缺失数据敏感
多层线性模型的迭代算法对初值的选择较 为敏感,初值的选择可能会影响模型的收 敛结果。
如果数据中存在大量缺失值,多层线性模 型的估计可能会受到影响。在进行模型拟 合之前,需要对缺失数据进行适当处理。
05
多层线性模型与其他统计模型的比较
与单层线性模型的比较
模型复杂性
多层线性模型比单层线性模型更复杂,因为它同时考虑了组间和 组内的关系,能够更好地拟合数据。
多层线性模型
违背了传统回归(OLS)中关于残差相互独立的假设
采用经典方法可能失去参数估计的有效性并导致不合理的推断结 论。
经典方法框架下的分析策略
经典的线性模型只对某一层数据的问题进 行分析,而不能将涉及两层或多层数据的问题进 行综合分析。
但有时某个现象既受到水平1变量的影 响,又受到水平2变量的影响,还受到两个水平 变量的交互影响(cross-level interaction)。
间数据,称为组间效应 • 三是忽视组的特性而对所有的数据进行分析,称为总效应。 • 在此基础上,计算组内效应和组间效应在总效应的比例,从
而确定变异来自于组间还是组内。 • 组内分析组间分析的方法较前两种方法更多地考虑到了第一
层数据及第二层数据对变异产生的影响,但无法对组内效应 和组间效应做出具体的解释,也就无法解释为什么在不同的 组变量间的关系存在差异。
• 2、多层数据的传统分析方法 • 个体的行为既受个体自身特征的影响,也受到其所处环境的影响,所
以研究者一直试图将个体效应与组效应(背景效应或环境效应)区分 开来。 • 个体效应:由个体自身特征所造成的变异。 • 组效应:由个体所处环境所造成的变异。
多层线性模型简介
• (1)只关注个体效应,而忽视组效应 • 只在个体这一层数据上考虑变量间的关系,那么导致所观测到的效应
图1:不考虑学校之间差异的回归直线
• 在许多研究中,取样往往来自不同层级和单位,这种 数据带来了很多跨级(多层)的研究问题,解决这些 问题的一种新的数据分析方法——多层模型分析技术。
• 这一方法的开创及发展的主要贡献者之一是英国伦敦 大学的Harvey Goldstein教授及研究者把这种方法称 作“多层分析”。另一主要开拓者美国密歇根大学的 Stephen W.Raudenbush教授和同行把它称为“分层线 性模型结构”。在此,我们按照张雷等人的叫法称其 为“多层线性模型”或“多层模型”。
(完整word版)多层次线性模型理论综述
多层次线性理论模型综述摘要:组织的多层次系统结构逐渐显露出传统组织偏宏观或偏微观观点的局限性。
嵌套性质数据的处理方法,可以采用多层次线性模型(Hierarchical Linear Modeling,简称HLM )加以分析和处理。
本文旨在对HLM 理论分析的方法、模型、原理、优点以及局限性展开综述,以期获得更好的理解。
关键字:多层次线性模型 个人层次 群体层次 聚合一、引言在社会科学中,很多研究问题收集来的数据都体现出多水平,多层次的嵌套结构。
比较典型的例子就是:在教育研究中,学生嵌套于班级中,而班级嵌套于学校中。
传统的回归模型或从宏观的团体层次加以分析,或从微观层次加以分析,都对数据的的嵌套性视而不见,这大大降低了研究结果的现实意义。
在过去十年的组织研究中,多层次的观点逐渐发展成熟,确认了组织既是宏观亦是为官的观点而且在综合方法上应该考虑两种情形:意识群体、组织及其他情境因素如何由上而下影响个人层次的结果变量;二是个人知觉、态度及行为由下而上以形成群体、次单位与组织的现象。
针对跨层次的数据结构,利用多层次理论模型,可以较好的加以处理,其中以多层线性模型(HLM )最为常用。
这一方法的开创及发展的主要贡献者之一是英国伦敦大学的Harvey Goldstein 教授及研究者把这种方法称作“多层分析”。
另一主要开拓者美国密歇根大学的StephenW.Raudenbush 教授和同行把它称为“分层线性模型结构”。
按照张雷等人的叫法称其为“多层线性模型”或“多层模型”。
二、多层次线性理论模型在多层次线性模型中,自变量可能来自于较低层次的构念,或是较高层次的构念。
这些变量之间的关系可以由下面的模型描述:Level-1 Model :01ij j j ij ij Y X r =β+β+Level-2 Model :000010j j j G U β=γ+γ+ 110111j j j G U β=γ+γ+ij Y 是指个人i 在j 群体中的结果变量,ij X 是个人i 在j 群体中的预测因子值,0j β与1j β是每个j 群体分别被估计出的截距项与斜率,ij r 为残差项。
多层线性模型简介两水平模型优秀课件
Outcome for observation i in unit j
Intercept
Value of X for observation i in unit j
Coefficient
一个简单的多层线性模型
Y ij01Xijujrij
Outcome for observation i in unit j
distributed) 误差方差齐性(homoskedastic) 误差或观测个体之间相互独立
(independent)
什么是多层(多水平)数据?
多层(多水平)数据指的是观测数据在单位上 具有嵌套的关系。如学生嵌套于班级,班级嵌 套于学校等。
同一单位内的观测,具有更大的相似性。同一 个班级的学生由于受相同的班级环境等因素的 影响有tual)特征 的多层数据举例
学生水平特征的观测,嵌套于班级或学校 兄弟姊妹特征的观测,嵌套于家庭 个体之间的观测嵌套于社区 个体不同时间点的重复测量嵌套于个体 病人嵌套于医院 参数的估计嵌套于不同的研究 (元分析,meta-analysis)
对多层数据,我们了解什么...
Y Xur specific to ij 0 1 ij j ij observation i in unit j
Outcome for observation i in unit j
(4)对73所学校分别做回归分析, 得到如图4的结果,如图4所示,从 图中结果可以看出,不同学校回归 直线的截距和斜率均不同,即:不 同学校学生平均高考成绩之间存在 差异,入学学业成绩对高考成绩的 影响强度不同。
图4:考虑不同学校平均成绩差异 和入学对毕业成绩影 响程度差异的回归直线
回归模型中,如何解决残差相关 的问题?
管理研究方法+多层线性模型
多层线性模型——随机效应回归模型
随机效应回归模型
第一层: Y X e ij 0j 1j ij ij
第二层:
0 j 00
u0 j
var(0 j ) 00
1 j 10
•研究截距项和斜率在第二层上的变异
u1 j
var(1 j ) 11
Yij 0 j 1j X i j rij
(2)求班级氛围对β0j和 β1j 的回归
0 j 00 01W j 0 j 1 j 10 11W j 1 j
合并模型: Yij=γ00+(γ10+μ1j)Xij+γ01Wj +(γ11XijWj+rij+μ0j)
分析结果显示 γ
01=0.74,t-value(23)=0.74,p=0.012,因此假设2得到支持
通过公式( from Step2 - from Step3)/ from Step2,计算出服务绩效组间方差有 多少百分比可以被服务气氛所解释, (4.52-4.09)/4.52=0.1
此时, 11 =0.19,通过卡方检验发现斜率的方差是不显著的:(24)=22.23,p>0.1
能够将不同层次的变量分层计算,把误差按层次分解,
提高了差异分解的精度。
在纵向研究中,易出现样本流失。多层线性模型允许 缺失值的存在,允许不同时间间隔的测量,允许采用不 同的观测时间表。
多层线性模型简介
4、多层线性模型分析方法——回归的回归
例如: 努力程度(X) 学生成绩(Y)
班级氛围(W)
(1)求努力程度对学生成绩的回归
rij
00
第四讲多层模型
6 1010101 六年级 2008 370
7 1010102 一年级 2003 332
8 1010102 二年级 2004 343 9 1010102 三年级 2005 350
10 1010102 四年级 2006 351
11 1010102 五年级 2007 351
12 1010102 六年级 2008 360
学生 1010101 1010102 1010201 1010202 1010203
年龄 10 11 12 12 11
单层次数据示例 性别 标准成绩 姊妹数量 父母教育
0
370
0
16
1
360
1
16
1
339
3
9
1
332
2
12
0
351
2
12
两个层次数据
学生 1010101 1010102 1010201 1010202 1010203
一年级 (2003)
350 332 360 321 360
二年级 (2004)
355 343 356 322 380
三年级 (2005)
360 350 355 320 400
四年级 (2006)
366 351 350 325 420
五年级 (2007)
369 351 340 324 430
六年级 (2008)
16
1 101
1010201 12 1 339 3
9
2 101
1010202 12 1 332 2
12
2 101
1010203 11 0 351 2
12
2 101
• “中国健康与营养调查”(China Health and Nutrition Survey,简称 CHNS)有四个层次数据: 省区、社区、家庭、个体,后三个层次的编码规 律分别是:
《多层线性模型》课件
模型诊断
在模型拟合过程中,进行 模型诊断,检查模型是否 满足多层线性模型的假设 条件。
结果解释与模型评估
结果解释
对模型拟合结果进行解释,包括各层的系数、截 距等,并对其意义进行阐述。
模型评估
通过比较不同模型的拟合效果、预测准确性等指 标,对所选择的模型进行评估。
模型优化
根据结果解释和模型评估的结果,对模型进行优 化,提高模型的拟合效果和预测准确性。
改进方向
优化计算方法
通过优化计算方法,降低多层线 性模型的计算复杂度,提高计算 效率和准确性。
放宽数据假设
在模型设定时放宽对数据的假设 ,以适应更多类型的数据分布和 预测目标。
改进超参数调整方
法
改进超参数调整方法,提高超参 数选择的准确性和稳定性,从而 提高模型的性能和结果的可重复 性。
06
总结与展望
多层线性模型能够考虑不同层次的数据之 间的随机效应,使得模型更加贴近实际, 提高预测精度。
适用于大型数据集
灵活的模型设定
多层线性模型在处理大型数据集时相对稳 定,能够有效地减少计算时间和内存占用 。
多层线性模型允许灵活的模型设定,可以 根据实际需求调整模型参数,以适应不同 的数据分布和预测目标。
缺点
04
多层线性模型的实际应 用案例Βιβλιοθήκη 教育数据分析总结词
多层线性模型在教育数据分析中应用广泛,能够分析多层次数据,揭示不同层次对个体发展的影响。
详细描述
多层线性模型可以用于分析学校、班级、个体等多层次数据,探究不同层次对个体学习成绩、行为习 惯等方面的影响。例如,分析学校教育资源、教师教学风格等因素对学生个体发展的影响。
它能够处理不同层次的数据,并考虑不同层次对结果变量的影响,从而更准确地 解释数据中的变异。
多层次模型分析的统计原理
多层次模型分析的统计原理多层次模型分析是一种统计方法,用于研究数据在不同层次结构下的变化规律和影响因素。
在实际研究中,我们经常会遇到数据存在多层次结构的情况,比如学生嵌套在班级中,班级嵌套在学校中,员工嵌套在部门中等。
为了更准确地分析这种数据,多层次模型分析应运而生。
本文将介绍多层次模型分析的统计原理,帮助读者更好地理解和运用这一方法。
1. 多层次模型的基本概念多层次模型又称为分层模型或层次线性模型,是一种多层次数据结构下的统计分析方法。
在多层次数据结构中,数据被分为不同的层次,每个层次都有其特定的特征和影响因素。
多层次模型分析旨在同时考虑不同层次的影响,从而更准确地评估变量之间的关系。
2. 多层次模型的建模过程多层次模型的建模过程包括以下几个步骤:(1)确定层次结构:首先需要确定数据的层次结构,即数据被分为哪些层次,每个层次包含哪些变量。
(2)建立空模型:空模型是不考虑任何解释变量的基础模型,用于评估不同层次的变异程度,即在不考虑解释变量的情况下,数据在不同层次之间的变异程度。
(3)引入解释变量:在空模型的基础上,逐步引入解释变量,分析解释变量对因变量的影响以及不同层次之间的交互效应。
(4)模型诊断:对建立的多层次模型进行诊断,检验模型的拟合度和假设是否成立,如模型的残差是否符合正态分布等。
(5)模型解释和预测:最后,根据建立的多层次模型进行参数估计和解释,预测不同层次下因变量的取值,并评估解释变量对因变量的影响程度。
3. 多层次模型的统计原理多层次模型的统计原理主要包括以下几个方面:(1)随机效应:多层次模型中通常包含随机效应,用于描述不同层次之间的随机变异。
随机效应可以帮助解释不同层次之间的差异,提高模型的拟合度。
(2)固定效应:除了随机效应外,多层次模型还包含固定效应,用于描述解释变量对因变量的影响。
固定效应可以帮助评估解释变量的显著性和影响程度。
(3)方差分解:多层次模型通过方差分解,将总变异分解为不同层次和误差的变异成分,从而评估不同层次对因变量的解释能力。
多层次理论模型的建立及研究方法课件
3.3聚合统计验证方法
① 组内一致度 ② 组内相关(1)或ICC(1) ③ 组内相关(2) ICC(2)
多层次理论模型的建立及研究方法
四、HLM的简介
• 4.1 HLM的优点
① 能够明确分析嵌套性质的数据 ② 能够改善个人层次效果的估计 ③ 能够使用广义的最小二乘法 ④ 提供了稳健的标准估计数 ⑤ 提供了方差协方差成分的有效估计数
多层次理论模型的建立及研究方法
五、结语
• 虽然HLM在多层次的数据上,已相当普及且有许 多优点,但如同其他方法一样,也有局限性。特 别是在一个假设不能满足或多个未能满足时,则 估计会出现很多问题。但不管如何,它为数据分 析提供了很好的工具,当然在分析数数据中,我 们应该采用合适的工具而不是流行的工具,这样 才能是我们的理论更加真实、可靠。
多层次理论模型的建立及研究方法
二、多层次理论的建立、模型的分 类
• 2.1多层次理论建立的问题 ① 如何确定因变量 ② 如何连接不同层次间的现象 ③ 如何确定构年分析层次 ④ 如何建立假设
多层次理论模型的建立及研究方法
2.1多层次蛙池塘模型 ④ 一致的多层次模型
多层次理论模型的建立及研究方法
多层次理论模型的建立及研究方法
4.1 HLM的分析程序
① 零模型 ② 检验假设1的主效果 ③ 检验假设2的主效果 ④ 检验假设3或调节效果
多层次理论模型的建立及研究方法
4.1 HLM的中心问题
针对level-1的预测因子三个中心处理方法 ① 原始尺度 ② 总平均数中心化 ③ 组内平均数中心化 针对level-2的预测因子三个中心处理方法 ① 原始尺度 ② 总平均数中心化
多层次理论模型的建立及研究方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 局限
– 分析较复杂 – 难以处理两个关系:一是变量之间间接的影响关系;二是复杂的 实测变量和潜在变量之间的关系
横向数据的类型
• 单个时点数据,一个对象只有一个观察值
• 因其包含的信息不同,分为两个或多个层次数据
学生 1010101
1010102 1010201 1010202 1010203
年龄 10
11 12 12 11
单层次数据示例 性别 标准成绩 姊妹数量 父母教育
0
1 1 1 0
370
360 339 332 351
– 群体资料可能会掩盖群体内个体之间的差异
• 生态谬误≠简化论/还原论:“以偏概全” (个体-->群体) vs. 群体-->个体
MLM的技术优势与局限
• 优势:与普通模型相比,MLM(Guo andZhao 2000):
– 纠正参数估计误差 – 改善置信区间(confidence intervals)和显著性检验 (significance tests);降低犯I类错误的可能性(Teachman and Crowder 2002) – 系统地区分不同层次自变量对因变量影响的大小
– 家庭编码 = 省份编码×1000 + 社区原始码×100 + 家 庭户原始码
– 社区编码 = 省份编码×100 + 社区原始码
多个层次的横向数据
学校 1班
学生 1010101 学生 1010102 学生 1010201 第三层
2班
学生 1010202 学生 1010203
第二层
第一层
ID由三个变量构成:学校编码×10000 + 班级代码×100
• 随机系数模型(random coefficient models)
• 随机效果模型(random effects models) • 变异成分模型(variance component models) • 情境效果模型(contextual effects models)
多层模型与生态谬误(Ecological Fallacy)
• 多层模型解决社会科学研究领域的生态谬误
• 生态谬误、生态学谬误、层次谬误、区群谬误 • Robinson(1950)利用1930年美国人口普查数据,分析 48个州的识字率与新移民人口比例的关系
– 当以州为分析单位时,二者之间的相关系数为0.53 – 当以个体资料为分析单位时,二者的相关系数仅为-0.11
班级 1 1 2 2 2
多个层次数据
学生
1010101 1010102
年龄 性别
10 11 0 1
标准 成绩 370
360
姊妹 父母 数量 教育 0 16
1 16
班级
1 1
学校
101 101
1010201
1010202
12
12
1
1
339
332
3
2
9
12
2
2
101
101
1010203
11
0
351
2
12
• 一元线性回归模型,描述因变量y如何依赖于自变量x和误 差项e而异。在该模型中,y是x的线性函数 0 1x 加上误 差项e •
0 1x 0、1 :模型的未知参数,分别为回归常数、系数;
反映了由于x的变化而引起的y的变化,即边际变化(当变 量x变化一个单位时,变量y改变的数量) • e是误差项的随机变量,代表因主观和客观原因而不可观测 的随机误差,反映了除x和y之间的线性关系之外的随机因 素对y的影响,是不能由x和y的线性关系揭示的变异性
2
101
• “中国健康与营养调查”(China Health and Nutrition Survey,简称 CHNS)有四个层次数据: 省区、社区、家庭、个体,后三个层次的编码规 律分别是:
– 个人编码 = 省份编码×10000 + 社区原始码×1000 + 家 庭户原始码×100 + 个人行号
• 等方差,即对于所有的x值,e的方差σ2都相同 • 误差项服从正态分布,且相互独立,即 ~ N (0, 2 )
对于一个特定的 x 值, 它所对应的 与其他 x 值对应的 不相关 对于一个特定的 x 值, 它所对应的 y 与其他 x 对应的 y 不相关
为什么使用MLM
• 社会科学数据的多层结构
第四讲 多层模型 (Multilevel modeling)
主要内容
• 数据的结构
• 介绍多层模型在社会科学领域中的应用 • 通过实例和比较多层模型的分析结果与传统线性模型的分 析结果,加深对多层模型的了解 – 回顾多层结构数据及统计学的几个最基本的假定,并 解释违反了基本假定可能给数据分析结果带来的偏差
1010101
1010102
350
332
355
343
360
350
366
351
369
351
370
360
1010201
1010202
360
321
356
322
355
320
350
325
340
324
339
332
1010203
360
380
400
420
430
351
纵向数据结构:多个观察值
序 号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1010101 1010101 1010101 1010101 1010101 1010101 1010102 1010102 1010102 1010102 1010102 1010102 1010201 1010201 1010201 一年级 二年级 三年级 四年级 五年级 六年级 一年级 二年级 三年级 四年级 五年级 六年级 一年级 二年级 三年级 2003 2004 2005 2006 2007 2008 2003 2004 2005 2006 2007 2008 2003 2004 2005 学生 年级 年份 标准 成绩 350 355 360 366 369 370 332 343 350 351 351 360 360 356 355 序 号 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1010201 1010201 1010201 1010202 1010202 1010202 1010202 1010202 1010202 1010203 1010203 1010203 1010203 1010203 1010203 四年级 五年级 六年级 一年级 二年级 三年级 四年级 五年级 六年级 一年级 二年级 三年级 四年级 五年级 六年级 2006 2007 2008 2003 2004 2005 2006 2007 2008 2003 2004 2005 2006 2007 2008 学生 年级 年份 标准 成绩 350 340 339 321 322 320 325 324 332 360 380 400 420 430 351
• 追踪数据与时序数据的差异
– 追踪数据:大截面(即大N),但调查时点少(即小T) – TSCS数据:多调查时点,但每个时点的对象却较少
• 纵向数据也是多层结构数据中的一种
• 人口普查数据是横向数据还是纵向数据?
纵向数据结构:单个观察值
1-6年级的标准成绩
学生 一年级 (2003) 二年级 (2004) 三年级 (2005) 四年级 (2006) 五年级 (2007) 六年级 (2008)
学校
1班级 班级
第四层
第三层
学生
1010203
一年级特点
学生
1010101
一年级特点
学生
1010102
一年级特点
学生
1010201
一年级特点
学生
1010202
一年级特点
第二层
第一层
二年级特点
二年级特点 1010102 三年级特点 1010102 四年级特点 1010102 五年级特点 1010102 六年级特点 1010102
• 时间序列数据:time-series data • 配对数据:matching or pairing data
横向数据的特点
• 定义
– 在某一时点、多个(或单个)空间收集的多个调查对 象的静态数据
– 横断面的、平行关系的、并列关系的数据,是一种单 维结构的数据集合(one-dimensional data set)
– 介绍多层模型的优势与适应性
– 讲解多层线性和非线性模型的基本原理 – 利用Stata软件,通过对数据的分析,演示模型的应用
数据结构的类型
• 横向数据:横截面数据、截面数据;crosssectional data;合并横截面数据(pooled crosssectional data) • 纵向数据:面板数据;panel data; longitudinal data
三年级特点
四年级特点
五年级特点
五年级特点 1010203
六年级特点 1010203
六年级特点
多层模型Βιβλιοθήκη • 介绍多层模型(MLM)在包括人口学在内的社会 科学领域的应用
– 为什么使用多层模型 – 模型的技术优势
– 应用原理
– 使用方法 – 应用举例
• 比较MLM和常规的分析结果
线性回归的理论模型
y 0 1x
–若一个调查在不同时间追踪同一对象、询问类似信息, 则该调查所获得的数据属于纵向数据
• 特点 –动态性:同一对象的同一特点在不同时间的变化趋势 –相关性:群内关联;个体自相关 (静态性和离散性)