多层次线性模型理论与实践运用统计方法讲座厦门大学
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
level-2: 0 j0 j 00 00 W u010 j j u 0 j
1 j 10
在level-2中,未考虑任何的自变量或总体层次
协方差分析主要的是数透过据统,计但控考制虑的了方组式间,的将差影异响。因将变lev量e的l-1其中他的自变量加
以控制,且作为回斜归率分项析视的为自各变组量之排间除相其等对,因即变固量定的效影应响,,因比此较,各组间
随机选取两个观测,同一组内的观测之间的相似性要 比不同组观测之间的相似性大;
如果回归模型不能解释所有的组间的差异(事实上传 统回归不可能做到这一点),那么同一组内的观测之间 的误差可能相关;
这就违背了传统回归(OLS)中关于残差相互独立的 假设;
至少,传统回归分析得到的标准误的估计不正确(太 小)。
平均数的差异。在这l里ev提el到-2的中协的方假差设就检是验对中因,变就量是能检够验产这生个影共响同的自变量。
(将协方差放入模斜型率之是中否,为主0. 要是作为统计控制之用)
2020/5/23
23
HLM常用模型类型
一般的线性回归模型:不考虑各组回归线的差 异 (各组同质)【又称混合回归(pooled regression)
2020/5/23
15
rij表示什么?
残差项 定义第 j 组第i 个观测 均值为0
2020/5/23
16
模型的特征
注意到: 我们有:
ij = uj + rij
Var(ij)
= Var(uj + rij) = Var(uj) + Var(rij) + 2*Cov(uj,rij) = Var(uj) + Var(rij)
多层线性模型理论与 实践运用
Introduction to HLM
厦门大学管理学院 李海东
2012年6月
2020/5/23 感谢University of Maryland的Liao Hui教授为本专题提供
1
的资料与研究数据。
什么是多层(多水平)数据?
多层(多水平)数据指的是观测数据在单位上具有嵌 套的关系。如员工嵌套于部门(或团队),部门嵌套 于组织等。
26
HLM常用模型类型
(五)以截距和斜率为结果的回归模型
Level-1: Yij 0 j 1 j X ij eij
Level-2: W u
0j
00
01 j
0j
1 j 10 11W j u1 j
2020/5/23
27
HLM模型的参数检验
HLM模型的参数检验主要是针对固定效应的回 归系数以及随机效应的方差进行检验。
00 忽略,因变量在组间的分布是
不太一样的。
判断准则: 0.01 ICC(1) 0.059
低度关联强度
0.059 ICC(1) 0.138 中度关联强度
0.138 ICC(1)
高度关联强度
2020/5/23
21
HLM常用模型类型
(一)具有随机效应的单因素方差分析模型(oneway Anova with Random Effect)【零模型】
W u 在阶层线性模型中,设置零模型、虚无模型或无条件模型(Cnouvl(l emijo, ud0elj、) 0
empty model、unconditional model)进行判定组间变异。
1j
10
11 j
1 j Cov(eij , u1 j ) 0
2020/5/23
18
多层线性模型
合并模型:
Yij 00 10 X ij 01W j 11 X ijW j u0 j u1j X ij eij
2020/5/23
19
多层线性模型——零模型
Level-1:
Yij 0 j eij
Level-2:
iid
eij : N (0, 2 )
0 j 00 u0 j
Yij 0 j 1 j X ij eij
Level-1 :
0 j 00
Level-2:
1 j 10
2020/5/23
24
HLM常用模型类型
(三)以平均数为结果的回归模型
Level-1: Yij 0 j eij
Level-2:
截距项就是各组因 变量的平均数
0j
00
01 W j
2020/5/23
28
关于HLM的一些重要议题
1、level-1预测变量的中心化议题(centering) (1)不中心化(raw metric) (2)以组平均为基准的中心化(group mean) (3)以总平均为基准的中心化(grand mean) 2、level-2预测变量的中心化 (1)不中心化(raw metric) (2)以总平均为基准的中心化(grand mean) 3、在多元回归分析中,变量的中心化可以减少自变量
Level-2(如:公司)
iid
eij : N (0, 2 )
W u 阶(层统线计性上0 模是j 型显与著一的般)0回。0 归运式用的单差因别素01在方于差因分j 变析量即在可组判0间断j是 各 uu存组10jj在间 :差的N异因的变 00量,
00 10
01 11
是否都同质。
2020/5/23
30
关于HLM的一些重要议题
6、Level-2回归系数的固定效应与随机效应的 选择【从理论出发,在实证研究上可以先行测 试是否存在随机效应】
2020/5/23
20
多层线性模型
运用HLM的时机:因变量在组间具有显著的差异时, 即组间是异质的。
判断方法:组内相关系数(Intraclass Correlation Coefficient,ICC(1))
计算公式:
ICC(1)
00当ICC(1)≥0.059时,即表明
造成2 因变量的组间变异不可以
同一单位内的观测,具有更大的相似性。即:来自于 相同公司组织的员工,其填答的问卷数据彼此间的相 似性要比不同公司组织间的员工相似性要高,因为他 们受到相同公司组织的环境、情境或文化、氛围的影 响。
如果这些相似性被忽略,以完全独立的角度进行回归 分析,因变量无法被自变量所解释的部分通通被归到 残差项中(包含了公司组织的某些属性特征)。造成 残差项的方差比真正误差项的方差要大!
2020/5/23
4
HLM数据特点
对于嵌套数据,传统回归模型的做法:
(1)个体(如员工)水平上分析
问题:同一公司组织的员工间相互独立的假设是不合理 的,同样对不同公司组织的员工和相同公司组织的员
工作同一假设也是不合理的。
(2)组(如公司组织)水平上分析
问题:丢失了公司组织内员工个体间的差异的信息。
2020/5/23
2
嵌套于背景(contextual,或情境)特征 的多层数据举例
学生水平特征的观测,嵌套于班级或学校 夫妻、兄弟姊妹特征的观测,嵌套于家庭 个体之间的观测嵌套于社区 个体不同时间点的重复测量嵌套于个体 病人嵌套于医生(或医院) 个体嵌套于公司组织
2020/5/23
3
对多层数据,我们了解什么...
例如: 【心理安全氛围——员工学习行为】
2020/5/23
5
多层次分析中的构念
个体层次构念(individual level construct)
【OCB、绩效、创造力、工作满意度等】
单位层次构念(unit level construct)
1、共享单位特性构念(shared unit properties construct)【团队心理安全氛围、团队授权氛围、团队 凝聚力、组织伦理氛围、团队边界管理等】
2020/5/23
17
多层线性模型
Level-1(如:员回明的成工归各关一式个系条)中分是回的析不归截单一方自以距元样程变有项内的式量多与的。,斜自每有可个率变个自项量分己均 与 析 的有因单斜下变元率标量自与之行截j,间生距表。
Yij 0 j 1 j X ij eij
j 1, 2,L , J i 1, 2,L , nj
level-1:
Yij 0 j eij
level-2:
0 j 00 u0 j
合并模型:
Yij 00 uoj eij
2020/5ห้องสมุดไป่ตู้23
22
HLM常用模型类型
(二)具随机效应单因素协方差分析模型 (One-way ANCOVA with Random Effects)
level-1: Yij 0 j 1 j X ij eij
u0j
2020/5/23
25
HLM常用模型类型
(四)随机系数回归模型(RandomCoefficients Regression Model)
Level-1 :
Yij 0 j 1j X ij eij
Level-2:
0 j 00 u0 j 1 j 10 u1 j
2020/5/23
希望定义一个模型,可以明确地允 许因变量水平在组内和组间存在差 异
例如,允许员工的工作绩效存在公 司组织之间的差异
2020/5/23
12
告别 OLS: 一个简单的多层线性模 型
将
Yij 0 1 X ij ij
重写为:
Yij 0 1 X ij u j rij
2020/5/23
13
iid
u0 j : N (0, 00 )
固定效应 Fixed effect
随机效应 random effect
组间方差(level-2)+组内方差
(level-1)。透过level-1的自
变量C与ovle(eveijl,-u2的0 j 自) 变0量对因变
量的变异进行解释。
Var(Yij ) Var(00 u0 j eij ) Var(u0 j ) Var(eij ) 00 2
一个简单的多层线性模型
个体 i 在单元
Yij 0 1 X ij u j rij j 中的残差项
指个体 i 在单元 (比如群体、 部门) j 中的结 果变量
截距
2020/5/23
单元 j 的 残差 项
个体 i 在单元 j 中的预测因 子之值
回归系数
14
uj表示什么?
定义第 j 组(第二水平) 对于第 j组的所有观测都相同 只有下标 j, 没有下标 i 解释: 总截距和第 j组的截距之间的差异
之间的多重共线性问题。此外,中心化还有利于对回 归线的截距项做出有意义的解释。
2020/5/23
29
关于HLM的一些重要议题
4、考虑到跨层次交互作用的模式,对自变量 不做中心化处理与以总平均数为基准的中心化 结果是等同的(Hofmann & Gavin,1998)。
5、在配适随机斜率模型时,最好不要采用以 组平均数为基准的中心化变量,除非有清楚的 理论,说明相对分数与因变量相关(即将各组 平均数纳入分析模式之中)(Kreft,Leeuw, & Aiken,1995;Snijders & Bosker,1999; Raudenbush & Bryk,2002)。
和调查取样设计; 3、数据聚合; 4、多层次数据分析。
2020/5/23
7
数据聚合(aggregation)
2020/5/23
8
回归分析模型(regression analysis)
Yi 0 1Xi i
i ~ N 0, 2
被解释变 量(因变 量,效标 变量)
解释变量 (自变量)
在实证研究中,回归分析主要是运用在问卷调查或实验设计
2、总体单位特性构念(global unit properties construct) 【组织规模、组织功能等】
3、形态单位特性构念(configural unit properties construct)【组织人员的多元化或多样化】
2020/5/23
6
多层次模型研究的方法
1、多层次模型中各变量(或构念)的测量; 2、研究设计(即构念具体置于哪一个层次)
的数据分析之中。
2020/5/23
9
回归分析模型的假设
误差项彼此之间独立,且服 从平均数为0,方差为常数 的正态分析( independent and normally distributed)
因变量Y的假设:
iid
i : N (0, 2 )
Cov(i
,
j
)
2i
0i j
j
E(Yi Xi ) 0 1Xi
Var(Yi Xi ) 2
回归模式中的误差项假设或因变量的假设是非常严 格的!
2020/5/23
10
独立性不满足带来的问题
传统回归系数估计的标准误依赖于 相互独立的假设;
如果独立性的假设不满足,得到的 标准误的估计往往偏小,因此所犯 第一类错误的概率往往偏大。
2020/5/23
11
回归模型中,如何解决残差相关 的问题?