HLM嵌套数据
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 这会将level-1 数据视作彼此独立,违反独立性假设
– level-2(忽略level-1) (聚合; aggregation)
• 这会大大减少样本容量 • 失掉组内信息
– 我们希望分析在两个水平都考虑! 7
HLM 一所学校的回归线
mathach
20.000 10.000
0.000 - 4.000
高级统计
多层线性模型(HLM)
HLM
何时用 HLM?
• 有不独立的数据 • 回归线在各组不同 • 有多水平的数据
2
HLM 嵌套数据
• 学生嵌套于学校中
学校1
学校2
Sarah Bill Ted Tami
Jackson
Kate
Maria Jordan
同一单位内的观测,具有更大的相似性。同 一个班级的学生由于受相同的班级环境等因 素的影响有更大的相似性。
6
HLM 嵌套数据的分析
• 亚单位嵌套(nested)在较大的单位中
– 亚单位= level-1 variables – 较大的单位= level-2 variables
• 变量在两个水平都有取值 • 我们的分析在哪个水平?
– level-1(忽略level-2) (分散;disaggregation)
HLM
一个简单的多层线性模
型
Yij 0 1 X ij u j rij
Outcome for observation i
in unit j
HLM
一个简单的多层线性模
型
Yij 0 1 X ij u j rij
Outcome for observation i
in unit j
mathach = 10.81 + 2.51 * ses R-Square = 0.04
school
1.00
2.00
10
HLM 2 所学校
• 上图告诉我们什么?
– β02 > β01, 学校2中学生的平均受欢迎程度更高 – β12 > β11, 社经地位在学校2中更能预测学生的受欢
迎程度 – 如果是很多所学校呢? – Yij = β0j+ β1jXij + rij, i = 学生, j = 学校
• 误差或观测个体之间相互独立 (independent)
HLM
嵌套于背景特征的多层数据举例
• 学生水平特征的观测,嵌套于班级或学校 • 兄弟姊妹特征的观测,嵌套于家庭 • 个体之间的观测嵌套于社区 • 个体不同时间点的重复测量嵌套于个体 • 病人嵌套于医院 • 参数的估计嵌套于不同的研究 (元分析,meta-analysis)
HLM
独立性不满足带来的问题
• 传统回归系数估计的标准误依赖于相 互独立的假设;
• 如果独立性的假设不满足,得到的标 准误的估计往往偏小,因此所犯第一 类错误的概率往往偏大。
HLM
• OLS • HLM:
传统回归vs多层线性模型
Yij 0 1 X ij ij
Yij 0 1 X ij u j rij
3
HLM
嵌套数据
– 重复测量的每一次观察嵌套于个体中
Sarah
Jordan
Day 1 Day 2 Day 3 Day 4
Day 1 Day 2 Day 3 Day 4
4
HLM
HLM 能做什么
• 在个体水平拟合回归方程 • 使各组的回归方程参数不同 • 用组水平的变量解释个体水平的参数 • 检验各水平的主效应和水平间的交互作用
5
HLM
HLM的逻辑
• 假定学生 (level-1) 嵌套在学校 (level-2)中
– 1 level-1 DV (受欢迎程度; Yi) – 1 level-1 IV (社经地位; Xi)
• Yi= β0+ β1Xi+ ri,
– ri = 每个人的独特效应 – var(ri) = σ2 不同学生怎样在回归线附近变化
• j 所指代的截距和斜率表明每所学校的价值观不同 • 我们可以将这些价值观参数建立一个分布
11
HLM
回归分析模型
Yi 0 1Xi i
i ~ N 0, 2
HLM
回归分析模型的假设
• 线性(Linearity) • 误差正态分布( normally distributed) • 误差方差齐性(homoskedastic)
- 2.000
0.000
se s
2.000
Linear Regression
mathach = 10.81 + 2.51 * ses R-Square = 0.04
8
HLM
2所学校
• 学校 1
wk.baidu.com
- 2.000
0.000
se s
2.000
Linear Regression
mathach = 13.11 + 3.26 * ses R-Square = 0.10
型
Yij 0 1 X ij u j rij
Intercept
HLM
一个简单的多层线性模
型
Yij 0 1 X ij u j rij
Outcome for observation i
in unit j
Intercept
Value of X for observation i
in unit j
Coefficient
HLM
一个简单的多层线性模
– Yi= β01+ β11Xi+ ri
• 学校2
– Yi= β02+ β12Xi+ ri
• 每个学校有其自己的截距和斜率
– 这些截距和斜率的分别可以被概括为
• 均值 • 围绕均值的方差
9
HLM 两所学校的回归线
mathach
20.000 10.000
0.000 - 4.000
HLM
对多层数据,我们了解
什么...
• 随机选取两个观测,同一组内的观测之间的相似性要 比不同组观测之间的相似性大;
• 如果回归模型不能解释所有的组间的差异(事实上传 统回归不可能做到这一点),那么同一组内的观测之间 的误差可能相关;
• 这就违背了传统回归(OLS)中关于残差相互独立的 假设;
• 至少,传统回归分析得到的标准误的估计不正确(太 小)。
– level-2(忽略level-1) (聚合; aggregation)
• 这会大大减少样本容量 • 失掉组内信息
– 我们希望分析在两个水平都考虑! 7
HLM 一所学校的回归线
mathach
20.000 10.000
0.000 - 4.000
高级统计
多层线性模型(HLM)
HLM
何时用 HLM?
• 有不独立的数据 • 回归线在各组不同 • 有多水平的数据
2
HLM 嵌套数据
• 学生嵌套于学校中
学校1
学校2
Sarah Bill Ted Tami
Jackson
Kate
Maria Jordan
同一单位内的观测,具有更大的相似性。同 一个班级的学生由于受相同的班级环境等因 素的影响有更大的相似性。
6
HLM 嵌套数据的分析
• 亚单位嵌套(nested)在较大的单位中
– 亚单位= level-1 variables – 较大的单位= level-2 variables
• 变量在两个水平都有取值 • 我们的分析在哪个水平?
– level-1(忽略level-2) (分散;disaggregation)
HLM
一个简单的多层线性模
型
Yij 0 1 X ij u j rij
Outcome for observation i
in unit j
HLM
一个简单的多层线性模
型
Yij 0 1 X ij u j rij
Outcome for observation i
in unit j
mathach = 10.81 + 2.51 * ses R-Square = 0.04
school
1.00
2.00
10
HLM 2 所学校
• 上图告诉我们什么?
– β02 > β01, 学校2中学生的平均受欢迎程度更高 – β12 > β11, 社经地位在学校2中更能预测学生的受欢
迎程度 – 如果是很多所学校呢? – Yij = β0j+ β1jXij + rij, i = 学生, j = 学校
• 误差或观测个体之间相互独立 (independent)
HLM
嵌套于背景特征的多层数据举例
• 学生水平特征的观测,嵌套于班级或学校 • 兄弟姊妹特征的观测,嵌套于家庭 • 个体之间的观测嵌套于社区 • 个体不同时间点的重复测量嵌套于个体 • 病人嵌套于医院 • 参数的估计嵌套于不同的研究 (元分析,meta-analysis)
HLM
独立性不满足带来的问题
• 传统回归系数估计的标准误依赖于相 互独立的假设;
• 如果独立性的假设不满足,得到的标 准误的估计往往偏小,因此所犯第一 类错误的概率往往偏大。
HLM
• OLS • HLM:
传统回归vs多层线性模型
Yij 0 1 X ij ij
Yij 0 1 X ij u j rij
3
HLM
嵌套数据
– 重复测量的每一次观察嵌套于个体中
Sarah
Jordan
Day 1 Day 2 Day 3 Day 4
Day 1 Day 2 Day 3 Day 4
4
HLM
HLM 能做什么
• 在个体水平拟合回归方程 • 使各组的回归方程参数不同 • 用组水平的变量解释个体水平的参数 • 检验各水平的主效应和水平间的交互作用
5
HLM
HLM的逻辑
• 假定学生 (level-1) 嵌套在学校 (level-2)中
– 1 level-1 DV (受欢迎程度; Yi) – 1 level-1 IV (社经地位; Xi)
• Yi= β0+ β1Xi+ ri,
– ri = 每个人的独特效应 – var(ri) = σ2 不同学生怎样在回归线附近变化
• j 所指代的截距和斜率表明每所学校的价值观不同 • 我们可以将这些价值观参数建立一个分布
11
HLM
回归分析模型
Yi 0 1Xi i
i ~ N 0, 2
HLM
回归分析模型的假设
• 线性(Linearity) • 误差正态分布( normally distributed) • 误差方差齐性(homoskedastic)
- 2.000
0.000
se s
2.000
Linear Regression
mathach = 10.81 + 2.51 * ses R-Square = 0.04
8
HLM
2所学校
• 学校 1
wk.baidu.com
- 2.000
0.000
se s
2.000
Linear Regression
mathach = 13.11 + 3.26 * ses R-Square = 0.10
型
Yij 0 1 X ij u j rij
Intercept
HLM
一个简单的多层线性模
型
Yij 0 1 X ij u j rij
Outcome for observation i
in unit j
Intercept
Value of X for observation i
in unit j
Coefficient
HLM
一个简单的多层线性模
– Yi= β01+ β11Xi+ ri
• 学校2
– Yi= β02+ β12Xi+ ri
• 每个学校有其自己的截距和斜率
– 这些截距和斜率的分别可以被概括为
• 均值 • 围绕均值的方差
9
HLM 两所学校的回归线
mathach
20.000 10.000
0.000 - 4.000
HLM
对多层数据,我们了解
什么...
• 随机选取两个观测,同一组内的观测之间的相似性要 比不同组观测之间的相似性大;
• 如果回归模型不能解释所有的组间的差异(事实上传 统回归不可能做到这一点),那么同一组内的观测之间 的误差可能相关;
• 这就违背了传统回归(OLS)中关于残差相互独立的 假设;
• 至少,传统回归分析得到的标准误的估计不正确(太 小)。