多水平模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
尽管直接拟合聚集数据在统计上是有效的,但一般地说,在分析中组合进反映抽样设计的 是重要的。这样,可获得稳健的总体估计以及避免模型的错误设置。第3章讨论了将单位权 引入多水平分析的方法。
1.4 重复测量资料
当同一个体或单位被测量多次时,就产生了另一个层次结构数据的例子。一个常见的情形 物或人类生长研究,这里,测量点嵌套进作为水平2单位的个体,而测量点为水平1单位。 数据结构具有典型的层次结构特征,因为一般说来,个体之间的变异较之个体内测量点之 变异要大的多。例如,在儿童身高生长的情形下,一旦调整了年龄的总趋势后,同一个体 测量值之间的变异一般不会高于儿童之间身高变异的5%。
您现在的位置: 中国统计网 论坛 统计学 SAS SPSS 软件下载 市场调研 >> 统计文章 >> 统计学 >> 统 计应用 >> 正文 [组图]多水平模型(一)
Leabharlann Baidu
用户登
多水平模型(一)
1 引言
副标题: 作者:佚名 文章来源:本站原创 点击数: 765 更新时间:2005-1-25
作者:李晓松
1.1 引言
在第2章,我们将介绍对层次结构数据拟合多水平模型的基本方法,第11章则讨论在每个水 上抽取单位数的设计问题。
1.3 抽样调查方法
图1.2 三所学校的平均期末考试成绩与入学成绩
http://www.8sta.com/Article/art/use/200501/598.html
2006-8-22
多水平模型(一)
http://www.8sta.com/Article/art/use/200501/598.html
在本章的其余部分,我们将看到本书所涉及到的主要领域。
1.2 学校效果
教育系统是这种层次结构的一个典型例子,学生嵌套进学校,学校自身或许又嵌套进教育 或委员会。教育研究者的兴趣在于比较学校或教育机构的学生成绩。这种比较有许多目的 dstein,1992),但学术上的兴趣主要在于研究那些解释学校间差异的因素。
多水平模型(一)
页码,1/9
今天是: 2006年8月22日 星期二
设为首页 加入收藏 联系站长
| 首页 | 统计文章 | 统计下载 | 在线留言 | 统计论坛 | | 统计文章首页 | 本站告示 | 统计学 | 统计软件 | 相关学科 | 文章 | 本站新闻 | 关于本站 | 统计理论 | 统计应用 | 统计信息 | SAS 应用 | SPSS应用 | 企业招 下载 | 统计软件 | 统计教程 | 统计书籍 | 应用软件 | 医学统计 | 计量经济 | 名著翻译 | 社区论
拟合生长曲线的研究有一个重要扩展。在多水平分析框架中,在最简单的情形下,每一个 以具有它们自身的生长曲线,而个体(水平2)之间的截距和斜率可以变异。当水平1的测量 看成是从每一个体生长曲线的偏离)不独立而具有自相关或时间序列结构时,传统方法和基 的多水平方法都是不适宜的。这种情况可能发生于重复测量的时间间隔很短时,其结果是 个测量点离曲线远,意味着下一个测量点也离曲线远。
所谓层次是指若干单位聚集在不同的水平。例如,子女是一个两水平结构中的水平1单位, 里,水平2单位即家庭。学生是学校中的水平1单位,这里,学校即水平2单位。
这种数据层次的存在不是偶然的,也是不能忽视的。人与动物都存在个体差异,这种差异 反映到各种社会活动中。在这里,后者常常是前者的直接结果。例如,选送具有相似动机 资的学生到不同的学校或大学。在其它情形下,组群的建立或许较少与个体特征相联系, 配儿童到小学或分配病人到不同门诊。但一旦建立了组群,即使其建立是随机的,它们也 向于变得不同,这种不同是组及其成员相互影响的结果。忽略这种关系就冒着忽视组效应 up effect)的危险,因而许多用于研究这种数据关系的传统统计分析技术是无效的。
许多类型的资料包括人类和生物科学中收集的观察性资料都具有层次或组群结构(hierarc l or clustered structure)。例如,动物和人类遗传研究就面临自然的等级,这里,子 幼崽在家庭内成为一组。来自于同一双亲的子女,其生理和心理特征较从一般总体中随机 的个体趋向于更为相似。例如,来自于同一家庭的儿童,或许都趋向于较小,这或许是因 们的双亲较小或共同的贫困环境。
考虑一个普通的例子,即对一批随机选择的学校,收集学生期末考试成绩。研究者想知道 学生按能力分班施教的政策(streaming practice)是否在一些学校中与考试成绩的改善有 研究者也有学生入学时的成绩,在分析中可控制这一因素。传统方法将进行回归分析,用 分数作为反应变量,研究与分班政策的关系,同时调整入学成绩。这非常相似于前面提到 学风格分析的例子。由于没有考虑到学生在学校水平的聚集性而同样缺乏有效性。
http://www.8sta.com/Article/art/use/200501/598.html
2006-8-22
多水平模型(一)
页码,2/9
了班级组群效应,则具有统计学意义的差别将消失,所谓受到 正式 教学的儿童并未显 与其它儿童不同。
这个资料的再分析,是多水平分析在社会科学中应用的第一个重要例子。基本原因是众多 在一个班上由一个教师授课,他们的学习行为有相同的趋向。因此提供的学习成绩较之于 生在不同班上受教于不同教师的情形,含有较少的信息。换言之,要比较的基本单位应该 师,而不是学生。可以认为,学生的作用是提供了教师教学效果的估计。增加每个教师的 数量将增加估计的精度,但以这种方式简单增加学生数量,超过某一点时几乎于事无补。 方面,增加要比较的教师数目,而用相同的或稍少一点的学生数目将大大改善比较的精度
1.5 事件历史模型(event history models)
在各种情形下拟合时间区间都是重要的。在工业上,元件的“失效时间”是质量控制的关 素;在医学上,“生存时间”是研究某种疾病的一种基本测量;在经济学上,人们常对“ 期间”感兴趣;在教育学上,研究者常研究学生花费在不同任务或活动上的时间。
在研究就业期间时,每一个体一般都将渡过就业和失业的几个时期,他们的特征诸如资格 等同时也发生改变。从建模的观点看,我们需要拟合每种就业类型的时间长度,并将其联 常数因子如个体的出身或性别,同时也要联系到变化的或时间依赖的因子如资格和年龄。 平结构相似于重复测量数据的结构,而且可有一个更高水平的层次,因为作为水平2单位的 体自身典型地嵌套进工作地点,故工作地点形成水平3单位(我们可将这一研究目的中的失 作为一个特定的工作地点)。事实上,这一结构更加复杂,因为这些工作地点随时间改变, 果我们希望将这一水平包括在模型中,则需要对这些单位作交叉分类,紧接着我们将讨论
页码,4/9
我们已经提及抽样调查数据,它将作为本书的许多例子进行讨论。有关抽样调查研究的标 献,识别了复杂抽样设计中聚集性的重要性。在住户调查中,第一阶段抽样单位通常是一 格定义的地理单位,它们被随机抽取,然后,从它们之中再进一步随机抽样直到住户被抽 对于诸如政治态度调查所显示出的地域聚集性,现已发展了特殊的方法以产生有效的统计 断,例如当比较平均值或拟合回归模型时(Skinner et al,1989)。
多水平分析具有如下几个优点:首先,它获得回归系数的有效估计;其次,通过利用聚集 息,提供正确的标准误、可信区间和假设检验。一般来说,它比传统方法更“保守”,后 标准误是通过简单地忽略聚集的存在而获得⎯ 正如象Bennett先前具有统计学意义的结果 分析中变得不显著一样;第三,引入在任何水平上测量到的协变量,它使得研究者能够探 如组织实践以及学生的其它特征,对于学校之间平均考试成绩的差异到底起到多大的作用 也能够研究具有不同种类学生的学校考试成绩差异的程度,例如,入学成绩好的学生比入 绩差的学生而言,学校之间的变异是否更大(Goldstein等人, 1993),以及某些因素是否 好地解释这种变异;最后,人们对于每个学校成绩的相对顺序常有很大的兴趣,即在调整 学成绩之后,采用这些学校学生的考试成绩就可以进行排序,它采用多水平模型方法做起 简单。
http://www.8sta.com/Article/art/use/200501/598.html
2006-8-22
多水平模型(一)
页码,3/9
图1.1 一所学校中5名学生的期末考试成绩与入学成绩
另一个忽略层次结构分析的极端情况是,对每一所学校分别拟合不同的回归模型。在某些 下,例如只有很少的学校,而每个学校中具有较多的学生,这种方法或许是有效的。如果 者仅仅对这几所学校作出某种推断感兴趣,这种方法或许也是适宜的。然而,如果我们将 所学校作为学校总体中的一个随机样本,而且研究者希望就学校之间的变异作出一般的推 那么,就需要完全的多水平方法。同样地,如果一些学校中只有很少的学生,对每所学校 拟合模型,将不会产生可靠的估计。通过将学校作为总体的一个随机样本以及利用整个样 据可以得到的信息,则对任何一所学校作估计时,可以获得更高的精度。这种方法在重复 资料中尤其重要,因为每个水平2单位通常只有很少的水平1单位。
许多试验设计也产生了层次数据。例如,在几个随机选择的中心或组进行的临床试验。到 在,我们仅考虑到这种层次的事实,而不是它们的成因。我们将主要讨论它们在社会科学 应用,但这些技术具有更一般的用途。在后面的章节,通过用例子提出的理论与技术,我 看到,对这种自然层次的正确识别,是怎样对重要问题寻求更为满意的答案的。
为了固定水平和单位的基本记法,我们考虑基于假定关系的图1.1和图1.2。
图1.1显示了一所学校中5名学生的期末考试成绩和入学成绩,用一简单回归线拟合数据点 绕这条线的考试成绩的残差变异(residual variation)即水平1残差变异,因为它与一个水 单位(学校)样本内的水平1单位(学生)有关。图1.2中的3条线即3所学校的简单回归线,其 除了个体学生的数据点。它们的截距和斜率均有变异,这一变异即水平2变异。这是水平2 变异的一个例子,因为截距和斜率参数均有变异。
我们将在后面的章节讨论统计有效性问题,但一个简单例子将显示其重要性。一项著名的 于70年代的关于小学儿童的研究(Bennett, 1976),采用传统多元回归技术进行分析,将 儿童作为分析单位,忽略他们所在教师或班级的组。结果报道,暴露于所谓“正式”教学 风格的儿童较非暴露的儿童显示出更多的进步。Aitkin等人1981年指出,若分析方法中考 了班级组群效应 则具有统计学意义的差别将消失 所谓受到“正式”教学的儿童并未显
研究者们已经很早就注意到这一问题。在教育学领域,对所谓教师是“分析的单位”问题 许多争论(Burstein等人,1980)。虽然人们多少理解了忽略层次结构引起的问题,但在多 模型作为一个研究工具得到很好发展以前,解决这一问题是困难的。很早就有了用于特定 的软件,例如用于遗传学数据分析的软件,但它被限制在“方差成份”模型(第2章),而且 它处理广义线性模型是不适宜的。抽样调查工作者在另一种情形下注意到这一问题,当实 查时,抽样设计典型地反映了总体的层次结构,如地理区域或住户成员。当进行统计分析 也有相关方法来处理这种结构,在后面部分我们将更详细地讨论这一问题。
对于这种重复测量资料的分析,过去有相当多的文献或多或少成功地探讨了统计方法问题 如Goldstein,1979)。一般地说,这些方法需要数据是平衡的,即要求每一个体有相同次 重复测量值。作这种设计还有可能,但在实践上,测量次数常是不规则的,有的个体有很 量值,而有的可能只有一个。通过将这种数据当成为一般的两水平结构,我们可应用标准 水平模型技术处理任何测量模式的数据,从而提供统计上有效的参数估计。同时,拟合两 数据结构亦显示了对这种数据在概念上更简单的理解,并导致一系列有趣的扩展,这一问 在第6章进行探讨。
那样的统计方法通常是必需的,但未必有什么实质上的优点。换言之,这些方法将反映在 设计之中的总体结构处理成“讨厌的因素”(nuisance factor)。相反,多水平模型方法 体结构自身当作是感兴趣的东西,反映这种结构的样本不仅节省成本,而且可以收集和分 关总体中更高水平单位的数据。多水平模型能够直接将这些信息纳入模型之中,而不需进 殊的分析。
1.4 重复测量资料
当同一个体或单位被测量多次时,就产生了另一个层次结构数据的例子。一个常见的情形 物或人类生长研究,这里,测量点嵌套进作为水平2单位的个体,而测量点为水平1单位。 数据结构具有典型的层次结构特征,因为一般说来,个体之间的变异较之个体内测量点之 变异要大的多。例如,在儿童身高生长的情形下,一旦调整了年龄的总趋势后,同一个体 测量值之间的变异一般不会高于儿童之间身高变异的5%。
您现在的位置: 中国统计网 论坛 统计学 SAS SPSS 软件下载 市场调研 >> 统计文章 >> 统计学 >> 统 计应用 >> 正文 [组图]多水平模型(一)
Leabharlann Baidu
用户登
多水平模型(一)
1 引言
副标题: 作者:佚名 文章来源:本站原创 点击数: 765 更新时间:2005-1-25
作者:李晓松
1.1 引言
在第2章,我们将介绍对层次结构数据拟合多水平模型的基本方法,第11章则讨论在每个水 上抽取单位数的设计问题。
1.3 抽样调查方法
图1.2 三所学校的平均期末考试成绩与入学成绩
http://www.8sta.com/Article/art/use/200501/598.html
2006-8-22
多水平模型(一)
http://www.8sta.com/Article/art/use/200501/598.html
在本章的其余部分,我们将看到本书所涉及到的主要领域。
1.2 学校效果
教育系统是这种层次结构的一个典型例子,学生嵌套进学校,学校自身或许又嵌套进教育 或委员会。教育研究者的兴趣在于比较学校或教育机构的学生成绩。这种比较有许多目的 dstein,1992),但学术上的兴趣主要在于研究那些解释学校间差异的因素。
多水平模型(一)
页码,1/9
今天是: 2006年8月22日 星期二
设为首页 加入收藏 联系站长
| 首页 | 统计文章 | 统计下载 | 在线留言 | 统计论坛 | | 统计文章首页 | 本站告示 | 统计学 | 统计软件 | 相关学科 | 文章 | 本站新闻 | 关于本站 | 统计理论 | 统计应用 | 统计信息 | SAS 应用 | SPSS应用 | 企业招 下载 | 统计软件 | 统计教程 | 统计书籍 | 应用软件 | 医学统计 | 计量经济 | 名著翻译 | 社区论
拟合生长曲线的研究有一个重要扩展。在多水平分析框架中,在最简单的情形下,每一个 以具有它们自身的生长曲线,而个体(水平2)之间的截距和斜率可以变异。当水平1的测量 看成是从每一个体生长曲线的偏离)不独立而具有自相关或时间序列结构时,传统方法和基 的多水平方法都是不适宜的。这种情况可能发生于重复测量的时间间隔很短时,其结果是 个测量点离曲线远,意味着下一个测量点也离曲线远。
所谓层次是指若干单位聚集在不同的水平。例如,子女是一个两水平结构中的水平1单位, 里,水平2单位即家庭。学生是学校中的水平1单位,这里,学校即水平2单位。
这种数据层次的存在不是偶然的,也是不能忽视的。人与动物都存在个体差异,这种差异 反映到各种社会活动中。在这里,后者常常是前者的直接结果。例如,选送具有相似动机 资的学生到不同的学校或大学。在其它情形下,组群的建立或许较少与个体特征相联系, 配儿童到小学或分配病人到不同门诊。但一旦建立了组群,即使其建立是随机的,它们也 向于变得不同,这种不同是组及其成员相互影响的结果。忽略这种关系就冒着忽视组效应 up effect)的危险,因而许多用于研究这种数据关系的传统统计分析技术是无效的。
许多类型的资料包括人类和生物科学中收集的观察性资料都具有层次或组群结构(hierarc l or clustered structure)。例如,动物和人类遗传研究就面临自然的等级,这里,子 幼崽在家庭内成为一组。来自于同一双亲的子女,其生理和心理特征较从一般总体中随机 的个体趋向于更为相似。例如,来自于同一家庭的儿童,或许都趋向于较小,这或许是因 们的双亲较小或共同的贫困环境。
考虑一个普通的例子,即对一批随机选择的学校,收集学生期末考试成绩。研究者想知道 学生按能力分班施教的政策(streaming practice)是否在一些学校中与考试成绩的改善有 研究者也有学生入学时的成绩,在分析中可控制这一因素。传统方法将进行回归分析,用 分数作为反应变量,研究与分班政策的关系,同时调整入学成绩。这非常相似于前面提到 学风格分析的例子。由于没有考虑到学生在学校水平的聚集性而同样缺乏有效性。
http://www.8sta.com/Article/art/use/200501/598.html
2006-8-22
多水平模型(一)
页码,2/9
了班级组群效应,则具有统计学意义的差别将消失,所谓受到 正式 教学的儿童并未显 与其它儿童不同。
这个资料的再分析,是多水平分析在社会科学中应用的第一个重要例子。基本原因是众多 在一个班上由一个教师授课,他们的学习行为有相同的趋向。因此提供的学习成绩较之于 生在不同班上受教于不同教师的情形,含有较少的信息。换言之,要比较的基本单位应该 师,而不是学生。可以认为,学生的作用是提供了教师教学效果的估计。增加每个教师的 数量将增加估计的精度,但以这种方式简单增加学生数量,超过某一点时几乎于事无补。 方面,增加要比较的教师数目,而用相同的或稍少一点的学生数目将大大改善比较的精度
1.5 事件历史模型(event history models)
在各种情形下拟合时间区间都是重要的。在工业上,元件的“失效时间”是质量控制的关 素;在医学上,“生存时间”是研究某种疾病的一种基本测量;在经济学上,人们常对“ 期间”感兴趣;在教育学上,研究者常研究学生花费在不同任务或活动上的时间。
在研究就业期间时,每一个体一般都将渡过就业和失业的几个时期,他们的特征诸如资格 等同时也发生改变。从建模的观点看,我们需要拟合每种就业类型的时间长度,并将其联 常数因子如个体的出身或性别,同时也要联系到变化的或时间依赖的因子如资格和年龄。 平结构相似于重复测量数据的结构,而且可有一个更高水平的层次,因为作为水平2单位的 体自身典型地嵌套进工作地点,故工作地点形成水平3单位(我们可将这一研究目的中的失 作为一个特定的工作地点)。事实上,这一结构更加复杂,因为这些工作地点随时间改变, 果我们希望将这一水平包括在模型中,则需要对这些单位作交叉分类,紧接着我们将讨论
页码,4/9
我们已经提及抽样调查数据,它将作为本书的许多例子进行讨论。有关抽样调查研究的标 献,识别了复杂抽样设计中聚集性的重要性。在住户调查中,第一阶段抽样单位通常是一 格定义的地理单位,它们被随机抽取,然后,从它们之中再进一步随机抽样直到住户被抽 对于诸如政治态度调查所显示出的地域聚集性,现已发展了特殊的方法以产生有效的统计 断,例如当比较平均值或拟合回归模型时(Skinner et al,1989)。
多水平分析具有如下几个优点:首先,它获得回归系数的有效估计;其次,通过利用聚集 息,提供正确的标准误、可信区间和假设检验。一般来说,它比传统方法更“保守”,后 标准误是通过简单地忽略聚集的存在而获得⎯ 正如象Bennett先前具有统计学意义的结果 分析中变得不显著一样;第三,引入在任何水平上测量到的协变量,它使得研究者能够探 如组织实践以及学生的其它特征,对于学校之间平均考试成绩的差异到底起到多大的作用 也能够研究具有不同种类学生的学校考试成绩差异的程度,例如,入学成绩好的学生比入 绩差的学生而言,学校之间的变异是否更大(Goldstein等人, 1993),以及某些因素是否 好地解释这种变异;最后,人们对于每个学校成绩的相对顺序常有很大的兴趣,即在调整 学成绩之后,采用这些学校学生的考试成绩就可以进行排序,它采用多水平模型方法做起 简单。
http://www.8sta.com/Article/art/use/200501/598.html
2006-8-22
多水平模型(一)
页码,3/9
图1.1 一所学校中5名学生的期末考试成绩与入学成绩
另一个忽略层次结构分析的极端情况是,对每一所学校分别拟合不同的回归模型。在某些 下,例如只有很少的学校,而每个学校中具有较多的学生,这种方法或许是有效的。如果 者仅仅对这几所学校作出某种推断感兴趣,这种方法或许也是适宜的。然而,如果我们将 所学校作为学校总体中的一个随机样本,而且研究者希望就学校之间的变异作出一般的推 那么,就需要完全的多水平方法。同样地,如果一些学校中只有很少的学生,对每所学校 拟合模型,将不会产生可靠的估计。通过将学校作为总体的一个随机样本以及利用整个样 据可以得到的信息,则对任何一所学校作估计时,可以获得更高的精度。这种方法在重复 资料中尤其重要,因为每个水平2单位通常只有很少的水平1单位。
许多试验设计也产生了层次数据。例如,在几个随机选择的中心或组进行的临床试验。到 在,我们仅考虑到这种层次的事实,而不是它们的成因。我们将主要讨论它们在社会科学 应用,但这些技术具有更一般的用途。在后面的章节,通过用例子提出的理论与技术,我 看到,对这种自然层次的正确识别,是怎样对重要问题寻求更为满意的答案的。
为了固定水平和单位的基本记法,我们考虑基于假定关系的图1.1和图1.2。
图1.1显示了一所学校中5名学生的期末考试成绩和入学成绩,用一简单回归线拟合数据点 绕这条线的考试成绩的残差变异(residual variation)即水平1残差变异,因为它与一个水 单位(学校)样本内的水平1单位(学生)有关。图1.2中的3条线即3所学校的简单回归线,其 除了个体学生的数据点。它们的截距和斜率均有变异,这一变异即水平2变异。这是水平2 变异的一个例子,因为截距和斜率参数均有变异。
我们将在后面的章节讨论统计有效性问题,但一个简单例子将显示其重要性。一项著名的 于70年代的关于小学儿童的研究(Bennett, 1976),采用传统多元回归技术进行分析,将 儿童作为分析单位,忽略他们所在教师或班级的组。结果报道,暴露于所谓“正式”教学 风格的儿童较非暴露的儿童显示出更多的进步。Aitkin等人1981年指出,若分析方法中考 了班级组群效应 则具有统计学意义的差别将消失 所谓受到“正式”教学的儿童并未显
研究者们已经很早就注意到这一问题。在教育学领域,对所谓教师是“分析的单位”问题 许多争论(Burstein等人,1980)。虽然人们多少理解了忽略层次结构引起的问题,但在多 模型作为一个研究工具得到很好发展以前,解决这一问题是困难的。很早就有了用于特定 的软件,例如用于遗传学数据分析的软件,但它被限制在“方差成份”模型(第2章),而且 它处理广义线性模型是不适宜的。抽样调查工作者在另一种情形下注意到这一问题,当实 查时,抽样设计典型地反映了总体的层次结构,如地理区域或住户成员。当进行统计分析 也有相关方法来处理这种结构,在后面部分我们将更详细地讨论这一问题。
对于这种重复测量资料的分析,过去有相当多的文献或多或少成功地探讨了统计方法问题 如Goldstein,1979)。一般地说,这些方法需要数据是平衡的,即要求每一个体有相同次 重复测量值。作这种设计还有可能,但在实践上,测量次数常是不规则的,有的个体有很 量值,而有的可能只有一个。通过将这种数据当成为一般的两水平结构,我们可应用标准 水平模型技术处理任何测量模式的数据,从而提供统计上有效的参数估计。同时,拟合两 数据结构亦显示了对这种数据在概念上更简单的理解,并导致一系列有趣的扩展,这一问 在第6章进行探讨。
那样的统计方法通常是必需的,但未必有什么实质上的优点。换言之,这些方法将反映在 设计之中的总体结构处理成“讨厌的因素”(nuisance factor)。相反,多水平模型方法 体结构自身当作是感兴趣的东西,反映这种结构的样本不仅节省成本,而且可以收集和分 关总体中更高水平单位的数据。多水平模型能够直接将这些信息纳入模型之中,而不需进 殊的分析。