混合ols、固定模型与随机模型的区别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
方差分析(写成英文我就认识了。
analysis of variance (ANOVA) )主要有三种模型:即固定效应模型〔fixed effects model〕,随机效应模型〔random effects model〕,混合效应模型〔mixed effects model〕。
所谓的固定、随机、混合,主要是针对分组变量而言的。
固定效应模型,表示你打算比较的就是你如今选中的这几组。
例如,我想比较3种药物的疗效,我的目的就是为了比较这三种药的差异,不想往外推广。
这三种药不是从很多种药中抽样出来的,不想推广到其他的药物,结论仅限于这三种药。
“固定〞的含义正在于此,这三种药是固定的,不是随机选择的。
随机效应模型,表示你打算比较的不仅是你的设计中的这几组,而是想通过对这几组的比较,推广到他们所能代表的总体中去。
例如,你想知道是否名牌大学的就业率高于普通大学,你选择了北大、清华、北京工商大学、北京科技大学4所学校进展比较,你的目的不是为了比较这4所学校之间的就业率差异,而是为了说明他们所代表的名牌和普通大学之间的差异。
你的结论不会仅限于这4所大学,而是要推广到名牌和普通这样的一个更广泛的范围。
“随机〞的含义就在于此,这4所学校是从名牌和普通大学中随机挑选出来的。
混合效应模型就比较好理解了,就是既有固定的因素,也有随机的因素。
一般来说,只有固定效应模型,才有必要进展两两比较,随机效应模型没有必要进展两两比较,因为研究的目的不是为了比较随机选中的这些组别。
固定效应和随机效应的选择是大家做面板数据常常要遇到的问题,一个常见的方法是做huasman检验,即先估计一个随机效应,然后做检验,假设回绝零假设,那么可以使用固定效应,反之假设承受零假设,那么使用随机效应。
但这种方法往往得到事与愿违的结果。
另一个想法是在建立模型前根据数据性质确定使用那种模型,比方数据是从总体中抽样得到的,那么可以使用随机效应,比方从N个家庭中抽出了M个样本,那么由于存在随机抽样,那么建议使用随机效应,反之假设数据是总体数据,比方31个省市的Gdp,那么不存在随机抽样问题,可以使用固定效应。
同时,从估计自由度角度看,由于固定效应模型要估计每个截面的参数,因此随机效应比固定效应有较大的自由度.
固定效应模型
固定效应模型〔fixed effects model〕的应用前提是假定全部研究结果的方向与效应大小根本一样,即各独立研究的结果趋于一致,一致性检验差异无显著性。
因此固定效应模型适用于各独立研究间无差异,或差异较小的研究。
固定效应模型是指实验结果只想比较每一自变项之特定类目或类别间的差异及其与其他自变项之特定类目或类别间交互作用效果,而不想依此推论到同一自变项未包含在内的其他类目或类别的实验设计。
例如:研究者想知道教师的认知类型在不同教学方法情境中,对儿童学习数学的效果有何不同,其中教师和学生的认知类型,均指场地依赖型和场地独立型,而不同的教学方法,那么指启发式、讲演式、编序式。
当实验完毕时,研究者仅就两种类型间的交互作用效果及类型间的差异进展说明,而未推论到其他认知类型,或第四种教学方法。
象此种实验研究形式,即称为固定效果形式。
与本词相对者是随机效应模型〔random effect model〕、混合效应模型〔mixed effect model〕。
随机效应模型 random effects models
随机效应模型(random effects models)是经典的线性模型的一种推广,就是把原来〔固定〕的回归系数看作是随机变量,一般都是假设是来自正态分布。
假设模型里一部分系数是随机的,另外一些是固定的,一般就叫做混合模型〔mixed models〕。
虽然定义很简单,对线性混合模型的研究与应用也已经比较成熟了,但是假设从不同的侧面来看,可以把很多的统计思想方法综合联络起来。
概括地来说,这个模型是频率派和贝叶斯模型的结合,是经典的参数统计到高维数据分析的先驱,是拟合具有一定相关构造的观测的典型工具。
随机效应最直观的用处就是把固定效应推广到随机效应。
注意,这时随机效应是一个群体概念,代表了一个分布的信息 or 特征,而对固定效应而言,我们所做的推断仅限于那几个固定的〔未知的〕参数。
例如,假设要研究一些水稻的品种是否与产量有影响,假设用于分析的品种是从一个很大的品种集合里随机选取的,那么这时用随机效应模型分析就可以推断所有品种构成的整体的一些信息。
这里,就表达了经典的频率派的思想-任何样本都来源于一个无限的群体(population)。
同时,引入随机效应就可以使个体观测之间就有一定的相关性,所以就可以用来拟合非独立观测的数据。
经典的就有重复观测的数据,多时间点的记录等等,很多时候就叫做纵向数据(longitudinal data),已经成为很大的一个统计分支。