基于面板数据模型及其固定效应的模型分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于面板数据模型及其固定效应的模型分析
在20世纪80年代及以前,还只有很少的研究面板数据模型及其应用的文献,而20世纪80年代之后一直到现在,已经有大量的文献使用同时具有横截面和时间序列信息的面板数据来进行经验研究(Hsiao,20XX)。同时,大量的面板数据计量经济学方法和技巧已经被开发了出来,并成为现在中级以上的计量经济学教科书的必备内容,面板数据计量经济学的理论研究也是现在理论计量经济学最热的领域之一。
面板数据同时包含了许多横截面在时间序列上的样本信息,不同于只有一个维度的纯粹横截面数据和时间序列数据,面板数据是同时有横截面和时序二维的。使用二维的面板数据相对于只使用横截面数据或时序数据,在理论上被认为有一些优点,其中一个重要的优点是面板数据被认为能够控制个体的异质性。在面板数据中,人们认为不同的横截面很可能具有异质性,这个异质性被认为是无法用已知的回归元观测的,同时异质性被假定为依横截面不同而不同,但在不同时点却是稳定的,因此可以用横截面虚拟变量来控制横截面的异质性,如果异质性是发生在不同时期的,那么则用时期虚拟变量来控制。而这些工作在只有横截面数据或时序数据时是无法完成的。
然而,实际上绝大多数时候我们并不关心这个异质性究竟是多少,我们关心的仍然是回归元参数的估计结果。使用面板数据做过实际研究的人可能会发现使用的效应①不同,对回归元的估计结果经常有十分巨大的影响,在某个固定效应设定下回归系数为正显着,而另外一个效应则变为负显着,这种事情经常可以碰到,让人十分困惑。大多数的研究文献都将这种影响解释为控制了固定效应后的结果,因为不可观测的异质性(固定效应)很可能和回归元是相关的,在控制了这个效应后,由于变量之间的相关性,自然会对回归元的估计结果产生影响,因而使用的效应不同,估计的结果一般也就会有显着变化。
然而,这个被广泛接受的理论假说,本质上来讲是有问题的。我们认为,估计的效应不同,对应的自变量估计系数的含义也不同,而导致估计结果有显着变化的可能重要原因是由于面板数据是二维的数据,而在这两个不同维度上,以及将两个维度的信息放到一起时,样本信息所显现出来的自变量和因变量之间的相关关系可能是不同的。因此,我们这里提出另外一种异质性,即样本在不同维度上的相关关系是不同的,是异质的,这个异质性是发生在回归元的回归系数上,而
不是截距项。我们试图从面板数据的横截面维度和时间序列维度的样本相关异质性角
度来解释为什么使用的效应不同会使估计结果产生如此巨大的差异,而这很有可能正是由于异质性导致了在使用不同效应时,使估计的结果有显着的差异。
另外,所谓的不可观测的异质性(Unobserved Heterogeneity) 在理论上被假定是无法用回归元观测的,同时,一般认为面板模型的固定效应与回归元可能是相关的,而且这个效应与回归元是否正交(相关)实际上也是判断应该使用固定效应还是随机效应的标准之一(Greene,20XX;Mundlak,1978)。而所谓的不可观测的异质性,实际上至少并不是完全不可观测的,通过适当的模型设定,把固定效应再进行分解,就得到可观测的和真正不可观测的异质性,并且模型的估计将在国家效应和随机效应之间获得融合,在这点上,我们与Mundlak(1978)的结论是一致的。
面板模型的很多方法和解释通过教科书的广泛传播和人们的应用,已经形成了面板计量技术的使用者和研究者头脑中标准的理解,而这种已经在人们脑海中形成规范解释的东西则可能是较难以改变的,因此为了说明问题,我们在文中尽量使用直观的例子来进行解释,并对我们的想法给予简要而直接的证明,来加强论文的理论性。
一、横截面和时间序列,哪一个维度?一个有其他遗漏变量的例子
读者可能会对这个问题稍微感到奇隆,并回答面板数据由于是二维数据,那么其回归结果也应该同时来自于两个维度,这正是面板数据的长处,并且直觉上两个维度上的相关关系应该是一致的,这应该是个不言自明的问题。
这个回答表面上看似正确的,然而真实的答案却不是那么简单,面板数据的回归结果并不真的一定同时来自两个维度,关于哪个维度占主要的问题在面板数据的分析中是至关重要的,尤其当我们有横截面和时间序列的维度相关异质性问题时。
这里我们所说的异质性不同于传统的面板异质性。传统的面板异质性宣称异质性来自于依横截面和时点不同而变化的截距项,并通过横截面和时点的虚拟变量捕捉;而这个论点可能是武断的,异质性可能并不来自于截距项,而是来自于回归元的系数,尤其是在数据中经常有这样的现象,即自变量与因变量在横截面上的相关关系与时间序列上的相关关系是不同的②,这是我们所探讨的异质性,导致这种异质性的原因可能有很多,遗漏变量是一个可能的重要原因。另外自变量在不同维度上对因变量本身就具有不同的作用,这也是一种可能。图1为有其
他变量遗漏的情况。
图1的面板数据样本具有4个截面,6个时期,数据由如下过程生成:
然而,如果是不可观测的,那么模型就会产生遗漏变量偏差。在实际面板
数据模型的应用中,经常采用的步骤是先做混合回归,然后做横截面固定效应回归,然后做时间固定效应回归(或与横截面固定效应同时使用)。如果看图1,很可能研
究者就会采用横截面固定效应或者双固定效应,而在上面的案例中,采用混合回归与横截面固定效应回归都会得到完全错误的结果,其中横截面固定效应的估计结果偏差最高,双固定效应的估计稍好,但是也经常产生有偏的结果,只有时期固定效应会产生最无偏有效的估计结果。
图2给出了使用各种效应得到的回归拟合线,每个回归的截距项已经取平均从而使得回归线落在样本点的中央,从图2中可以看到,不同的模型设定对估计系数产生明显的影响。很明显,只有时间固定效应得到了x与y的真实的相关关系,偏差最小;横截面固定效应则显示了x与y在时序上的相关关系,是偏差最大的估计;混合回归也基本显示了时序的信息;而双固定效应在这里凑巧也有较大的估计偏误,这是因为双固定效应的双向组内均值离差操作损失了许多有用的样本信息,并且在我们模拟中的一个相对大的干扰项方差也降低了估计的效率。
那么,为什么以上结果会发生呢?为了解决这个问题,我们需要探讨面板数据模型固定效应估计的本质。
1.横截面和时间固定效应的本质
如果我们有一个截面个体的时间序列样本y和X,我们可以对y和X做回归得到截距项a和系数向量P ,这反映了样本在时序上的相关关系,如果我们把每个截面都做回归,就得到一个方程系统:
从式(5)和式(6)中,很容易发现,拟合准则对于P和a的一阶条件产生了同样的估计条件,也即是横截面固定效应估计量的估计条件:
X P +Da =y ⑺
这个估计量即是有一个线性约束=3的每个截面个体的时间序列回归的估计量,同时我们知道这也是横截面固定效应的估计量。因此,我们有推论1:推论1横截面固定效应估计本质上是在做一个有线性约束的时间序列回归,约束则是每个横截面个体具有相同的回归系数。同样,容易证明,时间固定效应估计量本质上是在做一个有线性约束的横截面回归,约束则是每个时期的横截面回归具有相同的回归系数。而回忆固定效应的算法,我们知道,横截面固定效应(时期固定效应),或者说不可观测的异质性,实际上是约束每个横截面(每个时期)的误差项的均值为0的结果,因此,固定效应,或者说不可观测的异质性实际是估计的结果而不是原因。
2.每个横截面的和总的3的关系
给定横截面个体i,我们知道该横截面的时间序列回归的估计量包含在
式(10)中:
可以看到,每个截面的时序回归实际上是把估计横截面固定效应的样本按横截面分成n份,或者反过来说横截面固定效应的估计实际上是把每一个截面的时序回