第十章 短面板
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
同一个体扰动项的协方差阵为
2 2 2 u+ 2 u u 2 2 2 2 u+ u u = 2 2 2 2 u u+ TT u 可知同一个体的扰动项具有相同的方差,但存在组
内自相关。整个样本扰动项的协方差阵为块对角阵 (block diagonal matrix) 0 = 0 nTnT
混合回归的基本假设是不存在个体效应。对于这个 假设必须进行统计检验。由于个体效应以两种不同 的形态存在(即固定效应与随机效应),故将在下 面两节分别介绍其检验方法。混合回归也称为总体 平均估计量(Population-averaged estimator,PA), 因为可以把它理解为,将个体效应都平均掉了。
同分布的,且与u i不相关。
如果u i与某个解释变量相关,则进一步称之为固定效 应模型(Fixed Effects Model,简记为FE)。固定 效应这个名词容易引起误解。因为即使在固定效应 模型中,个体效应u i也是随机的(尽管其取值不随 时间而变),而非固定的常数。
当u i与某个解释变量相关,即固定效应模型下,OLS 是不一致的,解决的方法是将模型转换,消去u i后获 得一致估计量。
另一极端策略则是,为每个个体估计一个单独的回 归方程。前者忽略了个体间不可观测或被遗漏的异 质性(进入了扰动项),而该异质性可能与解释变 量相关从而导致估计不一致。后者则忽略了个体间 的共性。
因此,在实践中常采用折中的估计策略,即假定个 体的回归方程拥有相同的斜率,但可以有不同的截 距项,以此来捕捉异质性。这种模型称为个体效应 模型(individual-specific effects model),即 yit=x +z +u i+(i=1, ,n;t=1,,T) it i it
1 可以解决遗漏变量问题。遗漏变量偏差是一个普
遍存在的问题。虽然可以用工具变量法解决,但有 效的工具变量常常很难找。遗漏变量常常是由于不 可观测的个体差异或异质性(heterogeneity)造成的 如果这种个体差异不随时间而改变,则面板数据提 供了解决遗漏变量问题的又一利器。
2 提供更多个体动态行为的信息。由于面板数据同
FD
六、随机效应模型
假设u i与解释变量 x it,zi 均不相关,故OLS是一致 的。然而,由于扰动项由 u i+ it 组成,不是球型扰 动项,因此OLS不是最有效率的。 假设不同个体之间的扰动项互不相关。由于u i的存在 对于回归方程yit=x +z +u i+ it,随机效应模型 it i
2 T u+
2 12
的一致估计量
可以证明,以上方程的扰动项不再有自相关,即 Cov 1- u i+ it- i ,- u i+ it- i 1 =0,t s 其中 1-
T +
2 u
2 12
ˆ 显然, 1。如果=0,则为混合回归;而如果 0 ˆ =1,则为组内估计量。如果进一步假设扰动项服 从正态分布,则可以使用最大似然估计法进行估计
如果u i与所有解释变量(x it,z i)均不相关,则称之 为随机效应模型(Random Effects Model,简记为 RE)。从经济理论的角度来看,随机效应模型比较 少见,因为一般来说,不可观测的异质性通常会对 解释变量产生影响。须通过检验来确定是FE还是RE
三、混合回归
如果所有个体都拥有完全一样的回归方程,则方程 yit=x +z +u i+(i=1, ,n;t=1,,T)可写 it i it 为: yit=+x +z+ it it i 项。 其中,x it不包括常数
第十章 短面板
一、面板数据的特点
面板数据或平行数据(panel data or longitudinal data)指的是在一段时间内跟踪同一组个体 (individual)的数据。它既有横截面的维度(n个个 体),又有时间维度(T个时间)。 通常的面板数据T较小而n较大,这种面板数据称为
短面板(short panel)。反之,如果T较大而n较小, 则称为长面板(long panel)。 在面板模型中,如果解释变量包含被解释变量的滞
后值,则称为动态面板(dynamic panel)。反之, 则称为静态面板(static panel)
本章介绍静态的短面板,下一章介绍长面板与动态 面板。如果在面板数据中,每个时期在样本中的个 体完全一样,则称为平衡面板数据(balanced panel) 反之,则称为非平衡面板数据(unbalanced panel) 面板数据的主要优点如下:
四、固定效应模型
对于固定效应模型,给定第i个个体,将方程 yit=x +z +u i+(i=1, ,n;t=1,,T)两边 it i it 对时间取平均可得 yi=x+z +u i+ i,两个方程 i i 相减后可得原模型的离差形式: yit-yi= x it-x i + it- i 令yit yit-yi,x it x it-x i, it it- i, it 则有yit=x + it 由于此式中已将u i 消去,故只要x it与 it不相关,则可以用OLS一致地 估计,称为固定效应估计量(Fixed Effects ˆ Eetimator)记为 。
这样,就可以把所有数据放在一起,像对待横截面 数据那样进行OLS回归,故称为混合回归(pooled regression)。 由于面板数据的特点,虽然通常可以假设不同个体
之间的扰动项相互独立,但同一个体在不同时期的 扰动项之间往往存在自相关。此时,对标准差的估 计应该使用聚类稳健的标准差(cluster-robust standard error),而所谓聚类就是由每个个体不同 时期的所有观测值所组成。同一聚类(个体)的观 测值允许存在相关性,而不同聚类(个体)的观测 值则不相关。
RE
具体来说,用OLS来估计以下广义离差模型 (quasi-demeaned): ˆ y = x - x + 1- z + ˆ ˆ yit- i it i i ˆ ˆ 1- u i+ it- i
误差项
ˆ 其中 是 1-
FD
于u i不再出现在差分方程中,只要扰动项的一阶差 ˆ ˆ 相关,则 FD是一致的。此一致性条件比保证 FE一 ˆ 致的严格外生性假定更弱,这是 的主要优点。
分 it- i,t-1 与解释变量的一阶差分 x it-x i,t-1 不
ˆ 如果 it 为独立同分布的,则组内估计量 FE比一阶 ˆ ˆ 差分估计量 FD更有效率。故在实践中主要使用 FE。 但对于动态面板,严格外生性假定无法满足,故转 而使用差分法
2 u = 2 u+ 2
显然,同一个体不同时
期的扰动项之间的自相关系数不随时间距离 t-s 而 改变,故随机效应模型也称为等相关模型或可交换 扰动项模型(exchangeable errors model)。因为一 般来说,自回归模型的扰动项之间的自相关系数 随时间而递减。 越大,则复合扰动项 u i+ it 中个 体效应的部分u i 越重要。
又比如,对于失业问题,截面数据能告诉我们在某 个时点上哪些人失业,而时间序列数据能告诉我们 某个人就业与失业的历史,但这两种数据均无法告 诉我们,是否总是同一批人在失业(意味着低流转 率),还是失业的人群总在变动(意味着高流转率) 如果有面板数据,就可能解决上述问题。 3 样本容量较大。由于同时有截面维度与时间维度
FE
的变量之影响,这是FE的一大缺点。另外,为了保 证 it- i 与 x it-x i 不相关,则要求第i个观测值满 足严格外生性,即E it x i1, ,x iT =0,因为x i中包 含了所有 x i1, ,x iT 的信息。
换言之,扰动项必须与各期的解释变量均不相关 (而不仅仅是当期的解释变量),这是一个比较强 的假定。
以上固定效应模型没有考虑时间效应,称为单向固定 效应(One-way FE)。如果将时间引入模型,则称 为双向固定效应(Two-way FE)。方法是引入一个 时间趋势项,yit=x +z + t+u i+ it,其中,时间 it i 趋势项 t仅依时间而变化,而不依个体而变。
五、一阶差分法
对于固定效应模型,可以对方程 yit=x +z +u i+ it 两边进行一阶差分,以 it i 消去个体效应u i (同时也把z 消掉了), i yit-yi,t-1= x it-x i,t-1 + it- i,t-1
对上述差分形式的方程使用OLS就可以得到一阶差 ˆ 分估计量(First Differencing Estimator, )。由
FE
ˆ 由于 FE主要使用了每个个体的组内离差信息,故称 为组内估计量。即使个体特征u i与解释变量x it 相关, 只要使用组内估计量,就可以得到一致估计量(因 为u i已消掉了),这是面板数据的一大优势。 然而,在作离差转换的过程中,z 也被消掉了,故 i ˆ 无法估计。也就是说, 无法估计不随时间而变
通常面板数据的样本容量更大,从而可以提高估计 的精确度 当然,面板数据通常不满足独立同分布的假定,因
为同一个体在不同期的扰动项一般存在略是将其看成是截 面数据而进行混合回归(pooled regression),即要 求样本中每个个体都拥有完全相同的回归方程。
由于OLS是一致的,且其扰动项为 u i+ it ,故可以 用OLS的残差来估计 + 。另一方面,FE也是
2 u 2
一致的,且其扰动项为 it- i ,故可以用FE的残差 来估计 2。然后就可以使用可行广义最小平方法 (FGLS)来估计原模型,得到随机效应估计量 ˆ (Random Effects Estimator),记为 。
如果在原方程中引入 n-1 个虚拟变量(如果没有截 距项,则引入n个虚拟变量)来代表不同的个体,则 可以得到与上述离差模型同样的结果。因此,FE也 称为最小平方虚拟变量模型(Least Square Dummy Variable Model,LSDV)。使用LSDV的好处是可以 得到对个体异质性u i的估计。
时有横截面与时间两个维度,有时它可以解决单独 的截面数据或时间序列数据所不能解决的问题。比 如,考虑如何区分规模效应与技术进步对企业生产 效率的影响。对于截面数据来说,由于没有时间维 度,故无法观测到技术进步。然而,对于单个企业 的时间序列数据来说,我们无法区分其生产效率的 提高究竟有多少是由于规模扩大,有多少是由于技 术进步。
同一个体不同时期的扰动项之间自相关,
2 u,若t s 2 Cov u i+ it,u i+ is = 2 其中 u 为 2 u+ ,若t=s u i的方差(不随i变化),而 2为 it的方差(不随i、
t变化)。
当t s时,其自相关系数为 Corr u i+ it,u i+ is
其中,zi为不随时间而变的个体特征(即zit=zi,t) 比如性别;而x it 可以随个体及时间而变。扰动项由 (u i+ it)两部分构成,称为复合扰动项(composite error term),其中,不可观测的随机变量u i是代表 个体异质性的截距项。
it为随个体与时间而改变的扰动项。假设 it 为独立