第7章 面板数据模型分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、一般面板数据模型介绍
• 用面板数据建立的模型通常有3种。即混合 估计模型、固定效应模型和随机效应模型。 • 混合(pool)估计模型。 • 如果从时间上看,不同个体之间不存在显 著性差异;从截面上看,不同截面之间也 不存在显著性差异,那么就可以直接把面 板数据混合在一起用普通最小二乘法 (OLS)估计参数。
M D I PD , 用 M D 转 变 模 型 y D x 。 显 然 M D D 0 ,则有 M D y M D X M D ˆ ( X M X ) 1 X M y 用 OLS 得到β 的估计: w D D
组内估计量与对下列方程的 OLS 估计量是等同的。
面板数据的优点
(1)可以控制个体异质性 可以克服未观测到的异质性(unobserved heterogeneity)这种遗漏变量问题。这个异质性是指在面 板数据样本期间内取值恒定的某些遗漏变量。 (2)面板数据模型容易避免多重共线性问题 • 面板数据具有更多的信息; • 面板数据具有更大的变异; • 面板数据的变量间更弱的共线性; • 面板数据模型具有更大的自由度以及更高的效率。 (3)与纯横截面数据或时间序列数据相比,面板数据模型 允许构建并检验更复杂的行为模型。
第二节 固定效应模型及其估计方法
一、固定效应模型的形式 在固定效应模型中假定
it i it
其中 i 是对每一个个体是固定的常数,代表个体的特殊效应,也反映 了个体间的差异。
yit i xit it
整个固定效应模型可以用矩阵形式表示为:
y1 i 0 0 1 x1 y2 0 i 0 2 x2 y 0 0 i x N N N
ˆ ) ˆ ( D D ) 1 D (Y X w
ˆ ˆ 其实就是用自变量和解释变量的个体均值和 w 按下列模型计
算出的误差项:
ˆ ˆ i yi X i w
ˆ 估计量 w 和 ˆ 的方差估计: 2 2 1 ˆ s ( X P X ) ˆ D
几点说明
• 未观测到的异质性可能不会随着样本的变化而变化,也可 能随着样本的变化而发生随机的变化。 • 不同截距的数据生成过程就是这未观测到的差别不随样本 而变化的数据生成过程。 • 误差成份(error components)数据生成过程就是这未观 测到的差别随样本而随机变化的数据生成过程。 • 在不同截距的数据生成过程中,各自不同的截距都是参数。 误差成份模型有两种情况,一是随机的个体效应与解释变 量无关,一种是随机的个体效应与解释变量相关。 • 所谓双因素效应模型,就是在模型中既考虑了不可观测非 时变的(个体)异质效应,又考虑了不可观测时变(个体) 同质效应的模型。 • 类似地,双因素效应模型也有固定效应和随机效应之分, 如果设定个体效应α i 和时间效应λt 是确定的,就是双因 素固定效应模型;如果设定个体效应α i 和时间效应λt 是 随机的,就是双因素随机效应模型。在实际应用时,模型 的正确设定必须进行相关的统计检验。
二、一般面板数据模型介绍 符号介绍:yit ——因变量在横截面 i 和时间 t 上的数值;
x
j it ——第 j 个解释变量在横截面 i 和时间 t 上的数值;
假设:有 K 个解释变量,即 j
1,2,, K ; 有 N 个横截面,即 i 1,2,, N ; 时间指标 t 1,2,, T 。
y1 X1 1 y2 X2 2 y ; X ; ; y X N N N
1 2 K
y D x
其中 D 是一个有虚拟变量组成的矩阵。 因此固定效应模型也 被 称 为 最 小 二 乘 虚 拟 变 量 模 型 ( least squares dummy variable(LSDV) model) ,或简单称为虚拟变量模型。
二、固定效应模型的估计和检验 固定效应模型中有 N 个虚拟变量系数和 K 个解释 变量系数需要估计,因此总共有 N+K 个参数需要估计。 当 N 不是很大时,可直接采用普通最小二乘法进行估 计。但是当 N 很大时,直接使用 OLS 方法的计算量就 变得非常大,甚至有可能超过计算机的存储容量。 一个解决问题的办法就是分成两步来对面板数据 模型进行回归分析。由这种方法导出的估计量常被称为
但是由于面板数据中含有横截面数据, 有时需要考虑个体可能存在 的特殊效应及对模型估计方法的影响。 例如在不同个体误差项存在不同 分布的情况下,OLS 估计量虽然是一致的,但不再是有效估计量,因此 往往需要采用 GLS。 一般为了分析每个个体的特殊效应,对随机误差项 it 的设定是
it i it
ˆ 。 组内估计量(within group estimator) ,有时也记为 w
第一步,剔除虚拟变量在模型中的影响,然后再对参数β 进 行估计。 剔除虚拟变量 D 影响的办法就是利用下列矩阵对所有变 量进行“过滤” 。 设 PD D( DD) 1 D ,其中 D 的定义与方程前所述。设
w
2 ˆ ˆ
i
s2 ˆ ˆ X i X i w T
2 s 其中 是对误差项方差的估计量:
s2
ˆ )2 ˆ ( y x it i it w
i t
NT N K
注意:在对误差项方差的估计量中,分母(NT-N-K)反映了整个
模型的自由度。有了这些方差的估计量,就可以用传统的 t-统计量 对估计系数的显著性进行检验。 同时, 还可以运用下列 F-统计量对 i j , i j 的原假设进行检验:ຫໍສະໝຸດ Baidu
例 1 表 1 中展示的数据就是一个面板数据的例子。 表 1 华东地区各省市 GDP 历史数据 1995 1996 1997 1998 2462.57 2902.20 3360.21 3688.20 上海 江苏 浙江 安徽 福建 江西 5155.25 3524.79 2003.66 2191.27 1244.04 6004.21 4146.06 2339.25 2583.83 1517.26 6680.34 4638.24 2669.95 3000.36 1715.18 7199.95 4987.50 2805.45 3286.56 1851.98
其中 i 为 T 1 的单位向量。
1 2 N
进一步定义:
D d 1
d2
d i 为 TN 1 向量,是一个虚拟变量(dummy variable) 。模
型可以再写为:
i 0 0 0 i 0 dN 0 0 i
其中对应的 i 是横截面 i 和时间 t 时随机误差项。再记
这样,y 是一个 N T 1 的向量;X 是一个 N T K 的矩阵;而μ 是一 个 N T 1 的向量。针对这样的数据,有以下以矩阵形式表达的面板数据 模型: y X (1) 方程(1)代表一个最基本的面板数据模型。基于对系数β 和随机误 差项μ 的不同假设,从这个基本模型可以衍生出各种不同的面板数据模 型。最简单的模型就是忽略数据中每个横截面个体所可能有的特殊效应, ~ iid (0, 2 ) 如假设 ,而简单地将模型视为横截面数据堆积的模型。
单位:亿元 1999 4034.96 7697.82 5364.89 2908.59 3550.24 1962.98
4996.87 5960.42 6650.02 7162.20 7662.10 山东 数据来源:中国统计年鉴 1996-2000。 其他类似的例子还有:历次人口普查中有关不同年龄段的受教育状况;同行业 不同公司在不同时间节点上的产值等。 这里, 不同的年龄段和公司代表不同的截面, 而不同时间节点数据反映了数据的时间序列性。
面板数据通常分为两类: • 由个体调查数据得到的面板数据通常被称为微观面板 (micro panels)。 • 微观面板数据的特点是个体数N 较大(通常是几百或几千 个),而时期数T 较短(最少是2 年,最长不超过10 年或 20 年)。 • 由一段时期内不同国家的数据得到的面板数据通常被称为 宏观面板(macro panels)。 • 这类数据一般具有适度规模的个体N(从7 到100 或200 不等,如七国集团,OECD,欧盟,发达国家或发展中国 家),时期数T 一般在20 年到60 年之间。 • 对于宏观面板,当时间序列较长时需要考虑数据的非平稳 问题,如单位根、结构突变以及协整等;而微观面板不需 要处理非平稳问题,特别是每个家庭或个体的时期数T 较 短时。
研究和分析面板数据的模型被称为面板数据模型 (panel data model) 。 它的变量取值都带有时间序列和横 截面的两重性。一般的线性模型只单独处理横截面数据 或时间序列数据,而不能同时分析和对比它们。面板数 据模型,相对于一般的线性回归模型,其长处在于它既 考虑到了横截面数据存在的共性,又能分析模型中横截 面因素的个体特殊效应。当然,我们也可以将横截面数 据简单地堆积起来用回归模型来处理,但这样做就丧失 了分析个体特殊效应的机会。
面板数据模型的分析
第一节 第二节 第三节 第四节 第五节 面板数据模型简介 固定效应模型及其估计方法 随机效应模型及其估计方法 模型设定的检验 面板数据模型应用实例
第一节 面板数据模型简介 一、面板数据和模型概述
时间序列数据或截面数据都是一维数据。例 如时间序列数据是变量按时间得到的数据;截面 数据是变量在截面空间上的数据。面板数据 (panel data)也称时间序列截面数据(time series and cross section data)或混合数据 (pool data)。面板数据是同时在时间和截面空 间上取得的二维数据。简单地讲,面板数据因同 时含有时间序列数据和截面数据,所以其统计性 质既带有时间序列的性质,又包含一定的横截面 特点。因而,以往采用的计量模型和估计方法就 需要有所调整。
其中 i 代表个体的特殊效应,它反映了不同个体之间的差别。
(2)
最常见的两种面板数据模型是建立在 i 的不同假设基础之上。一种假 设假定 i 是固定的常数,这种模型被称为固定效应模型(fixed effect model) ,另一种假设假定 i 不是固定的,而是随机的,这种模型被称 为随机效应模型(random effect model) 。
yit yi ( X it X i ) +随机误差项
其中, y i 和 X i 代表各自变量个体的均值。 上式中,OLS 估计量主要利用的是个体变量对其均值偏离的信 息,随机误差项也仅反映对其个体均值的偏离波动,这是该估计 量被称为组内估计量的原因。
第二步,估计参数α 。由于已经得到了β 的估计值,所以α 的估 计就变得比较简单。
记第 i 个横截面的数据为
yi1 yi 2 yi ; y iT
xi11 1 xi 2 Xi x1 iT
K xi2 x i1 1 i1 2 K xi 2 xi 2 i 2 ;i 2 K xiT xiT iT