面板数据

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

若记录某一个学生 的收入、消费即为 时间序列数据 Yt=b0+b1Xt+ut t=1,2,3,4
应用面板数据模型的动机
解决省略变量(omitted variable )问题 记y 和 x = (x1,…,xK) 是可观察的随机变量,c 是不可观察的随机变量 假设c和xj 一起进入线性回归模型,但我们感 兴趣的是想知道xj对的y影响 E(y|x,c) = b0 + xb + c 如果Cov(xj,c)≠0 ,把c放入误差项将引起b的 非一致估计
rank

T
X K E x x rank E X i, t i, t i i t 1



该假定排除了xi,t中不含时不变变量 对模型(**)做Pooled OLS回归即可得到b 估计值,称为组内估计量,或者是固定效应 估计量 组间估计(between estimator) 对模型(*)进行OLS估计,即得到组间 估计量,仅利用了横截面观测值信息
固定效应(Fixed effects)
对于不可观察效应模型 yi,t = xi,tb + ci + ui,t,
t = 1, 2, ... ,T
随机效应是假定ci与xi,t不相关,从而将其放 入误差项,并用GLS进行估计
若ci与xi,t相关,应用固定效应模型
固定效应模型的估计思想是消除不可观察变 量c i 组内(固定效应)变换[within (fixed effects) transformation] 对第i方程对时间t求平均,得到横截面模型
以单方程为例,上述加权估计即为
2 u 2 u 2 12 c
1 s s Ts yit yi b 0 1 b1 xit1 xi1 ... b k xitk xik it i
若=1,为固定效应估计 若=0,为Pooled OLS估计 因此,不可观察效应的方差越大,接近固 定效应;反之接近Pooled OLS
1 2 dˆFE dˆRE A var dˆFE A var dˆRE dˆFE dˆRE ~ M
应用举例
Woold源自文库idge(2006)
Data: RENTAL.RAW
未观察效应模型为 log(renti,t) = b0 + d0y90t + b1log(popi,t) + b2log(avginci,t) + b3pctstui,t + ai + ui,t


随机效应假定3 2 (a) E uiu x , c s i i i u IT


(b)
E c xi s
2 i


2 c
在上述假定下,我们可得到b的随机效应估计
ˆ RE b
N 1 1 ˆ ˆ X i X i X i yi i 1 i 1 N 1
rent : 平均租金 y90 : 虚拟变量, y90 =1 if year == 90 pop : 城市人口 avginc : 人均收入 pctstu : 学生人口百分比
混合最小二乘估计(Pooled OLS)
固定效应估计
随机效应估计
豪斯曼检验
最小二乘虚拟变量回归(LSDV)
例子(Wooldridge, 2002)
估计就业培训对工资收入影响: log(wagei,t) = qt + zi,tg + d1progi,t + ci + ui,t qt 被称为时变截距,zi,t是一系列影响工资的 可观察变量 观测数据为两期,当t = 1时, 没有人参加就业 培训,progi,1 = 0 ;当t = 2 时,一部分参加 就业培训 个体效应ci通常是被省略的能力变量,显然ci 与progi,t相关
随机效应估计 同样地,我们再次记 vi,t = ci + ui,t OLS将获得一致估计,但是合成误差存在序 列相关 假定E(ui,t2)=su2 (t=1, …T) E(ui,t ui,s)=0 t≠s 2 我们有var(vi,t)=su + sc2 ,cov(vi,t vi,s)=s2c 其相关系数为corr(vi,t vi,s)=s2c/(su2 + sc2 ) 相关系数特点:无论间隔时间多长,相关系 数相同
混合最小二乘估计(pooled OLS)
对于模型 yi,t = xi,tb + ci + ui,t, t = 1, 2, ... ,T 记vi,t = ci + ui,t为模型合成误差项,则有 yi,t = xi,tb + vi,t 我们可以用Pooled OLS(把截面数据混合) 一致估计b,只要满足条件 (a) E(xi,t ui,t)=0 (b) E(xi,t ci)=0 (t =1,2, …T) 但是合成误差存在序列相关,应用稳健方差
Y1,1 Y1,2 ┆ Y1,4
X1,1 X1,2 ┆ X1,4
Y2,1 Y2,2 ┆ Y2,4
X2,1 ┈ Y100,1 X100,1 X2,2 ┈ Y100,2 X100,2 ┆ ┈ ┆ ┆ X2,4 ┈ Y100,4 X100,4 若记录100个学生在大二 学年的收入与消费即为 横截面数据 Yi=b0+b1Xi+ui i=1,2,…100
记vi=ci jT+ui, jT是T×1维由1构成的向量 Evi vi 定义vi的方差协方差矩阵为 , 随机效应假定2
1 rank E X i X i K (满秩)
2 s c2 s u s c2 s c2 2 2 2 sc su sc E vi vi 2 sc 2 2 2 s2 s s s c c c u
选择固定效应或随机效应的关键是个体效应ci 是否与解释变量 xi,t 相关 H0 : 随机效应假定成立 H1 : 随机效应假定不成立 Under H0 : RE 一致并有效; FE 一致估计 Under H1 : RE 非一致; FE 一致估计 Hausman(1978) 基于估计量差构造统计量 H=
如果有面板数据,可以采取新的补救方法 假定我们在两个不同时期观察到y 和 x 的值, 即yt, xt for t = 1, 2 。 假定被省略的变量c 不随时间而变化,反映 了个体的特征 因此,我们有 yt = b0 + xtb + c + ut t = 1, 2 对模型进行差分可得 ⊿yt =⊿xtb +⊿ut 在一定的假设条件下应用OLS即可得到b的一 致估计结果
组间估计是非一致估计,因为 E xi c i 0
虚拟变量回归(LSDV) 先前我们将未观察到效应ci 作为随机变量, 并给出合理解释;传统方法是将ci 作为固定 效应的待估参数 若ci 为待估参数,就是说个体效应随着截面 (个体)发生变化,我们可以定义虚拟变量来表 示截面之间的变化 对每个横截面定义虚拟变量 dni = 1 if n = i, dni = 0 if n ≠ i
随机效应(Random effects )
对于不可观察效应模型 yi,t = xi,tb + ci + ui,t,
t = 1, 2, ... ,T
随机效应假定1(比Pooled OLS更严格) (a) E(ui,t | xi ,ci) = 0 ; t = 1,...,T (b) E(ci | xi) = E(ci) = 0 其中 xi = (xi,1,...,xi,T)
作Pooled OLS回归, dni前面的系数即为截 面i 的个体效应 这种方法得到的估计量与固定效应估计结果 完全相同 固定效应估计也称为最小二乘虚拟变量估计
固定效应 vs 随机效应
一般经验
若时间序列观测值T相对N(横截单元的个数) 较大,N较小,这两类模型的参数估计可能差别 很小, 因此,选择取决于计算方便,由于固定效 应模型计算方便,所以一般选择固定效应模型 当N大T小,两种模型的参数估计具有显著差别, 当个体被认为不是从总体中随机抽取的,固定 效应就是合适模型,否则,随机效应模型应是合 适模型
yi x i b ci ui
与初始模型做差
(* ) (**)
yi ,t yi xi ,t xi b ui ,t ui
令 i ,t yi ,t yi y i ,t xi ,t xi u x i ,t ui ,t ui
固定效应假定2
不可观察效应模型
不可观察效应模型可表述为(截面i): yi,t = xi,tb + ci + ui,t, t = 1, 2, ... ,T 其中ci称为潜在变量(latent variable )、不可 观察异质性(unobserved heterogeneity )、个 体效应(individual effect )、个体异质性 (individual heterogeneity )。 ui,t被称为异质 误差项(idiosyncratic errors )
面板数据的优势(Baltagi)
将i取作不同的个人、厂商、省市以至于不同 的国家(称为不同的个体),这些不同的个体具 有异质性,如不同的消费倾向或偏好等,面板数 据将这些不同个体的时间序列数据组合在一 起,通过对不同个体设定相应的变量,从而使 基于面板数据模型可以用于研究这些不同个 体的异质性. 面板数据是“更富有信息、更具有变异性、 但几乎没有共线性”的数据,且“具有更高 的自由度和更有效
若个体效应ci 与某个回归变量相关,则随机效 应模型的估计是有偏的,而固定效应模型是无 偏的,所以在这种情况下用固定效应模型是合 适的 若N大而T相对小,且随机效应模型的假定成立 (个体被认为是从总体中抽取的样本),随机效 应模型的参数估计比固定效应模型更有效
豪斯曼检验(Hausman test )
第十四章
面板数据模型
面板数据(panel data)
从数据的角度看,我们前面所使用的数据有 时间序列数据,或者是横截面数据,而将时 间序列数据和横截面数据混合,就构成所谓面 板数据,面板数据有时间维和空间维
如随机抽样100位同学作为样本,研究学生的 收入(X)和消费(Y)的关系,调查每一位同学大 学4年X和Y的数据,即有Yi,t和Xi,t, 故有 i=1,2,…100, t=1,2,3,4. 由此构成面板数据
面板模型通过对重复横截面数据的研究,更 适用于分析变化的动态性,如失业的动态变 化、劳动力的流动,职业的变换等 面板模型能用于侦察和度量时间序列模型和 横截面模型所不能观测到的某些效应,如不 同省或地区的最低工资标准的效应 面板模型可以用于研究更为复杂的行为模型, 如不同企业的规模和技术进步。若用所有企 业加总的时间序列或某个时点的横截面数据 不可能考察不同企业技术变化的行为 使用面板数据还可以避免源于加总的误差或 使其最小
相关文档
最新文档