第七章:面板数据的处理 (new)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

遗漏变量可能引起估计的偏误
Example : traffic density(交通密度)



High traffic density means more traffic deaths 交通密度与啤酒税之间可能存在着较高的 正相关关系; 遗漏交通密度变量,会导致OLS估计产生高 估的可能!导致“啤酒税”与“交通死亡” 之间呈现出显著的正向关系。

(2) 去中心化的回归 “Entity-demeaned” OLS regression
The fixed effects regression model: Yit = 1Xit + i + uit
州内的平均数满足:
T 1 T 1 T 1 Yit = i + 1 X it + uit T t 1 T t 1 T t 1
第七章:面板数据的处理
杨 旭
案例一

如果想估计我国的“消费函数”


如果我有2005年31个省市自治区的“家庭可 支配收入”与“家庭消费”的数据 则画散点图; 做回归;
14000 13000 12000 11000
INC
10000 9000 8000 7000 6000 5000 6000 800010000 14000 CONS 18000
INC
13000 12000 11000 10000 9000 8000 10000 15000 CONS 20000 25000
案例一

利用北京市2000—2008年的“家庭可支配 收入”与“家庭消费”的数据: CONS = -4732.85 + 1.72*INCOME
案例一

如果想估计我国的“消费函数”
遗漏重要变量的烦恼


现实研究常常无法避免“遗漏重要变量”的情 况发生; 这将导致我们的回归结果存在系统性的偏误; 怎么办呢???


在某些情况下,可以通过“面板数据”进行回 归,解决这一问题!
啤酒税与交通死亡率

案例二:

在美国,交通密度的情况在州与州之间差 异较大,但在同一个州内,近些年来变化 不大。 当遗漏变量在给定的州内并不随着时间变 化而改变时,面板数据可以让我们消除遗 漏变量偏误!!!!!
YTX,t = TX + 1XTX,t + uTX,t or YMA,t = MA + 1XMA,t + uMA,t
Yit = i + 1Xit + uit, i = CA, TX, MA, T = 1,…,T
The regression lines for each state
Y CA Y = CA + 1X
案例二:
(n = 48)
Difference regression (n = 48) FR1988-FR1982 = –.072 – 1.04(BeerTax1988–BeerTax1982) (.065) (.36)
FatalityRate v. BeerTax:
问题
在上述模型中,如果超过两期,即T>2, 怎么处理呢?

啤酒税与交通死亡率

案例二:
观测的数据: 48 U.S. states, so n = 48; 7 years (1982,…, 1988), so T = 7;
Balanced panel, so total observations = 7×48 = 336
啤酒税与交通死亡率
变量: • Traffic fatality rate (交通死亡率, 当年、 当地,每 10,000人中死于交通事故的人数) • Tax on a case of beer(啤酒税) • Other (其他因素,legal driving age, drunk driving laws, etc.)

案例二:
啤酒税与交通死亡率

案例二:
啤酒税与交通死亡率会是什么关系?
U.S. traffic death data for 1982:
$1982
较高的啤酒税,会导致更多的交通死亡吗?
U.S. traffic death data for 1988
较高的啤酒税,会导致更多的交通死亡吗?
啤酒税越高,交通死亡率越高???
T T 1 1 T 1 Yit – Yit = 1 X it X it + uit uit T t 1 T t 1 T t 1
或者: Yit = 1 X it + uit
1 T 1 T where Yit = Yit – Yit and X it = Xit – X it T t 1 T t 1
两时期面板数据
考虑面板数据模型, FatalityRateit = 0 + 1BeerTaxit + 2Zi + uit
Zi 是不随着时间改变,但会随着个体变化的因素。 假设Zi无法观测,所以它的遗漏会带来遗漏变量 的偏误。 Zi 的影响可以通过使用T = 2年的面板数据的处理 来消除。
主要的想法:
案例一

利用2005年31个省市自治区的“家庭可支 配收入”与“家庭消费”的数据: CONS = -10.51 + 1.31*INCOME
案例一

如果想估计我国的“消费函数”


如果我有北京市2000—2008年的“家庭可支配 收入”与“家庭消费”的数据 则画散点图; 做回归;
17000 16000 15000 14000
面板数据模型的一般理论
在模型的设定上,分为两大类:
(一)“固定效应”模型;
(二)“随机效应”模型;
(一) 固定效应的回归 Fixed Effects Regression
1、“固定效应”的模型形式; 2、“固定效应”回归的参数估计; 3、一般化的“固定效应”模型;
4、面板数据模型的缺陷;
1、“固定效应”的模型形式
州内离差:
1 T 1 T 1 T Yit – Yit = 1 X it X it + uit uit T t 1 T t 1 T t 1
(2) 去中心化的回归 “Entity-demeaned” OLS regression
案例一

无知无畏型

把所有数据混在一起做回归;

本质假设:消费行为在不同地区之间没有差异, 同一地区在不同时间内也没有差异;
案例一
百度文库
上述处理方法的缺陷
要么没有充分利用数据(谨慎型),要么 过于大胆使得估计结果犯错的可能性非常大;
本章的两大问题

对面板数据如何处理?
为什么要发明一个“面板数据”?

(2)去中心化的回归; (“Entity-demeaned” OLS)
(1)引入(N-1)个哑变量的回归

Suppose we have n=3 states, California, Texas, Massachusetts
所有三个州的回归线 :
YCA,t = CA + 1XCA,t + uCA,t
直接用 X it 对Yit 做不带常数项的一元回归
(2) 去中心化的回归 “Entity-demeaned” OLS regression
“去中心化”方法的总结: 首先建立去中心化变量Yit 和 X it 然后用 OLS 估计Yit 对 X it 的回归方程
请问:随个体变化的截距项如何估计???
1、“固定效应”的模型形式
“固定效应”的模型一般形式
Yit 0 1X 1,it ... k X k ,it k 1Z i uit
可写成:
Yit i 1X 1,it ... k X k ,it uit
2、固定效应回归的参数估计
两种种估计方法: (1)引入(N-1)个哑变量的回归; (n-1 binary regressor)(LSDV估计)

这产生了随时间改变的截距 !
Yit t 1X it uit
(2)时间固定效应模型 Regression with Time Fixed Effects 估计方法:
3、一般化的“固定效应”模型

(1)个体的固定效应模型(已讲);
(2)时间的固定效应模型; (3)个体与时间的固定效应模型


(2)时间固定效应模型 Regression with Time Fixed Effects

遗漏的变量只随时间而改变,但不随州的 不同而改变:

出现了较安全的车(air bags, etc.); 全国法律的改变;
案例一

可能的处理方法:

谨慎型 无知者无畏型
案例一

谨慎型

方法一:估计31个不同地区的消费方程;

本质假设:消费行为在不同地区之间有差异, 但同一地区在不同时间内没有差异;
案例一

谨慎型

方法二:估计9个不同时期的全国消费方程;

本质假设:消费行为在不同地区之间没有差异, 但同一地区在不同时间内有差异;


如果我有31个省市自治区,从2000—2008年的 “家庭可支配收入”与“家庭消费”的数据 应该如何做回归?
案例一
基本概念 面板数据(panel data)
X it ,
i 1,2...; n
t 1,2,...; T

平衡面板数据(balanced panel data)、非平 衡面板数据(unbalanced panel data)
CA
TX
Y = TX + 1X Y = MA+ 1X
TX
MA
MA
X
(1)引入(N-1)个哑变量的回归
上述情形可以用“带虚拟变量的回归”来表示:
(1)引入(N-1)个哑变量的回归
一般性方法:

首先建立包含二元变量D2i,…,Dni的回归; Yit = 0 + 1Xit + 2D2i + … + nDni + uit 其中,D2i 、D3i、... Dni为哑变量; 然后用OLS估计上式中的参数; 各种检验如常; 但当n 非常大时不适用 。



答案似乎是肯定的,但与我们的常识不相 符!为什么会这样? 原因:可能是因为遗漏了重要变量! 决定交通死亡率的其他因素: • Quality (age) of automobiles • Quality of roads • “Culture” around drinking and driving • Density of cars on the road
处理方法:把两个时期的回归方程相减!
相减后得到:
FatalityRatei1988 – FatalityRatei1982 = 1(BeerTax i1988 – BeerTax i1982) + (ui1988 – ui1982)
啤酒税与交通死亡率
1982 data: FatalityRate = 2.01 + 0.15BeerTax (.15) (.13) 1988 data: FatalityRate = 1.86 + 0.44BeerTax (.11) (.13) (n = 48)
请问:随个体变化的截距项如何估计???
1. 有时根本不需要估计常数项;
FatalityRate = –.66BeerTax + State fixed effects (.20) 你应该报告截距吗?
2. 使用“引入虚拟变量回归”的方法,可 以讲变化的常数项估计出来; 3. 还可以把估计出的斜率代入到每个州的 回归方程中,计算出每个州的常数项;
从1982-1988年期间,死亡率的任何改变, 都不可能是由Z i 引起的。 因为我们假设在1982-1988年期间,Z i 没有改变。
consider fatality rates in 1988 and 1982:
FatalityRate i1988 = 0 + 1BeerTax i1988 + 2Zi + ui1988 FatalityRate i1982 = 0 + 1BeerTax i1982 + 2Zi + ui1982
“固定效应”的模型一般形式
Yit 0 1X 1,it ... k X k ,it k 1Z i uit
其中,i 1,2,...,N ;
t 1,2,...,T
要求:
E(uit ) 0,Var(uit ) 2, E(uit ,uit ') 0,E(uit ,ujt ) 0; E(X j uit ) 0; j 1,2...p
相关文档
最新文档