面板数据的处理.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
遗漏因素可能引起遗漏变量偏误。
Example #1: traffic density. Suppose:
(i) High traffic density means more traffic deaths (ii) (Western) states with lower traffic density have lower
What if you have more than 2 time periods (T > 2)?
Yit = 0 + 1Xit + 2Zi + uit, i =1,…,n, T = 1,…,T
We can rewrite this in two useful ways: 1. “n-1 二元自变量” regression model 2. “固定效应” regression model
U.S. traffic death data for 1982:
$1982
较高的酒精税,更多的交通死亡吗?
U.S. traffic death data for 1988
较高的酒精税,更多的交通死亡吗?
啤酒税越高,交通死亡率越高???
决定交通死亡率的其他因素: • Quality (age) of automobiles • Quality of roads • “Culture” around drinking and driving • Density of cars on the road
• 这个“相减的”等式可以用OLS 进行估计, 尽管 Zi 无法 观测。
啤酒税与交通死亡率
1982 data: FatalityRate = 2.01 + 0.15BeerTax (.15) (.13)
1988 data: FatalityRate = 1.86 + 0.44BeerTax (.11) (.13)
我们首先重写为“固定效应”的形式. Suppose we have n = 3 states: California, Texas, Massachusetts.
Yit = 0 + 1Xit + 2Zi + ui, i =1,…,n, T = 1,…,T
Yit = 0 + 1Xit + 2Zi + ui, i =1,…,n, T = 1,…,T
Yit = 1Xit + ai + uit
州的平均数满足:
1
T
T
Yit
t 1
= ai + 1 1
T
T t 1
X it
+
1 T
T
uit
t 1
州平均数的离差:
Yit –
1 T
T
Yit
t 1
= 1 X it
1 T
T t 1
X
it
+
uit
1 T
T t 1
uit
2. “Entity-demeaned” OLS regression
CONS
18000
引言
• 利用2005年31个省市自治区的“家庭可支 配收入”与“家庭消费”的数据:
CONS = -10.51 + 1.31*INCOME
引言
• 如果想估计我国的“消费函数”
– 如果我有北京市2000—2008年的“家庭可支配 收入”与“家庭消费”的数据
– 则画散点图; – 做回归;
– 无法避免遗漏变量的影响;
– 有时候无法进行上述处理;
面板数据的处理
一、基本概念 二、案例:啤酒税与交通死亡率Βιβλιοθήκη Baidu间的回归
面板数据的处理
一、基本概念
• 面板数据(panel data)
• 平衡面板数据、非平衡面板数据(balanced panel data)
二、案例研究: 啤酒税与交通死亡率
观测的单位: a year in a U.S. state • 48 U.S. states, so n = of entities = 48 • 7 years (1982,…, 1988), so T = # of time periods = 7 • Balanced panel, so total # observations = 748 = 336
• 截距对 CA 是独特的, 但是斜率对所有州是相同的: 平行 线.
For TX:
YTX,t = 0 + 1XTX,t + 2ZTX + uTX,t = (0 + 2ZTX) + 1XTX,t + uTX,t
or
YTX,t = aTX + 1XTX,t + uTX,t, where aTX = 0 + 2ZTX
数学: consider fatality rates in 1988 and 1982:
FatalityRatei1988 = 0 + 1BeerTax i1988 + 2Zi + ui1988 FatalityRatei1982 = 0 + 1BeerTax i1982 + 2Zi + ui1982
heteroskedasticity-robust standard errors) • 当 n 非常大时不适用 (for example if n = 1000 workers)
2. “Entity-demeaned” OLS regression
The fixed effects regression model:
Y
Y = aCA + 1X
CA aCA
TX aTX
MA aMA
Y = aTX + 1X Y = aMA+ 1X
X
回忆截距的移动可以用二元自变量表示…
Y
Y = aCA + 1X
CA aCA
TX aTX
MA aMA
Y = aTX + 1X Y = aMA+ 1X
X
用二元自变量的形式:
Yit = 0 + CADCAi + TXDTXi + 1Xit + uit
Suppose E(uit|BeerTax it, Zi) = 0.
把两个时期的回归方程相减
FatalityRatei1988 = 0 + 1BeerTaxi1988 + 2Zi + ui1988
FatalityRatei1982 = 0 + 1BeerTaxi1982 + 2Zi + ui1982
California (that is, i = CA)的总体回归:
YCA,t = 0 + 1XCA,t + 2ZCA + uCA,t = (0 + 2ZCA) + 1XCA,t + uCA,t
or
YCA,t = aCA + 1XCA,t + uCA,t
• aCA = 0 + 2ZCA 不随时间改变 • aCA 是 CA 的截距, 1 是斜率
(n = 48) (n = 48)
Difference regression (n = 48) FR1988-FR1982 = –.072 – 1.04(BeerTax1988–BeerTax1982)
(.065) (.36)
FatalityRate v. BeerTax:
固定效应的回归 Fixed Effects Regression
收集所有三个州的直线:
YCA,t = aCA + 1XCA,t + uCA,t YTX,t = aTX + 1XTX,t + uTX,t YMA,t = aMA + 1XMA,t + uMA,t
or
Yit = ai + 1Xit + uit, i = CA, TX, MA, T = 1,…,T
The regression lines for each state in a picture
INC
17000 16000 15000 14000 13000 12000 11000 10000
9000 8000
10000
15000
20000
CONS
25000
引言
• 利用北京市2000—2008年的“家庭可支配 收入”与“家庭消费”的数据:
CONS = -4732.85 + 1.72*INCOME
so FatalityRatei1988 – FatalityRatei1982 =
1(BeerTaxi1988 – BeerTaxi1982) + (ui1988 – ui1982)
• 新的误差项, (ui1988 – ui1982), 与 BeerTaxi1988 或 BeerTaxi1982. 都不相关。
Yit –
1 T
T
其中
D2i
=
1 0
for i=2 (state otherwise
#2) ,
etc.
“Fixed effects” form:
Yit = 1Xit + ai + uit
• ai 称为“州固定效应”或者“州效应”– 它是在州 i 的不
变(固定)影响
固定效应回归的参数估计
三种估计方法: 1. “n-1 二元自变量” OLS 回归 2. “Entity-demeaned(个体中心化)” OLS 回归 3. “改变”设定, 无截距(仅仅适用于 T = 2)
Zi 是不随着时间改变的因素 (density), 至少在我们所有的数据 的年份中。
• 假设 Zi 无法观测,所以它的遗漏会带来遗漏变量的偏 误。
• Zi 的影响可以通过使用 T = 2 年消除。
主要的想法:
从 1982 到 1988 年死亡率的任何改变,不可能由 Zi 引
起,因为(by assumption)在 1982 到 1988 年期间 Zi 没有改 变
• 三种方法可以找出相同的回归系数的估计和相同的标准 误差。
• 我们已经进行了“改变”的设定(1988 minus 1982)– 但是 仅仅适用于 T = 2 年
• 方法#1 和#2 适用于一般的 T • 方法#1 仅仅适用于当 n 不是太大的实践。
1. “n-1 binary regressors” OLS regression
面板数据的处理
引言
• 如果想估计我国的“消费函数”
– 如果我有2005年31个省市自治区的“家庭可支 配收入”与“家庭消费”的数据
– 则画散点图; – 做回归;
INC
14000
13000
12000
11000
10000
9000
8000
7000
6000
5000 6000 800010000
14000
变量: • Traffic fatality rate (# traffic deaths in that state in that year, per 10,000 state residents) • Tax on a case of beer • Other (legal driving age, drunk driving laws, etc.)
Yit = 0 + 1Xit + 2D2i + … + nDni + uit (1)
其中
1 for i=2 (state #2)
D2i = 0 otherwise
etc.
• 首先建立二元变量 D2i,…,Dni • 然后用 OLS 估计(1) • 推断(hypothesis tests, confidence intervals)如常(using
引言
• 如果想估计我国的“消费函数”
– 如果我有31个省市自治区,从2000—2008年 的“家庭可支配收入”与“家庭消费”的数据
– 应该如何做回归?
引言
• 可能的处理方法:
– 谨慎型 – 无知者无谓型
引言
• 谨慎型
– 估计31个不同地区的消费方程;
– 本质假设:消费行为在不同地区之间有差异, 但同一地区在不同时间内没有差异;
• DCAi = 1 if state is CA, = 0 otherwise • DTXt = 1 if state is TX, = 0 otherwise • 留下 DMAi (why?)
总结: 两种方法写出固定效应模型 “n-1 二元自变量”的形式
Yit = 0 + 1Xit + 2D2i + … + nDni + uit
引言
• 谨慎型
– 估计9个不同时期的全国消费方程;
– 本质假设:消费行为在不同地区之间没有差异, 但同一地区在不同时间内有差异;
引言
• 无知者无谓型
– 把所有数据混在一起做回归;
– 本质假设:消费行为在不同地区之间没有差异, 同一地区在不同时间内也没有差异;
引言
• 上述处理方法的缺陷
– 没有充分利用数据;
alcohol taxes • 特别地,“高税收”可能反映“高的交通密度”
( 所以OLS系数可能是正偏误 – 高税收,更多的死亡)
• 当遗漏变量在给定的州内并不随着时间变化而改变时, 面 板数据可以让我们消除遗漏变量偏误。
两时期面板数据
考虑面板数据模型,
FatalityRateit = 0 + 1BeerTaxit + 2Zi + uit