面板数据的处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
U.S. traffic death data for 1982:
$1982
较高的酒精税,更多的交通死亡吗?
U.S. traffic death data for 1988
较高的酒精税,更多的交通死亡吗?
啤酒税越高,交通死亡率越高???
决定交通死亡率的其他因素: Quality (age) of automobiles Quality of roads “Culture” around drinking and driving Density of cars on the road
so FatalityRatei1988 – FatalityRatei1982 =
1(BeerTaxi1988 – BeerTaxi1982) + (ui1988 – ui1982)
新的误差项, (ui1988 – ui1982), 与 BeerTaxi1988 或 BeerTaxi1982. 都不相关。
变量: Traffic fatality rate (# traffic deaths in that state in that year, per 10,000 state residents) Tax on a case of beer Other (legal driving age, drunk driving laws, etc.)
Zi 是不随着时间改变的因素 (density), 至少在我们所有的数据 的年份中。
假设 Zi 无法观测,所以它的遗漏会带来遗漏变量的偏 误。
Zi 的影响可以通过使用 T = 2 年消除。
主要的想法 :
从 1982 到 1988 年死亡率的任何改变,不可能由 Zi 引
起,因为(by assumption)在 1982 到 1988 年期间 Zi 没有改 变
面板数据的处理
引言
• 如果想估计我国的“消费函数”
– 如果我有2005年31个省市自治区的“家庭可支 配收入”与“家庭消费”的数据
– 则画散点图; – 做回归;
INC
14000
13000
12000
11000
10000
9000
8000
7000
6000
5000 6000 800010000
14000
CONS
18000
引言
• 利用2005年31个省市自治区的“家庭可支 配收入”与“家庭消费”的数据:
CONS = -10.51 + 1.31*INCOME
引言
• 如果想估计我国的“消费函数”
– 如果我有北京市2000—2008年的“家庭可支配 收入”与“家庭消费”的数据
– 则画散点图; – 做回归;
INC
17000 16000 15000 14000 13000 12000 11000 10000
9000 8000
10000
15000
20000
CONS
25000
引言
• 利用北京市2000—2008年的“家庭可支配 收入”与“家庭消费”的数据:
CONS = -4732.85 + 1.72*INCOME
引言
• 谨慎型
– 估计9个不同时期的全国消费方程;
– 本质假设:消费行为在不同地区之间没有差异, 但同一地区在不同时间内有差异;
引言
• 无知者无谓型
– 把所有数据混在一起做回归;
– 本质假设:消费行为在不同地区之间没有差异, 同一地区在不同时间内也没有差异;
引言
• 上述处理方法的缺陷
– 没有充分利用数据;
数学: consider fatality rates in 1988 and 1982:
FatalityRatei1988 = 0 + 1BeerTax i1988 + 2Zi + ui1988 FatalityRatei1982 = 0 + 1BeerTax i1982 + 2Zi + ui1982
遗漏因素可能引起遗漏变量偏误。
Example #1: traffic density. Suppose:
(i) High traffic density means more traffic deaths (ii) (Western) states with lower traffic density have lower
引言
• 如果想估计我国的“消费函数”
– 如果我有31个省市自治区,从2000—2008年 的“家庭可支配收入”与“家庭消费”的数据
– 应该如何做回归?
引言
• 可能的处理方法:
– 谨慎型 – 无知者无谓型
引言
• 谨慎型
– 估计wk.baidu.com1个不同地区的消费方程;
– 本质假设:消费行为在不同地区之间有差异, 但同一地区在不同时间内没有差异;
– 无法避免遗漏变量的影响;
– 有时候无法进行上述处理;
面板数据的处理
一、基本概念 二、案例:啤酒税与交通死亡率之间的回归
面板数据的处理
一、基本概念
• 面板数据(panel data)
• 平衡面板数据、非平衡面板数据(balanced panel data)
二、案例研究: 啤酒税与交通死亡率
观测的单位: a year in a U.S. state 48 U.S. states, so n = of entities = 48 7 years (1982,…, 1988), so T = # of time periods = 7 Balanced panel, so total # observations = 748 = 336
Suppose E(uit|BeerTax it, Zi) = 0.
把两个时期的回归方程相减
FatalityRatei1988 = 0 + 1BeerTaxi1988 + 2Zi + ui1988
FatalityRatei1982 = 0 + 1BeerTaxi1982 + 2Zi + ui1982
alcohol taxes 特别地,“高税收”可能反映“高的交通密度”
( 所以OLS系数可能是正偏误 – 高税收,更多的死亡)
当遗漏变量在给定的州内并不随着时间变化而改变时, 面 板数据可以让我们消除遗漏变量偏误。
两时期面板数据
考虑面板数据模型,
FatalityRateit = 0 + 1BeerTaxit + 2Zi + uit