计量经济学-詹姆斯斯托克-第9章-面板数据的处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
案例一
谨慎型
方法一:估计31个不同地区的消费方程;
本质假设:消费行为在不同地区之间有差异, 但同一地区在不同时间内没有差异;
案例一
谨慎型
方法二:估计9个不同时期的全国消费方程;
本质假设:消费行为在不同地区之间没有差异, 但同一地区在不同时间内有差异;
案例一
无知无畏型
把所有数据混在一起做回归;
案例一
如果想估计我国的“消费函数”
如果我有2005年31个省市自治区的“家庭可支 配收入”与“家庭消费”的数据
则画散点图; 做回归;
INC
14000
13000
12000
11000
10000
9000
8000
7000
6000
5000 6000 800010000
14000
CONS
18000
案例一
利用2005年31个省市自治区的“家庭可支 配收入”与“家庭消费”的数据:
CONS = -10.51 + 1.31*INCOME
案例一
如果想估计我国的“消费函数”
如果我有北京市2000—2008年的“家庭可支配 收入”与“家庭消费”的数据
则画散点图; 做回归;
INC
17000 16000 15000 14000 13000 12000 11000 10000
啤酒税越高,交通死亡率越高???
答案似乎是肯定的,但与我们的常识不相 符!为什么会这样?
原因:可能是因为遗漏了重要变量! 决定交通死亡率的其他因素:
• Quality (age) of automobiles • Quality of roads • “Culture” around drinking and driving • Density of cars on the road
可以解决遗漏变量问题。遗漏变量偏差是一个普遍 存在的问题,虽然可以用工具变量法解决,但有效的 工具变量常常很难找到。遗漏变量常常是由于不可观 测的个体差异或“异质性”所造成,如果这种个体差 异“不随时间而变化”,则面板数据提供了解决遗漏 变量问题的又一利器。
提供更多个体动态行为的信息。由于面板数据同时 有截面与时间两个维度,有时它可以解决单独的截面 数据或时间序列数据所不能解决的问题。
Balanced paห้องสมุดไป่ตู้el, so total observations = 7×48 = 336
案例二:
啤酒税与交通死亡率
变量: • Traffic fatality rate (交通死亡率, 当年、
当地,每 10,000人中死于交通事故的人数) • Tax on a case of beer(啤酒税) • Other (其他因素,legal driving age, drunk
面板数据,简而言之是时间序列和截面数据的混合。 严格地讲是对一组个体(如居民、国家、公司等)连 续观察多期得到的资料。所以很多时候我们也称其为 “追踪资料”。近年来,由于面板数据资料的获得变 得相对容易,使其应用范围也不断扩大。
当描述截面数据时,我们用下标表示个体,如Yi表示 变量Y的第i个个体。当描述面板数据时,我们需要 其他符号同时表示个体和时期。为此我们采用双下 标而不是单下标,其中第一个下标i表示个体,第二 个下标t表示观测时间。
应该如何做回归?
案例一
基本概念 面板数据(panel data)
X it , i 1,2...n; t 1,2,...T;
平衡面板数据(balanced panel data)、非平 衡面板数据(unbalanced panel data)
案例一
可能的处理方法:
谨慎型 无知者无畏型
遗漏变量可能引起估计的偏误
Example : traffic density(交通密度)
High traffic density means more traffic deaths
交通密度与啤酒税之间可能存在着较高的 正相关关系;
遗漏交通密度变量,会导致OLS估计产生高 估的可能!导致“啤酒税”与“交通死亡” 之间呈现出显著的正向关系。
9000 8000
10000
15000
20000
CONS
25000
案例一
利用北京市2000—2008年的“家庭可支配 收入”与“家庭消费”的数据:
CONS = -4732.85 + 1.72*INCOME
案例一
如果想估计我国的“消费函数”
如果我有31个省市自治区,从2000—2008年的 “家庭可支配收入”与“家庭消费”的数据
第六章:面板数据的处理
时间序列数据和截面数据都是一维数据。
时间序列数据是变量按照时间得到的数据;截面数 据是变量在截面空间上的数据。面板数据是同时在 时间和截面上取得的二维数据。
所以,面板数据(panel data)也称时间序列截面 数据(time series and cross section data)或 混合数据(pool data)
如Yit表示n个个体中第i个个体在T个时期中的第t期时 观测到的变量Y的值。
面板数据用双下标变量表示,两个维度。例如:
Yit, i=1, 2 ,…, N; t =1, 2, …, T
• N 表示面板数据中含有 N 个个体。T 表示时间序列的 最大长度。
面板数据的优势
样本容量较大:可以解决样本容量不足的问题,改进 模型估计的有效性。
本质假设:消费行为在不同地区之间没有差异, 同一地区在不同时间内也没有差异;
案例一
上述处理方法的缺陷
要么没有充分利用数据(谨慎型),要么 过于大胆使得估计结果犯错的可能性非常大;
本章的两大问题
对面板数据如何处理? 为什么要发明一个“面板数据”?
案例二:
啤酒税与交通死亡率
观测的数据: 48 U.S. states, so n = 48; 7 years (1982,…, 1988), so T = 7;
driving laws, etc.)
案例二:
啤酒税与交通死亡率
啤酒税与交通死亡率会是什么关系?
U.S. traffic death data for 1982:
$1982
较高的啤酒税,会导致更多的交通死亡吗?
U.S. traffic death data for 1988
较高的啤酒税,会导致更多的交通死亡吗?