计量经济学 詹姆斯斯托克 第9章 面板数据的处理
第九章--面板数据(-Panel-Data)-模型课件
• 常用Panel Data 模型
– 变截矩模型(Variable-Intercept Models)
固定影响(Fixed-Effects) 随机影响(Random-Effects)
– 变系数模型(Variable-Coefficient Models)
固定影响 随机影响
– 动态变截矩模型(Dynamic Models with Variable Intercepts)
型?
二、H检验(Hausman) 判断应建立变截距固定效应模型还是变
截距随机效应模型?
第九章--面板数据(-Panel-Data)-模 型
面板数据模型的EViews操作
注意事项: 1、EViews5.1以上版本新增了H检验 2、EViews对混合数据模型采用OLS法 3、EViews对固定效应模型采用离差变换LS
固定影响 随机影响
第九章--面板数据(-Panel-Data)-模 型
• 其它Panel Data 模型
– 联立方程Panel Data模型 – 离散数据Panel Data模型 – 选择性样本Panel Data模型 – Panel Data单位根检验和协整检验
第九章--面板数据(-Panel-Data)-模 型
列数据更有效。
第九章--面板数据(-Panel-Data)-模 型
二、两时期面板数据分析
1、为什么要关 系研究
2、一阶差分方法
第九章--面板数据(-Panel-Data)-模 型
三、固定效应模型及其估计
1、个体固定效应模型 2、离差变换LS法 3、虚拟变量LS法 4、时间固定效应模型 5、个体时间固定效应模型 6、非均衡面板数据的固定效应模型
法 4、EViews对随机效应模型采用FGLS法
计量经济学 詹姆斯斯托克 第九章:工具变量回归与联立方程
由于“简化式模型”中,所有方程中的解释变量都是 外生变量,因此这些解释变量与随机项之间就不再相 关了, 因此我们可以用OLS得到对全部“简化式参数”的最 佳线性无偏估计量。
25
1、间接最小二乘法 (ILS: Indirect Least Square)
如何将“结构式模型”转变为“简化式模型”?
最初的工具变量回归
谁开创了工具变量回归? 1928年的著作的“The Tariff on Animal and Vegetable Oils”的附录B。 作者是谁? Philip Wright 或者是他的儿子Sewall Wright 文体计量学的分析
最初的工具变量回归
Philip Wright的问题 Philip Wright关心的是那个时期的一个重 要经济问题:即如何对诸如黄油,大豆油这样的 动植物油和食用动物设臵进口关税。 而理解关税的经济效应的关键在于要有商品 需求和供给曲线的定量估计。
如何应对?
工具变量回归的实质: 用工具变量(Z) 与原有变量共同构造 一个估计量。
工具变量回归
例如,过原点的回归方程:
Yi X i ui
利用“矩条件”有: E ( XY ) E ( XX ) E( Xu) 按照经典假设:E(XU)=0 有: X Y E ( XY ) i i ˆ
E ( XX )
X X
i
矩估计
i
工具变量回归
类似得,我们可以得到如下等式: E (ZY ) E (ZX ) E (Zu) 利用工具变量的性质E(Zu)=0 可得
E ( ZY ) E ( ZX )
计量经济学:面板数据
Panel Data 分析的基本框架
线性模型 非线性模型
Panel Data 分析的基本框架:线性模 型
线性模型: (1)单变量模型 (2)联立方程模型 (3)带测量误差模型 (4)伪Panel Data
Panel Data 分析的基本框架:线性
模型之单变量模型
(1) 固定效应和固定系数模型(Fixed Effect Models and Fixed Coefficient Models):通常采用OLS估计。固 定效应包括时间效应以及时间和个体效应,并可以进一 步放宽条件,允许在有异方差、自相关性和等相关矩阵 块情况下,用GLS估计。 (2)误差成分模型(Error Components Models):最 常用的Panel Data模型。针对不同情况,通常可以用OLS 估计、GLS估计、内部估计(Within Estimator)和FGLS 估计,并检验误差成分中的个体效应以及个体和时间效 应,同时将自相关和异方差情况也纳入该模型框架中。
平行数据的含义
所谓平行数据,是指在时间序列上取多个 截面,在这些截面上同时选取样本观测值 所构成的样本数据。 面板数据是同时在时间和截面空间上取得 的二维数据。从横截面上看,是由若干个 体在某一时刻构成的截面观测值,从纵剖 面上看是一个时间序列。
平行数据研究的应用和发展
最早是Mundlak(1961)、Balestra和 Nerlove (1966)把Panel Data引入到经济计量中。从此 以后,大量关于Panel Data的分析方法、研究文 章如雨后春笋般出现在经济学、管理学、社会 学、心理学等领域。从1990年到目前为止,已 有近1000篇有关 Panel Data理论性和应用性的文 章发表,Panel Data 研究成为近十年来经济计量 学的一个热点。
面板数据处理方法总结(经典)
单位根检验、协整检验与格兰杰检验的关系单位根检验、协整检验和格兰杰因果关系检验三者之间的关系实证检验步骤:先做单位根检验,看变量序列是否平稳序列,若平稳,可构造回归模型等经典计量经济学模型;若非平稳,进行差分,当进行到第i次差分时序列平稳,则服从i阶单整(注意趋势、截距不同情况选择,根据P值和原假设判定)。
若所有检验序列均服从同阶单整,可构造VAR模型,做协整检验(注意滞后期的选择),判断模型内部变量间是否存在协整关系,即是否存在长期均衡关系。
协整检验的原假设就是,变量回归后的残差是平稳序列。
如若残差是平稳序列,说明存在协整关系,如果残差序列有单位根,则协整关系不存在。
如果有协整关系,则可以构造VEC模型或者进行Granger因果检验,检验变量之间“谁引起谁变化”,即因果关系。
一、讨论一1、单位根检验是序列的平稳性检验,如果不检验序列的平稳性直接OLS容易导致伪回归。
2、当检验的数据是平稳的(即不存在单位根),要想进一步考察变量的因果联系,可以采用格兰杰因果检验,但要做格兰杰检验的前提是数据必须是平稳的,否则不能做。
3、当检验的数据是非平稳(即存在单位根),并且各个序列是同阶单整(协整检验的前提),想进一步确定变量之间是否存在协整关系,可以进行协整检验,协整检验主要有EG 两步法和JJ检验A、EG两步法是基于回归残差的检验,可以通过建立OLS模型检验其残差平稳性B、JJ检验是基于回归系数的检验,前提是建立VAR模型(即模型符合ADL模式)4、当变量之间存在协整关系时,可以建立ECM进一步考察短期关系,Eviews这里还提供了一个Wald-Granger检验,但此时的格兰杰已经不是因果关系检验,而是变量外生性检验,请注意识别二、讨论二1、格兰杰检验只能用于平稳序列!这是格兰杰检验的前提,而其因果关系并非我们通常理解的因与果的关系,而是说x的前期变化能有效地解释y的变化,所以称其为“格兰杰原因”。
2、非平稳序列很可能出现伪回归,协整的意义就是检验它们的回归方程所描述的因果关系是否是伪回归,即检验变量之间是否存在稳定的关系。
计量经济学-詹姆斯斯托克-第9章-面板数据的处理ppt课件
35
.
FatalityRate v. BeerTax:
36
.
问题
在上述模型中,如果超过两期,即T>2, 怎么处理呢?
37
.
面板数据模型的一般理论
在模型的设定上,分为两大类: (一)“固定效应”模型; (二)“随机效应”模型;
38
.
(一) 固定效应的回归 Fixed Effects Regression
2
.
面板数据,简而言之是时间序列和截面数据的混合。 严格地讲是对一组个体(如居民、国家、公司等)连 续观察多期得到的资料。所以很多时候我们也称其为 “追踪资料”。近年来,由于面板数据资料的获得变 得相对容易,使其应用范围也不断扩大。
3
.
当描述截面数据时,我们用下标表示个体,如Yi表示 变量Y的第i个个体。当描述面板数据时,我们需要其 他符号同时表示个体和时期。为此我们采用双下标而 不是单下标,其中第一个下标i表示个体,第二个下 标t表示观测时间。
23
.
案例二:
啤酒税与交通死亡率
啤酒税与交通死亡率会是什么关系?
24
.
U.S. traffic death data for 1982:
$1982
较高的啤酒税,会导致更多的交通死亡吗?
25
.
U.S. traffic death data for 1988
较高的啤酒税,会导致更多的交通死亡吗?
16000
15000
14000
13000
INC
12000
11000
10000
9000
8000 10000
15000
20000
25000
面板数据的常见处理
面板数据的常见处理引言概述:面板数据是指在一定时间跨度内,对多个个体单位进行观察和测量得到的数据集合。
面板数据具有时间序列和横截面数据的特点,因此在处理面板数据时需要采取一些特定的方法和技巧。
本文将介绍面板数据的常见处理方法,包括数据清洗、平衡面板处理、面板数据变换、面板数据建模以及固定效应和随机效应模型。
一、数据清洗:1.1 缺失值处理:面板数据中常常存在缺失值,需要进行处理。
可以采用删除法、替代法和插补法等方法。
删除法是直接删除含有缺失值的观测值,但会导致样本减少;替代法是用平均值、中位数等代替缺失值,但可能引入估计偏误;插补法是利用其他变量的信息进行插补,如回归插补、多重插补等。
1.2 异常值处理:面板数据中可能存在异常值,需要进行识别和处理。
可以通过箱线图、散点图等方法进行异常值检测,然后采取删除、替代或修正等方式进行处理。
1.3 数据转换:面板数据中的变量可能需要进行转换,以满足建模的要求。
常见的数据转换包括对数变换、差分变换、标准化等。
对数变换可以使数据更加符合正态分布,差分变换可以消除时间序列相关性,标准化可以消除不同变量单位的影响。
二、平衡面板处理:2.1 平衡面板的定义:平衡面板是指在面板数据中,每个个体单位在每个时间点都有观测值的情况。
然而,实际面板数据中往往存在非平衡面板的情况,即某些个体单位在某些时间点没有观测值。
2.2 面板数据的平衡化方法:对于非平衡面板数据,可以采用删除法、插补法或加权法等方法进行平衡化处理。
删除法是直接删除非平衡的观测值,但会导致样本减少;插补法是利用已有观测值进行插补,如线性插值、多重插补等;加权法是给予有观测值的个体单位更大的权重,以弥补非平衡带来的偏误。
2.3 面板数据平衡性的检验:平衡面板处理后,需要对平衡性进行检验。
可以通过计算面板数据的平衡率、面板数据的观测数等指标进行检验,以确保平衡面板的有效性。
三、面板数据变换:3.1 横向平均化:对于面板数据中的个体单位,可以计算它们在不同时间点上的平均值,以得到横向平均化的结果。
本科经济计量学第9章第4版
第9章
9.1 异方差的性质 9.2 异方差的后果 9.3 异方差的诊断 9.4 异方差的补救措施 9.5 White异方差校正后的标准误和t统计量 9.6 若干异方差实例 9.7 小结
3
第9章
9.1 异方差的性质
异方差:E( ui2 )=i2
Y
Y
储
储
蓄
蓄
返回首页
0
个人可支配收入
0X
个人可支配收入 X
Coefficient
C
-3.350978
LOG(WAGEF)
2.231966
R-squared
0.211964
Adjusted R-squared 0.162712
S.E. of regression 2.024705
Sum squared resid 65.59091
Log likelihood
但接受零假设并不意味着一定不存在异方差。
23
第9章
例9.3 工资回归与帕克检验
我们来解释工资回归方程(9-3)。把从这个回归方
程中得到的残差提取出来,估计得到如下结果(ls ss1^2 c
wagef) :
eˆ2 i
=-10.35965+3.467
yˆ i
se=(11.795) (1.255)
(9-6)
对具体问题异方差的检验并非易事,因为我们仅 仅知道一个样本,很难知道总体的情况,是否是异方 差便不易确定。直接计算得到方差不太可能,但我们 可以借助于一些检测工具来检验异方差是否存在。
检验方法有(1)根据问题的性质 (2)残差的图形检验 (3)帕克检验 (Park test) (4)Glejser 检验 (Glejser (5)White 检验 (6)异方差的其它检验方法
第九章_面板数据模型
yit x it β uit
(9.2)
这类模型假设所有的横截面个体在各个不同时 期的斜率和截距都是相同的,这样就可以直接把 面板数据混合在一起,用OLS估计参数,得到一 致和有效估计量。 由于混合回归模型假设解释变量对被解释变量 的影响与横截面个体无关,这在现实中是很难成 立的,所以应用不广。
yi i xit uit ,假定 u ~ IN (0, 2 ) 。 it
定义
1 yi T
y
t 1
T
it
,
2
1 xi T
x ,
yit x it β i uit
(9.7)
这就是固定影响模型。从模型的设定可知,固 定影响模型假设横截面个体之间的差异为截距不同, 而斜率系数相同,即允许不同的横截面个体的截距 是不同的,但每一个体的截距在各个不同时期则保 持不变。换句话说,固定影响模型假定不同横截面 i 个体的差异可用不同的常数项 来描述,在此模型 i 中, 被作为要估计的未知参数。 如果进一步假设Var (ci Xi )为常数,则在此假设 下,(9.7)变成经典线性回归模型。
这样在模型(9.12)中,常数项就被去掉了。令
y yit yi , X X it X i , u uit ui
* it * it * it
则模型转换为
y X u
* it * it
* it
(9.13)
对模型(9.13)运用OLS进行回归,就得到 的OLS估计值。 2. 组内估计法 为表达方便起见,先考虑双变量模型
yit x it β E[ z i α ] {z i α E[ z i α ]} uit x it β i uit
财经-财务会计专业计量经济学-第9章面板数据分析课件
面板数据特征
一般 认为同时具有横截面和时间序列两方面特征就是面板数据 但这并不确切,因为有该特征的有几类不同情况: (1)同一个总体的多次随机抽样。——有许多横截面,但不包含个体时
间序列 (2)同一个截面个体不同时间数据的合并——有多个时间序列,但没有
横截面 (3)同一个横截面个体多次同时观测——同一个时间的一次性观测就构
结果表明,忽略管理因素影响时,产出对所有投入弹性的估计值是 0.97,排除了管理因素影响后,弹性估计值降到0.80,存在显著差别。
由于无法把其他无法观测因素仔细分析区分,因此蒙德拉克的管理因 素不完全是严格意义上的管理因素,包括其他某些无法观测的异质性。
蒙德拉克的论文是固定效应面板数据分析的第一篇论文。
第9章 面板数据分析
本专题介绍面板数据分析的基本原理、主要模型。
现代计量经济学三大数据类型: 横截面数据 时间序列数据 面板数据(Panel data)
面板数据——同时包含横截面和时间序列
一、为什么发展面板数据分析方法
截面数据和时序数据局限性和问题 一维数据,比较简单 信息含量比较低, 无法发现规律和误读的问题。 “无法观测的异质性”,简称“异质性”,也可认为“遗落变
分类: 个体固定效应、时间固定效应、两种固定效应同时存在 个体随机效应、时间随机效应、两种随机效应同时存在
我们主要介绍个体固定效应和随机效应,时间效应模型原理同。
固定效应面板数据模型(也称“不同截距模型”)
对应不同截距的面板数据生成过程(distinct intercepts GDPs) 个人、家庭、企业等不随样本变化而变化的未观测异质性(性格、教育、土
与现在的随机效应模型有所不同,同时处理动态效应
面板数据来源: (1)对个人和企业这类微观个体的多次重复观测。
计量经济学:面板数据模型
图14-1
面板数据用双下标变量表示。例如 yit , i = 1, 2, …, N; t = 1, 2, …, T 其中 i 对应面板数据中不同个体。 N 表示面板数据中的个体数。 t 对应面板数据中不 同时点,T 表示时间序列的最大长度。若固定 t 不变,yi ., ( i = 1, 2, …, N)是横截面 上的 N 个随机变量;若固定 i 不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序 列(个体) 。 面板数据分为两种特征。一种是截面上个体数少,而个体的时间跨度长。另一 种是截面上个体数多,而个体时间跨度短。常使用的面板数据主要指后一种情形。 利用面板数据建立模型的好处是: (1)由于观测值的增多,可以增加估计量的抽样精度。仍以图 14-1 为例。 19782005 年 29 个省份的面板数据。若固定在某一年份上,它是由 29 个比率值组 成的截面数据;若固定在某一省份上,它是由 28 个比率值组成的一个时间序列。 面板数据共有 812 个观测值。 (2)对于面板数据模型,如果估计方法恰当,能得到参数的一致估计量,甚 至是有效估计量。 (3)面板数据可以建立动态模型,比单纯截面数据建模可以获得动态信息。 对于面板数据 yit, i = 1, 2, …, N; t = 1, 2, …, T, 如果每个个体在相同的时点都有 观测值,则称此面板数据为平衡面板数据(balanced panel data) 。若面板数据中的 个体存在观测值缺失, 则称此面板数据为非平衡面板数据 (unbalanced panel data) 。
第 14 章
14.1 14.2 14.3 14.4 14.5 14.6
面板数据模型
面板数据定义 面板数据模型分类 面板数据模型估计方法 面板数据模型的设定与检验 面板数据建模案例分析 面板数据模型的 EViwes 9 操作
计量经济学:面板数据
Panel Data 分析的基本框架:非线性模型
生存模型:主要包括对Cox模型、加速生存 模型、竞争风险模型研究。 点过程:主要包括对马氏过程、半马氏过程, 以及用广义半参方法处理的点过程。
Panel Data 分析的基本框架:非线性模型
处理Panel Data数据不完整而带来的选择偏 差问题:通常不完整的Panel Data按照对研 究结果的影响分为可忽略选择规则(机制) 和不可忽略选择规则(机制)。可忽略选择 规则(机制)模型参数通常用ML估计和EM 算法,而不可忽略选择机制模型参数通常用 二步估计,?是否是?(含义不清)不可忽 略选择规则(机制)通常采用LM检验、 Hausman检验、变量可加性检验。
计量经济学:平行数据分析
平行数据分析
平行数据分析的一般问题 平行数据分析的基本框架 平行数据分析模型
平行数据分析的一般问题
为什么引入平行数据分析 平行数据的含义 平行数据研究的应用和发展 平行数据分析的优点和限制因素
为什么引入平行数据分析
经典线性计量经济学模型中利用的数据有两个特征: 1.或只用截面数据,或只用时间序列数据;2.作为 被解释变量的样本观测值必须是连续的,且与随机 误差项同分布。而实际上,只用截面或时间序列数 据常常不能满足分析需要,并且数据常常是不连续 的。正是由于经典线性计量经济学模型的这些不足, 计量经济学家们才研究了运用平行数据进行分析的 方法。
Panel Data 分析的基本框架:非线性模型
非线性模型 (1)logit和probit模型 (2)非线性潜在变量模型 (3)生存模型 (4)点过程 (5)处理Panel Data数据不完整而带来的选择偏 差问题 (6)GMM估计方法的使用和对非线性模型进行特 殊检验 (7)借助Gibbs抽样
面板数据的常见处理
面板数据的常见处理引言概述:面板数据是经济学和社会科学研究中常用的一种数据类型,它包含了多个单位(如个人、家庭、企业等)在多个时间点上的观测值。
面板数据的处理对于研究者来说非常重要,因为它可以提供更准确的分析结果和更丰富的信息。
本文将介绍面板数据的常见处理方法,包括数据清洗、平衡性检验、面板单位的固定效应、时间效应和面板单位的随机效应。
一、数据清洗1.1 缺失值处理面板数据中常常存在缺失值,研究者需要采取适当的方法处理这些缺失值。
一种常见的方法是使用插补技术,如线性插值或多重插补来填补缺失值。
另一种方法是通过删除存在缺失值的观测值来处理缺失值。
1.2 异常值处理在面板数据中,有时会存在一些异常值,这些异常值可能会对分析结果造成影响。
研究者可以通过观察数据的分布情况,使用统计方法或专业知识来识别和处理异常值。
一种常见的方法是使用箱线图来检测异常值,并将其替换为合理的值。
1.3 数据平滑面板数据中的观测值通常包含噪声,为了提高数据的质量,研究者可以使用平滑技术来减少噪声的影响。
常见的平滑方法包括移动平均法和指数平滑法,这些方法可以帮助研究者更好地理解数据的趋势和变化。
二、平衡性检验2.1 时间平衡性检验在面板数据中,观测时间点可能不同,因此需要进行时间平衡性检验。
研究者可以通过计算每个面板单位的观测时间点数目来检验时间平衡性。
如果观测时间点数目不同,则需要采取相应的方法进行处理,如删除时间点较少的面板单位或使用面板单位的固定效应模型。
2.2 个体平衡性检验除了时间平衡性,面板数据还需要满足个体平衡性。
个体平衡性是指每个面板单位都需要有相同的观测时间点。
研究者可以通过计算每个面板单位的观测时间点数目来检验个体平衡性。
如果观测时间点数目不同,则需要采取相应的方法进行处理,如删除观测时间点较少的面板单位或使用面板单位的固定效应模型。
2.3 面板平衡性检验在面板数据中,观测时间点和面板单位都需要满足平衡性。
计量经济学导论第四版第九章
两时期面板数据分析
spring 2012
邢恩泉
20
两时期面板数据分析
所以我们可以取两个年份的数据之差。 我们可以把两年的方程分别写成:
yi 2 ( 0 0 ) 1 xi 2 ai ui 2 (t 2) yi1 0 1 xi1 ai ui1 (t 1)
spring 2012 邢恩泉 26
两时期面板数据分析
spring 2012
邢恩泉
27
两时期面板数据分析
log(wageit ) 0 0 d 2t 1educit ai uit
educit
log(wagei ) 0 1educi ui
(9.19)
spring 2012
邢恩泉
30
面板数据的编排
在计量经济研究中使用面板数据时,需 要知道这些数据是怎样贮存的。我们必 须数以数据的编排,以使相同的横截面 单位在不同时期能很容易的联系起来。 具体的说,假设我们有关城市的两个记 录,每年一个,每个城市的第一个记录 对应于较早的一年,第二个记录对应于 较晚的一年。这两个记录应该放在相邻 的位子。这样,100个城市各两年,就 包含200个记录。前两个记录用于样本 中的第一个城市,接下来两个记录用于 spring 第二个城市,以此类推。 2012 31 邢恩泉
spring 2012
邢恩泉
38
用两期面板数据作政策分析
ˆ y y 1 treat control (9.26)
spring 2012
邢恩泉
39
用两期面板数据作政策分析
spring 2012
邢恩泉
40
多于两期的差分法
yit 1 2 d 2t 3d 3t +1 xit1 ... k xitk ai uit (9.28)
第九章面板数据模型
(1)个体固定效应变截距模型一般形式:
y x u ,u it 0 k kit it it i it
k 1
K
(2)时点固定效应变截距模型一般形式:
y x u ,u it 0 k kit it it t it
k 1
K
y x u ,u it 0 k it k it it it i t it
k 1
K
2 1.含有 .含有T N 个时间截面方程的 个个体成员方程的 Panel PanelData Data 模型 模型 Panel Panel Data Data模型简化为如下形式: 模型简化为如下形式:
第四节
变截距回归模型
K
变截距模型
y x u ,u it 0 k kit it it i t it
k 1
一、变截距模型的分类 (一)固定效应变截距模型
讨论三种类型,即个体固定效应变截距模型、时点
固定效应变截距模型、时点个体固定效应变截距模
型。
y x u ,u it 0 ki kit it it i t it
当残差具有个体截面异方差时最好进行截面加权回 归:
(2) 同期相关协方差情形的SUR估计 同期相关协方差是指不同的个体成员同一时期的随 机干扰项是相关的,但其在不同时期之间是不相关 的。 当残差具有同期相关协方差情形时,SUR加权最 小二乘是可行的GLS估计量:
此时 的SUR估计为:
(二)随机效应变截距模型的估计 EViews按下列步骤估计随机影响模型:
k 1
K
y x u ,u it 0 ki kit it it i t it
面板数据处理
时间序列(个体)。 对于面板数据 yi t, i = 1, 2, …, N; t = 1, 2, …, T,如果每个个体在相同的时期
内都有观测值记录,则称此面板数据为平衡面板数据(balanced panel data)。 若面板数据中的个体在相同时期内缺失若干个观测值,则称此面板数据为非平 衡面板数据(unbalanced panel data)。
9.0
8.8
6000
8.6
5000
8.4
4000
8.2
3000 2000
IP
8.0
2000 4000 6000 8000 10000 12000 14000 7.8
IPCROSS
8.0 8.2 8.4 8.6 8.8 9.0 9.2 9.4 9.6
LOG(IPCROSS)
File:panel02c
图 7 对数的人均消费对收入的面板数据散点图
注意: (1)在 EViews 输出结果中i 是以一个不变的常数部分和随个体变化的部分相加而成。 (2)在 EViews 5.0 以上版本个体固定效应对话框中的回归因子选项中填不填 c 输出结 果都会有固定常数项。
2.面板数据模型分类
对于个体固定效应模型,个体效应i 未知,E(i Xit)随 Xit 而变化,但不知
12000 10000 8000 6000 4000 2000 0
安徽 北京 福建 河北 黑龙江 吉林 江苏 江西 辽宁 内蒙古 山东 上海 山西 天津 浙江
安徽 河北 江苏 内蒙古 山西 1996 1999 2002 浙江 山西 山东 辽宁 江苏 黑龙江 福建 安徽 1996 1998 2000 2002
面板数据分析 计量经济学
面板数据分析方法步骤全解步骤一:分析数据的平稳性(单位根检验)按照正规程序,面板数据模型在回归前需检验数据的平稳性。
李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。
这种情况称为称为虚假回归或伪回归(spurious regression)。
他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。
因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。
因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。
而检验数据平稳性最常用的办法就是单位根检验。
首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。
单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。
后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。
Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250 之间,截面数介于10~250 之间) 的面板单位根检验。
Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。
Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。
面板数据的处理
数学: consider fatality rates in 1988 and 1982:
FatalityRatei1988 = 0 + 1BeerTax i1988 + 2Zi + ui1988 FatalityRatei1982 = 0 + 1BeerTax i1982 + 2Zi + ui1982
• 截距对 CA 是独特的, 但是斜率对所有州是相同的: 平行
线.
D
28
For TX:
YTX,t = 0 + 1XTX,t + 2ZTX + uTX,t = (0 + 2ZTX) + 1XTX,t + uTX,t
or
YTX,t = aTX + 1XTX,t + uTX,t, where aTX = 0 + 2ZTX
California (that is, i = CA)的总体回归:
YCA,t = 0 + 1XCA,t + 2ZCA + uCA,t = (0 + 2ZCA) + 1XCA,t + uCA,t
or
YCA,t = aCA + 1XCA,t + uCA,t
• aCA = 0 + 2ZCA 不随时间改变 • aCA 是 CA 的截距, 1 是斜率
二、案例研究: 啤酒税与交通死亡率
观测的单位: a year in a U.S. state
• 48 U.S. states, so n = of entities = 48 • 7 years (1982,…, 1988), so T = # of time periods = 7 • Balanced panel, so total # observations = 748 = 336 变量:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
YTX,t = TX + 1XTX,t + uTX,t or YMA,t = MA + 1XMA,t + uMA,t
Yit = i + 1Xit + uit, i = CA, TX, MA, T = 1,…,T
The regression lines for each state
Y CA Y = CA + 1X
处理方法:把两个时期的回归方程相减!
相减后得到:
FatalityRatei1988 – FatalityRatei1982 = 1(BeerTax i1988 – BeerTax i1982) + (ui1988 – ui1982)
啤酒税与交通死亡率
1982 data: FatalityRate = 2.01 + 0.15BeerTax (.15) (.13) 1988 data: FatalityRate = 1.86 + 0.44BeerTax (.11) (.13) (n = 48)
(2)去中心化的回归; (“Entity-demeaned” OLS)
(1)引入(N-1)个哑变量的回归
Suppose we have n=3 states, California, Texas, Massachusetts
所有三个州的回归线 :
YCA,t = CA + 1XCA,t + uCA,t
案例一
可能的处理方法:
谨慎型 无知者无畏型
案例一
谨慎型
方法一:估计31个不同地区的消费方程;
本质假设:消费行为在不同地区之间有差异, 但同一地区在不同时间内没有差异;
案例一
谨慎型
方法二:估计9个不同时期的全国消费方程;
本质假设:消费行为在不同地区之间没有差异, 但同一地区在不同时间内有差异;
案例二:
(n = 48)
Difference regression (n = 48) FR1988-FR1982 = –.072 – 1.04(BeerTax1988–BeerTax1982) (.065) (.36)
FatalityRate v. BeerTax:
问题
在上述模型中,如果超过两期,即T>2, 怎么处理呢?
答案似乎是肯定的,但与我们的常识不相 符!为什么会这样? 原因:可能是因为遗漏了重要变量! 决定交通死亡率的其他因素: • Quality (age) of automobiles • Quality of roads • “Culture” around drinking and driving • Density of cars on the road
啤酒税与交通死亡率
案例二:
观测的数据: 48 U.S. states, so n = 48; 7 years (1982,…, 1988), so T = 7;
Balanced panel, so total observations = 7×48 = 336
啤酒税与交通死亡率
变量: • Traffic fatality rate (交通死亡率, 当年、 当地,每 10,000人中死于交通事故的人数) • Tax on a case of beer(啤酒税) • Other (其他因素,legal driving age, drunk driving laws, etc.)
面板数据模型的一般理论
在模型的设定上,分为两大类:
(一)“固定效应”模型;
(二)“随机效应”模型;
(一) 固定效应的回归 Fixed Effects Regression
1、“固定效应”的模型形式; 2、“固定效应”回归的参数估计; 3、一般化的“固定效应”模型;
4、面板数据模型的缺陷;
1、“固定效应”的模型形式
“固定效应”的模型一般形式
Yit 0 1X 1,it ... k X k ,it k 1Z i uit
其中,i 1,2,...,N ;
t 1,2,...,T
要求:
E(uit ) 0,Var(uit ) 2, E(uit ,uit ') 0,E(uit ,ujt ) 0; E(X j uit ) 0; j 1,2...p
遗漏相关变量——“过低拟合”模型
Yi 0 1 X1i 2 X 2i ui
Yi 0 1 X1i vi
如果X2=b21*X1+εi,则事实上有
Yi 0 1 X1i 2b21 X1i ui i
整理后:
Yi 0 (1 2b21 ) X1i ui i
如Yit表示n个个体中第i个个体在T个时期中的第t期 时观测到的变量Y的值。
面板数据用双下标变量表示,两个维度。例如: Yit, i=1, 2 ,…, N; t =1, 2, …, T
N 表示面板数据中含有 N 个个体。T 表示时间序列的 最大长度。
面板数据的优势
样本容量较大:可以解决样本容量不足的问题,改进 模型估计的有效性。 可以解决遗漏变量问题。遗漏变量偏差是一个普遍 存在的问题,虽然可以用工具变量法解决,但有效的 工具变量常常很难找到。遗漏变量常常是由于不可观 测的个体差异或“异质性”所造成,如果这种个体差 异“不随时间而变化”,则面板数据提供了解决遗漏 变量问题的又一利器。 提供更多个体动态行为的信息。由于面板数据同时 有截面与时间两个维度,有时它可以解决单独的截面 数据或时间序列数据所不能解决的问题。
(2) 去中心化的回归 “Entity-demeaned” OLS regression
The fixed effects regression model: Yit = 1Xit + i + uit
计算州内平均值:
T T 1 T 1 1 = + Y uit i 1 X it + it T t 1 T t 1 T t 1
遗漏变量可能引起估计的偏误
Example : traffic density(交通密度)
High traffic density means more traffic deaths 交通密度与啤酒税之间可能存在着较高的 正相关关系; 遗漏交通密度变量,会导致OLS估计产生高 估的可能!导致“啤酒税”与“交通死亡” 之间呈现出显著的正向关系。
如果我有31个省市自治区,从2000—2008年的 “家庭可支配收入”与“家庭消费”的数据 应该如何做回归?
案例一
基本概念 面板数据(panel data)
X it ,
i 1,2...; n
t 1,2,...; T
平衡面板数据(balanced panel data)、非平 衡面板数据(unbalanced panel data)
两时期面板数据
考虑面板数据模型, FatalityRateit = 0 + 1BeerTaxit + 2Zi + uit
Zi 是不随着时间改变,但会随着个体变化的因素。 假设Zi无法观测,所以它的遗漏会带来遗漏变量 的偏误。 Zi 的影响可以通过使用T = 2年的面板数据的处理 来消除。
主要的想法:
案例一
无知无畏型
把所有数据混在一起做回归;
本质假设:消费行为在不同地区之间没有差异, 同一地区在不同时间内也没有差异;
案例一
上述处理方法的缺陷
要么没有充分利用数据(谨慎型),要么 过于大胆使得估计结果犯错的可能性非常大;
本章的两大问题
对面板数据如何处理?
为什么要发明一个“面板数据”?
面板数据,简而言之是时间序列和截面数据的混合。 严格地讲是对一组个体(如居民、国家、公司等)连 续观察多期得到的资料。所以很多时候我们也称其为 “追踪资料”。近年来,由于面板数据资料的获得变 得相对容易,使其应用范围也不断扩大。
当描述截面数据时,我们用下标表示个体,如Yi表示 变量Y的第i个个体。当描述面板数据时,我们需要 其他符号同时表示个体和时期。为此我们采用双下 标而不是单下标,其中第一个下标i表示个体,第二 个下标t表示观测时间。
案例二:
啤酒税与交通死亡率
案例二:
啤酒税与交通死亡率会是什么关系?
U.S. traffic death data for 1982:
$1982
较高的啤酒税,会导致更多的交通死亡吗?
U.S. traffic death data for 1988
较高的啤酒税,会导致更多的交通死亡吗?
啤酒税越高,交通死亡率越高???
案例一
如果想估计我国的“消费函数”
如果我有2005年31个省市自治区的“家庭可 支配收入”与“家庭消费”的数据 则画散点图; 做回归;
14000 13000 12000 11000
INC
10000 9000 8000 7000 6000 5000 6000 800010000 14000 CONS 18000
第六章:面板数据的处理
时间序列数据和截面数据都是一维数据。
时间序列数据是变量按照时间得到的数据;截面数 据是变量在截面空间上的数据。面板数据是同时在 时间和截面上取得的二维数据。 所以,面板数据(panel data)也称时间序列截面 数据(time series and cross section data)或 混合数据(pool data)
从1982-1988年期间,任何一个地区i 的死亡 率的任何改变,都不可能是由Z i 引起的。