01面板数据分析解析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
17
针对以上形式的数据,矩阵形式描述的面板数据 模型如下: 上述模型是一个最基本的面板数据模型。基于对 系数 和随机误差项 的不同假设,可以衍生出 不同类型的模型。
18
如何刻画不可观测的异质性
假定有如下形式的面板数据模型: 在该模型中,可以对误差项 进行分解:
在此基础上,上述模型可以写为
随机变量 为不可观测的异质性,反映个体之间 存在的差异, 称为
9
面板数据模型的主要优势在于,能够分析 其他模型所不能刻画的个体异质性偏差; 其他模型在处理这一问题时,将异质性偏 差作为误差项的一部分。然而,如果不可 观测的异质性与其他解释变量相关,将会 导致参数的估计量有偏。
10
不可观测的异质性 (unobserved heterogeneity)
不可观测的异质性:反映个体之间所存在的 差异,这种差异会导致对模型的估计产生偏 误,本质上是一个遗漏变量问题; 不可观测的异质性又被称为不可观测效应 (unobserved effect)、异质性偏差(heterogeneity error)和潜变量(latent variable)等。 从例1来看,面板数据模型如何刻画不可观测 的异质性?
来源:Hsiao(2003) 在一个截面数据样本中,已婚女性年度平均工作 率为50%。这个截面数据可以有两种极端解释:
总体同质:每个已婚女性在任何年度有50%的概率参 加工作,50%的概率不参加工作; 总体异质:50%的已婚女性一直工作,而50%的已婚 女性异质不工作;
如果只有截面数据,我们无法判断哪种情形是正 确的,但如果有面板数据,则很容易对动态变化 进行推断;
3
面板数据形式
4
1.2 面板数据方法的发展和演变
研究和分析面板数据的模型被称为面板数 据模型(panel data model)。 从面板数据的发展历程来看,主要经历了 3个不同的阶段:
第一阶段:20世纪70年代到80年代早期 第二阶段:20世纪80年代中期到90年代中期 第三阶段:20世纪90年代中期至今
11
遗漏变量问题
Suppose the true model is given as y 0 1x1 2 x2 but we estimate ~ ~ ~ y 0 1x1
12
Corr(x1, x2) > 0 2 > 0 Positive bias
Corr(x1, x2) < 0 Negative bias
5
第一阶段:主要研究的是静态误差成分模型(static error component models)和随机参数模型(random coefficient models); 第二阶段:动态同质面板数据模型; 第三阶段:动态异质面板数据模型、大维面板数据模型和 非平稳面板等; 我们关注:
传统的微观面板数据模型,主要是第一和第二阶段的研究成果; 微观面板数据:截面n非常大(通常是成百以至上千),而时间T 很小(一般为2-10,很少超过20);
6
大样本理论
微观面板数据:
时间T固定,而使n趋于无穷大;
使n先趋于无穷大,得到一个中间极限,再让T 趋于无 穷大得到连续极限; 使T先趋于无穷大,得到一个中间极限,再让n趋于无 穷大得到连续极限; 使n和T同时趋于无穷大得到共同极限;
大维面板数据(宏观和金融面板数据):
7
1.3 面板数据模型的优势和劣势
在经济学研究和实际应用中,经常需要同 时分析和比较横截面观察值和时间序列观 察值结合起来的数据,即数据集中同时包 含横截面和时间序列的信息,这种数据被 称为面板数据(panel data)或综列数据 (longitudinal data)。 面板数据既含有时间序列数据的性质,又 包含横截面特点,因此,以往采用的计量 分析方法就需要有所调整。
面板数据分析
面板数据模型简介 面板数据模型的设定检验 静态面板数据模型的估计 随机效应模型和固定效应模型的检验 双因子固定效应模型 非平衡面板数据模型
1
1. 面板数据模型简介
面板数据的基本结构 面板数据方法的发展和演变 面板数据模型的优势和劣势 面板数据模型的基本形式 不同类型的面板数据模型
2
1.1 面板数据的基本结构
2 < 0
Negative bias
Positive bias
13
面板数据模型的其它优势
由于观测值的增多,可以增加估计量的抽 样精度,提高分析过程中的自由度; 面板数据模型比横截面模型可以获得更多 的动态信息,能够刻画时间序列模型所不 能描述的个体差异性;
14
Ben-Porath(1973)的例子
19
假设条件
假定:
E( it ) E(i ) E(it ) 0
2 Var(i ) E(i2 )
2 2 Var(it ) E(it )
15
1.4 面板数据模型的基本形式
假设:有K个解释变量,即 ; 有N个横截面,即 ; 时间指标 。 变量: ——因变量在横截面i和时间t上的观测值; ——第k个解释变量在横截面i和时间t上的观测值; 第i个横截面的数据为
其中 是在横截面i和时间t上的随机误差项。
16
再记
其中,y是一个 的向量,X是一个 的矩阵,而 是一个 的向量。
从面板数据模型的数据结构来看,与一般 的横截面模型和时间序列模型相比,其长 处在于它既考虑了横截面数据存在的共性, 又能分析模型中横截面因素的个体特殊效 应。 与传统的横截面模型和时间序列模型相比, 面板数据模型具有明显的优势。第一个优 势是面板数据模型可以有效地处理遗漏变 量问题。
8
例1
农场投入与黄豆产出的关系:假定被解释变量为 黄豆产出,解释变量包括投入(如资本、劳动力、 肥料)等; 由于不同农场的土壤质量、农场主的管理能力等 存在区别,单纯针对一个农场使用时间序列数据, 并不能真实的揭示投入与产出之间的关系; 如果使用横截面数据,由于土地质量、农场主的 管理能力属于不可观测的因素,因此,也难以真 实反映这些因素对产出所产生的影响,还有可能 使得到的参数估计量是有偏的;
针对以上形式的数据,矩阵形式描述的面板数据 模型如下: 上述模型是一个最基本的面板数据模型。基于对 系数 和随机误差项 的不同假设,可以衍生出 不同类型的模型。
18
如何刻画不可观测的异质性
假定有如下形式的面板数据模型: 在该模型中,可以对误差项 进行分解:
在此基础上,上述模型可以写为
随机变量 为不可观测的异质性,反映个体之间 存在的差异, 称为
9
面板数据模型的主要优势在于,能够分析 其他模型所不能刻画的个体异质性偏差; 其他模型在处理这一问题时,将异质性偏 差作为误差项的一部分。然而,如果不可 观测的异质性与其他解释变量相关,将会 导致参数的估计量有偏。
10
不可观测的异质性 (unobserved heterogeneity)
不可观测的异质性:反映个体之间所存在的 差异,这种差异会导致对模型的估计产生偏 误,本质上是一个遗漏变量问题; 不可观测的异质性又被称为不可观测效应 (unobserved effect)、异质性偏差(heterogeneity error)和潜变量(latent variable)等。 从例1来看,面板数据模型如何刻画不可观测 的异质性?
来源:Hsiao(2003) 在一个截面数据样本中,已婚女性年度平均工作 率为50%。这个截面数据可以有两种极端解释:
总体同质:每个已婚女性在任何年度有50%的概率参 加工作,50%的概率不参加工作; 总体异质:50%的已婚女性一直工作,而50%的已婚 女性异质不工作;
如果只有截面数据,我们无法判断哪种情形是正 确的,但如果有面板数据,则很容易对动态变化 进行推断;
3
面板数据形式
4
1.2 面板数据方法的发展和演变
研究和分析面板数据的模型被称为面板数 据模型(panel data model)。 从面板数据的发展历程来看,主要经历了 3个不同的阶段:
第一阶段:20世纪70年代到80年代早期 第二阶段:20世纪80年代中期到90年代中期 第三阶段:20世纪90年代中期至今
11
遗漏变量问题
Suppose the true model is given as y 0 1x1 2 x2 but we estimate ~ ~ ~ y 0 1x1
12
Corr(x1, x2) > 0 2 > 0 Positive bias
Corr(x1, x2) < 0 Negative bias
5
第一阶段:主要研究的是静态误差成分模型(static error component models)和随机参数模型(random coefficient models); 第二阶段:动态同质面板数据模型; 第三阶段:动态异质面板数据模型、大维面板数据模型和 非平稳面板等; 我们关注:
传统的微观面板数据模型,主要是第一和第二阶段的研究成果; 微观面板数据:截面n非常大(通常是成百以至上千),而时间T 很小(一般为2-10,很少超过20);
6
大样本理论
微观面板数据:
时间T固定,而使n趋于无穷大;
使n先趋于无穷大,得到一个中间极限,再让T 趋于无 穷大得到连续极限; 使T先趋于无穷大,得到一个中间极限,再让n趋于无 穷大得到连续极限; 使n和T同时趋于无穷大得到共同极限;
大维面板数据(宏观和金融面板数据):
7
1.3 面板数据模型的优势和劣势
在经济学研究和实际应用中,经常需要同 时分析和比较横截面观察值和时间序列观 察值结合起来的数据,即数据集中同时包 含横截面和时间序列的信息,这种数据被 称为面板数据(panel data)或综列数据 (longitudinal data)。 面板数据既含有时间序列数据的性质,又 包含横截面特点,因此,以往采用的计量 分析方法就需要有所调整。
面板数据分析
面板数据模型简介 面板数据模型的设定检验 静态面板数据模型的估计 随机效应模型和固定效应模型的检验 双因子固定效应模型 非平衡面板数据模型
1
1. 面板数据模型简介
面板数据的基本结构 面板数据方法的发展和演变 面板数据模型的优势和劣势 面板数据模型的基本形式 不同类型的面板数据模型
2
1.1 面板数据的基本结构
2 < 0
Negative bias
Positive bias
13
面板数据模型的其它优势
由于观测值的增多,可以增加估计量的抽 样精度,提高分析过程中的自由度; 面板数据模型比横截面模型可以获得更多 的动态信息,能够刻画时间序列模型所不 能描述的个体差异性;
14
Ben-Porath(1973)的例子
19
假设条件
假定:
E( it ) E(i ) E(it ) 0
2 Var(i ) E(i2 )
2 2 Var(it ) E(it )
15
1.4 面板数据模型的基本形式
假设:有K个解释变量,即 ; 有N个横截面,即 ; 时间指标 。 变量: ——因变量在横截面i和时间t上的观测值; ——第k个解释变量在横截面i和时间t上的观测值; 第i个横截面的数据为
其中 是在横截面i和时间t上的随机误差项。
16
再记
其中,y是一个 的向量,X是一个 的矩阵,而 是一个 的向量。
从面板数据模型的数据结构来看,与一般 的横截面模型和时间序列模型相比,其长 处在于它既考虑了横截面数据存在的共性, 又能分析模型中横截面因素的个体特殊效 应。 与传统的横截面模型和时间序列模型相比, 面板数据模型具有明显的优势。第一个优 势是面板数据模型可以有效地处理遗漏变 量问题。
8
例1
农场投入与黄豆产出的关系:假定被解释变量为 黄豆产出,解释变量包括投入(如资本、劳动力、 肥料)等; 由于不同农场的土壤质量、农场主的管理能力等 存在区别,单纯针对一个农场使用时间序列数据, 并不能真实的揭示投入与产出之间的关系; 如果使用横截面数据,由于土地质量、农场主的 管理能力属于不可观测的因素,因此,也难以真 实反映这些因素对产出所产生的影响,还有可能 使得到的参数估计量是有偏的;