古扎拉蒂《计量经济学基础》第16章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
E[ci Xi ] h(Xi ) (16-6)
由于上式中的条件均值在所有时期中都相同, 可将模型写成
yit xitβ h(Xi ) uit [ci h(Xi )]
xitβ i uit [ci h(Xi )]
括号项可通过构造使其与Xi不相关,因而可 将其吸收到扰动项中,模型可写为
表16-1 全国31省市自治区自主性消费水平
地区
自主性消费 水平(元)
地区
自主性消费 水平(元)
地区
自主性消费 水平(元)
广东省
3066.09 福建省
1776.53 安徽省
1486.75
北京市 上海市 重庆市 浙江省 西藏自治区 天津市 陕西省 辽宁省 湖南省 四川省
3050.22 2955.21 2501.59 2470.95 2265.71 2218.72 1964.33 1947.03 1914.40 1864.45
(16-4)称为随机影响模型。这里εi是一个反 映横截面个体影响的随机元素。
固定影响模型和随机影响模型的关键区别
Biblioteka Baidu
是未观测到的个体影响是否包含与模型中解释
变量相关的元素,而不在于这些影响是否随机。
4.随机系数(random coefficients)
随机影响模型可看成是一个带有随机常数
项的回归模型。如果数据集足够丰富,可以将
事实上,对于这3个变量中的每一个,都有 217个观测值(31个省市乘以7年)。由于在每个 时期(每一年)都是这31个省市,因此这些混合 数据是面板数据。 现实中,即使每个时期中每个省市的消费与 收入之间的关系都相同,但经济发达的省市与经 济落后的省市的城镇居民的消费模式、消费理念 肯定是有差别的。因此,为简单起见,假定采用 固定影响模型,模型形式如下:
yit xitβ i uit (16-7)
这就是固定影响模型。从模型的设定可知, 固定影响模型假设横截面个体之间的差异为截距 不同,而斜率系数相同,即允许不同的横截面个 体的截距是不同的,但每一个体的截距在各个不 同时期则保持不变。换句话说,固定影响模型假 定不同横截面个体的差异可用不同的常数项αi 来描述,在此模型中,αi被作为要估计的未知 参数。
这里使用的“固定”一词是表明ci和Xit的相关, 并不表明ci是非随机的。
固定影响模型可分为三类,即个体固定影 响模型(Entity fixed effects model)、时 点固定影响模型(Time fixed effects model) 和个体时点固定影响模型(Entity and time fixed effects model)。在本章中,只介绍个 体固定影响模型。
pooled data(混合数据) combination of time series and crosssection data(时间序列和横截面综合数据) micropanel data(微观面数据) longitudinal data(纵列数据) event history analysis(事件史分析) cohort analysis(群队分析)
如果进一步假设Var(ci Xi ) 为常数,则在 此假设下,(16.7)变成经典线性回归模型。
2.固定影响模型的参数估计
固定影响模型参数的估计方法有两种,一 种是最小二乘虚拟变量(LSDV)估计法,另一 种是组内估计(Within Estimator)或称协方 差估计(The Analysis of Covariance Estimation,ANCOVA)。下面介绍这两种参数 估计方法。
2.固定影响(fixed effects)
如果zi不可观测,但与Xit相关,则由于遗 漏了有关变量,β的OLS估计量是有偏和不一致
的。可是在这种情况下,模型
yit xitβ i uit
(16.3)
包含了所有可观测的影响,并且设定了一
个可估计的条件均值。这就是固定影响模型。
其中αi=z’iα。固定影响模型将αi视为回 归模型中每一个体各自不同的常数项。注意,
面板数据的优势 1.既然面板数据与一定时期内的个人、企 业、州、国家等有关,那么这些单位中一定存在 着异质性(heterogeneity)。正如稍后将看到 的那样,通过使用因调查对象的不同而不同的变 量,面板数据估计方法能够明确考虑这种异质性。 将在一般意义上使用对象(subject)这个词来 表示诸如个人、企业、州、国家等微观单位。 2.通过时间序列和横截面数据的混合,面 板数据提供“更加有信息价值的数据,变量增加 变异性,变量之间的共线性削弱了,并且提高了 自由度和有效性”。
此思路扩展到其它系数也随着个体随机变动的
模型,从而得到随机系数模型:
yit xit (β hi ) ( i ) uit
(16.5)
其中hi是一个引起参数跨个体变动的随机向量。
五、 固定影响模型
1.固定影响模型的设定 上一节给出了分析面板数据的一般模型
yit xitβ ci uit
固定影响模型源于一般模型中被遗漏的影 响ci与包括的变量Xit相关的假设,此假设的一 般形式是:
H 0 : 1 2 ... 31
H1 :原假设不成立
检验的具体做法与在第二章中介绍的涉及多 个系数的联合假设检验类似,即首先进行约束回 归和无约束回归,然后用得到的两个残差平方和 计算F检验量,进行检验。
例1 搜集我国2001~2007年我国内地31个 省市自治区城镇居民家庭人均年可支配收入、 城镇居民家庭人均年消费支出和各地区城镇居 民消费价格指数的数据,建立消费收入模型, 以研究城镇居民的消费行为。 模型中用到的变量是:
Cit=i省市第t年城镇居民人均消费,单位:元 Yit=i省市第t年城镇居民人均收入,单位:元 Pit=i省市第t年城镇居民消费价格指数(1985=100)
β (1, 2,..., k ) α (1,2,...,m )
Xit中有k个解释变量,不包括常数项。异质 性或个体影响由z’iα表示,其中包含一个常数 项和一组体现横截面个体影响但不随时间变化 的变量,例如可观测的种族、性别等,或无法 观测的家庭特征、偏好等,所有这些变量都只 体现横截面个体特征,而不随时间变化。如果 所有横截面个体的zi都可以观测到,那么整个模 型可被视为一个普通线性模型,并可用最小二 乘法来拟合。但在大多数应用中,ci不可观测, 处理起来就要复杂得多。
3.通过对重复横截面数据的研究,面板数 据更适用于对变化动态的研究。也就是说,失 业期限、工作的转变以及劳动力的流动等更适 于用面板数据进行研究。 4.面板数据能够更好地检测和度量纯粹使 用横截面数据或时间序列数据所无法观测到的 影响。例如,如果引入联邦和/或州的最低工资 的连续增长,那么就可以更好地研究最低工资 法律对就业和收入的影响。
Cit i Yit uit
i 1, 2,3,...,31 t 1, 2,3,..., 7
此模型的回归不采用LSDV法,这会损失很 多的自由度,因而采用组内估计法。 应用EViews6,估计模型参数,结果为:31 个省市自治区城镇居民家庭人均年边际消费倾 向均为0.552,自主性消费(截距项)有很大差 异,如表16-1所示。
山西省
1284.16
江西省 河南省
1109.25 1082.78
从表中可看出,我国各地区城镇居民的自主 性消费水平存在较大的差异,广东、北京、上海 等居民自主性消费水平几乎是江苏、安徽、青海 等居民的两倍,江西、河南居民的三倍。 可以利用回归结果来检验31个省市的截距是 否相同,原假设和备择假设是:
5.面板数据能够使人们对更加复杂的行为 模型进行研究。比如,比起纯粹的横截面数据 或时间序列数据,面板数据能够更好的处理诸 如规模经济和技术变迁之类的现象。 6.通过使用数千个单位,面板数据能够将 偏差降到最低,而这种偏差可能是由于将个人 或企业情况加总成更大的总量数据而产生的。
简言之,面板数据能够在很多方面丰富经验 分析,而这些是仅仅使用横截面或时间序列数据 所无法做到的。但这并不表示面板数据模型就不 存在任何问题,在学习一些理论和例子之后,将 讨论这些问题。
四、模型结构 将研究分析面板数据的各类模型,它们大
致可分为如下几种类型: 1.混合回归(pooled regression) 若中仅包含常数项,则模型形式如下:
yit xitβ uit
(16.2)
这类模型假设所有的横截面个体在各个不 同时期的斜率和截距都是相同的,这样就可以 直接把面板数据混合在一起,用OLS估计参数, 得到一致和有效估计量。 由于混合回归模型假设解释变量对被解释 变量的影响与横截面个体无关,这在现实中是 很难成立的,所以应用不广。
3.固定效应组内模型(fixed effects withingroup model)。再次把所有90个观测混合在一起, 但对于每家航空公司,把每个变量都表示成它与 均值的离差,然后再对这种均值修正后的或“去 均值”的变量进行OLS回归。 4.随机效应模型(random effects model, REM)。在固定效应最小二乘虚拟变量模型中, 容许每家航空公司都有自己(固定)的截距,与 此不同,在随机效应模型中,假定这些截距是从 更大的这种航空公司的总体中随机抽取的。
3.随机影响(random effects)
如果未观测到的个体异质性可以被假定与
包括在模型中的变量无关,则模型可设定为
yit xitβ E[ziα] {ziα E[ziα]} uit
xitβ i uit
(16-4)
这是一个带复合扰动项的线性回归模型。
可用OLS法估计,得到一致但非有效的估计量。
那么,该怎么估计呢?有四种可能的估计方 法: 1.混合OLS模型(pooled OLS model)。直 接把所有90个观测混合在一起估计一个“大”回 归,不管它是横截面数据还是时间序列数据。 2.固定效应最小二乘虚拟变量(fixed effects least squares dummy variable, LSDV)模 型。还是把所有90个观测混合在一起,但让每个 横截面单位都有一个自己的(截距)虚拟变量。
湖北省
甘肃省
吉林省 宁夏回族自 治区
云南省
内蒙古自治 区 新疆维吾尔 自治区 海南省
江苏省
1753.70 1705.62 1659.79 1657.24 1647.26 1620.24 1580.79 1561.05 1493.19
青海省 贵州省 山东省
河北省 广西壮族自 治区 黑龙江省
1457.59 1412.96 1393.78 1388.96 1377.02 1333.89
如果每个研究对象(企业、个人等)都有相 同的观测次数,这样的面板就是平衡面板( balanced panel) 。如果有些对象具有不同的观测 次数,得到的就是非平衡面板(unbalanced panel)。 在本章的绝大部分内容中,都只讨论平衡面板。 在面板数据的文献中,你还可能会遇到短板 (short panel)和长板(long panel)的说法。短 板指的是横截面单位的个数N大于时期数T。而长 板指的是时期数T大于N。后面会发现,估计方法 与使用的是长板还是短板有一定的关系。
国内外经典教材名师讲堂
古扎拉蒂《计量经济学基础》
第16章 面板数据回归模型 主讲老师:李庆海
16.1 本章要点
●为什么使用面板数据 ●固定效应和随机效应模型 ●变截距模型 ●模型的选择
16.2 重难点导学
一、为什么使用面板数据 面板数据回归模型:是研究经历一段时间的
相同的横截面单元(个体)的模型。 面板数据具有空间和时间两种特性。也称为:
三、分析面板数据的一般模型框架 分析面板数据的基本框架是形如下式的回归模型:
yit xitβ ziα uit xitβ ci uit i 1, 2,3,..., n
t 1, 2,3,...,T
(16.1)
其中
xit (x1it , x2it ,..., xkit ) zi (z1i , z2i ,..., zmi )
由于上式中的条件均值在所有时期中都相同, 可将模型写成
yit xitβ h(Xi ) uit [ci h(Xi )]
xitβ i uit [ci h(Xi )]
括号项可通过构造使其与Xi不相关,因而可 将其吸收到扰动项中,模型可写为
表16-1 全国31省市自治区自主性消费水平
地区
自主性消费 水平(元)
地区
自主性消费 水平(元)
地区
自主性消费 水平(元)
广东省
3066.09 福建省
1776.53 安徽省
1486.75
北京市 上海市 重庆市 浙江省 西藏自治区 天津市 陕西省 辽宁省 湖南省 四川省
3050.22 2955.21 2501.59 2470.95 2265.71 2218.72 1964.33 1947.03 1914.40 1864.45
(16-4)称为随机影响模型。这里εi是一个反 映横截面个体影响的随机元素。
固定影响模型和随机影响模型的关键区别
Biblioteka Baidu
是未观测到的个体影响是否包含与模型中解释
变量相关的元素,而不在于这些影响是否随机。
4.随机系数(random coefficients)
随机影响模型可看成是一个带有随机常数
项的回归模型。如果数据集足够丰富,可以将
事实上,对于这3个变量中的每一个,都有 217个观测值(31个省市乘以7年)。由于在每个 时期(每一年)都是这31个省市,因此这些混合 数据是面板数据。 现实中,即使每个时期中每个省市的消费与 收入之间的关系都相同,但经济发达的省市与经 济落后的省市的城镇居民的消费模式、消费理念 肯定是有差别的。因此,为简单起见,假定采用 固定影响模型,模型形式如下:
yit xitβ i uit (16-7)
这就是固定影响模型。从模型的设定可知, 固定影响模型假设横截面个体之间的差异为截距 不同,而斜率系数相同,即允许不同的横截面个 体的截距是不同的,但每一个体的截距在各个不 同时期则保持不变。换句话说,固定影响模型假 定不同横截面个体的差异可用不同的常数项αi 来描述,在此模型中,αi被作为要估计的未知 参数。
这里使用的“固定”一词是表明ci和Xit的相关, 并不表明ci是非随机的。
固定影响模型可分为三类,即个体固定影 响模型(Entity fixed effects model)、时 点固定影响模型(Time fixed effects model) 和个体时点固定影响模型(Entity and time fixed effects model)。在本章中,只介绍个 体固定影响模型。
pooled data(混合数据) combination of time series and crosssection data(时间序列和横截面综合数据) micropanel data(微观面数据) longitudinal data(纵列数据) event history analysis(事件史分析) cohort analysis(群队分析)
如果进一步假设Var(ci Xi ) 为常数,则在 此假设下,(16.7)变成经典线性回归模型。
2.固定影响模型的参数估计
固定影响模型参数的估计方法有两种,一 种是最小二乘虚拟变量(LSDV)估计法,另一 种是组内估计(Within Estimator)或称协方 差估计(The Analysis of Covariance Estimation,ANCOVA)。下面介绍这两种参数 估计方法。
2.固定影响(fixed effects)
如果zi不可观测,但与Xit相关,则由于遗 漏了有关变量,β的OLS估计量是有偏和不一致
的。可是在这种情况下,模型
yit xitβ i uit
(16.3)
包含了所有可观测的影响,并且设定了一
个可估计的条件均值。这就是固定影响模型。
其中αi=z’iα。固定影响模型将αi视为回 归模型中每一个体各自不同的常数项。注意,
面板数据的优势 1.既然面板数据与一定时期内的个人、企 业、州、国家等有关,那么这些单位中一定存在 着异质性(heterogeneity)。正如稍后将看到 的那样,通过使用因调查对象的不同而不同的变 量,面板数据估计方法能够明确考虑这种异质性。 将在一般意义上使用对象(subject)这个词来 表示诸如个人、企业、州、国家等微观单位。 2.通过时间序列和横截面数据的混合,面 板数据提供“更加有信息价值的数据,变量增加 变异性,变量之间的共线性削弱了,并且提高了 自由度和有效性”。
此思路扩展到其它系数也随着个体随机变动的
模型,从而得到随机系数模型:
yit xit (β hi ) ( i ) uit
(16.5)
其中hi是一个引起参数跨个体变动的随机向量。
五、 固定影响模型
1.固定影响模型的设定 上一节给出了分析面板数据的一般模型
yit xitβ ci uit
固定影响模型源于一般模型中被遗漏的影 响ci与包括的变量Xit相关的假设,此假设的一 般形式是:
H 0 : 1 2 ... 31
H1 :原假设不成立
检验的具体做法与在第二章中介绍的涉及多 个系数的联合假设检验类似,即首先进行约束回 归和无约束回归,然后用得到的两个残差平方和 计算F检验量,进行检验。
例1 搜集我国2001~2007年我国内地31个 省市自治区城镇居民家庭人均年可支配收入、 城镇居民家庭人均年消费支出和各地区城镇居 民消费价格指数的数据,建立消费收入模型, 以研究城镇居民的消费行为。 模型中用到的变量是:
Cit=i省市第t年城镇居民人均消费,单位:元 Yit=i省市第t年城镇居民人均收入,单位:元 Pit=i省市第t年城镇居民消费价格指数(1985=100)
β (1, 2,..., k ) α (1,2,...,m )
Xit中有k个解释变量,不包括常数项。异质 性或个体影响由z’iα表示,其中包含一个常数 项和一组体现横截面个体影响但不随时间变化 的变量,例如可观测的种族、性别等,或无法 观测的家庭特征、偏好等,所有这些变量都只 体现横截面个体特征,而不随时间变化。如果 所有横截面个体的zi都可以观测到,那么整个模 型可被视为一个普通线性模型,并可用最小二 乘法来拟合。但在大多数应用中,ci不可观测, 处理起来就要复杂得多。
3.通过对重复横截面数据的研究,面板数 据更适用于对变化动态的研究。也就是说,失 业期限、工作的转变以及劳动力的流动等更适 于用面板数据进行研究。 4.面板数据能够更好地检测和度量纯粹使 用横截面数据或时间序列数据所无法观测到的 影响。例如,如果引入联邦和/或州的最低工资 的连续增长,那么就可以更好地研究最低工资 法律对就业和收入的影响。
Cit i Yit uit
i 1, 2,3,...,31 t 1, 2,3,..., 7
此模型的回归不采用LSDV法,这会损失很 多的自由度,因而采用组内估计法。 应用EViews6,估计模型参数,结果为:31 个省市自治区城镇居民家庭人均年边际消费倾 向均为0.552,自主性消费(截距项)有很大差 异,如表16-1所示。
山西省
1284.16
江西省 河南省
1109.25 1082.78
从表中可看出,我国各地区城镇居民的自主 性消费水平存在较大的差异,广东、北京、上海 等居民自主性消费水平几乎是江苏、安徽、青海 等居民的两倍,江西、河南居民的三倍。 可以利用回归结果来检验31个省市的截距是 否相同,原假设和备择假设是:
5.面板数据能够使人们对更加复杂的行为 模型进行研究。比如,比起纯粹的横截面数据 或时间序列数据,面板数据能够更好的处理诸 如规模经济和技术变迁之类的现象。 6.通过使用数千个单位,面板数据能够将 偏差降到最低,而这种偏差可能是由于将个人 或企业情况加总成更大的总量数据而产生的。
简言之,面板数据能够在很多方面丰富经验 分析,而这些是仅仅使用横截面或时间序列数据 所无法做到的。但这并不表示面板数据模型就不 存在任何问题,在学习一些理论和例子之后,将 讨论这些问题。
四、模型结构 将研究分析面板数据的各类模型,它们大
致可分为如下几种类型: 1.混合回归(pooled regression) 若中仅包含常数项,则模型形式如下:
yit xitβ uit
(16.2)
这类模型假设所有的横截面个体在各个不 同时期的斜率和截距都是相同的,这样就可以 直接把面板数据混合在一起,用OLS估计参数, 得到一致和有效估计量。 由于混合回归模型假设解释变量对被解释 变量的影响与横截面个体无关,这在现实中是 很难成立的,所以应用不广。
3.固定效应组内模型(fixed effects withingroup model)。再次把所有90个观测混合在一起, 但对于每家航空公司,把每个变量都表示成它与 均值的离差,然后再对这种均值修正后的或“去 均值”的变量进行OLS回归。 4.随机效应模型(random effects model, REM)。在固定效应最小二乘虚拟变量模型中, 容许每家航空公司都有自己(固定)的截距,与 此不同,在随机效应模型中,假定这些截距是从 更大的这种航空公司的总体中随机抽取的。
3.随机影响(random effects)
如果未观测到的个体异质性可以被假定与
包括在模型中的变量无关,则模型可设定为
yit xitβ E[ziα] {ziα E[ziα]} uit
xitβ i uit
(16-4)
这是一个带复合扰动项的线性回归模型。
可用OLS法估计,得到一致但非有效的估计量。
那么,该怎么估计呢?有四种可能的估计方 法: 1.混合OLS模型(pooled OLS model)。直 接把所有90个观测混合在一起估计一个“大”回 归,不管它是横截面数据还是时间序列数据。 2.固定效应最小二乘虚拟变量(fixed effects least squares dummy variable, LSDV)模 型。还是把所有90个观测混合在一起,但让每个 横截面单位都有一个自己的(截距)虚拟变量。
湖北省
甘肃省
吉林省 宁夏回族自 治区
云南省
内蒙古自治 区 新疆维吾尔 自治区 海南省
江苏省
1753.70 1705.62 1659.79 1657.24 1647.26 1620.24 1580.79 1561.05 1493.19
青海省 贵州省 山东省
河北省 广西壮族自 治区 黑龙江省
1457.59 1412.96 1393.78 1388.96 1377.02 1333.89
如果每个研究对象(企业、个人等)都有相 同的观测次数,这样的面板就是平衡面板( balanced panel) 。如果有些对象具有不同的观测 次数,得到的就是非平衡面板(unbalanced panel)。 在本章的绝大部分内容中,都只讨论平衡面板。 在面板数据的文献中,你还可能会遇到短板 (short panel)和长板(long panel)的说法。短 板指的是横截面单位的个数N大于时期数T。而长 板指的是时期数T大于N。后面会发现,估计方法 与使用的是长板还是短板有一定的关系。
国内外经典教材名师讲堂
古扎拉蒂《计量经济学基础》
第16章 面板数据回归模型 主讲老师:李庆海
16.1 本章要点
●为什么使用面板数据 ●固定效应和随机效应模型 ●变截距模型 ●模型的选择
16.2 重难点导学
一、为什么使用面板数据 面板数据回归模型:是研究经历一段时间的
相同的横截面单元(个体)的模型。 面板数据具有空间和时间两种特性。也称为:
三、分析面板数据的一般模型框架 分析面板数据的基本框架是形如下式的回归模型:
yit xitβ ziα uit xitβ ci uit i 1, 2,3,..., n
t 1, 2,3,...,T
(16.1)
其中
xit (x1it , x2it ,..., xkit ) zi (z1i , z2i ,..., zmi )