第13章 跨时横截面

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

表 13.1 中估计的模型假定每个解释变量(特别是 受教育程度)的影响都保持不变。这一点正确与否 尚不清楚;计算机习题 C13.1 要求你阐释这个问题。
表13.1 妇女生育的决定因素
最后,所估计方程的误差项中或许存在着异方差性。 可利用第 8 章的方法来处理这个问题。但这里有一 个有意思的区别:误差方差即使不随着 educ、age、 black 而变,还可能随时间而变。然而,异方差-稳 健标准误及其检验统计量仍是确当的。通过将 OLS 残差的平方对表 13.1 中的所有自变量(包括年度 虚拟变量)回归,就能得到布罗施-帕甘检验。
就面板数据的计量经济分析而言,我们不能假定不同 时点的观测是独立分布的。例如,影响着某人 1990 年工资收入的那些无法观测因素仍将影响该人在 1991 年的工资;影响着某城市 1985 年犯罪率的无法观测 因素仍将影响该城市 1990 年的犯罪率。因此,还须 研究出可用以分析面板数据的特殊模型和方法。
还可通过一个年度虚拟变量和某些主要解释变量 之间的交互作用来考察这些变量的影响在某个特 定时期是否发生了变化。下例便分析了教育回报 和性别差异(歧视)在 1978-1985 年间是否发生 了变化。
例 13.2 教育回报和工资中性别差异的变化 将 1978 年(基年)和 1985 年的横截面数据相混合, 得到 log(wage)的一个方程(其中 wage 为小时工 资)是
多受教育的妇女有较少的小孩,并且估计值是非常 显著的。在其他条件不变的情况下,100 名受大学 教育的妇女和 100 名仅受高中教育的妇女相比,要 少生育小孩约 51 个:0. 128×4=0. 512。年龄对生育 有抑制作用。(二次式的转折点在 age= 46 处。到 了这个年龄,大多数妇女已停止生育小孩。)
例如,在一个时点上,从某总体中随机地收 集一些人的个人工资、工作小时数、受教育程度 和其他因素的一个面板数据集,那么,在以后的 若干个时点上,要对同样的人群反复采访,以便 得到同样一群人在不同年份里的工资、工作小时 数、受教育程度等数据。
从学区、城市、县、州和国家收集面板数据 相当容易,从而大大推动了用面板数据集进 行政策分析;我们在后面的分析中将看到一 些例子。
一个令人感兴趣的问题是:在控制了其他可观测 因素之后,这段时间里的生育率出现过什么变化? 我们所控制的因素是受教育年数、年龄、种族、 16 岁时生活的地区以及 16 岁时的生活环境。估 计结果由表 13.1 给出。基年是 1972 年。年度虚 拟变量的系数表明,在 20 世纪 80 年代早期生育 率有一个明显下落。
把不同时点从同一总体中抽取的多个随机 样本混合起来使用,可以获取更精密的估计量 和更具功效的检验统计量,仅当因变量和某些 自变量保持着不随时间而变化的关系时,混合 才是有用的。如在引言中所提到过的,使用混 合横截面只会带来少量的统计复杂性。
典型地说,总体在不同时期会有不同的分布。为 了反映这一事实,我们允许截距在不同时期(通 常是不同年份)有不同的值。通过包含虚拟变量 (比如除某一年外,每年都增加一个虚拟变量, 通常把样本中最早的一年选作基年),轻而易举 即可达到这一目的。
从统计学的观点看,这些数据集有一个重要特点: 它们都是由独立抽取的观测所构成。这也是我们做横 截面分析时的一个主要性质:保持其他条件不变,它 排除了不同观测误差项的相关。
一个独立混合横截面和单独一个随机样本的差异在 于,在不同时点上对总体进行抽样很可能导致观测 点(即观测结果)不是同分布的情形。比如,随着 时间的流逝,大多数国家的工资和受教育程度分布 都已经改变。
在 13.3 节、13.4 节和 13.5 节里,我们将描述 简单的差分法,以消除所研究单位不随时间变 化的那些无法观测属性。 由于面板数据方法比较深奥,我们将主要凭直觉 来描述估计程序中的统计性质,而把推导细节留 作章末附录。在第 14 章讨论更复杂的面板数据方 法时,我们将采取同样的策略。
13.1 跨时独立横截面的混合
第 13 章 跨时横截面的混合 --简单面板数据方法
直到现在,我们所讨论的多元回归分析,要么使用 纯粹的横截面数据,要么使用纯粹的时间序列数据。 虽然这两种情形都常见于实际应用,但在经验(实 证)研究中,也越来越多地用到兼有横截面和时间 序列维数的数据集。
ቤተ መጻሕፍቲ ባይዱ
事实上,兼有横截面和时间序列两个方面的数 据,常常给重要的政策问题研究带来曙光。我 们将在本章中看到几个例子。
我们将会看到,这实际上是一个容易应对的问题, 即可在多元回归模型中,容许截距甚至在某些情 形中还容许斜率随时间而改变。在 13.1 节中, 我们就考虑这样的模型。在 13.2 节中,我们将 讨论如何把不同时间的横截面混合起来,用于评 价政策的改变。
另一种是面板数据(panel data)集。它虽然兼有 横截面和时间序列维度,但在一些重要方面却不同 于独立混合横截面,如收集面板数据——有时又称 纵列数据(longitudinal data) -我们要在不同时间 跟踪(或试图跟踪)相同的一些个人、家庭、企业、 城市、州或其他单位。
此外,误差方差还可能随时间而变,这正是 我们以后要讨论的一些内容。有时,年度虚拟变 量的系数变化模式本身就是我们所感兴趣的。
例如,人口学家也许对下述问题感兴趣,把 教育加以控制后,问 35 岁以上妇女的生育模式 在 1972-1984 年间有无变化?下面的例子说明怎 样利用带有年度虚拟变量(year dummy variables) 的多元回归分析,来回答这一问题。
这里,尽管每个人的工资不同,而 log(P85)却是相 同的,因此 log(P85)将被吸收 1985 年的截距之中。 (如果对不同地区的人便用不同的价格指数,这个 结论便要改变。)基本要点是,为了研究教育回报 和性别差异曾经发生了何种变化,我们不需要在方 程(13.1)中把名义工资转换成真实工资。计算机习 题 C13.2 要求你对现在这个例子证实这一点。
(利用 1997 年《总统经济报告》中的消费者价 格指数,缩减因子就是 107.6/65.2≈1.65。)虽 然用 1.65 去除每人在 1985 年的工资很容易,但 我们将发现,如果回归中含有一个 1985 年变量, 并且用对数工资(而不是工资)作为因变量,就 没有必要这样做。
取对数形式,用真实工资也好,名义工资也好, 只会影响年度虚拟变量 y85。为了看出这点,令 P85 为 1985 年工资的缩减因子(如果用 CPI 它就 是 1.65)。然后取 1985 年样本中第 i 个人的真实 工资的对数,就是: log(wagei/P85)=log(wagei) -log(P85)
5
+δ 5。
于是,通过检验 Ho:δ 5 =0,就能检验性别差异 在这 7 年里没有变化的虚拟假设。表示性别差 异已减少的对立假设则是 H1:δ 5>0。为筒单起 见,我们假定工作经验和工会会员资格在两个时 期里对工资都有同样的影响。
在我们分析估计结果之前,仍有一个问题需 要澄清,即小时工资是以名义(或当时)美元计 算的。因为名义工资可以仅因通货膨胀而增加, 而我们真正感兴趣的却是每个解释变量对真实工 资的影响,那么,假定我们决定用 1978 年美元来 度量工资,这就要求我们把 1985 年工资换算为 1978 年美元。
因为我们控制了教育,这一下跌就和因平均受教育 程度的提高而导致的生育率下降没有联系。(1972 年的平均受教育年数为 12.2,而 1984 年为 13.3。) y82 和 y84 代表解释变量所不能解释的生育率下降。
既然个别地看,1982 年和 1984 年年度虚拟变量的 系数都非常显著,那么多个年度虚拟变量构成的一 组变量也非常地联合显著就无足为奇:不含年度虚 拟变量的回归的 R2 是 0.101 9,这就得到 F6,111=5.87 和 p 值≈0 。
许多关于个人、家庭和企业的调查,每隔一段时间, 常常是每隔一年,重复进行一次。一个例子是当前 人口调查(current population survey,CPS),它 每年都对家庭随机地抽查一次,例如,参看含有 1978-1985 年调查数据的 CPS78—85.RAW。
如果每个时期都抽取一个随机样本,那么把所 得到的随机样本合并起来就给出一个独立混合 横截面。使用独立混合横截面的一个理由是要 加大样本容量。
(至于怀特统计量这一特殊情况,和平常一样,还 要把拟合值及其平方用作自变量。)加权最小二乘 程序应能解决误差可能随时间而变的问题。在 8.4 节所讲的程序中,还要把年度虚拟变量放到方程 (8.32)中去。
问题 13.1 在阅读表 13.1 时,有人声称,若表中其他条件不 变,则预计一名黑人妇女要比一名非黑人妇女多 生育一个孩子,你同意吗?
log( wage) 0 0 y85 1educ 1 y85 educ 2 exp er 3 exp er 2 4union 5 female 5 y85 female u
(13.1)
其中,大多数解释变量我们现在应该都已经熟 悉。变量 union(工会)是一个虚拟变量;如果 某人是工会会员,它就等于 1,否则等于 O。变 量 y85 也是一个虚拟变量;如果观测值来自 1985 年就等于 1,如果来自 1978 年就等于 0。在 1978 年的样本中有 550 人,而在 1985 年则是另 一组不同的 534 人。
例如,y82 的系数意味着,在保持教育、年龄 和其他因素不变的情况下.1982 年和 1972 年相比, 一位妇女平均少生育 0. 52 个孩子,或者说大约少 生育半个孩子。这是一个很大的下跌:若保持教育、 年龄和其他因素不变,在 1982 年每 100 个妇女预计 将比 1972 年同等条件的妇女少生育约 52 个小孩。
现在我们用 CPS78_85.RAW 中的数据来估计方程式: Log(wage)=0.459+0.118y85+0.0747educ+0.018 5y85·educ (0.093) (0.124) (0.0067) (0.004) +0.202union (0.030)
1978 年的截距是 β β 0+δ
0
0
,而 1985 年的截距是
。1978 年的教育回报是 β 1,而 1985 年
1
的教育回报是 β
+δ 1。因此,δ 1 度量了多受
一年教育获得的回报经过 7 年时间以后所发生的 变化。最后,男女对数工资的差别在 1978 年是 β 5;在 1985 年是 β
本章将分析两种数据集。一是独立混合横截面 (independently pooled cross section)数据。 它是在不同时点(经常但并不一定是不同年份) 从一个大总体里进行随机抽样的结果。
例如,我们每年从美国工作的工人总体里抽取 一个关于小时工资、受教育程度、工作经验等 的随机样本。或者,我们每隔一年就对某大都 市市区出售的住房抽取一个关于售价、平方 公尺面积、卫生间数的随机样本。
如果我们忘记对 1978 年和 1985 年考虑不同的 截距,那么使用名义工资将会得到严重误导性 的结果。如果我们使用工资而不是对数工资, 那么记住使用真实工资并且引入一个年度虚拟 变量便很重要。
无论我们用美元价值去表示变量还是自变量, 以上讨论一般都成立。只要美元数额是以对 数形式出现,并且对所有时期都采用了虚拟 变量(当然,基期除外),总价格缩减因子 的使用只会影响那些截距,而不会改变任何 一个斜率估计值。
例 13.1 不同时期的妇女生育率 FERTIL1 .RAW 中的数据库[类似于 Sander (1992)所 用的数据库],来源于美国民意研究中心(National Opinion Research Center) 1972-1984 年间的双年 (包括 1972 年和 1984 年)社会总调查 (General Social Survey)。我们利用其中的数据来估计一个 用以解释一个妇女生育小孩总数(kids)的模型。
相关文档
最新文档