第七章 虚拟变量和随机解释变量 (2)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第七章 虚拟变量和随机解释变量

本章将讨论两种不同的模型:虚拟变量模型和随机解释变量模型,以及模型设定的其它问题。

第一节 虚拟变量模型

在我们以前考虑的模型中,解释变量都是定量变量(如成本、价格、收入、产出等),但在经济研究中,因变量经常受到一些定性变量的影响(如性别、种族、季节、不同历史时期等),我们把这类定性变量称为虚拟变量。习惯上用D表示虚拟变量,虚拟变量的取值通常为0和1。0表示变量具备某种属性,1表示变量不具备某种属性。 一、包含一个虚拟变量的模型

如果我们要研究的问题中解释变量只分为两类。则需引入一个模拟变量。 例9.1建立模型研究中国妇女在工作中是否受到歧视。 令Y=年薪,X=工作年限

⎧=,女性,男性

101D 可以建立如下模型:

i i i i u D B X B B Y +++=210 )1.9( 与一般的回归模型一样,假定0)(=i u E 男性就业者的平均年薪:

i i i i X B B D X Y E 10)0,(+== )2.9(

女性就业者的平均年薪:

210)1,(B X B B D X Y E i i i i ++== )3.9(

如果B 2=0则说明不存在性别歧视,如果02

图9.1表明男女就业者的平均年薪对工龄的函数具有相同斜率B 1,即随着工龄的增长男

女工资的增长幅度相同;截距不同,说明男女的初始年薪不同。我们称这种虚拟变量只影响

截距不影响斜率的模型为加法模型。

图9.1不同性别就业者的收入(加法模型,B 2<0)

如果随着工龄增加,男性与女性的年薪差距也发生变化,则模型(9.1)就变为

i i i i i u X D B X B B Y +++=210 )4.9(

图9.2描绘了男性年薪增加较快的情况。

我们称虚拟变量只影响斜率而不影响截距的模型为乘法模型如(9.4)

如果男性与女性的初始年薪和年薪增加速度都有差异,我们可以将加法模型和乘法模型

结合起来,得到如下模型

i i i i i i u D B X D B X B B Y ++++=3210 )5.9(

模型(9.5)可以用来表示截距和斜率都发生变化的模型。其图形如图9.3所示。

我们还可以用加法模型与乘法模型相结合的方式建立模型来拟合经济发展出现转折的

情况。例如,进口商品消费支出Y主要取决于国民生产总值X(作为收入的替代变量)的多少。我们改革开放前后,由于国家政策的变化,及改革开放后外资的大量引入等因素的影响,1978年前后,Y 对X 的回归关系明显不同。以t *=1978年为转折点,1978年的国民生产总值X *t 为临界值。设虚拟变量

⎪⎩⎪⎨⎧<≥=*

*

01t

t t t D t 进口商品支出回归方程为

t t t t t t u D X X B X B B Y +-++=)(*

210 )6.9(

用OLS 法估计得到

t t t t t D X X B X B B Y

)(ˆˆˆˆ*210-++= )7.9( 当年1978*

=

t t X B B Y

10ˆˆˆ+= )8.9( 当t ≥1978*

=t ,1=t D

t t t X B B X B B Y

)ˆˆ()ˆ(ˆ21*20++-= )9.9( 根据我国经济发展的实际情况;一般应该0ˆ2>B 。比较(9.8)与(9.9)式中的斜率,1

21ˆˆˆB B B >+,说明改革开放后,随着收入的增长,我国进口商品支出增长速度较改革开放前快。

当t=t *时,X t =X *t ,所以,由(9.8)和(9.9)式计算得到的Y *t 是一样的。两条不同时期的直线可在转折点连起成为一条折线。如图9.4.

§9.1.2 包含多个虚拟变量的模型 现在我们要研究本科生,研究生和MBA 毕业生的初职月薪有何差异。这里有三类人员,需引入两个虚拟变量。数据见表9.1 Y =初职月薪

X t

⎩⎨⎧=其他研究生011D ⎩⎨⎧=其他

研究生011D

表9.1研究本科生,研究生和MBA 毕业生的初职月薪 单位:人民币元

根据表9.1的数据得到OLS 回归结果如下:

212497719501D D Y ++

= )10.9(

t )45.4( )52.4( )59.15(

75.128,6.1.,898.0,905.022====F W D R R

根据(9.1)可以看出,截距项为本科生的平均初职月薪;D 1的系数是研究生与本科生平均初值职月薪的差额;D 2的系数是MBA 毕业生与本科生平均初职月薪的差额。所有回归数的符号与预期的一致。模型(9.10)表明研究生的初职月薪比本科生高143.5%。MBA 毕业生的初值月薪比本科生高494.8%;MBA 毕业生的初职月薪比研究生高144.2%。从这三个层次毕业生的初职月薪可以看出他们的竞争能力。图9.5给出了模型(9.10)

图9.5本科生、研究生、毕业生的初职月薪

从前面讨论的例子中,我们可以发现虚拟变量实质上是“数据分类器”,它根据样本的属性(性别、种族、季节变化、经济结构的变化等)将样本分为各个不同的子群体并对每个子群体进行回归分析。各个子群体的因变量对解释变量(定性解释变量)的不同反应表现为各子群体截距或斜率系数存在差别。

虽然虚拟变量技术非常有用,但在使用时仍需谨慎。第一,如果回归模型包含了常数项,那么虚拟变量的个数必须比所研究问题中数据属性少1;第二虚拟变量的系数必须与基准类(所有虚拟变量都取零的一类)相关;最后,若模型中包含多个定性变量,而且每个定性变量有多种分类,则引入模型的虚拟变量将消耗大量的自由度。因此,应当权衡进入模型的虚拟变量个数以免超过样本观察值的个数。

§9.2 随机解释变量模型

回忆回归模型的古典假设这一0)(,=i i u X Cov ,即解释变量X 与随机项u 不相关。 这个假定实际上要求:或X 是确定性变量,或者X 是随机变量,但与误差项u 不相关。显然这种假定不符合实际。实际上解释变量的取值往往不确定,是随机的。尤其是滞后因变量作解释变量时更不能把他当作非随机变量处理。我们把解释变量是随机变量的模型称为随机解释变量模型。

对于随机解释变量模型,如果满足

0)(,=i i u X Cov

和其它古典假设。则当X 与u 独立时,最小二乘估计量是无偏的;当X 与u 不独立时,最小二乘估计量具有一致性。

如果0)(,≠i i u X Cov ,则OLS 估计量是非一致估计量。

如何解决解释变量与随机误差项相关时模型的参数估计呢?工具变量法是一种简单的方法。工具变量法的基本思想是当解释变量与随机项高度相关时,设法找到另外一个随机变量Z ,使得Z 与X 高度相关而与u 不相关,称Z 为工具变量,用Z 替代X 使0)(,=i i u Z Cov ,求得模型的参数估计量1。但在实际应用中,如何选择工具变量是一个比较困难的问题。

第三节 模型的设定

在前几章我们考虑了单方程回归模型,例如交通通讯支出函数,进口需求函数。在考虑这些模型时,我们隐含地假定了所选择的模型“是对现实的真实反映”,即它正确地反映了所要研究的现象。用专业语言说,就是我们假定所选模型中不存在设定偏差或者误差。设定误差的产生是由于我们在不经意中估计了“不正确的”模型。但在实践中寻找真实正确的模型就好像寻找圣杯一样,永远办不到。我们只是希望找到一个能够合理反映现实的模型,即一个好的模型。

一、 “好的”模型具有的特性

著名经济计量学家哈维2列出了可以判定模型好坏的标准。

1. 节省性。一个模型永远无法完全把握现实,在建模过程中一定程度的抽象或简化是不可

1

对随机解释变量模型估计量的性质的证明和工具变量法的介绍参见《经济计量学》,张宝法编著,经济科学出版社,2000年1月,pp166-174。