计量经济学:第八章 虚拟变量回归
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章 虚拟变量回归
第一节 虚拟变量的概念
一、问题的提出
计量经济学模型对变量的要求——可观测、可计量。但在现实经济问题中,存在定性影响因素,比如
1、属性(品质)因素的表达。
在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。如收入在形成过程中,不同的性别所得到的收入是不一样的;在城乡、不同地区等收入存在差距;再比如,在我国,经济的发展水平对于不同的区域有不同的表现。
2、异常值现象。
当经济运行过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。
3、季节因素的影响。
有的经济现象存在明显的季节特征,如啤酒的消费。那么,在建模过程中,季节变动这一因素怎样考虑?
4、离散选择现象的描述。
如公共交通与私人交通的选择、商品购买与否的决策、求职者对职业的选择等。
第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。称前一种情况为虚拟解释变量,后一种为虚拟被解释变量。本章主要介绍虚拟解释变量的内容。
二、虚拟变量的定义
1、定义。设变量D 表示某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D 取值为0。记为
⎩⎨⎧=不具有该属性
具有某种属性01D
2、虚拟变量引入的规则。
(1)在模型里存在截距项的条件下,如果一个属性存在m 个相互排斥类型(非此即彼),则在模型里引入m-1个虚拟变量。否则,会出现完全的多重共线性。但要注意,在模型无截距项的情况下,如果一个属性存在m 个类型,即便引入m 个变量,不会出现多重共线性问题。( 请思考为什么?)
(2)虚拟变量取值为0,意味着所对应的类型是基础类型。而虚拟变量取值为1,代表与基础类型相比较的类型,称为比较类型。例如“有学历”D 为1,“无学历”D 为0,则“无学历”就是基础类型,“有学历”为比较类型。
(3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况
D=0, 第一个类型;
D=1, 第二个类型;
……
D=m-1, 第m 个类型。
原因是上述情况没有反映出属性类型的相互排斥性。
第二节 虚拟解释变量的回归
一、加法引入规则
1、加法引入规则,虚拟解释变量与别的解释变量以相加的关系出现在模型里。加法引入虚拟变量对模型产生的结果是只改变截距项。
设模型为
123i i i i
Y X D u βββ=+++ 式中,i D 为虚拟变量,它与其它解释变量是相加的关系。如果虚拟变量按这种方式引入模型,则称虚拟变量按加法类型引入。
2、加法引入虚拟变量的应用。
(1)模型中只有一个定性解释变量。
设模型形式为
12i i i Y D u ββ=++ n i ,,3,2,1 =
其中,i D 为具有两个属性类型的定性变量,如在教材第217页,设i Y 为居民的
年可支配收入,i D 为虚拟变量,其取值表示为:i D =1表示城镇居民;i D =0表示农村居民。即
1,0i D ⎧=⎨⎩城镇居民,农村居民,1,2,3,,i n =
该方程的意义在于,在其它因素不变的条件下,城镇居民与农村居民的收入是否具有显著性差异。由此得到
城镇居民的年平均收入:12(|1)i i E Y D ββ==+。
农村居民的年平均收入为:1(|0)i i E Y D β==
为了检验城镇居民和农村居民的差异对年平均收入的影响是否具有显著性,可构造假设:
0212
:0;:0H H ββ=≠ 对上述模型进行回归,利用样本统计量对假设作出判断(t 检验)。只有一个定性解释变量往往可用于检验一个属性因素对被解释变量的影响是否显著性存在。
(2)模型中有一个定量解释变量和一个定性解释变量。
设模型形式为
123i i i i
Y X D u βββ=+++ 式中,i Y 为消费支出;i X 为收入;i D 为虚拟变量,即
1,0i D ⎧=⎨⎩城镇居民,农村居民,1,2,3,,i n =
上述表达式的意义在于,在收入不变的条件下,研究城镇居民和农村居民对消费的不同影响,即判断城乡居民在消费上是否存在显著性差异。
农村居民年平均消费:12(,|,0)i i i i E Y X D X ββ==+
城镇居民年平均消费:122(,|,1)()i i i i E Y X D X βββ==++
可以看出,城镇居民和农村居民两种收入类型的斜率系数一样,但截距不同。说明两种类型的居民在收入的水平上存在2β的规模差异。这一假定也可通过对2β的显著性检验来判断。
(3)模型中有一个定量解释变量和一个定性解释变量,但有多个属性类型。 设模型形式为
1223
3i i i i i Y D D X u αααβ=++++ 式中,i Y 为年医疗保健费支出;i X 为居民年可支配收入;如果将受教育程度分
为三种类型:高中以下、高中、大专及大专以上,则引入虚拟变量为如下两个
231,0,i i D D ⎧=⎨⎩⎧=⎨⎩1,高中及高中以上0,其他大专及大专以上其他
高中以下的年平均医疗保健费支出:
231(|,0,0)i i i i i E Y X D D X αβ===+
高中的年平均医疗保健费支出:
2312(|,1,0)()i i i i i E Y X D D X ααβ===++
大专及大专以上年平均医疗保健费支出:
2313(|,0,1)()i i i i i E Y X D D X ααβ===++
对于模型
1223
3i i i i i Y D D X u αααβ=++++ 有
(4)模型中有一个定量解释变量和两个以上定性解释变量,每个定性解释变量有两个或以上属性类型。
设模型形式为
1223
3i i i i i Q D D Y u αααβ=++++