虚拟变量案例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
虚拟变量(dummy variable )
在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。
由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D 表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。
1. 截距移动 设有模型,
y t = β0 + β1 x t + β2D + u t ,
其中y t ,x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为,
β0 + β1x t + u t , (D = 0) y t =
(β0 + β2) + β1x t + u t , (D = 1)
020
40
60
20
40
60
X Y
图8.1 测量截距不同
β0
β0+β2
D = 1 D =0
D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若β2显著不为
零,说明截距不同;若β2为零,说明这种分类无显著性差异。
例:中国成年人体重y (kg )与身高x (cm )的回归关系如下: –105 + x D = 1 (男)
y = - 100 + x - 5D
– 100 + x D = 0 (女) 注意:
① 若定性变量含有m 个类别,应引入m -1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap )。
② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。 ③ 定性变量中取值为0所对应的类别称作基础类别(base category )。
④ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如:
1 (大学) D = 0 (中学) -1 (小学)。
【案例1】 中国季节GDP 数据的拟合(虚拟变量应用,file :case1及case1-solve )
1.2
1.6
2.0
2.4
2.8
96:196:397:197:398:198:399:199:300:100:3
GDP
1.0
1.5
2.0
2.5
3.0
0510152025
T
GD P
GDP序列图不用虚拟变量的情形
若不采用虚拟变量,得回归结果如下,
GDP = 1.5427 + 0.0405 T
(11.0) (3.5) R2 = 0.3991, DW = 2.6,s.e. = 0.3
定义
1 (1季度) 1 (2季度) 1 (3季度)
D1 = D2 = D3 =
0 (2, 3,4季度)0 (1, 3, 4季度)0 (1, 2, 4季度)第4季度为基础类别。
GDP = 2.0922 + 0.0315 T – 0.8013 D1 – 0.5137 D2– 0.5014 D3
(64.2) (15.9) (-24.9) (-16.1) (-15.8)
R2 = 0.9863, DW = 1.96,s.e. = 0.05
附数据如下:
年GDP t D1 D2 D3
1996:1 1.3156 1 1 0 0
1996:2 1.6600 2 0 1 0
1996:3 1.5919 3 0 0 1
1996:4 2.22096 4 0 0 0
1997:1 1.46856 5 1 0 0
1997:2 1.84948 6 0 1 0
1997:3 1.7972 7 0 0 1
1997:4 2.3620 8 0 0 0
1998:1 1.58994 9 1 0 0
1998:2 1.88316 10 0 1 0
1998:3 1.97044 11 0 0 1
1998:4 2.51176 12 0 0 0
1999:1 1.6784 13 1 0 0
1999:2 1.9405 14 0 1 0
1999:3 2.0611 15 0 0 1
1999:4 2.5254 16 0 0 0
2000:1 1.8173 17 1 0 0
2000:2 2.1318 18 0 1 0
2000:3 2.2633 19 0 0 1
2000:4 2.7280 20 0 0 0
数据来源:《中国统计年鉴》1998-2001
2.斜率变化
以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。当需要考虑时,可建立如下模型:
y t = β0 + β1 x t + β2 D + β3 x t D + u t ,
其中x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为,
(β0 + β2 ) + (β1 + β3)x t + u t , (D = 1) y t =
β0 + β1 x t + u t , (D = 0)
通过检验 β3是否为零,可判断模型斜率是否发生变化。
20
40
60
80
100
20
40
60
X
Y
01020
3040506070
20
40
60
T Y
图8.5 情形1(不同类别数据的截距和斜率不同) 图8.6 情形2(不同类别数据的截距和斜率不同)
例2:用虚拟变量区别不同历史时期(file: case2及case2-solve )
中国进出口贸易总额数据(1950-1984)见上表。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D 如下
0 (1950 - 1977) D =
1 (1978 - 1984)
中国进出口贸易总额数据(1950-1984) (单位:百亿元人民币)