虚拟变量的分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
虚拟变量(dummy variable )
在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。
由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D 表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。
1.截距移动 设有模型,
y t = β0 + β1 x t + β2D + u t ,
其中y t ,x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为,
y t =⎩⎨
⎧=+++=++1
)(012010D u x D u x t
t t t βββββ
020
40
60
20
40
60
X Y
图8.1 测量截距不同
D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。
例:中国成年人体重y (kg )与身高x (cm )的回归关系如下: –105 + x D = 1 (男)
y = - 100 + x - 5D =
– 100 + x D = 0 (女) 注意:
① 若定性变量含有m 个类别,应引入m -1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap )。
② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。 ③ 定性变量中取值为0所对应的类别称作基础类别(base category )。
④ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如:
1 (大学) D = 0 (中学) -1 (小学)。
β0
β0+β2
D = 1 D =0
例1:市场用煤销售量模型(file: Dummy1) 我国市场用煤销量的季节性数据(1982-1988,《中国统计年鉴》1987,1989)见下图与表。由于受取暖用煤的影响,每年第四季度的销售量大大高于其它季度。鉴于是季节数据可设三个季节变量如下:
1 (4季度) 1 (3季度) 1 (2季度) D 1 = D
2 = D
3 =
0 (1, 2, 3季度) 0 (1, 2, 4季度) 0 (1, 3, 4季度)
2500
300035004000450050005500
82
83
84
85
86
87
88
Y
2500
30003500400045005000550082838485868788
Y
2731.03+57.15*T
全国按季节市场用煤销售量数据(file: Dummy1)
数据来源:《中国统计年鉴》1989。注:以季节数据D 1为例,EViews 命令是D1= @seas(4)。
以时间t 为解释变量(1982年1季度取t = 1)的煤销售量(y )模型如下:
y = 2431.20 + 49.00 t + 1388.09 D 1 + 201.84 D 2 + 85.00 D 3 (1)
(26.04) (10.81) (13.43) (1.96) (0.83)
R 2 = 0.95, DW = 1.2, s.e. = 191.7, F=100.4, T =28, t 0.05 (28-5) = 2.07
由于D 2,D 3的系数没有显著性,说明第2,3季度可以归并入基础类别第1季度。于是只考虑加入一个虚拟变量D 1,把季节因素分为第四季度和第一、二、三季度两类。从上式中剔除虚拟变量D 2,D 3,得煤销售量(y )模型如下:
y = 2515.86 + 49.73. t + 1290.91 D 1 (2) (32.03 (10.63) (14.79)
R 2 = 0.94, DW = 1.4, s.e. = 198.7, F = 184.9, T =28, t 0.05 (25) = 2.06
进一步检验斜率是否有变化,在上式中加入变量t D 1,
y = 2509.07 + 50.22 t + 1321.19 D 1 - 1.95 t D 1 (3)
(28.24) (9.13) (6.85) (-0.17)
R 2 = 0.94, DW = 1.4, s.e. = 202.8, F = 118.5, T =28, t 0.05 (24) = 2.06
由于回归系数 -1.95所对应的t 值是 -0.17,可见斜率未发生变化。因此以模型 (2) 作为最后确立的模型。
若不采用虚拟变量,得回归结果如下,
y = 2731.03 + 57.15 t (4)
(11.6) (4.0)
R 2 = 0.38, DW = 2.5, s.e. = 608.8, T = 28, t 0.05 (26) = 2.06
与(2)式相比,回归式(4)显得很差。
2.斜率变化
以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。当需要考虑时,可建立如下模型:
y t = β0 + β1 x t + β2 D + β3 x t D + u t ,
其中x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为,
y t =⎩⎨
⎧
=++++=++1
)()(0312010D u x D u x t
t t t ββββββ
通过检验 β3是否为零,可判断模型斜率是否发生变化。
020
40
60
80
100
20
40
60
X Y
010
20
3040506070
20
40
60
T Y
图8.5 情形1(不同类别数据的截距和斜率不同) 图8.6 情形2(不同类别数据的截距和斜率不同)
例2:用虚拟变量区别不同历史时期(file:dummy2)
中国进出口贸易总额数据(1950-1984)见上表。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D 如下
0 (1950 - 1977) D =
1 (1978 - 1984)