虚拟变量案例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
虚拟变量(dummy variable )
在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。
例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。
这些因素也应该包括在模型中。
由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。
这种变量称作虚拟变量,用D 表示。
虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。
1. 截距移动 设有模型,
y t = β0 + β1 x t + β2D + u t ,
其中y t ,x t 为定量变量;D 为定性变量。
当D = 0 或1时,上述模型可表达为,
β0 + β1x t + u t , (D = 0) y t =
(β0 + β2) + β1x t + u t , (D = 1)
020
40
60
20
40
60
X Y
图8.1 测量截距不同
D = 1或0表示某种特征的有无。
反映在数学上是截距不同的两个函数。
若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。
例:中国成年人体重y (kg )与身高x (cm )的回归关系如下:
–105 + x D = 1 (男)
y = - 100 + x - 5D =
– 100 + x D = 0 (女) 注意:
① 若定性变量含有m 个类别,应引入m -1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap )。
② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。
③ 定性变量中取值为0所对应的类别称作基础类别(base category )。
④ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。
如:
1 (大学) D = 0 (中学) -1 (小学)。
β0
β0+β2
D = 1 D =0
【案例1】 中国季节GDP 数据的拟合(虚拟变量应用,file :case1及case1-solve )
1.2
1.6
2.0
2.4
2.8
96:196:397:197:398:198:399:199:300:100:3
GDP
1.0
1.5
2.0
2.5
3.0
05101520
25
T
GDP
GDP 序列图 不用虚拟变量的情形
若不采用虚拟变量,得回归结果如下,
GDP = 1.5427 + 0.0405 T
(11.0) (3.5) R 2
= 0.3991, DW = 2.6, s.e. = 0.3 定义
1 (1季度) 1 (2季度) 1 (3季度) D 1 = D
2 = D
3 =
0 (2, 3,4季度) 0 (1, 3, 4季度) 0 (1, 2, 4季度)
第4季度为基础类别。
GDP = 2.0922 + 0.0315 T – 0.8013 D1 – 0.5137 D2– 0.5014 D3 (64.2) (15.9) (-24.9) (-16.1) (-15.8)
R 2
= 0.9863, DW = 1.96, s.e. = 0.05
附数据如下:
年 GDP t D1 D2 D3 1996:1 1.3156 1 1 0 0 1996:2 1.6600 2 0 1 0 1996:3 1.5919 3 0 0 1 1996:4 2.22096 4 0 0 0 1997:1 1.46856 5 1 0 0 1997:2 1.84948 6 0 1 0 1997:3 1.7972 7 0 0 1 1997:4 2.3620 8 0 0 0 1998:1 1.58994 9 1 0 0 1998:2 1.88316 10 0 1 0 1998:3 1.97044 11 0 0 1 1998:4 2.51176 12 0 0 0 1999:1 1.6784 13 1 0 0 1999:2 1.9405 14 0 1 0 1999:3 2.0611 15 0 0 1 1999:4 2.5254 16 0 0 0 2000:1 1.8173 17 1 0 0 2000:2 2.1318 18 0 1 0 2000:3 2.2633 19 0 0 1 2000:4
2.7280
20
数据来源:《中国统计年鉴》1998-2001
2. 斜率变化
以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。
当需要考虑时,可建立如下模型:
y t = β0 + β1 x t + β2 D + β3 x t D + u t ,
其中x t 为定量变量;D 为定性变量。
当D = 0 或1时,上述模型可表达为,
(β0 + β2 ) + (β1 + β3)x t + u t , (D = 1) y t =
β0 + β1 x t + u t , (D = 0) 通过检验 β3是否为零,可判断模型斜率是否发生变化。
020
40
60
80
100
20
40
60
X Y
010
20
3040506070
20
40
60
T Y
图8.5 情形1(不同类别数据的截距和斜率不同) 图8.6 情形2(不同类别数据的截距和斜率不同)
例2:用虚拟变量区别不同历史时期(file: case2及case2-solve )
中国进出口贸易总额数据(1950-1984)见上表。
试检验改革前后该时间序列的斜率是否发生变化。
定义虚拟变量D 如下
0 (1950 - 1977) D =
1 (1978 - 1984)
中国进出口贸易总额数据(1950-1984)(单位:百亿元人民币)年trade T D T *D年trade T D T*D
1950 0.415 1 0 0 1968 1.085 19 0 0
1951 0.595 2 0 0 1969 1.069 20 0 0
1952 0.646 3 0 0 1970 1.129 21 0 0
1953 0.809 4 0 0 1971 1.209 22 0 0
1954 0.847 5 0 0 1972 1.469 23 0 0
1955 1.098 6 0 0 1973 2.205 24 0 0
1956 1.087 7 0 0 1974 2.923 25 0 0
1957 1.045 8 0 0 1975 2.904 26 0 0
1958 1.287 9 0 0 1976 2.641 27 0 0
1959 1.493 10 0 0 1977 2.725 28 0 0
1960 1.284 11 0 0 1978 3.550 29 1 29
1961 0.908 12 0 0 1979 4.546 30 1 30
1962 0.809 13 0 0 1980 5.638 31 1 31
1963 0.857 14 0 0 1981 7.353 32 1 32
1964 0.975 15 0 0 1982 7.713 33 1 33
1965 1.184 16 0 0 1983 8.601 34 1 34
1966 1.271 17 0 0 1984 12.010 35 1 35
1967 1.122 18 0 0
以时间T=time为解释变量,进出口贸易总额用trade表示,估计结果如下:
trade = 0.37 + 0.066 time - 33.96D + 1.20 time D
(1.86) (5.53) (-10.98) (12.42)
0.37 + 0.066 time (D = 0, 1950 - 1977)
=
- 33.59 + 1.27 time (D = 1, 1978 - 1984)
上式说明,改革前后无论截距和斜率都发生了变化。
进出口贸易总额的年平均增长量扩大了18倍。
【案例3】香港季节GDP数据(单位:千亿港元)的拟合(file: case3及case3-solve)
1.0
1.5
2.02.5
3.03.5
4.0
GDP
1.0
1.5
2.02.5
3.03.5
4.0
90919293949596979899000102
GDP
1.6952+0.0377*T
1990~1997年香港季度GDP 呈线性增长。
1997年由于遭受东南亚金融危机的影响,经济发展处于停滞状态,1998~2002年底GDP 总量几乎没有增长(见上图)。
对这样一种先增长后停滞,且含有季节性周期变化的过程简单地用一条直线去拟合显然是不恰当的。
为区别不同季节,和不同时期,定义季节虚拟变量D2、D3、D4和区别不同时期的虚拟变量DT 如下(数据见附录):
1 (第2季度) D
2 =
0 (其他季度) 1 (第3季度) D 3 =
0 (其他季度) 1 (第4季度) D 4 =
0 (其他季度)
1 (1998:1~2002:4) DT =
0 (1990:1 ~1997:4)
得估计结果如下:
GDP t = 1.1573 + 0.0668 t + 0.0775 D 2 + 0.2098 D 3 + 0.2349 D 4+ 1.8338 DT - 0.0654 DT t (50.8) (64.6) (3.7) (9.9) (11.0) (19.9) (-28.0)
R 2
= 0.99, DW = 0.9, s.e. = 0.05, F=1198.4, T =52, t 0.05 (52-7) = 2.01
对于1990:1 ~1997:4
GDP t = 1.1573 + 0.0668 t + 0.0775 D 2 + 0.2098 D 3 + 0.2349 D 4 对于1998:1~2002:4
GDP t = 2.9911 + 0.0014 t + 0.0775 D 2 + 0.2098 D 3 + 0.2349 D 4
如果不采用虚拟变量拟合效果将很差:
GDP t = 1.6952 + 0.0377 t
(20.6) (13.9)
R 2
= 0.80, DW = 0.3, T =52, t 0.05 (52-2) = 2.01
【案例4】 天津市粮食市场小麦批发价与面粉零售价的关系研究(file: xiezhiyong ) 首先看天津市粮食市场小麦批发价格的变化情况(图1)。
1995年初,天津市粮食市场的小麦批发价格首先放开。
在经历5个月的上扬之后,进入平稳波动期。
从1996年8月份开始小麦批发价格一路走低。
至2002年12月份,小麦批发价格降至是1160元/吨。
其次看面粉零售价的变化情况。
因为面粉零售价格直接关系到居民的日常生活,所以开始时没有与小麦批发价格一起放开。
当小麦批发价格一路看涨时,1995年1月至1996年6月面粉零售价格一直处于2.14元/千克的水平上。
1996年7月起,面粉零售价格也开始在市场上放开。
受小麦批发价格上涨的影响,一个月内面粉零售价格从2.14元/千克涨到2.74元/千克。
在这个价位上坚持了11个月之后,面粉零售价格开始下降。
与小麦批发价格的下降相一致,在经历了5年零7个月的变化之后,面粉零售价格又恢复到接近开放前2.14元/千克的水平上(2.17元)。
散点图如图2。
按时间分析这些观测点的变化情况(见图3,逆时针方向运动)。
见图4,
直接拟合这些数据效果将很差(R 2
= 0.027, r = 0.17)。
2.0
2.22.42.62.8
1000
12001400
1600
18002000
95
96
97
98
99
00
01
02
retail price
wholesale
2.0
2.2
2.4
2.6
2.8
1000
1200
1400
1600
1800
2000
wholesale
retail price
图1 图2
2.0
2.22.42.6
2.8
1000
1200
1400
1600
1800
2000
wholesale
retail price
2.0
2.2
2.4
2.62.8
1000
1200
1400
1600
1800
2000
wholesale
retail price
图3 图4
利用虚拟变量技术,在模型中加入虚拟变量。
定义
D = 0,(1995: 1~1996:6,面粉零售价格放开之前), D = 1,(1996:7~2002:12,面粉零售价格放开之后)。
取对数关系建立模型。
Lnsale 的系数没有显著性(对于面粉零售价格放开之前的散点来说回归直线是一条水平线)。
剔出Lnsale 变量,得估计结果
PRICE = 2.140 + 1.1215 Lnsale ⨯D – 7.7458⨯D
(131.5) (23.9) (-23.0) R 2
= 0.9054,
PRICE = 2.140, D=0 PRICE = – 5.6058 + 1.1215 Lnsale , D=1
一条回归直线的斜率为零,一条回归直线的斜率为1.12。
可决系数从不加虚拟变量模型的0.046增加到0.905(输出结果见下)。
本例也可以建立倒数模型:
2.0
2.2
2.4
2.6
2.8
0.00040.00050.00060.00070.00080.00090.0010
1/SALE
PR IC E
PRICE = 2.140 + 1.5141⨯D – 1565.9 (1/sale ) ⨯D
(145.9) (32.1) (-27.0) R 2
= 0.9231,
PRICE = 2.140, D=0
PRICE = 3.6541 – 1565.9(1/sale), D=1。