虚拟变量(dummy variable)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
0
0
1968
1.085
19
0
0
1951
0.595
2
0
0
1969
1.069
20
0
0
1952
0.646
3
0
0
1970
1.129
21
0
0
1953
0.809
4
0
0
1971
1.209
22
0
0
1954
0.847
5
0
0
1972
1.469
23
0
0
1955
1.
.205
24
0
0
1956
1.
.923
25
0
0
1957
1.
中国进出口贸易总额数据(1950-1984)见上表。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D如下
0(1950 - 1977)
D=
1(1978 - 1984)
中国进出口贸易总额数据(1950-1984)(单位:百亿元人民币)

tห้องสมุดไป่ตู้ade
T
D
T*D

trade
T
D
T*D
1950
0.415
例:中国成年人体重y(kg)与身高x(cm)的回归关系如下:
–105+xD= 1 (男)
y= - 100+x- 5D=
– 100+xD= 0 (女)
注意:
①若定性变量含有m个类别,应引入m-1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap)。
②关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。
GDP = 2.0922 + 0.0315 T–0.8013 D1–0.5137 D2–0.5014 D3
(64.2) (15.9) (-24.9) (-16.1) (-15.8)
R2= 0.9863, DW = 1.96,s.e.=0.05
附数据如下:

GDP
t
D1
D2
D3
1996:1
1.3156
1
1
0
0
1996:2
1.6600
2
0
1
0
1996:3
1.5919
3
0
0
1
1996:4
2.22096
4
0
0
0
1997:1
1.46856
5
1
0
0
1997:2
1.84948
6
0
1
0
1997:3
1.7972
7
0
0
1
1997:4
2.3620
8
0
0
0
1998:1
1.58994
9
1
0
0
1998:2
1.88316
10
(0+2) + (1+3)xt+ut, (D= 1)
yt=
0+1xt+ut, (D= 0)
通过检验3是否为零,可判断模型斜率是否发生变化。
图8.5情形1(不同类别数据的截距和斜率不同)图8.6情形2(不同类别数据的截距和斜率不同)
例2:用虚拟变量区别不同历史时期(file: case2及case2-solve)
1990~1997年香港季度GDP呈线性增长。1997年由于遭受东南亚金融危机的影响,经济发展处于停滞状态,1998~2002年底GDP总量几乎没有增长(见上图)。对这样一种先增长后停滞,且含有季节性周期变化的过程简单地用一条直线去拟合显然是不恰当的。为区别不同季节,和不同时期,定义季节虚拟变量D2、D3、D4和区别不同时期的虚拟变量DT如下(数据见附录):
若不采用虚拟变量,得回归结果如下,
GDP = 1.5427 + 0.0405 T
(11.0) (3.5) R2= 0.3991, DW = 2.6,s.e.=0.3
定义
1(1季度)1(2季度)1(3季度)
D1=D2=D3=
0(2, 3,4季度)0(1,3, 4季度)0(1,2, 4季度)
第4季度为基础类别。
.904
26
0
0
1958
1.287
9
0
0
1976
2.641
27
0
0
1959
1.493
10
0
0
1977
2.725
28
0
0
1960
1.284
11
0
0
1978
3.550
29
1
29
1961
0.9
.546
30
1
30
1962
0.8
.638
31
1
31
1963
0.857
14
0
0
1981
7.353
32
1
32
1964
0.975
0
1
0
1998:3
1.97044
11
0
0
1
1998:4
2.51176
12
0
0
0
1999:1
1.6784
13
1
0
0
1999:2
1.9405
14
0
1
0
1999:3
2.0611
15
0
0
1
1999:4
2.5254
16
0
0
0
2000:1
1.8173
17
1
0
0
2000:2
2.1318
18
0
1
0
2000:3
2.2633
1.截距移动
设有模型,
yt=0+1xt+2D+ut,
其中yt,xt为定量变量;D为定性变量。当D= 0或1时,上述模型可表达为,
0+1xt+ut, (D= 0)
yt=
(0+2) +1xt+ut, (D= 1)
图8.1测量截距不同
D= 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若2显著不为零,说明截距不同;若2为零,说明这种分类无显著性差异。
虚拟变量(dummy variable)
在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。
由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。
③定性变量中取值为0所对应的类别称作基础类别(base category)。
④对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如:
1(大学)
D=0(中学)
-1(小学)。
【案例1】中国季节GDP数据的拟合(虚拟变量应用,及case1-solve)
GDP序列图不用虚拟变量的情形
(1.86) (5.53) (-10.98) (12.42)
0.37 + 0.066time(D = 0, 1950 - 1977)
=
- 33.59+ 1.27time(D = 1, 1978 - 1984)
上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总额的年平均增长量扩大了18倍。
【案例3】香港季节GDP数据(单位:千亿港元)的拟合(file:case3及case3-solve)
15
0
0
1982
7.713
33
1
33
1965
1.184
16
0
0
1983
8.601
34
1
34
1966
1.271
17
0
0
1984
12.010
35
1
35
1967
1.122
18
0
0
以时间T=time为解释变量,进出口贸易总额用trade表示,估计结果如下:
trade= 0.37 + 0.066time- 33.96D+ 1.20timeD
19
0
0
1
2000:4
2.7280
20
0
0
0
数据来源:《中国统计年鉴》1998-2001
2.斜率变化
以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。当需要考虑时,可建立如下模型:
yt=0+1xt+2D+3xtD+ut,
其中xt为定量变量;D为定性变量。当D= 0或1时,上述模型可表达为,
相关文档
最新文档