【计量经济学】虚拟变量的回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
E(Yi | D2 1, D3 0, Xi ) (a1 a2 ) Xi
白人女教授平均薪金:
E(Yi | D2 0, D3 1, Xi ) (a1 a3 ) X i
白人男教授平均薪金:
E(Yi | D2 1, D3 1, Xi ) (a1 a2 a3) X i
14
2
§11.1 虚拟变量的性质
虚拟变量,是一种离散结构的量,用来描述所
研究变量的发展或变异而建立的一类特殊变 量,常用来表示职业、性别、季节、灾害、 经济结构变化、受教育程度等的影响。此外 它还有一些其他的名称,如指标变量、二值 变量、范畴变量、定性变量和二分变量。 量化虚拟变量的方法通常是赋值“1”和“0”。 在回归模型中,对定量变量和虚拟变量的估计 方法是一样。
3
如果一个模型中的自变量全都是虚拟变量,通常对这
种模型的分析方法称之为方差分析。(为什么把这种
模型称为方差分析模型?)
一个教授年薪的模型:
Yi a Di ui 其中 Y表示教授的年薪
1 若是男教授 Di 0 若是女教授
E(Yi | Di 0) E(Yi | Di 1)
4
根据所给数据可以估计出如下结果:
10
§11.3 一个定量变量和一个多分定性变量
假设在横截面数据的基础上,分析个人保健支出对 个人收入和教育水平的回归。教育水平是定性变 量,分为三类:低于中学、中学和大学。模型中 引入两个虚拟变量。模型如下:
Yi a1 a2D2i a3D3i X i ui
其中Yi =保健年度支出 X i =年度收入
a. Dependent Variable: Y
Standardized C o effic ients
Beta
1.1877 1.2236 -.9626
t -5.2734 3.1549 9.2382 -3.1095
Sig. .000 .007 .000 .008
22
个 .6
人 储
.5
Yˆt 0.2663 0.0470Xt
§15.5 一个例子:“兼职”经济 学
在国外,把持有两份工作的人称为“夜袭者”。Shisko和 Rostker为了发现是什么因素影响这些人的工薪。根据318 名夜袭者的数据建立了如下回归模型:
wˆ m 37.07 0.403w0 90.06race 75.51urban 47.33hisch113.64reg 2.26age
【计量经济学】虚拟变量的回 归
1
第11章 关于虚拟变量的回归
1、虚拟变量的性质 2、对一个定量变量和一个两分定性变量的回归 3、对一个定量变量和一个多分定性变量的回归 4、对一个定量变量和两个定性变量的回归 5、一个例子:“兼职”经济学 6、检验回归模型的结构稳定性 7、比较两个回归:虚拟变量法 8、比较两个回归:进一步说明 9、交互作用效应 10、虚拟变量在季节分析中的应用 11、分段线性回归 12、在时间序列和横截面数据的合并中使用虚拟变量 13、虚拟变量方法的一些技术问题
回归模型: Yi a1 a2D1 1Xi 2 (Di Xi ) ui
Yi 和 X i同前,D1 1 观测值属于重建时期;D1 0 观测值 属于重建后时期。假定E(ui)=0
E(Yi | Di 0, Xi ) 1 1Xi E(Yi | Di 1, Xi ) (1 2 ) (1 2 ) Xi
R2 0.9128
29
Coeff icientsa
Unstandardized C o effic ients
Model
1
(C o nstant)
B
Std. Error
2.7331
.1014
V
-1.5126
.1210
D
1.1667
.3178
DV
-.8679
.4306
a. Dependent Variable: UN
Mo d el 1
(C o nstant) 性别
B 18.0000 3.2800
Std. Error .3118 .4409
a. Dependent Variable: 起 薪 千 美 元
Standardized C o effic ients
Beta
.935
t 57.735
7.439
Sig. .000 .000
R
R Square
.9347a
.8737
A d justed R Square
.8579
a. Predictors: (Con stan t), 性 别
Std. Error of the Estimate
.6971
Coeff icientsa
Unstandardized C o effic ients
wˆ m 37.07 0.403 w0 2.26age
当所有虚拟变量都为1时,可以得到非白 人、城镇、西部、中学毕业夜袭者的平均 小时工薪模型:
wˆ m 183 .49 0.403w0 2.26age
16
§11.6 检验回归模型的结构稳定
前面的虚拟变量模型只考虑了影响回归截距的情 形,这一节将分析存在变斜率的虚拟变量模型。仍 然用联合王国储蓄-收入数据。(见表15.2) 数据分为两期:
Yˆi 18.00 3.28Di t (57.74)(7.439) R2 0.8737
估计方法与前面说讲的方法没有区别。由于这个模 型与单因素方差分析统计模型的原理及所要表达的 统计意义一致,因此这个最简单的虚拟变量模型也 称之为方差分析模型
5
6
Model Summar y
Model 1
不同。 4、1 1且 2 2 ;相异回归, 所有这些情形都说明模型发生了结构性变化,在 前面曾经讲到的邹至庄检验对结构性变化有很好 的描述,下面将用虚拟变量模型来处理结构性变 化,某些地方有着比邹检验更好的性质。
18
19
§11.7 比较两个回归:虚拟变量法
将储蓄-收入模型中两期数据进行合并,重新建立以下
-1.6
-1.8 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
收入百万英镑
24
重 2.4
建 2.0 后
期 1.6
个 人 1.2
储 蓄
.8
.4
.0
Yˆt 1.7502 0.1504Xt
-.4
-.8 -1.2
-1.6
-2.0 0 2 4 6 8 10 12 14 16 18 20 22 24 26
1958年第四季度至1966年第三季度模型: UNt 2.74911.5294Vt 1966年第三季度至1971年第二季度模型: UNt 3.8998 2.3805Vt
31
32
§11.9 交互作用效应
再考虑这样一个模型:
Yi a1 a2D2i a3D3i Xi ui
2为级差截距;2位级差斜率系数
20
根据表15.2中的数据得到如下结果:
Yˆi 1.7502 1.4839Di 0.1504Xi 0.1034Di Xi t (5.2733)(3.1545) (9.2238) (3.114)
R2 0.9425
各个系数在统计上都是显著的。可以肯定两个 时期的回归是相异的。
Std. Error of the Estimate
.15417
Coeff icientsa
Unstandardized C o effic ients
Model 1
(C o nstant) D X DX
B -1.7502 1.4839
.1505 -.1034
Std. Error .3319 .4704 .0163 .0333
wm表示夜袭工资, w0 表示主业工资,
race=0白人,
race=1非白人;
urban=0非城里人, urban=1城里人;
reg=0非西部,
reg =1西部;
hisch=0非毕业, hisch=1中学毕业;
age表示年龄。
15
当所有虚拟变量都为0时,可以得到白人、 非城镇、非西部、非中学毕业夜袭者的平 均小时工薪模型:
1 如果是高中教育 D2 0 其他
1 如果是大学教育 D3 0 其他
11
12
§11.4 一个定量变量和两个定性变量
回顾前面学院教授薪金回归模型,现在假定除 了教龄和性别之外,肤色也是一个重要的薪 金决定因素。肤色假定只有两种情况:黑和 白。于是模型改写为:
Yi a1 a2D2i a3D3i Xi ui
重建时期
Yˆt 0.2663 0.0470Xt
重建后时期
Yˆt 1.7502 0.1504Xt
21
Model Summar y
Model 1
R
R Square
.9760a
.9526
A d justed R Square
.9425
a. Predictors: (Constant), DX, X, D
蓄 .4
百
万 .3
英
镑 .2
.1
0.0
-.1
-.2
-.3
-.4 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
收入百万英镑
23
个 .6 人 .4 储 蓄 .2 百 .0 万 英 -.2 镑 -.4
-.6 -.8
Yˆt 0.2663 0.0470Xt
-1.0
-1.2
-1.4
7
§11.2 一个定量变量和一个两分定性变量
仍然用上面的例子,只是引入教龄作为解释变量。 有如下模型:
Yi a1 a2Di X i ui
X表i 示教龄,其他定义如前。这个模型的系数
估计用ols即可完成。
女教授平均薪金:E(Yi | X i , Di 0) 1 X i 男教授平均薪金:E(Yi | X i , Di 1) (1 2) X i
虚拟变量技术在实际中有很多的应用,下面 是一个关于英国失业和空缺的例子。从
1958 年第4季度到1971年第2季度的失业率与职
位 空缺率的关系。通过散点图(p508图15.6)
可 以看出在1966年4季度前后曲线发生了明显 的变动。作者认为这是因为工党的失业补贴 政策发生了重大变化,致使失业等待时间更28
8
9
主要以下几点需要注意:
1、虽然有男、女两个分类,但是只用一个虚 拟变量。更通用的规则是:如果一个定性变 量有m个类别,则引入m-1个虚拟变量。
2、虚拟变量的取值是随意,但是一旦取定之 后要能合理地解释其意义。 3、被赋予零值的那个类别通常称为基底。它 是用以和其他类别作比较的一个基础。 4、虚拟变量的系数称为级差截距系数,它表 示取值1的类别的截距值和基底类的截距值相 比有多大差别。
其中 Yi 表示学院教授的薪金 X i 表示教龄
1 男性 D2 0 女性
1 白色 D3 0 黑色
13
Βιβλιοθήκη Baidu
Yi a1 a2D2i a3D3i Xi ui
假定 E(ui ) 0,则可以得到以下回归:
黑人女教授平均薪金:
E(Yi | D2 0, D3 0, Xi ) a1 Xi
黑人男教授平均薪金:
Standardi zed
C o effic ien ts
Beta
-.5827 1.2955 -.7047
t 26.9488 -12.4994 3.6711 -2.0158
Sig. .0000 .0000 .0006 .0496
30
UNi 2.74911.1507Dt 1.5294Vt 0.8511(DtVt ) t (26.896)(3.6288) (12.5552)(1.9819)
建立以下模型:
UNt a1 a2Dt 1Vt 2 (DtVt ) ut
UN=失业率,% V=职位空缺率。% D=1从1966年4季度开始以后的时期
=0 1966年4季度以前的时期 估计得到如下结果:
UNi 2.74911.1507Dt 1.5294Vt 0.8511(DtVt ) t (26.896)(3.6288) (12.5552)(1.9819)
重建后期收入
25
26
虚拟变量法相比邹至庄检验的优越性:
1、用虚拟变量只需做一个回归。 2、一个回归可以做各种检验。截距检验和斜率
检验都可以一次完成。 3、邹至庄检验没有明确告诉是哪一个系数发生
变化,而虚拟变量模型则可以很清楚看出这一 点。 4、合并后样本容量变大,估计精度也有所提高
27
§11.8 比较两个回归:进一步说明
重建时期: Yi 1 2 Xi u1i 重建后时期: Yi 1 2 X i u2i
其中 Y表示储蓄,X表示收入。
17
这两个回归模型可能有以下四种情形:
1、1 1和 2 2 ;两个回归相同。(重复回归)
2、1 1但 2 2 ;平行回归,截距不同。 3、1 1但 2 2 ;相汇回归,截距相同,斜率
白人女教授平均薪金:
E(Yi | D2 0, D3 1, Xi ) (a1 a3 ) X i
白人男教授平均薪金:
E(Yi | D2 1, D3 1, Xi ) (a1 a2 a3) X i
14
2
§11.1 虚拟变量的性质
虚拟变量,是一种离散结构的量,用来描述所
研究变量的发展或变异而建立的一类特殊变 量,常用来表示职业、性别、季节、灾害、 经济结构变化、受教育程度等的影响。此外 它还有一些其他的名称,如指标变量、二值 变量、范畴变量、定性变量和二分变量。 量化虚拟变量的方法通常是赋值“1”和“0”。 在回归模型中,对定量变量和虚拟变量的估计 方法是一样。
3
如果一个模型中的自变量全都是虚拟变量,通常对这
种模型的分析方法称之为方差分析。(为什么把这种
模型称为方差分析模型?)
一个教授年薪的模型:
Yi a Di ui 其中 Y表示教授的年薪
1 若是男教授 Di 0 若是女教授
E(Yi | Di 0) E(Yi | Di 1)
4
根据所给数据可以估计出如下结果:
10
§11.3 一个定量变量和一个多分定性变量
假设在横截面数据的基础上,分析个人保健支出对 个人收入和教育水平的回归。教育水平是定性变 量,分为三类:低于中学、中学和大学。模型中 引入两个虚拟变量。模型如下:
Yi a1 a2D2i a3D3i X i ui
其中Yi =保健年度支出 X i =年度收入
a. Dependent Variable: Y
Standardized C o effic ients
Beta
1.1877 1.2236 -.9626
t -5.2734 3.1549 9.2382 -3.1095
Sig. .000 .007 .000 .008
22
个 .6
人 储
.5
Yˆt 0.2663 0.0470Xt
§15.5 一个例子:“兼职”经济 学
在国外,把持有两份工作的人称为“夜袭者”。Shisko和 Rostker为了发现是什么因素影响这些人的工薪。根据318 名夜袭者的数据建立了如下回归模型:
wˆ m 37.07 0.403w0 90.06race 75.51urban 47.33hisch113.64reg 2.26age
【计量经济学】虚拟变量的回 归
1
第11章 关于虚拟变量的回归
1、虚拟变量的性质 2、对一个定量变量和一个两分定性变量的回归 3、对一个定量变量和一个多分定性变量的回归 4、对一个定量变量和两个定性变量的回归 5、一个例子:“兼职”经济学 6、检验回归模型的结构稳定性 7、比较两个回归:虚拟变量法 8、比较两个回归:进一步说明 9、交互作用效应 10、虚拟变量在季节分析中的应用 11、分段线性回归 12、在时间序列和横截面数据的合并中使用虚拟变量 13、虚拟变量方法的一些技术问题
回归模型: Yi a1 a2D1 1Xi 2 (Di Xi ) ui
Yi 和 X i同前,D1 1 观测值属于重建时期;D1 0 观测值 属于重建后时期。假定E(ui)=0
E(Yi | Di 0, Xi ) 1 1Xi E(Yi | Di 1, Xi ) (1 2 ) (1 2 ) Xi
R2 0.9128
29
Coeff icientsa
Unstandardized C o effic ients
Model
1
(C o nstant)
B
Std. Error
2.7331
.1014
V
-1.5126
.1210
D
1.1667
.3178
DV
-.8679
.4306
a. Dependent Variable: UN
Mo d el 1
(C o nstant) 性别
B 18.0000 3.2800
Std. Error .3118 .4409
a. Dependent Variable: 起 薪 千 美 元
Standardized C o effic ients
Beta
.935
t 57.735
7.439
Sig. .000 .000
R
R Square
.9347a
.8737
A d justed R Square
.8579
a. Predictors: (Con stan t), 性 别
Std. Error of the Estimate
.6971
Coeff icientsa
Unstandardized C o effic ients
wˆ m 37.07 0.403 w0 2.26age
当所有虚拟变量都为1时,可以得到非白 人、城镇、西部、中学毕业夜袭者的平均 小时工薪模型:
wˆ m 183 .49 0.403w0 2.26age
16
§11.6 检验回归模型的结构稳定
前面的虚拟变量模型只考虑了影响回归截距的情 形,这一节将分析存在变斜率的虚拟变量模型。仍 然用联合王国储蓄-收入数据。(见表15.2) 数据分为两期:
Yˆi 18.00 3.28Di t (57.74)(7.439) R2 0.8737
估计方法与前面说讲的方法没有区别。由于这个模 型与单因素方差分析统计模型的原理及所要表达的 统计意义一致,因此这个最简单的虚拟变量模型也 称之为方差分析模型
5
6
Model Summar y
Model 1
不同。 4、1 1且 2 2 ;相异回归, 所有这些情形都说明模型发生了结构性变化,在 前面曾经讲到的邹至庄检验对结构性变化有很好 的描述,下面将用虚拟变量模型来处理结构性变 化,某些地方有着比邹检验更好的性质。
18
19
§11.7 比较两个回归:虚拟变量法
将储蓄-收入模型中两期数据进行合并,重新建立以下
-1.6
-1.8 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
收入百万英镑
24
重 2.4
建 2.0 后
期 1.6
个 人 1.2
储 蓄
.8
.4
.0
Yˆt 1.7502 0.1504Xt
-.4
-.8 -1.2
-1.6
-2.0 0 2 4 6 8 10 12 14 16 18 20 22 24 26
1958年第四季度至1966年第三季度模型: UNt 2.74911.5294Vt 1966年第三季度至1971年第二季度模型: UNt 3.8998 2.3805Vt
31
32
§11.9 交互作用效应
再考虑这样一个模型:
Yi a1 a2D2i a3D3i Xi ui
2为级差截距;2位级差斜率系数
20
根据表15.2中的数据得到如下结果:
Yˆi 1.7502 1.4839Di 0.1504Xi 0.1034Di Xi t (5.2733)(3.1545) (9.2238) (3.114)
R2 0.9425
各个系数在统计上都是显著的。可以肯定两个 时期的回归是相异的。
Std. Error of the Estimate
.15417
Coeff icientsa
Unstandardized C o effic ients
Model 1
(C o nstant) D X DX
B -1.7502 1.4839
.1505 -.1034
Std. Error .3319 .4704 .0163 .0333
wm表示夜袭工资, w0 表示主业工资,
race=0白人,
race=1非白人;
urban=0非城里人, urban=1城里人;
reg=0非西部,
reg =1西部;
hisch=0非毕业, hisch=1中学毕业;
age表示年龄。
15
当所有虚拟变量都为0时,可以得到白人、 非城镇、非西部、非中学毕业夜袭者的平 均小时工薪模型:
1 如果是高中教育 D2 0 其他
1 如果是大学教育 D3 0 其他
11
12
§11.4 一个定量变量和两个定性变量
回顾前面学院教授薪金回归模型,现在假定除 了教龄和性别之外,肤色也是一个重要的薪 金决定因素。肤色假定只有两种情况:黑和 白。于是模型改写为:
Yi a1 a2D2i a3D3i Xi ui
重建时期
Yˆt 0.2663 0.0470Xt
重建后时期
Yˆt 1.7502 0.1504Xt
21
Model Summar y
Model 1
R
R Square
.9760a
.9526
A d justed R Square
.9425
a. Predictors: (Constant), DX, X, D
蓄 .4
百
万 .3
英
镑 .2
.1
0.0
-.1
-.2
-.3
-.4 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
收入百万英镑
23
个 .6 人 .4 储 蓄 .2 百 .0 万 英 -.2 镑 -.4
-.6 -.8
Yˆt 0.2663 0.0470Xt
-1.0
-1.2
-1.4
7
§11.2 一个定量变量和一个两分定性变量
仍然用上面的例子,只是引入教龄作为解释变量。 有如下模型:
Yi a1 a2Di X i ui
X表i 示教龄,其他定义如前。这个模型的系数
估计用ols即可完成。
女教授平均薪金:E(Yi | X i , Di 0) 1 X i 男教授平均薪金:E(Yi | X i , Di 1) (1 2) X i
虚拟变量技术在实际中有很多的应用,下面 是一个关于英国失业和空缺的例子。从
1958 年第4季度到1971年第2季度的失业率与职
位 空缺率的关系。通过散点图(p508图15.6)
可 以看出在1966年4季度前后曲线发生了明显 的变动。作者认为这是因为工党的失业补贴 政策发生了重大变化,致使失业等待时间更28
8
9
主要以下几点需要注意:
1、虽然有男、女两个分类,但是只用一个虚 拟变量。更通用的规则是:如果一个定性变 量有m个类别,则引入m-1个虚拟变量。
2、虚拟变量的取值是随意,但是一旦取定之 后要能合理地解释其意义。 3、被赋予零值的那个类别通常称为基底。它 是用以和其他类别作比较的一个基础。 4、虚拟变量的系数称为级差截距系数,它表 示取值1的类别的截距值和基底类的截距值相 比有多大差别。
其中 Yi 表示学院教授的薪金 X i 表示教龄
1 男性 D2 0 女性
1 白色 D3 0 黑色
13
Βιβλιοθήκη Baidu
Yi a1 a2D2i a3D3i Xi ui
假定 E(ui ) 0,则可以得到以下回归:
黑人女教授平均薪金:
E(Yi | D2 0, D3 0, Xi ) a1 Xi
黑人男教授平均薪金:
Standardi zed
C o effic ien ts
Beta
-.5827 1.2955 -.7047
t 26.9488 -12.4994 3.6711 -2.0158
Sig. .0000 .0000 .0006 .0496
30
UNi 2.74911.1507Dt 1.5294Vt 0.8511(DtVt ) t (26.896)(3.6288) (12.5552)(1.9819)
建立以下模型:
UNt a1 a2Dt 1Vt 2 (DtVt ) ut
UN=失业率,% V=职位空缺率。% D=1从1966年4季度开始以后的时期
=0 1966年4季度以前的时期 估计得到如下结果:
UNi 2.74911.1507Dt 1.5294Vt 0.8511(DtVt ) t (26.896)(3.6288) (12.5552)(1.9819)
重建后期收入
25
26
虚拟变量法相比邹至庄检验的优越性:
1、用虚拟变量只需做一个回归。 2、一个回归可以做各种检验。截距检验和斜率
检验都可以一次完成。 3、邹至庄检验没有明确告诉是哪一个系数发生
变化,而虚拟变量模型则可以很清楚看出这一 点。 4、合并后样本容量变大,估计精度也有所提高
27
§11.8 比较两个回归:进一步说明
重建时期: Yi 1 2 Xi u1i 重建后时期: Yi 1 2 X i u2i
其中 Y表示储蓄,X表示收入。
17
这两个回归模型可能有以下四种情形:
1、1 1和 2 2 ;两个回归相同。(重复回归)
2、1 1但 2 2 ;平行回归,截距不同。 3、1 1但 2 2 ;相汇回归,截距相同,斜率