第五章_1 虚拟变量模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【例5.1.1】考察1990年前后的中国居民的总储蓄-收入关系是否已发 生变化。
表5.1.1中给出了中国1979-2001年以城乡储蓄存款余额代表的 居民储蓄以及以GNP代表的居民收入的数据。
90年前 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990
D1=1,D2=1
薪
金
D1=0,D2=1
D1=1,D2=0
D1=0,D2=0
工龄
(二)乘法方式
• 模型中将虚拟变量以与其它解释变量相乘构成一个新的变量的方 式引入模型 •加法方式引入虚拟变量,可以考察截距的不同,而在许多情况下往 往是斜率就有变化,或斜率、截距同时发生变化。 •斜率的变化可通过以乘法方式引入虚拟变量来测度。
◦ 其取值为具有实际含义的数据 ◦ 可以在建模过程中直接使用这些变量及其数据
定性变量:测度等级名义(nominal)或顺序(ordinal)尺度的变量, 如性别、教育程度等
◦ 其取值为类别或顺序,可用数值表示,但数值不具有实际含义,仅是表示 类别或序次的代码
性别(1-男;0-女)、教育程度(1-小学、2-初中、3-高中、4-大学)
此即所谓的“虚拟变量陷阱”!
1. 虚拟变量的设置原则
对每个定性变量而言,所引入的虚拟变量的个数应该比该变量的类别数 少1,即:如果某个定性变量具有m个类别,则只需在模型中引入(m-1) 个虚拟变量。
例1:定性变量:教育程度E:1-本科;2-硕士;3-博士
虚拟变量:
1
E1
0
硕士 其它
1 博士
第五章 经典单方程计量经济学模型专门问题
§5.1 虚拟变量模型 §5.2 滞后变量模型
§5.1 虚拟变量模型
一、虚拟变量的含义 二、虚拟变量的设置 三、虚拟变量的引入
一、虚拟变量的含义
•一种人为构造的、取值仅为“1”或“0”的变量
1. 定量变量和定性变量
定量变量:测度等级为间距(interval)或比率(ratio)尺度的变量, 如需求量、价格、收入、产量等
• “0”表示不属于该类别或不具备该属性
• 实质上,虚拟变量是定性变量的一种“量化”工具,用以反映观测在定 性变量上所属的类别或所具有的属性。 • 虚拟变量可以类似于定量变量一样直接引入模型,而不丧失模型的合理 性,因此:正确应用定性变量的一种方式是通过设置“虚拟变量”引入定 性变量。 • 由此,包含虚拟变量的模型称之为虚拟变量模型
(3)这一设置原则仅指对于包含截距项的回归模型而言,此时如果违 背这一原则则将陷入所谓的“虚拟变量陷阱”。
• 如果模型不包含截距项,那么即使引入与类别数相同数量的虚 拟变量也不会造成多重共线性。
E1
1 0
硕士 其它
1 博士
E2
0
其它
1 本科
E3
0
其它
Yi 1 X i 2 E1i+3 E2i 4 E3i i
0
其它
这意味着:对于某个硕士生:E1=1 E2=0 对于某个博士生:E1=0 E2=1 对于某个本科生:E1=0 E2=0
建立如下模型: Yi 0 1 X i 2 E1i+3 E2i i
于是:对于本科生,其收入为:E(Yi|E 1= 0,E 2= 0) 0 1 Xi 对于硕士生,其收入为:E(Yi|E 1= 1,E 2= 0) 0 1 Xi 2 对于博士生,其收入为:E(Yi|E 1= 1,E 2= 0) 0 1 Xi 3
i=1,2…,n2
则有可能出现下述四种情况中的一种:
(1) 1=1 ,且2=2 ,即两个回归相同,称为重合回归(Coincident Regressions);
(2) 11 ,但2=2 ,即两个回归的差异仅在其截距,称为平行回归 (Parallel Regressions);
——教育程度的变化对收入的影响是固定不变的,即:教育程度每提升一个 等级,所带来的收入的变动均为β2 ◦ 显然,对于大多数实际情况而言,这种假定存在明显的不合理性
问题:建模过程中如何使用定性变量?
3. 正确应用定性变量的方式
【例】:对于上例,设置如下两个变量:
1 硕士
E1
0
其它
1 博士
E
2
Yi 0 1 X i 2 Di i
假定E(i)=0,则: • 对于女职工(D=0),其平均薪金为:
E(Yi | X i , Di 0) 0 1 X i
• 对于男职工(D=1),其平均薪金为:
E(Yi | X i , Di 1) ( 0 2 ) 1 X i
• 其差异为:
E (男)-E (女)= 2
支出
低于中学教育
收入
# 多个定性变量的例子
【例3】:在上述职工薪金的例中,再引入代表学历的虚拟变量D2
• 模型中的虚拟变量
1 男 D1 0 女
1 本科及以上学历 D2 0 本科以下学历
• 职工薪金的回归模型可设计为:
Yi 0 1 X i 2 D1 3 D2 i
注意:参照组是哪一类?
Yi 0 1 Xi 2 E1i+3 E2i 4 E3i i
【分析】: 假定我们有6个观测值,其中2个硕士、1个博士、3个本科生 考虑模型的设计矩阵X:
1 X1 1 0 0
1
X2
1
0
0
1 X
X3
0
1
0
1 X4 0 0 1
1 1
X5 X6
0 0
0 0
1 1
显然,矩阵X是不满秩的,产生了“完全的多重共线性”!
表 5.1.1
储蓄 281 399.5 523.7 675.4 892.5 1214.7 1622.6 2237.6 3073.3 3801.5 5146.9 7034.2
1979~2001 年中国居民储蓄与收入数据(亿元)
GNP
90年后
储蓄
4038.2
1991
9107
4517.8
1992
11545.4
(一)Biblioteka Baidu法方式
• 模型中将虚拟变量以相加的方式引入模型 • 可以直接考察定性变量不同类别的变化对模型因变量的影响 • 本质上,可以考察不同回归模型的截距项是否存在差异
【例1】考虑性别(男、女)、工龄(X)和薪金(Y)的关系。 设置虚拟变量:
D (1 男,0-女) 注意:参照组是什么?
建立如下模型:
大多数研究者认为 ,在一个含有截距的方程中,他们能更容易地处 理他们通常感兴趣的问题,是否有某个组与基准组有所不同以及有 多大不同,所以在方程中包括截距更方便。
——肯尼迪(Kennedy)
三、虚拟变量的引入
虚拟变量做为解释变量引入模型有两种基本方式: 加法方式和乘法方式。
注意不同方式下应用的目的
这里,虚拟变量D以与X相乘的方式引入了模型中,从而可用来考察 消费倾向的变化。
假定E(i)= 0,上述模型所表示的函数可化为:
◎正常年份:
E(Ct | X t , Dt 1) 0 (1 2 ) X t
◎反常年份:
E(Ct | X t , Dt 0) 0 1 X t
特别地,当截距与斜率发生变化时,则需要同时引入加法 与乘法形式的虚拟变量。
例:根据消费理论,消费水平C主要取决于收入水平Y,但在一个较长的 时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年 份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数 中引入虚拟变量来考察。
设
1 正常年份 Dt 0 反常年份
消费模型可建立如下:
Ct 0 1 X t 2 Dt X t t
E2
0
其它
E1=1 E2=0 E1=0
E2=0 :硕士 E2=1 :博士 E2=0 :本科
例2:
男
定性变量: 性别
女
1 男
虚拟变量:
S
0
女
2. 虚拟变量的设置说明
(1)这一规则适用于模型中包含一个或多个定性变量的情形。即如果模 型存在多个定性变量,则需要设置多组虚拟变量,每组虚拟变量的 个数取决于对应的定性变量所具有的类别数。
※ 教育程度的变动带来的影响分别是β2(本-硕)和(β3-β2)(硕- 博),模型合理性得到改进!
4. 虚拟变量的含义
• 虚拟变量(dummy variable):一种人为构造的、取值仅为“1”或 “0”的变量,又称示性变量(indicator variable)。
• “1”表示属于某个类别或具备某种属性
(2)定性变量的分类中,不指定其虚拟变量的类别(组)称为基准组 (base)或参照组(reference)。 • 如上例:本科教育程度组即为基准组或参照组 • 在基准组上,所有对应的虚拟变量的取值均为0 • 实际问题中,基准组或参照组的选择完全取决于研究者。 • 一旦选定基准组,分析中,所有其它组都将与基准组进行比较。
4860.3
1993
14762.4
5301.8
1994
21518.8
5957.4
1995
29662.3
7206.7
1996
38520.8
8989.1
1997
46279.8
10201.4
1998
53407.5
11954.5
1999
59621.8
14922.3
2000
64332.4
16917.8
2001
◎女职工、本科以上学历(D1=0,D2=1)的平均薪金:
E(Yi | X i , D1 0, D2 1) (0 3 ) 1 X i
◎男职工、本科以上学历(D1=1,D2=1)的平均薪金:
E(Yi | X i , D1 1, D2 1) (0 2 3 ) 1 X i
β2表示:在教育水平相同的情况下,性别差异的影响 β3表示:在性别属性相同的情况下,教育水平差异的影响 β2、β3、(β2+β3)表示了其他组与基准组的差异
73762.4
18598.4
GNP
21662.5 26651.9 34560.5 46670.0 57494.9 66850.5 73142.7 76967.2 80579.4 88228.1 94346.4
以Y为储蓄,X为收入,可令:
◎1990年前: Yi=1+2Xi+1i
i=1,2…,n1
◎1990年后: Yi=1+2Xi+2i
※ 问题:如何正确地设置虚拟变量?
二、虚拟变量的设置
• 虚拟变量的个数为定性变量类别数-1 • 注意参照类的设置 • 注意虚拟变量陷阱
# 对例题的思考
【思考】:上例中,为什么不用三个虚拟变量表示三种教育程度?
1 硕士
E1
0
其它
1 博士
E
2
0
其它
1 本科
E3
0
其它
相应的模型:
这意味着: 对于某个硕士生:E1=1 E2=0 E3=0 对于某个博士生:E1=0 E2=1 E3=0 对于某个本科生:E1=0 E2=0 E3=1
• 教育程度需要引入两个虚拟变量:
1 高中 D1 0 其他
• 回归模型为:
1 D2 0
大学及其以上 其他
Yi 0 1 X i 2 D1 3 D2 i
注意:参照组是哪一类?
• 在E(i)=0 的初始假定下,不同教育层次的个人保健支出的函数:
◎高中以下: ◎高中:
E(Yi | X i , D1 0, D2 0) 0 1 X i
• 不同性别、不同学历职工的平均薪金分别为: ◎女职工、本科以下学历(D1=0,D2=0)的平均薪金:
E(Yi | X i , D1 0, D2 0) 0 1 X i
◎男职工、本科以下学历(D1=1,D2=0)的平均薪金:
E(Yi | X i , D1 1, D2 0) (0 2 ) 1 X i
• 可以看出,虚拟变量对应的回归系数β2表示:虚拟变量取值为1所代表 的类别(男)相对于参照类别(取值为0,女)在因变量上的平均差异, 反映出定性变量取值的变化对因变量的影响
• 从回归模型上看,两个组上的回归模型的差异主要在于截距的不同
【例2】:在横截面数据基础上,考虑个人收入和教育水平对个人保健 支出的影响,其中教育水平考虑三个层次:高中以下、高中、 大学及其以上
◦ 实际建模中,考虑定性变量的影响是必要的,但直接使用定性变量的取值 则具有不合理性
2. 直接使用定性变量的不合理性
【例】:考虑教育程度(E)、工龄(X)和收入(Y)的关系。
Yi 0 1 X i 2 Ei i
其中:E:1-本科;2-硕士;3-博士
◦ 模型中系数 β2 的经济意义是什么? ◦ 注意到 β2 是一个常数,这意味着什么?
E(Yi | X i , D1 1, D2 0) (0 2 ) 1 X i
◎大学及其以上: E(Yi | X i , D1 0, D2 1) (0 3 ) 1 X i
• 2表示:高中组与高中以下组在平均支出上的差异;
3表示:大学组与高中以下组在平均支出上的差异;
大学教育
保健
高中教育
表5.1.1中给出了中国1979-2001年以城乡储蓄存款余额代表的 居民储蓄以及以GNP代表的居民收入的数据。
90年前 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990
D1=1,D2=1
薪
金
D1=0,D2=1
D1=1,D2=0
D1=0,D2=0
工龄
(二)乘法方式
• 模型中将虚拟变量以与其它解释变量相乘构成一个新的变量的方 式引入模型 •加法方式引入虚拟变量,可以考察截距的不同,而在许多情况下往 往是斜率就有变化,或斜率、截距同时发生变化。 •斜率的变化可通过以乘法方式引入虚拟变量来测度。
◦ 其取值为具有实际含义的数据 ◦ 可以在建模过程中直接使用这些变量及其数据
定性变量:测度等级名义(nominal)或顺序(ordinal)尺度的变量, 如性别、教育程度等
◦ 其取值为类别或顺序,可用数值表示,但数值不具有实际含义,仅是表示 类别或序次的代码
性别(1-男;0-女)、教育程度(1-小学、2-初中、3-高中、4-大学)
此即所谓的“虚拟变量陷阱”!
1. 虚拟变量的设置原则
对每个定性变量而言,所引入的虚拟变量的个数应该比该变量的类别数 少1,即:如果某个定性变量具有m个类别,则只需在模型中引入(m-1) 个虚拟变量。
例1:定性变量:教育程度E:1-本科;2-硕士;3-博士
虚拟变量:
1
E1
0
硕士 其它
1 博士
第五章 经典单方程计量经济学模型专门问题
§5.1 虚拟变量模型 §5.2 滞后变量模型
§5.1 虚拟变量模型
一、虚拟变量的含义 二、虚拟变量的设置 三、虚拟变量的引入
一、虚拟变量的含义
•一种人为构造的、取值仅为“1”或“0”的变量
1. 定量变量和定性变量
定量变量:测度等级为间距(interval)或比率(ratio)尺度的变量, 如需求量、价格、收入、产量等
• “0”表示不属于该类别或不具备该属性
• 实质上,虚拟变量是定性变量的一种“量化”工具,用以反映观测在定 性变量上所属的类别或所具有的属性。 • 虚拟变量可以类似于定量变量一样直接引入模型,而不丧失模型的合理 性,因此:正确应用定性变量的一种方式是通过设置“虚拟变量”引入定 性变量。 • 由此,包含虚拟变量的模型称之为虚拟变量模型
(3)这一设置原则仅指对于包含截距项的回归模型而言,此时如果违 背这一原则则将陷入所谓的“虚拟变量陷阱”。
• 如果模型不包含截距项,那么即使引入与类别数相同数量的虚 拟变量也不会造成多重共线性。
E1
1 0
硕士 其它
1 博士
E2
0
其它
1 本科
E3
0
其它
Yi 1 X i 2 E1i+3 E2i 4 E3i i
0
其它
这意味着:对于某个硕士生:E1=1 E2=0 对于某个博士生:E1=0 E2=1 对于某个本科生:E1=0 E2=0
建立如下模型: Yi 0 1 X i 2 E1i+3 E2i i
于是:对于本科生,其收入为:E(Yi|E 1= 0,E 2= 0) 0 1 Xi 对于硕士生,其收入为:E(Yi|E 1= 1,E 2= 0) 0 1 Xi 2 对于博士生,其收入为:E(Yi|E 1= 1,E 2= 0) 0 1 Xi 3
i=1,2…,n2
则有可能出现下述四种情况中的一种:
(1) 1=1 ,且2=2 ,即两个回归相同,称为重合回归(Coincident Regressions);
(2) 11 ,但2=2 ,即两个回归的差异仅在其截距,称为平行回归 (Parallel Regressions);
——教育程度的变化对收入的影响是固定不变的,即:教育程度每提升一个 等级,所带来的收入的变动均为β2 ◦ 显然,对于大多数实际情况而言,这种假定存在明显的不合理性
问题:建模过程中如何使用定性变量?
3. 正确应用定性变量的方式
【例】:对于上例,设置如下两个变量:
1 硕士
E1
0
其它
1 博士
E
2
Yi 0 1 X i 2 Di i
假定E(i)=0,则: • 对于女职工(D=0),其平均薪金为:
E(Yi | X i , Di 0) 0 1 X i
• 对于男职工(D=1),其平均薪金为:
E(Yi | X i , Di 1) ( 0 2 ) 1 X i
• 其差异为:
E (男)-E (女)= 2
支出
低于中学教育
收入
# 多个定性变量的例子
【例3】:在上述职工薪金的例中,再引入代表学历的虚拟变量D2
• 模型中的虚拟变量
1 男 D1 0 女
1 本科及以上学历 D2 0 本科以下学历
• 职工薪金的回归模型可设计为:
Yi 0 1 X i 2 D1 3 D2 i
注意:参照组是哪一类?
Yi 0 1 Xi 2 E1i+3 E2i 4 E3i i
【分析】: 假定我们有6个观测值,其中2个硕士、1个博士、3个本科生 考虑模型的设计矩阵X:
1 X1 1 0 0
1
X2
1
0
0
1 X
X3
0
1
0
1 X4 0 0 1
1 1
X5 X6
0 0
0 0
1 1
显然,矩阵X是不满秩的,产生了“完全的多重共线性”!
表 5.1.1
储蓄 281 399.5 523.7 675.4 892.5 1214.7 1622.6 2237.6 3073.3 3801.5 5146.9 7034.2
1979~2001 年中国居民储蓄与收入数据(亿元)
GNP
90年后
储蓄
4038.2
1991
9107
4517.8
1992
11545.4
(一)Biblioteka Baidu法方式
• 模型中将虚拟变量以相加的方式引入模型 • 可以直接考察定性变量不同类别的变化对模型因变量的影响 • 本质上,可以考察不同回归模型的截距项是否存在差异
【例1】考虑性别(男、女)、工龄(X)和薪金(Y)的关系。 设置虚拟变量:
D (1 男,0-女) 注意:参照组是什么?
建立如下模型:
大多数研究者认为 ,在一个含有截距的方程中,他们能更容易地处 理他们通常感兴趣的问题,是否有某个组与基准组有所不同以及有 多大不同,所以在方程中包括截距更方便。
——肯尼迪(Kennedy)
三、虚拟变量的引入
虚拟变量做为解释变量引入模型有两种基本方式: 加法方式和乘法方式。
注意不同方式下应用的目的
这里,虚拟变量D以与X相乘的方式引入了模型中,从而可用来考察 消费倾向的变化。
假定E(i)= 0,上述模型所表示的函数可化为:
◎正常年份:
E(Ct | X t , Dt 1) 0 (1 2 ) X t
◎反常年份:
E(Ct | X t , Dt 0) 0 1 X t
特别地,当截距与斜率发生变化时,则需要同时引入加法 与乘法形式的虚拟变量。
例:根据消费理论,消费水平C主要取决于收入水平Y,但在一个较长的 时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年 份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数 中引入虚拟变量来考察。
设
1 正常年份 Dt 0 反常年份
消费模型可建立如下:
Ct 0 1 X t 2 Dt X t t
E2
0
其它
E1=1 E2=0 E1=0
E2=0 :硕士 E2=1 :博士 E2=0 :本科
例2:
男
定性变量: 性别
女
1 男
虚拟变量:
S
0
女
2. 虚拟变量的设置说明
(1)这一规则适用于模型中包含一个或多个定性变量的情形。即如果模 型存在多个定性变量,则需要设置多组虚拟变量,每组虚拟变量的 个数取决于对应的定性变量所具有的类别数。
※ 教育程度的变动带来的影响分别是β2(本-硕)和(β3-β2)(硕- 博),模型合理性得到改进!
4. 虚拟变量的含义
• 虚拟变量(dummy variable):一种人为构造的、取值仅为“1”或 “0”的变量,又称示性变量(indicator variable)。
• “1”表示属于某个类别或具备某种属性
(2)定性变量的分类中,不指定其虚拟变量的类别(组)称为基准组 (base)或参照组(reference)。 • 如上例:本科教育程度组即为基准组或参照组 • 在基准组上,所有对应的虚拟变量的取值均为0 • 实际问题中,基准组或参照组的选择完全取决于研究者。 • 一旦选定基准组,分析中,所有其它组都将与基准组进行比较。
4860.3
1993
14762.4
5301.8
1994
21518.8
5957.4
1995
29662.3
7206.7
1996
38520.8
8989.1
1997
46279.8
10201.4
1998
53407.5
11954.5
1999
59621.8
14922.3
2000
64332.4
16917.8
2001
◎女职工、本科以上学历(D1=0,D2=1)的平均薪金:
E(Yi | X i , D1 0, D2 1) (0 3 ) 1 X i
◎男职工、本科以上学历(D1=1,D2=1)的平均薪金:
E(Yi | X i , D1 1, D2 1) (0 2 3 ) 1 X i
β2表示:在教育水平相同的情况下,性别差异的影响 β3表示:在性别属性相同的情况下,教育水平差异的影响 β2、β3、(β2+β3)表示了其他组与基准组的差异
73762.4
18598.4
GNP
21662.5 26651.9 34560.5 46670.0 57494.9 66850.5 73142.7 76967.2 80579.4 88228.1 94346.4
以Y为储蓄,X为收入,可令:
◎1990年前: Yi=1+2Xi+1i
i=1,2…,n1
◎1990年后: Yi=1+2Xi+2i
※ 问题:如何正确地设置虚拟变量?
二、虚拟变量的设置
• 虚拟变量的个数为定性变量类别数-1 • 注意参照类的设置 • 注意虚拟变量陷阱
# 对例题的思考
【思考】:上例中,为什么不用三个虚拟变量表示三种教育程度?
1 硕士
E1
0
其它
1 博士
E
2
0
其它
1 本科
E3
0
其它
相应的模型:
这意味着: 对于某个硕士生:E1=1 E2=0 E3=0 对于某个博士生:E1=0 E2=1 E3=0 对于某个本科生:E1=0 E2=0 E3=1
• 教育程度需要引入两个虚拟变量:
1 高中 D1 0 其他
• 回归模型为:
1 D2 0
大学及其以上 其他
Yi 0 1 X i 2 D1 3 D2 i
注意:参照组是哪一类?
• 在E(i)=0 的初始假定下,不同教育层次的个人保健支出的函数:
◎高中以下: ◎高中:
E(Yi | X i , D1 0, D2 0) 0 1 X i
• 不同性别、不同学历职工的平均薪金分别为: ◎女职工、本科以下学历(D1=0,D2=0)的平均薪金:
E(Yi | X i , D1 0, D2 0) 0 1 X i
◎男职工、本科以下学历(D1=1,D2=0)的平均薪金:
E(Yi | X i , D1 1, D2 0) (0 2 ) 1 X i
• 可以看出,虚拟变量对应的回归系数β2表示:虚拟变量取值为1所代表 的类别(男)相对于参照类别(取值为0,女)在因变量上的平均差异, 反映出定性变量取值的变化对因变量的影响
• 从回归模型上看,两个组上的回归模型的差异主要在于截距的不同
【例2】:在横截面数据基础上,考虑个人收入和教育水平对个人保健 支出的影响,其中教育水平考虑三个层次:高中以下、高中、 大学及其以上
◦ 实际建模中,考虑定性变量的影响是必要的,但直接使用定性变量的取值 则具有不合理性
2. 直接使用定性变量的不合理性
【例】:考虑教育程度(E)、工龄(X)和收入(Y)的关系。
Yi 0 1 X i 2 Ei i
其中:E:1-本科;2-硕士;3-博士
◦ 模型中系数 β2 的经济意义是什么? ◦ 注意到 β2 是一个常数,这意味着什么?
E(Yi | X i , D1 1, D2 0) (0 2 ) 1 X i
◎大学及其以上: E(Yi | X i , D1 0, D2 1) (0 3 ) 1 X i
• 2表示:高中组与高中以下组在平均支出上的差异;
3表示:大学组与高中以下组在平均支出上的差异;
大学教育
保健
高中教育