第八章 虚拟变量模型
第八章 包含虚拟变量的回归模型
第八章 包含虚拟变量的回归模型一、虚拟变量的基本含义通常在回归分析中,因变量不仅受一些定量变量的影响,而且还受一些定性变量的影响,比如性别、种族、婚姻状况等等。
为了在模型中反映这些因素的影响,需要把定性因素进行“量化”。
通常是引进人工变量完成。
通过定性因素的属性类别,构造取值为0或者1的变量,如、 1代表男性, 0代表女性; 1代表某人是大学毕业, 0代表某人不是大学毕业,这类取值为0,1的变量称为虚拟变量(dummy variable )。
虚拟变量与定量变量一样可用于回归分析。
事实上,一个回归模型的解释变量可以仅仅是虚拟变量。
解释变量仅是虚拟变量的模型称为方差分析模型( analysis-of-variance models ) (ANOVA)。
例1:1i i Y D i βα=++ε,其中Y 表示职工工资,。
10i D ⎧=⎨⎩,本科学历,非本科学历这个模型与我们前面讨论过的双变量模型类似,但这里的解释变量是虚拟变量。
1(0)i E Y D β==,1(1)i E Y D βα==+显然,1β表示非大学毕业生的平均初职年薪,1βα+表示具有大学学历职工的平均工资,α代表二者之差。
回归模型中可以有同时有虚拟变量以及定量变量。
例2:考虑是否上过大学和工龄作为职工工资的模型:12i i i Y X D i ββαε=+++Y ,表示职工工资,X表示工龄,D同上。
含虚拟变量的模型只要扰动项符合古典假定,仍用OLS方法估计模型。
注意:虚拟变量系数显著性检验的意义::0H 0α=;:1H 0α≠。
同学们思考:这个检验在上面两个例子中分别具有何实际意义?二、虚拟变量的引入模型的方式 1、加法方式上面考察的例子都是加法方式。
注意虚拟变量模型的几何意义:以上述例2考察。
例3:如果上述职工工资方程(例2)中,学历考虑三个层次:高中以下、高中、大学及以上。
该如何建模?引进两个虚拟变量:,1 1 0 D ⎧=⎨⎩高中其他2 1 0 D ⎧=⎨⎩大学及以上其他121222Y X D D ββαα=++++ε请同学们分析模型的含义。
计量经济学总复习7
设置虚拟变量
0样本1 Di 1样本2
将样本1和样本2的数据合并,估计以下模型:
Yi 1 1 X i ( 2 1 ) Di ( 2 1 ) Di X i ei
E(Yi Di 0, X i ) 1 1 X i
性的途径之一,就是构造一个取值为1或0的人为变量,被 称为虚拟变量(dummy variables)。
人为虚构出来一种特殊变量来刻画定性因素。
反映性别这个属性的虚拟变量可取为: 1 Di 0 受教育程度的虚拟变量取为:
男 女
1 Di 0
大学以上学历 大学以下学历
一般地,在虚拟变量的设置中:用1表示这种属性或特 征存在,用0表示这种属性或特征不存在。或者说,设置 虚拟变量时,将比较类型、肯定类型取值为1;而将基础
三、虚拟变量的作用
虚拟变量的性质:
在回归分析中,被解释变量不仅经常受到比率尺度变 量(如收入、产出、价格、成本、身高、温度)的影响, 还会受到定性变量或名义尺度变量的影响(如性别、种族、
肤色、宗教、国籍、地区、政治动乱和党派等)。
由于这种变量通常都标志着出现或不出现某种“品质”
或属性,使用它们基本上都是名义尺度变量。量化这种属
全的多重共线性。这种情形下虚拟变量参数的估计结果,
实际上是D=1时被解释变量的样本均值。
第一节
虚拟变量
一、什么是虚拟变量 二、虚拟变量设置的规则
三、虚拟变量的作用
虚拟变量的作用
1.可以检验和度量用文字所表示的定性因素的影响 2.可以测量变量在不同时期的影响 3.可以用来处理异常数据的影响
第一节 虚拟变量(掌握) 第二节 虚拟解释变量模型(重点) 第三节 虚拟被解释变量模型 第四节 设定误差
【西南财大课件计量经济学】jljj8章
高于X * : Yˆt (ˆ0 ˆ2 X * ) (ˆ1 ˆ2)X t
ˆ1是销售低于X(* 第一段回归直线)的斜率; (ˆ1 ˆ2)是销售高于X(* 第二段回归直线)的斜率; 只要检验2的统计显著性,则可以判断在X *是否存在突变。
案例
例1:美国1940一1950年可支配收入和消费支出的数据资料:
第八章 虚拟变量的模型 第一节 虚拟变量
一、虚拟变量的基本概念
前面讨论的数量因素(变量)可以直接度量,但质的因素(如:性别、职业、 文化程度、所有制形式等定性因素)不能直接度量。
为了在模型中反映这些属性因素的影响,以提高模型的精度,须将其“量化”
虚拟变量:取值为0、1的人工(特殊)变量(记为D) 。
2、虚拟变量取“0”或“1”应从分析问题的目的出发予以界 定(多以“0”代表基础类);
3、虚拟变量在单一方程中,可以作为解释变量,也可以作为
被解释变量。
三、模型中引入虚拟变量的作用 1、分离异常因素的影响
如观察我国社会总产值的时间趋势,须考虑三年自然灾害这一特殊因素的影响
2、检验不同属性类型对因变量的作用;
(-0.33) (10.957) (-9.254)
F 84.282 R2 0.955
冬季、农村居民 Yi 0 X i i
(比较的基础 — 冬季、农村)
20 15 10 5 0
1234567
(二)一个定量变量X、多个虚拟变量(定性变量)的模型
Yt 0 1D1t D2t Dkt X t ut
例 我国有56个民族,引入虚拟变量: D1—D55(以汉族为基础)
藏族:(1,0,0,…,0) 彝族:(0,1,0,…,0) … 汉族:(0,0,0,…,0)
变量)。
第八章 虚拟变量
Company Logo
9
一、为什么引入虚拟变量
(2)把虚拟变量取值为0所对应的类别称作基础类别。
例如:按上面对“学历”的赋值方法,“无学历”为 基础类别。
(3)当定性变量含有m个类别时,不能把虚拟变量的值 设成如下形式:
0 (第一个类别)
D
1
(第二个类别)
m 1 (第m个类别)
这种赋值法在一 般情形下与虚拟变 量赋值是完全不同 的两回事。
(因为D不能作为Eviews的用户变量名,所以取D1)
Company Logo
28
三、测量斜率变动
Company Logo
29
三、测量斜率变动
trade 0.2818 0.0746time 35.8809D 1.2559timeD
(1.35) (6.2)
(8.4)
(9.6)
还有虚拟变量的两项都是显著的,所以
Company Logo
10
一、为什么引入虚拟变量
(4)回归模型可以只用虚拟变量作解释变量,也可以 用定量变量和虚拟变量一起作解释变量。
Company Logo
11
二、用虚拟变量测量截距变动
❖ 下面给出的模型都属于测量截距变动的模型。
中使用虚拟变量时,回归函数就不再是连续 的了,分段线性回归可以既使用虚拟变量描述出模型 结构变化,又可以使回归函数保持连续,其中每一段 都是线性的。
Company Logo
31
四、分段线性回归
❖ 考虑下面的模型
Yt 0 1X t 2 ( X t X b1)D1 ut
其中Xb1表示结构发生变化的t=b1时刻的Xt的值。
Company Logo
4
一、为什么引入虚拟变量
计量经济学课后习题答案第八章_答案
第八章虚拟变量模型1. 回归模型中引入虚拟变量的作用是什么?答:在模型中引入虚拟变量,主要是为了寻找某(些)定性因素对解释变量的影响。
加法方式与乘法方式是最主要的引入方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
2. 虚拟变量有哪几种基本的引入方式? 它们各适用于什么情况?答:在模型中引入虚拟变量的主要方式有加法方式与乘法方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
3.什么是虚拟变量陷阱?答:根据虚拟变量的设置原则,一般情况下,如果定性变量有m个类别,则需在模型中引入m-1个变量。
如果引入了m个变量,就会导致模型解释变量出现完全的共线性问题,从而导致模型无法估计。
这种由于引入虚拟变量个数与类别个数相等导致的模型无法估计的问题,称为“虚拟变量陷阱”。
4.在一项对北京某大学学生月消费支出的研究中,认为学生的消费支出除受其家庭的每月收入水平外,还受在学校中是否得到奖学金,来自农村还是城市,是经济发达地区还是欠发达地区,以及性别等因素的影响。
试设定适当的模型,并导出如下情形下学生消费支出的平均水平:(1) 来自欠发达农村地区的女生,未得到奖学金;(2) 来自欠发达城市地区的男生,得到奖学金;(3) 来自发达地区的农村女生,得到奖学金;(4) 来自发达地区的城市男生,未得到奖学金。
解答: 记学生月消费支出为Y,其家庭月收入水平为X,则在不考虑其他因素的影响时,有如下基本回归模型:Y i=β0+β1X i+μi有奖学金1 来自城市无奖学金0 来自农村来自发达地区 1 男性0 来自欠发达地区0 女性Y i=β0+β1X i+α1D1i+α2D2i+α3D3i+α4D4i+μi由此回归模型,可得如下各种情形下学生的平均消费支出:(1) 来自欠发达农村地区的女生,未得到奖学金时的月消费支出:E(Y i|= X i, D1i=D2i=D3i=D4i=0)=β0+β1X i(2) 来自欠发达城市地区的男生,得到奖学金时的月消费支出:E(Y i|= X i, D1i=D4i=1,D2i=D3i=0)=(β0+α1+α4)+β1X i(3) 来自发达地区的农村女生,得到奖学金时的月消费支出:E(Y i |= X i , D 1i =D 3i =1,D 2i =D 4i =0)=(β0+α1+α3)+β1X i (4) 来自发达地区的城市男生,未得到奖学金时的月消费支出: E(Y i |= X i ,D 2i =D 3i =D 4i =1, D 1i =0)= (β0+α2+α3+α4)+β1X i5. 研究进口消费品的数量Y 与国民收入X 的模型关系时,由数据散点图显示1979年前后Y 对X 的回归关系明显不同,进口消费函数发生了结构性变化:基本消费部分下降了,而边际消费倾向变大了。
第八章 虚拟变量模型分析
◆某旅行社为了提高旅游业务 收入,希望通过建立个人旅游 支出模型,找出影响个人旅游 支出的关键因素,从而作出针 对性的旅游宣传。 根据实际经济理论,个人的旅 游支出往往与个人的收入、职 业、受教育程度、性别等有密 切关系,其中职业、教育、性 别因素不是我们前面章节常用 的定量变量,而是定性变量。 职业有教师、工程师、银行职 员等,教育程度可以分为大学 教育和非大学教育,同样性别 因素可以考虑是男是女。将这 样的定性变量作为自变量考虑 进旅游支出模型,模型如何建 立?有怎样的结果和意义?
E Yi | D1i 1 E 0 1 g 1 i 0 1
从上述的结果可以得知,模型截距 0 表示未
3、根据income变量构造虚拟变量d2,用1表示月收入 大于等于10000元的高收入者,0表示月收入小于10000 元的中低收入者。在命令窗口中输入:series d2=(sex="male"),点击回车键,得到虚拟变量d1。
二、虚拟变量作为自变量
在实际经济模型中,因变量不仅会受到定量变 量的影响,同时也会受到定性变量的影响。如个人 的月支出水平往往受到月收入、性别、职业、婚姻 状况等因素的影响,其中月收入为定量变量,性别、 职业、婚姻状况为定性变量。可见这些定性变量也 是影响因变量的重要因素,所以我们有必要将其量 化成虚拟变量后加入到模型中。在回归分析模型中, 我们假设模型自变量为非随机变量。而虚拟变量的 取值为0、1,说明虚拟变量是非随机变量。因此, 对于自变量中含有一个或多个虚拟变量的回归模型, 回归系数的普通最小二乘估计法以及模型检验方法 同样适用。
下面我们建立含有虚拟变量为自变量的回归模型。
1.方差分析模型(ANOVA模型) 在回归分析中,虚拟变量与定量变量一样 可以作为模型的回归元。一个回归模型的自 变量只有虚拟变量,这样的模型称为方差分 析模型(analysis of variance,ANOVA)。为 说明方差分析模型,我们看下面一个只含有 一个虚拟变量的ANOVA模型,含有多个虚拟 变量的ANOVA模型原理相似不再赘述。
第8章 虚拟变量模型
效应。
8.1.3 虚拟变量作为因变量的情况
1、因变量为虚拟变量的回归模型
• 虚拟变量作为因变量的模型也称定性响应模型,既可 以包括二值变量模型(也称二分选择模型),也包括 多分选择模型。我们重点讨论二值变量模型。
• 模型举例: 一个大学毕业生是否会被一个不错的MBA项目录取, 取决于其学习成绩、GMAT分数和其它因素。 一位成年男子是否就业取决于总体失业率、平均工资 率、受教育程度和家庭收入等因素。
其中:
1
yi
{ 0
已购买汽车 未购买汽车
且假定E(ui ) 0
1.2 Y
1.0
0.8
0.6
0.4
0.2
0.0 X
-0.2 280 300 320 340 360 380 400 420
对于给定的xi ,E(yi / xi ) 0 1xi
设pi表示yi 1的概率,则1 pi表示yi 0的概率 E(yi / xi ) pi 1 (1 pi) 0 pi 可见,该模型描述了随着收入的变动, 第i个家庭 购买汽车的概率变动情况。
b0 + b1xt + ut , (D = 0)
Y
yt =
b0 + (b1 + b2) xt + ut , (D = 1)
男
女
t
0
3、一般方式
直接以加法和乘法方式引入虚拟变量。 可建立如下模型:
yt = b0 + b1 xt + b2 D + b3 xt D + ut ,
其中 xt 为定量变量;D 为定性变量。当 D = 0 或 1 时,上述模
yt =
第八章 虚拟变量模型
• 例如,以1978-2009年的数据为样本,以GDP 作为解释变量,建立居民消费函数。根据分析, 1992年前后,自发消费和消费率都可能发生变 化。
1 Dt 0 92年前 92年及以后
Ct 0 1GDP t 2 Dt 3 ( Dt GDP t ) t t 1978 ,,2009
1 Di 0 农村居民 城镇居民
Ci 0 1 X i 2 Di X i i
E(Ci | X i , Di 1) 0 (1 2 ) X i E(Ci | X i , Di 0) 0 1 X i
农村居民: 城镇居民:
• 例如,根据消费理论,收入决定消费。但是, 在自然灾害、战争等反常年份,消费倾向往往 发生变化。这种消费倾向的变化可通过在消费 函数中引入虚拟变量来考察。
Yi 0 1 X i 3 Di 4 ( Di X i ) i
1 农村居民 Di 0 城镇居民
• 估计得到
ˆ 450.33 0.6920X 271.14D 0.0275 Y Di X i i i i
由变量显著性检验得到:2007年农村居民与城 镇居民的边际消费倾向并无显著差异,他们有 着共同的消费函数。
如果设置第4个虚变量,则出现“虚拟变量陷井” (Dummy Variable Trap),为什么?
• 包含季节变量的正确模型:
Yt 0 1 X 1t k X kt 1 D1t 2 D2t 3 D3t t Yt 0 1 X 1t k X kt 1 D1t 2 D2t 3 D3t 4 D4t t
通过统计检验,判断两个时期中消费函数的截 距和斜率是否发生变化。
9第八章 虚拟变量回归模型
Logit 模型的估计
区分两类数据:
(1)个体水平数据
购房概率 p 0 0 1 1
收入 X(千美元) 6 8 10 12
如果
pi
0,
Zi
ln
0 1
pi
1,
Zi
ln
1 0
可见,Z 表达式无意义,无法用OLS,需用ML(最大似然法)
冰箱销售量(千台) FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269
耐用品支出(10亿美元) DUR 252.6 272.4 270.9 273.9 268.9 262.9 270.9 263.4 260.6 231.9 242.7 248.6 258.7 248.4 255.5 240.4 247.7 249.1 251.8
4 回归分析操作命令: equation eq.ls Frig c Dur D1 D2 D3
提问 根据回归分析结果,发现存在什么问题?如何修改回归模型?
8.4 虚拟被解释变量的回归模型
【例】 研究是否购买住房与收入水平的关系。
设是否购房为被解释变量,用 Y 表示;收入为解释变量, 用 X 表示。
1 变量分析:
将DUR作为解释变量;FRIG作为被解释变量; 引入3个季度虚拟变量D1,D2,D3。 (虚拟变量数 = 属性数 – 1 )
2 季度虚拟变量的赋值规则:
D1=
1 (第1季度) 0 (其他季度)
D3=
1 (第3季度) 0 (其他季度)
D2=
第八章 虚拟变量实验报告
第八章虚拟变量实验报告一、研究目的改革开放以来, 我国经济保持了长期较快发展, 我国对外贸易规模也日益增长。
尤其是2002年中国加入WTO之后, 我国对外贸易迅速扩张。
2012年, 我国进出口总值38667.6亿美元, 与上年同期相比增长6.2%, 我国贸易总额首次超过美国, 成为世界贸易规模最大的国家。
为了考察我国对外贸贸易与国内生产总值的关系是否发生变化, 以国内生产总值代表经济整体发展水平, 以对外贸易总额代表对外贸易发展水平, 分析我国对外贸易发展受国内生产总值的影响程度。
二、模型设定为研究我国对外贸易发展规模受我国总体经济发展程度影响, 引入国内生产总值为自变量。
设定模型为:+β1X t+ U tY t=β参数说明:Yt——对外贸易总额(单位: 亿元)Xt——国内生产总值(单位: 亿元)U t——随机误差项收集到数据如下(见表2-1)1993 11271 35333.92 2007 166740.2 265810.31 1994 20381.9 48197.86 2008 179921.5 314045.43 1995 23499.9 60793.73 2009 150648.1 340902.81 1996 24133.8 71176.59 2010 201722.1 401512.8 1997 26967.2 78973.03 2011 236402 472881.56 1998 26693.823 73617.66322注: 资料来源于《中国统计年鉴》1986-2012。
为了研究1985-2011年期间我国对外贸易总额随国内生产总值的变化规律是否有显著不同, 考证对外贸易与国内生产总值随时间变化情况, 如下图所示。
图2-1 对外贸易总额(Y)与国内生产总值(X)随时间变化趋势图从图2-1中, 可以看出对外贸易总额明显表现出了阶段特征: 在2002年、2007年和2009年有明显的转折点。
第8章 虚拟变量模型和设定误差
为了捕获该影响,设C Y u。假设边际消 费倾向 依赖于财产Z。一个简单的表示方法就 是 1 2Z 。代入消费函数,有:
C 1Y 2YZ u
由于YZ 捕获了收入和财产之间的相互作用而被称为 交互作用项。
显然,刻画交互作用的方法,在变量为数量(定量) 变量时, 是以乘法方式引入虚拟变量的。
其中:Di=10
城市 农村
(比较的基础:农村)
那么: E Yi | Di = 1 =(0 + 1)
E Yi | Di = 0 = 0
Yi (0 1) i 城市
Yi 0 i
农村
(2)一个定性解释变量(两种属性)和一个定 量解释变量的情形
模型形式 Yi = f(Di,Xi )+ μi 0 1Di
第8章 虚拟变量模型和设定误差
1
内容安排
8.1 虚拟变量 8.2 虚拟解释变量模型 8.3 虚拟被解释变量模型 8.4 设定误差 8.5 案例
8.1 虚拟变量
8.1.1 什么是虚拟变量
用来描述经济现象的定量属性(类别)的变量称之
为虚拟变量(Dummy Variables)。用符号D
来表示。
如:
1 D 0
Yi = 0 + X i + μi
农村
Y
X
共同的特征:截距发生改变
(3)一个定性解释变量(两种以上属性)和一 个定量解释变量的情形
模型形式 Yi = f ( Xi,D1,D2,...)+ μi
(如:民族有56种特性;季度有4种特性)
例如: 啤酒售量Y、人均收入X、季度D;
Yi 0 1D1 2D2 3D3 Xi i
第八章(虚拟变量回归)_图文
5.社会因素:包括社会治安、城市化水平、消费心理等;
6.行政(政策)因素:包括土地与住房制度、房地产价格政策等;
7.区域因素:包括所处地段的市政基础设施、交通状况等;
8.个别因素:包括朝向、结构、材料、功能设计、施工质量等;
9.房地产投机因素:投机者在房地产市场中的投机活动;
10.自然因素:包括自然环境、地质、地形、地势及气候等。
使用虚拟变量需注意的问题
v 虚拟变量陷阱:若定性变量有m个类别,则引入 m个虚拟变量将会产生完全多重共线性问题,避 免方法:
Ø 只引入(m-1)个虚拟变量 Ø 引入m个虚拟变量但去掉截距项
v 哪种方法更好:包含截距项更方便,可以很容易 地检验某个组与基准组之间是否存在显著差异以 及差异程度。
2、避免落入“ 虚拟变量陷阱”
•男职工本科以上学历的平均薪金:
1.解释变量只有一个分为两种类型的定性变量无 定量变量的回归
这种模型又称方差分析模型
其中:Y为公立学校教师工资,
D=0为农村学校;D=1为城镇学校
分析条件期望:
基础类型:
比较类型:
为差异截距系数,通过对系数 可检验
的 t 检验:
在其他因素不变的条件下,城乡教师的工资是否有显2著323
D=0 表示某种属性或状态不出现或不存在 5
虚拟变量的作用
● 作为属性因素的代表,如性别 ● 作为某些非精确计量的数量因素的代表,
如受教育程度(高中及以下、专科、本科及以上) ● 作为某些偶然因素或政策因素的代表,
如 伊拉克战争、“911事件”、四川汶川大地震 ● 时间序列分析中作为季节(月份)的代表 ● 分段回归——研究斜率、截距的变动 ● 比较两个回归模型的差异 ● 虚拟被解释变量模型:
虚拟变量模型
由上面分析,我们可以看到,利用虚拟变量可以把特殊
年份与正常年份构成统一的模型来表示,并且可以利用
OLS法得出适合各时期的统一的参数估计量。
这里应该指出,应用OLS法的条件是特殊年份与正常年
份消费具有相同的方差。
(三)多个虚拟变量的引进及虚拟变量陷井问题 某些商品的销售量是有季节性的,假设销售函数模
型为:
Ct 0 1 x1t k xkt ut (8.1.5)
其中Ct表示销量,x1t , x2t ,, xkt 表示决定销量的解
释变量,为了把季节变化对销售的影响反映到模型
中,如果我们引进四个虚拟变量:
1
Dit
0
第i 季 i 1,2,3,4. 其他季
这样销售函数的季节回归模型为
改变虚拟变量的引入方法。改为引入虚拟变量
1
Dit
0
第i 季 i 2,3,4. 其他季
第1季度用 D2t D3t D4t 0表示,这时销售函数的 季节回归模型可写为
Ct 0 1 x1t k xkt 2 D2t 3 D3t 4 D4t ut
这样就避免了虚拟变量的陷阱问题。
二、虚拟变量作为自变量的情况
(一)自变量中只有虚拟变量
例如调查某地区性别与收入之间的关系,我们可以
用模型表示:
yi Di ui
(8.1.1)
第8章虚拟变量模型-精品文档
当第i种属性类型出现时,第i个虚拟变量取1,其它 虚拟变量皆取0,而当所有 D i 都取0时,则表示出现第 m种属性类型。
例:虚拟变量反映季节变动的影响
已知冷饮的销售量 Y除受 k种定量变量 Xk 的影响 外,还受春、夏、秋、冬四季变化的影响,要考 察该四季的影响,只需引入三个虚拟变量即可:
1 春季 D 1t 0 其他
Y i 和居民可支配收入 X i 之间的
各自在住房消费支出
D1i = 0 为农村,则模型为
Y = + X + D + u 2 ) i 0 1 i 1 1 i(
(模型有截距,“居民属性”定性变量只有两个相互排斥
的属性状态( m 2 ),故只设定一个虚拟变量。)
Y i 上的差异,设
二、虚拟变量的设置原则
虚拟变量的个数须按以下原则确定:
每一定性变量所需的虚拟变量个数要比该定性变 i 量的类别数少1,即如果定性变量有 m个类型,只在 i 模型中引入m-1个虚拟变量 。
每个虚拟变量定义为:
1 第 i个属性 类型 ( i 1 , 2 , , m 1 ) D i 0 非第 i个属性类型
D1i = 1 为城镇;
虚拟变量陷阱
若对两个相互排斥的属性 “居民属性” ,仍然 引入 m 2 个虚拟变量,则有
1城 镇 居 民 D 1 i= 0 农 村 居 民
1农 村 居 民 D 2 i= 0 城 镇 居 民
则模型(1)为 Y X D D u ( 3 ) i 0 1 i 1 1 2 2 i 则对任一家庭都有: , D D+ D1=0 1 +D 2 =1 1 2 即产生完全共线,陷入了“虚拟变量陷阱”。 “虚拟变量陷阱”的实质是:完全多重共线性。
第八章 虚拟变量模型分析PPT课件
Y i 0 1 D 1 i i ,
i 1 , 2 ,, n .
❖
其中Y i 为个人月支出;D1i 误差项且 E i =0
=
1, 未婚者的月期望支出为:
E Y i|D 1 i 0 E 0 1 0 i 0
❖ 已婚者的月期望支出为:
E Y i|D 1 i 1 E 0 1 1 i 0 1
下面给出含有一个定量变量和一个定性 变量的协方差模型,含有多个定量和定 性变量的协方差模型原理相似不再赘述。
Y i 0 1 D 1 i + 1 X 1 i i , i 1 , 2 ,, n .
其中Y i 表示大学生月话费支出,X 1 i 表示月生活
1,独生子女
费支出; ; 表示模型随机误差项 D1i=0,非独生子女
下面我们建立含有虚拟变量为自变量的回归模型。
1.方差分析模型(ANOVA模型) 在回归分析中,虚拟变量与定量变量一样
可以作为模型的回归元。一个回归模型的自 变量只有虚拟变量,这样的模型称为方差分 析模型(analysis of variance,ANOVA)。为 说明方差分析模型,我们看下面一个只含有 一个虚拟变量的ANOVA模型,含有多个虚拟 变量的ANOVA模型原理相似不再赘述。
i
且 。 Ei =0
则根据模型有: 非独生大学生月话费支出期望值为:
E Y i|D 1 i 0 E 0 1 0 + 1 X 1 i i 0 1 X 1 i
独生大学生月话费支出期望值为:
E Y i |D 1 i 1 E 0 1 1 + 1 X 1 i i 0 1 1 X 1 i
那么,像这样取值只为0、1的变量称为虚拟变量或哑变 量,并用符号表示,从而与常用符号区别开。我们把赋值为 0的一类称为基准类。需要注意的是虚拟变量的赋值是人为 的、任意的,根据人们的习惯而定。如前所提到的性别变量, 也可以用1表示女性,用0表示男性。
第8章虚拟变量模型
1 农村居民 D2i = 0 城镇居民
则模型(1)为 Yi 0 1 X i 1D1 2 D2 ui (3) 则对任一家庭都有: , D1 + D2 = 1 D1 + D2 - 1 = 0 即产生完全共线,陷入了“虚拟变量陷阱”。 “虚拟变量陷阱”的实质是:完全多重共线性。
1 1 1 ( X, D) 1 1 1 X 11 X k1 X 12 X k 2 X 13 X k 3 X 14 X k 4 X 15 X k 5 X 16 X k 6 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 1 0 0 1 0 0 0
各自在住房消费支出 Yi上的差异,设 D1i = 1 为城镇; D1i = 0 为农村,则模型为
Yi = 0 + 1 X i + 1D1 + ui
的属性状态(
(2)
(模型有截距,“居民属性”定性变量只有两个相互排斥
m 2 ),故只设定一个虚拟变量。)
虚拟变量陷阱
若对两个相互排斥的属性 “居民属性” ,仍然 引入 m 2 个虚拟变量,则有
Y为香烟消费量;
1 其中:Di= 0 城市 农村 (比较的基础:农村)
那么: E Yi | Di = 1 = ( 0 + 1)
Yi ( 0 1) i Yi 0 i
E Yi | Di = 0 = 0
城市
农村
(2) 一个定性解释变量(两种属性)和一个 定量解释变量的情形
iixy130??????????iixy120??????????iixy10???????3??2??0??33一个定性解释变量四种属性和一个定量解释变量的情形01122331234110010iiiyxdydddxddd????????????????????????例如
第八章虚拟变量的建模
在交互模型中,虚拟变量前的回归系数 只表示在资本为0情况下,三资企业与国 有企业的利润差距
4、含虚拟变量模型的其他变化
交互模型中虚拟变量前回归系数的经济 含义不好,可以采用如下方法解决:
P 0 0 system 1capital 2 system* capital C u
背景
本章的研究对象是定性变量
无论是定类还是定序,处理方法是一致的 但,当定序变量的水平很多时,可以当定量变 量处理 例:大学排名
背景
定性变量的水平可以是自然的,也可以是人为 规定的 自然的:性别 人为规定: 规定水平:相貌对工资的影响 合并水平(计量等级的退化): 地区差异对人均收入的影响 大学排名对最初工资的影响
2 3
system 0 ˆ ˆ ˆ ˆ P 0 1region 1capital 两者之差: ˆ ˆ ˆ 0 2 region 3capital
4、含虚拟变量模型的其他变化
交互项的引入实际意味着非虚拟变量的 斜率是不一致的。
profit 0 0 system 1capital 2 system* capital u profit 0 0 system 1 2 system* capital u system 0 system 1 profit0 0 1capital u profit1 0 0 1 2 capital u
4、含虚拟变量模型的其他变化
判断是否需要交互项,可通过相应系数 的t检验来进行;
要注意到:是否需要交互项等价于检验斜率是 否相等;
(二)多值变量的建模
多值变量意味着虚拟变量有3个以上取值, 如考虑季节的影响,则季节有四个水平。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
假定 1 0且 2 0, 则其几何图形如图8-4所示。
X 图8-4 改革开放前后储蓄函数示意图
3.临界指标的虚拟变量的引入
在经济发生转折时,可通过建立临界指标的虚拟变量模型来反映。
例如:
进口消费品数量Y主要取决于国民收入X的多少,中国在改革开放前后, Y对X的回归关系明显不同。 这时,可以t*=1979为转折期,以1979年的国民收入Xt*为临界值, 设如下虚拟变量: Dt= 1 0 t≥t* t< t*
二、虚拟变量模型
同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型。
在模型中,虚拟变量可作为解释变量,也可作为被解释变量,但主要
是用作解释变量。
例如:一个以性别为虚拟变量来考察职工薪金的模型如下:
Y X D i 0 1 i 2 i i
其中 ——为职工的薪金;
i
(8-1)
譬如年龄因素虽然可以用数字计量,但如果将年龄作为资料分组的特 征,则可将年龄选作虚拟变量。
例如:
家庭教育经费支出不仅取决于其收入,而且与年龄因素有关。 按年龄划分为三个年龄组:6—18岁年龄组(中小学教育);19—22岁 年龄组(大学教育);其它年龄组。于是设定虚拟变量 1 0 6-18岁年龄组 其它 1 0 19-22年龄组 其它
为描述虚拟变量交互作用对被解释变量的效应,在(8-9)式中以加法形式引入 两个虚拟解释变量的乘积,即
Yi=α0+α1D1i+α2D2i+α3(D1iD2i)+βXi +μi
(8-10)
(1)基础类型:不发展油菜籽生产,也不发展养蜂生产时农副产品生产平均总收益
E(Yi|Xi,D1=0,D2=0)= α0+βXi
第八章
第一节 ◆ 虚拟变量
Байду номын сангаас
虚拟变量模型
虚拟变量
◆虚拟变量模型
◆虚拟变量的引入
◆虚拟变量的设置原则
一、虚拟变量
为什么要引入“虚拟变量” ??
许多经济变量是可以定量度量的或者说是可以直接观测的
如商品需求量、价格、收入、产量等
但是也有一些影响经济变量的因素无法定量度量或者说无法直接观测
如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节
对某些产品(如冷饮)销售的影响等。
为了能够在模型中反映这些因素的影响,并提高模型的精度,需要将 它们人为地“量化”,这种“量化”通常是通过引入“虚拟变量”来完成的。
这种用两个相异数字来表示对被解释变量有重要影响而自身又 没有观测数值的一类变量,称为虚拟变量(dummy variables)。
虚拟变量也称为哑变量或定性变量。
Y X D i 0 1 i 2 i i
E Y , D 0 X iX i i 0 1 i
男职工的平均薪金为:
E Y , D 1 X 0 iX i i 2 1 i
从几何意义上看(图8-1), 假定
2
>0,
则两个函数有相同的斜率,但有不同的截距。
2. 乘法方式 ——斜率的变化
例如:
根据消费理论,消费水平C主要取决于收入水平X。但在一个较长的 时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年 份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数 中引入虚拟变量来考察。 设 Dt= 则消费模型可建立如下: 1 正常年份
1
0
高中
其它
D2=
1 0
大学及其以上 其它
模型可设定如下:
Y X DD i 0 1 i 2 1 i 3 2 i i
(8-2)
在 E ( i ) =0的初始假定下,容易得到高中以下、高中、大学及其以上 教育水平个人平均保健支出的函数:
高中以下: E(Yi|Xi,D1i=0,D2i=0)=β0+β1Xi 高中: E(Yi|Xi,D1i=1,D2i=0)=(β0+β2 )+β1Xi
反常年份:
E ( C , D 0 ) X tX t t 0 1 t
假定 2 0, 则其几何图形如图8-3所示。 图8-3 不同年份消费倾向示意图
如果在模型中同时使用加法和乘法两种方式引入虚拟变量, 则回归线的截距和斜率都会改变。
例如:
对于改革开放前后储蓄-收入模型,可设定为
大学及其以上: E(Yi|Xi,D1i=0,D2i=1)=(β0+β3 )+β1Xi
假定 3 2 0,且 0 0 ,则其几何意义如图8-2所示。
图8-2 不同教育程度人员保健支出示意图
还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。
例如:
Y X D i 0 1 i 2 i i
计量经济学
—理论·方法·EViews应用
郭存芝 杜延军 李春吉 编著
电子教案
第八章
虚拟变量模型
在前面几章中,主要介绍了经典线性回归模型及其在若干基本假定 下的估计问题,并分析了一个或多个假定不满足时所产生的后果及其可 能的改进措施。然而上述方法还不能解决经济生活中遇到的全部问题。
例如:
如何考察某一突发事件、性别、季节、受教育程度等对经济行为带 来的影响??
男职工本科以下学历的平均薪金:
E(Yi|Xi,D1i=1,D2i=0)=(β0+β2 )+β1Xi
女职工本科以上学历的平均薪金:
E(Yi|Xi,D1i=0,D2i=1)=(β0+β3 )+β1Xi
男职工本科以上学历的平均薪金:
E(Yi|Xi,D1i=1,D2i=1)=(β0+β2+β3 )+β1Xi
例如:
考虑下列模型
Yi=α0+α1D1i+α2D2i+βXi+μi
(8-9)
其中,Yi为农副产品生产总收益,Xi为农副产品生产投入,D1i为油菜籽生 产虚拟变量,D2i为养蜂生产虚拟变量。这里
D1i=
1 0
发展油菜籽生产 其它
D2i=
1
0
发展养蜂生产
其它
显然,(8-9)式描述了是否发展油菜籽生产与是否发展养蜂生产的差异对农 副产品总收益的影响。
当t<t*=1979时
ˆ ˆX ˆ Y t 0 1 t
当t≥t*=1979时
* ˆ ˆ ˆ ˆ ˆ Y ( X ) X t 0 2 t)( 1 2 t
图8-5 转折期回归示意图
4.数值变量作为虚拟变量引入
有些变量虽然是数量变量,即可以获得实际观测值,但在某些特定情 况下把它选取为虚拟变量则是方便的,以虚变量引入计量经济学模型更加 合理。
则进口消费品的回归模型可建立如下:
* Y X ( X X ) D t 0 1 t 2 t t t t
(8-6)
如果用OLS法得到该模型的回归方程为
* ˆ ˆ ˆ ˆ Y X ( XX D t 0 1t 2 t t) t
(8-7)
则两个时期进口消费品函数分别为 几何图形如图8-5所示
虚拟变量的特点是:
1.虚拟变量是对经济变化有重要影响的不可测变量。 2.虚拟变量是赋值变量,一般根据这些因素的属性类型,构造只取 “0”或“1”的人工变量,通常称为虚拟变量,记为D。这是为了便于计算而
把定性因素这样数量化的,所以虚拟变量的数值只表示变量的性质而不表
示变量的数值。 一般地,在虚拟变量的设置中, 基础类型和肯定类型取值为1; 比较类型和否定类型取值为0。
0
反常年份
C X D X t 0 1 t 2 t t t
(8-4)
这里,虚拟变量 Dt 以与 Xt 相乘的方式引入了模型中,从而可用来 考察消费倾向的变化。
在E(μt)=0的假定下,上述模型所表示的函数可化为: 正常年份:
E ( C , D 1 ) ) X tX t t 0 ( 1 2 t
虚拟解释变量D1i和D2i是以加法形式引入的,那么暗含着假定:
油菜籽生产和养蜂生产是分别独立地影响农副产品生产总收益。
但是,在发展油菜籽生产时,同时也发展养蜂生产,所取得的农副
产品生产总收益可能会高于不发展养蜂生产的情况。即在是否发展油菜
籽生产与养蜂生产的虚拟变量D1i和D2i之间,很可能存在着一定的交互 作用,且这种交互影响对被解释变量—农副产品生产总收益会有影响。
Y
X
i
D i =1 ——代表男性 D i =0 ——代表女性
——为职工工龄;
三、虚拟变量的引入
虚拟变量作为解释变量引入模型有两种基本方式:加法方式和乘法方式。
1. 加法方式
上述职工薪金模型(8-1)中性别虚拟变量的引入就采取了加法方式, 在该模型中,如果仍假定 女职工的平均薪金为:
E i =0,则
例如:
1)表示性别的虚拟变量可取为 D1=
1 0
男性 女性
4)表示消费心理的虚拟变量可取为
2)表示文化程度的虚拟变量可取为 D2= 1 本科及以上学历
D4=
1 0
喜欢某种商品 不喜欢某种商品
0
本科以下学历
5)表示天气变化的虚拟变量可取为
3)表示地区的虚拟变量可取为 D3=
1
0
城市
农村
D5=
1 0
晴天 雨天
这意味着,男女职工平均薪金对工龄的
变化率是一样的,但两者的平均薪金水平相
图8-1 男女职工平均薪金示意图
差 2。
可以通过传统的回归检验,对
2
的统计显著性进行检验,以判断男女
职工的平均薪金水平是否有显著差异。