第八章虚拟变量模型

合集下载

8-3、模型中的特殊解释变量:虚拟变量

8-3、模型中的特殊解释变量:虚拟变量
第8章 模型中的特殊解释变量 ——虚拟变量
2016/3/29
1
8.3、 虚拟变量(Dummy variables)
8.3.1、.虚拟变量的概念
在回归分析中,常常碰到这样一种情况,即因变量 的波动不仅依赖于那种能够很容易按某种尺度定量化的 变量(如收入、产出、价格、身高、体重等),而且依 赖于某些定性的变量(如性别、地区、季节等)。 在经济系统中,许多变动是不能定量的。如政府的更 迭(工党 - 保守党)、经济体制的改革、固定汇率变为 浮动汇率、从战时经济转为和平时期经济等。 这样一些变动都可以用 0-1 变量来表示,用 1 表示具有 某一“品质”或属性,用0表示不具有该“品质”或属 性。这种变量在计量经济学中称为“虚拟变量”。虚拟 变量使得我们可以将那些无法定量化的变量引入回归模 型中。
2016/3/29 2
下面给出几个可以引入虚拟变量的例子。 例1:你在研究学历和收入之间的关系,在你的样 本中,既有女性又有男性,你打算研究在此关系中, 性别是否会导致差别。 例2:你在研究某省家庭收入和支出的关系,采集 的样本中既包括农村家庭,又包括城镇家庭,你打 算研究二者的差别。 例3:你在研究通货膨胀的决定因素,在你的观测 期中,有些年份政府实行了一项收入政策。你想检 验该政策是 否对通货膨胀产生影响。 上述各例都可以用两种方法来解决,一种解决方 法是分别进行两类情况的回归,然后检验参数是否 不同。另一种方法是用全部观测值作单一回归,将 定性因素的影响用虚拟变量引入模型。
女1 0 女2 0 男2 1 女3 0 男3 1 男4 1 女4 0 女5 0
21.2
男5 1
试建立模型研究之。
2016/3/29
9
4、虚拟变量在分段回归中的应用
2016/3/29

【西南财大课件计量经济学】jljj8章

【西南财大课件计量经济学】jljj8章

高于X * : Yˆt (ˆ0 ˆ2 X * ) (ˆ1 ˆ2)X t
ˆ1是销售低于X(* 第一段回归直线)的斜率; (ˆ1 ˆ2)是销售高于X(* 第二段回归直线)的斜率; 只要检验2的统计显著性,则可以判断在X *是否存在突变。
案例
例1:美国1940一1950年可支配收入和消费支出的数据资料:
第八章 虚拟变量的模型 第一节 虚拟变量
一、虚拟变量的基本概念
前面讨论的数量因素(变量)可以直接度量,但质的因素(如:性别、职业、 文化程度、所有制形式等定性因素)不能直接度量。
为了在模型中反映这些属性因素的影响,以提高模型的精度,须将其“量化”
虚拟变量:取值为0、1的人工(特殊)变量(记为D) 。
2、虚拟变量取“0”或“1”应从分析问题的目的出发予以界 定(多以“0”代表基础类);
3、虚拟变量在单一方程中,可以作为解释变量,也可以作为
被解释变量。
三、模型中引入虚拟变量的作用 1、分离异常因素的影响
如观察我国社会总产值的时间趋势,须考虑三年自然灾害这一特殊因素的影响
2、检验不同属性类型对因变量的作用;
(-0.33) (10.957) (-9.254)
F 84.282 R2 0.955
冬季、农村居民 Yi 0 X i i
(比较的基础 — 冬季、农村)
20 15 10 5 0
1234567
(二)一个定量变量X、多个虚拟变量(定性变量)的模型
Yt 0 1D1t D2t Dkt X t ut
例 我国有56个民族,引入虚拟变量: D1—D55(以汉族为基础)
藏族:(1,0,0,…,0) 彝族:(0,1,0,…,0) … 汉族:(0,0,0,…,0)
变量)。

第八章 虚拟变量

第八章 虚拟变量

Company Logo
9
一、为什么引入虚拟变量
(2)把虚拟变量取值为0所对应的类别称作基础类别。
例如:按上面对“学历”的赋值方法,“无学历”为 基础类别。
(3)当定性变量含有m个类别时,不能把虚拟变量的值 设成如下形式:
0 (第一个类别)
D
1
(第二个类别)
m 1 (第m个类别)
这种赋值法在一 般情形下与虚拟变 量赋值是完全不同 的两回事。
(因为D不能作为Eviews的用户变量名,所以取D1)
Company Logo
28
三、测量斜率变动
Company Logo
29
三、测量斜率变动
trade 0.2818 0.0746time 35.8809D 1.2559timeD
(1.35) (6.2)
(8.4)
(9.6)
还有虚拟变量的两项都是显著的,所以
Company Logo
10
一、为什么引入虚拟变量
(4)回归模型可以只用虚拟变量作解释变量,也可以 用定量变量和虚拟变量一起作解释变量。
Company Logo
11
二、用虚拟变量测量截距变动
❖ 下面给出的模型都属于测量截距变动的模型。
中使用虚拟变量时,回归函数就不再是连续 的了,分段线性回归可以既使用虚拟变量描述出模型 结构变化,又可以使回归函数保持连续,其中每一段 都是线性的。
Company Logo
31
四、分段线性回归
❖ 考虑下面的模型
Yt 0 1X t 2 ( X t X b1)D1 ut
其中Xb1表示结构发生变化的t=b1时刻的Xt的值。
Company Logo
4
一、为什么引入虚拟变量

spss第八章虚拟变量

spss第八章虚拟变量

10
模型中引入虚拟变量的作用
1、分离异常因素的影响,例如分析我国 GDP的时间序列,必须考虑“文革”因素 对国民经济的破坏性影响,剔除不可比 的“文革”因素。 2、检验不同属性类型对因变量的作用, 例如工资模型中的文化程度、季节对销 售额的影响。 3、提高模型的精度,相当与将不同属性 的样本合并,扩大了样本容量(增加了 12 误差自由度,从而降低了误差方差)。
虚拟变量在模型中,可以作解释变量,也 可以作因变量。 虚拟变量作解释变量时出现在方程的右端 虚拟变量作因变量(被解释变量)时出现 在方程的左端
9
虚拟变量模型
引入虚拟变量后,回归方程中同时含有一 般解释变量和虚拟变量,称这种结构的模 型为虚拟变量模型或斜方差分析模型。 在第8章(本章)中讨论虚拟自变量模型 在第14章(虚拟因变量)中讨论虚拟因变 量。虚拟变量作因变量又称抉择模型。
虚拟变量设置的原则
在模型中引入多个虚拟变量时,虚拟变量 的个数应按下列原则确定: 如果有 m 种互斥的属性类型,在模型中引 入 m-1 个虚拟变量 例如,性别有2个互斥的属性,引用2-1=1个 虚拟变量 再如,文化程度分小学、初中、高中、大 学、研究生5类,引用4个虚拟变量
13
虚拟变量是一用以反映质的属性的一个人 工变量,通常记为D(Dummy)。 虚拟变量D只取0或1两个值 对基础类型或肯定类型设D=1 对比较类型或否定类型设D=0
7
虚拟变量举例
D= D= 1 0 0 1 本科学历 非本科学历 “文革”时期 非“文革”时期
8
虚拟变量的引入
模型中引入虚拟变量的必要性
现实经济生活错综复杂,往往要求人们按 照经济变量的质或量的不同,分别进行处 理。因此,回归模型中,往往有必要引入 虚拟变量,以表示这些质的区别。例如, 消费函数,对于平时与战时,萧条与繁荣, 乃至性别、教育程度、季节性等等,都会 因质的有不同表现出不同的差异。6虚拟变量的定义

第八章 虚拟变量模型分析

第八章 虚拟变量模型分析

◆某旅行社为了提高旅游业务 收入,希望通过建立个人旅游 支出模型,找出影响个人旅游 支出的关键因素,从而作出针 对性的旅游宣传。 根据实际经济理论,个人的旅 游支出往往与个人的收入、职 业、受教育程度、性别等有密 切关系,其中职业、教育、性 别因素不是我们前面章节常用 的定量变量,而是定性变量。 职业有教师、工程师、银行职 员等,教育程度可以分为大学 教育和非大学教育,同样性别 因素可以考虑是男是女。将这 样的定性变量作为自变量考虑 进旅游支出模型,模型如何建 立?有怎样的结果和意义?
E Yi | D1i 1 E 0 1 g 1 i 0 1
从上述的结果可以得知,模型截距 0 表示未
3、根据income变量构造虚拟变量d2,用1表示月收入 大于等于10000元的高收入者,0表示月收入小于10000 元的中低收入者。在命令窗口中输入:series d2=(sex="male"),点击回车键,得到虚拟变量d1。
二、虚拟变量作为自变量

在实际经济模型中,因变量不仅会受到定量变 量的影响,同时也会受到定性变量的影响。如个人 的月支出水平往往受到月收入、性别、职业、婚姻 状况等因素的影响,其中月收入为定量变量,性别、 职业、婚姻状况为定性变量。可见这些定性变量也 是影响因变量的重要因素,所以我们有必要将其量 化成虚拟变量后加入到模型中。在回归分析模型中, 我们假设模型自变量为非随机变量。而虚拟变量的 取值为0、1,说明虚拟变量是非随机变量。因此, 对于自变量中含有一个或多个虚拟变量的回归模型, 回归系数的普通最小二乘估计法以及模型检验方法 同样适用。
下面我们建立含有虚拟变量为自变量的回归模型。
1.方差分析模型(ANOVA模型) 在回归分析中,虚拟变量与定量变量一样 可以作为模型的回归元。一个回归模型的自 变量只有虚拟变量,这样的模型称为方差分 析模型(analysis of variance,ANOVA)。为 说明方差分析模型,我们看下面一个只含有 一个虚拟变量的ANOVA模型,含有多个虚拟 变量的ANOVA模型原理相似不再赘述。

第8章 虚拟变量模型

第8章 虚拟变量模型
设,则可以得出结论,上海股票市场不存在周内
效应。
8.1.3 虚拟变量作为因变量的情况
1、因变量为虚拟变量的回归模型
• 虚拟变量作为因变量的模型也称定性响应模型,既可 以包括二值变量模型(也称二分选择模型),也包括 多分选择模型。我们重点讨论二值变量模型。
• 模型举例: 一个大学毕业生是否会被一个不错的MBA项目录取, 取决于其学习成绩、GMAT分数和其它因素。 一位成年男子是否就业取决于总体失业率、平均工资 率、受教育程度和家庭收入等因素。
其中:
1
yi
{ 0
已购买汽车 未购买汽车
且假定E(ui ) 0
1.2 Y
1.0
0.8
0.6
0.4
0.2
0.0 X
-0.2 280 300 320 340 360 380 400 420
对于给定的xi ,E(yi / xi ) 0 1xi
设pi表示yi 1的概率,则1 pi表示yi 0的概率 E(yi / xi ) pi 1 (1 pi) 0 pi 可见,该模型描述了随着收入的变动, 第i个家庭 购买汽车的概率变动情况。
b0 + b1xt + ut , (D = 0)
Y
yt =
b0 + (b1 + b2) xt + ut , (D = 1)


t
0
3、一般方式
直接以加法和乘法方式引入虚拟变量。 可建立如下模型:
yt = b0 + b1 xt + b2 D + b3 xt D + ut ,
其中 xt 为定量变量;D 为定性变量。当 D = 0 或 1 时,上述模
yt =

第八章 虚拟变量模型

第八章  虚拟变量模型

• 例如,以1978-2009年的数据为样本,以GDP 作为解释变量,建立居民消费函数。根据分析, 1992年前后,自发消费和消费率都可能发生变 化。
1 Dt 0 92年前 92年及以后
Ct 0 1GDP t 2 Dt 3 ( Dt GDP t ) t t 1978 ,,2009
1 Di 0 农村居民 城镇居民
Ci 0 1 X i 2 Di X i i
E(Ci | X i , Di 1) 0 (1 2 ) X i E(Ci | X i , Di 0) 0 1 X i
农村居民: 城镇居民:
• 例如,根据消费理论,收入决定消费。但是, 在自然灾害、战争等反常年份,消费倾向往往 发生变化。这种消费倾向的变化可通过在消费 函数中引入虚拟变量来考察。
Yi 0 1 X i 3 Di 4 ( Di X i ) i
1 农村居民 Di 0 城镇居民
• 估计得到
ˆ 450.33 0.6920X 271.14D 0.0275 Y Di X i i i i
由变量显著性检验得到:2007年农村居民与城 镇居民的边际消费倾向并无显著差异,他们有 着共同的消费函数。
如果设置第4个虚变量,则出现“虚拟变量陷井” (Dummy Variable Trap),为什么?
• 包含季节变量的正确模型:
Yt 0 1 X 1t k X kt 1 D1t 2 D2t 3 D3t t Yt 0 1 X 1t k X kt 1 D1t 2 D2t 3 D3t 4 D4t t
通过统计检验,判断两个时期中消费函数的截 距和斜率是否发生变化。

9第八章 虚拟变量回归模型

9第八章 虚拟变量回归模型
说明 X i 变动一个单位,机会比率对数平均变化 2 个单位,
Logit 模型的估计
区分两类数据:
(1)个体水平数据
购房概率 p 0 0 1 1
收入 X(千美元) 6 8 10 12
如果
pi
0,
Zi
ln
0 1
pi
1,
Zi
ln
1 0
可见,Z 表达式无意义,无法用OLS,需用ML(最大似然法)
冰箱销售量(千台) FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269
耐用品支出(10亿美元) DUR 252.6 272.4 270.9 273.9 268.9 262.9 270.9 263.4 260.6 231.9 242.7 248.6 258.7 248.4 255.5 240.4 247.7 249.1 251.8
4 回归分析操作命令: equation eq.ls Frig c Dur D1 D2 D3
提问 根据回归分析结果,发现存在什么问题?如何修改回归模型?
8.4 虚拟被解释变量的回归模型
【例】 研究是否购买住房与收入水平的关系。
设是否购房为被解释变量,用 Y 表示;收入为解释变量, 用 X 表示。
1 变量分析:
将DUR作为解释变量;FRIG作为被解释变量; 引入3个季度虚拟变量D1,D2,D3。 (虚拟变量数 = 属性数 – 1 )
2 季度虚拟变量的赋值规则:
D1=
1 (第1季度) 0 (其他季度)
D3=
1 (第3季度) 0 (其他季度)
D2=

第八章 虚拟变量模型

第八章  虚拟变量模型
Y 改革开放以后 改革开放以前
假定 1 0且 2 0, 则其几何图形如图8-4所示。
X 图8-4 改革开放前后储蓄函数示意图
3.临界指标的虚拟变量的引入
在经济发生转折时,可通过建立临界指标的虚拟变量模型来反映。
例如:
进口消费品数量Y主要取决于国民收入X的多少,中国在改革开放前后, Y对X的回归关系明显不同。 这时,可以t*=1979为转折期,以1979年的国民收入Xt*为临界值, 设如下虚拟变量: Dt= 1 0 t≥t* t< t*
二、虚拟变量模型
同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型。
在模型中,虚拟变量可作为解释变量,也可作为被解释变量,但主要
是用作解释变量。
例如:一个以性别为虚拟变量来考察职工薪金的模型如下:
Y X D i 0 1 i 2 i i
其中 ——为职工的薪金;
i
(8-1)
譬如年龄因素虽然可以用数字计量,但如果将年龄作为资料分组的特 征,则可将年龄选作虚拟变量。
例如:
家庭教育经费支出不仅取决于其收入,而且与年龄因素有关。 按年龄划分为三个年龄组:6—18岁年龄组(中小学教育);19—22岁 年龄组(大学教育);其它年龄组。于是设定虚拟变量 1 0 6-18岁年龄组 其它 1 0 19-22年龄组 其它
为描述虚拟变量交互作用对被解释变量的效应,在(8-9)式中以加法形式引入 两个虚拟解释变量的乘积,即
Yi=α0+α1D1i+α2D2i+α3(D1iD2i)+βXi +μi
(8-10)
(1)基础类型:不发展油菜籽生产,也不发展养蜂生产时农副产品生产平均总收益
E(Yi|Xi,D1=0,D2=0)= α0+βXi

第8章 虚拟变量模型和设定误差

第8章 虚拟变量模型和设定误差

为了捕获该影响,设C Y u。假设边际消 费倾向 依赖于财产Z。一个简单的表示方法就 是 1 2Z 。代入消费函数,有:
C 1Y 2YZ u
由于YZ 捕获了收入和财产之间的相互作用而被称为 交互作用项。
显然,刻画交互作用的方法,在变量为数量(定量) 变量时, 是以乘法方式引入虚拟变量的。
其中:Di=10
城市 农村
(比较的基础:农村)
那么: E Yi | Di = 1 =(0 + 1)
E Yi | Di = 0 = 0
Yi (0 1) i 城市
Yi 0 i
农村
(2)一个定性解释变量(两种属性)和一个定 量解释变量的情形
模型形式 Yi = f(Di,Xi )+ μi 0 1Di
第8章 虚拟变量模型和设定误差
1
内容安排
8.1 虚拟变量 8.2 虚拟解释变量模型 8.3 虚拟被解释变量模型 8.4 设定误差 8.5 案例
8.1 虚拟变量
8.1.1 什么是虚拟变量
用来描述经济现象的定量属性(类别)的变量称之
为虚拟变量(Dummy Variables)。用符号D
来表示。
如:
1 D 0
Yi = 0 + X i + μi
农村
Y
X
共同的特征:截距发生改变
(3)一个定性解释变量(两种以上属性)和一 个定量解释变量的情形
模型形式 Yi = f ( Xi,D1,D2,...)+ μi
(如:民族有56种特性;季度有4种特性)
例如: 啤酒售量Y、人均收入X、季度D;
Yi 0 1D1 2D2 3D3 Xi i

计量经济学第八章 虚拟变量

计量经济学第八章 虚拟变量

Yi X i Di X i i
如果该模型设定正确,此时有:
E(Yi
)



(
X
)
i
X
i
D 1 D0
可见,城镇ቤተ መጻሕፍቲ ባይዱ民的边际消费倾向为 ( ) ,农
村居民的边际消费倾向为 。
如果不同属性类别对应的截距项和斜率项都 是有差异的,可在回归模型中同时引入虚拟 变量的加法方式和乘法方式,结果如下:
1 东部 D1 0 其他
1 中部 D2 0 其他
若考虑不同区域居民对应回归模型截距的不同 ,可构建模型如下:
Yi 1D1i 2 D2i X i i
则有:
E (Yi
)

( (

2) 1)

X i X i

Xi
Yi Di X i Di X i i
对于城镇居民和农村居民这两个类别,有总 体回归函数如下:
E(Yi
)

(


)

( X i

)X
i
D 1 D0
可见, 和 分别表示城镇居民与农村居民
的消费函数在截距和斜率上的差异。
注:
对于包含多个类别(M个)的属性变量,构 建M-1个虚拟变量,如在消费模型中,考虑 区域因素(东部,中部,西部)影响,可构 建2个虚拟变量:
Yi 1D1i 2 D2i (D1i D2i ) X i i
• 则有: ( 1 2 ) Xi

E
(Yi
)



( 1) Xi ( 2 ) Xi

第八章(虚拟变量回归)_图文

第八章(虚拟变量回归)_图文

5.社会因素:包括社会治安、城市化水平、消费心理等;
6.行政(政策)因素:包括土地与住房制度、房地产价格政策等;
7.区域因素:包括所处地段的市政基础设施、交通状况等;
8.个别因素:包括朝向、结构、材料、功能设计、施工质量等;
9.房地产投机因素:投机者在房地产市场中的投机活动;
10.自然因素:包括自然环境、地质、地形、地势及气候等。
使用虚拟变量需注意的问题
v 虚拟变量陷阱:若定性变量有m个类别,则引入 m个虚拟变量将会产生完全多重共线性问题,避 免方法:
Ø 只引入(m-1)个虚拟变量 Ø 引入m个虚拟变量但去掉截距项
v 哪种方法更好:包含截距项更方便,可以很容易 地检验某个组与基准组之间是否存在显著差异以 及差异程度。
2、避免落入“ 虚拟变量陷阱”
•男职工本科以上学历的平均薪金:
1.解释变量只有一个分为两种类型的定性变量无 定量变量的回归
这种模型又称方差分析模型
其中:Y为公立学校教师工资,
D=0为农村学校;D=1为城镇学校
分析条件期望:
基础类型:
比较类型:
为差异截距系数,通过对系数 可检验
的 t 检验:
在其他因素不变的条件下,城乡教师的工资是否有显2著323
D=0 表示某种属性或状态不出现或不存在 5
虚拟变量的作用
● 作为属性因素的代表,如性别 ● 作为某些非精确计量的数量因素的代表,
如受教育程度(高中及以下、专科、本科及以上) ● 作为某些偶然因素或政策因素的代表,
如 伊拉克战争、“911事件”、四川汶川大地震 ● 时间序列分析中作为季节(月份)的代表 ● 分段回归——研究斜率、截距的变动 ● 比较两个回归模型的差异 ● 虚拟被解释变量模型:

计量经济学课件:第08讲 虚拟变量与模型选择

计量经济学课件:第08讲 虚拟变量与模型选择

2022/3/27
金融与统计学院
10
加法方式
在所设定的计量经济模型中,根据问 题中定性变量的影响作用,按照虚拟 变量设置规则,直接加入适当的虚拟 解释变量,此时,虚拟解释变量与其 他解释变量是相加关系。
加法形式引入虚拟解释变量,作用在 于改变模型的截距水平。
2022/3/27
金融与统计学院
11
女性本科及以上:
E(Yi
|
D1
1,D2
1, X) i (0
1
2
3)
4 X i
男性本科及以上:
E(Yi
|
D1
0, D2
1, X ) i (0
2)
4 X i
女性本科以下:
E(Yi
|
D1
1,D2
0, X ) i (0
1)
4 X i
男性本科以下:
E(Yi
|
D1
0, D2
0, X ) i
0
根据这些因素的属性类型,构造只取“0” 或“1”的人工变量——虚拟变量 (Dummy Variables),记为D。
例如,反映文程度的虚拟变量可取为:
1 本科 D 0 非本科 一般地,在虚拟变量的设置中:
➢ 基础类型、肯定类型取值为1; ➢ 比较类型,否定类型取值为0。
虚拟变量的作用:定性因素定量化
4 X i
其中:
1为女性群体服装年均支出的截距差异系数;
为本科及以上群体服装年均支出的截距差异系
2
数;
3为本科及以上女性群体服装年均支出的截距差
异系数,成为本科女性的交互效应系数。
借助于交互效应虚拟解释变量系数ˆ 3的显著
性检验,可以判断交互效应是否存在。

计量经济学-虚拟变量回归

计量经济学-虚拟变量回归
19
虚拟变量模型有三种类型
1. 解释变量中只包含虚拟变量 2. 解释变量中既包含定量变量也包含虚拟
变量。 3. 被解释变量本身为虚拟变量。
20
第二节 虚拟解释变量的回归
本节基本内容:
●加法类型 ●乘法类型 ●虚拟解释变量综合应用
21
在计量经济学中,通常引入虚拟变量的方式分为 加法方式和乘法方式两种:即
分为四种情形讨论: (1)解释变量只有一个定性变量而无定量变量,而且定性
变量为两种相互排斥的属性; (2)解释变量分别为一个定性变量(两种属性)和一个定
量解释变量;
23
(3)解释变量分别为一个定性变量(两种以上属 性)和一个定量解释变量;
(4)解释变量分别为两个定性变量(各自分别是 两种属性)和一个定量解释变量;
计量经济学
第八章 虚拟变量回归
1
引子:男女大学生消费真有差异吗?
由共青团中央,全国学联共同发布的 《 2004中国大学生消费与生活型态研究报 告》显示,当代大学生的消费行为呈现多元 化的结构。除日常生活开支外还有人际交往 消费、手机类消费、衣着类消费、化妆品类 消费、电脑类消费、旅游类消费等等。
2
4
第一节 虚拟变量
本节基本内容:
●基本概念 ●虚拟变量设置规则
5
一、基本概念
定量因素:可直接测度的数值型因素。 如收入、产出、价格、人数等。
定性因素:属性因素,不能直接测度、 表征某种属性或状态存在与否的非数值型 因素。如性别、婚否、政府经济政策不变 与改革、城市居民或非城市居民等。
6
在以前的学习中,解释变量主要是定 量变量,但现实经济生活中影响被解释 变量的还包括定性变量,比如:研究某 个企业的销售水平,所有制(私营、非 私营)、地理位置(东、中、西部)等 是必须考虑的因素。

虚拟变量模型

虚拟变量模型
第八章 虚拟变量模型 【本章要点】(1)虚拟变量的概念 (2) 虚拟变量作 为自变量的情况 (3) 虚拟变量作为因变量的情况 (4)非线性概率模型—逻辑模型的概念及应用 (5) 利用EViews软件估计逻辑模型的参数。 §8.1 虚拟变量与线性模型 一、虚拟变量的概念 虚拟变量(Dummy Variable)指的是一种取值为0 或1的变量。
由上面分析,我们可以看到,利用虚拟变量可以把特殊
年份与正常年份构成统一的模型来表示,并且可以利用
OLS法得出适合各时期的统一的参数估计量。
这里应该指出,应用OLS法的条件是特殊年份与正常年
份消费具有相同的方差。
(三)多个虚拟变量的引进及虚拟变量陷井问题 某些商品的销售量是有季节性的,假设销售函数模
型为:
Ct 0 1 x1t k xkt ut (8.1.5)
其中Ct表示销量,x1t , x2t ,, xkt 表示决定销量的解
释变量,为了把季节变化对销售的影响反映到模型
中,如果我们引进四个虚拟变量:
1
Dit
0
第i 季 i 1,2,3,4. 其他季
这样销售函数的季节回归模型为
改变虚拟变量的引入方法。改为引入虚拟变量
1
Dit
0
第i 季 i 2,3,4. 其他季
第1季度用 D2t D3t D4t 0表示,这时销售函数的 季节回归模型可写为
Ct 0 1 x1t k xkt 2 D2t 3 D3t 4 D4t ut
这样就避免了虚拟变量的陷阱问题。
二、虚拟变量作为自变量的情况
(一)自变量中只有虚拟变量
例如调查某地区性别与收入之间的关系,我们可以
用模型表示:
yi Di ui
(8.1.1)

第8章虚拟变量模型-精品文档

第8章虚拟变量模型-精品文档

当第i种属性类型出现时,第i个虚拟变量取1,其它 虚拟变量皆取0,而当所有 D i 都取0时,则表示出现第 m种属性类型。
例:虚拟变量反映季节变动的影响
已知冷饮的销售量 Y除受 k种定量变量 Xk 的影响 外,还受春、夏、秋、冬四季变化的影响,要考 察该四季的影响,只需引入三个虚拟变量即可:
1 春季 D 1t 0 其他
Y i 和居民可支配收入 X i 之间的

各自在住房消费支出
D1i = 0 为农村,则模型为
Y = + X + D + u 2 ) i 0 1 i 1 1 i(
(模型有截距,“居民属性”定性变量只有两个相互排斥
的属性状态( m 2 ),故只设定一个虚拟变量。)

Y i 上的差异,设

二、虚拟变量的设置原则
虚拟变量的个数须按以下原则确定:
每一定性变量所需的虚拟变量个数要比该定性变 i 量的类别数少1,即如果定性变量有 m个类型,只在 i 模型中引入m-1个虚拟变量 。
每个虚拟变量定义为:
1 第 i个属性 类型 ( i 1 , 2 , , m 1 ) D i 0 非第 i个属性类型
D1i = 1 为城镇;
虚拟变量陷阱
若对两个相互排斥的属性 “居民属性” ,仍然 引入 m 2 个虚拟变量,则有
1城 镇 居 民 D 1 i= 0 农 村 居 民
1农 村 居 民 D 2 i= 0 城 镇 居 民
则模型(1)为 Y X D D u ( 3 ) i 0 1 i 1 1 2 2 i 则对任一家庭都有: , D D+ D1=0 1 +D 2 =1 1 2 即产生完全共线,陷入了“虚拟变量陷阱”。 “虚拟变量陷阱”的实质是:完全多重共线性。

第8章虚拟变量模型

第8章虚拟变量模型
1 城镇居民 D1i = 0 农村居民
1 农村居民 D2i = 0 城镇居民
则模型(1)为 Yi 0 1 X i 1D1 2 D2 ui (3) 则对任一家庭都有: , D1 + D2 = 1 D1 + D2 - 1 = 0 即产生完全共线,陷入了“虚拟变量陷阱”。 “虚拟变量陷阱”的实质是:完全多重共线性。
1 1 1 ( X, D) 1 1 1 X 11 X k1 X 12 X k 2 X 13 X k 3 X 14 X k 4 X 15 X k 5 X 16 X k 6 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 1 0 0 1 0 0 0
各自在住房消费支出 Yi上的差异,设 D1i = 1 为城镇; D1i = 0 为农村,则模型为
Yi = 0 + 1 X i + 1D1 + ui
的属性状态(
(2)
(模型有截距,“居民属性”定性变量只有两个相互排斥
m 2 ),故只设定一个虚拟变量。)
虚拟变量陷阱
若对两个相互排斥的属性 “居民属性” ,仍然 引入 m 2 个虚拟变量,则有
Y为香烟消费量;
1 其中:Di= 0 城市 农村 (比较的基础:农村)
那么: E Yi | Di = 1 = ( 0 + 1)
Yi ( 0 1) i Yi 0 i
E Yi | Di = 0 = 0
城市
农村
(2) 一个定性解释变量(两种属性)和一个 定量解释变量的情形
iixy130??????????iixy120??????????iixy10???????3??2??0??33一个定性解释变量四种属性和一个定量解释变量的情形01122331234110010iiiyxdydddxddd????????????????????????例如

第八章虚拟变量的建模

第八章虚拟变量的建模

在交互模型中,虚拟变量前的回归系数 只表示在资本为0情况下,三资企业与国 有企业的利润差距
4、含虚拟变量模型的其他变化

交互模型中虚拟变量前回归系数的经济 含义不好,可以采用如下方法解决:
P 0 0 system 1capital 2 system* capital C u
背景

本章的研究对象是定性变量
无论是定类还是定序,处理方法是一致的 但,当定序变量的水平很多时,可以当定量变 量处理 例:大学排名

背景

定性变量的水平可以是自然的,也可以是人为 规定的 自然的:性别 人为规定: 规定水平:相貌对工资的影响 合并水平(计量等级的退化): 地区差异对人均收入的影响 大学排名对最初工资的影响
2 3
system 0 ˆ ˆ ˆ ˆ P 0 1region 1capital 两者之差: ˆ ˆ ˆ 0 2 region 3capital
4、含虚拟变量模型的其他变化

交互项的引入实际意味着非虚拟变量的 斜率是不一致的。
profit 0 0 system 1capital 2 system* capital u profit 0 0 system 1 2 system* capital u system 0 system 1 profit0 0 1capital u profit1 0 0 1 2 capital u
4、含虚拟变量模型的其他变化

判断是否需要交互项,可通过相应系数 的t检验来进行;
要注意到:是否需要交互项等价于检验斜率是 否相等;
(二)多值变量的建模

多值变量意味着虚拟变量有3个以上取值, 如考虑季节的影响,则季节有四个水平。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

三、虚拟变量的特殊应用
1.调整季节波动 例如,用季度数据分析某公司利润y与销售 收入x之间的相互关系时,为研究四个季度的季 节性影响,引入三个虚拟变量(设第1季度为基 础类型): 第i+1季度 i=1,2,3 1
其他季度 利润函数可取为 : Yi=a+bxi+ α 1D1i+ α 2D2i + α 3D3i + ε
1 D 0
中高收入家庭 低收入家庭
将我国城镇居民的彩电需求函数设成: Yi=a+bxi+α Di+β XDi+ε i DATA D1 (由于D是EViews软件的保留字,所以将虚拟变量取 名为D1;另外,此时也可以用SMPL和GENR命令直 接生成D1变量) GENR XD=X*D1 生成变量XD LS Y C X D1 XD 估计需求函数 结果如下图所示:
(3)一般方式 同时用加法与乘法方式引入虚拟变量,然后再利 用t检验判断α 、β 是否显著的不等于零,进而确 定虚拟变量的具体引入方式。 【例7】教材P126表3-8列出了1998年我国城镇居民 人均收入与彩电每百户拥有量的统计资料。
观察相关图
操作演示
从相关图可以看出, 前3 个样本点与后 5 个样 本点存在较大差异,因 此,可设置虚拟变量反 映“收入层次”:
1 D1 0
农村居民 城镇居民
1 D2 0
高收入家庭 低收入家庭
这样可以反映各类居民家庭的住房消费情况: 城市低收入家庭 城市高收入家庭 农村低收入家庭 农村高收入家庭 (D1=0,D2=0) (D1=0,D2=1) (D1=1,D2=0) (D1=1,D2=1)
思考:若是多因素、多个属性水平的问题,如何设置?
2.作用
⑴可以描述和测量定性因素的影响。
⑵能够正确反映经济变量之间的相互关系,提高模 型的精度。 ⑶便于处理异常数据。 即将异常数据作为一个特殊的定性因素
1 D 0
异常时期 正常时期
二、虚拟变量的设定
1.虚拟变量的引入方式 (1)加法方式 Yi=a+bxi+α Di+ε i a+α 等价为: 当Di =0时:Yi=a+bxi+ε i a 当Di =1时:Yi=(a+α )+bxi+ε i
三类年薪函数的差异情况如下图所专以下 工龄
设置虚拟变量D或增设D3行吗? D=
2 1 0 博士研究生
1 硕士研究生 D2 0 本科及以下
研究生
其他
(2)多个因素各两种类型 如果有m个定性因素,且每个因素各有两个不 同的属性类型,则引入 m 个虚拟变量。 例如,研究居民住房消费函数时,考虑到城乡 的差异以及不同收入层次的影响,将消费函数取成: yi=a+bxi+α 1D1i+α 2D2i +ε i 其中y ,x分别是居民住房消费支出和可支配收 入,虚拟变量设为:
为比较两年的消费函数是否有显著差异,设置虚拟 变量: 1 1999年
D 0
1998年
并且合并两年的数据,估计以下模型: Yi= a1 +b1xi+α Di+β XDi +ε i 其中α =a2-a1 ,β =b2-b1。
使用EViews软件的估计过程如下: CREATE U 16 建立工作文件 DATA Y X (输入1998、1999年消费支出和收入的数据,1~8期 为1998年资料,9~16期为1999年资料) SMPL 1 8 样本期调为1998年
1 D1 0
本科 其他
1 D2 0
研究生 其他
而将年薪模型取成(假设以加法方式引入):
Yi=a+bxi+α 1D1i+α 2D2i +ε 其等价于:
i
Yi=a+bxi+ε i Yi=(a+α 1)+ bxi+ε Yi=(a+α 2)+ bxi+ε
i i
大专以下(D1=D2=0) 本科(D1=1,D2=0) 研究生(D1=0,D2=1)
i
第(1)种情况下模型结构是稳定的, 利用t检验判断D、XD系数的显著性,得到四种 其余情况都表明模型结构不稳定。 重合回归检验结果: (1)a2=a1,b2=b1,两个回归模型没有显著差异。 (2)a2≠a1 ,b2=b1 ,两个回归模型之间的差异仅仅 平行回归 表现在截距上。 (3)a2=a1 ,b2≠b1 ,两个回归模型的截距相同,但 汇合回归 斜率存在显著差异。 (4)a2≠a1,b2≠b1,表明两个回归模型完全不同。 相异回归
Di 0
i
2.检验模型结构的稳定性 设根据两个样本估计的回归模型分别为: 样本1: Yi=a1+b1xi +ε i 样本2: Yi=a2+b2xi +ε i 1 样本2 设置虚拟变量: D 0 样本1
估计模型:Yi=a1+b1xi+(a2-a1)Di+(b2-b1)XDi+ε 其中,XDi=xi*Di。
D=1 α D=0
以加法方式引入,反映定性因素对截距的影响
(2)乘法方式
Yi=a+bxi+β XDi+ε i 其中:XDi=Xi*Di, 上式等价于: a 当Di =0时:Yi=a+bxi+ε i 当Di =1时:Yi=a+(b+β )xi+ε
D=1
β
D=0
i
以乘法方式引入,可反映定性因素对斜率的影 响,系数β描述了定性因素的影响程度。
3.分段回归
1 设虚拟变量为: D 0
x>x* x<x*
分段回归模型设置成: Yi= a+bxi+β (xi-x*)Di+ε i 其中,x*是已知的临界水平(分段点)。 这样各段的函数为: Yi= a +bxi+ε i x<x* Yi= (a-β )+(b+β )xi+ε i x>x*
课外练习

1.简述虚拟变量的引入方式及其影响。 2.设置虚拟变量时应遵守哪些原则? 3.虚拟变量有哪些特殊应用。 4.教材P187第18-21题
参考文献





1.张晓峒.计量经济学软件EViews使用指南.南开 大学出版社,2004 2.庞皓.计量经济学.科学出版社,2005 3.J.M.伍德里奇.计量经济学导论.中国人民 大学出版社,2003 4.古扎拉蒂.计量经济学基础(第四版).林少宫 译.中国人民大学出版社,2006 5.易丹辉.数据分析与EViews应用,中国统计出 版社,2002 6.高铁梅.计量经济分析方法与建模——EViews 应用及实例,清华大学出版社,2006
对应的t统 计量值
R2的值
调整的R2值 SE的值
我国城镇居民彩电需求函数的估计结果为: ˆ yi 57.61 0.0119 xi 31.8731Di 0.0088 XDi 结果表明不同收入家庭对彩电的消费需求,在 截距和斜率上都存在着明显差异。
低收入家庭: ˆ yi (57.61 31.8731) (0.0119 0.0088) xi
第七章 虚拟变量
【教学目的及要求】 一、虚拟变量及其作用 二、虚拟变量的设定 三、虚拟变量的特殊应用 四、虚拟被解释变量 课外练习 参考文献
教学目的及要求
了解虚拟变量的意义和作用,掌握虚拟解释 变量的引入方式与设置原则,掌握EViews软 件的相关应用。 掌握虚拟解释变量在调整季节波动、检验模 型的稳定性、分段回归和混合回归等方面的 特殊应用。 了解线性概率模型、Logit模型和Probit模型 的基本思想和估计方法。
GENR SMPL GENR D1=0 9 16 D1=1 输入虚拟变量的值 样本期调为1999年 输入虚拟变量的值
SMPL 1 16 GENR XD=X*D1 LS Y C X D1 XD 估计结果为: 操作演示
t统计量
样本期调至1998~1999年 生成XD的值 利用混合样本估计模型
R2的值
调整的R2值

一、虚拟变量(dummy)及其作用
1.定义
反映品质指标变化、数值只取0和1的人工变量, 用符号D来表示。 1 城镇居民 1 销售旺季 如: D D 0 农村居民 0 销售淡季
1 D 0
政策紧缩
政策宽松
1 D 0
本科以上学历
本科以下学历
变量的划分应遵循穷举与互斥原则。
使用虚拟变量能如 实描述不同阶段的 经济关系,又未减 少估计模型时样本 容量,保证了估计 精度。
4.混合回归 能否将变量的时序数据和横截面数据混合建模 【例8】教材P143表3-9为我国城镇居民1998年、1999 年全年人均消费支出和可支配收入的统计资料。试 使用混合样本数据估计我国城镇居民消费函数。 设1998年、1999年我国城镇居民消费函数分别为: 1998年:Yi=a1+b1xi +ε i 1999年:Yi=a2+b2xi +ε i
ˆ yi 57.61 0.0119 xi 中高收入家庭: 89.48 0.003xi 此例说明了三个问题: ①如何设置和在模型中引入虚拟变量; ②如何测量定性因素(即收入层次)的影响; ③如何区分不同类型的模型(即需求函数)。
2.虚拟变量的设置原则
⑴ 一个因素多个类型 对于有m个不同属性的定性因素,应该设置m-1个 虚拟变量来反映该因素的影响。 例如,设公司职员的年薪与工龄和学历有关。 学历分成三种:大专以下、本科、研究生。为反映 “学历” 的影响,应该设置两个虚拟变量:
相关文档
最新文档