计量经济学:第八章 虚拟变量回归
第八章 包含虚拟变量的回归模型
第八章 包含虚拟变量的回归模型一、虚拟变量的基本含义通常在回归分析中,因变量不仅受一些定量变量的影响,而且还受一些定性变量的影响,比如性别、种族、婚姻状况等等。
为了在模型中反映这些因素的影响,需要把定性因素进行“量化”。
通常是引进人工变量完成。
通过定性因素的属性类别,构造取值为0或者1的变量,如、 1代表男性, 0代表女性; 1代表某人是大学毕业, 0代表某人不是大学毕业,这类取值为0,1的变量称为虚拟变量(dummy variable )。
虚拟变量与定量变量一样可用于回归分析。
事实上,一个回归模型的解释变量可以仅仅是虚拟变量。
解释变量仅是虚拟变量的模型称为方差分析模型( analysis-of-variance models ) (ANOVA)。
例1:1i i Y D i βα=++ε,其中Y 表示职工工资,。
10i D ⎧=⎨⎩,本科学历,非本科学历这个模型与我们前面讨论过的双变量模型类似,但这里的解释变量是虚拟变量。
1(0)i E Y D β==,1(1)i E Y D βα==+显然,1β表示非大学毕业生的平均初职年薪,1βα+表示具有大学学历职工的平均工资,α代表二者之差。
回归模型中可以有同时有虚拟变量以及定量变量。
例2:考虑是否上过大学和工龄作为职工工资的模型:12i i i Y X D i ββαε=+++Y ,表示职工工资,X表示工龄,D同上。
含虚拟变量的模型只要扰动项符合古典假定,仍用OLS方法估计模型。
注意:虚拟变量系数显著性检验的意义::0H 0α=;:1H 0α≠。
同学们思考:这个检验在上面两个例子中分别具有何实际意义?二、虚拟变量的引入模型的方式 1、加法方式上面考察的例子都是加法方式。
注意虚拟变量模型的几何意义:以上述例2考察。
例3:如果上述职工工资方程(例2)中,学历考虑三个层次:高中以下、高中、大学及以上。
该如何建模?引进两个虚拟变量:,1 1 0 D ⎧=⎨⎩高中其他2 1 0 D ⎧=⎨⎩大学及以上其他121222Y X D D ββαα=++++ε请同学们分析模型的含义。
计量经济学课后习题答案第八章_答案
第八章虚拟变量模型1. 回归模型中引入虚拟变量的作用是什么?答:在模型中引入虚拟变量,主要是为了寻找某(些)定性因素对解释变量的影响。
加法方式与乘法方式是最主要的引入方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
2. 虚拟变量有哪几种基本的引入方式? 它们各适用于什么情况?答:在模型中引入虚拟变量的主要方式有加法方式与乘法方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
3.什么是虚拟变量陷阱?答:根据虚拟变量的设置原则,一般情况下,如果定性变量有m个类别,则需在模型中引入m-1个变量。
如果引入了m个变量,就会导致模型解释变量出现完全的共线性问题,从而导致模型无法估计。
这种由于引入虚拟变量个数与类别个数相等导致的模型无法估计的问题,称为“虚拟变量陷阱”。
4.在一项对北京某大学学生月消费支出的研究中,认为学生的消费支出除受其家庭的每月收入水平外,还受在学校中是否得到奖学金,来自农村还是城市,是经济发达地区还是欠发达地区,以及性别等因素的影响。
试设定适当的模型,并导出如下情形下学生消费支出的平均水平:(1) 来自欠发达农村地区的女生,未得到奖学金;(2) 来自欠发达城市地区的男生,得到奖学金;(3) 来自发达地区的农村女生,得到奖学金;(4) 来自发达地区的城市男生,未得到奖学金。
解答: 记学生月消费支出为Y,其家庭月收入水平为X,则在不考虑其他因素的影响时,有如下基本回归模型:Y i=β0+β1X i+μi有奖学金1 来自城市无奖学金0 来自农村来自发达地区 1 男性0 来自欠发达地区0 女性Y i=β0+β1X i+α1D1i+α2D2i+α3D3i+α4D4i+μi由此回归模型,可得如下各种情形下学生的平均消费支出:(1) 来自欠发达农村地区的女生,未得到奖学金时的月消费支出:E(Y i|= X i, D1i=D2i=D3i=D4i=0)=β0+β1X i(2) 来自欠发达城市地区的男生,得到奖学金时的月消费支出:E(Y i|= X i, D1i=D4i=1,D2i=D3i=0)=(β0+α1+α4)+β1X i(3) 来自发达地区的农村女生,得到奖学金时的月消费支出:E(Y i |= X i , D 1i =D 3i =1,D 2i =D 4i =0)=(β0+α1+α3)+β1X i (4) 来自发达地区的城市男生,未得到奖学金时的月消费支出: E(Y i |= X i ,D 2i =D 3i =D 4i =1, D 1i =0)= (β0+α2+α3+α4)+β1X i5. 研究进口消费品的数量Y 与国民收入X 的模型关系时,由数据散点图显示1979年前后Y 对X 的回归关系明显不同,进口消费函数发生了结构性变化:基本消费部分下降了,而边际消费倾向变大了。
计量经济学第八章 虚拟变量回归
第八章
虚拟变量回归
1
第八章 虚拟变量回归
本章主要讨论:
●虚拟变量
●虚拟解释变量的回归
2
本章的教学目标
(1)深刻理解定性因素在计量经济分析中的 背景和含义; (2)明确虚拟变量在建立和估计计量经济模 型中的意义和作用; (3)熟练掌握引入和应用虚拟变量的基本思 想和方法; (4)能够运用虚拟变量模型作相应的经济实 证分析方面的应用; (5)掌握Eviews软件中相关内容的操作方法。
这表明三个时期居民储蓄增加额的回归方程在统计 意义上确实是不相同的。1996年以前收入每增加1 亿元,居民储蓄存款的平均增加0.1445亿元;在 2000年以后,则为0.4133亿元,已发生了很大变化。
20
上述模型与城乡居民储蓄存款与国民总收入之间 的散布图是吻合的,与当时中国的实际经济运行 状况也是相符的。 需要指出的是,在上述建模过程中,主要是从教 学的目的出发运用虚拟变量法则,没有考虑通货 膨胀因素。而在实证分析中,储蓄函数还应当考
单位:亿元
城乡居民 人民币储 蓄存款增 额 (YY) 2121.8 2517.8 3444.1 6315.3 8143.5 8858.5
年 份
城乡居民 国民总收 人民币储 蓄存款年 入 (GNI) 底余额 (Y) 3624.1 4038.2 4517.8 4860.3 5301.8 5957.4 210.6 281 399.5 532.7 675.4 892.5
(1,0) 天气阴 如:(D1 ,D2)= (0,1) 天气雨 (0,0) 其 他
29
虚拟变量数量的设置规则
1.若定性因素具有 m 个 (m 2) 相互排斥属性(或 几个水平),当回归模型有截距项时,只能引入
计量经济学第八章关于虚拟变量的回归.
类的截距。
2
2:级差截距系数
教龄X
1
0
薪金与性别:估计结果
1,若是男性 Di 0,若是女性
ˆ 17.969 1.371X 3.334D Y i i i se : (0.192) (0.036) (0.155) t : (93.61) (38.45) (21.455) r 2 0.993
一、虚拟变量的性质
例:教授薪金与性别、教龄的关系
男教授平均薪金和女 教授平均薪金水平相 差2,但平均年薪对 教龄的变化率是一样 的
Yi=1+2Di+Xi+I (1) 1,若是男性 D 其中:Yi=教授的薪金, Xi=教龄, Di=性别 0,若是女性 i 女教授平均薪金:E(Yi | X i , Di 0) 1 X i 被赋予0值的 男教授平均薪金:E(Yi | X i , Di 1) (1 2) X i 类别是基底(基 准),1是基底 男教授
比较英国在第二次大战后重建时期和重建后时期的总 储蓄-收入关系是否发生变化。数据如表。 Yt 1 2 Dt 1 X t 2 ( Dt X t ) t
D=1,重建时期
级差截距:区分两 个时期的截距 级差斜率系数:区分 两个时期的斜率 =0,重建后时期
D=1 D=0
E(Yt | Dt 0, X t ) 1 1 X t E(Yt | Dt 1, X t ) (1 2 ) ( 1 2 ) X t
男教授平均薪金水平比 女教授显著高$3.334K (男:21.3,女:17.969)
1,若是女性 Di 0,若是男性
ˆ 21.303 1.371X 3.334D Y i i i se : (0.182) (0.036) (0.155) t : (117.2) (38.45) (21.455)
9第八章 虚拟变量回归模型
Logit 模型的估计
区分两类数据:
(1)个体水平数据
购房概率 p 0 0 1 1
收入 X(千美元) 6 8 10 12
如果
pi
0,
Zi
ln
0 1
pi
1,
Zi
ln
1 0
可见,Z 表达式无意义,无法用OLS,需用ML(最大似然法)
冰箱销售量(千台) FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269
耐用品支出(10亿美元) DUR 252.6 272.4 270.9 273.9 268.9 262.9 270.9 263.4 260.6 231.9 242.7 248.6 258.7 248.4 255.5 240.4 247.7 249.1 251.8
4 回归分析操作命令: equation eq.ls Frig c Dur D1 D2 D3
提问 根据回归分析结果,发现存在什么问题?如何修改回归模型?
8.4 虚拟被解释变量的回归模型
【例】 研究是否购买住房与收入水平的关系。
设是否购房为被解释变量,用 Y 表示;收入为解释变量, 用 X 表示。
1 变量分析:
将DUR作为解释变量;FRIG作为被解释变量; 引入3个季度虚拟变量D1,D2,D3。 (虚拟变量数 = 属性数 – 1 )
2 季度虚拟变量的赋值规则:
D1=
1 (第1季度) 0 (其他季度)
D3=
1 (第3季度) 0 (其他季度)
D2=
第八章虚拟解释变量回归
第八章虚拟解释变量回归第一节虚拟变量一、虚拟变量的差不多概念在前面的分析中,被说明变量要紧受到一些能够直截了当度量的变量阻碍,如收入、产出、商品需求量、价格、成本、资金、人数等。
但现实经济生活中,阻碍被说明变量变动的因素,除了这些能够直截了当获得实际观测数据的定量变量外,还包括一些本质上为定性因素(或称属性因素)的阻碍,例如性别、种族、肤色、职业、季节、文化程度、战争、自然灾难、政府经济政策的变动等因素。
在实际经济分析中,这些定性变量有时具有不可忽视的重要阻碍。
例如,研究某个企业的销售水平,产业部门(制造业、零售业)、所有制(私营、非私营)、地理位置(东、中、西部)、治理者素养的高低等是值得经常考虑的阻碍因素,这些因素有共同的特点,即差不多上表示某种属性的,不能直截了当用数据精确描述的因素。
因此,被说明变量的变动经常是定量因素和属性因素共同作用的结果。
在计量经济模型中,应当同时包含定量和属性两种因素对被说明变量的阻碍作用。
定量因素是指那些可直截了当测度的数值型因素,如GDP、M2等。
定性因素,或称为属性因素,是不能直截了当测度的、说明某种属性或状态存在与否的非数值型因素,如男性或女性、都市居民或非都市居民、气候条件正常或专门、政府经济政策不变与改革等。
在计量经济学的建模中应当将定量因素和定性因素同时纳入模型之内。
为了在模型中反映定性因素,能够将定性因素转化为虚拟变量去表现。
虚拟变量(或称为属性变量、双值变量、类型变量、定性变量、二元型变量等),是人工构造的取值为0和1的作为属性变量代表的变量,一样用字母D(或DUM,英文dummy的缩写)表示。
属性因素通常具有若干类型或水平,通常虚拟变量的取值为0和1,当虚拟变量取值为0,即D=0时,表示某种属性或状态不显现或不存在,即不是某种类型;当虚拟变量取值为1,即D=1时,表示某种属性或状态显现或存在,即是某种类型。
例如,构造政府经济政策人工变量,当经济政策不变时,虚拟变量取值为0,当经济政策改变时,虚拟变量取值为1。
庞浩计量经济学课件第八章 虚拟变量回归
二、虚拟变量的设置规则
1.虚拟变量个数的设置规则 若定性因素有m个相互排斥的类型(或属性、水 平),则: 在有截距项的模型中,只能引入m-1个虚拟变 量,否则会陷入“虚拟变量陷阱”(即:出 现完全的多重共线性); 在无截距项的模型中,可以引入m个虚拟变量, 不会导致完全的多重共线性。
4
例如:研究城乡居民的可支配收入对居民住房消费支 出的影响 C Y D u i 1 1 i 2 i i
21
分段线性回归
适合于社会经济现象会在解释变量达到某个临界值时 发生突变,考虑下述模型: Yt 1 1 X t 2 ( X t X * ) Dt ut 0, X t X * Dt * 1, X t X
当X t X *时, Yt 1 1 X t ut 当X t X 时, Yt 1 1 X t 2 ( X t X * ) ut
18
二、用虚拟变量表示不同斜率的回归—— 乘法类型
回归模型的比较——结构变化检验
分段线性回归
19
回归模型的比较——结构变化检验
研究改革开放前后(1950-2004),储蓄与收入的关系: Yi 1 2 Di 1 X i 2 ( Di X i ) ui
( 1950 1977 ) 0, 改革开放前 Di ( 1978 2004 ) 1, 改革开放后
Yi 1 2 Di 1 X i ui
0, 租房户 Di 1, 有房户
15
i 1 2 3 4 5 6 7 8 9 10
Y 1.0 1.3 0.7 0.8 0.5 2.4 0.3 3.2 2.8 0.0
X 20.0 24.0 12.0 16.0 11.0 32.0 10.0 40.0 32.0 7.0
第8章 虚拟变量回归
(2)比较两个回归结构稳定性:虚拟变量法 上节中探讨的邹检验程序,可以通过虚拟变量的使用而大为简化。 仍然使用储蓄-回归的例子,将n1和n2次观测值合并,用下列回归方 程:
其中Yi和Xi仍然代表储蓄和收入。而Di=1,如果观测值属于重建时期
(时期I);Di=0,如果观测值属于重建后时期(时期II)。 为了看清楚,实际上方程等效于:
它们分别是第二(重建后)和第一(重建)两个时期的平均储蓄函
数。相当于取γ1=α1,γ2=β1,λ1=α1+α2,和λ2=β1+β2。这样上述回归方 程等效于估计两个个别的储蓄函数。 α2和先前一样是级差截距;β2是级差斜率系数,表明在第一时期储蓄 函数的斜率和第二时期储蓄函数的斜率系数相差多少。
现在我们要问,在时期I(1946-1954)和时期II(1955-1963)中,储 蓄与收入之间的关系,是否是一回事呢?或者说,两个时期的储蓄 函数是否存在有结构性的变换呢?
这里,结构性变化是指两个截距或两个斜率不同,或者指截距和斜
率均不同,以致任何其他适当的参数组合有所不同。 为了判明这个变化是否真实,假定两个时期的储蓄函数分别是:
工资的重要决定性因素。
上述讨论的结论:模型可推广到含有多个定量变量和多个定性变量
的情形。唯一要提醒注意的是:每一个定性变量所需的虚拟变量的 个数要比该变量的类别数少一。
一个例子:“兼职”经济学
所谓“兼职”是指一个人执有两分或两分以上的工作,其中一份是
主业,其他称为副业。希斯克和罗斯特克研究了影响兼职者工薪的 因素,他们利用一个有318兼职者调查数据的样本,做了如下回归:
图中数据编排为女教
授和男教授两类。图 形可见导出的回归函 数是一个阶梯函数。 女教授的平均工资为 18000美元,而男教 授的工资则跃升了 3280美元,达到了 21280美元。
计量经济学第八章 虚拟变量
Yi X i Di X i i
如果该模型设定正确,此时有:
E(Yi
)
(
X
)
i
X
i
D 1 D0
可见,城镇ቤተ መጻሕፍቲ ባይዱ民的边际消费倾向为 ( ) ,农
村居民的边际消费倾向为 。
如果不同属性类别对应的截距项和斜率项都 是有差异的,可在回归模型中同时引入虚拟 变量的加法方式和乘法方式,结果如下:
1 东部 D1 0 其他
1 中部 D2 0 其他
若考虑不同区域居民对应回归模型截距的不同 ,可构建模型如下:
Yi 1D1i 2 D2i X i i
则有:
E (Yi
)
( (
2) 1)
X i X i
Xi
Yi Di X i Di X i i
对于城镇居民和农村居民这两个类别,有总 体回归函数如下:
E(Yi
)
(
)
( X i
)X
i
D 1 D0
可见, 和 分别表示城镇居民与农村居民
的消费函数在截距和斜率上的差异。
注:
对于包含多个类别(M个)的属性变量,构 建M-1个虚拟变量,如在消费模型中,考虑 区域因素(东部,中部,西部)影响,可构 建2个虚拟变量:
Yi 1D1i 2 D2i (D1i D2i ) X i i
• 则有: ( 1 2 ) Xi
E
(Yi
)
( 1) Xi ( 2 ) Xi
第八章(虚拟变量回归)_图文
5.社会因素:包括社会治安、城市化水平、消费心理等;
6.行政(政策)因素:包括土地与住房制度、房地产价格政策等;
7.区域因素:包括所处地段的市政基础设施、交通状况等;
8.个别因素:包括朝向、结构、材料、功能设计、施工质量等;
9.房地产投机因素:投机者在房地产市场中的投机活动;
10.自然因素:包括自然环境、地质、地形、地势及气候等。
使用虚拟变量需注意的问题
v 虚拟变量陷阱:若定性变量有m个类别,则引入 m个虚拟变量将会产生完全多重共线性问题,避 免方法:
Ø 只引入(m-1)个虚拟变量 Ø 引入m个虚拟变量但去掉截距项
v 哪种方法更好:包含截距项更方便,可以很容易 地检验某个组与基准组之间是否存在显著差异以 及差异程度。
2、避免落入“ 虚拟变量陷阱”
•男职工本科以上学历的平均薪金:
1.解释变量只有一个分为两种类型的定性变量无 定量变量的回归
这种模型又称方差分析模型
其中:Y为公立学校教师工资,
D=0为农村学校;D=1为城镇学校
分析条件期望:
基础类型:
比较类型:
为差异截距系数,通过对系数 可检验
的 t 检验:
在其他因素不变的条件下,城乡教师的工资是否有显2著323
D=0 表示某种属性或状态不出现或不存在 5
虚拟变量的作用
● 作为属性因素的代表,如性别 ● 作为某些非精确计量的数量因素的代表,
如受教育程度(高中及以下、专科、本科及以上) ● 作为某些偶然因素或政策因素的代表,
如 伊拉克战争、“911事件”、四川汶川大地震 ● 时间序列分析中作为季节(月份)的代表 ● 分段回归——研究斜率、截距的变动 ● 比较两个回归模型的差异 ● 虚拟被解释变量模型:
第八章虚拟变量回归
能否把定性的因素也引入计量经济模型中呢? 怎样才能在模型中有
效地表示这些定性因素的作用呢?
第一节 虚拟变量
一、什么是虚拟变量
变量可分为:
数量变量
属性变量
只表明属性的不连续变量
可用数量表现的连续变量
属性变量:不能精确计量的说明某种属性或状态的定 性变量,如性别、民族、战争、政治事件 ◆本身是定性的二分类变量(非此即彼) ◆本来是连续变量也可转换为二分类变量(上线/不上线) 虚拟变量:人工构造的取值为0和1的作为属性变量代 表的变量称虚拟变量,一般常用D表示 D=0 表示某种属性或状态不出现或不存在 D=1 表示某种属性或状态出现或存在 2
i
大学毕业及以上
1
0
15
E(Yi X i , D 1) ( 0 1 ) X i
Xi
3、解释变量包含一个定量变量和一个两种以上类 型的定性变量的回归
类型:高中以下、中毕业、大学毕业及以上——三种类型
模型
Yi 0 1D1i 2 D2i X i ui
这里的 D1i 和 D2i 代表的是两个不同的定性变量
例如:Y为文化支出,X为收入
D1i 为城镇或农村,D2i是否高中以上
基础类型:
对比类型:
E(Yi X i , D1 0, D2 0) 0 1 X i E(Yi X i , D1 1, D2 0) ( 0 1 ) 1 X i E(Yi X i , D1 0, D2 1) ( 0 2 ) 1 X i
注意:
● u i 应服从基本假定 ●一个定性变量有三种类型,使用了两个虚拟变量, 和 D 代表的是同一个定性变量的两种不同类型 D2 1 ●两个差异截距系数 类型的差异
虚拟变量回归课件
例1
(1)
D
=
1 0
男 女
( 2)D=1 0
改 革 开 放 以 后 改 革 开 放 以 前
(3)D1 =0 1
天气阴 其 他(4)D2
=1 0
天气雨 其他
问题:
为何只选0、1,选2、3、4行吗?为什么?
虚拟变量回归
14
属性的状态(水平)数与虚拟变量 数量的关系
定性因素的属性既可能为两种状态,也可能为多种 状态。例如,性别(男、女两种)、季节(4种状 态),地理位置(东、中、西部),行业归属,所 有制,收入的分组等。
虚拟变量回归
11
二、虚拟变量设置规则
虚拟变量的设置规则涉及三个方面: 1.“0”和“1”选取原则 2.属性(状态、水平)因素与设置虚拟变量
数量的关系 3.虚拟变量在回归分析中的角色以及作用等
方面的问题
虚拟变量回归
12
“0”和“1”选取原则
虚拟变量取“1”或“0”的原则,应从分析问题的 目的出发予以界定。
虚拟变量回归
16
一个例子(虚拟变量陷阱)
研究居民住房消费支出 Yi 和居民可支配收入 Xi 之间的
数量关系。回归模型的设定为:Y i= 0 + 1 X i+ u i( 1 )
现在要考虑城镇居民和农村居民之间的差异,如何办?
为了对 “城镇居民”、“农村居民”进行区分,分析
各自在住房消费支出 Yi上的差异,设 D1i = 1 为城镇;
非数值性的因素。 基本思想: 直接在回归模型中加入定性因素存在诸多的困难 (那些困难?),是否可将这些定性因素进行量 化,以达到定性因素能与定量因素有着相同作用 之目的。
虚拟变量回归
10
第八章 虚拟变量回归
Yi = α ( Yi = α
0
0
+ α 1)+ β X i + µ i
+ β X i + µi
城市 农村
意义: 显著,则表明在控制了工作时间这一因素后, 意义:若α1显著,则表明在控制了工作时间这一因素后,城市 居民的平均人均可支配收入比农村高α 居民的平均人均可支配收入比农村高 1元。如果影响收入的所 有其它因素均被控制, 有其它因素均被控制,则可以认为此时的收入差异是由户籍因 13 素引起。 素引起。
5
例如,比较收入时考察性别的作用。 例如,比较收入时考察性别的作用。当研究男性收入是否 高于女性时,是将女性作为比较的基础(参照物),故有 高于女性时,是将女性作为比较的基础(参照物),故有 ), 男性为“ 女性为“ 男性为“1”,女性为“0”。
1 D = 0 男 女
再如,在考察改革开放后国民收入的变化时,我们是将改 再如,在考察改革开放后国民收入的变化时, 革开放前的国民收入作为比较基准,因此虚拟变量应设为: 革开放前的国民收入作为比较基准,因此虚拟变量应设为:
4
虚拟变量设置规则 虚拟变量设置规则
虚拟变量的设置规则涉及三个方面: 虚拟变量的设置规则涉及三个方面 1.“0”和“1”选取原则 和 选取原则 2.属性因素与设置虚拟变量个数的关系 属性因素与设置虚拟变量个数的关系 3.虚拟变量在回归分析中的角色以及作用等方面的问题 虚拟变量在回归分析中的角色以及作用等方面的问题 虚拟变量取“ 或 的原则: 虚拟变量取“1”或“0”的原则 的原则 “0”代表基期(比较的基础,参照物); 代表基期(比较的基础,参照物); 代表基期 代表报告期( “1”代表报告期(被比较的效应)。 代表报告期 被比较的效应)。
计量经济学-虚拟变量回归
虚拟变量模型有三种类型
1. 解释变量中只包含虚拟变量 2. 解释变量中既包含定量变量也包含虚拟
变量。 3. 被解释变量本身为虚拟变量。
20
第二节 虚拟解释变量的回归
本节基本内容:
●加法类型 ●乘法类型 ●虚拟解释变量综合应用
21
在计量经济学中,通常引入虚拟变量的方式分为 加法方式和乘法方式两种:即
分为四种情形讨论: (1)解释变量只有一个定性变量而无定量变量,而且定性
变量为两种相互排斥的属性; (2)解释变量分别为一个定性变量(两种属性)和一个定
量解释变量;
23
(3)解释变量分别为一个定性变量(两种以上属 性)和一个定量解释变量;
(4)解释变量分别为两个定性变量(各自分别是 两种属性)和一个定量解释变量;
计量经济学
第八章 虚拟变量回归
1
引子:男女大学生消费真有差异吗?
由共青团中央,全国学联共同发布的 《 2004中国大学生消费与生活型态研究报 告》显示,当代大学生的消费行为呈现多元 化的结构。除日常生活开支外还有人际交往 消费、手机类消费、衣着类消费、化妆品类 消费、电脑类消费、旅游类消费等等。
2
4
第一节 虚拟变量
本节基本内容:
●基本概念 ●虚拟变量设置规则
5
一、基本概念
定量因素:可直接测度的数值型因素。 如收入、产出、价格、人数等。
定性因素:属性因素,不能直接测度、 表征某种属性或状态存在与否的非数值型 因素。如性别、婚否、政府经济政策不变 与改革、城市居民或非城市居民等。
6
在以前的学习中,解释变量主要是定 量变量,但现实经济生活中影响被解释 变量的还包括定性变量,比如:研究某 个企业的销售水平,所有制(私营、非 私营)、地理位置(东、中、西部)等 是必须考虑的因素。
计量经济学:第八章虚拟变量回归
计量经济学:第⼋章虚拟变量回归第⼋章虚拟变量回归第⼀节虚拟变量的概念⼀、问题的提出计量经济学模型对变量的要求——可观测、可计量。
但在现实经济问题中,存在定性影响因素,⽐如1、属性(品质)因素的表达。
在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。
如收⼊在形成过程中,不同的性别所得到的收⼊是不⼀样的;在城乡、不同地区等收⼊存在差距;再⽐如,在我国,经济的发展⽔平对于不同的区域有不同的表现。
2、异常值现象。
当经济运⾏过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。
3、季节因素的影响。
有的经济现象存在明显的季节特征,如啤酒的消费。
那么,在建模过程中,季节变动这⼀因素怎样考虑?4、离散选择现象的描述。
如公共交通与私⼈交通的选择、商品购买与否的决策、求职者对职业的选择等。
第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。
称前⼀种情况为虚拟解释变量,后⼀种为虚拟被解释变量。
本章主要介绍虚拟解释变量的内容。
⼆、虚拟变量的定义1、定义。
设变量D 表⽰某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D 取值为0。
记为=不具有该属性具有某种属性01D2、虚拟变量引⼊的规则。
(1)在模型⾥存在截距项的条件下,如果⼀个属性存在m 个相互排斥类型(⾮此即彼),则在模型⾥引⼊m-1个虚拟变量。
否则,会出现完全的多重共线性。
但要注意,在模型⽆截距项的情况下,如果⼀个属性存在m 个类型,即便引⼊m 个变量,不会出现多重共线性问题。
(请思考为什么?)(2)虚拟变量取值为0,意味着所对应的类型是基础类型。
⽽虚拟变量取值为1,代表与基础类型相⽐较的类型,称为⽐较类型。
例如“有学历”D 为1,“⽆学历”D 为0,则“⽆学历”就是基础类型,“有学历”为⽐较类型。
(3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况D=0,第⼀个类型;D=1,第⼆个类型;……D=m-1,第m 个类型。
计量经济学第八章虚拟变量回归
其中, Yi 某公司职员年薪
1 男性 Di 2 0 女 这个模型和前面的回归模性型没有什么太大的差异,只不过 用一个虚拟变量D代替了X。这个模型能使我们发现性别是否 会造成公司职员薪水差异,这里假定了其他变量如年龄、学历 等都相同,而且随机误差项也服从线性回归模型的基本假定。
假设在原模型中设定两个虚拟变量:
Y i b 0 b 1 D 1 i b 2 D 2 i b 3 X ii
1 男性
1 女性
D1i 2 0 其他 D2i 2 0 么数据矩阵如下
Yi
b0
D1
D2
Xi
Y1
1
1(男)
0
X1
Y2
1
1(男)
t
(9.03)
(8.32)
(-6.59)
1 中高收入家庭
Di 2 0 低收入家庭
模型的估计参数都通过了显著性检验,说明我国城镇居 民中高收入和低收入家庭对彩电的消费需求,在截距和斜率 上都存在明显差异。
低收Y ˆ 入 i5.6 家 71 庭 1 0 .031X 1 i 8
中高 Y ˆ i ( 收 5 .6 71 入 3 .1 8 1) 3 7 家 3 0 .0 + 1 庭 1 0 .0 1 ( ) 0 8 X i 8
• 这种人为设定的变量就称作虚拟变量(Dummy Variable)
学历 性别 季节
1 大学毕业 2 0 其他
1 男性 2 0 女性
1 夏季 2 0 其他季
节
企业规模
1 大型企业 2 0 其他
户口
1 城镇 2 0 农村
3
8.1.2 虚拟变量的引入方式
• 1.加法模型:仅仅反映定性变量对截距的影响。
第八章虚拟变量回归课件
9.房地产投机因素:投机者在房地产市场中的投机活动;
10.自然因素:包括自然环境、地质、地形、地势及气候等。
(资料来源:徐静; 武乐杰, 房地产价格影响因素的解释结构模型分析, 金融
经济, 2009年 10期)
第八章虚拟变量回归
2
在影响房地产价格的众多因素中,有定量的因素:
成本因素、房地产供求因素、经济因素、人口因素等;
Y t 0 1 X 1 t k X k 1 t D 1 t 2 D 2 t 3 D 3 t 4 D 4 t t
其矩阵形式为:
Y(XD, )α βμ
第八章虚拟变量回归
如果只取六个观测值,其中春季与夏季取了两次, 秋、冬各取到一次观测值,则式中的:
1 1
X 11 X 12
X k1 Xk2
被解释变量本身是定性变量
第八章虚拟变量回归
6
二、虚拟变量模型
虚拟变量模型:包含有虚拟变量的模型称虚拟变量模型 三种类型: 1、 解释变量中只包含虚拟变量
作用:假定其他因素都不变,只研究某种定性因素在某定
量变量上是否表现出显著差异
2、 解释变量中既含定量变量,又含虚拟变量
作用:研究定量变量和虚拟变量同时对被解释变量的影响
也有定性的因素:
社会因素、行政因素、区位因素、个别因素、投机因
素、 自然因素等。
在研究房地产价格影响机理时,需要分析那些不易量化
的定性因素对房地产价格是否真的有显著影响。
能否把定性的因素也引入计量经济模型中呢? 怎样才能
在模型中有效地表示这些定性因素的作用呢?
第八章虚拟变量回归
3
引子2 男女大学生的消费真的有差异吗?
例如:D=0 如果是女性(基础类型)
第八章 虚拟变量回归
其中:
1 t = 1996年以后 D1t = 0 t = 1996年及以前
1 t = 2000年以后 D2 t = 0 t = 2000年及以前
1
基本思路:采用乘法方式引入虚拟变量的手 段。显然,1979年是一个转折点,可考虑在 这个转折点作为虚拟变量设定的依据。若设 X*=1979,当 t < X* 时可引入虚拟变量。 (为什么选择1979作为转折点?)
2
依据上述思路,有如下描述我国居民在不同时段消费 行为模型:
Yt = β 0 + β1t + β 2 (t X * ) D + ut
5
表8.1
年 份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 国民总收入 (GNI) 3624.1 4038.2 4517.8 4860.3 5301.8 5957.4 7206.7 8989.1 10201.4 11954.5 14922.3 16917.8 18598.4
9
为了分析居民储蓄行为在1996年前后和2000年前 后三个阶段的数量关系,引入虚拟变量D1和D2。 D1和D2的选择,是以1996、2000年两个转折点 作为依据,1996年的GNI为66850.50亿元,2000年 的GNI为国为民8254.00亿元,并设定了如下以加法 和乘法两种方式同时引入虚拟变量的的模型:
城乡居民人民 币储蓄存款年 底余额(Y) 210.6 281 399.5 532.7 675.4 892.5 1214.7 1622.6 2237.6 3073.3 3801.5 5146.9 7119.8
第八章 虚拟变量回归
其中括号内这T-统计量,所有参数 均为显著的,拟合集优度R2=0.999 ,但DW值存在自相关,进行AR(1)
修正,重新估计得:
以上回归的模拟效果:
2500 2000 1500 40 20 0 -20 -40 1975 1980 1985 1990 Actual 1995 2000 Fitted 1000 500 0
有时我们所研究的变量之间 的变化趋势在某一时点上发生 了转折,如图8-3中所呈现的样 本散布点图,它表明变量Y与变 量X之间的变化关系在点X*处发 生了转折,一般来说,这样的 转折点是由于突发
Y
X X
*
0
图8.3
从图中可以算出,消费随时间 有规律地变化,为了模拟消费的 变化趋势,从而对其进行预测, 我们选择时间变量(T)为解释 变量,考虑到季节变动,引入虚 拟 变 量 , D1,D2,D3( 定 义 同 上)等。 由图可知,PCE随时间的变化 是二次曲线,设定模型为下式:
PCEt 0 4Tt 5 D1 t * T 6 D2 t * T 2 7 D3 t * T 8T ut
假设模型中仅有一个解释 变量X,线性概率模型可以表 示为:
Yi 0 1 Xi u i
由于Yi 只取两个值0与1, 设Yi 取1的概率为Pi ,则Yi 取0 的概率为(1-Pi ),于是,
E(Yi ) 1* Pi 0 * (1 Pi ) Pi
而
E(Yi ) 0 1Xi
Pi
1
0 1X i) (
作出该项选择与不作出该项选 择的概率之比的对数值增加一 个 1 。
三、概率单位模型(Probit)
第八章第二节 虚拟解释变量的回归
冬季、城市居民 Yi (0 2) X i i
冬季、农村居民 Yi 0 X i i
(比较的基础 — 冬季、农村)
20 15 10 5 0
1234567
补充案例研究:为了解工作妇女是否受到歧视,可
以用美国统计局的“当前人口调查”中的截面数据, 研究男女工资有没有差别。这项多元回归分析研究 所用到的变量有:
第二节 虚拟解释变量的回归 加入虚拟变量的两种基本途径:加法类型、乘法类型。 一、加法类型 设定的虚拟变量以相加的形式出现 作用:改变了设定模型的截距水平,称为截距变动模型。
(一)加法类型的虚拟变量模型
1、一个定性变量(两种属性):Yi f (Di ) i
例:Yi 0 1Di i
R2 0.398 F 21.9
注意上述模型,男女差异还是显著的。这个回归模型告 诉我们,在其他条件不变的情况下,雇员的工资率随年龄的
增长而增加,但增加的速度是递减的。
(二)一个定量变量X、多个虚拟变量(定性变量)的模型
Yt 0 1D1t D2t Dkt X t ut
下面分别对三个作用进行讨论: (一)回归模型的比较(结构变化检验)
通过对模型的参数检验,可以检验模型是否有不同的结构。 即
定性变量D的引入,是否影响不同类型(属性)模型的平均水平(截距
项)?
定性变量D的引入,是否影响不同类型(属性)模型的相对变化(斜率 系数)?
例如,在研究改革开放前后储蓄——收入总量关系时,所设 定的模型为:
例如,不同人群组的衣着消费函数
Yi 1 2 D2i 3D3i X i ui
(1)
其中:Y(i 服装年均支出费);X(i 收入水平)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章 虚拟变量回归第一节 虚拟变量的概念一、问题的提出计量经济学模型对变量的要求——可观测、可计量。
但在现实经济问题中,存在定性影响因素,比如1、属性(品质)因素的表达。
在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。
如收入在形成过程中,不同的性别所得到的收入是不一样的;在城乡、不同地区等收入存在差距;再比如,在我国,经济的发展水平对于不同的区域有不同的表现。
2、异常值现象。
当经济运行过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。
3、季节因素的影响。
有的经济现象存在明显的季节特征,如啤酒的消费。
那么,在建模过程中,季节变动这一因素怎样考虑?4、离散选择现象的描述。
如公共交通与私人交通的选择、商品购买与否的决策、求职者对职业的选择等。
第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。
称前一种情况为虚拟解释变量,后一种为虚拟被解释变量。
本章主要介绍虚拟解释变量的内容。
二、虚拟变量的定义1、定义。
设变量D 表示某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D 取值为0。
记为⎩⎨⎧=不具有该属性具有某种属性01D2、虚拟变量引入的规则。
(1)在模型里存在截距项的条件下,如果一个属性存在m 个相互排斥类型(非此即彼),则在模型里引入m-1个虚拟变量。
否则,会出现完全的多重共线性。
但要注意,在模型无截距项的情况下,如果一个属性存在m 个类型,即便引入m 个变量,不会出现多重共线性问题。
( 请思考为什么?)(2)虚拟变量取值为0,意味着所对应的类型是基础类型。
而虚拟变量取值为1,代表与基础类型相比较的类型,称为比较类型。
例如“有学历”D 为1,“无学历”D 为0,则“无学历”就是基础类型,“有学历”为比较类型。
(3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况D=0, 第一个类型;D=1, 第二个类型;……D=m-1, 第m 个类型。
原因是上述情况没有反映出属性类型的相互排斥性。
第二节 虚拟解释变量的回归一、加法引入规则1、加法引入规则,虚拟解释变量与别的解释变量以相加的关系出现在模型里。
加法引入虚拟变量对模型产生的结果是只改变截距项。
设模型为123i i i iY X D u βββ=+++ 式中,i D 为虚拟变量,它与其它解释变量是相加的关系。
如果虚拟变量按这种方式引入模型,则称虚拟变量按加法类型引入。
2、加法引入虚拟变量的应用。
(1)模型中只有一个定性解释变量。
设模型形式为12i i i Y D u ββ=++ n i ,,3,2,1 =其中,i D 为具有两个属性类型的定性变量,如在教材第217页,设i Y 为居民的年可支配收入,i D 为虚拟变量,其取值表示为:i D =1表示城镇居民;i D =0表示农村居民。
即1,0i D ⎧=⎨⎩城镇居民,农村居民,1,2,3,,i n =该方程的意义在于,在其它因素不变的条件下,城镇居民与农村居民的收入是否具有显著性差异。
由此得到城镇居民的年平均收入:12(|1)i i E Y D ββ==+。
农村居民的年平均收入为:1(|0)i i E Y D β==为了检验城镇居民和农村居民的差异对年平均收入的影响是否具有显著性,可构造假设:0212:0;:0H H ββ=≠ 对上述模型进行回归,利用样本统计量对假设作出判断(t 检验)。
只有一个定性解释变量往往可用于检验一个属性因素对被解释变量的影响是否显著性存在。
(2)模型中有一个定量解释变量和一个定性解释变量。
设模型形式为123i i i iY X D u βββ=+++ 式中,i Y 为消费支出;i X 为收入;i D 为虚拟变量,即1,0i D ⎧=⎨⎩城镇居民,农村居民,1,2,3,,i n =上述表达式的意义在于,在收入不变的条件下,研究城镇居民和农村居民对消费的不同影响,即判断城乡居民在消费上是否存在显著性差异。
农村居民年平均消费:12(,|,0)i i i i E Y X D X ββ==+城镇居民年平均消费:122(,|,1)()i i i i E Y X D X βββ==++可以看出,城镇居民和农村居民两种收入类型的斜率系数一样,但截距不同。
说明两种类型的居民在收入的水平上存在2β的规模差异。
这一假定也可通过对2β的显著性检验来判断。
(3)模型中有一个定量解释变量和一个定性解释变量,但有多个属性类型。
设模型形式为12233i i i i i Y D D X u αααβ=++++ 式中,i Y 为年医疗保健费支出;i X 为居民年可支配收入;如果将受教育程度分为三种类型:高中以下、高中、大专及大专以上,则引入虚拟变量为如下两个231,0,i i D D ⎧=⎨⎩⎧=⎨⎩1,高中及高中以上0,其他大专及大专以上其他高中以下的年平均医疗保健费支出:231(|,0,0)i i i i i E Y X D D X αβ===+高中的年平均医疗保健费支出:2312(|,1,0)()i i i i i E Y X D D X ααβ===++大专及大专以上年平均医疗保健费支出:2313(|,0,1)()i i i i i E Y X D D X ααβ===++对于模型12233i i i i i Y D D X u αααβ=++++ 有(4)模型中有一个定量解释变量和两个以上定性解释变量,每个定性解释变量有两个或以上属性类型。
设模型形式为12233i i i i i Q D D Y u αααβ=++++式中,i Q 为卷烟需求量;i Y 为居民可支配收入,考虑两种不同属性:不同区域的居民,即城镇居民与农村居民;不同性别,即男与女。
因此各引入一个虚拟变量231,01,0,i i D D ⎧=⎨⎩⎧=⎨⎩城镇居民,农村居民男性女性农村女性居民:231(|,0,0)i E Q Y D D Y αβ===+农村男性居民:2313(|,0,1)()i E Q Y D D Y ααβ===++城镇女性居民:2312(|,1,0)()i E Q Y D D Y ααβ===++城镇男性居民:23123(|,1,1)()i E Q Y D D Y αααβ===+++(5)对模型中存在异常值的修正。
设模型形式为12t t t Y X u ββ=++由于某种突发因素的干扰,使得在0t t =时刻随机误差产生系统性偏离,即000,()(0),t t t E u c c t t ≠⎧=⎨≠=⎩这时,可引入虚拟变量000,1,t t t D t t ≠⎧=⎨=⎩则12t t t t Y X cD v ββ=+++其中,t t t v u cD =-,对t v 求数学期望,有()()0t t t E v E u c D=-= 表明新的随机误差项t v 满足零均值假定,从而可用OLS 法对引入虚拟变量的模型求参数的估计。
当0t t =时,12(|,1)()t t t t E Y X D c X ββ==++当0t t ≠时,12(|,0)t t t t E Y X D X ββ==+还有一种情况,研究消费行为,认为消费水平C 主要受到收入水平Y 的影响,但对于正常年份和反常年份,消费行为的表现是不同的,这时可考虑引入虚拟变量1,0t D ⎧=⎨⎩正常年份,反常年份则012t t t t C Y D u ααα=+++有当正常年份时,021(|,1)()t t t t E C Y D Y ααα==++当反常年份时,01(|,0)t t t t E C Y D Y αα==+进一步对参数估计,利用样本统计量对总体参数2α作检验,从而可判断正常年份消费行为与反常年份消费是否存在差异。
(6)对季节因素的修正。
假设i Y 是具有某种季节特征的消费行为(如啤酒、汗衫等商品的消费),这时需要对季节波动进行调整,下面介绍利用虚拟变量来调整季节变化。
设模型形式为1t t tY X u αβ=++ 季节为属性因素,按自然属性有4个不同的季节(春、夏、秋、冬),即4个属性类型。
因此,在有截距项的前提下,可引入3个虚拟变量,即2341,11,21,3,0,0,0,t t t D D D ⎧⎧⎧===⎨⎨⎨⎩⎩⎩季度季度季度,其它其它其它引入季节虚拟变量的模型为1223344t t t t t t Y D D D X u ααααβ=+++++第1季度,23412(|,1,0)()t t t t t t E Y X D D D X ααβ====++第2季度,32413(|,1,0)()t t t t t t E Y X D D D X ααβ====++第3季度,42314(|,1,0)()t t t t t t E Y X D D D X ααβ====++第4季度,2341(|,0)t t t t t t E Y X D D D X αβ====+二、乘法引入规则1、以乘法形式引入虚拟变量,是在所设定的模型里,将虚拟解释变量与其它解释变量用乘积作为新的解释变量。
乘法引入虚拟解释变量将改变模型中的斜率系数。
设模型为12()t t t t t Y X X D u ααβ=+++或者1212()t t t t t Y X D D u ααβ=+++其中,t X 为定量解释变量,12,,t t t D D D 均为虚拟变量。
按上述形式引入虚拟变量即为乘法引入。
2、乘法引入虚拟解释变量的应用。
(1)检验模型的结构是否发生了变化。
设模型形式为1212()t t t t t t Y D X D X u ααββ=++++ 式中,t Y 为储蓄总额,t X 为收入总额,t D 为虚拟变量,即1,0,t D ⎧=⎨⎩改革开放前改革开放后 改革开放后,平均储蓄额为11(|,0)t t t t E Y X D X αβ==+改革开放前,平均储蓄额为1212(|,1)()()t t t t E Y X D X ααββ==+++在上式中2α被称为截距差异系数,2β被称为斜率差异系数,它们分别代表改革开放前后储蓄函数的截距与斜率存在的差异。
结构变化的专门检验——邹氏检验(在EViews 里的记号为CHOW 检验,该内容自学)。
(3)交互效应。
在实际经济活动中,多个定性解释变量对被解释变量的影响可能存在一种交互影响,即一个变量的边际效应可能要依赖于另外变量的变动(即由于变量间的交互作用而对解释变量的影响)。
这时可用乘法引入虚拟变量的方法来表示。
设模型形式为i i i i i u X D D Y ++++=βααα33221其中 ,i Y 为农副产品生产总收益,i X 为农副产品生产投入,i D 2为油菜籽生产虚拟变量,i D 3为养蜂生产虚拟变量。