08第八章 虚拟变量回归
第八章 包含虚拟变量的回归模型
第八章 包含虚拟变量的回归模型一、虚拟变量的基本含义通常在回归分析中,因变量不仅受一些定量变量的影响,而且还受一些定性变量的影响,比如性别、种族、婚姻状况等等。
为了在模型中反映这些因素的影响,需要把定性因素进行“量化”。
通常是引进人工变量完成。
通过定性因素的属性类别,构造取值为0或者1的变量,如、 1代表男性, 0代表女性; 1代表某人是大学毕业, 0代表某人不是大学毕业,这类取值为0,1的变量称为虚拟变量(dummy variable )。
虚拟变量与定量变量一样可用于回归分析。
事实上,一个回归模型的解释变量可以仅仅是虚拟变量。
解释变量仅是虚拟变量的模型称为方差分析模型( analysis-of-variance models ) (ANOVA)。
例1:1i i Y D i βα=++ε,其中Y 表示职工工资,。
10i D ⎧=⎨⎩,本科学历,非本科学历这个模型与我们前面讨论过的双变量模型类似,但这里的解释变量是虚拟变量。
1(0)i E Y D β==,1(1)i E Y D βα==+显然,1β表示非大学毕业生的平均初职年薪,1βα+表示具有大学学历职工的平均工资,α代表二者之差。
回归模型中可以有同时有虚拟变量以及定量变量。
例2:考虑是否上过大学和工龄作为职工工资的模型:12i i i Y X D i ββαε=+++Y ,表示职工工资,X表示工龄,D同上。
含虚拟变量的模型只要扰动项符合古典假定,仍用OLS方法估计模型。
注意:虚拟变量系数显著性检验的意义::0H 0α=;:1H 0α≠。
同学们思考:这个检验在上面两个例子中分别具有何实际意义?二、虚拟变量的引入模型的方式 1、加法方式上面考察的例子都是加法方式。
注意虚拟变量模型的几何意义:以上述例2考察。
例3:如果上述职工工资方程(例2)中,学历考虑三个层次:高中以下、高中、大学及以上。
该如何建模?引进两个虚拟变量:,1 1 0 D ⎧=⎨⎩高中其他2 1 0 D ⎧=⎨⎩大学及以上其他121222Y X D D ββαα=++++ε请同学们分析模型的含义。
第八章-虚拟变量回归
1 高中 D2 0 其它
1 博士 D5 0 其它
1 大 学 D3 0 其 它
1 小 学 D6 0 其 它
则总体回归模型:
w 0 1 X 2 D1 3 D2 4 D3 5 D4 6 D5 7 D6+u
17
二、用虚拟变量测量斜率变动
基本思想
引入虚拟变量测量斜率变动,是在所设立的模型中,将虚 拟解释变量与其它解释变量的乘积,作为新的解释变量出 现在模型中,以达到其调整设定模型斜率系数的目的。
可能的情形:
(1)截距不变;
(2)截距和斜率均发生变化;
分析手段:仍然是条件期望。
18
(1)截距不变
模型形式:
意义:若α1显著,表明城市居民的平均人均可支配收入比农村 高α1元。但这种差异可能是由其它因素引起的,并不一定是由 户籍差异引起。
12
(2) 一个两属性定性解释变量和一个定量 解释变量
模型形式 Yi = f(Di,X i )+ μi 例如:Yi = 0 1 Di + X i + μi 1 城市 其中: Y-人均可支配收入;X-工作时间; Di 0 农村
会受到一些定性因素的影响,如性别、国籍、民族、自 然灾害和政治体制等。
问题:我们如何把这些定性想:将这些定性因素进行量化
由于定性变量通常表示某种属性是否存在,如是否男性、 是否经济特区、是否有色人和等。因此若该属性存在, 我们就将变量赋值为1,否则赋值为0,从而将定性因素 定量化。 计量经济学中,将取值为0和1的人工变量称为虚拟变量 (DUMMY)或哑元变量。通常用字母D或DUM表示。
7
一个例子(虚拟变量陷阱)
研究工资收入与学历之间的关系:
虚拟变量回归
数据收集
收集不同市场细分群体的基本信息和 产品需求数据,如年龄、性别、收入、 消费习惯等。
变量设置
将市场细分变量转换为虚拟变量,并 引入到回归模型中。
结果分析
分析虚拟变量的系数和显著性,解释 其对产品需求的影响,为市场定位提 供依据。
案例三:教育程度与收入水平的关系研究
目的
研究教育程度对收入水平的影响,以及 不同教育程度对收入水平的差异。
虚拟变量可能依赖于某些自变量,需 要谨慎处理以避免多重共线性问题。
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
03
虚拟变量回归的模型构 建
线性回归模型
线性回归模型是最常用的回归分析方法之一,用 于探索自变量与因变量之间的线性关系。
在线性回归模型中,虚拟变量可以作为自变量引 入,以解释和预测因变量的变化。
变量设置
将教育程度转换为虚拟变量,并引入 到回归模型中。
数据收集
收集受访者的教育程度和收入水平数 据。
结果分析
分析虚拟变量的系数和显著性,解释 其对收入水平的影响,为职业规划和 教育投资提供参考。
案例四:健康状况与生活习惯的关系研究
目的
数据收集
研究生活习惯对健康状况的影响,以及不 同生活习惯对健康状况的差异。
虚拟变量回归的应用场景
1 2
社会科学研究
在社会科学研究中,经常需要研究分类变量对连 续变量的影响。例如,研究不同教育程度或不同 职业对收入的影响。
生物统计学
在生物统计学中,虚拟变量回归可用于研究基因 型、物种或地理区域等因素对连续变量的影响。
3
市场分析
在市场分析中,虚拟变量回归可用于研究不同产 品类别、品牌或市场细分对销售或其他连续变量 的影响。
计量经济学第八章 虚拟变量回归
第八章
虚拟变量回归
1
第八章 虚拟变量回归
本章主要讨论:
●虚拟变量
●虚拟解释变量的回归
2
本章的教学目标
(1)深刻理解定性因素在计量经济分析中的 背景和含义; (2)明确虚拟变量在建立和估计计量经济模 型中的意义和作用; (3)熟练掌握引入和应用虚拟变量的基本思 想和方法; (4)能够运用虚拟变量模型作相应的经济实 证分析方面的应用; (5)掌握Eviews软件中相关内容的操作方法。
这表明三个时期居民储蓄增加额的回归方程在统计 意义上确实是不相同的。1996年以前收入每增加1 亿元,居民储蓄存款的平均增加0.1445亿元;在 2000年以后,则为0.4133亿元,已发生了很大变化。
20
上述模型与城乡居民储蓄存款与国民总收入之间 的散布图是吻合的,与当时中国的实际经济运行 状况也是相符的。 需要指出的是,在上述建模过程中,主要是从教 学的目的出发运用虚拟变量法则,没有考虑通货 膨胀因素。而在实证分析中,储蓄函数还应当考
单位:亿元
城乡居民 人民币储 蓄存款增 额 (YY) 2121.8 2517.8 3444.1 6315.3 8143.5 8858.5
年 份
城乡居民 国民总收 人民币储 蓄存款年 入 (GNI) 底余额 (Y) 3624.1 4038.2 4517.8 4860.3 5301.8 5957.4 210.6 281 399.5 532.7 675.4 892.5
(1,0) 天气阴 如:(D1 ,D2)= (0,1) 天气雨 (0,0) 其 他
29
虚拟变量数量的设置规则
1.若定性因素具有 m 个 (m 2) 相互排斥属性(或 几个水平),当回归模型有截距项时,只能引入
计量经济学第八章关于虚拟变量的回归.
类的截距。
2
2:级差截距系数
教龄X
1
0
薪金与性别:估计结果
1,若是男性 Di 0,若是女性
ˆ 17.969 1.371X 3.334D Y i i i se : (0.192) (0.036) (0.155) t : (93.61) (38.45) (21.455) r 2 0.993
一、虚拟变量的性质
例:教授薪金与性别、教龄的关系
男教授平均薪金和女 教授平均薪金水平相 差2,但平均年薪对 教龄的变化率是一样 的
Yi=1+2Di+Xi+I (1) 1,若是男性 D 其中:Yi=教授的薪金, Xi=教龄, Di=性别 0,若是女性 i 女教授平均薪金:E(Yi | X i , Di 0) 1 X i 被赋予0值的 男教授平均薪金:E(Yi | X i , Di 1) (1 2) X i 类别是基底(基 准),1是基底 男教授
比较英国在第二次大战后重建时期和重建后时期的总 储蓄-收入关系是否发生变化。数据如表。 Yt 1 2 Dt 1 X t 2 ( Dt X t ) t
D=1,重建时期
级差截距:区分两 个时期的截距 级差斜率系数:区分 两个时期的斜率 =0,重建后时期
D=1 D=0
E(Yt | Dt 0, X t ) 1 1 X t E(Yt | Dt 1, X t ) (1 2 ) ( 1 2 ) X t
男教授平均薪金水平比 女教授显著高$3.334K (男:21.3,女:17.969)
1,若是女性 Di 0,若是男性
ˆ 21.303 1.371X 3.334D Y i i i se : (0.182) (0.036) (0.155) t : (117.2) (38.45) (21.455)
计量经济学第八章虚拟变量回归
Y D D D X i 0 1 1 2 2 3 3 4 i i
D1
D2
1 一季度
1 二季度
D3
1 三季度
2 0 其他
2 0 其他
2 0 其他
15
例:美国制造业利润-销售额模型分析
Y X D D D 0 1 i 2 2 i 3 3 i 3 4 i i
比如在研究居民消费函数的时候,考虑到城乡差距和收入差距, 消费函数可以表示为: Y b b X b D b D
i 0 1i 2 1 i 32 i
i
D1i
1 城镇居民 2 0 农村 居民 农村低收入家庭 农村高收入家庭 城市低收入家庭 城市高收入家庭
D2i
1 高收入家庭
2 0 低收入家庭
计参数是否能通过显著性检验,最终确定虚拟变量的具体引入 方式。
9
课本P125页例7中数据建立的我国城镇居民彩电消费模型
ˆ Y 57 . 6113 0 . 0118 X 31 . 8731 D 0 . 0088 D X i i i i i
t
Di
(9.03)
(8.32)
(-6.59)
从这一章开始引入定性变量作为自变量,从而使线性 回归模型作为一种及其灵活的工具,可以处理经验研究中
许多实际的问题
2
• 由于这些定性变量通常指某一性质或属性的出现或不出现,
比如男性或女性、大学学历或专科学历等,因此量化这些 变量的方法就是构造一个取值为0或1的人为变量,可以用 0表示某种属性不出现,1表示某种属性出现。 • 这种人为设定的变量就称作虚拟变量(Dummy Variable) 1 大学毕业
第八章 虚拟变量回归作业及答案一单选题
第八章虚拟变量回归作业及答案一单选题1、设某地区消费函数中,消费支出不仅与收入x有关,而且与消费者的年龄构成有关,若将年龄构成分为小孩、青年人、成年人和老年人4个层次。
假设边际消费倾向不变,考虑上述年龄构成因素的影响时,该消费函数引入虚拟变量的个数为( C )。
A. 1个B. 2个C. 3个D. 4个2、对于含有截距项的计量经济模型,若想将含有m个互斥类型的定性因素引入到模型中,则应该引入虚拟变量个数为( B )。
A.mB.m-1C.m+1D.m-k3、对于一个不包含截距项的回归模型,若将一个具有m个特征的质的因素引入进计量经济模型,则虚拟变量数目为( A ) 。
A.mB.m-1C.m-2D.m+14、在利用月度数据构建计量经济模型时,如果一年里的1、3、5三个月表现出季节模式,则应该引入虚拟变量个数为( A )。
A.3B.12C.11D.75、设某计量经济模型为:Yi=a+b*Di+ui,其中Yi表示大学教授年薪,D为虚拟变量,D=1:男教授;D=0:女教授。
对于参数b的含义,下列解释正确的是( C )。
A. b表示大学女教授的平均年薪B. b表示大学男教授的平均年薪C. b表示大学男教授与女教授平均年薪的差异D. b表示大学男教授和女教授平均年薪6、当质的因素引进经济计量模型时,需要使用( D )。
A.外生变量B.前定变量C.内生变量D.虚拟变量7、某商品需求函数为Yi=a+b*Xi+ui,其中Y为需求量,X为价格。
为了考虑“地区”(农村、城市)和“季节”(春、夏、秋、冬)两个因素的影响,拟引入虚拟变量,则应引入虚拟变量的个数为( B )。
A.2B.4C.5D.6二多选题1、关于虚拟变量,下列表述正确的有( ABC )A.是质的因素的数量化 B.可取值为l和0C.代表质的因素 D.代表数量因素2、虚拟变量的特殊作用有( BCD )A.检验模型结构的显著性 B.检验模型结构的稳定性C.分段回归 D.混合回归3、虚拟变量的取值为0和1,分别代表某种属性的存在与否,其中( BC )A. 0表示存在某种属性B.0表示不存在某种属性C. 1表示存在某种属性D.0和1代表的内容可以随意设定4、下面关于虚拟变量的引入方式的说法,正确的有( AD )A.以加法方式引入虚拟变量,反映的是定性因素对截距的影响B.以加法方式引入虚拟变量,反映的是定性因素对斜率的影响C.以乘法方式引入虚拟变量,反映的是定性因素对截距的影响D.以乘法方式引入虚拟变量,反映的是定性因素对斜率的影响5、关于虚拟变量,下列说法正确的是( AC )。
第8章 虚拟变量回归
(2)比较两个回归结构稳定性:虚拟变量法 上节中探讨的邹检验程序,可以通过虚拟变量的使用而大为简化。 仍然使用储蓄-回归的例子,将n1和n2次观测值合并,用下列回归方 程:
其中Yi和Xi仍然代表储蓄和收入。而Di=1,如果观测值属于重建时期
(时期I);Di=0,如果观测值属于重建后时期(时期II)。 为了看清楚,实际上方程等效于:
它们分别是第二(重建后)和第一(重建)两个时期的平均储蓄函
数。相当于取γ1=α1,γ2=β1,λ1=α1+α2,和λ2=β1+β2。这样上述回归方 程等效于估计两个个别的储蓄函数。 α2和先前一样是级差截距;β2是级差斜率系数,表明在第一时期储蓄 函数的斜率和第二时期储蓄函数的斜率系数相差多少。
现在我们要问,在时期I(1946-1954)和时期II(1955-1963)中,储 蓄与收入之间的关系,是否是一回事呢?或者说,两个时期的储蓄 函数是否存在有结构性的变换呢?
这里,结构性变化是指两个截距或两个斜率不同,或者指截距和斜
率均不同,以致任何其他适当的参数组合有所不同。 为了判明这个变化是否真实,假定两个时期的储蓄函数分别是:
工资的重要决定性因素。
上述讨论的结论:模型可推广到含有多个定量变量和多个定性变量
的情形。唯一要提醒注意的是:每一个定性变量所需的虚拟变量的 个数要比该变量的类别数少一。
一个例子:“兼职”经济学
所谓“兼职”是指一个人执有两分或两分以上的工作,其中一份是
主业,其他称为副业。希斯克和罗斯特克研究了影响兼职者工薪的 因素,他们利用一个有318兼职者调查数据的样本,做了如下回归:
图中数据编排为女教
授和男教授两类。图 形可见导出的回归函 数是一个阶梯函数。 女教授的平均工资为 18000美元,而男教 授的工资则跃升了 3280美元,达到了 21280美元。
j计量经济学第八章虚拟变量回归
(2)截距和斜率均发生变化
模型形式:
Yi f X t , Dt , Dt X t 0 1D, 1 2 D
例,同样研究消费支出 Y 、收入 X 、年份状况 D 间的影 响关系。 Yt 0 1 X t 1Dt 2 ( Dt X t ) t
12
一个例子(虚拟变量陷阱)
研究居民住房消费支出 Yi 和居民可支配收入 X i 之间的 数量关系。回归模型的设定为:Yi = 0 + 1 X i +ui () 1
现在要考虑城镇居民和农村居民之间的差异,如何办?
为了对 “城镇居民”、“农村居民”进行区分,分析
各自在住房消费支出 Y 上的差异,设 D1i = 1 为城镇; i D1i = 0 为农村,则模型为 (模型有截距,“居民属性”定性变量只有两个相互排斥 的属性状态( m 2 ),故只设定一个虚拟变量。)
15
第二节 虚拟解释变量的回归
本节基本内容:
●加法类型
●乘法类型
●虚拟解释变量综合应用
16
在计量经济学中,通常引入虚拟变量的方式分为 加法方式和乘法方式两种:即
Yt 0 X t ut 1D Yt 1 X t ut 2 X t D
原模型:
Yi = + βX i + ui
14
虚拟变量在回归模型中的角色
虚拟变量既可作为被解释变量,也可作为解释 虚拟被解释变量的研究是当前计量经济学研究的
变量,分别称其为虚拟被解释变量和虚拟解释变量。 前沿领域,如MacFadden、Heckmen等人的微观计
本课程只是讨论虚拟解释变量的问题
量经济学研究,大量涉及到虚拟被解释变量的分析。
第八章(虚拟变量回归)_图文
5.社会因素:包括社会治安、城市化水平、消费心理等;
6.行政(政策)因素:包括土地与住房制度、房地产价格政策等;
7.区域因素:包括所处地段的市政基础设施、交通状况等;
8.个别因素:包括朝向、结构、材料、功能设计、施工质量等;
9.房地产投机因素:投机者在房地产市场中的投机活动;
10.自然因素:包括自然环境、地质、地形、地势及气候等。
使用虚拟变量需注意的问题
v 虚拟变量陷阱:若定性变量有m个类别,则引入 m个虚拟变量将会产生完全多重共线性问题,避 免方法:
Ø 只引入(m-1)个虚拟变量 Ø 引入m个虚拟变量但去掉截距项
v 哪种方法更好:包含截距项更方便,可以很容易 地检验某个组与基准组之间是否存在显著差异以 及差异程度。
2、避免落入“ 虚拟变量陷阱”
•男职工本科以上学历的平均薪金:
1.解释变量只有一个分为两种类型的定性变量无 定量变量的回归
这种模型又称方差分析模型
其中:Y为公立学校教师工资,
D=0为农村学校;D=1为城镇学校
分析条件期望:
基础类型:
比较类型:
为差异截距系数,通过对系数 可检验
的 t 检验:
在其他因素不变的条件下,城乡教师的工资是否有显2著323
D=0 表示某种属性或状态不出现或不存在 5
虚拟变量的作用
● 作为属性因素的代表,如性别 ● 作为某些非精确计量的数量因素的代表,
如受教育程度(高中及以下、专科、本科及以上) ● 作为某些偶然因素或政策因素的代表,
如 伊拉克战争、“911事件”、四川汶川大地震 ● 时间序列分析中作为季节(月份)的代表 ● 分段回归——研究斜率、截距的变动 ● 比较两个回归模型的差异 ● 虚拟被解释变量模型:
第八章虚拟变量回归
能否把定性的因素也引入计量经济模型中呢? 怎样才能在模型中有
效地表示这些定性因素的作用呢?
第一节 虚拟变量
一、什么是虚拟变量
变量可分为:
数量变量
属性变量
只表明属性的不连续变量
可用数量表现的连续变量
属性变量:不能精确计量的说明某种属性或状态的定 性变量,如性别、民族、战争、政治事件 ◆本身是定性的二分类变量(非此即彼) ◆本来是连续变量也可转换为二分类变量(上线/不上线) 虚拟变量:人工构造的取值为0和1的作为属性变量代 表的变量称虚拟变量,一般常用D表示 D=0 表示某种属性或状态不出现或不存在 D=1 表示某种属性或状态出现或存在 2
i
大学毕业及以上
1
0
15
E(Yi X i , D 1) ( 0 1 ) X i
Xi
3、解释变量包含一个定量变量和一个两种以上类 型的定性变量的回归
类型:高中以下、中毕业、大学毕业及以上——三种类型
模型
Yi 0 1D1i 2 D2i X i ui
这里的 D1i 和 D2i 代表的是两个不同的定性变量
例如:Y为文化支出,X为收入
D1i 为城镇或农村,D2i是否高中以上
基础类型:
对比类型:
E(Yi X i , D1 0, D2 0) 0 1 X i E(Yi X i , D1 1, D2 0) ( 0 1 ) 1 X i E(Yi X i , D1 0, D2 1) ( 0 2 ) 1 X i
注意:
● u i 应服从基本假定 ●一个定性变量有三种类型,使用了两个虚拟变量, 和 D 代表的是同一个定性变量的两种不同类型 D2 1 ●两个差异截距系数 类型的差异
计量经济学第八章 虚拟变量回归
乘法方式引入虚拟变量改变的是斜率。
14
一、加法类型
一个以性别为虚拟变量考察企业职工薪金的模型:
Yi 0 1 X i 2 Di i
其中:Yi为企业职工的薪金,Xi为工龄, Di=1,若是男性,Di=0,若是女性。
上述企业职工薪金模型中性别虚拟变量的引入采 取了加法方式。
在该模型中,如果仍假定E(i)=0,则 企业女职工的平均薪金为:
(2)D
1 0
改革开放以后 改革开放以前
7
2、属性的状态(水平)数与虚拟变量数量的关系
定性因素的属性既可能为两种状态,也可能 为多种状态。例如,性别(男、女两种)、 季节(4种状态),地理位置(东、中、西
部),行业归属,所有制,收入的分组等。
8
1 东部非沿海地区
D1 0
其他
1 中部地区 D2 0 其他
是一样的,但两者的平均薪金水平相差2。 可以通过传统的回归检验,对2的统计显著性进
行检验,以判断企业男女职工的平均薪金水平是
否有显著差异。
年薪 Y
男职工
女职工
2 0
工龄 X
16
又例:在横截面数据基础上,考虑个人保健支出 对个人收入和教育水平的回归。
教育水平考虑三个层次: 高中以下,高中,大学及其以上
在诸多的困难,是否可将这些定性因素进行量 化,以达到定性因素能与定量因素有着相同 作用之目的。
3
虚拟变量的定义
计量经济学中,将取值为0 和 1的人工变量 称为虚拟变量。虚拟变量的同位语有:哑元 变量、定性变量等等。通常用字母 D或 DUM 加以表示(英文中虚拟或者哑元 Dummy 的缩 写)。
对定性变量的量化可采用虚拟变量的方式实 现
4
计量经济学:第八章虚拟变量回归
计量经济学:第⼋章虚拟变量回归第⼋章虚拟变量回归第⼀节虚拟变量的概念⼀、问题的提出计量经济学模型对变量的要求——可观测、可计量。
但在现实经济问题中,存在定性影响因素,⽐如1、属性(品质)因素的表达。
在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。
如收⼊在形成过程中,不同的性别所得到的收⼊是不⼀样的;在城乡、不同地区等收⼊存在差距;再⽐如,在我国,经济的发展⽔平对于不同的区域有不同的表现。
2、异常值现象。
当经济运⾏过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。
3、季节因素的影响。
有的经济现象存在明显的季节特征,如啤酒的消费。
那么,在建模过程中,季节变动这⼀因素怎样考虑?4、离散选择现象的描述。
如公共交通与私⼈交通的选择、商品购买与否的决策、求职者对职业的选择等。
第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。
称前⼀种情况为虚拟解释变量,后⼀种为虚拟被解释变量。
本章主要介绍虚拟解释变量的内容。
⼆、虚拟变量的定义1、定义。
设变量D 表⽰某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D 取值为0。
记为=不具有该属性具有某种属性01D2、虚拟变量引⼊的规则。
(1)在模型⾥存在截距项的条件下,如果⼀个属性存在m 个相互排斥类型(⾮此即彼),则在模型⾥引⼊m-1个虚拟变量。
否则,会出现完全的多重共线性。
但要注意,在模型⽆截距项的情况下,如果⼀个属性存在m 个类型,即便引⼊m 个变量,不会出现多重共线性问题。
(请思考为什么?)(2)虚拟变量取值为0,意味着所对应的类型是基础类型。
⽽虚拟变量取值为1,代表与基础类型相⽐较的类型,称为⽐较类型。
例如“有学历”D 为1,“⽆学历”D 为0,则“⽆学历”就是基础类型,“有学历”为⽐较类型。
(3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况D=0,第⼀个类型;D=1,第⼆个类型;……D=m-1,第m 个类型。
第八章__虚拟解释变量回归
第八章虚拟变量回归第一节虚拟变量一、虚拟变量的基本概念在前面的分析中,被解释变量主要受到一些可以直接度量的变量影响,如收入、产出、商品需求量、价格、成本、资金、人数等。
但现实经济生活中,影响被解释变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些本质上为定性因素(或称属性因素)的影响,例如性别、种族、肤色、职业、季节、文化程度、战争、自然灾害、政府经济政策的变动等因素。
在实际经济分析中,这些定性变量有时具有不可忽视的重要影响。
例如,研究某个企业的销售水平,产业部门(制造业、零售业)、所有制(私营、非私营)、地理位置(东、中、西部)、管理者素质的高低等是值得经常考虑的影响因素,这些因素有共同的特征,即都是表示某种属性的,不能直接用数据精确描述的因素。
因此,被解释变量的变动经常是定量因素和属性因素共同作用的结果。
在计量经济模型中,应当同时包含定量和属性两种因素对被解释变量的影响作用。
定量因素是指那些可直接测度的数值型因素,如GDP、M2等。
定性因素,或称为属性因素,是不能直接测度的、说明某种属性或状态存在与否的非数值型因素,如男性或女性、城市居民或非城市居民、气候条件正常或异常、政府经济政策不变与改革等。
在计量经济学的建模中应当将定量因素和定性因素同时纳入模型之内。
为了在模型中反映定性因素,可以将定性因素转化为虚拟变量去表现。
虚拟变量(或称为属性变量、双值变量、类型变量、定性变量、二元型变量等),是人工构造的取值为0和1的作为属性变量代表的变量,一般用字母D(或DUM,英文dummy的缩写)表示。
属性因素通常具有若干类型或水平,通常虚拟变量的取值为0和1,当虚拟变量取值为0,即D=0时,表示某种属性或状态不出现或不存在,即不是某种类型;当虚拟变量取值为1,即D=1时,表示某种属性或状态出现或存在,即是某种类型。
例如,构造政府经济政策人工变量,当经济政策不变时,虚拟变量取值为0,当经济政策改变时,虚拟变量取值为1。
第八章虚拟变量回归
E(Yi Xi , D1 0, D2 1) (0 2) X(i 大学及以上) 差异截距系数为 1 和 2
问题:如果还要区分“专科”“本科”、“硕士”、“博士”
应怎么办?
16
注意:
● u i 应服从基本假定
●一个定性变量有三种类型,使用了两个虚拟变量,
和 D代1 表D的的都是与基础
类型的差异
1 2
●一个定性变量多种类型时,虚拟变量可同时取值
为0,但不能同时取值为1,因同一定性变量的各类
型间“非此即彼”
17
对于多于两个类别的定性变量,有些 书上采用设一个虚拟变量而对不同类别采取 赋值不同的方法处理。如:
1 (大学) D = 0 (中学)
例如:Y为服装消费
X为收入,
D=0为男性
D=1为女性
分析条件期望:
基础类型: E(Yi Xi , D 0) 0 Xi
比较类型: E(Yi Xi , D 1) (0 1) Xi 1 为差异截距系数
对系数 1 的 t 检验:可检验定性因素对截距是否有
显著影响
注意:
D1i=1 种油菜籽
D1i =0 不种油菜籽
D2i ——代表是否养蜂的虚拟变量
D2i =1 养蜂
D2i =0 不养蜂
3 是交互效应的截距差异系数,可以通过对 3 的显著性
的检验,判断是否存在交互效应
23
例如
Yi 0 1D1i 2 D2i 3 (D1i D2i ) X i ui
其中: Yi ——种油菜籽和养蜂的收入
X i ——投入资金
D1i ——代表是否种油菜籽的虚拟变量
定性变量对截距是否有影响 19
第八章 虚拟变量回归
其中:
1 t = 1996年以后 D1t = 0 t = 1996年及以前
1 t = 2000年以后 D2 t = 0 t = 2000年及以前
1
基本思路:采用乘法方式引入虚拟变量的手 段。显然,1979年是一个转折点,可考虑在 这个转折点作为虚拟变量设定的依据。若设 X*=1979,当 t < X* 时可引入虚拟变量。 (为什么选择1979作为转折点?)
2
依据上述思路,有如下描述我国居民在不同时段消费 行为模型:
Yt = β 0 + β1t + β 2 (t X * ) D + ut
5
表8.1
年 份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 国民总收入 (GNI) 3624.1 4038.2 4517.8 4860.3 5301.8 5957.4 7206.7 8989.1 10201.4 11954.5 14922.3 16917.8 18598.4
9
为了分析居民储蓄行为在1996年前后和2000年前 后三个阶段的数量关系,引入虚拟变量D1和D2。 D1和D2的选择,是以1996、2000年两个转折点 作为依据,1996年的GNI为66850.50亿元,2000年 的GNI为国为民8254.00亿元,并设定了如下以加法 和乘法两种方式同时引入虚拟变量的的模型:
城乡居民人民 币储蓄存款年 底余额(Y) 210.6 281 399.5 532.7 675.4 892.5 1214.7 1622.6 2237.6 3073.3 3801.5 5146.9 7119.8
《计量经济学》第八章 虚拟变量回归
收入;
Dt
1 0
反常年份 正常年份
反常年份 EYt | Xt , Dt 1 (1 2)Xt
正常年份 EYt | Xt , Dt 0 1Xt
在正常年份的基础上进行比较,(只有斜率系数发生改变)。
31
(2)截距和斜率均发生变化
模型形式:
Yi f Xt , Dt , Dt Xt 0 1D, 1 2D
在正常年份基础上比较,截距和斜率系数都改变,为什么?
32
不同截距、斜率的组合图形
重合回归:截距斜率均相同
平行回归:截距不同斜率相同
共点回归:截距相同斜率不同
交叉(不同)回归:截距斜率均不同
33
三、虚拟解释变量综合应用
所谓综合应用是指将引入虚拟解释变量的加法方 式、乘法方式进行综合使用。 基本分析方式仍然是条件期望分析。 本课主要讨论
38
(2)交互效应分析
交互作用: 一个解释变量的边际效应有时可能要依赖于另一 个解释变量。为此,Klein和Morgen(1951)提出了 有关收入和财产在决定消费模式上相互作用的假 设。他们认为消费的边际倾向不仅依赖于收入, 而且也依赖于财产的多少 ——较富有的人可能会 有不同的消费倾向。
冬季、农村居民
EYi | Xi , D1 0, D2 0 0 Xi
26
Y
上述图形的前提条件是什么?
X
27
运用OLS得到回归结果,再用t检验讨论因素 是否对模型有影响。 加法方式引入虚拟变量的一般表达式:
Yt 0 1D1t 2D2t ... k Dkt Xt ut
基本分析方法: 条件期望。
计量经济学
2023最新整理收集 do
something
第八章 虚拟变量回归
第八章 虚拟变量回归
其中括号内这T-统计量,所有参数 均为显著的,拟合集优度R2=0.999 ,但DW值存在自相关,进行AR(1)
修正,重新估计得:
以上回归的模拟效果:
2500 2000 1500 40 20 0 -20 -40 1975 1980 1985 1990 Actual 1995 2000 Fitted 1000 500 0
有时我们所研究的变量之间 的变化趋势在某一时点上发生 了转折,如图8-3中所呈现的样 本散布点图,它表明变量Y与变 量X之间的变化关系在点X*处发 生了转折,一般来说,这样的 转折点是由于突发
Y
X X
*
0
图8.3
从图中可以算出,消费随时间 有规律地变化,为了模拟消费的 变化趋势,从而对其进行预测, 我们选择时间变量(T)为解释 变量,考虑到季节变动,引入虚 拟 变 量 , D1,D2,D3( 定 义 同 上)等。 由图可知,PCE随时间的变化 是二次曲线,设定模型为下式:
PCEt 0 4Tt 5 D1 t * T 6 D2 t * T 2 7 D3 t * T 8T ut
假设模型中仅有一个解释 变量X,线性概率模型可以表 示为:
Yi 0 1 Xi u i
由于Yi 只取两个值0与1, 设Yi 取1的概率为Pi ,则Yi 取0 的概率为(1-Pi ),于是,
E(Yi ) 1* Pi 0 * (1 Pi ) Pi
而
E(Yi ) 0 1Xi
Pi
1
0 1X i) (
作出该项选择与不作出该项选 择的概率之比的对数值增加一 个 1 。
三、概率单位模型(Probit)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
城市 农村
21
Y
X
共同的特征:截距发生改变(?)
22
(3)一个定性解释变量(两种以上 属性)和一个定量解释变量的情形
模型形式 Yi = f ( X i, D1, D2, ...) + μi (如:民族有56种特性;季度有4种特性) 例如: 啤酒售量Y、人均收入X 、季度D; Yi 0 1D1 2 D2 3 D3 X i i 1 一季度 1 其中: D1 D2 0 其 它 0 1 三季度 D3 0 其 它 二季度 其 它
32
不同截距、斜率的组合图形
重合回归:截距斜率均相同
平行回归:截距不同斜率相同
共点回归:截距相同斜率不同
交叉(不同)回归:截距斜率均不同
33
第三节 案例分析
为了考察改革开放以来中国居民的储蓄存款与收 入的关系是否已发生变化,以城乡居民人民币储 蓄存款年底余额代表居民储蓄( Y ),以国民总
D1 0, D2 0
X
上述图形的前提条件是什么?
27
运用OLS得到回归结果,再用t检验讨论因素
是否对模型有影响。
加法方式引入虚拟变量的一般表达式:
Yt 0 1D1t 2 D2t ... k Dkt X t ut
基本分析方法: 条件期望。
E(Yt / D1t , D2t ,..., Dkt ) 0 1D1t 2 D2t ... k Dkt X t
例1
(1)
1 男 D= 0 女
1 改革开放以后 (2) D = 0 改革开放以前
1 天气阴 1 天气雨 ( 3) D1 = ( 4) D2 = 0 其 他 0 其 他
问题: 为何只选0、1,选2、3、4行吗?为什么?
10
属性的状态(水平)数与虚拟变量 数量的关系
定性因素的属性既可能为两种状态,也可能为多种 状态。例如,性别(男、女两种)、季节(4种状 态),地理位置(东、中、西部),行业归属,所 有制,收入的分组等。
1 其中:Di= 0 城市 农村 (比较的基础:农村)
那么: E Yi | Di = 1 = ( 0 + 1)
Yi ( 0 1) i Yi 0 i
E Yi | Di = 0 = 0
城市
农村
20
(2) 一个定性解释变量(两种属性) 和一个定量解释变量的情形
14
虚拟变量在回归模型中的角色
虚拟变量既可作为被解释变量,也可作为解释 虚拟被解释变量的研究是当前计量经济学研究的
变量,分别称其为虚拟被解释变量和虚拟解释变量。 前沿领域,如MacFadden、Heckmen等人的微观计
本课程只是讨论虚拟解释变量的问题
量经济学研究,大量涉及到虚拟被解释变量的分析。
12
一个例子(虚拟变量陷阱)
研究居民住房消费支出 Yi 和居民可支配收入 X i 之间的 数量关系。回归模型的设定为:Yi = 0 + 1 X i +ui () 1
现在要考虑城镇居民和农村居民之间的差异,如何办?
为了对 “城镇居民”、“农村居民”进行区分,分析
各自在住房消费支出 Y 上的差异,设 D1i = 1 为城镇; i D1i = 0 为农村,则模型为 (模型有截距,“居民属性”定性变量只有两个相互排斥 的属性状态( m 2 ),故只设定一个虚拟变量。)
23
一季度:E Yi | X1, D1 1, D2 D3 0 ( 0 1) X i 二季度:E Yi | X1, D2 1, D1 D3 0 ( 0 2 ) X i 三季度:E Yi | X1, D3 1, D1 D2 0 ( 0 3 ) X i 四季度:E Yi | X1, D1 D2 D3 0 0 X i
生的消费支出结构差异,应当如何建立模型?
面临的问题:如何把男女生这样的非数量变量引
入方程?
2
问题的一般性描述
在实际建模中,一些定性变量具有不可忽视的重要
影响。例如,研究某个企业的销售水平,产业属性
(制造业、零售业)、所有制(私营、非私营)、
地理位置(东、中、西部)、管理者的素质、不同
的收入水平等是值得考虑的重要影响因素,但这些 因素共同的特征是定性描述的。 如何对非定量因素进行回归分析? 采用“虚拟变量”对定性变量进行量化一种思路。
基准:四季度
24
(4)两个定性解释变量(均为两种 属性)和一个定量解释变量的情形
25
夏季、城市居民
夏季、农村居民
E Yi | X i , D1 1, D2 1 ( 0 1 2) Xi
E Yi | X i ,D1 = 1, D2 = 0 = ( 0 + 1) + Xi
6
虚拟变量的定义
计量经济学中,将取值为0和1的人工变量称为虚 拟变量。虚拟变量也称:哑元变量、定性变量等 等。通常用字母D或DUM加以表示(英文中虚拟 或者哑元Dummy的缩写)。 对定性变量的量化可采用虚拟变量的方式实现。
7
二、虚拟变量设置规则
虚拟变量的设置规则涉及三个方面: 1.“0”和“1”选取原则 2.属性(状态、水平)因素与设置虚拟变量 数量的关系 3.虚拟变量在回归分析中的角色以及作用等 方面的问题
和一个定量解释变量;
18
(3)解释变量分别为一个定性变量(两种以上属 性)和一个定量解释变量; (4)解释变量分别为两个定性变量(各自分别是 两种属性)和一个定量解释变量;
思考:
四种加法方式引入虚拟变量会产生什么效应?
19
(1)一个两种属性定性解释变量而 无定量变量的情形
模型形式:Yi f ( Di ) i 0 1Di 例如:Yi 0 1Di i
31
(2)截距和斜率均发生变化
模型形式:
Yi f X t , Dt , Dt X t 0 1D, 1 2 D
例,同样研究消费支出 Y 、收入 X 、年份状况 D 间的影 响关系。 Yt 0 1 X t 1Dt 2 ( Dt X t ) t
冬季、城市居民 E Yi | X i , D1 0, D2 1 ( 0 2 )+ X i
冬季、农村居民
E Yi | X i , D1 0, D2 0 0 X i
26
D1 1, D2 1
Y
D1 1, D2 0
D1 0, D2 1
1 反常年份 其中: Y 消费支出;X 收入; Dt 0 正常年份 反常年份 E Yt | X t , Dt 1 0 1 ( 1 2 ) X t 正常年份 E Yt | X t , Dt 0 1 X t 在正常年份基础上比较,截距和斜率系数都改变,为什么?
乘法引入方式:
(1)截距不变;
(2)截距和斜率均发生变化;
分析手段:仍然是条件期望。
30
(1)截距不变的情形
模型形式: Yt = f X t , Dt X t ut , 1 2 D 例:研究消费支出 Y 受收入 X 、年份状况 D 的影响 Yt 1 X t 2 ( Dt X t ) t
28
加法方式引入虚拟变量的主要作用为: 1.在有定量解释变量的情形下,主要改变方程
截距;
2.在没有定量解释变量的情形下,主要用于方
差分析。
29
二、乘法类型
基本思想
以乘法方式引入虚拟变量时,是在所设立的模型中,将虚拟 Xi 解释变量与其它解释变量的乘积,作为新的解释变量出现在
模型中,以达到其调整设定模型斜率系数的目的。或者将模 型斜率系数表示为虚拟变量的函数,以达到相同的目的。
(1,0) 天气阴 如:(D1 ,D2)= (0,1) 天气雨 (0,0) 其 他
11
虚拟变量数量的设置规则
1.若定性因素具有 m 个 (m 2) 相互排斥属性(或 几个水平),当回归模型有截距项时,只能引入
m -1个虚拟变量;
2.当回归模型无截距项时,则可引入 m 个虚拟变 量;否则,就会陷入“虚拟变量陷阱”。
模型形式 Yi = f(Di,X i )+ μi 0 1Di 例如:Yi = 0 1Di + X i + μi 1 城市 其中: Y-支出;X -收入; Di 0 农村
E Yi | X i , Di 1 ( 0 1) Xi E Yi | X i , Di 0 ( 0) Xi
15
第二节 虚拟解释变量的回归
本节基本内容:
●加法类型
●乘法类型
●虚拟解释变量综合应用
16
在计量经济学中,通常引入虚拟变量的方式分为 加法方式和乘法方式两种:即
Yt 0 X t ut 1D Yt 1 X t ut 2 X t D
原模型:
Yi = + βX i + ui
8
“0”和“1”选取原则
虚拟变量取“1”或“0”的原则,应从分析问 题的目的出发予以界定。
从理论上讲,虚拟变量取“0”值通常代表比较 的基础类型;而虚拟变量取“1”值通常代表被 比较的类型。
“0”代表基期(比较的基础,参照物);
“1”代表报告期(被比较的效应)。
9
例如,比较收入时考察性别的作用。当研究男性收入是否 高于女性时,是将女性作为比较的基础(参照物),故有 男性为“1”,女性为“0”。
计量经济学