9第八章虚拟变量回归模型
虚拟变量回归模型
PART 07
虚拟变量回归模型的发展 趋势和未来展望
发展趋势
模型应用范围不断扩大
随着数据科学和统计学的发展,虚拟变量回归模型的应用范围不断扩大,不仅局限于传统的回归分析,还广泛应用于 分类、聚类、预测等领域。
模型复杂度不断提高
为了更好地处理复杂的数据结构和特征,虚拟变量回归模型的复杂度不断提高,出现了多种新型的模型,如集成学习 模型、深度学习模型等。
医学领域的应用
流行病学研究
在流行病学研究中,利用虚拟变量回归模型分析疾病发病率和死亡 率的影响因素,如年龄、性别、生活习惯等。
临床医学研究
在临床医学研究中,利用虚拟变量回归模型分析治疗效果的影响因 素,如治疗方案、患者特征、疾病严重程度等。
药物研究
在药物研究中,利用虚拟变量回归模型分析药物疗效的影响因素, 如药物剂量、给药方式、患者生理特征等。
模型解释性要求更高
随着人们对数据分析和模型结果的关注度提高,虚拟变量回归模型的解释性要求也更高,需要更加清晰、 直观地解释模型结果和变量之间的关系。
未来展望
模型可解释性研究
未来将更加注重虚拟变量回归模型的可解释性研究,以提高模型结果的透明度和可信度。
新型特征选择和降维技术
随着数据规模的扩大和特征维度的增加,未来将更加关注新型的特征选择和降维技术,以提取关 键特征并降低模型复杂度。
PART 01
引言
目的和背景
探索自变量与因变量之间的关系
虚拟变量回归模型主要用于探索自变量与因变量之间的数量关系,帮助我们理 解不同类别数据对结果的影响。
处理分类变量
当自变量是分类变量时,虚拟变量回归模型能够将这些分类变量转换为一系列 二进制(0和1)的虚拟变量,从而进行回归分析。
第八章 包含虚拟变量的回归模型
第八章 包含虚拟变量的回归模型一、虚拟变量的基本含义通常在回归分析中,因变量不仅受一些定量变量的影响,而且还受一些定性变量的影响,比如性别、种族、婚姻状况等等。
为了在模型中反映这些因素的影响,需要把定性因素进行“量化”。
通常是引进人工变量完成。
通过定性因素的属性类别,构造取值为0或者1的变量,如、 1代表男性, 0代表女性; 1代表某人是大学毕业, 0代表某人不是大学毕业,这类取值为0,1的变量称为虚拟变量(dummy variable )。
虚拟变量与定量变量一样可用于回归分析。
事实上,一个回归模型的解释变量可以仅仅是虚拟变量。
解释变量仅是虚拟变量的模型称为方差分析模型( analysis-of-variance models ) (ANOVA)。
例1:1i i Y D i βα=++ε,其中Y 表示职工工资,。
10i D ⎧=⎨⎩,本科学历,非本科学历这个模型与我们前面讨论过的双变量模型类似,但这里的解释变量是虚拟变量。
1(0)i E Y D β==,1(1)i E Y D βα==+显然,1β表示非大学毕业生的平均初职年薪,1βα+表示具有大学学历职工的平均工资,α代表二者之差。
回归模型中可以有同时有虚拟变量以及定量变量。
例2:考虑是否上过大学和工龄作为职工工资的模型:12i i i Y X D i ββαε=+++Y ,表示职工工资,X表示工龄,D同上。
含虚拟变量的模型只要扰动项符合古典假定,仍用OLS方法估计模型。
注意:虚拟变量系数显著性检验的意义::0H 0α=;:1H 0α≠。
同学们思考:这个检验在上面两个例子中分别具有何实际意义?二、虚拟变量的引入模型的方式 1、加法方式上面考察的例子都是加法方式。
注意虚拟变量模型的几何意义:以上述例2考察。
例3:如果上述职工工资方程(例2)中,学历考虑三个层次:高中以下、高中、大学及以上。
该如何建模?引进两个虚拟变量:,1 1 0 D ⎧=⎨⎩高中其他2 1 0 D ⎧=⎨⎩大学及以上其他121222Y X D D ββαα=++++ε请同学们分析模型的含义。
第八章-虚拟变量回归
1 高中 D2 0 其它
1 博士 D5 0 其它
1 大 学 D3 0 其 它
1 小 学 D6 0 其 它
则总体回归模型:
w 0 1 X 2 D1 3 D2 4 D3 5 D4 6 D5 7 D6+u
17
二、用虚拟变量测量斜率变动
基本思想
引入虚拟变量测量斜率变动,是在所设立的模型中,将虚 拟解释变量与其它解释变量的乘积,作为新的解释变量出 现在模型中,以达到其调整设定模型斜率系数的目的。
可能的情形:
(1)截距不变;
(2)截距和斜率均发生变化;
分析手段:仍然是条件期望。
18
(1)截距不变
模型形式:
意义:若α1显著,表明城市居民的平均人均可支配收入比农村 高α1元。但这种差异可能是由其它因素引起的,并不一定是由 户籍差异引起。
12
(2) 一个两属性定性解释变量和一个定量 解释变量
模型形式 Yi = f(Di,X i )+ μi 例如:Yi = 0 1 Di + X i + μi 1 城市 其中: Y-人均可支配收入;X-工作时间; Di 0 农村
会受到一些定性因素的影响,如性别、国籍、民族、自 然灾害和政治体制等。
问题:我们如何把这些定性想:将这些定性因素进行量化
由于定性变量通常表示某种属性是否存在,如是否男性、 是否经济特区、是否有色人和等。因此若该属性存在, 我们就将变量赋值为1,否则赋值为0,从而将定性因素 定量化。 计量经济学中,将取值为0和1的人工变量称为虚拟变量 (DUMMY)或哑元变量。通常用字母D或DUM表示。
7
一个例子(虚拟变量陷阱)
研究工资收入与学历之间的关系:
8. 虚拟变量回归模型
包含一个定量变量、两个定性变量的回归模型
例3:研究的问题中需要按不同标准引入多个定性变量 例:研究大学教师的年薪是否受到性别、学历的影响。 按性别标准教师分:男、女两类 引入一个虚拟变量; 按学历标准大学教师分:大学本科、研究生、博士三类 引入两个虚拟变量 总计需要引入三个虚拟变量:
D 1 ,女性
令Y=年薪,建立如下模型:
Yi B1 B2 Di ui
男性就业者的平均年薪: E (Yi | Di 0) B1 女性就业者的平均年薪:E (Yi | Di 1) B1 B2 如果B2 =0 ? 说明不存在性别歧视 如果B2 <0 ? 说明存在性别歧视
18
虚拟变量的交互影响
婚姻状况与性别对工资的影响 married:已婚取1 famle:女性取1
ˆ wage) 0.321 0.110 female 0.213married log( 0.301 female married
19
包含一个定量变量、一个定性变量的回归模型
(一)加法模型 0 ,男性 D 例1,再引入一个变量 1 ,女性 X=工作年限 建立如下模型: Yi B1 B2 X i B3 Di ui 男性就业者的平均年薪: 女性就业者的平均年薪: 如果B3 =0? 说明不存在性别歧视
16Biblioteka 回归模型中的结构稳定性:虚拟变量法
两条不同时期的直线在转折点连起成为一条折线。
进口商品支出回归方程为
* 1 t t Dt * 0 t t
Yt B1 B2 X t B3 ( X t X t * ) Dt ut
17
虚拟变量回归模型:计量经济学
对未来研究的展望
拓展模型应用领域
未来研究可以进一步拓展虚拟变 量回归模型的应用领域,如环境 经济学、劳动经济学、金融经济 学等,以更深入地揭示经济现象 背后的规律。
宏观经济学领域应用
经济增长研究
引入虚拟变量以刻画不同国家或地区的经济增 长模式,并分析各种因素对经济增长的贡献。
通货膨胀与货币政策研究
利用虚拟变量回归模型,探讨通货膨胀的成因、 传导机制及货币政策的效应。
国际贸易研究
通过构建虚拟变量,分析贸易自由化、关税壁垒等因素对国际贸易流量的影响。
金融学领域应用
线性问题,影响模型的稳定性和解释性。
预测能力有限
03
对于具有复杂关系的数据,虚拟变量回归模型可能无法提供准
确的预测。
与其他模型的比较
01
与线性回归模型的比较
虚拟变量回归模型是线性回归模型的一种扩展,通过引入 虚拟变量来处理分类变量。线性回归模型则主要关注连续 变量的影响。
02 03
与逻辑回归模型的比引言 • 虚拟变量回归模型基本原理 • 虚拟变量回归模型应用举例 • 虚拟变量回归模型优缺点分析 • 虚拟变量回归模型在实证研究中的应用 • 虚拟变量回归模型的发展趋势和前景
01 引言
计量经济学简介
1 2
计量经济学定义
计量经济学是应用数学、统计学和经济学方法, 对经济现象进行定量分析的学科。
完善模型理论和方法
在模型理论和方法方面,未来研 究可以进一步完善虚拟变量回归 模型的理论基础和方法体系,提 高模型的解释力和预测能力。
计量经济学第八章关于虚拟变量的回归.
类的截距。
2
2:级差截距系数
教龄X
1
0
薪金与性别:估计结果
1,若是男性 Di 0,若是女性
ˆ 17.969 1.371X 3.334D Y i i i se : (0.192) (0.036) (0.155) t : (93.61) (38.45) (21.455) r 2 0.993
一、虚拟变量的性质
例:教授薪金与性别、教龄的关系
男教授平均薪金和女 教授平均薪金水平相 差2,但平均年薪对 教龄的变化率是一样 的
Yi=1+2Di+Xi+I (1) 1,若是男性 D 其中:Yi=教授的薪金, Xi=教龄, Di=性别 0,若是女性 i 女教授平均薪金:E(Yi | X i , Di 0) 1 X i 被赋予0值的 男教授平均薪金:E(Yi | X i , Di 1) (1 2) X i 类别是基底(基 准),1是基底 男教授
比较英国在第二次大战后重建时期和重建后时期的总 储蓄-收入关系是否发生变化。数据如表。 Yt 1 2 Dt 1 X t 2 ( Dt X t ) t
D=1,重建时期
级差截距:区分两 个时期的截距 级差斜率系数:区分 两个时期的斜率 =0,重建后时期
D=1 D=0
E(Yt | Dt 0, X t ) 1 1 X t E(Yt | Dt 1, X t ) (1 2 ) ( 1 2 ) X t
男教授平均薪金水平比 女教授显著高$3.334K (男:21.3,女:17.969)
1,若是女性 Di 0,若是男性
ˆ 21.303 1.371X 3.334D Y i i i se : (0.182) (0.036) (0.155) t : (117.2) (38.45) (21.455)
9第八章 虚拟变量回归模型
Logit 模型的估计
区分两类数据:
(1)个体水平数据
购房概率 p 0 0 1 1
收入 X(千美元) 6 8 10 12
如果
pi
0,
Zi
ln
0 1
pi
1,
Zi
ln
1 0
可见,Z 表达式无意义,无法用OLS,需用ML(最大似然法)
冰箱销售量(千台) FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269
耐用品支出(10亿美元) DUR 252.6 272.4 270.9 273.9 268.9 262.9 270.9 263.4 260.6 231.9 242.7 248.6 258.7 248.4 255.5 240.4 247.7 249.1 251.8
4 回归分析操作命令: equation eq.ls Frig c Dur D1 D2 D3
提问 根据回归分析结果,发现存在什么问题?如何修改回归模型?
8.4 虚拟被解释变量的回归模型
【例】 研究是否购买住房与收入水平的关系。
设是否购房为被解释变量,用 Y 表示;收入为解释变量, 用 X 表示。
1 变量分析:
将DUR作为解释变量;FRIG作为被解释变量; 引入3个季度虚拟变量D1,D2,D3。 (虚拟变量数 = 属性数 – 1 )
2 季度虚拟变量的赋值规则:
D1=
1 (第1季度) 0 (其他季度)
D3=
1 (第3季度) 0 (其他季度)
D2=
计量经济学第八章虚拟变量回归
Y D D D X i 0 1 1 2 2 3 3 4 i i
D1
D2
1 一季度
1 二季度
D3
1 三季度
2 0 其他
2 0 其他
2 0 其他
15
例:美国制造业利润-销售额模型分析
Y X D D D 0 1 i 2 2 i 3 3 i 3 4 i i
比如在研究居民消费函数的时候,考虑到城乡差距和收入差距, 消费函数可以表示为: Y b b X b D b D
i 0 1i 2 1 i 32 i
i
D1i
1 城镇居民 2 0 农村 居民 农村低收入家庭 农村高收入家庭 城市低收入家庭 城市高收入家庭
D2i
1 高收入家庭
2 0 低收入家庭
计参数是否能通过显著性检验,最终确定虚拟变量的具体引入 方式。
9
课本P125页例7中数据建立的我国城镇居民彩电消费模型
ˆ Y 57 . 6113 0 . 0118 X 31 . 8731 D 0 . 0088 D X i i i i i
t
Di
(9.03)
(8.32)
(-6.59)
从这一章开始引入定性变量作为自变量,从而使线性 回归模型作为一种及其灵活的工具,可以处理经验研究中
许多实际的问题
2
• 由于这些定性变量通常指某一性质或属性的出现或不出现,
比如男性或女性、大学学历或专科学历等,因此量化这些 变量的方法就是构造一个取值为0或1的人为变量,可以用 0表示某种属性不出现,1表示某种属性出现。 • 这种人为设定的变量就称作虚拟变量(Dummy Variable) 1 大学毕业
庞浩计量经济学课件第八章 虚拟变量回归
二、虚拟变量的设置规则
1.虚拟变量个数的设置规则 若定性因素有m个相互排斥的类型(或属性、水 平),则: 在有截距项的模型中,只能引入m-1个虚拟变 量,否则会陷入“虚拟变量陷阱”(即:出 现完全的多重共线性); 在无截距项的模型中,可以引入m个虚拟变量, 不会导致完全的多重共线性。
4
例如:研究城乡居民的可支配收入对居民住房消费支 出的影响 C Y D u i 1 1 i 2 i i
21
分段线性回归
适合于社会经济现象会在解释变量达到某个临界值时 发生突变,考虑下述模型: Yt 1 1 X t 2 ( X t X * ) Dt ut 0, X t X * Dt * 1, X t X
当X t X *时, Yt 1 1 X t ut 当X t X 时, Yt 1 1 X t 2 ( X t X * ) ut
18
二、用虚拟变量表示不同斜率的回归—— 乘法类型
回归模型的比较——结构变化检验
分段线性回归
19
回归模型的比较——结构变化检验
研究改革开放前后(1950-2004),储蓄与收入的关系: Yi 1 2 Di 1 X i 2 ( Di X i ) ui
( 1950 1977 ) 0, 改革开放前 Di ( 1978 2004 ) 1, 改革开放后
Yi 1 2 Di 1 X i ui
0, 租房户 Di 1, 有房户
15
i 1 2 3 4 5 6 7 8 9 10
Y 1.0 1.3 0.7 0.8 0.5 2.4 0.3 3.2 2.8 0.0
X 20.0 24.0 12.0 16.0 11.0 32.0 10.0 40.0 32.0 7.0
第8章 虚拟变量回归
(2)比较两个回归结构稳定性:虚拟变量法 上节中探讨的邹检验程序,可以通过虚拟变量的使用而大为简化。 仍然使用储蓄-回归的例子,将n1和n2次观测值合并,用下列回归方 程:
其中Yi和Xi仍然代表储蓄和收入。而Di=1,如果观测值属于重建时期
(时期I);Di=0,如果观测值属于重建后时期(时期II)。 为了看清楚,实际上方程等效于:
它们分别是第二(重建后)和第一(重建)两个时期的平均储蓄函
数。相当于取γ1=α1,γ2=β1,λ1=α1+α2,和λ2=β1+β2。这样上述回归方 程等效于估计两个个别的储蓄函数。 α2和先前一样是级差截距;β2是级差斜率系数,表明在第一时期储蓄 函数的斜率和第二时期储蓄函数的斜率系数相差多少。
现在我们要问,在时期I(1946-1954)和时期II(1955-1963)中,储 蓄与收入之间的关系,是否是一回事呢?或者说,两个时期的储蓄 函数是否存在有结构性的变换呢?
这里,结构性变化是指两个截距或两个斜率不同,或者指截距和斜
率均不同,以致任何其他适当的参数组合有所不同。 为了判明这个变化是否真实,假定两个时期的储蓄函数分别是:
工资的重要决定性因素。
上述讨论的结论:模型可推广到含有多个定量变量和多个定性变量
的情形。唯一要提醒注意的是:每一个定性变量所需的虚拟变量的 个数要比该变量的类别数少一。
一个例子:“兼职”经济学
所谓“兼职”是指一个人执有两分或两分以上的工作,其中一份是
主业,其他称为副业。希斯克和罗斯特克研究了影响兼职者工薪的 因素,他们利用一个有318兼职者调查数据的样本,做了如下回归:
图中数据编排为女教
授和男教授两类。图 形可见导出的回归函 数是一个阶梯函数。 女教授的平均工资为 18000美元,而男教 授的工资则跃升了 3280美元,达到了 21280美元。
第八章(虚拟变量回归)_图文
5.社会因素:包括社会治安、城市化水平、消费心理等;
6.行政(政策)因素:包括土地与住房制度、房地产价格政策等;
7.区域因素:包括所处地段的市政基础设施、交通状况等;
8.个别因素:包括朝向、结构、材料、功能设计、施工质量等;
9.房地产投机因素:投机者在房地产市场中的投机活动;
10.自然因素:包括自然环境、地质、地形、地势及气候等。
使用虚拟变量需注意的问题
v 虚拟变量陷阱:若定性变量有m个类别,则引入 m个虚拟变量将会产生完全多重共线性问题,避 免方法:
Ø 只引入(m-1)个虚拟变量 Ø 引入m个虚拟变量但去掉截距项
v 哪种方法更好:包含截距项更方便,可以很容易 地检验某个组与基准组之间是否存在显著差异以 及差异程度。
2、避免落入“ 虚拟变量陷阱”
•男职工本科以上学历的平均薪金:
1.解释变量只有一个分为两种类型的定性变量无 定量变量的回归
这种模型又称方差分析模型
其中:Y为公立学校教师工资,
D=0为农村学校;D=1为城镇学校
分析条件期望:
基础类型:
比较类型:
为差异截距系数,通过对系数 可检验
的 t 检验:
在其他因素不变的条件下,城乡教师的工资是否有显2著323
D=0 表示某种属性或状态不出现或不存在 5
虚拟变量的作用
● 作为属性因素的代表,如性别 ● 作为某些非精确计量的数量因素的代表,
如受教育程度(高中及以下、专科、本科及以上) ● 作为某些偶然因素或政策因素的代表,
如 伊拉克战争、“911事件”、四川汶川大地震 ● 时间序列分析中作为季节(月份)的代表 ● 分段回归——研究斜率、截距的变动 ● 比较两个回归模型的差异 ● 虚拟被解释变量模型:
第八章虚拟变量回归
能否把定性的因素也引入计量经济模型中呢? 怎样才能在模型中有
效地表示这些定性因素的作用呢?
第一节 虚拟变量
一、什么是虚拟变量
变量可分为:
数量变量
属性变量
只表明属性的不连续变量
可用数量表现的连续变量
属性变量:不能精确计量的说明某种属性或状态的定 性变量,如性别、民族、战争、政治事件 ◆本身是定性的二分类变量(非此即彼) ◆本来是连续变量也可转换为二分类变量(上线/不上线) 虚拟变量:人工构造的取值为0和1的作为属性变量代 表的变量称虚拟变量,一般常用D表示 D=0 表示某种属性或状态不出现或不存在 D=1 表示某种属性或状态出现或存在 2
i
大学毕业及以上
1
0
15
E(Yi X i , D 1) ( 0 1 ) X i
Xi
3、解释变量包含一个定量变量和一个两种以上类 型的定性变量的回归
类型:高中以下、中毕业、大学毕业及以上——三种类型
模型
Yi 0 1D1i 2 D2i X i ui
这里的 D1i 和 D2i 代表的是两个不同的定性变量
例如:Y为文化支出,X为收入
D1i 为城镇或农村,D2i是否高中以上
基础类型:
对比类型:
E(Yi X i , D1 0, D2 0) 0 1 X i E(Yi X i , D1 1, D2 0) ( 0 1 ) 1 X i E(Yi X i , D1 0, D2 1) ( 0 2 ) 1 X i
注意:
● u i 应服从基本假定 ●一个定性变量有三种类型,使用了两个虚拟变量, 和 D 代表的是同一个定性变量的两种不同类型 D2 1 ●两个差异截距系数 类型的差异
计量经济学:第八章虚拟变量回归
计量经济学:第⼋章虚拟变量回归第⼋章虚拟变量回归第⼀节虚拟变量的概念⼀、问题的提出计量经济学模型对变量的要求——可观测、可计量。
但在现实经济问题中,存在定性影响因素,⽐如1、属性(品质)因素的表达。
在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。
如收⼊在形成过程中,不同的性别所得到的收⼊是不⼀样的;在城乡、不同地区等收⼊存在差距;再⽐如,在我国,经济的发展⽔平对于不同的区域有不同的表现。
2、异常值现象。
当经济运⾏过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。
3、季节因素的影响。
有的经济现象存在明显的季节特征,如啤酒的消费。
那么,在建模过程中,季节变动这⼀因素怎样考虑?4、离散选择现象的描述。
如公共交通与私⼈交通的选择、商品购买与否的决策、求职者对职业的选择等。
第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。
称前⼀种情况为虚拟解释变量,后⼀种为虚拟被解释变量。
本章主要介绍虚拟解释变量的内容。
⼆、虚拟变量的定义1、定义。
设变量D 表⽰某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D 取值为0。
记为=不具有该属性具有某种属性01D2、虚拟变量引⼊的规则。
(1)在模型⾥存在截距项的条件下,如果⼀个属性存在m 个相互排斥类型(⾮此即彼),则在模型⾥引⼊m-1个虚拟变量。
否则,会出现完全的多重共线性。
但要注意,在模型⽆截距项的情况下,如果⼀个属性存在m 个类型,即便引⼊m 个变量,不会出现多重共线性问题。
(请思考为什么?)(2)虚拟变量取值为0,意味着所对应的类型是基础类型。
⽽虚拟变量取值为1,代表与基础类型相⽐较的类型,称为⽐较类型。
例如“有学历”D 为1,“⽆学历”D 为0,则“⽆学历”就是基础类型,“有学历”为⽐较类型。
(3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况D=0,第⼀个类型;D=1,第⼆个类型;……D=m-1,第m 个类型。
第八章虚拟变量回归课件
9.房地产投机因素:投机者在房地产市场中的投机活动;
10.自然因素:包括自然环境、地质、地形、地势及气候等。
(资料来源:徐静; 武乐杰, 房地产价格影响因素的解释结构模型分析, 金融
经济, 2009年 10期)
第八章虚拟变量回归
2
在影响房地产价格的众多因素中,有定量的因素:
成本因素、房地产供求因素、经济因素、人口因素等;
Y t 0 1 X 1 t k X k 1 t D 1 t 2 D 2 t 3 D 3 t 4 D 4 t t
其矩阵形式为:
Y(XD, )α βμ
第八章虚拟变量回归
如果只取六个观测值,其中春季与夏季取了两次, 秋、冬各取到一次观测值,则式中的:
1 1
X 11 X 12
X k1 Xk2
被解释变量本身是定性变量
第八章虚拟变量回归
6
二、虚拟变量模型
虚拟变量模型:包含有虚拟变量的模型称虚拟变量模型 三种类型: 1、 解释变量中只包含虚拟变量
作用:假定其他因素都不变,只研究某种定性因素在某定
量变量上是否表现出显著差异
2、 解释变量中既含定量变量,又含虚拟变量
作用:研究定量变量和虚拟变量同时对被解释变量的影响
也有定性的因素:
社会因素、行政因素、区位因素、个别因素、投机因
素、 自然因素等。
在研究房地产价格影响机理时,需要分析那些不易量化
的定性因素对房地产价格是否真的有显著影响。
能否把定性的因素也引入计量经济模型中呢? 怎样才能
在模型中有效地表示这些定性因素的作用呢?
第八章虚拟变量回归
3
引子2 男女大学生的消费真的有差异吗?
例如:D=0 如果是女性(基础类型)
第八章 虚拟变量回归
其中:
1 t = 1996年以后 D1t = 0 t = 1996年及以前
1 t = 2000年以后 D2 t = 0 t = 2000年及以前
1
基本思路:采用乘法方式引入虚拟变量的手 段。显然,1979年是一个转折点,可考虑在 这个转折点作为虚拟变量设定的依据。若设 X*=1979,当 t < X* 时可引入虚拟变量。 (为什么选择1979作为转折点?)
2
依据上述思路,有如下描述我国居民在不同时段消费 行为模型:
Yt = β 0 + β1t + β 2 (t X * ) D + ut
5
表8.1
年 份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 国民总收入 (GNI) 3624.1 4038.2 4517.8 4860.3 5301.8 5957.4 7206.7 8989.1 10201.4 11954.5 14922.3 16917.8 18598.4
9
为了分析居民储蓄行为在1996年前后和2000年前 后三个阶段的数量关系,引入虚拟变量D1和D2。 D1和D2的选择,是以1996、2000年两个转折点 作为依据,1996年的GNI为66850.50亿元,2000年 的GNI为国为民8254.00亿元,并设定了如下以加法 和乘法两种方式同时引入虚拟变量的的模型:
城乡居民人民 币储蓄存款年 底余额(Y) 210.6 281 399.5 532.7 675.4 892.5 1214.7 1622.6 2237.6 3073.3 3801.5 5146.9 7119.8
第八章 虚拟变量
1 (中学学历) D2 0 (非中学学历)
1 (小学学历) D3 0 (非小学学历)
Company Logo
一、为什么引入虚拟变量
❖5.虚拟变量本卷须知
❖〔1〕 当定性变量含有m 个类别时,模型不能引入 m个虚拟变量。否那么在 虚拟变量间会发生完全多 重共线性,无法估量回归 参数。
❖ 例如:一年四季,取 m=4个虚拟变量。
❖3.如何将定性变量引入模型 ❖ 由于定性变量通常表示的是某种特征或属功
用否存在,如男性、女性,城市户口、非城市户口 等,所以量化方法可采用取值为0或1。 ❖ 可以用1表示该属性存在,0表示该属性不存 在(也可相反)。
Company Logo
一、为什么引入虚拟变量
❖4.虚拟变量 ❖ 上述这种取值为0或1的变量称作虚拟变量,
二、用虚拟变量测量截距变化
研讨,1982年第1季度至1988年第4季度全国按时 节市场用煤销售量,时间序列图如下
Y
5500 5000 4500 4000 3500 3000 2500
0
5
10 15 20 25 30
T
Company Logo
二、用虚拟变量测量截距变化
从上图看出,煤销售量随时节不同呈清楚的周 期性变化。给出三个虚拟变量,设:
0 5 10 15 20 25 30
T
Y
Company Logo
三、测量斜率变化
❖用虚拟变量还可以调查回归函数的斜率能否发作变
化,来剖析不同〝类型〞的不同斜率。
❖方法是在模型中参与定质变量与虚拟变量的乘积项:
❖ 设模型如下
Yi 0 1X i 2Di 3 ( X i Di ) ui
❖ 按β2、β3能否为零,回归函数可有如下四种方
第八章 虚拟变量回归
其中括号内这T-统计量,所有参数 均为显著的,拟合集优度R2=0.999 ,但DW值存在自相关,进行AR(1)
修正,重新估计得:
以上回归的模拟效果:
2500 2000 1500 40 20 0 -20 -40 1975 1980 1985 1990 Actual 1995 2000 Fitted 1000 500 0
有时我们所研究的变量之间 的变化趋势在某一时点上发生 了转折,如图8-3中所呈现的样 本散布点图,它表明变量Y与变 量X之间的变化关系在点X*处发 生了转折,一般来说,这样的 转折点是由于突发
Y
X X
*
0
图8.3
从图中可以算出,消费随时间 有规律地变化,为了模拟消费的 变化趋势,从而对其进行预测, 我们选择时间变量(T)为解释 变量,考虑到季节变动,引入虚 拟 变 量 , D1,D2,D3( 定 义 同 上)等。 由图可知,PCE随时间的变化 是二次曲线,设定模型为下式:
PCEt 0 4Tt 5 D1 t * T 6 D2 t * T 2 7 D3 t * T 8T ut
假设模型中仅有一个解释 变量X,线性概率模型可以表 示为:
Yi 0 1 Xi u i
由于Yi 只取两个值0与1, 设Yi 取1的概率为Pi ,则Yi 取0 的概率为(1-Pi ),于是,
E(Yi ) 1* Pi 0 * (1 Pi ) Pi
而
E(Yi ) 0 1Xi
Pi
1
0 1X i) (
作出该项选择与不作出该项选 择的概率之比的对数值增加一 个 1 。
三、概率单位模型(Probit)
计量经济学教材答案(八、九章)
第八章虚拟变量模型1. 回归模型中引入虚拟变量的作用是什么?答:在模型中引入虚拟变量,主要是为了寻找某(些)定性因素对解释变量的影响。
加法方式与乘法方式是最主要的引入方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
2. 虚拟变量有哪几种基本的引入方式? 它们各适用于什么情况?答:在模型中引入虚拟变量的主要方式有加法方式与乘法方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
3.什么是虚拟变量陷阱?答:根据虚拟变量的设置原则,一般情况下,如果定性变量有m个类别,则需在模型中引入m-1个变量。
如果引入了m个变量,就会导致模型解释变量出现完全的共线性问题,从而导致模型无法估计。
这种由于引入虚拟变量个数与类别个数相等导致的模型无法估计的问题,称为“虚拟变量陷阱”。
4.在一项对北京某大学学生月消费支出的研究中,认为学生的消费支出除受其家庭的每月收入水平外,还受在学校中是否得到奖学金,来自农村还是城市,是经济发达地区还是欠发达地区,以及性别等因素的影响。
试设定适当的模型,并导出如下情形下学生消费支出的平均水平:(1) 来自欠发达农村地区的女生,未得到奖学金;(2) 来自欠发达城市地区的男生,得到奖学金;(3) 来自发达地区的农村女生,得到奖学金;(4) 来自发达地区的城市男生,未得到奖学金。
解答: 记学生月消费支出为Y,其家庭月收入水平为X,则在不考虑其他因素的影响时,有如下基本回归模型:Y i=β0+β1X i+μi其他定性因素可用如下虚拟变量表示:有奖学金无奖学金来自发达地区男性来自欠发达地区女性则引入各虚拟变量后的回归模型如下:Y i=β0+β1X i+α1D1i+α2D2i+α3D3i+α4D4i+μi由此回归模型,可得如下各种情形下学生的平均消费支出:(1) 来自欠发达农村地区的女生,未得到奖学金时的月消费支出:E(Y i|= X i, D1i=D2i=D3i=D4i=0)=β0+β1X i(2) 来自欠发达城市地区的男生,得到奖学金时的月消费支出:E(Y i|= X i, D1i=D4i=1,D2i=D3i=0)=(β0+α1+α4)+β1X i(3) 来自发达地区的农村女生,得到奖学金时的月消费支出:E(Y i|= X i, D1i=D3i=1,D2i=D4i=0)=(β0+α1+α3)+β1X i(4) 来自发达地区的城市男生,未得到奖学金时的月消费支出:E(Y i|= X i,D2i=D3i=D4i=1, D1i=0)= (β0+α2+α3+α4)+β1X i5. 研究进口消费品的数量Y 与国民收入X 的模型关系时,由数据散点图显示1979年前后Y 对X 的回归关系明显不同,进口消费函数发生了结构性变化:基本消费部分下降了,而边际消费倾向变大了。
第八章 虚拟变量模型分析PPT课件
Y i 0 1 D 1 i i ,
i 1 , 2 ,, n .
❖
其中Y i 为个人月支出;D1i 误差项且 E i =0
=
1, 未婚者的月期望支出为:
E Y i|D 1 i 0 E 0 1 0 i 0
❖ 已婚者的月期望支出为:
E Y i|D 1 i 1 E 0 1 1 i 0 1
下面给出含有一个定量变量和一个定性 变量的协方差模型,含有多个定量和定 性变量的协方差模型原理相似不再赘述。
Y i 0 1 D 1 i + 1 X 1 i i , i 1 , 2 ,, n .
其中Y i 表示大学生月话费支出,X 1 i 表示月生活
1,独生子女
费支出; ; 表示模型随机误差项 D1i=0,非独生子女
下面我们建立含有虚拟变量为自变量的回归模型。
1.方差分析模型(ANOVA模型) 在回归分析中,虚拟变量与定量变量一样
可以作为模型的回归元。一个回归模型的自 变量只有虚拟变量,这样的模型称为方差分 析模型(analysis of variance,ANOVA)。为 说明方差分析模型,我们看下面一个只含有 一个虚拟变量的ANOVA模型,含有多个虚拟 变量的ANOVA模型原理相似不再赘述。
i
且 。 Ei =0
则根据模型有: 非独生大学生月话费支出期望值为:
E Y i|D 1 i 0 E 0 1 0 + 1 X 1 i i 0 1 X 1 i
独生大学生月话费支出期望值为:
E Y i |D 1 i 1 E 0 1 1 + 1 X 1 i i 0 1 1 X 1 i
那么,像这样取值只为0、1的变量称为虚拟变量或哑变 量,并用符号表示,从而与常用符号区别开。我们把赋值为 0的一类称为基准类。需要注意的是虚拟变量的赋值是人为 的、任意的,根据人们的习惯而定。如前所提到的性别变量, 也可以用1表示女性,用0表示男性。
虚拟变量回归
加法方式引入虚拟变量的主要作用为: 1.在有定量解释变量的情形下,主要改变方程 截距; 2.在没有定量解释变量的情形下,主要用于方 差分析。
29
二、乘法类型
基本思想
以乘法方式引入虚拟变量时,是在所设立的模型中X,i 将虚拟 解释变量与其它解释变量的乘积,作为新的解释变量出现在 模型中,以达到其调整设定模型斜率系数的目的。或者将模 型斜率系数表示为虚拟变量的函数,以达到相同的目的。
则对任一家庭都有: D1 + D2 =1 D1 + D2 - 1 = 0 ,
即产生完全共线,陷入了“虚拟变量陷阱”。
“虚拟变量陷阱”的实质是:完全多重共线性。
14
虚拟变量在回归模型中的角色
虚拟变量既可作为被解释变量,也可作为解释 变量,分别称其为虚拟被解释变量和虚拟解释变量。 虚拟被解释变量的研究是当前计量经济学研究的 前沿领域,如MacFadden、Heckmen等人的微观计 量经济学研究,大量涉及到虚拟被解释变量的分析。 本课程只是讨论虚拟解释变量的问题
数量的关系 3.虚拟变量在回归分析中的角色以及作用等
方面的问题
8
“0”和“1”选取原则
虚拟变量取“1”或“0”的原则,应从分析问 题的目的出发予以界定。
从理论上讲,虚拟变量取“0”值通常代表比较 的基础类型;而虚拟变量取“1”值通常代表被 比较的类型。 “0”代表基期(比较的基础,参照物); “1”代表报告期(被比较的效应)。
模型形式 Yi = f(Di,Xi )+ μi 0 1Di
例如:Yi = 0 1Di + Xi + μi
其中: Y-支出;X-收入;
1 Di 0
城市 农村
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 变量分析: 设储蓄为被解释变量Y;GNP为解释变量X; 1990年前后这一时期属性为虚拟变量D。 D=0 表示1990年前, D=1 表示1990年后。
2 虚拟变量引入方式: 加法方式与乘法方式相结合
3 回归模型:
加法方式
2. 定性变量(名义变量, nominal variable) 不可计算比率、也不可差分。如 性别、种族、国籍、党
派、企业类别等。
虚拟变量(dummy variable)就是定性变量。虚拟变量 也可引入回归模型,用符号 D 表示。其取值为“1”或“0”。
8.2 虚拟解释变量的回归模型
【例】 研究某企业的职工工资与工龄之间的线性回归 关系,并判断该企业是否存在性别歧视。
3 加法方式与乘法方式相结合(续) 特征: 截距变,斜率变。
(工资) Y
男性 Yˆ (ˆ1 ˆ2 ) (ˆ3 ˆ4 ) X
ˆ1 ˆ2
ˆ1
0
女性 Yˆ ˆ1 ˆ3 X
X (工龄)
8.3 案例分析
【案例1】研究中国1979-2001年储蓄与GNP之间的关系,请问: 1990年前后,储蓄-GNP的关系是否发生结构性变化?
设工资Y为被解释变量;工龄X为解释变量;性别为虚拟变 量,用D表示。D=1,表示男性, D=0,表示女性。 引入虚拟变量D的回归模型:
如果 3 0,说明存在性别歧视。
虚拟变量的引入方式
1 加法方式 特征: 截距变,斜率不变。
当 D=0(女性) 当 D=1(男性)
Yi 1 2 X i ui
Yi (1 3 ) 2 X i ui
2 乘法方式(续) 特征: 截距不变,斜率变。
(工资) Y
男性 Yˆ ˆ1 (ˆ2 ˆ3 ) X
ˆ1
女性 Yˆ ˆ1 ˆ2 X
0
X (工龄)
3 加法方式与乘法方式相结合 特征: 截距变,斜率变。
当 D=0(女性) 当 D=1(男性)
Yi 1 3 X i ui
Yi (1 2 ) (3 4 ) X i ui
2 然后用命令 eq.chow 1990 进行结构性变化检验。 1990表示有待检验的结构性变化点。
3 如果 F-statistic的值大于F(2,19)的临界值; 或者,如果Prob.F < 0.05,表明存在结构性变化。
本例,F-statistic=7.259945 > F(2,19)=3.52(查表) Prob.F(2,19) = 0.004548 < 0.05 说明1990年前后确实存在结构性变化。
也可在回归分析结果的视窗内,通过 View /Stability Tests/Chow Breakpoint Test 的视窗操作,进行结构 性检验(如下图所示)。
【案例2】研究美国1978-1985年各季度冰箱销售量与耐用 品支出之间的关系。参见古扎拉蒂教材 p.290,表9-4.)。
季度
1978(1) 1978(2_ 1978(3) 1978(4) 1979(1) 1979(2) 1979(3) 1979(4) 1980(1) 1980(2) 1980(3) 1980(4) 1981(1) 1981(2) 1981(3) 1981(4) 1982(1) 1982(2) 1982(3)
乘法方式
当 D=0(1990年前)
Yt 1 3 X t ut
当 D=1(1990年后)
为了考察结构性 变化,只要检验 β2 或 β4 是否 显著地不等于零。
Yt (1 2 ) (3 4 ) X t ut
Eviews中虚拟变量的赋值操作命令
由于Eviews中不可用D作为变量名,故用DM代替 虚拟变量D。
9107 11545.4 14762.4 21518.8 29662.3 38520.8 46279.8 53407.5
GNP(X)
4038.2 4517.8 4860.3 5301.8 5957.4 7206.7 8989.1 10201.4 11954.5 14922.3 16917.8 18598.4 21662.5 26651.9 34560.5
年度
1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998
储蓄(Y)
281 399.5 523.7 675.4 892.5 1214.7 1622.6 2237.6 3073.3 3801.5 5146.9 7034.2
也可用Eviews进行结构性变化的检验, 即 Chow Test(邹至庄检验)
邹至庄(1929-), 英文名 Gregory C. Chow, 著名美籍华人经济学家, 美国普林斯顿大学教授。
Chow Test 的步骤
1 首先用命令 equation eq.ls y c x 进行回归分析 (不引入虚拟变量)。eq 为回归方程名。
1 加法方式(续) 特征: 截距变,斜率不变。
(工资) Y
ˆ1 ˆ3 ˆ1
0
男性 Yˆ (ˆ1 ˆ3 ) ˆ2 X
女性 Yˆ ˆ1 ˆ2 X
X (工龄)
2 乘法方式 特征: 截距不变,斜率变。
当 D=0(女性) 当 D=1(男性)
Yi 1 2 X i ui
Yi 1 (2 3 ) X i ui
Series DM
定义虚拟变量DM
Smpl 1979 1989 指定样本范围(1990前)
DM = 0
将虚拟变量赋值为0
Smpl 1990 2001 指定样本范围(1990后)
DM = 1
将虚拟变量赋值为1
Smpl @all
指定全范围样本
虚拟变量项的回归系数的 t 检验结果表明,回归系数与零 有显著性差异,即不等于零。所以,1990前后储蓄-GNP 的关系存在结构性变化。
第八章 虚拟变量回归模型
§8.1 虚拟变量 §8.2 虚拟解释变量的回归模型 §8.3 虚拟被解释变量的回归模型 §8.4 案例分析
8.1 虚拟变量
虚拟变量的概念
两大类变量:பைடு நூலகம்1. 定量变量(尺度变量, scale variable)
可以计算比率、也可以差分。如 GDP、价格、产量、人口 数、身高等。