第八章虚拟变量1577775632
8-3、模型中的特殊解释变量:虚拟变量
2016/3/29
1
8.3、 虚拟变量(Dummy variables)
8.3.1、.虚拟变量的概念
在回归分析中,常常碰到这样一种情况,即因变量 的波动不仅依赖于那种能够很容易按某种尺度定量化的 变量(如收入、产出、价格、身高、体重等),而且依 赖于某些定性的变量(如性别、地区、季节等)。 在经济系统中,许多变动是不能定量的。如政府的更 迭(工党 - 保守党)、经济体制的改革、固定汇率变为 浮动汇率、从战时经济转为和平时期经济等。 这样一些变动都可以用 0-1 变量来表示,用 1 表示具有 某一“品质”或属性,用0表示不具有该“品质”或属 性。这种变量在计量经济学中称为“虚拟变量”。虚拟 变量使得我们可以将那些无法定量化的变量引入回归模 型中。
2016/3/29 2
下面给出几个可以引入虚拟变量的例子。 例1:你在研究学历和收入之间的关系,在你的样 本中,既有女性又有男性,你打算研究在此关系中, 性别是否会导致差别。 例2:你在研究某省家庭收入和支出的关系,采集 的样本中既包括农村家庭,又包括城镇家庭,你打 算研究二者的差别。 例3:你在研究通货膨胀的决定因素,在你的观测 期中,有些年份政府实行了一项收入政策。你想检 验该政策是 否对通货膨胀产生影响。 上述各例都可以用两种方法来解决,一种解决方 法是分别进行两类情况的回归,然后检验参数是否 不同。另一种方法是用全部观测值作单一回归,将 定性因素的影响用虚拟变量引入模型。
女1 0 女2 0 男2 1 女3 0 男3 1 男4 1 女4 0 女5 0
21.2
男5 1
试建立模型研究之。
2016/3/29
9
4、虚拟变量在分段回归中的应用
2016/3/29
虚拟变量
一般地,在虚拟变量的设置中:
• 基础类型、肯定类型取值为1;
• 比较类型,否定类型取值为0。
概念:
同时含有一般解释变量与虚拟变量的模型称为虚拟 变量模型。
例1:为了考察企业职工薪金收入(Yi)的情况, 以工龄(Xi)和性别(Di)为影响因素,建立如 下模型:
Yi 0 1 X i 2 Di i
其中: Di=1,若是男性, Di=0,若是女性。
二、虚拟变量的引入
• 虚拟变量做为解释变量引入模型有两种基本方式:加法 方式和乘法方式。
1、加法方式
上述企业职工薪金模型中性别虚拟变量的引入: Yi 0 1 X i 2 Di i
在该模型中,如果仍假定E(i)=0,则 企业女职工的平均薪金为:
表中给出了中国1979~2001年以城乡储蓄存款余 额代表的居民储蓄以及以GNP代表的居民收入的数 据。
90年前 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990
表 5.1.1
储蓄 281 399.5 523.7 675.4 892.5 1214.7 1622.6 2237.6 3073.3 3801.5 5146.9 7034.2
R 2 =0.9836
由2与3的t检验可知:参数显著地不等于0,强 烈示出两个时期的回归是相异的,
储蓄函数分别为:
1990年前: 1990年后:
Yˆi 1649.7 0.4116Xi Yˆi 15452 0.8881Xi
三、虚拟变量的设置原则
虚拟变量的个数须按以下原则确定:
如果某个定性变量有m种相互排斥的类型,则模型中只能 引入m-1个虚拟变量。否则会陷入所谓的“虚拟变量陷阱”, 产生完全共线性。
第8讲 虚拟变量
❖ 从某省的51个县(市)收集了当地教师的平均年 薪数据,并处理成Excel文档(data_8.1)。
❖ 在这51个县(市)中,有13个县(市)属于东部, 21个县(市)属于中部,17 个县(市)属于西部。
© School of Management and Economics, 2010
描述性统计分析
房屋价格
房屋的土 地面积
建筑 年龄
卧室 数目
是否有 壁炉
是否面 朝海滩
P R I C E i 0 1 L O T i 2 A G E i 3 B E D i 4 F I R E i 5 B E A C H i i
© School of Management and Economics, 2010
(-6.11) (22.89) (4.33) (-2.55) R 2 =0.9836
由3与4的t检验可知:参数显著地不等于0,强烈示出两个
时期的回归是相异的。
储蓄函数分别为:ຫໍສະໝຸດ 1992年前: 1992年后:
Y ˆi 16 .7 4 0 .4 91 X i16 Y ˆi 15 4 0 .8 58 2 X i81
第八讲 虚拟变量
战研略究引问资题现状
❖引进境外战略投资者能否真正提高中资银 行的风险管理能力?
➢能?为什么? ➢不能?为什么? ➢怎样检验?
© School of Management and Economics, 2010
第八讲 虚拟变量
战研略究引设资计现状
❖ 检验中资银行哪方面的风险管理能力?
Di为引入的虚拟变量:
Di
1
0
8第八章包含虚拟变量的回归
c1D1 +c2 D2+ c3 D3
引入二个虚拟变量
D1=1,大学;=0,其他 D2=1,中学;=0,其他
Y=b0+b1 X1 +
c1D1 +c2 D2
2、模型中一个定性变量,该变量 具有多种分类,p218
即多分定性变量 假定根据横截面数据,我们做个人旅游支 出Y对其收入X和学历的回归,学历这个定 性变量,可分为:
中学以下、中学、大学三个层次,
如何设置虚拟变量?
我们有如下选择
引入一个虚拟变量D 引入三个虚拟变量
D= 2,大学;=1,中学;=0,中学以下 回归方程为:Y=b0+b1 X1 +b2 D
这里有两个两分定性变量,肤色和种族 可引入两个虚拟变量
例-性别、肤色和工龄、学历(3种类型) 一起解释薪酬
性别、肤色分别引入2个虚拟变量,学历引入2
个虚拟变量
例题
P221 10-18:性别、种族对收入的影响
Y-小时工资,X-教育年限 D2-=1(女性);=0(男性) D3-=1(非白种人且非西班牙裔);=0(其 他) Y^=-0.26-2.36 D2-1.73 D3+0.80X 总结:每个定性变量所需引入的虚拟变量 比该变量类型数少一。 返回
对于方程10-18 ,其样本回归线
Y^=-0.26-2.36 D2-1.73 D3+0.80X,隐含假定
了不同性别下,种族变量对收入的影响是一样 的。同样的,不同种族下,性别变量对收入的 影响也是相同的。
计量经济学课件虚拟变量
通过引入虚拟变量,可以更准确地刻画经济现象的非线性特征,从而提高计量经济学模型 的精度和预测能力。
拓展应用领域
虚拟变量的引入使得计量经济学模型能够应用于更多的领域,如金融、环境、社会等,进 一步拓展了计量经济学的应用范围。
未来研究方向和趋势
深入研究虚拟变量的理论 和方法
未来研究将进一步深入探讨虚 拟变量的理论和方法,包括虚 拟变量的选择、设定和估计方 法等,以更准确地刻画经济现 象。
https://
未来研究将积极推动虚拟变量 在交叉学科领域的应用,如环 境经济学、金融经济学等,以 促进不同学科之间的交流和合 作。
WENKU DESIGN
WENKU DESIGN
2023-2026
END
THANKS
感谢观看
KEEP VIEW
WENKU DESIGN
WENKU DESIGN
WENKU
REPORTING
要点二
虚拟变量的设置原则
在设置虚拟变量时,需要遵循完备性 和互斥性的原则。完备性要求虚拟变 量的取值能够覆盖所有可能的情况, 而互斥性则要求不同虚拟变量之间不 能存在重叠或交叉的情况。
要点三
虚拟变量的回归系数 解释
在线性回归模型中,虚拟变量的回归 系数表示该定性因素对因变量的影响 程度。当虚拟变量取值为1时,其对 应的回归系数表示该水平与参照水平 相比对因变量的影响;当虚拟变量取 值为0时,则表示该水平对因变量没 有影响。
参数估计与假设检验
参数估计
采用最小二乘法等估计方法,对引入虚拟变量后的模型进行参数估计,得到各 解释变量的系数估计值。
假设检验
根据研究问题和假设,构建相应的原假设和备择假设,通过t检验、F检验等方 法对参数进行假设检验,判断虚拟变量对模型的影响是否显著。
第五章虚拟变量-第八章虚拟变量
说明虚拟解释变量 D1,D2,D3,D4 存在完全的多重共线性 从而无法用普通最小二乘法进行估计。 反映季节因素的商品需求模型为:
Yt 0 1 X 1t 2 X 2t 3 D1t 4 D2t 5 D3t t
例3、由经济实际得知,出口消费品数量Y 主要取决于国民支出X,我国革新开放前 后出口消费品的数量发作清楚变化,以 1979年为转机期,树立出口消费品需求 模型,并反映这种变化。
Yt 0 1 X i i
式中,Y 是职工工资收入;X 是工龄 考虑职工收入受教育程度的影响而引入合适的虚拟 变量,对上述模型加以改进。
解:教育程度一般分为:高中以下,高中,大学及以上(包括大专) 这样教育程度有三个特征,故引入两个虚拟变量,并设教育程度的 改变,只影响截距的变动。
D1=
1, 0,
Yt 0 1 X t t
1979 年以后,Dt 为 1, 模型为
Yt
0
2X
* t
1 2 X t t
第5章习题
一、单项选择题 1、假设一个回归模型中不包括截距项,对一个
具有m个特征的质的要素需求引入的虚拟变量 的个数为: A、m B、m-1 C、m-2 D、m+1
2、设团体消费函数Yi=c0+c1Xi+ui中,消费支出Y不只 与支出X有关,而且与消费者的性别、年龄构成有关, 年龄构成可分为青年、中年和老年三个层次,假定边 沿消费倾向不变,那么思索上述要素的影响,该函数 引入虚拟变量的个数为:
的需求模型为: Yt 0 1 X 1t 2 X 2t t
式中,Y 是商品的需求量,X1 是价格,X2 时收入, 为了反映四个季节对商品需求量的影响,假定引入四个虚拟变量:
计量经济学第八章 虚拟变量回归
第八章
虚拟变量回归
1
第八章 虚拟变量回归
本章主要讨论:
●虚拟变量
●虚拟解释变量的回归
2
本章的教学目标
(1)深刻理解定性因素在计量经济分析中的 背景和含义; (2)明确虚拟变量在建立和估计计量经济模 型中的意义和作用; (3)熟练掌握引入和应用虚拟变量的基本思 想和方法; (4)能够运用虚拟变量模型作相应的经济实 证分析方面的应用; (5)掌握Eviews软件中相关内容的操作方法。
这表明三个时期居民储蓄增加额的回归方程在统计 意义上确实是不相同的。1996年以前收入每增加1 亿元,居民储蓄存款的平均增加0.1445亿元;在 2000年以后,则为0.4133亿元,已发生了很大变化。
20
上述模型与城乡居民储蓄存款与国民总收入之间 的散布图是吻合的,与当时中国的实际经济运行 状况也是相符的。 需要指出的是,在上述建模过程中,主要是从教 学的目的出发运用虚拟变量法则,没有考虑通货 膨胀因素。而在实证分析中,储蓄函数还应当考
单位:亿元
城乡居民 人民币储 蓄存款增 额 (YY) 2121.8 2517.8 3444.1 6315.3 8143.5 8858.5
年 份
城乡居民 国民总收 人民币储 蓄存款年 入 (GNI) 底余额 (Y) 3624.1 4038.2 4517.8 4860.3 5301.8 5957.4 210.6 281 399.5 532.7 675.4 892.5
(1,0) 天气阴 如:(D1 ,D2)= (0,1) 天气雨 (0,0) 其 他
29
虚拟变量数量的设置规则
1.若定性因素具有 m 个 (m 2) 相互排斥属性(或 几个水平),当回归模型有截距项时,只能引入
8第八章虚拟变量回归new
三类年薪函数的差异情况如下图所示:
年薪 α1
α2 -α1
研究生 本科 大专以下
工龄
设置虚拟变量D或增设D3行吗?
2 D= 1
0
博士研究生
硕士研究D生 2
本科及以下
1 0
研究生 其他
(2)多个因素各两种类型
如果有m个定性因素,且每个因素各有两个不 同的属性类型,则引入 m 个虚拟变量。
例如,研究居民住房消费函数时,考虑到城乡 的差异以及不同收入层次的影响,将消费函数取成: yi=a+bxi+α1D1i+α2D2i +εi
【例】现有1998年我国城镇居民人均收入与彩 电每百户拥有量的统计资料。
9
观察相关图
从相关图可以看出, 前3个样本点与后5个样 本点存在较大差异,因 此,可设置虚拟变量反 映“收入层次”:
D
1 0
中高收入家庭 低收入家庭
10
将我国城镇居民的彩电需求函数设成:
Yi=a+bxi+αDi+βXDi+εi DATA D1
其中y ,x分别是居民住房消费支出和可支配收 入,虚拟变量设为:
1 农村居民 D1 0 城镇居民
1 高收入家庭 D2 0 低费情况:
城市低收入家庭 城市高收入家庭 农村低收入家庭 农村高收入家庭
(D1=0,D2=0)
(D1=0,D2=1) (D1=1,D2=0) (D1=1,D2=1)
政策紧缩 政策宽松
D
1 0
本科以上学历 本科以下学历
变量的划分应遵循穷举与互斥原则。
5
二、作用
⑴可以描述和测量定性因素的影响。
⑵能够正确反映经济变量之间的相互关系,提高模 型的精度。
第八章(虚拟变量回归)_图文
5.社会因素:包括社会治安、城市化水平、消费心理等;
6.行政(政策)因素:包括土地与住房制度、房地产价格政策等;
7.区域因素:包括所处地段的市政基础设施、交通状况等;
8.个别因素:包括朝向、结构、材料、功能设计、施工质量等;
9.房地产投机因素:投机者在房地产市场中的投机活动;
10.自然因素:包括自然环境、地质、地形、地势及气候等。
使用虚拟变量需注意的问题
v 虚拟变量陷阱:若定性变量有m个类别,则引入 m个虚拟变量将会产生完全多重共线性问题,避 免方法:
Ø 只引入(m-1)个虚拟变量 Ø 引入m个虚拟变量但去掉截距项
v 哪种方法更好:包含截距项更方便,可以很容易 地检验某个组与基准组之间是否存在显著差异以 及差异程度。
2、避免落入“ 虚拟变量陷阱”
•男职工本科以上学历的平均薪金:
1.解释变量只有一个分为两种类型的定性变量无 定量变量的回归
这种模型又称方差分析模型
其中:Y为公立学校教师工资,
D=0为农村学校;D=1为城镇学校
分析条件期望:
基础类型:
比较类型:
为差异截距系数,通过对系数 可检验
的 t 检验:
在其他因素不变的条件下,城乡教师的工资是否有显2著323
D=0 表示某种属性或状态不出现或不存在 5
虚拟变量的作用
● 作为属性因素的代表,如性别 ● 作为某些非精确计量的数量因素的代表,
如受教育程度(高中及以下、专科、本科及以上) ● 作为某些偶然因素或政策因素的代表,
如 伊拉克战争、“911事件”、四川汶川大地震 ● 时间序列分析中作为季节(月份)的代表 ● 分段回归——研究斜率、截距的变动 ● 比较两个回归模型的差异 ● 虚拟被解释变量模型:
计量经济学第8章
6443.33 8631.94 1
最高收入户
7593.95 10962.1 0
8262.42 12083.79 1
表 回归结果
这表明1998年、1999年我国城镇居民消费函数并没有显著差 异。因此,可以将两年的样本数据合并成一个样本,估计城镇居 民的消费函数,结果如下:
回归结果
虚拟变量的特殊应用
0
1
0
1988.1
3929.8 25 0
0
0
1984.4
4270.6 12
1
0
0
1988.2
4126.2 26 0
0
1
1985.1
3044.1 13
0
0
0
1988.3
4015.1 27 0
1
0
1985.2
3078.8 14 0
0
1
1988.4
4904.2 28 1
0
0
由于受取暖用煤的影响,每年第四季度的销售量大大高于其
设根据同一总体两个样本估计的回归模型分别为
为“相异回归”(Dissimilar regressions)。 上述情况中,只有第(1)种情况模型结构是稳定的,其余情况都表明模 型结构不稳定。
3.分段回归
回归系数反映了奖金的提高程度。使用虚拟变量既能如实描述不同阶段 的经济关系,又未减少估计模型时的样本容量,保证了模型的估计精度。
后期变动一个单位对Y的影响,即x的滞后影响。 如果 b = bi 存在,i=0,1,2…,k
b 称为长期分布或总分布乘数。表示X 变动一个单
位时,由于滞后效应而形成的对Y值的总的影响。
分布滞后模型的参数估计
对分布滞后模型直接采用OLS不适宜 • 没有先验准则确定滞后期长度;
计量经济学:第八章虚拟变量回归
计量经济学:第⼋章虚拟变量回归第⼋章虚拟变量回归第⼀节虚拟变量的概念⼀、问题的提出计量经济学模型对变量的要求——可观测、可计量。
但在现实经济问题中,存在定性影响因素,⽐如1、属性(品质)因素的表达。
在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。
如收⼊在形成过程中,不同的性别所得到的收⼊是不⼀样的;在城乡、不同地区等收⼊存在差距;再⽐如,在我国,经济的发展⽔平对于不同的区域有不同的表现。
2、异常值现象。
当经济运⾏过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。
3、季节因素的影响。
有的经济现象存在明显的季节特征,如啤酒的消费。
那么,在建模过程中,季节变动这⼀因素怎样考虑?4、离散选择现象的描述。
如公共交通与私⼈交通的选择、商品购买与否的决策、求职者对职业的选择等。
第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。
称前⼀种情况为虚拟解释变量,后⼀种为虚拟被解释变量。
本章主要介绍虚拟解释变量的内容。
⼆、虚拟变量的定义1、定义。
设变量D 表⽰某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D 取值为0。
记为=不具有该属性具有某种属性01D2、虚拟变量引⼊的规则。
(1)在模型⾥存在截距项的条件下,如果⼀个属性存在m 个相互排斥类型(⾮此即彼),则在模型⾥引⼊m-1个虚拟变量。
否则,会出现完全的多重共线性。
但要注意,在模型⽆截距项的情况下,如果⼀个属性存在m 个类型,即便引⼊m 个变量,不会出现多重共线性问题。
(请思考为什么?)(2)虚拟变量取值为0,意味着所对应的类型是基础类型。
⽽虚拟变量取值为1,代表与基础类型相⽐较的类型,称为⽐较类型。
例如“有学历”D 为1,“⽆学历”D 为0,则“⽆学历”就是基础类型,“有学历”为⽐较类型。
(3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况D=0,第⼀个类型;D=1,第⼆个类型;……D=m-1,第m 个类型。
第八章 虚拟变量
1 (中学学历) D2 0 (非中学学历)
1 (小学学历) D3 0 (非小学学历)
Company Logo
一、为什么引入虚拟变量
❖5.虚拟变量本卷须知
❖〔1〕 当定性变量含有m 个类别时,模型不能引入 m个虚拟变量。否那么在 虚拟变量间会发生完全多 重共线性,无法估量回归 参数。
❖ 例如:一年四季,取 m=4个虚拟变量。
❖3.如何将定性变量引入模型 ❖ 由于定性变量通常表示的是某种特征或属功
用否存在,如男性、女性,城市户口、非城市户口 等,所以量化方法可采用取值为0或1。 ❖ 可以用1表示该属性存在,0表示该属性不存 在(也可相反)。
Company Logo
一、为什么引入虚拟变量
❖4.虚拟变量 ❖ 上述这种取值为0或1的变量称作虚拟变量,
二、用虚拟变量测量截距变化
研讨,1982年第1季度至1988年第4季度全国按时 节市场用煤销售量,时间序列图如下
Y
5500 5000 4500 4000 3500 3000 2500
0
5
10 15 20 25 30
T
Company Logo
二、用虚拟变量测量截距变化
从上图看出,煤销售量随时节不同呈清楚的周 期性变化。给出三个虚拟变量,设:
0 5 10 15 20 25 30
T
Y
Company Logo
三、测量斜率变化
❖用虚拟变量还可以调查回归函数的斜率能否发作变
化,来剖析不同〝类型〞的不同斜率。
❖方法是在模型中参与定质变量与虚拟变量的乘积项:
❖ 设模型如下
Yi 0 1X i 2Di 3 ( X i Di ) ui
❖ 按β2、β3能否为零,回归函数可有如下四种方
第八章 虚拟变量回归
其中括号内这T-统计量,所有参数 均为显著的,拟合集优度R2=0.999 ,但DW值存在自相关,进行AR(1)
修正,重新估计得:
以上回归的模拟效果:
2500 2000 1500 40 20 0 -20 -40 1975 1980 1985 1990 Actual 1995 2000 Fitted 1000 500 0
有时我们所研究的变量之间 的变化趋势在某一时点上发生 了转折,如图8-3中所呈现的样 本散布点图,它表明变量Y与变 量X之间的变化关系在点X*处发 生了转折,一般来说,这样的 转折点是由于突发
Y
X X
*
0
图8.3
从图中可以算出,消费随时间 有规律地变化,为了模拟消费的 变化趋势,从而对其进行预测, 我们选择时间变量(T)为解释 变量,考虑到季节变动,引入虚 拟 变 量 , D1,D2,D3( 定 义 同 上)等。 由图可知,PCE随时间的变化 是二次曲线,设定模型为下式:
PCEt 0 4Tt 5 D1 t * T 6 D2 t * T 2 7 D3 t * T 8T ut
假设模型中仅有一个解释 变量X,线性概率模型可以表 示为:
Yi 0 1 Xi u i
由于Yi 只取两个值0与1, 设Yi 取1的概率为Pi ,则Yi 取0 的概率为(1-Pi ),于是,
E(Yi ) 1* Pi 0 * (1 Pi ) Pi
而
E(Yi ) 0 1Xi
Pi
1
0 1X i) (
作出该项选择与不作出该项选 择的概率之比的对数值增加一 个 1 。
三、概率单位模型(Probit)
第8章虚拟变量模型
1 农村居民 D2i = 0 城镇居民
则模型(1)为 Yi 0 1 X i 1D1 2 D2 ui (3) 则对任一家庭都有: , D1 + D2 = 1 D1 + D2 - 1 = 0 即产生完全共线,陷入了“虚拟变量陷阱”。 “虚拟变量陷阱”的实质是:完全多重共线性。
1 1 1 ( X, D) 1 1 1 X 11 X k1 X 12 X k 2 X 13 X k 3 X 14 X k 4 X 15 X k 5 X 16 X k 6 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 1 0 0 1 0 0 0
各自在住房消费支出 Yi上的差异,设 D1i = 1 为城镇; D1i = 0 为农村,则模型为
Yi = 0 + 1 X i + 1D1 + ui
的属性状态(
(2)
(模型有截距,“居民属性”定性变量只有两个相互排斥
m 2 ),故只设定一个虚拟变量。)
虚拟变量陷阱
若对两个相互排斥的属性 “居民属性” ,仍然 引入 m 2 个虚拟变量,则有
Y为香烟消费量;
1 其中:Di= 0 城市 农村 (比较的基础:农村)
那么: E Yi | Di = 1 = ( 0 + 1)
Yi ( 0 1) i Yi 0 i
E Yi | Di = 0 = 0
城市
农村
(2) 一个定性解释变量(两种属性)和一个 定量解释变量的情形
iixy130??????????iixy120??????????iixy10???????3??2??0??33一个定性解释变量四种属性和一个定量解释变量的情形01122331234110010iiiyxdydddxddd????????????????????????例如
计量经济学第8章
PPT文档演模板
计量经济学第8章
• 在EViews软件中,生成D2数据的EViews命令是GENR D2= @SEAS(2) ,D3、D4类似。以时间t为解释变量(1982年1季度取t = 1,EViews命令是 :GENR T= @TREND(1981:1))的煤销售量(yt)模型回归结果如表所 示。
关系时,为研究四个季度对利润的季节性影响,引入三个虚拟变量(设
第1季度为基础类型):
PPT文档演模板
计量经济学第8章
• 例 用虚拟变量处理季节数据模型 • 中国1982-1988年市场用煤销售量(yt)季节数据(《中国统计年鉴》 1987,1989)见表
PPT文档演模板
计量经济学第8章
•年与季 度
虚拟变量的引入
• 虚拟变量在模型中可以作自变量,也可以作因变量。 • 虚拟变量的引入方式
– 加法方式 – 乘法方式 – 一般方式
• 虚拟变量模型应用举例
PPT文档演模板
计量经济学第8章
•1、加法方式
1 •D = 0
反常情况 •Y 正常情况
Y = b0 + b1 X + b2 D + u
•反常 •正常
•3、一般方式
1 •D = 0
反常情况 •Y 正常情况
Y=b0+b01D+b1 X+ b11D X+u
•反常 •正常
反常情况:
Y=(b0+b01)+(b1+b11) X+u
•b01
正常情况:
Y = b0 + b1 自变量之间的关系既是相加关系
•又是相乘关系,这种引入虚拟变量方式为一般方
•1988.3
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
第一节 虚拟变量
回顾:前面各章讨论的变量都是可以直接用数字计 量的,即可以获得其实际观测值(如收入、支出、 产量物价水平等等)。这些变量称作数量变量。
然而,影响被解释变量的不仅有量的因素,还有质 的因素(如性别、民族、职业、季节、政策等等)
2
一、虚拟变量的概念
虚拟变量是用以反映质的属性的一个人工变量,取 值为 0 或 1,通常记为 D(Dummy Variable),又 可称之为属性变量、双值变量、类型变量、定性变 量、或二元型变量。
16
Yi
α0+α1 α0 Xi
17ห้องสมุดไป่ตู้
对模型 Yi=α0+α1Di+βXi+ ui 使用OLS法,可得:
yˆi ˆ0 ˆ1Di ˆi xi
对α1 进行 t 检验,若α1≠ 0 ,则说明城市居民与农 村居民的消费水平有明显差异。
18
假如还要考虑男女消费水平的差异,消费函数为:
Yi =α0+α1D1i+α2D2i+βXi+ui Yi 为消费水平,Xi 为家庭收入,D1i和D2i为虚拟变量。
第一组:20~35岁的居民 第二组:35~60岁的居民 用“1”表示第一年龄组;“0”表示第二年龄组,
就可以估计年龄对储蓄的影响。
5
二、虚拟变量的设置规则
1.两个属性的表示法 如性别有两个属性:用 Di 表示
1 Di 0
(男) (女)
即:两个属性引入一个变量即可!
6
2.多个属性的表示法
1 (城市) D1 0 (农村)
1 (男) D2 0 (女)
D1
城市男性
1
城市女性
1
农村男性
0
农村女性
0
D2 1 0 1 0
9
一般地,若有m个因素,而每个因素都只有两个 不同的属性类型,则引入m个虚拟变量。
思考:现有三个定性因素,有两个因素各有4个 不同的属性,一个因素有2个不同的属性,应设 多少个虚拟变量? (应设3+3+1=7个虚拟变量)
注意:虚拟变量D只能取0或1两个值,即属性之间 不能运算!
对基础类型或否定类型设 D=0 对比较类型或肯定类型设 D=1
3
说明
虚拟变量主要是用来代表质的因素,但有些情况下 也可以用来代表数量因素。
例如:在建立储蓄函数时,“年龄”是一个重要的 解释变量。虽然“年龄”是一个数量因素,但为了 方便也可以用虚拟变量表示。例如:可以把居民分 为两个年龄组:
乡居民消费水平的差异,消费函数可设为: Yi=α0+α1Di+βXi+ ui
Yi 为消费水平,Xi 为居民收入,Di为虚拟变量。
1 (城市) Di 0 (农村)
15
E( yi xi , Di 0) 0 xi
表示农村居民的消费水平
E( yi xi , Di 1) 0 1 xi
表示城市居民的消费水平 假设α1>0,可得到下图:
25
二、乘法类型(斜率变动模型) 以乘法形式引入虚拟变量,是在所设定的模型中,
将虚拟解释变量与其他解释变量相乘作为新的解 释变量,以达到调整斜率系数的目的。主要作用 在于: (1)比较两个回归模型; (2)分析因素间的交互影响; (3)提高模型的描述精度。
26
1、回归模型的比较
例如,研究改革开放前后储蓄、收入的总量关系, 分别设定模型如下:
假设学历有四个属性:博士、硕士、本科、本科以 下等,则:
1 (博士)
1 (硕士)
1 (本科)
D1 0
(其他) D2 0
(其他)
D3
0
(其他)
为什么四个属性只引入3个变量呢?
7
变量
属性
D1
D2
D3
博士
1
0
0
硕士
0
1
0
本科
0
0
1
本科以下
0
0
0
即:m个属性引入(m-1)个变量即可。
8
3.多个因素各两个属性的表示法 如需要同时表示城乡差别和性别差别
这就是虚拟变量陷阱问题!
23
克服虚拟变量陷阱的方法 改为引入虚拟变量:
1 ( 第 j 季,j 2, 3, 4) Dji 0 ( 其他季 )
即第一季度用D2i D3i D4i 0表示。
此时销售函数调整为:
Ci 0 2 D2i 3 D3i 4 D4i Pi i
24
引入虚拟变量的规则补充说明 对于具有m个属性的虚拟变量: 若模型中含有截距项,引入 m-1个虚拟变量; 若模型中不含有截距项,引入 m 个虚拟变量。
四、虚拟变量模型
在计量经济模型中,把包含有虚拟变量的模型称为 虚拟变量模型。
常用的有三种类型: (1)解释变量中只包含虚拟变量; (2)解释变量中既含有定量变量,又含有虚拟变
量; (3)被解释变量本身为虚拟变量。
12
第二节 虚拟解释变量的回归
一、加法类型(截距变动模型)
1、解释变量中只有虚拟变量 如:调查某地区性别与收入之间的关系,可以用
=1(第一季) =1(第二季) =1(第三季) =1(第四季) =0(其他季) =0(其他季) =0(其他季) =0(其他季) 如果引入4个虚拟变量会出现什么问题呢?
22
D1i D2i D3i D4i 1
可视为截距项的解释变 量,即α0= α0×1
所以引入4个虚拟变量出现了完全多重共线性的问 题! OLS法不能使用!
模型表示如下: Yi =α+βDi + ui
Yi代表收入,Di为虚拟变量:
1 Di 0
(男) (女)
13
代表女 性收入
代表男性与女性收
入之间的差额
OLS yˆ i ˆ ˆDi,对进行t检验,若 0,则说明收入与性别有 明显的关系。
14
2、解释变量中既有定量变量又有虚拟变量 如研究消费水平与居民收入的关系时,还要考虑城
10
三、虚拟变量的作用 1.可以描述和测量定性因素的影响 2.分离异常因素的影响
例如分析我国GDP的时间序列,必须考虑“文革” 因素对国民经济的破坏性影响,剔除不可比的“文 革”因素。 3.检验不同属性类型对因变量的作用 例如工资模型中的文化程度、季节对销售额的影响。 4.提高模型的精度
11
1 D1i 0
(城市) (农村)
1 D2i 0
(男性) (女性)
19
表示城市男性的消费水平
表示城市女性的消费水平
表示农村男性的消费水平
E( yi xi , D1i 0, D2i 0) 0 xi
表示农村女性的消费水平
20
Yi
α2
α1 α2
α0
Xi
21
虚拟变量陷阱 如某些商品的销售量有季节性,假设销售函数为: