庞浩 计量经济学8第八章 虚拟变量回归
计量经济学课后习题答案第八章_答案
第八章虚拟变量模型1. 回归模型中引入虚拟变量的作用是什么?答:在模型中引入虚拟变量,主要是为了寻找某(些)定性因素对解释变量的影响。
加法方式与乘法方式是最主要的引入方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
2. 虚拟变量有哪几种基本的引入方式? 它们各适用于什么情况?答:在模型中引入虚拟变量的主要方式有加法方式与乘法方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
3.什么是虚拟变量陷阱?答:根据虚拟变量的设置原则,一般情况下,如果定性变量有m个类别,则需在模型中引入m-1个变量。
如果引入了m个变量,就会导致模型解释变量出现完全的共线性问题,从而导致模型无法估计。
这种由于引入虚拟变量个数与类别个数相等导致的模型无法估计的问题,称为“虚拟变量陷阱”。
4.在一项对北京某大学学生月消费支出的研究中,认为学生的消费支出除受其家庭的每月收入水平外,还受在学校中是否得到奖学金,来自农村还是城市,是经济发达地区还是欠发达地区,以及性别等因素的影响。
试设定适当的模型,并导出如下情形下学生消费支出的平均水平:(1) 来自欠发达农村地区的女生,未得到奖学金;(2) 来自欠发达城市地区的男生,得到奖学金;(3) 来自发达地区的农村女生,得到奖学金;(4) 来自发达地区的城市男生,未得到奖学金。
解答: 记学生月消费支出为Y,其家庭月收入水平为X,则在不考虑其他因素的影响时,有如下基本回归模型:Y i=β0+β1X i+μi有奖学金1 来自城市无奖学金0 来自农村来自发达地区 1 男性0 来自欠发达地区0 女性Y i=β0+β1X i+α1D1i+α2D2i+α3D3i+α4D4i+μi由此回归模型,可得如下各种情形下学生的平均消费支出:(1) 来自欠发达农村地区的女生,未得到奖学金时的月消费支出:E(Y i|= X i, D1i=D2i=D3i=D4i=0)=β0+β1X i(2) 来自欠发达城市地区的男生,得到奖学金时的月消费支出:E(Y i|= X i, D1i=D4i=1,D2i=D3i=0)=(β0+α1+α4)+β1X i(3) 来自发达地区的农村女生,得到奖学金时的月消费支出:E(Y i |= X i , D 1i =D 3i =1,D 2i =D 4i =0)=(β0+α1+α3)+β1X i (4) 来自发达地区的城市男生,未得到奖学金时的月消费支出: E(Y i |= X i ,D 2i =D 3i =D 4i =1, D 1i =0)= (β0+α2+α3+α4)+β1X i5. 研究进口消费品的数量Y 与国民收入X 的模型关系时,由数据散点图显示1979年前后Y 对X 的回归关系明显不同,进口消费函数发生了结构性变化:基本消费部分下降了,而边际消费倾向变大了。
计量经济学庞皓第二版第八章练习题及参考答案
第八章练习题及参考解答8.1 Sen 和Srivastava (1971)在研究贫富国之间期望寿命的差异时,利用101个国家的数据,建立了如下的回归模型:2.409.39ln3.36((ln 7))i i i i Y X D X =-+--(4.37) (0.857) (2.42) R 2=0.752其中:X 是以美元计的人均收入;Y 是以年计的期望寿命;Sen 和Srivastava 认为人均收入的临界值为1097美元(ln10977=),若人均收入超过1097美元,则被认定为富国;若人均收入低于1097美元,被认定为贫穷国。
括号内的数值为对应参数估计值的t-值。
1)解释这些计算结果。
2)回归方程中引入()ln 7i i D X -的原因是什么?如何解释这个回归解释变量? 3)如何对贫穷国进行回归?又如何对富国进行回归? 4)从这个回归结果中可得到的一般结论是什么? 练习题8.1参考解答: 1. 结果解释依据给定的估计检验结果数据,对数人均收入对期望寿命在统计上并没有显著影响,截距和变量()ln 7i i D X -在统计上对期望寿命有显著影响;同时,()()2.40 3.3679.39 3.36ln ((ln 7)) 1 2.409.39ln 0 i i i i i i i X D X D Y X D ⎧-+⨯+---==⎨-+=⎩富国时穷国时 表明贫富国之间的期望寿命存在差异。
2. 回归方程中引入()ln 7i i D X -的原因是从截距和斜率两个方面考证收入因素对期望寿命的影响。
这个回归解释变量可解释为对期望寿命的影响存在截距差异和斜率差异的共同因素。
3. 对穷国进行回归时,回归模型为12ln 1097i i i i i i Y X Y X αα=+≤,其中,为美元时的寿命; 对富国进行回归时,回归模型为12ln 1097i i i i i i Y X Y X ββ=+>,其中,为美元时的寿命;4. 一般的结论为富国的期望寿命药高于穷国的期望寿命,并且随着收入的增加,在平均意义上,富国的期望寿命的增加变化趋势优于穷国,贫富国之间的期望寿命的确存在显著差异。
庞皓《计量经济学》笔记和课后习题详解(虚拟变量回归)【圣才出品】
1.用虚拟变量表示不同截距的回归——加法方式 以加法方式将虚拟变量引入模型,只会改变模型在不同情况下的截距,不会影响斜率。 按照变量的种类和数量进行分类,可以分成四种情况,具体如表 8-2 所示。
2 / 27
圣才电子书 十万种考研考证电子书、题库视频学习平台
2.用虚拟变量表示不同斜率的回归——乘法方式 以乘法形式引入虚拟解释变量,会改变模型的截距和斜率。用乘法方式引入虚拟变量的 作用是:①进行两个回归模型的比较,即结构变化检验;②进行因素间的交互影响分析;③ 使模型更加符合现实经济现象。按照不同的作用,可以将乘法方式分成三种,具体如表 8-3 所示。
表 8-3 以乘法方式引入虚拟变量的三种类型
2.虚拟变量的作用及模型的类型 (1)虚拟变量的作用 ①可以作为性别、所有制等属性因素的代表。 ②可以作为受教育程度、管理者素质等非精确计量的数量因素的代表。 ③可以作为战争、灾害、改革前后等偶然因素或政策因素的代表。 ④可以作为时间序列分析中季节(月份)的代表。 ⑤可以实现分段回归,研究斜率、截距的变动,或比较两个回归模型的结构差异等。 (2)虚拟变量模型的类型(见表 8-1)
考点三:虚拟被解释变量 ★★★★
1.线性概率模型(LPM) (1)线性概率模型含义 当被解释变量是虚拟变量,并且模型的函数形式为线性时,即 Yi=β1+β2Xi+ui,该模 型就是线性概率模型。 由于 E(Yi)=0·(1-pi)+1·pi=pi,其中 pi 表示 Yi=1 的概率,所以系数 β2 可解释 为:当其他条件不变时,X 每增加 1 单位,Y=1 的概率增加值。 (2)线性概率模型的估计 ①线性概率模型不能直接用普通最小二乘进行估计,因为存在如下问题: a.随机扰动项 ui 的非正态性。在线性概率模型中,ui 不再服从正态分布,但是对参数 的假设检验和区间估计要求随机扰动项 ui 服从正态分布。当对大样本进行估计时,OLS 估 计量的概率分布将会趋近于正态分布,估计值不会因为非正态性而产生很大的误差。
8第八章包含虚拟变量的回归
一、虚拟变量设置原则
1、模型中只有一个两分定性变量 2、模型中一个定性变量,该变量具有多种 分类 3、小结 4、模型中有多个定性变量 返回
1、模型中只有一个两分定性变量
例如性别定性变量,只有两种分类,引入 一个虚拟变量即可,设置虚拟变量D:
=0,男性 =1,女性
不可引入两个虚拟变量,否则引起多重共线性
方差分析模型在其他社会科学中使用较多
二、方差分析模型(ANOVA):特别的, 当回归中解释变量都是虚拟变量时,此类 模型称为方差分析模型。
Y=b0+b1 D1 +b 2D2+……
返回
三、协方差模型(ANCOVA)
解释变量有定性变量也有定量变量.
Y=b0+b1 X1 +b 2X2+b3 D
两个回归截距相同而斜率不同,性别对边际消
费倾向产生了影响
3、加法方式、乘法方式混合进入模 型
例题1:性别对食品开支的影响:可能同时 改变截距和斜率。为验证这一点,可使用 以下回归: Y= b0+b1 X1+ b2 D X1 + b3 D
例题2:关于储蓄率的研究
Y=A1+A2 X
Y:个人储蓄; X个人收入,回归得到的A2 为
男性的食品开支方程 Y^=1506.244+0.06X
两条样本回归线平行加法方式引入性别虚拟变量 意味着隐含一个假定:
男女的性别差异对边际消费倾向没有影响,为b1 。 即对斜率没有影响,仅对截距产生影响 返回
2、“ 乘法”方式
虚拟变量也会对斜率发生影响
Y=b0+(b1 +b2 D) X1
8第八章包含虚拟变量的回归
c1D1 +c2 D2+ c3 D3
引入二个虚拟变量
D1=1,大学;=0,其他 D2=1,中学;=0,其他
Y=b0+b1 X1 +
c1D1 +c2 D2
2、模型中一个定性变量,该变量 具有多种分类,p218
即多分定性变量 假定根据横截面数据,我们做个人旅游支 出Y对其收入X和学历的回归,学历这个定 性变量,可分为:
中学以下、中学、大学三个层次,
如何设置虚拟变量?
我们有如下选择
引入一个虚拟变量D 引入三个虚拟变量
D= 2,大学;=1,中学;=0,中学以下 回归方程为:Y=b0+b1 X1 +b2 D
这里有两个两分定性变量,肤色和种族 可引入两个虚拟变量
例-性别、肤色和工龄、学历(3种类型) 一起解释薪酬
性别、肤色分别引入2个虚拟变量,学历引入2
个虚拟变量
例题
P221 10-18:性别、种族对收入的影响
Y-小时工资,X-教育年限 D2-=1(女性);=0(男性) D3-=1(非白种人且非西班牙裔);=0(其 他) Y^=-0.26-2.36 D2-1.73 D3+0.80X 总结:每个定性变量所需引入的虚拟变量 比该变量类型数少一。 返回
对于方程10-18 ,其样本回归线
Y^=-0.26-2.36 D2-1.73 D3+0.80X,隐含假定
了不同性别下,种族变量对收入的影响是一样 的。同样的,不同种族下,性别变量对收入的 影响也是相同的。
计量经济学-庞皓-第二版-思考题-答案
第一章 绪论 思考题1.1答:计量经济学的产生源于对经济问题的定量研究,这是社会经济发展到一定阶段的客观需要。
计量经济学的发展是与现代科学技术成就结合在一起的,它反映了社会化大生产对各种经济因素和经济活动进行数量分析的客观要求。
经济学从定性研究向定量分析的发展,是经济学逐步向更加精密、更加科学发展的表现。
1.2答:理论计量经济学是以计量经济学理论与方法技术为研究内容,目的在于为应用计量经济学提供方法论。
所谓计量经济学理论与方法技术的研究,实质上是指研究如何运用、改造和发展数理统计方法,使之成为适合测定随机经济关系的特殊方法。
应用计量经济学是在一定的经济理论的指导下,以反映经济事实的统计数据为依据,用计量经济方法技术研究计量经济模型的实用化或探索实证经济规律、分析经济现象和预测经济行为以及对经济政策作定量评价。
1.3答:1、计量经济学与经济学的关系。
联系:计量经济学研究的主体—经济现象和经济关系的数量规律;计量经济学必须以经济学提供的理论原则和经济运行规律为依据;经济计量分析的结果:对经济理论确定的原则加以验证、充实、完善。
区别:经济理论重在定性分析,并不对经济关系提供数量上的具体度量;计量经济学对经济关系要作出定量的估计,对经济理论提出经验的内容。
2、计量经济学与经济统计学的关系。
联系:经济统计侧重于对社会经济现象的描述性计量;经济统计提供的数据是计量经济学据以估计参数、验证经济理论的基本依据;经济现象不能作实验,只能被动地观测客观经济现象变动的既成事实,只能依赖于经济统计数据。
区别:经济统计学主要用统计指标和统计分析方法对经济现象进行描述和计量;计量经济学主要利用数理统计方法对经济变量间的关系进行计量。
1.4答:解释变量是变动的原因,被解释变量是变动的结果。
被解释变量是模型要分析研究的对象。
解释变量是说明被解释变量变动主要原因的变量。
1.5一个完整的计量经济模型应包括哪些基本要素?你能举一个例子吗?答:一个完整的计量经济模型应包括三个基本要素:经济变量、参数和随机误差项。
计量经济学第八章 虚拟变量回归
第八章
虚拟变量回归
1
第八章 虚拟变量回归
本章主要讨论:
●虚拟变量
●虚拟解释变量的回归
2
本章的教学目标
(1)深刻理解定性因素在计量经济分析中的 背景和含义; (2)明确虚拟变量在建立和估计计量经济模 型中的意义和作用; (3)熟练掌握引入和应用虚拟变量的基本思 想和方法; (4)能够运用虚拟变量模型作相应的经济实 证分析方面的应用; (5)掌握Eviews软件中相关内容的操作方法。
这表明三个时期居民储蓄增加额的回归方程在统计 意义上确实是不相同的。1996年以前收入每增加1 亿元,居民储蓄存款的平均增加0.1445亿元;在 2000年以后,则为0.4133亿元,已发生了很大变化。
20
上述模型与城乡居民储蓄存款与国民总收入之间 的散布图是吻合的,与当时中国的实际经济运行 状况也是相符的。 需要指出的是,在上述建模过程中,主要是从教 学的目的出发运用虚拟变量法则,没有考虑通货 膨胀因素。而在实证分析中,储蓄函数还应当考
单位:亿元
城乡居民 人民币储 蓄存款增 额 (YY) 2121.8 2517.8 3444.1 6315.3 8143.5 8858.5
年 份
城乡居民 国民总收 人民币储 蓄存款年 入 (GNI) 底余额 (Y) 3624.1 4038.2 4517.8 4860.3 5301.8 5957.4 210.6 281 399.5 532.7 675.4 892.5
(1,0) 天气阴 如:(D1 ,D2)= (0,1) 天气雨 (0,0) 其 他
29
虚拟变量数量的设置规则
1.若定性因素具有 m 个 (m 2) 相互排斥属性(或 几个水平),当回归模型有截距项时,只能引入
计量经济学第八章关于虚拟变量的回归.
类的截距。
2
2:级差截距系数
教龄X
1
0
薪金与性别:估计结果
1,若是男性 Di 0,若是女性
ˆ 17.969 1.371X 3.334D Y i i i se : (0.192) (0.036) (0.155) t : (93.61) (38.45) (21.455) r 2 0.993
一、虚拟变量的性质
例:教授薪金与性别、教龄的关系
男教授平均薪金和女 教授平均薪金水平相 差2,但平均年薪对 教龄的变化率是一样 的
Yi=1+2Di+Xi+I (1) 1,若是男性 D 其中:Yi=教授的薪金, Xi=教龄, Di=性别 0,若是女性 i 女教授平均薪金:E(Yi | X i , Di 0) 1 X i 被赋予0值的 男教授平均薪金:E(Yi | X i , Di 1) (1 2) X i 类别是基底(基 准),1是基底 男教授
比较英国在第二次大战后重建时期和重建后时期的总 储蓄-收入关系是否发生变化。数据如表。 Yt 1 2 Dt 1 X t 2 ( Dt X t ) t
D=1,重建时期
级差截距:区分两 个时期的截距 级差斜率系数:区分 两个时期的斜率 =0,重建后时期
D=1 D=0
E(Yt | Dt 0, X t ) 1 1 X t E(Yt | Dt 1, X t ) (1 2 ) ( 1 2 ) X t
男教授平均薪金水平比 女教授显著高$3.334K (男:21.3,女:17.969)
1,若是女性 Di 0,若是男性
ˆ 21.303 1.371X 3.334D Y i i i se : (0.182) (0.036) (0.155) t : (117.2) (38.45) (21.455)
9第八章 虚拟变量回归模型
Logit 模型的估计
区分两类数据:
(1)个体水平数据
购房概率 p 0 0 1 1
收入 X(千美元) 6 8 10 12
如果
pi
0,
Zi
ln
0 1
pi
1,
Zi
ln
1 0
可见,Z 表达式无意义,无法用OLS,需用ML(最大似然法)
冰箱销售量(千台) FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269
耐用品支出(10亿美元) DUR 252.6 272.4 270.9 273.9 268.9 262.9 270.9 263.4 260.6 231.9 242.7 248.6 258.7 248.4 255.5 240.4 247.7 249.1 251.8
4 回归分析操作命令: equation eq.ls Frig c Dur D1 D2 D3
提问 根据回归分析结果,发现存在什么问题?如何修改回归模型?
8.4 虚拟被解释变量的回归模型
【例】 研究是否购买住房与收入水平的关系。
设是否购房为被解释变量,用 Y 表示;收入为解释变量, 用 X 表示。
1 变量分析:
将DUR作为解释变量;FRIG作为被解释变量; 引入3个季度虚拟变量D1,D2,D3。 (虚拟变量数 = 属性数 – 1 )
2 季度虚拟变量的赋值规则:
D1=
1 (第1季度) 0 (其他季度)
D3=
1 (第3季度) 0 (其他季度)
D2=
庞浩计量经济学课件第八章虚拟变量回归资料重点
初中、小学及以下)作为解释变量引入下面的
模型中。
Yi 1 1 X i ui
0, 其他
0, 其他
0, 其他
D2i 1, 初中 D3i 1, 高中 D4i 1, 大专及以上
Yi 1 1 X i 2 D2i 3 D3i 4 D4i ui
7
三、虚拟变量的作用
虚拟变量可以作为下列因素的代表: 属性因素 非精确计量的数量因素 偶然因素或政策因素 时间序列分析中的季节(或月份)因素 用于分段回归
Di 1, 表示男性
3
二、虚拟变量的设置规则
1.虚拟变量个数的设置规则 若定性因素有m个相互排斥的类型(或属性、水
平),则: 在有截距项的模型中,只能引入m-1个虚拟变
量,否则会陷入“虚拟变量陷阱”(即:出 现完全的多重共线性); 在无截距项的模型中,可以引入m个虚拟变量, 不会导致完全的多重共线性。
第八章 虚拟变量回归
第一节 第二节 第三节 第四节
虚拟变量 虚拟解释变量的回归 虚拟被解释变量 案例分析
1
第一节 虚拟变量
一、虚拟变量的基本概念 二、虚拟变量的设置规则 三、虚拟变量的作用
2
一、虚拟变量的基本概念
定量因素:指那些可直接测度的数值型因素。
定性因素:也称为属性因素,指不能直接测度的,说 明某种属性或状态存在与否的非数值型因素。
解释变量包含一个定量变量和一个分为两种类型 定性变量的回归
解释变量包含一个定量变量和一个两种以上类型 的定性变量的回归
解释变量包含一个定量变量和两个定性变量的回 归
10
解释变量只有一个分为两种相互排斥类型 的定性变量,而无定量变量的回归
假定文化程度、职业、性别等不变,研究农村居 民与城镇居民的年平均可支配收入是否有差异。
计量经济学第八章虚拟变量回归
Y D D D X i 0 1 1 2 2 3 3 4 i i
D1
D2
1 一季度
1 二季度
D3
1 三季度
2 0 其他
2 0 其他
2 0 其他
15
例:美国制造业利润-销售额模型分析
Y X D D D 0 1 i 2 2 i 3 3 i 3 4 i i
比如在研究居民消费函数的时候,考虑到城乡差距和收入差距, 消费函数可以表示为: Y b b X b D b D
i 0 1i 2 1 i 32 i
i
D1i
1 城镇居民 2 0 农村 居民 农村低收入家庭 农村高收入家庭 城市低收入家庭 城市高收入家庭
D2i
1 高收入家庭
2 0 低收入家庭
计参数是否能通过显著性检验,最终确定虚拟变量的具体引入 方式。
9
课本P125页例7中数据建立的我国城镇居民彩电消费模型
ˆ Y 57 . 6113 0 . 0118 X 31 . 8731 D 0 . 0088 D X i i i i i
t
Di
(9.03)
(8.32)
(-6.59)
从这一章开始引入定性变量作为自变量,从而使线性 回归模型作为一种及其灵活的工具,可以处理经验研究中
许多实际的问题
2
• 由于这些定性变量通常指某一性质或属性的出现或不出现,
比如男性或女性、大学学历或专科学历等,因此量化这些 变量的方法就是构造一个取值为0或1的人为变量,可以用 0表示某种属性不出现,1表示某种属性出现。 • 这种人为设定的变量就称作虚拟变量(Dummy Variable) 1 大学毕业
计量经济学庞浩-第三版-课件
在实际的经济分析中,这些定性因素有时具有不可忽 视的重要作用。例如,研究居民收入水平时,职业、 性别、文化程度、就业的地域等因素,通常是值得考 虑的影响因素。 因此,在计量经济学的建模中有必要将定量因素和定 性因素同时纳入回归模型之内。
5
本章要研究的主要问题是: 1.如何将作为解释变量的定性因素引入回归模型? 2.这些定性解释变量在回归模型中有何特殊的作用?
(2)解释变量分别为一个定性变量(两种属性) 和一个定量解释变量;
22
(3)解释变量分别为一个定性变量(两种以上属 性)和一个定量解释变量;
(4)解释变量分别为两个定性变量(各自分别是 两种属性)和一个定量解释变量;
思考:
四种加法方式引入虚拟变量会产生什么效应?
23
(1)一个两种属性定性解释变量而 无定量变量的情形
计量经济学
第八章 虚拟变量回归
1
引子:定性因素对房地产价格有显著影响吗
不断走高的房地产价格已经成为人们关注的重点。很 多研究认为,影响商品房价格的因素有多个方面。 有关研究表明1,影响商品房价格的因素可分为两类: 一类是比较容易量化的定量因素。例如:成本费用因 素、房地产供求因素、经济因素、人口因素等。 另一类则是不易量化的定性因素。例如:社会因素、 区域因素、个别因素、房地产投机因素、自然因素等。 这些因素的基本特征则是不易量化的定性因素。
38
(1)结构变化分析
结构变化的实质是检验所设定的模型在样本期内 是否为同一模型。显然,平行回归、共点回归、 不同的回归三个模型均不是同一模型。 平行回归模型的假定是斜率保持不变(加法类型, 包括方差分析); 共点回归模型的假定是截距保持不变(乘法类型, 又被称为协方差分析); 不同的回归的模型的假定是截距、斜率均为变动 的(加法、乘法类型的组合)。
庞浩计量经济学课件第八章 虚拟变量回归
二、虚拟变量的设置规则
1.虚拟变量个数的设置规则 若定性因素有m个相互排斥的类型(或属性、水 平),则: 在有截距项的模型中,只能引入m-1个虚拟变 量,否则会陷入“虚拟变量陷阱”(即:出 现完全的多重共线性); 在无截距项的模型中,可以引入m个虚拟变量, 不会导致完全的多重共线性。
4
例如:研究城乡居民的可支配收入对居民住房消费支 出的影响 C Y D u i 1 1 i 2 i i
21
分段线性回归
适合于社会经济现象会在解释变量达到某个临界值时 发生突变,考虑下述模型: Yt 1 1 X t 2 ( X t X * ) Dt ut 0, X t X * Dt * 1, X t X
当X t X *时, Yt 1 1 X t ut 当X t X 时, Yt 1 1 X t 2 ( X t X * ) ut
18
二、用虚拟变量表示不同斜率的回归—— 乘法类型
回归模型的比较——结构变化检验
分段线性回归
19
回归模型的比较——结构变化检验
研究改革开放前后(1950-2004),储蓄与收入的关系: Yi 1 2 Di 1 X i 2 ( Di X i ) ui
( 1950 1977 ) 0, 改革开放前 Di ( 1978 2004 ) 1, 改革开放后
Yi 1 2 Di 1 X i ui
0, 租房户 Di 1, 有房户
15
i 1 2 3 4 5 6 7 8 9 10
Y 1.0 1.3 0.7 0.8 0.5 2.4 0.3 3.2 2.8 0.0
X 20.0 24.0 12.0 16.0 11.0 32.0 10.0 40.0 32.0 7.0
第八章虚拟变量回归ppt课件
几个水平),当回归模型有截距项时,只能引入 m -1个虚拟变量; 2.当回归模型无截距项时,则可引入 m 个虚拟变 量;否则,就会陷入“虚拟变量陷阱”。(为什 么?)
12
一个例子(虚拟变量陷阱)
研究居民住房消费支出 Yi 和居民可支配收入 X i 之间的 数量关系。回归模型的设定为:Yi = 0 + 1Xi +ui (1)
则对任一家庭都有: D1 + D2 = 1 D1 + D2 - 1 = 0 ,
即产生完全共线,陷入了“虚拟变量陷阱”。
“虚拟变量陷阱”的实质是:完全多重共线性。
14
三、虚拟变量的作用
属性因素代表:性别,所有制 非精确计量的数量因素的代表:教育程
度,管理者素质,企业规模。 偶然因素或政策因素代表:战争、灾害、
30
加法方式引入虚拟变量的主要作用为: 1.在有定量解释变量的情形下,主要改变方程 截距; 2.在没有定量解释变量的情形下,主要用于方 差分析。
31
二、乘法类型
基本思想
以乘法方式引入虚拟变量时,是在所设立的模型中,将虚拟 解释变量与其它解释变量的乘积,作为新的解释变量出现在 模型中,以达到其调整设定模型斜率系数的目的。或者将模 型斜率系数表示为虚拟变量的函数,以达到相同的目的。
计量经济学
第八章 虚拟变量回归
1
引子:男女大学生消费真有差异吗?
在对在校学生的消费行为进行的调查中,发现在校 生的消费行为呈现多元化的结构。人际交往消费、 手机类消费、衣着类消费、化妆品类消费、电脑类 消费、旅游类消费占有较大的比例;而食品类消费、 学习用品类消费不突显。 显然,男女生在消费上存在差异。为了了解男、女 生的消费支出结构差异,应当如何建立模型?
第八章(虚拟变量回归)_图文
5.社会因素:包括社会治安、城市化水平、消费心理等;
6.行政(政策)因素:包括土地与住房制度、房地产价格政策等;
7.区域因素:包括所处地段的市政基础设施、交通状况等;
8.个别因素:包括朝向、结构、材料、功能设计、施工质量等;
9.房地产投机因素:投机者在房地产市场中的投机活动;
10.自然因素:包括自然环境、地质、地形、地势及气候等。
使用虚拟变量需注意的问题
v 虚拟变量陷阱:若定性变量有m个类别,则引入 m个虚拟变量将会产生完全多重共线性问题,避 免方法:
Ø 只引入(m-1)个虚拟变量 Ø 引入m个虚拟变量但去掉截距项
v 哪种方法更好:包含截距项更方便,可以很容易 地检验某个组与基准组之间是否存在显著差异以 及差异程度。
2、避免落入“ 虚拟变量陷阱”
•男职工本科以上学历的平均薪金:
1.解释变量只有一个分为两种类型的定性变量无 定量变量的回归
这种模型又称方差分析模型
其中:Y为公立学校教师工资,
D=0为农村学校;D=1为城镇学校
分析条件期望:
基础类型:
比较类型:
为差异截距系数,通过对系数 可检验
的 t 检验:
在其他因素不变的条件下,城乡教师的工资是否有显2著323
D=0 表示某种属性或状态不出现或不存在 5
虚拟变量的作用
● 作为属性因素的代表,如性别 ● 作为某些非精确计量的数量因素的代表,
如受教育程度(高中及以下、专科、本科及以上) ● 作为某些偶然因素或政策因素的代表,
如 伊拉克战争、“911事件”、四川汶川大地震 ● 时间序列分析中作为季节(月份)的代表 ● 分段回归——研究斜率、截距的变动 ● 比较两个回归模型的差异 ● 虚拟被解释变量模型:
第八章虚拟变量回归
能否把定性的因素也引入计量经济模型中呢? 怎样才能在模型中有
效地表示这些定性因素的作用呢?
第一节 虚拟变量
一、什么是虚拟变量
变量可分为:
数量变量
属性变量
只表明属性的不连续变量
可用数量表现的连续变量
属性变量:不能精确计量的说明某种属性或状态的定 性变量,如性别、民族、战争、政治事件 ◆本身是定性的二分类变量(非此即彼) ◆本来是连续变量也可转换为二分类变量(上线/不上线) 虚拟变量:人工构造的取值为0和1的作为属性变量代 表的变量称虚拟变量,一般常用D表示 D=0 表示某种属性或状态不出现或不存在 D=1 表示某种属性或状态出现或存在 2
i
大学毕业及以上
1
0
15
E(Yi X i , D 1) ( 0 1 ) X i
Xi
3、解释变量包含一个定量变量和一个两种以上类 型的定性变量的回归
类型:高中以下、中毕业、大学毕业及以上——三种类型
模型
Yi 0 1D1i 2 D2i X i ui
这里的 D1i 和 D2i 代表的是两个不同的定性变量
例如:Y为文化支出,X为收入
D1i 为城镇或农村,D2i是否高中以上
基础类型:
对比类型:
E(Yi X i , D1 0, D2 0) 0 1 X i E(Yi X i , D1 1, D2 0) ( 0 1 ) 1 X i E(Yi X i , D1 0, D2 1) ( 0 2 ) 1 X i
注意:
● u i 应服从基本假定 ●一个定性变量有三种类型,使用了两个虚拟变量, 和 D 代表的是同一个定性变量的两种不同类型 D2 1 ●两个差异截距系数 类型的差异
第八章 虚拟变量回归
Yi = α ( Yi = α
0
0
+ α 1)+ β X i + µ i
+ β X i + µi
城市 农村
意义: 显著,则表明在控制了工作时间这一因素后, 意义:若α1显著,则表明在控制了工作时间这一因素后,城市 居民的平均人均可支配收入比农村高α 居民的平均人均可支配收入比农村高 1元。如果影响收入的所 有其它因素均被控制, 有其它因素均被控制,则可以认为此时的收入差异是由户籍因 13 素引起。 素引起。
5
例如,比较收入时考察性别的作用。 例如,比较收入时考察性别的作用。当研究男性收入是否 高于女性时,是将女性作为比较的基础(参照物),故有 高于女性时,是将女性作为比较的基础(参照物),故有 ), 男性为“ 女性为“ 男性为“1”,女性为“0”。
1 D = 0 男 女
再如,在考察改革开放后国民收入的变化时,我们是将改 再如,在考察改革开放后国民收入的变化时, 革开放前的国民收入作为比较基准,因此虚拟变量应设为: 革开放前的国民收入作为比较基准,因此虚拟变量应设为:
4
虚拟变量设置规则 虚拟变量设置规则
虚拟变量的设置规则涉及三个方面: 虚拟变量的设置规则涉及三个方面 1.“0”和“1”选取原则 和 选取原则 2.属性因素与设置虚拟变量个数的关系 属性因素与设置虚拟变量个数的关系 3.虚拟变量在回归分析中的角色以及作用等方面的问题 虚拟变量在回归分析中的角色以及作用等方面的问题 虚拟变量取“ 或 的原则: 虚拟变量取“1”或“0”的原则 的原则 “0”代表基期(比较的基础,参照物); 代表基期(比较的基础,参照物); 代表基期 代表报告期( “1”代表报告期(被比较的效应)。 代表报告期 被比较的效应)。
计量经济学第八章答案(第二版_庞皓_科学出版社)
第八章答案8.1 Sen 和Srivastava (1971)在研究贫富国之间期望寿命的差异时,利用101个国家的数据,建立了如下的回归模型:2.409.39ln3.36((ln 7))i i i i Y X D X =-+--(4.37) (0.857) (2.42) R 2=0.752其中:X 是以美元计的人均收入;Y 是以年计的期望寿命;Sen 和Srivastava 认为人均收入的临界值为1097美元(ln10977=),若人均收入超过1097美元,则被认定为富国;若人均收入低于1097美元,被认定为贫穷国。
括号内的数值为对应参数估计值的t-值。
1)解释这些计算结果。
2)回归方程中引入()ln 7i i D X -的原因是什么?如何解释这个回归解释变量? 3)如何对贫穷国进行回归?又如何对富国进行回归? 4)从这个回归结果中可得到的一般结论是什么? 练习题8.1参考解答: 1. 结果解释依据给定的估计检验结果数据,对数人均收入对期望寿命在统计上并没有显著影响,截距和变量()ln 7i i D X -在统计上对期望寿命有显著影响;同时,()()2.40 3.3679.39 3.36ln ((ln 7)) 1 2.409.39ln 0 i i i i i i i X D X D Y X D ⎧-+⨯+---==⎨-+=⎩富国时穷国时 表明贫富国之间的期望寿命存在差异。
2. 回归方程中引入()ln 7i i D X -的原因是从截距和斜率两个方面考证收入因素对期望寿命的影响。
这个回归解释变量可解释为对期望寿命的影响存在截距差异和斜率差异的共同因素。
3. 对穷国进行回归时,回归模型为12ln 1097i i i i i i Y X Y X αα=+≤,其中,为美元时的寿命; 对富国进行回归时,回归模型为12ln 1097i i i i i i Y X Y X ββ=+>,其中,为美元时的寿命;4. 一般的结论为富国的期望寿命药高于穷国的期望寿命,并且随着收入的增加,在平均意义上,富国的期望寿命的增加变化趋势优于穷国,贫富国之间的期望寿命的确存在显著差异。
计量经济学:第八章虚拟变量回归
计量经济学:第⼋章虚拟变量回归第⼋章虚拟变量回归第⼀节虚拟变量的概念⼀、问题的提出计量经济学模型对变量的要求——可观测、可计量。
但在现实经济问题中,存在定性影响因素,⽐如1、属性(品质)因素的表达。
在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。
如收⼊在形成过程中,不同的性别所得到的收⼊是不⼀样的;在城乡、不同地区等收⼊存在差距;再⽐如,在我国,经济的发展⽔平对于不同的区域有不同的表现。
2、异常值现象。
当经济运⾏过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。
3、季节因素的影响。
有的经济现象存在明显的季节特征,如啤酒的消费。
那么,在建模过程中,季节变动这⼀因素怎样考虑?4、离散选择现象的描述。
如公共交通与私⼈交通的选择、商品购买与否的决策、求职者对职业的选择等。
第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。
称前⼀种情况为虚拟解释变量,后⼀种为虚拟被解释变量。
本章主要介绍虚拟解释变量的内容。
⼆、虚拟变量的定义1、定义。
设变量D 表⽰某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D 取值为0。
记为=不具有该属性具有某种属性01D2、虚拟变量引⼊的规则。
(1)在模型⾥存在截距项的条件下,如果⼀个属性存在m 个相互排斥类型(⾮此即彼),则在模型⾥引⼊m-1个虚拟变量。
否则,会出现完全的多重共线性。
但要注意,在模型⽆截距项的情况下,如果⼀个属性存在m 个类型,即便引⼊m 个变量,不会出现多重共线性问题。
(请思考为什么?)(2)虚拟变量取值为0,意味着所对应的类型是基础类型。
⽽虚拟变量取值为1,代表与基础类型相⽐较的类型,称为⽐较类型。
例如“有学历”D 为1,“⽆学历”D 为0,则“⽆学历”就是基础类型,“有学历”为⽐较类型。
(3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况D=0,第⼀个类型;D=1,第⼆个类型;……D=m-1,第m 个类型。
计量经济学(第二版) 庞皓 西南财经大学出版社 第八章
1
0.000000 2.660000 20.00000 0.000000 17 0.000000 2.750000 25.00000 0.000000
2
0.000000 2.890000 22.00000 0.000000 18 0.000000 2.830000 19.00000 0.000000
第八章练习题参考解答:
练习题
8.1 Sen 和 Srivastava(1971)在研究贫富国之间期望寿命的差异时,利用 101 个国家
的数据,建立了如下的回归模型:
⌢ Yi = −2.40 + 9.39 ln Xi − 3.36(Di (ln Xi − 7))
(4.37) (0.857)
(2.42)
X
2
=债券的资本化率,作为杠杆的测度(
=
长期债券的市值 ×100
总资本的市值
)
X3
=
利润率( =
税后收入 ×100 ) 总资产净值
X 4 = 利润率的标准差,测度利润率的变异性
X 5 = 总资产净值,测度规模
上述模型中 β 2 和 β 4 事先期望为负值,而 β3 和 β5 期望为正值(为什么)。
对于 LPM,Cappeleri 经过异方差和一阶自相关校正,得到以下结果:
5
1.000000 4.000000 21.00000 0.000000 21 0.000000 2.060000 22.00000 1.000000
6
0.000000 2.860000 17.00000 0.000000 22 1.000000 3.620000 28.00000 1.000000
3
0.000000 3.280000 24.00000 0.000000 19 0.000000 3.120000 23.00000 1.000000
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0, X t X * Dt * 1 , X X t
当X t X *时, Yt 1 1 X t ut 当X t X *时, Yt (1 2 X * ) ( 1 2 ) X t ut
23
说 明
1. 2 的显著性说明了在所设定的解释变量临界水 平X*处是否存在突变。 2.2段线性回归设置1个虚拟变量; k段线性回归设置k-1个虚拟变量。
21
分段线性回归
适合于社会经济现象会在解释变量达到某个临界值时 发生突变,考虑下述模型: Yt 1 1 X t 2 ( X t X * ) Dt ut
0, X t X * Dt * 1 , X X t
当X t X *时, Yt 1 1 X t ut 当X t X *时, Yt 1 1 X t 2 ( X t X * ) ut
8
第二节 虚拟解释变量的回归
在计量经济模型中,加入虚拟解释变量,有两种 基本类型:加法类型和乘法类型。 一、用虚拟变量表示不同截距的回归——加法类 型 二、用虚拟变量表示不同斜率的回归——乘法类 型
9
一、用虚拟变量表示不同截距的回归—— 加法类型
解释变量只有一个分为两种相互排斥类型的定性
变量,而无定量变量的回归 解释变量包含一个定量变量和一个分为两种类型 定性变量的回归 解释变量包含一个定量变量和一个两种以上类型 的定性变量的回归 解释变量包含一个定量变量和两个定性变量的回 归
Yi 1 1 X i ui 改革开放前:
改革开放后: Yi (1 2 ) ( 1 2 ) X i ui
20
以乘法方式引入虚拟变量做回归模型比较 的优点
用一个回归替代了多个回归,简化了分析过程;
可以方便地对模型结构的差异做各种假设检验;
合并了的回归增加了自由度,提高了参数估计 的精确性。
解释变量包含一个定量变量和一个分为两 种类型定性变量的回归
研究城乡居民的消费函数: Ci 1 2 Di 1 X i ui
农村居民的消费函数:
Ci 1 1 X i ui E (Ci | Di 0) 1 1 X i
0, 农村居民 Di 1, 城镇居民
第八章
第一节 第二节 第三节 第四节
虚拟变量回归
虚拟变量 虚拟解释变量的回归 虚拟被解释变量 案例分析
1
第一节 虚拟变量
一、虚拟变量的基本概念
二、虚拟变量的设置规则 三、虚拟变量的作用
2
一、虚拟变量的基本概念
定量因素:指那些可直接测度的数值型因素。 定性因素:也称为属性因素,指不能直接测度的,说 明某种属性或状态存在与否的非数值型因素。 虚拟变量:也称为属性变量、双值变量、类型变量、 定性变量、二元型变量等。指人工构造的取值为0和 1的作为属性因素代表的变量,一般用字母D或DUM来 表示。(D=0,表示某种属性或状态不出现或不存在; D=1,表示某种属性或状态出现或存在) 例如:wagei 1 1educi 2 Di ui 0, 表示女性 Di 3 1, 表示男性
25
本章小结
虚拟变量的概念 虚拟变量的设置规则 加法类型引入虚拟变量 乘法类型引入虚拟变量
26
二、虚拟变量的设置规则
1.虚拟变量个数的设置规则 若定性因素有m个相互排斥的类型(或属性、水 平),则: 在有截距项的模型中,只能引入m-1个虚拟变 量,否则会陷入“虚拟变量陷阱”(即:出 现完全的多重共线性); 在无截距项的模型中,可以引入m个虚拟变量, 不会导致完全的多重共线性。
4
例如:研究城乡居民的可支配收入对居民住房消费支 出的影响 C Y D u i 1 1 i 2 i i
18
二、用虚拟变量表示不同斜率的回归—— 乘法类型
回归模型的比较——结构变化检验
分段线性回归
19回归模ຫໍສະໝຸດ 的比较——结构变化检验研究改革开放前后(1950-2004),储蓄与收入的关系: Yi 1 2 Di 1 X i 2 ( Di X i ) ui
( 1950 1977) 0, 改革开放前 Di ( 1978 2004) 1, 改革开放后
0.0
1.0 2.0 0.4 0.7
6.0
18.0 20.0 12.0 14.0
0
0 1 0 0
7
8 9 10
0.3
3.2 2.8 0.0
10.0
40.0 32.0 7.0
0
1 1 0
17
18 19 20
1.5
1.6 0.6 0.6
15.0
16.0 15.0 14.0
1
1 0 0
16
4
3
Y
2
1
0 0 10 20 X
(1 2 X * ) ( 1 2 ) X t ut
22
案 例
某公司为了激励公司的销售人员,按其销售额的 一定比例计提奖励,但是销售额在某一目标水 平X*以下和以上时,计提奖励的比例不同。
Yt 1 1 X t 2 ( X t X * ) Dt ut
Yi 1 2 Di 1 X i ui
0, 租房户 Di 1, 有房户
15
i 1
Y 1.0
X 20.0
D 0
i 11
Y 0.3
X 9.0
D 0
2
3 4 5 6
1.3
0.7 0.8 0.5 2.4
24.0
12.0 16.0 11.0 32.0
0
0 0 0 1
12
13 14 15 16
24
3段分段线性回归举例
研究中国的货币流通量,从建国到现在历经了三 个时期: 从建国初期到1960年,增加速度比较快; 从1961年到1978年,由于处于经济困难和文化 革命时期,增加速度明显减缓; 从1978年改革开放往后,进入社会主义市场经 济时期,增加速度明显增加。 试建立中国的货币流通量的趋势模型。
例如:研究政府某项经济政策的施行与否对被解 释变量的影响
( 该项经济政策未施行 ) 0, 基础类型 Di ( 该项经济政策施行了 ) 1, 比较类型
6
练 习
将定性因素“学历”(分为:大专及以上、高中、 初中、小学及以下)作为解释变量引入下面的 模型中。 Yi 1 1 X i ui
0, 其他 D2 i 1, 初中 0, 其他 0, 其他 D4 i D3 i 1, 大专及以上 1, 高中
Yi 1 1 X i 2 D2i 3 D3i 4 D4i ui
7
三、虚拟变量的作用
虚拟变量可以作为下列因素的代表: 属性因素 非精确计量的数量因素 偶然因素或政策因素 时间序列分析中的季节(或月份)因素 用于分段回归
17
30
40
50
ˆ 0.3204 0.8273 D 0.0675 X Y i i i t ( 5.2) (16.9) (11.0) R 2 0.99
ˆ 0.3204 0.0675 X 租房户: Y i i
ˆ 0.5069 0.0675 X 有房户: Y i i
13
大专及以上:Yi (1 3 ) 1 X i ui
解释变量包含一个定量变量和两个定性变 量的回归
研究城乡居民卷烟需求量受居民可支配收入和性别的 影响: Yi 1 2 D2i 3 D3i 1 X i ui
0, 农村居民 D2 i 1, 城镇居民 0, 女性 D3 i 1, 男性
0, 表示农村居民 Di 1, 表示城镇居民
若引入两个虚拟变量,则:
Ci 1 1Yi 2 D2i 3 D3i ui
0, D2 i 1, 其他 城镇居民 0, D3 i 1, 其他 农村居民
5
2.虚拟变量0和1的选取原则
虚拟变量取“0”,通常代表基础类型; 虚拟变量取“1”,通常代表与基础类型相比较 的类型。
城镇居民的消费函数: Ci (1 2 ) 1 X i ui
E (Ci | Di 1) (1 2 ) 1 X i
12
解释变量包含一个定量变量和一个两种以 上类型的定性变量的回归
研究居民的年医疗保健费用支出受可支配收入和居民 受教育程度的影响(受教育程度可分为:高中以下、 高中、大专及以上三个级别):
农村女性: Yi 1 1 X i ui 农村男性: Yi (1 3 ) 1 X i ui 城镇女性: Yi (1 2 ) 1 X i ui
城镇男性: Yi (1 2 3 ) 1 X i ui
14
案例
随机调查美国旧金山地区20个家庭的储蓄情况, 拟建立年储蓄额对年收入的回归模型,通过样 本的散点图发现,这20个家庭中,有房户和租 房户的储蓄额有较明显的区别,故在模型中加 入一个定性变量,以区别有房户和租房户。
10
解释变量只有一个分为两种相互排斥类型 的定性变量,而无定量变量的回归
假定文化程度、职业、性别等不变,研究农村居 民与城镇居民的年平均可支配收入是否有差异。
Yi 1 1 Di ui
0, 农村居民 Di 1, 城镇居民
1 表示农村居民的年平均可支配收入;
1 表示城镇居民与农村居民年平均可支配收入的 差异。 城乡居民年均可支配收入之间是否有差距,可通 过的 Di 显著性判断。 11
Yi 1 2 D2i 3 D3i 1 X i ui
0, 其他 D2 i 1, 高中 0, 其他 D3 i 1, 大专及以上