第八章 虚拟变量回归
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Yi = α ( Yi = α
0
0
+ α 1)+ β X i + µ i
+ β X i + µi
城市 农村
意义: 显著,则表明在控制了工作时间这一因素后, 意义:若α1显著,则表明在控制了工作时间这一因素后,城市 居民的平均人均可支配收入比农村高α 居民的平均人均可支配收入比农村高 1元。如果影响收入的所 有其它因素均被控制, 有其它因素均被控制,则可以认为此时的收入差异是由户籍因 13 素引起。 素引起。
5
例如,比较收入时考察性别的作用。 例如,比较收入时考察性别的作用。当研究男性收入是否 高于女性时,是将女性作为比较的基础(参照物),故有 高于女性时,是将女性作为比较的基础(参照物),故有 ), 男性为“ 女性为“ 男性为“1”,女性为“0”。
1 D = 0 男 女
再如,在考察改革开放后国民收入的变化时,我们是将改 再如,在考察改革开放后国民收入的变化时, 革开放前的国民收入作为比较基准,因此虚拟变量应设为: 革开放前的国民收入作为比较基准,因此虚拟变量应设为:
4
虚拟变量设置规则 虚拟变量设置规则
虚拟变量的设置规则涉及三个方面: 虚拟变量的设置规则涉及三个方面 1.“0”和“1”选取原则 和 选取原则 2.属性因素与设置虚拟变量个数的关系 属性因素与设置虚拟变量个数的关系 3.虚拟变量在回归分析中的角色以及作用等方面的问题 虚拟变量在回归分析中的角色以及作用等方面的问题 虚拟变量取“ 或 的原则: 虚拟变量取“1”或“0”的原则 的原则 “0”代表基期(比较的基础,参照物); 代表基期(比较的基础,参照物); 代表基期 代表报告期( “1”代表报告期(被比较的效应)。 代表报告期 被比较的效应)。
模型形式: 模型形式:
Yi = f ( X t , D t , D t X t )
例,同样研究消费支出 Y 、收入 X 、年份状况 D间的影 响关系。 响关系。 Yt = α 0 + β1 X t + α1Dt + β 2 ( Dt X t ) + µt
1 反常年份 其中: Y − 消费支出;X − 收入; Dt = 0 正常年份 反常年份 E (Yt | X t , Dt = 1) = (α 0 + α1 ) + ( β1 + β 2 ) X t 正常年份 E (Yt | X t , Dt = 0 ) = α 0 + β1 X t 在正常年份基础上比较,截距和斜率系数都改变。
计量经济学
第八章 虚拟变量回归
1
第八章 虚拟变量回归
本章主要讨论: 本章主要讨论:
●为什么引入虚拟变量 ●用虚拟解释测量截距变动 ●用虚拟解释测量斜率变动 ●分段回归
2
一、为什么引入虚拟变量
定量因素:指可直接测度的数值型因素。 定量因素:指可直接测度的数值型因素。 定性因素:也称属性因素。是不能直接测度的、 定性因素:也称属性因素。是不能直接测度的、说明某种 属性存在与否的非数值型因素。 属性存在与否的非数值型因素。 在计量分析中,有时因变量不仅受到定量因素的影响,还 在计量分析中,有时因变量不仅受到定量因素的影响, 会受到一些定性因素的影响,如性别、国籍、民族、 会受到一些定性因素的影响,如性别、国籍、民族、自 然灾害和政治体制等。 然灾害和政治体制等。 问题:我们如何把这些定性因素纳入计量分析模型? 问题:我们如何把这些定性因素纳入计量分析模型?
意义: 显著, 意义:若α1显著,表明城市居民的平均人均可支配收入比农村 但这种差异可能是由其它因素引起的, 高α1元。但这种差异可能是由其它因素引起的,并不一定是由 户籍差异引起。 户籍差异引起。
12
模型形式 Yi = f(Di,X i )+ µi
(2) 一个两属性定性解释变量和一个定量 解释变量
而列向量 D1 + D2 + D3 + D4 + D5 + D6 = 1
故模型必然存在完全的多重共线性关系, 故模型必然存在完全的多重共线性关系,这种情况称之为 多重共线性陷阱
9
第二节 虚拟解释变量的回归
本节基本内容: 本节基本内容:
●用虚拟变量测量截距变动
●用虚拟变量测量斜率变动 ●分段线性回归
可能的情形: 可能的情形
(1)截距不变; )截距不变; (2)截距和斜率均发生变化; )截距和斜率均发生变化;
分析手段:仍然是条件期望。 分析手段:仍然是条件期望。
18
(1)截距不变
模型形式: 模型形式:
Yt = f ( X t , Dt X t ) + ut
例:研究消费支出 Y 受收入 X 、年份状况 D 的影响 Yt = α + β1Xt + β2(Dt Xt ) + µt
2
7
一个例子(虚拟变量陷阱) 一个例子(虚拟变量陷阱)
研究工资收入与学历之间的关系: 研究工资收入与学历之间的关系:
若总体回归模型为: 若总体回归模型为: w = β 0 + β 1 x + u 其中x表示工作年限
若学历定义为6个层次,即小学、初中、高中、大学、研 若学历定义为 个层次,即小学、初中、高中、大学、 个层次 究生、博士,则我们应该在回归模型中加入5个虚拟变量 个虚拟变量: 究生、博士,则我们应该在回归模型中加入 个虚拟变量:
1 初中 1 高中 1 大学 1 博士 1 研究生 D1 = D2 = D5 = D3 = D = 0 其它 0 其它 0 其它 4 0 其它 0 其它
则总体回归模型为: 则总体回归模型为: w = β 0 + β 1 X + β 2 D1 + β 3 D2 + β 4 D3 + β 5 D4 + β 6 D5 + u
1 大学 D3 = 0 其它
1 小学 D6 = 0 其它
则总体回归模型: 则总体回归模型:
w = β 0 + β 1 X + β 2 D1 + β 3 D2 + β 4 D3 + β 5 D4 + β 6 D5 + β 7 D6+u
的系数矩阵为: 的系数矩阵为: X = (1, X , D1 , D2 , D3 , D4 , D5 , D6 )n×8
1 反常年份 其中:Y −消费支出;X −收入; Dt = 0 正常年份 反常年份 E(Yt | Xt , Dt =1) = α + (β1 + β2) Xt 正常年份 E(Yt | Xt , Dt = 0) = α + β1Xt 在正常年份的基础上进行比较,(只有斜率系数发生改变)。
19
(2)截距和斜率均发生变化
= 0) = α0 + β X i
该模型反映的是:在控制了收入因素之后, 该模型反映的是:在控制了收入因素之后,季节和户籍因素是 否会显著影响啤酒的销售量。 显著异于零, 否会显著影响啤酒的销售量。若α1 、α2显著异于零,说明夏季 啤酒销售量显著高于冬季, 啤酒销售量显著高于冬季,且城市居民的啤酒消费显著高于农 村居民
例如:Yi = α 0 + α1 Di + β X i + பைடு நூலகம்i 1 城市 其中: Y-人均可支配收入;X-工作时间; Di = 0 农村
E (Yi | X i , Di = 1 ) = α 0 + α 1) β X i ( + E (Yi | X i , Di = 0 ) = α 0) β X i ( +
(3)一个定性解释变量(两种以上属性) 一个定性解释变量(两种以上属性) 和一个定量解释变量
模型形式 Yi = f ( X i,1, 2, ) + µi D D ... (如:民族有56种特性;季度有4种特性) 例如: 啤酒售量Y 、人均收入X 、季度D ; Yi = α 0 + α1D1 + α 2 D2 + α 3 D3 + β X i + µi 1 一季度 1 其中: D1 = D2 = 其 它 0 0 1 三季度 D3 = 其 它 0 二季度 其 它
思考: 的含义是什么? 思考: β 2 ~ β 6的含义是什么?
8
若我们引入了6个虚拟变量: 若我们引入了 个虚拟变量: 个虚拟变量
1 初中 D1 = 0 其它
1 研 究 生 D4 = 0 其它
1 高 中 D2 = 0 其它
1 博 士 D5 = 0 其它
17
二、用虚拟变量测量斜率变动
基本思想
引入虚拟变量测量斜率变动,是在所设立的模型中, 引入虚拟变量测量斜率变动,是在所设立的模型中,将虚 拟解释变量与其它解释变量的乘积, 拟解释变量与其它解释变量的乘积,作为新的解释变量出 现在模型中,以达到其调整设定模型斜率系数的目的。 现在模型中,以达到其调整设定模型斜率系数的目的。
1 改革开放以后 D= 0 改革开放以前
6
虚拟变量的设置规则
1.若定性因素有 m ≥ 个相互排斥属性,则当回 若定性因素有 个相互排斥属性, 归模型有截距项时, 个虚拟变量; 归模型有截距项时,只能引入 m-1 个虚拟变量; 2.当回归模型无截距项时,则可引入 m个虚拟变量; 当回归模型无截距项时, 个虚拟变量; 当回归模型无截距项时 否则,就会陷入“虚拟变量陷阱” 否则,就会陷入“虚拟变量陷阱”。
夏季、农村居民
E (Yi | X i , D1 = 1 , D 2 = 0 ) = α 0 + α 1)+ β X i (
冬季、城市居民 E (Yi | X i , D1 = 0, D 2 = 1 ) = (α 0 + α 2 )+ β X i
冬季、农村居民 E (Y i | X i , D 1 = 0 , D 2
11
(1)一个两属性定性解释变量而无定 量变量
这种模型又称为方差分析模型。如:Yi = α0 + α1Di + µi
其中:Yi为人均年可支配收入 1 Di= 0 城市 农村 (比较的基础:农村)
那么: E (Yi | Di = 1) = α 0 + α1) ( E (Yi | Di = 0 ) = α 0
( 基准:四季度)
该模型反映的是:在控制了收入因素之后, 该模型反映的是:在控制了收入因素之后,季节因素是否会显 著影响啤酒的销售量。 著影响啤酒的销售量。
15
(4)两个定性解释变量(均为两种属性) 两个定性解释变量(均为两种属性) 和一个定量解释变量
16
夏 、 市 民 季 城 居
E (Y i | X i , D 1 = 1, D 2 = 1 ) = α 0 + α 1 + α 2)+ β X i (
10
一、用虚拟变量测量截距变动
引入虚拟变量测量截距变动时时, 引入虚拟变量测量截距变动时时,主要考虑的问题是定性 因素的属性和引入虚拟变量的个数。 因素的属性和引入虚拟变量的个数。 分为四种情形讨论: 分为四种情形讨论: (1)解释变量只有一个定性变量而无定量变量,而且定性 )解释变量只有一个定性变量而无定量变量, 变量为两种相互排斥的属性; 变量为两种相互排斥的属性; (2)解释变量分别为一个定性变量(两种属性)和一个定 )解释变量分别为一个定性变量(两种属性) 量解释变量; 量解释变量; (3)解释变量分别为一个定性变量(两种以上属性)和一 )解释变量分别为一个定性变量(两种以上属性) 个定量解释变量; 个定量解释变量; (4)解释变量分别为两个定性变量(各自分别是两种属性) )解释变量分别为两个定性变量(各自分别是两种属性) 和一个定量解释变量; 和一个定量解释变量;
3
基本思想:将这些定性因素进行量化 基本思想:
由于定性变量通常表示某种属性是否存在,如是否男性、 由于定性变量通常表示某种属性是否存在,如是否男性、 是否经济特区、是否有色人和等。因此若该属性存在, 是否经济特区、是否有色人和等。因此若该属性存在, 我们就将变量赋值为1,否则赋值为0, 我们就将变量赋值为 ,否则赋值为 ,从而将定性因素 定量化。 定量化。 计量经济学中,将取值为 和 的人工变量称为 的人工变量称为虚拟变量 计量经济学中,将取值为0和1的人工变量称为虚拟变量 表示。 (DUMMY)或哑元变量。通常用字母 或DUM表示。 ) 哑元变量。通常用字母D或 表示
14
一季度:E(Yi | X1, D =1, D2 = D3 = 0) = α0 +α1) β Xi ( + 1 二季度:E(Yi | X1, D2 =1, D = D3 = 0) = (α0 +α2) + β Xi 1 四季度:E(Yi | X1, D = D2 = D3 = 0) = α0 + β Xi 1 三季度:E(Yi | X1, D3 =1, D = D2 = 0) = (α0 +α3) + β Xi 1