第八章 包含虚拟变量的回归模型
第八章 单方程回归模型的几个专题
第八章 单方程回归模型的几个专题
8.1虚拟变量(dummy variable )
8.1.1 概念与用作
在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质等因素的影响。这些因素也应该包括在模型中。为此人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与数值变量一样在回归模型中得以应用。
构造的规则是当某种属性存在时,人工变量取值为1;当某种属性不存在时时,取值为0。在计量经济学中,我们把反映定性因素变化,取值为0或1的人工变量称为虚拟变量。习惯上用D 表示。如:
引入虚拟变量的作用主要有三个:1)可以描述定性因素的影响;2)能够正确反映经济变量的相互关系,提高模型的精度;3)便于处理异常数据。当样本资料中存在异常数据时,一般有三种处理方式。一是直接剔除;二是平滑掉;三是设置虚拟变量。
8.1.2 虚拟变量的设置 1、设置规则
1)一个因素多个属性:若定性因素有M 个不同的属性,或相互排斥的类型,在模型中则只能引入M-1个虚拟变量,否则会引起完全多重共线性。
2)多个因素多个属性:每个因素的引入方法均按上述原则。 2、引入方式:
1)加法方式(截距移动) 设有模型,
y t = β0 + β1 x t + β2D + u t ,
其中y t ,x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为,
y t =⎩⎨
⎧=+++=++1
)(012010D u x D u x t
t t t βββββ
第八章-虚拟变量回归
再如,在考察改革开放后国民收入的变化时,我们是将改 革开放前的国民收入作为比较基准,因此虚拟变量应设为:
1 改革开放以后 D= 0 改革开放以前
6
虚拟变量的设置规则
1.若定性因素有 m 2个相互排斥属性,则当回 归模型有截距项时,只能引入 m -1 个虚拟变量; 2.当回归模型无截距项时,则可引入 m 个虚拟变量; 否则,就会陷入“虚拟变量陷阱”。
14
一季度:E Yi | X1, D1 1, D2 D3 0 ( 0 1) X i 二季度:E Yi | X1, D2 1, D1 D3 0 ( 0 2 ) X i 三季度:E Yi | X1, D3 1, D1 D2 0 ( 0 3 ) X i 四季度:E Yi | X1, D1 D2 D3 0 0 X i
1 高中 D2 0 其它
1 博士 D5 0 其它
1 大 学 D3 0 其 它
1 小 学 D6 0 其 它
则总体回归模型:
w 0 1 X 2 D1 3 D2 4 D3 5 D4 6 D5 7 D6+u
24
的系数矩阵为: X 1, X , D1 , D2 , D3 , D4 , D5 , D6 n8
而列向量 D1 D2 D3 D4 D5 D6 1
8. 虚拟变量回归模型
5
(二)乘法模型 如果随着工龄增加,男性与女性的年薪差距发生变化, 则模型设为 Y B B X B D X u
i 1 2 i 3 i i i
E (Yi ) B1 B2 X i (男性)
E (Yi ) B1 ( B2 B3 ) X i (女性)
虚拟变量 只影响斜 率而不影 响截距的 模型为乘 法模型
R 2 0.905, R 2 0.898, F 128.75
截距项: 本科生的平均初职月薪,研究问题的基准类; D1的系数: 研究生与本科生平均初职月薪的差额; D2的系数: MBA毕业生与本科生平均初职月薪的差额。
10
引入的虚拟变量个数应该比研究的类别少一个,否则 就会造成完全多重共线,即通常说的虚拟变量陷阱。
E (Yi ) B1 B2 X i
E (Yi ) ( B1 B3 ) B2 X i
如果B3 <0 ? 说明存在性别歧视。
4
虚拟变量只影响截距不影响斜率——加法模型
E (Yi X i , Di 0) B1 B2 X i (男性)
E (Yi X i , Di 1) ( B1 B3 ) B2 X i (女性)
图 2 描绘了男 性年薪增加 较快的情况。
6
(三)混合模型 加法模型和乘法模型的结合:
Yi B1 B2 X i B3 Di X i B4 Di ui
带虚拟变量的回归模型
§5.5 含有虚拟变量的回归模型 1.带虚变量的回归预测
前述变量均是用某种意义明确的尺度加以定量的变数。 暂时性影响:经济行为受特定因素的影响,因而促使一期或数期变数与其他各期有明显的差异。
虚拟变量:用来表现暂时性影响的变量,或者说,表明某种“品质”或属性是否存在的的变量。
2.基本概念
(1)水平:当自变量以虚拟变量的形式出现时,虚拟变量的出现形式称为“水平”。 (2)反应:用
()k j i
,δ表示第i 个样本第j 个自变量取第k 个水平的反应:
()k j i ,δ=⎩
⎨
⎧否则个水平时个自变量取第
个样本第当第01k j i
(3)反应表:将各样本的资料排列得到的表格称为反应表。 (4)反应矩阵:把反应表中的反应()k j i
,δ写成矩阵形式,称为反应矩阵。记为
X=
(
()k j i
,δ)
。 3.基本方法
(1)建模原则:
如果一个属性变数有m 个类型,只引入m —1个虚拟变量。否则,会陷入所谓的虚拟变数陷阱之中,出现完全多重共线性的情况。
在解释采用虚拟变量的模型结果时,要弄清楚水平值是如何确定的。
指定取值为0的类型或组通常用来指明基础类型、控制类型、对比类型或被省略的类型。 附属于虚拟变量D 的系数
α1
称为不同的截距系数,它说明D 取值为1的那种类型的截距项
与基础类型的截距系数的数值差异有多大。
(2)建立数学模型:将虚拟变量视为普通变量,建立回归模型。 (3)对参数作出估计。 (4)进行预测。
(5)一般情况:指模型自变量中同时含有虚拟变量和普通变量。 4.应用实例
研究1958年第四季度到1971年第二季度期间英国的失业率和职务空缺率之间的关系。原始
spss第八章虚拟变量
9
虚拟变量模型
引入虚拟变量后,回归方程中同时含有一 般解释变量和虚拟变量,称这种结构的模 型为虚拟变量模型或斜方差分析模型。 在第8章(本章)中讨论虚拟自变量模型 在第14章(虚拟因变量)中讨论虚拟因变 量。虚拟变量作因变量又称抉择模型。
虚拟变量设置的原则
在模型中引入多个虚拟变量时,虚拟变量 的个数应按下列原则确定: 如果有 m 种互斥的属性类型,在模型中引 入 m-1 个虚拟变量 例如,性别有2个互斥的属性,引用2-1=1个 虚拟变量 再如,文化程度分小学、初中、高中、大 学、研究生5类,引用4个虚拟变量
13
模型中引入虚拟变量的必要性
现实经济生活错综复杂,往往要求人们按 照经济变量的质或量的不同,分别进行处 理。因此,回归模型中,往往有必要引入 虚拟变量,以表示这些质的区别。例如, 消费函数,对于平时与战时,萧条与繁荣, 乃至性别、教育程度、季节性等等,都会 因质的有不同表现出不同的差异。
6
虚拟变量的定义
10
模型中引入虚拟变量的作用
1、分离异常因素的影响,例如分析我国 GDP的时间序列,必须考虑“文革”因素 对国民经济的破坏性影响,剔除不可比 的“文革”因素。 2、检验不同属性类型对因变量的作用, 例如工资模型中的文化程度、季节对销 售额的影响。 3、提高模型的精度,相当与将不同属性 的样本合并,扩大了样本容量(增加了 12 误差自由度,从而降低了误差方差)。
虚拟变量回归模型:计量经济学
完善模型理论和方法
在模型理论和方法方面,未来研 究可以进一步完善虚拟变量回归 模型的理论基础和方法体系,提 高模型的解释力和预测能力。
加强跨学科合作和交流
虚拟变量回归模型作为计量经济学 的重要工具,未来研究可以加强与 其他学科的合作和交流,如统计学 、计算机科学、数据科学等,以促 进学科交叉融合和创新发展。
THANKS FOR WATCHING
感谢您的观看
05 虚拟变量回归模型在实证 研究中的应用
劳动经济学领域应用
工资差异研究
通过引入性别、教育水平等虚拟变量,分析不同群体间的工资差 异及其影响因素。
就业与失业问题研究
利用虚拟变量回归模型,探讨不同行业、地区及人口特征对就业 与失业的影响。
劳动力市场分割研究
通过构建虚拟变量,刻画劳动力市场的不同部门或群体,进而分 析市场分割对劳动力流动和工资水平的影响。
02
03
控制其他变量
模型中的虚拟变量通常具有直观 的解释性,使得分析结果易于理 解和解释。
虚拟变量回归模型可以同时包含 其他控制变量,以更全面地分析 影响因素。
缺点分析
假设限制
01
虚拟变量回归模型通常假设误差项满足独立同分布等假设,这
些假设在现实中可能不成立。
多重共线性
02
当分类变量具有多个水平时,引入的虚拟变量可能导致多重共
虚拟变量回归
虚拟变量回归
虚拟变量回归是指将一个分类变量转化为虚拟变量(也称为哑变量或指示变量),并将其作为解释变量在回归模型中使用。虚拟变量是一种二元变量,其中一个变量用1表示某个类别,另一个变量用0表示不属于该类别。例如,当一个分类变量有三个类别时,可以创建两个虚拟变量来表示这三个类别,分别是0-1变量A和0-1变量B,它们满足如下条件:
- 当分类变量属于A类时,变量A为1,变量B为0;
- 当分类变量属于B类时,变量A为0,变量B为1;
- 当分类变量属于C类时,变量A和变量B均为0。
在回归模型中使用虚拟变量可以使我们将分类变量的不同类别彼此对比,并推断它们对应的不同的回归系数,从而更好地解释和预测因变量。虚拟变量回归在经济学、社会学、医疗保健等领域中很常见,可以用来研究诸如性别、种族、政治党派、行业等分类变量对某一因变量的影响。
含虚拟自变量的回归分析
THANKS
某个虚拟自变量的系数不显著,则说明该自变量对因变量的影响不显著。
03
模型的诊断
通过残差分析、异方差性检验、多重共线性检验等方法,对模型进行诊
断。如果发现模型存在问题,则需要对模型进行改进。
模型优化与改进
变量的筛选
通过逐步回归、向前选择、向后剔除等方法,对自变量进行筛选。保留对因变量有显著影响的自变量,剔除对因变量 影响不显著的自变量。
参数估计方法
参数估计是通过样本数据对回归模型中的参 数进行估计的过程,常用的方法有最小二乘 法和最大似然法。最小二乘法是通过最小化 残差平方和来估计参数,而最大似然法是通
过最大化似然函数来估计参数。
回归方程的检验和诊断
回归方程的检验
回归方程的检验包括方程的显著性检验和变量的显著 性检验。方程的显著性检验用于判断整个回归方程是 否显著,常用的检验方法有F检验和似然比检验。变量 的显著性检验用于判断每个自变量是否对因变量有显 著影响,常用的检验方法有t检验和p值检验。
模型的调整
如果发现模型存在异方差性、多重共线性等问题,可以通过加权最小二乘法、岭回归、Lasso回归等方法对模型进行 调整。
模型的比较与选择
通过比较不同模型的拟合优度、预测精度等指标,选择最优的模型。同时,也可以结合专业知识和实践 经验,对模型进行进一步的优化和改进。
05 实证分析与应用举例
计量经济学第八章 虚拟变量
Yi 1D1i 2 D2i (D1i D2i ) X i i
• 则有: ( 1 2 ) Xi
E
(Yi
)
Biblioteka Baidu
( 1) Xi ( 2 ) Xi
Xi
男性 - 城镇 男性 - 农村 女性 - 城镇 女性 - 农村
中部 东部 西部
如果模型中包含不止一个定性变量,利用 虚拟变量还可以研究定性变量对因变量的
交互影响。如在消费模型中,同时考虑性
别(男,女)和来源(城镇,农村)两个 因素,构建虚拟变量如下:
1 男性 D1 0 女性
1 城镇 D2 0 农村
• 可以加法方式引进两个虚拟变量的交互乘 积项 D1D2,构建模型如下:
困难,而且没有截距项时怎样计算 R2 也没
有一个一致同意的方法,所以该方法很少人 使用(Jeffrey M. Wooldridge,2000)。
第二节 虚拟解释变量模型
采用虚拟变量可有效的衡量不同观测类别对 应回归参数的差异性,其中以加法方式引入 虚拟变量可以反映不同类别对应截距的不同 ,以乘法方式引入虚拟变量可以反映不同类 别对应斜率的不同。
Yi Di X i Di X i i
对于城镇居民和农村居民这两个类别,有总 体回归函数如下:
第八章 虚拟变量模型
E(Yi|Xi,D1i=1,D2i=0)=(β0+β2 )+β1Xi
女职工本科以上学历的平均薪金:
E(Yi|Xi,D1i=0,D2i=1)=(β0+β3 )+β1Xi
男职工本科以上学历的平均薪金:
E(Yi|Xi,D1i=1,D2i=1)=(β0+β2+β3 )+β1Xi
为描述虚拟变量交互作用对被解释变量的效应,在(8-9)式中以加法形式引入 两个虚拟解释变量的乘积,即
Yi=α0+α1D1i+α2D2i+α3(D1iD2i)+βXi +μi
(8-10)
(1)基础类型:不发展油菜籽生产,也不发展养蜂生产时农副产品生产平均总收益
E(Yi|Xi,D1=0,D2=0)= α0+βXi
虚拟解释变量D1i和D2i是以加法形式引入的,那么暗含着假定:
油菜籽生产和养蜂生产是分别独立地影响农副产品生产总收益。
但是,在发展油菜籽生产时,同时也发展养蜂生产,所取得的农副
产品生产总收益可能会高于不发展养蜂生产的情况。即在是否发展油菜
籽生产与养蜂生产的虚拟变量D1i和D2i之间,很可能存在着一定的交互 作用,且这种交互影响对被解释变量—农副产品生产总收益会有影响。
0
反常年份
Ct 0 1 X t 2 Dt X t t
(完整版)第八章 虚拟变量回归 答案
第八章 虚拟变量回归
一、判断题
1。虚拟变量只能作为解释变量.(F)
2。 引入虚拟变量后,用普通最小二乘法得到的估计量仍是无偏的。( T )
3.引入虚拟变量的个数与模型有无截距项无关.(F )
4。虚拟变量用来表示某些具有若干属性的变量.(T)
5。引入虚拟变量的个数与样本容量大小有关。(F )
二、单项选择题
1.设消费函数011t t t y a a D b x u =+++,其中虚拟变量10D ⎧=⎨
⎩
东中部西部,如果统计检验表明10a =成立,则东中部的消费函数与西部的消费函数是( D ).
A. 相互平行的 B 。 相互垂直的 C. 相互交叉的 D 。 相互重叠的
2.虚拟变量( A )
A 。主要来代表质的因素,但在有些情况下可以用来代表数量因素
B 。只能代表质的因素
C 。只能代表数量因素
D.只能代表季节影响因素
3。分段线性回归模型的几何图形是( D )
A 。 平行线 B. 垂直线 C 。 光滑曲线 D. 折线
4.如果一个回归模型中(包含截距项),对一个具有m 个特征的质的因素要引入虚拟变量数目为( B ).
A.m B 。m-1 C 。m —2 D.m+1
5.设某商品需求模型为01t t t y b b x u =++,其中Y 是商品的需求量,X 是商品的价格,为了考虑全年12个月份季节变动的影响,假设模型中引入了12个虚拟变量,则会产生的问题为( D )。
A .异方差性
B .序列相关
C .不完全的多重共线性
D .完全的多重共线性
6.设消费函数为i i i 33i 22i 11o i u bx D D D y +++++=αααα,其中y 为消费,x 为收入,虚拟变量
06_包含虚拟变量的回归模型
1 : 具备某一属性; D 0:不具备某一属性
取这样的 1 或 0 值的变量叫做虚拟变量( Dummy Variables) 。另外,还称为指示器变量
厦门大学经济学院
胡朝霞
(indicator variables),二进制变量(binary variables),定性变量(qualitative variables),分类变 量(categorical variables),二分变量(dichotomous variables)等。 例:
厦门大学经济学院
胡朝霞
虚拟变量显著性检验:t 检验显著表明虚拟变量被赋予 1 值的分类与基底类的差异是显著 的。 Example 6.1 如果方差分析模型中的因变量实际上还受其他的定量变量的影响,则原来的方差分析模型 存在模型的设定偏差。 Example 6.2 三、包含一个定量变量,一个虚拟变量的回归模型 在经济学的分析中,很少使用前面提到的方差分析模型, ,更多的是用到既有定量变量,又 有虚拟变量作为解释变量的回归模型,这样的回归模型称为协方差分析模型(ANCOVA) 。 例:分析大学教师的工资的主要影响因素。 设定以下回归模型:
1 : 男 D 0:女
;
1 : 大学毕业 D 0:非大学毕业
二、方差分析模型(ANOVA) 当模型中的解释变量只有虚拟变量时,称为方差分析模型(analysis of variance models) 。 例:分析大学毕业生和非大学毕业生的初职年薪是否存在差异。 假设设定以下回归模型:
第8章虚拟变量模型-精选
Y i 和居民可支配收入
X
之间的
i
数量关系。回归模型的设定为:Y i= 0 + 1 X i+ u i( 1 )
现在要考虑城镇居民和农村居民之间的差异,如何办?
为了对 “城镇居民”、“农村居民”进行区分,分析
各自在住房消费支出
Y
上的差异,设
i
D1i = 1
为城镇;
D1i = 0 为农村,则模型为 Y i = 0 + 1 X i + 1 D 1 + u i ( 2 )
(模型有截距,“居民属性”定性变量只有两个相互排斥
的属性状态( m 2 ),故只设定一个虚拟变量。)
虚拟变量陷阱
若对两个相互排斥的属性 “居民属性” ,仍然 引入 m 2 个虚拟变量,则有
1 城镇居民 D1i =0 农村居民
1 农村居民 D2i =0 城镇居民
则模型(1)为 Y i 0 1 X i 1 D 1 2 D 2 u i( 3 ) 则对任一家庭都有:D1+D2 =1 D1 +D2 -1=0 ,
1 Di 0
男 女
再如:Di
1 0
大学以上学历 大学以下学历
一般地,在虚拟变量的设置中:用1表示这种属 性或特征存在,用0表示这种属性或特征不存在。 或者说,设置虚拟变量时,将比较类型、肯定类型 取值为1;而将基础类型、否定类型取值为0。
第八章 虚拟变量回归
6
为了研究1978 2003 为了研究1978—2003年期间城乡居民储蓄存款随收入的变化 1978 2003年期间城乡居民储蓄存款随收入的变化 规律是否有变化,考证城乡居民储蓄存款、 规律是否有变化,考证城乡居民储蓄存款、国民总收入随时间 的变化情况,如下图所示: 的变化情况,如下图所示:
7
从上图中, 从上图中,尚无法得到居民的储蓄行为发生明显改变的详尽 信息。若取居民储蓄的增量(YY),并作时序图( ),并作时序图 信息。若取居民储蓄的增量(YY),并作时序图(见左下 图):
Y
■
β2
β1
X
X*
若统计检验表明,β2 显著不为零,则我国居 民的消费行为在1979年前后发生了明显改变。
4
第三节 案例分析
为了考察改革开放以来中国居民的储蓄存款与 收入的关系是否已发生变化,以城乡居民人民 币储蓄存款年底余额代表居民储蓄(Y),以 国民总收入GNI代表城乡居民收入,分析居民 收入对储蓄存款影响的数量关系,并建立相应 的计量经济学模型 。
主要公式表
Yt = α 1 + α 2 X t + α 3 D + u t 1 Di = 0
Yt = α1 + α 2 Dt + β1 X t + β 2 ( Dt X t ) + ui
Yi = α1 +α2 D2i +α3D3i +α4 (D2i D3i ) + β Xi + ui
第八章虚拟变量回归
3 是交互效应的截距差异系数,可以通过对 3 的显著性
的检验,判断是否存在交互效应
23
例如
Yi 0 1D1i 2 D2i 3 (D1i D2i ) X i ui
其中: Yi ——种油菜籽和养蜂的收入
X i ——投入资金
D1i ——代表是否种油菜籽的虚拟变量
选择性样本模型(Selective Samples Model)
截断(Truncation) 归并(Censored)
持续时间被解释变量模型(Model for Duration Data)
4
1、“截断”(truncation)问题
由于条件限制,样本不能随机抽取,即不能从全 部个体,而只能从一部分个体中随机抽取被解释 变量的样本观测值,而这部分个体的观测值都大 于或者小于某个确定值。 “掐头”或者“去 尾”。
D=0 表示某种属性或状态不出现或不存在
D=1 表示某种属性或状态出现或存在 2
虚拟变量的作用
● 作为属性因素的代表,如性别。 能够正确反应变量之间的关系,提高模型精度。
● 作为某些非精确计量的数量因素的代表, 如受教育程度(高中及以下、专科、本科及以上)
● 作为某些偶然因素或政策因素的代表,如 战争、“911事件”----即可以处理异常数据
能否把定性的因素也引入计量经济模型中呢? 怎样才能在模型中有 效地表示这些定性因素的作用呢?
第8章 虚拟变量模型
( 季 度 有 4种 特 性 ) 例 如 : 啤 酒 售 量 Y、 人 均 收 入 X 、 季 度 D; Y i 0 1 D1 2 D 2 3 D 3 X i i 1 其 中 : D1 0 1 D3 0 一季度 其 它 D2 1 0 二季度 其 它
• 下面我们将利用虚拟变量模型对这一现象进行实 证检验:
• 数据描述:我们利用的是上海股票市场上证指数 1997年1月1日到2004年12月31日的日收盘价数 据,共1926个观测值。收益率的计算我们采用的 是连续收益率法,计算公式如下 R t= lnP t-lnP t-1 • 我们建立如下的虚拟变量模型:
定性变量:表示某种特征的存在与否 基本思想: 直接在回归模型中加入定性因素存在诸多的 困难,是否可将这些定性因素进行量化,以达到 定性因素能与定量因素有着相同作用之目wenku.baidu.com。
量化方法
取值0或1
0:表示属 性不存在 1:表示 属性存在
在计量经济学中,我们把反映定性因素变化,取值 为0和1的人工变量称为虚拟变量(dummy variable)。
0≤E ( yi/xi) ≤1不被满足
1.2 Y 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 0 5 10 15 20 25 X 30
1, xi , pi 0,
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1, 中学教育 D2 = 0,其他
1 , 大学教育 D3 = 0 ,其他
21
9.3 虚拟变量有多种分类的情况
se=(0.2694) (0.0147) (0.1708) (0.3956) t=(-4.7738) (11.7280) (-0.3982) (1.1304) p值=(0.000) (0.000) (0.3490) (0.1412) R2=0.9965
25
9.4 包含一个定量变量:两个定 性变量的回归模型
14
9.2 包含一个定量变量:一个两分 定性变量的回归模型
(2)虚拟变量的赋值是任意的。 (3)赋值为0的一类常成为基准类 (base)、对比类(benchmark)、控 制类(control)、遗漏类(omitted category) (4)虚拟D的系数成为差别截距系数, 表明取值为1的类的截距值与基准类截距 值的差距。
29
例9.6 政党对竞选活动的资助
30
例9.6 政党对竞选活动的资助
Leabharlann Baidu31
9.6 回归模型中的结构稳定性:虚拟 变量法
将(7-55)和(7-56)式重新记为: 1970—1981年: Yt =A1+A2Xt+u1t (9-23) 1982—1995年: Yt =B1+B2Xt+u2t (9-24) 式中,Y—储蓄 X—收入 u—随机误差项
15
例9.3 实例一则:教师年薪与教龄、 性别的关系。
16
例9.3 实例一则:教师年薪与教龄、 性别的关系。
为了说明ANCOVA模型,我们来看表9-2 中数据。 根据数据,得到的OLS回归结果如下:
Yi =17.969+1.3707Xi +3.3336Di se=(0.1919) (0.0356) (0.1554) t=(93.6120) (38.454) (21.455) R2=0.9933 (9-10)
33
9.6 回归模型中的结构稳定性:虚拟 变量法(186)
34
9.6 回归模型中的结构稳定性:虚 拟变量法
在储蓄—收入一例中,如何知道储蓄和收入之间的关 系是上述哪种情况呢?虚拟变量技术能够解决这个问 题。我们来看下面的回归: Yt =C1 +C2Dt +C3Xt +C4(DtXt)+ut 其中 Y—个人储蓄 X—个人可支配收入
白种男教师平均年薪:
E(Yi|Xi, D2=1,D3=1)=(B1+B2+ B3)+B4Xi (9-22)
27
9.5 模型的推广
可以将模型推广到包含多个定量变量 和多个定性变量的情形。
28
例9.6 政党对竞选活动的资助
Wilhite和Theilmann在研究1982年政党对 国会选举的资质中,得到如下回归结果, 见表9-4。在这个回归方程中,应变量是 PARTY$(政党对当地候选人的资 助),$GAP,VGAP和PU是三个定量变量, OPEN,DEMOCRAT 和COMM是三个定性 变量,每一个定性变量分为两类。
在表7-6的基础上,我们增加了虚拟变量,见 表9-5,根据模型(9-25),利用表9-5提供的 数据得到下面的回归结果:
ˆ Yt = 1.02 + 152.48Dt + 0.0803Xt − 0.0655(Dt Xt )K(9 − 28) se=(20.16) (33.08) (0.0145) (0.0159) t=(0.05) (4.61) (5.54) (-4.10) p值 =(0.960) (0.0000)* (0.0000)* (0.0000)*
R2 =0.866 F=54.78 =0.822 *表示值很小。 R2
38
例9.7 1970—1995,美国储蓄— 收入关系
39
例9.7 1970—1995,美国储蓄— 收入关系
40
例9.7 1970—1995,美国储蓄— 收入关系
利用(9-26)和(9-27),可推导出两 个时期的储蓄函数: 平均储蓄函数:1970-1981年 ˆ Yt = 1 .02 + 0 .0803 X t K ( 9 − 29 ) 平均储蓄函数:1982-1995年 ˆ Yt = (1.02 + 152.48) + (0.0803 − 0.0655)X t K(9 − 30) = 153 .5 + 0.0148 X t K (9 − 30 )
32
9.6 回归模型中的结构稳定性:虚拟 变量法
回归方程(9-23)和(9-24)有四种可 能的结果:(参见图9-4) (1)A1=B1,A2=B2;称为一致回归。 (2)A1<>B1,A2=B2;称为平行回归。 (3)A1=B1,A2 <> B2;称为并发回归。 (4)A1 <> B1,A2 <> B2;称为相异回归。
虚拟变量的技术可以推广到解释变量中有不 止一个定性变量的情形。如:在模型(9-6) 中引入肤色变量,可将(9-6)重写为:
Yi=B1+B2D2i+B3D3i+B4Xi+ui (9-18) 式中,Yi—年薪 Xi—教龄 D2i=
1, 男教师 0,女教师
D3i=
1,白种 0,非白种
26
17
例9.3 实例一则:教师年薪与教龄、 性别的关系。
根据(9-10)的回归结果,可以推导出男女 教师的平均年薪函数: 女教师平均年薪: ˆ Yi = 17 .969 + 1.3707 X i K (9 − 11a ) 男教师平均年薪: ˆ Yi = (17 .969 + 3 . 3336 ) + 1 .3707 X i = 21 .3026 + 1 .3707 X i K (9 − 11 b ) 图9-2描绘了上述回归结果。
13
9.2 包含一个定量变量:一个两分 定性变量的回归模型
若设定两个虚拟变量,则模型(9-6)可写为:
Yi = B1 + B2X1i + B3D1i + B4D2i + Ui K(9 − 9)
1, 男教师 D1i = 0,女教师
1, 女教师 D 2i = 0,男教师
显然: D1=(1-D2)或D2=(1-D1) 也即D1 、D2完全共线性。此时无法得到参数的唯 一估计值,陷入虚拟变量陷阱。
2
9.1 虚拟变量的性质
虚拟变量(dummy variable): 定性变量。一般取值为0,1。用符号D表示。 方差分析模型(ANOVA): 解释变量仅是虚拟变量的模型。 协方差模型(ANCOVA): 回归模型中的解释变量有些是定量的,有 些是定性的。
3
9.1 虚拟变量的性质
我们来看下面的一个例子: Yi=B1+B2Di+ui (9-1)
9.4 包含一个定量变量:两个定 性变量的回归模型
假定E(ui)=0,则: 非白种女教师平均年薪:
E(Yi|Xi, D2=0,D3=0)=B1+B4Xi (9-19)
非白种男教师平均年薪:
E(Yi|Xi, D2=1,D3=0)=(B1+B2)+B4Xi (9-20)
白种女教师平均年薪:
E(Yi|Xi, D2=0,D3=1)=(B1+B3)+B4Xi (9-21)
图9-2 描绘了这两种不同的情况。(为了说 明的方便,假定B1>0).
11
9.2 包含一个定量变量:一个两分 定性变量的回归模型
12
9.2 包含一个定量变量:一个两分 定性变量的回归模型
虚拟变量的一些性质: (1)一个虚拟变量足可以区分两个不同 的种类。 一般的规则是:如果一个定性的变 量有m类,则要引入(m-1)个虚拟变 量。
例9.2 工作权利对工会会员的影响
回归结果如下:
ˆ Y i = 26 . 68 − 10 . 51 D i K ( 9 − 5 )
se=(1.00) (1.58) r2=0.4970 t=(26.68) (6.65) p值=(0.000) (0.000) 其中,Y—工会成员占工人的比例(1980) 1, 制定工人工作权利法的 州 D= 0,未制定工人工作权利 法的州
其中, Y=初职年薪 1 , 大学毕业 D i = 0 ,其他 假定随机扰动项满足古典线性回归模型的基本假定, 根据模型(9-1)得到:
4
9.1 虚拟变量的性质
非大学毕业生的初职年薪的期望为:
E ( Y i | D i = 0 ) = B1 + B 2 ( 0 ) = B1 K ( 9 − 2 )
1, 1982 ~ 1995观测值 Di = 0,1970 ~ 1981观测值
(9-25)
35
9.6 回归模型中的结构稳定性:虚 拟变量法
Yt =C1 +C2Dt +C3Xt +C4(DtXt)+ut (9-25)
为了明确(9-25)回归方程的意义,假 定E(ui)=0,得到:
E(Yt|Dt=0,Xt)=C1+C4Xt E(Yt|Dt=1,Xt)=(C1+C2)+(C3+C4)Xt (9-26) (9-27)
22
9.3 虚拟变量有多种分类的情况
23
例9.5 假设一例(旅游支出与收入和 教育的关系)
24
例9.5 假设一例(旅游支出与收入 和教育的关系)
为了解释模型(9-13),我们来看表93给出的数据。根据这些假设的数据得 到下面的回归结果:
ˆ Yi = −1.2860+ 0.1722Xi − 0.0680D2i + 0.4472D3i K(9 −17)
7
例9.2 工作权利对工会会员的 影响
为了研究工作权利法的效果(该法使工 会的劳资谈判合同合法化),Brennan等 人建立了工会会员(属于工会的工人占 所有工人的百分比)对工作权利法 (1980年)的函数模型。这项研究包括 了50个州,其中19个州制定了工作权利, 31个州允许有工会会员制度。
8
第九章 包含虚拟变量的回归模型
9.1 虚拟变量的性质 9.2 包含一个定量变量:一个两分定性变 量的回归模型 9.3 虚拟变量有多种分类的情况 9.4 包含一个定量变量:两个定性变量的 回归模型
1
第九章 包含虚拟变量的回归模型
9.5 9.6 法 9.7 9.8 模型的推广 回归模型中的结构稳定性:虚拟变量 虚拟变量在季节分析中的应用 小结
18
例9.4 不同规模报酬对产出的影响
19
9.3 虚拟变量有多种分类的情况
假定根据横截面数据,我们想要做个人 假期旅游的年支出对其收入与受教育水 平的回归。 假定教育水平有如下几等:未达到中学 水平,中学水平,大学水平。我们引入 两个虚拟变量来表示三种不同的教育水 平。
20
9.3 虚拟变量有多种分类的情况
式(9-26)和(9-27)分别是萧条前和萧条后的 (平均)储蓄函数。
36
9.6 回归模型中的结构稳定性:虚 拟变量法
Yt =C1 +C2Dt +C3Xt +C4(DtXt)+ut (9-25)
在式(9-25)中,C2是差别截距。 C4是差别斜率。
37
例9.7 1970—1995,美国储蓄— 收入关系
9
9.2 包含一个定量变量:一个两分定性 变量的回归模型
一个ANCOVA模型: Yi=B1+B2Di+B3Xi+ui (9-6) 其中,Yi—大学教师的年薪
1, 男教师 Di= 0,女教师
10
Xi—教龄
9.2 包含一个定量变量:一个两分定 性变量的回归模型
对模型(9-6)的解释如下: 假定E(ui)=0,则 女教师平均年薪: E(Yi|Xi, Di=0)=B1+B3Xi 男教师平均年薪: E(Yi|Xi, Di=1)=(B1+B2)+B3Xi
大学毕业生的初职年薪的期望为:
E(Yi | Di = 1) = B1 + B2 (1) = B1 + B2 K(9 − 3)
用OLS法很容易检验零假设:大学教育没有 任何益处(既B2=0),并可根据t检验值判定 b2是否统计显著。
5
例9.1 大学毕业生和非大学毕业生 的初职年薪
6
例9.1 大学毕业生和非大学毕业生 的初职年薪
假定E(u)=0,从(9-13)的回归结果可得: 未达到中学水平的平均旅游支出: E(Yi|D2=0,D3=0,Xi)=B1+B4Xi (9-14) 中学水平的平均旅游支出: E(Yi|D2=1,D3=0,Xi)=(B1+B2)+B4Xi (9-15) 大学毕业的平均旅游支出: E(Yi|D2=0,D3=1,Xi)=(B1+B3)+B4Xi (9-16) 图9-3描绘了上述三条回归直线(根据例9.5中的数据)