4-2虚拟变量回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(1)结构变化分析
问题:
1.本例中,平行、共点回归、不同的回归三模型 的经济学背景解释是什么? 2.如何进行结构变化判断? 3.是否可对(2)、(3)分别进行 OLS 估计?为什么? 4.若分别对(2)、(3)进行 OLS 估计应注意什么?
不同截距、斜率的组合图形
重合回归:截距斜率均相同
平行回归:截距不同斜率相同
共点回归:截距相同斜率不同
交叉(不同)回归:截距斜率均不同
三、虚拟解释变量综合应用

所谓综合应用是指将引入虚拟解释变量的加法方
式、乘法方式进行综合使用。

基本分析方式仍然是条件期望分析。
(1)结构变化分析; (2)交互效应分析; (3)分段回归分析
回归方程的解释

当案例在两个分类变量都等于0时,即文化 程度为文盲,居住地在农村时,此种情况 称为参照类(其他情况将于此进行比较), 其回归方程为:

表明所有参照类妇女年龄每上升1岁,其曾 生子女数的平均变化量为0.068个。
回归方程的解释
当文化程度为小学,居住地为农村时:


表明,对于相同年龄和居住地而言,小学 文化程度妇女比文盲妇女曾生子女数多出 b2个部分,即少生1.13个子女。
回归方程的解释

当教育程度为文盲、居住地为城市时,
•表明,对于相同年龄和文化程度而言,城 市妇女比农村妇女曾生子女数多出b6个部 分,即少生0.49个子女。
回归方程的解释


总之,该回归方程表示:
参照类妇女曾生子女数对年龄的回归直线的截 据为1.41,年龄每上升1岁,参照类妇女的平 均曾生子女数上升0.068个。 城市妇女比农村妇女的平均曾生子女数少0.49 个。 小学、初中、高中和大学文化程度妇女的平均 曾生子女数分别比文盲妇女少1.13、1.31、 1.58、1.57个(在年龄和居住地相同时)。

(1)结构变化分析
例:比较改革开放前、后我国居民(平均)“储 蓄—收入”总量关系是否发生了变化?
模型的设定形式为 :
Yt 1 2 Dt 1 X t 2 ( Dt X t ) ut 1 改革开放后 D 0 改革开放前
1
其中 : Yt 为储蓄总额,X t 为收入总额。
哑变量的建立


原变量编码值
文化程度=1(文盲) 文化程度=2(小学) 文化程度=3(初中) 文化程度=4(高中)
哑变量赋值的操作
所有EDU=0 EDU2=1,其他EDU=0 EDU3=1,其他EDU=0 EDU4=1,其他EDU=0
文化程度=5(大学)
地区=1(城市) 地区=2(农村)
(2)截距和斜率均发生变化
模型形式:
Yi f X t , Dt , Dt X t 0 1D, 1 2 D
例,同样研究消费支出 Y 、收入 X 、年份状况 D间的影 响关系。 Yt 0 1 X t 1Dt 2 ( Dt X t ) t
Yt 0 X t ut 1D Yt 1 X t ut 2 X t D
原模型: Yi = + βX i + ui 加法方式引入 乘法方式引入
= 0 + 1D = 1 + 2 D
•实质:加法方式引入虚拟变量改变的是截距; 乘法方式引入虚拟变量改变的是斜率。

乘法引入方式:
(1)截距不变; (2)截距和斜率均发生变化;

分析手段:仍然是条件期望。
(1)截距不变的情形
•模型形式:
Yt = f X t , Dt X t ut , 1 2 D
•例:研究消费支出 Y 受收入 X 、年份状况 D 的影响
Yt 1 X t 2 ( Dt X t ) t 1 反常年份 其中: Y 消费支出;X 收入; Dt 0 正常年份 反常年份 E Yt | X t , Dt 1 ( 1 2 ) X t 正常年份 E Yt | X t , Dt 0 1 X t 在正常年份的基础上进行比较,(只有斜率系数发生改变)。
a. Predi ctors: (Constant), AREA, ED3, 年 龄 , ED2, ED4, ED5
ANOVAb Model 1 Sum of Squares 18.586 .851 19.438 df 6 9 15 Mean Square 3.098 .095 F 32.759 Sig . .000a
回归分析
虚拟解释变量的回归
回归分析的类型



因变量与自变量都是定量变量的回归分 析——即我们常做的回归分析 因变量是定量变量,自变量中有定性变 量的回归分析—即含有虚拟变量的回归 分析 因变量是定性变量的回归分析— Logistic回归分析
自变量中有定性变量的回归
在社会经济研究中,有许多定性变量,比 如地区、民族、性别、文化程度、职业和 居住地等。 可以应用它们的信息进行线性回归。 但是,必须先将定性变量转换为哑变量 (也称虚拟变量),然后再将它们引入方 程,所得的回归结果才有明确的解释意义。
EDU5=1,其他EDU=0
AREA=1 AREA=0
建立回归方程

SPSS回归结果:
SPSS输出结果
Model Summary Model 1 R .978a R Sq uare .956 Adjusted R Sq uare .927 Std. Error of the Estimate .30751


虚拟变量是定序变量

可以把该定序级变量当作刻度变量(定距或定
比数据 ),前提是在定序变量的各个等级上的
区间跨度大致是相同的(例如Likert量表);

可以把该定序变量当作定类变量,前提是在定
序变量的各个等级上的区间跨度相差很大。
虚拟变量是定序变量
收入
(千元)
0~2
1
2~4
2
4~6
3
6~8
4
8~10
Model 1
(Constant) 年 龄 ED2 ED3 ED4 ED5 AREA
t 2.066 5.183 -3.820 -3.723 -4.127 -4.240 -2.989
Sig . .069 .001 .004 .005 .003 .002 .015
a. Dependent Variable: 生 子 女 数
1 反常年份 其中: Y 消费支出;X 收入; Dt 0 正常年份 反常年份 E Yt | X t , Dt 1 0 1 ( 1 2 ) X t 正常年份 E Yt | X t , Dt 0 1 X t
在正常年份基础上比较,截距和斜率系数都改变,为什么?
哑变量的建立




对于具有k类的定性变量来说,当回归模型有截 距项时,设哑变量时,我们只设k-1个哑变量。 当回归模型无截距项时,则可引入k个虚拟变量; 否则,就会陷入“虚拟变量陷阱 例: 分析某地区妇女的年龄、文化程度、及居住 地状况对其曾生子女数的影响。 定量变量: 年龄

定性变量:文化程度、地区
(1)结构变化分析
回归方程:
改革开放后 E Yt | X t , D 1 (1 2)( 1 2)X t 改革开放前 E Yt | X t , D 0 1 1 X t
2
(3)
显然,只要 2 、 2 不同时为零,上述模型就能刻画 改革开放前后我国居民储蓄收入模型结构是否发生 变化。
D1 1, 若X2 a D1 0, 若X2 a
D2 1, 若X2 b D2 0, 若X2 b
D1 0且D2 0, 若X2 c
有两个以上水平的虚拟自变量
Y 1 D1D1 D2D2
X2从c变为a的边际贡献
k X k
即从所有虚拟变量为0的状态, 变为该虚拟变量为1时的边际贡献
Reg ression Residual Total
a. Predictors: (Constant), AREA, ED3, 年 龄 , ED2, ED4, ED5 b. Dependent Variable: 生 子 女 数
SPSS输出结果
Coefficientsa Unstandardized Coefficients B Std. Error 1.409 .682 .068 .013 -1.127 .295 -1.309 .352 -1.576 .382 -1.569 .370 -.486 .162 Standardized Coefficients Beta .569 -.399 -.514 -.558 -.616 -.220
一、加法类型

以加法方式引入虚拟变量时,主要考虑的问题是定性因 素的属性和引入虚拟变量的个数。通长可以分为:

(1)解释变量只有一个定性变量(两种属性)而无定量变量; (2)解释变量分别为一个定性变量(两种属性)和一个定量解
释变量;

(3)解释变量分别为一个定性变量(两种以上属性)和一个定 量解释变量; (4)解释变量分别为两个定性变量(各自分别是两种属性)和 一个定量解释变量;
5
10~12
6
12以上
7
等级
可以当来自百度文库刻度变量做回归分析
收入
(千元)
0~1 1
1~3 2
3~6 6~10 10~12 12~16 16以上 3 4 5 6 7
等级
不适宜当作刻度变量做回归分析
二、乘法类型

基本思想
以乘法方式引入虚拟变量时,是在所设立的模型中,将虚拟 解释变量与其它解释变量的乘积,作为新的解释变量出现在 模型中,以达到其调整设定模型斜率系数的目的。或者将模 型斜率系数表示为虚拟变量的函数,以达到相同的目的。
a. Predictors: (Constant), 获 MBA, 年 龄
回归系数的显著性检验
a Coefficients
Model 1
(Constant) 年龄 获 MBA
Unstandardized Coefficients B Std. Error 2.165 4.791 .427 .103 4.911 2.188
数据文件:

CH9公司CEO年收入年龄MBA虚拟.sav
获MBA是个虚拟变量
Y 0 D获MBA 2年龄
1,获得 获MBA 0,没获得
操作过程与不含有虚拟变量 的线性回归完全相同
回归方程的拟合优度检验
Model Summary Model 1 R .789a R Sq uare .622 Adjusted R Sq uare .564 Std. Error of the Estimate 4.33560
Standardized Coefficients Beta .710 .383
t .452 4.158 2.244
Sig. .659 .001 .043
a. Dependent Variable: 万 元
有两个以上水平的虚拟自变量


若虚拟变量具有k个水平,则需要设置k-1 个二值虚拟变量; 例如,如果X2取值是a,b,c三种激励方案, 则虚拟变量设置为:
主要讨论
(1)结构变化分析

结构变化的实质是检验所设定的模型在样本期内 是否为同一模型。显然,平行回归、共点回归、 不同的回归三个模型均不是同一模型。 平行回归模型的假定是斜率保持不变(加法类型, 包括方差分析);


共点回归模型的假定是截距保持不变(乘法类型, 又被称为协方差分析);
不同的回归的模型的假定是截距、斜率均为变动 的(加法、乘法类型的组合)。

只有两个水平的虚拟自变量

虚拟变量的取值为0,1
1 男 x 0 女
Y 1 2 X 2
是二值 名义变量
k X k
1 x2 0
2
虚拟变量X2从0变为1时,在其他自变量不变的情况下 X2对Y的边际贡献。
线性回归中的虚拟变量的处理


只有两个水平的虚拟自变量



虚拟自变量 (dummy variable)

也叫“哑变量”,是指测度级别为名义 和序次层级的自变量。

虚拟自变量可有不同的水平

只有两个水平的虚拟自变量

比如,性别(男,女) 文化程度(小学及以下,中学,大学等)

有两个以上水平的虚拟自变量

回归分析中引入虚拟变量的方式
加法方式和乘法方式两种:即
相关文档
最新文档