第4章 自变量中含有定性变量的回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 本章总结
第4章 自变量中含有定性变量的回归分析
• 4.1 只有一个虚拟变量的回归
• 4.2 含有多个虚拟变量的回归
• 4.3 分段回归
第4章 自变量中含有定性变量的回归分析
• 在社会经济研究中,由许多定性变量,比如地区、民族、 性别、文化程度、职业和居住地等。 • 可以应用它们的信息进行线性回归。 • 但是,必须现将定性变量转换为虚拟变量( (dummy variable)也称哑变量或定性变量),然后再将它们引入 方程,所得的回归结果才有明确的解释意义。 • 只取0和1两个值的变量称为虚拟变量。 • 对于具有k类的定性变量来说,设虚拟变量时,我们只 设k-1个虚拟变量。
Model 1 (Constant) X1 X2
ANOVAb Model 1 Sum of Squares 9000923 1475077 1.0E+07 df 2 7 9 Mean Square 4500461.300 210725.343 F 21.357 Sig. .001a
Regression Residual Total
Sum of Squares 18.586 .851 19.438
a. Predic to rs: (Constant), AREA, ED3, 年 龄 , ED2, ED4, ED5 b. Dep endent Variable: 生 子女 数
Coefficientsa Unstandardized Coefficients B Std. Error 1.409 .682 .068 .013 -1.127 .295 -1.309 .352 -1.576 .382 -1.569 .370 -.486 .162 Standardized Coefficients Beta .569 -.399 -.514 -.558 -.616 -.220
Standardized Coefficients Beta .931 .604
t 1.993 6.195 4.020
Sig. .087 .000 .005
引进虚拟变量时,回归方程可写为: E(y) =0+ 1x1+ 2x2 • • 女( x2=0):E(y|女性) =0 +1x1 男(x2=1):E(y|男性) =(0 + 2 ) +1x1
1. 2.
回归模型中使用虚拟自变量时,称为虚拟自变量的回归 当虚拟自变量只有两个水平时,可在回归中引入一个虚 拟变量 – 比如,性别(男,女)
3.
一般而言,如果定性自变量有 k个水平/类别,需要在回 归中模型中引进k-1个虚拟变量,如果引入k个虚拟变量 将会产生完全多重共线性问题(称为虚拟变量陷阱)
a. Predi c t o rs: (Cons t a nt), AREA, ED3, 年 龄 , ED2, ED4, ED5
ANOVAb df 6 9 15 Mean Square 3.098 .095 F 32.759 Sig . .000a
Model 1
Reg ression Residual Total
数值变量作为虚拟变量引入:有些变量虽然是数量变量,即可以获得 实际观测值,但在某些特定情况下把它选取为虚拟变量则是方便的, 以虚变量引入计量经济学模型更加合理。
譬如年龄因素虽然可以用数字计量,但如果将年龄作为资料分组的特 征,则可将年龄选作虚拟变量。
例如:家庭教育经费支出不仅取决于其收入,而且与年龄因素有关。
• • 男(x=0):E(y) =0—男学生考试成绩的期望值 女(x=1):E(y) =0+ 1—女学生考试成绩的期望值
• •
注意:当指定虚拟变量0,1时
0 总是代表与虚拟变量值 0所对应的那个分类变量水平的
平均值
1 总是代表与虚拟变量值 1所对应的那个分类变量水平的
平均值与虚拟变量值 0所对应的那个分类变量水平的平均 值的差值,即
• 线性回归模型的基本假定
• 误差为独立正态分布的随机变量,其均值为零且方差相 等
(1)误差项的数学期望为0,表明估计的回归方程中不存在系统性 误差(Systematic Error); (2)各误差项的方差相等; (3)各误差项之间的协方差为0;
以上三项基本假定一般又称为Gauss-Markov高斯-马尔柯夫条件。
D1= 1 0 高中 其它 D2= 1 大学及其以上
0
其它
模型可设定如下:Yi 0 1 X i 2 D1i 3 D2i i
在 E(i ) =0的初始假定下,容易得到高中以下、高中、大学及其以上 教育水平个人平均保健支出的函数:
高中以下:
高中:
E(Yi|Xi,D1i=0,D2i=0)=β0+β1Xi E(Yi|Xi,D1i=1,D2i=0)=(β0+β2 )+β1Xi E(Yi|Xi,D1i=0,D2i=1)=(β0+β3 )+β1Xi
4.1 只含一个虚拟自变量的回归
【例】为研究 考试成绩与性 别之间的关系 ,从某大学商 学院随机抽取 男女学生各8 名,得到他们 的市场营销学 课程的考试成 绩如右表
100
考试成绩
75
50
散点图
25
男 女
性别
考试成绩与性别的散点图
ˆ 66.875 14.875 x y
引进虚拟变量时,回归方程可写为:E(y) =0+ 1x
建立回归方程:E(Y)=0+ 1x1+ 2x2+3x3(加法公式)
0—家电制造业投诉次数的平均值
(0+ 1)—零售业投诉次数的平均值
(0+ 2)—旅游业投诉次数的平均值
(0+ 3)—航空公司投诉次数的平均值
例:考虑个人保健支出对个人收入和教育水平的回归。教育水 平考虑三个层次:高中以下,高中,大学及其以上 • 这时需要引入两个虚拟变量:
虚拟变量赋值的操作
所有EDU=0 EDU2=1,其他EDU=0 EDU3=1,其他EDU=0 EDU4=1,其他EDU=0 EDU5=1,其他EDU=0 AREA=1 AREA=0
应用SPSS建立回归方程
Model Summary Model 1 R .978a R Sq uare .956 Adjusted R Sq uare .927 Std. Error of the Estimate .30751
如果在模型中同时使用加法和乘法两种方式引入虚拟 变量,则回归线的截距和斜率都会改变。 例如:对于改革开放前后储蓄-收入模型,可设定为
Yt 0 1Dt 1 X t 2 ( Dt X t ) t
其中,Y为储蓄,X为收入,Dt为虚拟变量 1 改革开放以后 Dt= 0 改革开放以前
1 水平1 1 水平2 1 水平k 1 x1 , x2 ,, xk 1 0 其他水平 0 其他水平 0 其他水平
虚拟变量作为解释变量引入模型有两种基本方式: 加法方式和乘法方式。
(1)加法方式
引进虚拟变量
1 航空公司 1 零售业 1 旅游业 x1 , x2 , x3 0 其他行业 0 其他行业 0 其他行业
0的含义表示:女性职工的期望月工资收入
(0+ 2)的含义表示:男性职工的期望月工资收入
1含义表示:工作年限每增加1年,男性或女性工资的平
均增加值
2含义表示:男性职工的期望月工资收入与女性职工的 期望月工资收入之间的差值 (0+ 2) - 0= 2
4.2 含多个虚拟自变量的回归
•
平均值的差值=(0+ 1) - 0= 1
【 例 2】 为
研究工资水 平与工作年 限和性别之 间的关系, 在某行业中 随 机 抽 取 10 名职工,所 得数据如右 表
Model Summary R R Square .927a .859 Adjusted Std. Error of R Square the Estimate .819 459.048
(4)自变量与误差项之间的协方差为0,不存在多重共线性; (5)自变量的样本容量必须大于自变量的项数加 1。
多元回归中的几种重要模型
• 第一部分:多重共线情况的处理
– 第3章 岭回归分析( Ridge Regression )
• 第二部分:自变量中含定性变量的处理 – 第4章 自变量中含有定性变量的回归分析 • 第三部分:因变量中含有定性变量情况的处理 – 第5章 二项Logistic回归 – 第6章 多项Logistic回归 – 第7章 有序回归(等级回归分析) – 第8章 Probit回归(概率单位回归) – 第9章 最佳尺度回归
Leabharlann Baidu
在E(μt)=0的假定下,上述模型所表示的函数可化为: 正常年份: E(Ct X t , Dt 1) 0 (1 2 ) Xt 反常年份: E(Ct X t , Dt 0) 0 1 X t 假定2 0, 则其几何图形如图2所示。
图2 不同年份消费倾向示意图
• 例3:分析某地区妇女的年龄、文化程度及居住地状况 对其曾生子女数的影响。 • 定量变量: 年龄 • 定性变量:文化程度、地区 • 原变量编码值
• 文化程度=1(文盲) • 文化程度=2(小学) • 文化程度=3(初中) • 文化程度=4(高中) • 文化程度=5(大学) • 地区=1(城市) • 地区=2(农村)
大学及其以上:
假定 3 2 0 ,且 0 0 ,则其几何意义如图1所示。
有相同的斜率,但有不 同的截距
图1 不同教育程度人员保健支出示意图
• (2)乘法方式——斜率的变化
• 例:根据消费理论,消费水平C主要取决于收入水平X。但 在一个较长的时期,人们的消费倾向会发生变化,尤其是在 自然灾害、战争等反常年份,消费倾向往往出现变化。这种 消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。 1 正常年份 Dt= 0 反常年份 则消费模型可建立如下:Ct 0 1 X t 2 Dt X t t 这里,虚拟变量 Dt 以与 Xt 相乘的方式引入了模型中, 从而可用来考察消费倾向的变化。 设
Y
改革开放以后
改革开放以前
X 图3 改革开放前后储蓄函数示意图
显然在上式中,同时使用加法和乘法两种方式引入了虚拟变 量。 在E(μ )=0的假定下,上述模型所表示的函数可化为:
t
改革开放以前:E(Yt|Xt,Dt=0)=α0+β1Xt 改革开放以后: E(Yt|Xt,Dt=1)=(α0+α1) +(β1 – β2 ) Xt 2 0, 1 0且 假定 则其几何图形如图3所示。
虚拟变量交互效应分析 • 当分析解释变量对变量的影响时,大多数情形只是分析了解 释变量自身变动对被解释变量的影响作用,而没有深入分析 解释变量间的相互作用对被解释变量影响。 • 前面讨论的分析两个定性变量对被解释变量影响的虚拟变量 模型中,暗含着一个假定:两个定性变量是分别独立地影响 被解释变量的 • 但是在实际经济活动中,两个定性变量对被解释变量的影响 可能存在一定的交互作用,即一个解释变量的边际效应有时 可能要依赖于另一个解释变量。 • 为描述这种交互作用,可以把两个虚拟变量的乘积以加法形 式引入模型。
按年龄划分为三个年龄组:6—18岁年龄组(中小学教育);19—22岁 年龄组(大学教育);其它年龄组。于是设定虚拟变量 D1= 1 0 6-18岁年龄组 其它 D2= 1 0 19-22年龄组 其它
则家庭教育经费支出模型可设定为 Yi 0 1 X i 2 D1i 3 D2i i 其中,Yi是第i个家庭的教育经费支出;Xi是第i个家庭的收人; 虚拟变量D1i、D2i分别表示第i家庭中是否有6—18岁和19—22岁的成员。
a. Predictors: (Constant), X2, X1
a b. Dependent Variable: Y Coefficients
dictors: (Constant), X2, X1
a.
Unstandardized Coefficients B Std. Error 930.495 466.974 387.616 62.565 1262.693 314.127