自变量中含有定性变量的回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例:考虑个人保健支出对个人收入和教育水平的回归。教育水 平考虑三个层次:高中以下,高中,大学及其以上
• 这时需要引入两个虚拟变量:
1 高中 D1= 0 其它
1 大学及其以上
D2=
0 其它
模型可设定如下:Yi 0 1Xi 2D1i 3D2i i
在 E(i ) =0的初始假定下,容易得到高中以下、高中、大学及其以上
variable)也称哑变量或定性变量),然后再将它们引入 方程,所得的回归结果才有明确的解释意义。 • 只取0和1两个值的变量称为虚拟变量。 • 对于具有k类的定性变量来说,设虚拟变量时,我们只 设k-1个虚拟变量。
1. 回归模型中使பைடு நூலகம்虚拟自变量时,称为虚拟自变量的回归
2. 当虚拟自变量只有两个水平时,可在回归中引入一个虚 拟变量
教育水平个人平均保健支出的函数:
高中以下: 高中:
大学及其以上:
E(Yi|Xi,D1i=0,D2i=0)=β0+β1Xi E(Yi|Xi,D1i=1,D2i=0)=(β0+β2 )+β1Xi
E(Yi|Xi,D1i=0,D2i=1)=(β0+β3 )+β1Xi
假定3 2 0 ,且 0 0 ,则其几何意义如图1所示。
– 比如,性别(男,女)
3. 一般而言,如果定性自变量有k个水平/类别,需要在回 归中模型中引进k-1个虚拟变量,如果引入k个虚拟变量 将会产生完全多重共线性问题(称为虚拟变量陷阱)
1 水平1
1 水平2
1 水平k 1
x1
0
其他水平
,
x2
0
其他水平 ,
,
xk 1
0
其他水平
▪ 虚拟变量作为解释变量引入模型有两种基本方式: 加法方式和乘法方式。
• 本章总结
第4章 自变量中含有定性变量的回归分析
• 4.1 只有一个虚拟变量的回归 • 4.2 含有多个虚拟变量的回归 • 4.3 分段回归
第4章 自变量中含有定性变量的回归分析
• 在社会经济研究中,由许多定性变量,比如地区、民族、 性别、文化程度、职业和居住地等。
• 可以应用它们的信息进行线性回归。 • 但是,必须现将定性变量转换为虚拟变量( (dummy
按年龄划分为三个年龄组:6—18岁年龄组(中小学教育);19—22岁
年龄组(大学教育);其它年龄组。于是设定虚拟变量
1 6-18岁年龄组 D1= 0 其它
1 19-22年龄组 D2= 0 其它
则家庭教育经费支出模型可设定为 Yi 0 1Xi 2D1i 3D2i i
其中,Yi是第i个家庭的教育经费支出;Xi是第i个家庭的收人; 虚拟变量D1i、D2i分别表示第i家庭中是否有6—18岁和19—22岁的成员。
有相同的斜率,但有不 同的截距
图1 不同教育程度人员保健支出示意图
• (2)乘法方式——斜率的变化
• 例:根据消费理论,消费水平C主要取决于收入水平X。但 在一个较长的时期,人们的消费倾向会发生变化,尤其是在 自然灾害、战争等反常年份,消费倾向往往出现变化。这种 消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。
设
1 正常年份
Dt=
0 反常年份
则消费模型可建立如下:Ct 0 1Xt 2Dt Xt t
这里,虚拟变量 Dt 以与 Xt 相乘的方式引入了模型中, 从而可用来考察消费倾向的变化。
在E(μt)=0的假定下,上述模型所表示的函数可化为: 正常年份: E(Ct Xt , Dt 1) 0 (1 2)Xt 反常年份: E(Ct Xt , Dt 0) 0 1Xt 假定2 0,
革开放以后
Dt= 0 改革开放以前
改革开放以前 X
图3 改革开放前后储蓄函数示意图
显然在上式中,同时使用加法和乘法两种方式引入了虚拟变
量。 在E(μt)=0的假定下,上述模型所表示的函数可化为: 改革开放以前:E(Yt|Xt,Dt=0)=α0+β1Xt
改革开放以后:E(Yt|Xt,Dt=1)=(α0+α1) +(β1 – β2 ) Xt 假定1 0且2 0, 则其几何图形如图3所示。
• 线性回归模型的基本假定 • 误差为独立正态分布的随机变量,其均值为零且方差相
等
(1)误差项的数学期望为0,表明估计的回归方程中不存在系统性 误差(Systematic Error);
(2)各误差项的方差相等; (3)各误差项之间的协方差为0; 以上三项基本假定一般又称为Gauss-Markov高斯-马尔柯夫条件。 (4)自变量与误差项之间的协方差为0,不存在多重共线性; (5)自变量的样本容量必须大于自变量的项数加1。
则其几何图形如图2所示。
图2 不同年份消费倾向示意图
如果在模型中同时使用加法和乘法两种方式引入虚拟变量, 则回归线的截距和斜率都会改变。
例如:对于改革开放前后储蓄-收入模型,可设定为
Y
Yt 0 1Dt 1Xt 2 (Dt Xt ) t
改革开放以后
其中,Y为储蓄,X为收入,Dt为虚拟变1 量改
数值变量作为虚拟变量引入:有些变量虽然是数量变量,即可以获得 实际观测值,但在某些特定情况下把它选取为虚拟变量则是方便的, 以虚变量引入计量经济学模型更加合理。
譬如年龄因素虽然可以用数字计量,但如果将年龄作为资料分组的特 征,则可将年龄选作虚拟变量。
例如:家庭教育经费支出不仅取决于其收入,而且与年龄因素有关。
多元回归中的几种重要模型
• 第一部分:多重共线情况的处理
– 第3章 岭回归分析( Ridge Regression )
• 第二部分:自变量中含定性变量的处理 – 第4章 自变量中含有定性变量的回归分析
• 第三部分:因变量中含有定性变量情况的处理 – 第5章 二项Logistic回归 – 第6章 多项Logistic回归 – 第7章 有序回归(等级回归分析) – 第8章 Probit回归(概率单位回归) – 第9章 最佳尺度回归
▪ (1)加法方式
▪ 引进虚拟变量
1 零售业
1 旅游业
1 航空公司
x1
0
其他行业
,
x2
0
其他行业
,
x3
0
其他行业
▪ 建立回归方程:E(Y)=0+ 1x1+ 2x2+3x3(加法公式) ▪ 0—家电制造业投诉次数的平均值 ▪ (0+ 1)—零售业投诉次数的平均值 ▪ (0+ 2)—旅游业投诉次数的平均值 ▪ (0+ 3)—航空公司投诉次数的平均值