自变量中含有定性变量的回归分析ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
则其几何图形如图2所示。
图2 不同年份消ห้องสมุดไป่ตู้倾向示意图
如果在模型中同时使用加法和乘法两种方式引入虚拟变量, 则回归线的截距和斜率都会改变。
例如:对于改革开放前后储蓄-收入模型,可设定为
Y
Yt 0 1Dt 1Xt 2 (Dt Xt ) t
改革开放以后
其中,Y为储蓄,X为收入,Dt为虚拟变1 量改
例:考虑个人保健支出对个人收入和教育水平的回归。教育水 平考虑三个层次:高中以下,高中,大学及其以上
• 这时需要引入两个虚拟变量:
1 高中 D1= 0 其它
1 大学及其以上
D2=
0 其它
模型可设定如下:Yi 0 1Xi 2D1i 3D2i i
在 E(i ) =0的初始假定下,容易得到高中以下、高中、大学及其以上
variable)也称哑变量或定性变量),然后再将它们引入 方程,所得的回归结果才有明确的解释意义。 • 只取0和1两个值的变量称为虚拟变量。 • 对于具有k类的定性变量来说,设虚拟变量时,我们只 设k-1个虚拟变量。
1. 回归模型中使用虚拟自变量时,称为虚拟自变量的回归
2. 当虚拟自变量只有两个水平时,可在回归中引入一个虚 拟变量
按年龄划分为三个年龄组:6—18岁年龄组(中小学教育);19—22岁
年龄组(大学教育);其它年龄组。于是设定虚拟变量
1 6-18岁年龄组 D1= 0 其它
1 19-22年龄组 D2= 0 其它
则家庭教育经费支出模型可设定为 Yi 0 1Xi 2D1i 3D2i i
其中,Yi是第i个家庭的教育经费支出;Xi是第i个家庭的收人; 虚拟变量D1i、D2i分别表示第i家庭中是否有6—18岁和19—22岁的成员。
革开放以后
Dt= 0 改革开放以前
改革开放以前 X
图3 改革开放前后储蓄函数示意图
显然在上式中,同时使用加法和乘法两种方式引入了虚拟变
量。 在E(μt)=0的假定下,上述模型所表示的函数可化为: 改革开放以前:E(Yt|Xt,Dt=0)=α0+β1Xt
改革开放以后:E(Yt|Xt,Dt=1)=(α0+α1) +(β1 – β2 ) Xt 假定1 0且2 0, 则其几何图形如图3所示。
设
1 正常年份
Dt=
0 反常年份
则消费模型可建立如下:Ct 0 1Xt 2Dt Xt t
这里,虚拟变量 Dt 以与 Xt 相乘的方式引入了模型中, 从而可用来考察消费倾向的变化。
在E(μt)=0的假定下,上述模型所表示的函数可化为: 正常年份: E(Ct Xt , Dt 1) 0 (1 2)Xt 反常年份: E(Ct Xt , Dt 0) 0 1Xt 假定2 0,
有相同的斜率,但有不 同的截距
图1 不同教育程度人员保健支出示意图
• (2)乘法方式——斜率的变化
• 例:根据消费理论,消费水平C主要取决于收入水平X。但 在一个较长的时期,人们的消费倾向会发生变化,尤其是在 自然灾害、战争等反常年份,消费倾向往往出现变化。这种 消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。
自变量中含有定性变量的回归分析ppt 课件
多元回归中的几种重要模型
• 第一部分:多重共线情况的处理
– 第3章 岭回归分析( Ridge Regression )
• 第二部分:自变量中含定性变量的处理 – 第4章 自变量中含有定性变量的回归分析
• 第三部分:因变量中含有定性变量情况的处理 – 第5章 二项Logistic回归 – 第6章 多项Logistic回归 – 第7章 有序回归(等级回归分析) – 第8章 Probit回归(概率单位回归) – 第9章 最佳尺度回归
教育水平个人平均保健支出的函数:
高中以下: 高中:
大学及其以上:
E(Yi|Xi,D1i=0,D2i=0)=β0+β1Xi E(Yi|Xi,D1i=1,D2i=0)=(β0+β2 )+β1Xi
E(Yi|Xi,D1i=0,D2i=1)=(β0+β3 )+β1Xi
假定3 2 0 ,且 0 0 ,则其几何意义如图1所示。
– 比如,性别(男,女)
3. 一般而言,如果定性自变量有k个水平/类别,需要在回 归中模型中引进k-1个虚拟变量,如果引入k个虚拟变量 将会产生完全多重共线性问题(称为虚拟变量陷阱)
1 水平1
1 水平2
1 水平k 1
x1 0 其他水平 , x2 0 其他水平 ,L , xk1 0 其他水平
▪ 虚拟变量作为解释变量引入模型有两种基本方式: 加法方式和乘法方式。
• 本章总结
第4章 自变量中含有定性变量的回归分析
• 4.1 只有一个虚拟变量的回归 • 4.2 含有多个虚拟变量的回归 • 4.3 分段回归
第4章 自变量中含有定性变量的回归分析
• 在社会经济研究中,由许多定性变量,比如地区、民族、 性别、文化程度、职业和居住地等。
• 可以应用它们的信息进行线性回归。 • 但是,必须现将定性变量转换为虚拟变量( (dummy
▪ (1)加法方式
▪ 引进虚拟变量
1 零售业
1 旅游业
1 航空公司
x1 0 其他行业 , x2 0 其他行业 , x3 0 其他行业
▪ 建立回归方程:E(Y)=0+ 1x1+ 2x2+3x3(加法公式) ▪ 0—家电制造业投诉次数的平均值 ▪ (0+ 1)—零售业投诉次数的平均值 ▪ (0+ 2)—旅游业投诉次数的平均值 ▪ (0+ 3)—航空公司投诉次数的平均值
虚拟变量交互效应分析
• 当分析解释变量对变量的影响时,大多数情形只是分析了解 释变量自身变动对被解释变量的影响作用,而没有深入分析 解释变量间的相互作用对被解释变量影响。
• 前面讨论的分析两个定性变量对被解释变量影响的虚拟变量 模型中,暗含着一个假定:两个定性变量是分别独立地影响 被解释变量的
• 但是在实际经济活动中,两个定性变量对被解释变量的影响 可能存在一定的交互作用,即一个解释变量的边际效应有时 可能要依赖于另一个解释变量。
数值变量作为虚拟变量引入:有些变量虽然是数量变量,即可以获得 实际观测值,但在某些特定情况下把它选取为虚拟变量则是方便的, 以虚变量引入计量经济学模型更加合理。
譬如年龄因素虽然可以用数字计量,但如果将年龄作为资料分组的特 征,则可将年龄选作虚拟变量。
例如:家庭教育经费支出不仅取决于其收入,而且与年龄因素有关。
图2 不同年份消ห้องสมุดไป่ตู้倾向示意图
如果在模型中同时使用加法和乘法两种方式引入虚拟变量, 则回归线的截距和斜率都会改变。
例如:对于改革开放前后储蓄-收入模型,可设定为
Y
Yt 0 1Dt 1Xt 2 (Dt Xt ) t
改革开放以后
其中,Y为储蓄,X为收入,Dt为虚拟变1 量改
例:考虑个人保健支出对个人收入和教育水平的回归。教育水 平考虑三个层次:高中以下,高中,大学及其以上
• 这时需要引入两个虚拟变量:
1 高中 D1= 0 其它
1 大学及其以上
D2=
0 其它
模型可设定如下:Yi 0 1Xi 2D1i 3D2i i
在 E(i ) =0的初始假定下,容易得到高中以下、高中、大学及其以上
variable)也称哑变量或定性变量),然后再将它们引入 方程,所得的回归结果才有明确的解释意义。 • 只取0和1两个值的变量称为虚拟变量。 • 对于具有k类的定性变量来说,设虚拟变量时,我们只 设k-1个虚拟变量。
1. 回归模型中使用虚拟自变量时,称为虚拟自变量的回归
2. 当虚拟自变量只有两个水平时,可在回归中引入一个虚 拟变量
按年龄划分为三个年龄组:6—18岁年龄组(中小学教育);19—22岁
年龄组(大学教育);其它年龄组。于是设定虚拟变量
1 6-18岁年龄组 D1= 0 其它
1 19-22年龄组 D2= 0 其它
则家庭教育经费支出模型可设定为 Yi 0 1Xi 2D1i 3D2i i
其中,Yi是第i个家庭的教育经费支出;Xi是第i个家庭的收人; 虚拟变量D1i、D2i分别表示第i家庭中是否有6—18岁和19—22岁的成员。
革开放以后
Dt= 0 改革开放以前
改革开放以前 X
图3 改革开放前后储蓄函数示意图
显然在上式中,同时使用加法和乘法两种方式引入了虚拟变
量。 在E(μt)=0的假定下,上述模型所表示的函数可化为: 改革开放以前:E(Yt|Xt,Dt=0)=α0+β1Xt
改革开放以后:E(Yt|Xt,Dt=1)=(α0+α1) +(β1 – β2 ) Xt 假定1 0且2 0, 则其几何图形如图3所示。
设
1 正常年份
Dt=
0 反常年份
则消费模型可建立如下:Ct 0 1Xt 2Dt Xt t
这里,虚拟变量 Dt 以与 Xt 相乘的方式引入了模型中, 从而可用来考察消费倾向的变化。
在E(μt)=0的假定下,上述模型所表示的函数可化为: 正常年份: E(Ct Xt , Dt 1) 0 (1 2)Xt 反常年份: E(Ct Xt , Dt 0) 0 1Xt 假定2 0,
有相同的斜率,但有不 同的截距
图1 不同教育程度人员保健支出示意图
• (2)乘法方式——斜率的变化
• 例:根据消费理论,消费水平C主要取决于收入水平X。但 在一个较长的时期,人们的消费倾向会发生变化,尤其是在 自然灾害、战争等反常年份,消费倾向往往出现变化。这种 消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。
自变量中含有定性变量的回归分析ppt 课件
多元回归中的几种重要模型
• 第一部分:多重共线情况的处理
– 第3章 岭回归分析( Ridge Regression )
• 第二部分:自变量中含定性变量的处理 – 第4章 自变量中含有定性变量的回归分析
• 第三部分:因变量中含有定性变量情况的处理 – 第5章 二项Logistic回归 – 第6章 多项Logistic回归 – 第7章 有序回归(等级回归分析) – 第8章 Probit回归(概率单位回归) – 第9章 最佳尺度回归
教育水平个人平均保健支出的函数:
高中以下: 高中:
大学及其以上:
E(Yi|Xi,D1i=0,D2i=0)=β0+β1Xi E(Yi|Xi,D1i=1,D2i=0)=(β0+β2 )+β1Xi
E(Yi|Xi,D1i=0,D2i=1)=(β0+β3 )+β1Xi
假定3 2 0 ,且 0 0 ,则其几何意义如图1所示。
– 比如,性别(男,女)
3. 一般而言,如果定性自变量有k个水平/类别,需要在回 归中模型中引进k-1个虚拟变量,如果引入k个虚拟变量 将会产生完全多重共线性问题(称为虚拟变量陷阱)
1 水平1
1 水平2
1 水平k 1
x1 0 其他水平 , x2 0 其他水平 ,L , xk1 0 其他水平
▪ 虚拟变量作为解释变量引入模型有两种基本方式: 加法方式和乘法方式。
• 本章总结
第4章 自变量中含有定性变量的回归分析
• 4.1 只有一个虚拟变量的回归 • 4.2 含有多个虚拟变量的回归 • 4.3 分段回归
第4章 自变量中含有定性变量的回归分析
• 在社会经济研究中,由许多定性变量,比如地区、民族、 性别、文化程度、职业和居住地等。
• 可以应用它们的信息进行线性回归。 • 但是,必须现将定性变量转换为虚拟变量( (dummy
▪ (1)加法方式
▪ 引进虚拟变量
1 零售业
1 旅游业
1 航空公司
x1 0 其他行业 , x2 0 其他行业 , x3 0 其他行业
▪ 建立回归方程:E(Y)=0+ 1x1+ 2x2+3x3(加法公式) ▪ 0—家电制造业投诉次数的平均值 ▪ (0+ 1)—零售业投诉次数的平均值 ▪ (0+ 2)—旅游业投诉次数的平均值 ▪ (0+ 3)—航空公司投诉次数的平均值
虚拟变量交互效应分析
• 当分析解释变量对变量的影响时,大多数情形只是分析了解 释变量自身变动对被解释变量的影响作用,而没有深入分析 解释变量间的相互作用对被解释变量影响。
• 前面讨论的分析两个定性变量对被解释变量影响的虚拟变量 模型中,暗含着一个假定:两个定性变量是分别独立地影响 被解释变量的
• 但是在实际经济活动中,两个定性变量对被解释变量的影响 可能存在一定的交互作用,即一个解释变量的边际效应有时 可能要依赖于另一个解释变量。
数值变量作为虚拟变量引入:有些变量虽然是数量变量,即可以获得 实际观测值,但在某些特定情况下把它选取为虚拟变量则是方便的, 以虚变量引入计量经济学模型更加合理。
譬如年龄因素虽然可以用数字计量,但如果将年龄作为资料分组的特 征,则可将年龄选作虚拟变量。
例如:家庭教育经费支出不仅取决于其收入,而且与年龄因素有关。