第2部分:线性回归(4)-包含虚拟变量的回归模型
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
几个问题:
1、在模型中引入多个虚拟变量时,虚拟变量的个 数应按下列原则确定:如果有 m 种互斥的属性类 型,在模型中引入 m-1 个虚拟变量。即每个虚拟 变量的个数要比该变量的分类数少1。例如,性别 有2个互斥的属性,引用2-1=1个虚拟变量。否则 就会陷入虚拟变量陷阱。 2、赋值为0的一类称为基准类、对比类等。 3、虚拟变量D的系数称为差别截距系数。
1。加法方式——影响截距
虚拟变量D 与其它解释变量在模型中是相 加关系,称为虚拟变量的加法引入方式。 例如,讨论消费问题,消费水平C主要由收 入水平Y决定,但是当特殊情况出现时政府 会采取对消费品限量供应措施,因此引入 虚拟变量D来表示这些特殊情况与非特殊情 况。 加法引入方式引起截距变动
10
消费问题的虚拟变量模型
c C=b0+(b1+b2)x D=1反常 Y=b0+b1X+b2DX D=0正常 x
17
C=b0+b1x
运用虚拟变量同时改变回归直线的截距和斜率
D=1反常 Y=(b0+b2)+(b1 +b3)x+e Y=b0+b1X+b2D+b3DX+e
Y=b0+b1x+e 正常时期 D=0正常
18
折线回归
I=b0+b1G+b2(G-G0)D1+b3(G-G1)D2+e I t<84 D1=0 G0 t<88 D2=0 G1 D1、D2处理3状态
1、方差分析模型(ANOVA):回归模型中, 解释变量仅是虚拟变量的模型。
如:yi = B1 + B2 Di + ui , 其中y为初始年薪, Di = 1、 0,为1时表示大学毕业,为0时表示其他。 则大学毕业生的初始年薪期望为: E ( yi | Di = 1) = B1+B2 .0 = B1 非大学毕业生的初始年薪期望为 : E ( yi | Di = 0) = B1+B2 .1 = B1 + B2
7
用3个虚拟变量表示4个季度
季节 春 夏 秋 冬 Q2 0 1 0 0 Q3 0 0 1 0 Q4 0 0 0 1
这里用3个虚拟变量表示4个季度,Q2、Q3、 Q4同时取不同值组合起来表示4个季节—— 春、夏、秋和冬。
8
虚拟变量的引入方式
1。加法方式 2。乘法方式 3。临界指标的虚拟变量的引入
9
G0 84 88
G1
G
19
虚拟变量法来检验回归模型中的 结构稳定性
20
虚拟变量法来消除时间序列中季 节成分
21
模型中虚拟变量与其它解释变量是相乘关系,称 为虚拟变量的乘法引入方式。 乘法引入方式引起斜率变动 D=1 异常时期 D=0 正常时期 设定模型 Y= b0 + b1 X+b2 D X +e, b2表示差 别斜率。 异常时期模型:(截距相同斜率不同) Y= b0 + (b1 +b2 ) x +e 正常时期模型:(截距相同斜率不同) Y= b0 + b1 x +e
临界折线的图例
y y = b0 + b1 x + b2 ( x-x*) D
y = b0 + b1 x* x X* ( t*)
15
运用虚拟变量改变回归直线的截距
c Y=b0+b1X D=1反常 D=1 b2 b0 Y=(b0+b2)+b1X Y=b0+b1X+b2D+e x
16
D=0正常
运用虚拟变量改变回归直线的斜率
13
3。临界指标的虚拟变量的引入
在经济转折时期,可以建立临界值指标 的虚拟变量模型来反映 设转折时期 t* 转折时期的指标值= x* 虚拟变量 D=1( t >= t*) D=0( t < t*) 模型 y = b0 + b1 x + b2 ( x-x*) D +e t < t* 时 y = b0 + b1 x+ e t >= t* 时 y = b0 -b2 x*+ (b1+ b2) x +e 当t = t*时, x=x* 两式计算的y 相等,两 条直线在转折期连接成一条折线 14
3
模型中引入虚拟变量的必要性
现实经济生活错综复杂,往往要求人们按 照经济变量的质或量的不同,分别进行处 理。因此,回归模型中,往往有必要引入 虚拟变量,以表示这些质的区别。例如, 消费函数,对于平时与战时,萧条与繁荣, 乃至性别、教育程度、季节性等等,都会 因质的有不同表现出不同的差异。
4
虚拟变量模型
12
加法与乘法组合引入——— 截距与斜率均不同
D=1 异常时期 D=0 正常时期 设定模型 Y=b0+ b1 X+ b2D + b3D X +e 异常时期模型:(截距与斜率均不同) Y= (b0 + b2) + (b1 +b3) x +e 反常时期模型:(截距与斜率均不同) Y= b0 + b1 x +e
包含虚拟变量的回归模型
1
问题的提出
1、计量经济学模型,需要经常考虑属性因 素(定量变量)的影响。例如,职业、战 争与和平、繁荣与萧条、文化程度、灾害 2、定量变量往往很难直接度量它们的大小。 只能建立人工变量,给予赋值:“D=1”或 ”D=0”、或者它们的程度或等级
2
例:文化程度
文化程度 文盲 小学 初中 高中 中专 大专 本科 研究生 D1 0 1 0 0 0 0 0 0 D2 0 0 1 0 0 0 0 0 D3 0 0 0 1 0 0 0 0 D4 0 0 0 0 1 0 0 0 D5 0 0 0 0 0 1 0 0 D6 0 0 0 0 0 0 1 0 D7 0 0 0 0 0 0 0 1
5
2、协方差分析模型(ANCOVA)
指引入虚拟变量后,回归方程中同时含有 一般解释变量和虚拟变量的模型。
如:yi = B1 + B2 Di + B3 xi + ui 其中yi为大学教师的年薪,xi为教龄, Di 取值为1, 0,为1时表示男教师,为0时表示女教师。 通过求期望同样可得到男女教师的平均年薪。
D=1 反常年份 D=0 正常年份 C = b0 + b1 x + b2D +e C^= b0^ + b1^x + b2^ D 反常年份消费函数 (截距不同斜率同) C^=( b0^ + b2^ )+ b1^x 正常年份消费函数 (截距不同斜率同) C^= b0^ + b1^x
11
2。乘法方式——影响斜率
1、在模型中引入多个虚拟变量时,虚拟变量的个 数应按下列原则确定:如果有 m 种互斥的属性类 型,在模型中引入 m-1 个虚拟变量。即每个虚拟 变量的个数要比该变量的分类数少1。例如,性别 有2个互斥的属性,引用2-1=1个虚拟变量。否则 就会陷入虚拟变量陷阱。 2、赋值为0的一类称为基准类、对比类等。 3、虚拟变量D的系数称为差别截距系数。
1。加法方式——影响截距
虚拟变量D 与其它解释变量在模型中是相 加关系,称为虚拟变量的加法引入方式。 例如,讨论消费问题,消费水平C主要由收 入水平Y决定,但是当特殊情况出现时政府 会采取对消费品限量供应措施,因此引入 虚拟变量D来表示这些特殊情况与非特殊情 况。 加法引入方式引起截距变动
10
消费问题的虚拟变量模型
c C=b0+(b1+b2)x D=1反常 Y=b0+b1X+b2DX D=0正常 x
17
C=b0+b1x
运用虚拟变量同时改变回归直线的截距和斜率
D=1反常 Y=(b0+b2)+(b1 +b3)x+e Y=b0+b1X+b2D+b3DX+e
Y=b0+b1x+e 正常时期 D=0正常
18
折线回归
I=b0+b1G+b2(G-G0)D1+b3(G-G1)D2+e I t<84 D1=0 G0 t<88 D2=0 G1 D1、D2处理3状态
1、方差分析模型(ANOVA):回归模型中, 解释变量仅是虚拟变量的模型。
如:yi = B1 + B2 Di + ui , 其中y为初始年薪, Di = 1、 0,为1时表示大学毕业,为0时表示其他。 则大学毕业生的初始年薪期望为: E ( yi | Di = 1) = B1+B2 .0 = B1 非大学毕业生的初始年薪期望为 : E ( yi | Di = 0) = B1+B2 .1 = B1 + B2
7
用3个虚拟变量表示4个季度
季节 春 夏 秋 冬 Q2 0 1 0 0 Q3 0 0 1 0 Q4 0 0 0 1
这里用3个虚拟变量表示4个季度,Q2、Q3、 Q4同时取不同值组合起来表示4个季节—— 春、夏、秋和冬。
8
虚拟变量的引入方式
1。加法方式 2。乘法方式 3。临界指标的虚拟变量的引入
9
G0 84 88
G1
G
19
虚拟变量法来检验回归模型中的 结构稳定性
20
虚拟变量法来消除时间序列中季 节成分
21
模型中虚拟变量与其它解释变量是相乘关系,称 为虚拟变量的乘法引入方式。 乘法引入方式引起斜率变动 D=1 异常时期 D=0 正常时期 设定模型 Y= b0 + b1 X+b2 D X +e, b2表示差 别斜率。 异常时期模型:(截距相同斜率不同) Y= b0 + (b1 +b2 ) x +e 正常时期模型:(截距相同斜率不同) Y= b0 + b1 x +e
临界折线的图例
y y = b0 + b1 x + b2 ( x-x*) D
y = b0 + b1 x* x X* ( t*)
15
运用虚拟变量改变回归直线的截距
c Y=b0+b1X D=1反常 D=1 b2 b0 Y=(b0+b2)+b1X Y=b0+b1X+b2D+e x
16
D=0正常
运用虚拟变量改变回归直线的斜率
13
3。临界指标的虚拟变量的引入
在经济转折时期,可以建立临界值指标 的虚拟变量模型来反映 设转折时期 t* 转折时期的指标值= x* 虚拟变量 D=1( t >= t*) D=0( t < t*) 模型 y = b0 + b1 x + b2 ( x-x*) D +e t < t* 时 y = b0 + b1 x+ e t >= t* 时 y = b0 -b2 x*+ (b1+ b2) x +e 当t = t*时, x=x* 两式计算的y 相等,两 条直线在转折期连接成一条折线 14
3
模型中引入虚拟变量的必要性
现实经济生活错综复杂,往往要求人们按 照经济变量的质或量的不同,分别进行处 理。因此,回归模型中,往往有必要引入 虚拟变量,以表示这些质的区别。例如, 消费函数,对于平时与战时,萧条与繁荣, 乃至性别、教育程度、季节性等等,都会 因质的有不同表现出不同的差异。
4
虚拟变量模型
12
加法与乘法组合引入——— 截距与斜率均不同
D=1 异常时期 D=0 正常时期 设定模型 Y=b0+ b1 X+ b2D + b3D X +e 异常时期模型:(截距与斜率均不同) Y= (b0 + b2) + (b1 +b3) x +e 反常时期模型:(截距与斜率均不同) Y= b0 + b1 x +e
包含虚拟变量的回归模型
1
问题的提出
1、计量经济学模型,需要经常考虑属性因 素(定量变量)的影响。例如,职业、战 争与和平、繁荣与萧条、文化程度、灾害 2、定量变量往往很难直接度量它们的大小。 只能建立人工变量,给予赋值:“D=1”或 ”D=0”、或者它们的程度或等级
2
例:文化程度
文化程度 文盲 小学 初中 高中 中专 大专 本科 研究生 D1 0 1 0 0 0 0 0 0 D2 0 0 1 0 0 0 0 0 D3 0 0 0 1 0 0 0 0 D4 0 0 0 0 1 0 0 0 D5 0 0 0 0 0 1 0 0 D6 0 0 0 0 0 0 1 0 D7 0 0 0 0 0 0 0 1
5
2、协方差分析模型(ANCOVA)
指引入虚拟变量后,回归方程中同时含有 一般解释变量和虚拟变量的模型。
如:yi = B1 + B2 Di + B3 xi + ui 其中yi为大学教师的年薪,xi为教龄, Di 取值为1, 0,为1时表示男教师,为0时表示女教师。 通过求期望同样可得到男女教师的平均年薪。
D=1 反常年份 D=0 正常年份 C = b0 + b1 x + b2D +e C^= b0^ + b1^x + b2^ D 反常年份消费函数 (截距不同斜率同) C^=( b0^ + b2^ )+ b1^x 正常年份消费函数 (截距不同斜率同) C^= b0^ + b1^x
11
2。乘法方式——影响斜率