第八章 包含虚拟变量的回归模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章 包含虚拟变量的回归模型
一、虚拟变量的基本含义
通常在回归分析中,因变量不仅受一些定量变量的影响,而且还受一些定性变量的影响,比如性别、种族、婚姻状况等等。
为了在模型中反映这些因素的影响,需要把定性因素进行“量化”。
通常是引进人工变量完成。
通过定性因素的属性类别,构造取值为0或者1的变量,如、 1代表男性, 0代表女性; 1代表某人是大学毕业, 0代表某人不是大学毕业,这类取值为0,1的变量称为虚拟变量(dummy variable )。
虚拟变量与定量变量一样可用于回归分析。
事实上,一个回归模型的解释变量可以仅仅是虚拟变量。
解释变量仅是虚拟变量的模型称为方差分析模型( analysis-of-variance models ) (ANOVA)。
例1:1i i Y D i βα=++ε,其中Y 表示职工工资,。
10i D ⎧=⎨⎩
,本科学历
,非本科学历这个模型与我们前面讨论过的双变量模型类似,但这里的解释变量是虚拟变量。
1(0)i E Y D β==,1(1)i E Y D βα==+
显然,1β表示非大学毕业生的平均初职年薪,1βα+表示具有大学学历职工的平均工资,α代表二者之差。
回归模型中可以有同时有虚拟变量以及定量变量。
例2:考虑是否上过大学和工龄作为职工工资的模型:
12i i i Y X D i ββαε=+++Y ,表示职工工资,X表示工龄,D同上。
含虚拟变量的模型只要扰动项符合古典假定,仍用OLS方法估计模型。
注意:虚拟变量系数显著性检验的意义::0H 0α=;:1H 0α≠。
同学们思考:这个检验在上面两个例子中分别具有何实际意义?
二、虚拟变量的引入模型的方式 1、加法方式
上面考察的例子都是加法方式。
注意虚拟变量模型的几何意义:以上述例2考察。
例3:如果上述职工工资方程(例2)中,学历考虑三个层次:高中以下、高中、大学及以上。
该如何建模?
引进两个虚拟变量:,
1 1 0 D ⎧=⎨⎩
高中其他2 1 0 D ⎧=⎨⎩大学及以上
其他
121222Y X D D ββαα=++++ε
请同学们分析模型的含义。
模型中还可以考察多个定性因素的影响,比如上述模型中,同时考虑性
别对工资的影响,则令,模型变为:
10S ⎧=⎨⎩,男性
,女性
121222Y X D D S ββααλ=+++++εt
2、乘法方式:
加法方式引进虚拟变量考察的是定性因素不同水平下模型截距不同,许多情况下需要考虑斜率的变化,比如:考察消费函数模型的时候,样本数据包括改革前的数据也包括改革后的数据,希望用模型体现改革前和改革后边际消费倾向不同,如何建模?
令,则模型可设为:1 t>0 t<t D ⎧=⎨⎩改革后(=1978)
改革前(1978)
t t t t Y D X X αδβε=+++
注意模型的几何意义。
思考:同时反映截距和斜率的变化呢?
分析:避免虚拟变量“陷阱”
考虑冷饮的销售(或者某些产品的销售模型),需要考虑季节因素。
季节虚拟变量:,,,
1 1 0 t D ⎧=⎨⎩春季其他
2 1 0 t D ⎧=⎨⎩夏季其他
3 1 0 t D ⎧=⎨⎩秋季其他
4 1 0 t D ⎧=⎨
⎩冬季
其他。
1112233442t t t t t Y D D D D X t t βααααβ=++++++ε 思考一下:该模型出现了什么问题?该如何解决?
注意:虚拟变量的引入规则: 按类别引入虚拟变量
若类别数为M ,若第个类别有个状态,引入i i m 1i m −个虚拟变量,则共引入∑个虚拟变量。
1(1−)m
i i m =
三、样条回归
使得模型在转折点上连续。
考虑上述消费函数的例子:
1 t<=0 t>t D ⎧=⎨⎩00改革前(t )
改革后(t )
斜率和截距在改革前后同时变化:
12t t t t t Y D X D X t βαβγ=++++ε
()()
01200120()()t t t t E Y X E Y X βββαβγ=+⎧⎪⇒⎨
=+++⎪⎩,改革后
,改革前, 在转折点处两段方程相等,则有0t X αγ=−。
则模型变为:
()120t t t t Y X X X D t t ββγ=++−+ε
思考:
(1)0=0H γ:的含义?
(2)模型中有两次以上的转折点该如何建立连续模型?
四、虚拟变量的作用拓展
1)反映不同的属性类别,为何引进0/1类型的人工变量? 思考:前述教育水平的例子:可否如此引进人工变量?
12
3E ⎧⎪
=⎨⎪⎩
高中以下高中大学及以上
2)阈效应
研究收入与年龄和教育程度的关系: 思考如下两种引进虚拟变量的方式有何不同? 方式一:
1 1 0 D ⎧=⎨
⎩中学其他,,,。
2 1 0 D ⎧=⎨⎩大学其他
3 1 0 D ⎧=⎨⎩硕士
其他 1 0 t D ⎧=⎨⎩博士其他 方式二:
1 1 0 D ⎧=⎨
⎩中学以上其他,, 2 1 0 D ⎧=⎨⎩大学以上
其他3 1 0 D ⎧=⎨
⎩硕士以上
其他
,。
1 0 t D ⎧=⎨⎩博士以上其他
3)利用虚拟变量反映交互作用
如消费函数模型:1122t t t t t Y D E E X t αδγγβ=+++++ε
其中,,
1 0 t D ⎧=⎨⎩改革前改革后1 1 0 t E ⎧=⎨⎩特区其他
2 1 0 t E ⎧=⎨⎩开放区
其他
(1)不考虑交互作用
特区 开放区 一般地区 改革前: 1αδγ++, 2αδγ++, αδ+ 改革后: 1αγ+, 2αγ+, α
(2)考虑交互作用
11221122t t t t t t t t Y D E E D E D E t αδγγφφ=++++++ε1 特区 开放区 一般地区 改革前: 1αδγφ+++, 22αδγφ+++, αδ+ 改革后: 1αγ+, 2αγ+, α
4)反映模型的结构变化。
考虑截距和斜率均发生变化的消费函数模型:
1234t t t t Y D X D X t t ββββ=++++ε
考虑20β≠截距变化, 40β≠斜率变化。
解释变量观测值矩阵:
(1)(2)
000
i X i
X ⎛⎞⎜⎟⎝⎠
思考:多个解释变量呢?
可以利用虚拟变量模型检验部分解释变量系数发生结构变化。
此时的约束回归模型和无约束回归模型均比较容易理解。