7--虚拟变量和变参数模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ ˆ y ˆ c 0 1
收入Y前的回归系数是不变的,而改革 开放前与改革开放后(如1978年为分 界)模型的回归系数应该是变化的。 这时 “改革开放”这一质的因素就是 一个不应忽略的解释变量。
4
什么是虚拟变量
将具有某种品质或属性量化的方法, 构造成取值为0或1 的变量,一般而 言: 1 表示具有某种特征;而 0 表示 不具有某种特征,这类变量被称为 虚 拟 变 量 或 哑 变 量 ( Dummy Variable)。
采用通常的显著性检验方法可以对各种可 能的情况进行检验。
23
第二节 数量因素与变参数模型
用虚拟变量代表数量因素,建立分段 线性回归模型。 例 如 , 建 立 1955-1999 年 间 消 费 支 出 ( Y) 的 时 间 趋 势 变 化 模 型 , 假 设 以 1979年(X*)为转折点,即1979年以后, 改变趋势。这时可用的模型形式为:
男性 1, 0,女性 , 25 以下 1 0, 其他 , 2 5 - 5 0岁 1 0, 其他 ,初中 1 0,其他 , 高中 1 0,其他
相应的回归模型为:
Ci 0 1 D1 2 D2 3 D3 4 D4 5 D5 X i i
8
例子:包含一个虚拟变量的截距变动模 型 假设有一个包括城乡居民家庭收支状 况的样本,并试图利用这一数据估计 消费函数。由于城乡居民在消费水平 上存在明显差异,所以,“地区”这 一质的因素可以作为重要的解释变量。 模型可表示为:
Yi 0 1D X i ui
9
其中,Yi表示第i个家庭的消费水平, Xi为第i个家庭的收入水平,D为虚拟 变量。“1”表示城镇居民家庭这一特 征,“0”表示农村居民家庭这一特征, 并假定随机误差项满足经典假设。上 式消费函数可以写成: D 1 EYi 0 1 X i D 0 EYi 0 X i 用最小二乘法估计参数,若α1显著地 不为0,可以认为城乡居民在消费行为上 的差异是显著的。
18
例子:截距和斜率同时变动
中国城镇居民家庭的储蓄函数,数据 为1955-1985年城镇居民家庭人均收入 和人均储蓄的资料。设定模型为:
St 0 1 X t ut
S为人均储蓄,X为人均收入,且以 1955年的物价水平为100,从储蓄和收入 中扣除了价格的影响。
19
采用最小二乘法得到的估计结果为:
α1,β2,分别表示因为质的特征不同而在截距和斜 率上呈现的差异。
17
如果统计检验表明: ① 1 0, 2 0 , α1,β2 在统计上显著,表明 这一特征具有显著的影响。 ② 1 0, 2 0 ,是一个截距变量模型; ③ 1 0, 2 0 ,表明城乡居民的消费行为没 有显著差异; ④ 1 0, 2 0 ,这是一个斜率变量模型,在 实际中较少见。
① 当模型含有截距项时,如果一个质 变量有m种特征或状态,只需引入m-1 个虚拟变量。 ②当回归模型不含截距项时,则m种特 征需要引入m个虚拟变量。 例子:战争时期与和平时期的消费函数 美国1940-1950
14
(二)包含多个虚拟变量的截距 变动模型
当一个质的因素具有m种特征时,就需要引 入m-1个虚拟变量。例如季节这个质的因素 具有4个特征,对于具有截距项的回归模型, 我们引入3个虚拟变量:
2
第一节 质的因素与变参数模型
一、虚拟变量的实质
有一类定类数据也是重要的解释变量。 如职业、民族、文化程度、地区、季节等。 如果这些质的因素的影响是显著的,回归 模型的参数就会因此而变化。如果我们忽 略质的因素,仍把模型中的参数看作是固 定不变的,估计结果就不能正确描述经济 变量之间的关系。
3
当我们以1953-2001年的数据建立消费 函数模型时:
当现象受到质的因素的影响时,回归 模型的参数就不再是固定常数。参数 的变化主要表现为:截距变动、截距 和斜率同时变动。
7
(一)包含一个虚拟变量的截距变动模型
如果回归模型中只包含一个质的因素,且这 个因素仅具有两种特征,总回归模型中只需 引入一个虚拟变量。设虚拟变量为D,其取值 为1:表示具有这一特征;0:表示不具有这 一特征。采用最小二乘法估计,得到变量 D 的回归系数,对其进行t检验,如果回归系数 显著地不为 0,认为虚拟变量表示的特征之间 的差异是显著的。
20
用最小二乘法得到以下估计结果:
ˆ 61.7 0.256X 55.7 D 0.252DX S t t t (-2.8) (8.1) (3.9) (-9.2) R 2 0.967 DW 1.67
括号内为t值,模型表明储蓄模型的截 距和斜率在1979年前后有显著差异。 可进一步写成: ˆ 6.0 0.004X 1979年以前: S t t ˆ S 1979年以后: t 61.7 0.256X t 引入虚拟变量后的模型的拟合优度也 得以提高,DW值得到改善。 21
Yt 0 1t 2 t X D t
1 , t X D 0 , t X
24
居民消费例子
可以得到两个不同时期的居民消费趋 势: Yt 0 1t t 1979年以前: Y X 1979年以后: t 0 2 (1 2 )t t 如果统计检验β2不为0,表明消费趋势在 1979年后有明显改变。 如果出现多个转折点的情形,就需要 引入多个虚拟变量。
ˆ 33.4 0.17X S t t R 2 0.833 DW 0.398
为了验证城镇居民储蓄行为的变化, 建立如下截距和斜率同时变动模型:
St 0 1 X t 2 D 3 DX t ut D为虚拟变量: 1 t 1979 D 0 t 1979
5
例如: “1”表示改革开放时期,“0”表示非 改革开放时期; “1”表示存在季节性影响,“0”表示 不存在季节性影响; “1”表示南方,“0”表示北方; “1”表示20-40岁的居民,“0”表示4060岁的居民,可以估计年龄的影响。 这是用虚拟变量代表数量因素 的表示 方法。
6
二、截距变动模型
16
三、截距和斜率同时变动模型
如果质的因素既影响截距,又影响斜 率时,就需要在模型中引入这一双重 的变化。模型的一般形式为:
Yi 0 1 D 1 X i 2 (DX i ) i
D 1, Yi ( 0 1 ) 1 2 X i i D 0, Yi 0 1 X i i
第15章 虚拟变量和变参数模型
在回归分析中,影响被解释变量的因 素除了量的因素外还有质的因素。为 了估计质的因素产生的影响,我们需 要引入一种特殊的变量 :虚拟变量。本 章讨论回归分析中虚拟解释变量的作 用及使用方法。
1
主要内容
第一节 质的因素与变参数模型 第二节 数量因素与变参数模型 第三节 系统变参数模型
* * * * 1, X 1 X i X 2 D1 0, 其他 * 1,X i X 2 D2 0,其他
26
假定E(ui)=Hale Waihona Puke Baidu,有:
X i 18 18 X i 22 X i 22
E(Yi ) 0 1 X i E(Yi ) 0 2 X 1 2 X i
28
一、截距变动模型
设线性回归模型为
Yt 1t 2 X 2t k X kt t 其中, 1t 1 2 Z t
这里, β1t 的变化是系统的,且这种变化完全 由外生变量决定,是一个系统变参数模型。 α 被称为超参数。将 β1t 带入模型后,可采用 OLSE对上述模型中的α和β一并进行估计。如 果Z为虚拟变量,上式就是一个虚拟变量模型, 虚拟变量模型是系统变参数模型的一种特例。
31
例子:系统变参数模型
利用变参数模型对我国城镇居民家庭 居民消费行为的变化进行研究。 没有理由认为1979年以后居民消费行 为是固定不变的。 利用1979-1997城镇居民家庭收支调查 数据,建立一个简单的系统变参数模 型
30
用OLSE对模型中的参数进行估计,然后 对参数进行检验,就可以知道模型中参 数是否存在系统性变化。如果 α2 、 b2 在 统计上显著,则认为 β1 和 β2 存在系统变 化,反之,可看作常数。 如果错误地将 β1 和 β2 当作常数,就等于 错误地解释了经济变量之间的关系,还 可能因为省略了重要的解释变量Z和W而 产生自相关。 特别注意:如果存在严重的异方差性, 虚拟变量就是不适用的。
25
多个转折点模型: 研究不同年龄段收入与年龄的关系 假设考虑三个年龄段:18岁以下、1822岁、22岁以上。 设Y 为收入,X为年龄,X1*=18,X2*=22 模型为:
Yi 0 1 X i 2 D1 X i X 1 3 D2 X i X 2 u
1, 第一季度 D1t 其他 0, 1, 第二季度 D2 t 其他 0, 1, 第三季度 D3t 其他 0,
15
季节哑变量
第四季度为基础类型,其截距项为 α0, 其他三个季度的截距项分别为: α0+α1, α0+α2, α0+α3。当然,也可以以 其他季节为基础类型。
* 1 *
E(Yi ) 0 3 X 2 1 3 X i
其中,β1为18岁以下年龄段的斜率, (β1+β2)为18-22岁年龄段斜率,(β1 +β3)为22岁以上年龄段的斜率
27
第三节 系统变参数模型
虚拟变量的引入,使得回归模型的截 距或斜率不再是固定不变的。但并不 是每年都发生变化。如果将其推广, 就可以描述回归模型的截距和斜率随 样本观测值的改变而系统地改变。这 类模型也包括截距变动模型和截距与 斜率同时变动模型。
四、包含多个质的因素的虚 拟变量模型
如果一个模型中包含多个质的因素的 影响时,就需要引入多个虚拟变量。 例如,性别(男、女)、年龄( 25 以 下、 25-50 岁、 50 以上)、受教育程度 (初中、高中、大学)是影响食品需 求的重要因素,这时可引入以下几个 虚拟变量:
22
D1 D2 D3 D4 D5
12
对于上述例子,两个特征如果引入两 个虚拟变量,则有:
Yi 0 1D1 2 D2 X i ui
1 城镇居民 D1 0 农村居民 1 农村居民 D2 0 城镇居民
这时解释变量的观测值矩阵就会具有 多重共线性。这被称为“多重共线性 陷阱”
13
虚拟变量设置的一般规则
29
二、截距和斜率同时变动模型
它是在上述截距变动模型的基础上, 使得参数β也发生系统地变化,例如, 如果让β2变化,则有
2t b1 b2Wt
将其带入模型有
Yt 1 2 Z t b1 X 2t b2Wt X 2t 3 X 3t k X kt t
10
虚拟变量模型的特点
1.以0、1取值的虚拟变量所反映的内容 可以随意设定,如,城乡居民“D”可 以反过来取值,只是在具体含义上有变 化:这时α1为负数。 2.虚拟变量D=0代表的特征或状态,通 常用于说明基础类型。基础类型是对 比的基础。如农民或城镇居民。
11
3.基础类型的截距系数称为公共截距系 数,D=1所对应的特征的截距系数称为 差别截距系数。 4.如果一个回归模型有截距项,对于具 有两种特征的质的因素,只需要引入 一个虚拟变量。因为引入多个虚拟变 量时,易出现多重共线性。如果回归 模型中没有截距项,具有两种特征的 质的因素,就需要引入两个虚拟变量。