第七章 虚拟变量
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上述各例都可以用两种方法来解决,一种 解决方法是分别进行两类情况的回归,然后 看参数是否不同。另一种方法是用全部观测 值作单一回归,将定性因素的影响用虚拟变 量引入模型。
二、虚拟变量设置规则
虚拟变量的设置规则涉及三个方面:
1.“0”和“1”选取原则
虚拟变量取“1”或“0”的原则,应从分析问题的目的出发予以 界定。 从理论上讲,虚拟变量取“0”值通常代表比较的基础类型;而 虚拟变量取“1”值通常代表被比较的类型。 “0”代表基期(比较的基础,参照物);“1”代表报告期(被 比较的效应)。 例如,比较收入时考察性别的作用。当研究男性收入是否高于 女性时,是将女性作为比较的基础(参照物),故有男性为 “1”,女性为“0”。
2.属性(状态、水平)因素与设置虚拟变量数量的关系
定性因素的属性既可能为两种状态,也可能为多种 状态。例如,性别(男、女两种)、季节(4种状 态),地理位置(东、中、西部),行业归属,所有 制,收入的分组等。
(1,0) 如:(D1 ,D2)= (0,1) (0, 0) 天气阴 天气雨 其 他
例1:你在研究学历和收入之间的关系,在你的样 本中,既有女性又有男性,你打算研究在此关系中, 性别是否会导致差别。 例2:你在研究某省家庭收入和支出的关系,采集 的样本中既包括农村家庭,又包括城镇家庭,你打 算研究二者的差别。 例3:你在研究通货膨胀的决定因素,在你的观测 期中,有些年份政府实行了一项收入政策。你想检 验该政策是否对通货膨胀产生影响。
100 Y 80
70 Y 60 50
60
40 30 20
40
20
10
0 0 20 40
X 60
T 0 0 20 40 60
情形1(不同类别数据的截距和斜率不同)
情形2(不同类别数据的截距和斜率不同)
例:用虚拟变量区别不同历史时期(file:dummy2) 中国进出口贸易总额数据(1950-1984)见下表。试检验改革前后该 时间序列的斜率是否发生变化。定义虚拟变量D如下 0 (1950 - 1977) D= 1 (1978 - 1984)
以时间time为解释变量,进出口贸易总额用trade表示,估计结果如 下: trade = 0.37 + 0.066 time - 33.96D + 1.20 time D (1.86) (5.53) (-10.98) (12.42) = 0.37 + 0.066 time (D = 0, 1950 - 1977)
以上只考虑定性变量影响截距,未考虑影响斜率, 即回归系数的变化。当需要考虑时,可建立如下模型: yt = 0 + 1 xt + 2 D + 3 xt D + ut , 其中xt为定量变量;D为定性变量。当D = 0 或1时, 上述模型可表达为, (0 + 2 ) + (1 + 3)xt + ut , (D = 1) yt = 0 + 1 xt + ut , (D = 0) 通过检验 3是否为零,可判断模型斜率是否发生变化。
0 + 1xt + ut ,
(D = 0)
yt = (0 + 2) + 1xt + ut , (D = 1) D = 1或0表示某种特征的有无。反映在数学上是截 距不同的两个函数。若2显著不为零,说明截距不同; 若2为零,说明这种分类无显著性差异。
注意: 关于定性变量中的哪个类别取0,哪个类别取1,是任意 的,不影响检验结果。但解释模型时一定注意1,0是 怎样分配的。 ②定性变量中取值为0所对应的类别称作基础类别(base category)。
模型的设定形式为 :
回归方程:
显然,只要 、 不同时为零,上述模型就能刻画改革开放前后 我国居民储蓄收入模型结构是否发生变化。
(2)交互效应分析 交互作用 一个解释变量的边际效应有时可能要依赖于另一个 解释变量。为此,Klein和Morgen(1951)提出了有关 收入和财产在决定消费模式上相互作用的假设。他们认 为消费的边际倾向不仅依赖于收入,而且也依赖于财产 的多少 ——较富有的人可能会有不同的消费倾向。
由于YZ捕获了收入和财产之间的相互作用而被称为交互作用 项。 显然,刻画交互作用的方法,在变量为数量(定量)变量时, 是以乘法方式引入虚拟变量的。
例: 是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总 收益的影响研究。模型设定为:
Байду номын сангаас
(1)式中, 以加法形式引入虚拟变量暗含何假设? (1)式以加法形式引入,暗含的假设为:菜籽生产和 养蜂生产是分别独立地影响农副品生产总收益。但 是,在发展油菜籽生产时,同时也发展养蜂生产, D 所取得的农副产品生产总收益,可能会高于不发展 养蜂生产的情况。即在是否发展油菜籽生产与养蜂 生产的虚拟变量 和 间,很可能存在着一定的交 互作用,且这种交互影响对被解释变量农副产品生 产收益会有影响。
i
现在要考虑城镇居民和农村居民 之间的差异,如何办? 为了对 “城镇居民”、“农村居民” 进行区分,分析各自在住房消费 D1i = 1 D1i = 支出 上的差异,设 为城 0 镇; 为农村。 ,则模型为+ 1D1 + ui Yi = 0 + 1 X i (模型有截距,“居民属性”定性变 量只有两个相互排斥的属性状态 ( m=2),故只设定一个虚拟 变量。)
令Y代表年薪, X代表教龄,建立模型:
Yi B0 B1 X i B2 D2i B3 D3i B4 D4i ui
可以看出基准类是本科女教师,B0为刚参加工作的本 科女教师的工资;B1为参加工作时间对工资的影响;B2 是性别差异系数;B3和B4为学历差异系数,B3是硕士学 历与本科学历的收入差异,B4是博士学历与本科学历的 收入差异;通过上述分析,我们可以确定Bi的符号。
(2)
若对两个相互排斥的 “居民属性” ,引入m=2个虚拟变量,则 有
则模型(1)为
则对任一家庭都有: D1+D2=1 即产生完全共线,陷入了“虚拟变量陷阱”。“虚拟变 量陷阱”的实质是:完全多重共线性。
第二节 虚拟解释变量的回归
在计量经济学中,通常引入虚拟变量的方式分为加法 方式和乘法方式两种:
在这个问题中,一共有六个类别,但是我们只引入 了三个虚拟变量,而不是五个。 在就多个标准引入虚拟变量时,应该注意每一标准下 引入虚拟变量个数应该是这一标准下类别数目减一,所 以我们在本例中只引入三个虚拟变量而不是五个。如果 引入五个虚拟变量就会陷入虚拟变量陷阱。 运用OLS得到回归结果,再用t检验讨论因素 是否对 模型有影响。 加法方式引入虚拟变量的主要作用为: 1.在有定量解 释变量的情形下,主要改变方程截距; 2.在没有定量 解释变量的情形下,主要用于方 差分析。
(3)一个定性解释变量(两种以上属性)和一个 定量解释变量的情形
(4)两个定性解释变量(均为两种属性)和一个 定量解释变量的情形
例:研究大学教师的年薪是否受到性别、学历的影响。性别和学历是两 个不同的标准。按性别标准教师可以分成男、女两类,应该引入一个虚拟 变量;按学历标准大学教师可以分为大学本科学历、硕士学历、博士学历 三类,应该引入两个虚拟变量,共引入三个虚拟变量。
第七章 虚拟变量回归
第一节 虚拟变量的性质
一、基本概念 由于定性变量通常表示的是某种特征的有和无,所 以量化方法可采用取值为1或0。这种变量称作虚拟变 量(dummy variable)。虚拟变量也称:哑元变量、 定性变量等等。通常用字母D或DUM加以表示(英文 中虚拟或者哑元Dummy的缩写)。 用1表示具有某一“品质”或属性,用0表示不具有 该“品质”或属性。 虚拟变量使得我们可以将那些无法定量化的变量引 入回归模型中。 虚拟变量应用于模型中,对其回归系数的估计与检 验方法和定量变量相同。 虚拟变量表示两分性质,即“是”或“否”,“男” 或“女”等。
- 33.59 + 1.27 time (D = 1, 1978 - 1984) 上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总 额的年平均增长量扩大了18倍。
三、虚拟解释变量综合应用 (1)结构变化分析 结构变化的实质是检验所设定的模型在样本期内是否为同 一模型。显然,平行回归、共点回归、不同的回归三个 模型均不是同一模型。 平行回归模型的假定是斜率保持不变(加法类型,包括 方差分析); 共点回归模型的假定是截距保持不变(乘法类型,又被 称为协方差分析); 不同的回归的模型的假定是截距、斜率均为变动的(加 法、乘法类型的组合)。 例:比较改革开放前、后我国居民(平均)“储 蓄—收入”总量关系是否发生了变化?
实质:加法方式引入虚拟变量改变的是截距;乘法方式 引入虚拟变量改变的是斜率。
一、加法类型 (1)一个两种属性定性解释变量而无定量变量的情形
例:按性别划分的教授薪金
(2)包含一个定量变量,一个定性变量模型
设有模型,yt = 0 + 1 xt + 2D + ut
,
其中yt,xt为定量变量;D为定性变量。当D = 0 或1时,上述模型可表达为,
虚拟变量数量的设置规则 1.若定性因素具有 m(m≥2) 个相互排 斥属性(或几个水平),当回归模型有截距项 时,只能引入m个虚拟变量; 2.当回归模型无截距项时,则可引入m个虚 拟变量;否则,就会陷入“虚拟变量陷阱”。
例 (虚拟变量陷阱) D1i = 1 研究居民住房消费支出 Y 和居民可支 配收入xi 之间的数量关系。回归 模型的设定为:Y = + X + u () 1 i 0 1 i i
2i
问题:如何刻画同时发展油菜籽生产和养蜂生产的交互 作用? 基本思想:在模型中引入相关的两个变量的乘积。 区别之处在于,上页定义中的交互效应是针对数量变量, 而现在是定性变量,又应当如何处理?
(3)分段回归分析 作用: 提高模型的描述精度。 虚拟变量也可以用来代表数量因素的不同阶段。分段线性 回归就是类似情形中常见的一种。 一个例子: 研究不同时段我国居民的消费行为。实际数据 表明,1979年以前,我国居民的消费支出 呈缓慢上 升的趋势;从1979年开始,居民消费支出为快速上升 趋势。 如何刻画我国居民在不同时段的消费行为? 基本思路:采用乘法方式引入虚拟变量的手段。显然, 1979年是一个转折点,可考虑在这个转折点作为虚拟 变量设定的依据。若设X* =1979,当 t<X* 时可引 入虚拟变量。(为什么选择1979作为转折点?) 依据上述思路,有如下描述我国居民在不同时段消费行为 模型:
二、乘法类型 基本思想:以乘法方式引入虚拟变量时,是在所设 立的模型中,将虚拟解释变量与其它解释变量的乘积, 作为新的解释变量出现在模型中,以达到其调整设定模 型斜率系数的目的。或者将模型斜率系数表示为虚拟变 量的函数,以达到相同的目的。 乘法引入方式: (1)截距不变; (2)截距和斜率均发生变化; 分析手段:仍然是条件期望。