第八章虚拟变量回归

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

能否把定性的因素也引入计量经济模型中呢? 怎样才能在模型中有
效地表示这些定性因素的作用呢?
第一节 虚拟变量
一、什么是虚拟变量
变量可分为:
数量变量
属性变量
只表明属性的不连续变量
可用数量表现的连续变量
属性变量:不能精确计量的说明某种属性或状态的定 性变量,如性别、民族、战争、政治事件 ◆本身是定性的二分类变量(非此即彼) ◆本来是连续变量也可转换为二分类变量(上线/不上线) 虚拟变量:人工构造的取值为0和1的作为属性变量代 表的变量称虚拟变量,一般常用D表示 D=0 表示某种属性或状态不出现或不存在 D=1 表示某种属性或状态出现或存在 2
i
大学毕业及以上
1
0
15
E(Yi X i , D 1) ( 0 1 ) X i
Xi
3、解释变量包含一个定量变量和一个两种以上类 型的定性变量的回归
类型:高中以下、中毕业、大学毕业及以上——三种类型
模型
Yi 0 1D1i 2 D2i X i ui
这里的 D1i 和 D2i 代表的是两个不同的定性变量
例如:Y为文化支出,X为收入
D1i 为城镇或农村,D2i是否高中以上
基础类型:
对比类型:
E(Yi X i , D1 0, D2 0) 0 1 X i E(Yi X i , D1 1, D2 0) ( 0 1 ) 1 X i E(Yi X i , D1 0, D2 1) ( 0 2 ) 1 X i
注意:
● u i 应服从基本假定 ●一个定性变量有三种类型,使用了两个虚拟变量, 和 D 代表的是同一个定性变量的两种不同类型 D2 1 ●两个差异截距系数 类型的差异
1

2
表示的都是与基础
●一个定性变量多种类型时,虚拟变量可同时取值 为0,但不能同时取值为1,因同一定性变量的各类 型间“非此即彼”
三、虚拟变量的设置规则
1、虚拟变量取值 虚拟变量D取值为0,还是取值为1,要根据研究的目的 去决定 D取值为0的类型—基础类型,作为比较的基准 D取值为1的类型—与基础类型相比较的类型(目标)
例如:D=0 如果是女性(基础类型)
D=1 如果是男性(比较类型) D=0 为“911事件”以前(基础类型)
Yi 0 1Di X i ui
例如
其中:
Yi 0 1 Di X i ui
Yi Xi
——年工资 ——工龄 D=1 大学毕业及以上 D=0 其他(非大学毕业) 非大学毕业(基准类型) Y
大学毕业
非大学毕业
E(Yi X i , D 0) 0 X i
基础类型: E(Yi X i , D 0) 0 1 X i 对比类型: E(Yi X i , D 1) ( 0 1 ) (1 2 ) X i
可看出:以加法引入虚拟变量D的系数1 是截距的差异系数, 用t检验分别检验 1 和 2 的显著性:可检验此定性变量对 截距和斜率是否有显著影响,即检验两个回归的结构是否有差异 优点: ●用一个回归替代了多个回归,简化了分析过程 以乘法引入虚拟变量D的系数 2 是斜率的差异系数
3
虚拟被解释变量概率模型—离散选择模型
微观计量经济学—受限数据模型
受限数据被解释变量模型(Model with Limited Dependent Variable)
选择性样本模型(Selective Samples Model)

截断(Truncation) 归并(Censored)

持续时间被解释变量模型(Model for Duration Data)
D=1 为“911事件”以后(比较类型)
注意:关于定性变量中的哪个类别取0,哪个类别取1, 是任意的,不影响检验结果。 8
避免落入“虚拟变量陷阱”
2、“虚拟变量陷阱” 如果模型中每个定性因素有m个相互排斥的类型,模型中 只能引入m-1个虚拟变量,否则会出现完全多重共线性 如:一个定性因素有两种类型,设两个虚拟变量 D1和D2 , 例如D1=0为女性,D1=1其他(不是女性); D2=0为男性,D2=1其他(不是男性) 若 D1 0 则 D 2 1 ,若 D1 1 则 D 2 0 ,
引子 定性因素对房地产价格有显著影响吗
不断走高的房地产价格已经成为人们关注的重点,很多研究认为 ,影响商品房价格的因素有多个方面。在影响房地产价格的众多因素 中,成本因素、房地产供求因素、经济因素、人口因素等是比较容易 量化的定量因素;而社会因素、行政因素、区位因素、个别因素、投 机因素、自然因素等是不易量化的定性因素。显然,在研究房地产价 格影响机理时,需要分析那些不易量化的定性因素对房地产价格是否 真的有显著影响。 (注:材料来源于 徐静; 武乐杰, 房地产价格影响因素的解释结构 模型分析, 金融经济, 2009,(10))
6
二、虚拟变量模型
虚拟变量模型:包含有虚拟变量的模型称虚拟变量模型 三种类型: 1、 解释变量中只包含虚拟变量 作用:假定其他因素都不变时,研究某种定性因素对某 定量变量的影响是否表现出显著差异 2、 解释变量中既含定量变量,又含虚拟变量 作用:研究定量变量和虚拟变量同时对被解释变量的影 响 3、 虚拟被解释变量模型:被解释变量本身取值为0或1 作用:适于对某社会经济现象进行“是”与“否”判断 研究 7 例如:线性概率模型、Logistic 模型、Probit模型等
5
2、“归并” (censoring)问题
将被解释变量的处于某一范围的样本观测值都 用一个相同的值代替。 经常出现在“检查”、“调查”活动中,因此 也称为“检查”(censoring) 问题。 需求函数模型中用实际消费量作为需求量的观 测值,如果存在供给限制,就出现“归并”问 题。 被解释变量观测值存在最高和最低的限制。例 如考试成绩,最高100,最低0,出现“归并” 问题。
显然 D1 1 D 2 ,
D1 和D2 会存在完全的多重共线性
9
第二节 虚拟解释变量回归
定性变量作为解释变量,可以影响模型的截距,也可以影 响模型的斜率,还可以同时影响截距和斜率 平行回归 共点回归 相异回归
只使截距变动
只使斜率变动
使截距与斜率都变动
一、用虚拟变量表示不同截矩的回归 ——加法类型
虚拟变量的作用
● 作为属性因素的代表,如性别。 能够正确反应变量之间的关系,提高模型精度。 ● 作为某些非精确计量的数量因素的代表, 如受教育程度(高中及以下、专科、本科及以上) ● 作为某些偶然因素或政策因素的代表,如 战争、“911事件”----即可以处理异常数据 ● 时间序列分析中作为季节(月份)的代表 ● 分段回归——研究斜率、截距的变动 ● 比较两个回归模型的差异 ● 虚拟被解释变量概率模型。
4
1、“截断”(truncation)问题
由于条件限制,样本不能随机抽取,即不能从全 部个体,而只能从一部分个体中随机抽取被解释 变量的样本观测值,而这部分个体的观测值都大 于或者小于某个确定值。 “掐头”或者“去 尾”。
消费函数例题:被解释变量最底200元、最高 10000元。原因:抽样。 离散选择模型的例题:银行贷款,实际上是选择 能够获得贷款的企业是全部有贷款需 性样本,通常表现为“截断样本”。原因:问题 类似的实际 求的企业中表现良好的一部分 问题很多 的局限。
E(Yi X i , D1 1, D2 1) ( 0 1 2 ) 1 X i 用t检验分别检验 1 和 2 的统计显著性:验证两个
定性变量对截距是否有影响
19
注意:

ui
应服从基本假定
● 两个定性变量分别有两种类型,用了两个虚拟变量 (为什么?) 两个定性变量和一个定性变量三种类型都用了两个虚 拟变量,但其性质是不同的 ●K个定性变量可选用K个虚拟变量去表示,这不会 出现“虚拟变量陷阱”(前提是每个定性变量只有两种类型)
X i ——工龄 例如 Yi ——年工资 D1 =1 只是高中毕业 D2 =1 大学毕业及以上 D2 =0 其他 D1=0 其他 基础类型: E(Yi X i , D1 0, D2 0) 0 X i (高中以下)
比较类型:E(Yi X i , D1 1, D2 0) (0 1 ) X i(高中) E(Yi X i , D1 0, D2 1) (0 2 ) X(大学及以上) i 差异截距系数为 1 和 2 问题:如果还要区分“专科”“本科”、“硕士”、“博士” 应怎么办? 16
虚拟变量以加法方式引入模型的作用:改变模型中截距, 10 可分为各种情况去设置虚拟变量
1、模型中的只有一个
如果一个模型中的自变量全都是虚拟变量,通常对 这种模型的分析方法称之为方差分析。(为什么把 这种模型称为方差分析模型?) 一个教授年薪的模型: Yi a Di ui 其中Y 表示教授的年薪
●代表不同定性变量的虚拟变量,可以同时为0,也 可同时为1,因为不同定性变量间没有“非此即彼”的 关系。 20
二、用虚拟变量表示不同斜率的回归 ——乘法类型
模型中斜率系数的差异,可用以乘法形式 引入的虚拟变量去表示。
21
(一)回归模型比较——结构变化的检验
模型
Yi 0 1 Di 1 X i 2 ( Di X i ) ui
估计方法与前面说讲的方法没有区别。由于这个 模型与单因素方差分析统计模型的原理及所要表 达的统计意义一致,因此这个最简单的虚拟变量 模型也称之为方差分析模型
12
13
2 、解释变量包含一个定量变量和一个分为两 种类型的定性变量的回归
例如:Y为服装消费 X为收入, D=0为男性 D=1为女性 分析条件期望: 基础类型: E(Yi X i , D 0) 0 X i 比较类型: E(Yi X i , D 1) ( 0 1 ) X i 1 为差异截距系数 对系数 1 的 t 检验:可检验定性因素对截距是否有 显著影响 注意: ● u i 应服从基本假定 ●这里一个定性变量具有两种类型,只使用了一个虚 14 拟变量(为什么?)
17
对于多于两个类别的定性变量,有些 书上采用设一个虚拟变量而对不同类别采取 赋值不同的方法处理。如: 1 (大学) D= 0 (中学) -1 (小学)。 这种方法妥否???
18
4、解释变量包含一个定量变量和两个定性变量
模型
Yi 0 1D1i 2 D2i X i ui
1 若是男教授 Di 0 若是女教授
两种类型的定性变量作为解释变量
E (Yi | Di 0) E (Yi | Di 1)
11
根据所给数据可以估计出如下结果:
ˆ 18.00 3.28D Y i i t (57.74)(7.439) R 2 0.8737
D2i ——代表第二个定性变量的虚拟变量
( D1i D2i )——描述二者交互效应的虚拟变量
E(Yi X i , D1 1, D2 1) ( 0 1 2 3 ) X i 3 是交互效应的截距差异系数,可以通过对 3 的显著性 23 的检验,判断是否存在交互效应
●可方便地检验各种假设
●合并回归增加了自由度,提高参数估计的精确性 注意: ● 所比较的方程应是同方差,否则会出现异方差

ui
应服从基本假定
22
(二) 交互效应分析 基本思想:分析两个定性变量对被解释变量影响的虚
拟变量模型,暗含着假定:两个定性变量是分别独立影响被 解释变量的。但在实际经济活动中,两个定性变量对被解释 变量的影响可能存在交互作用。为描述这种交互作用,把两 个虚拟变量的乘积以加法形式引入模型。 模型: Yi 0 1 D1i 2 D2i 3 ( D1i D2i ) X i ui 其中: D1i ——代表第一个定性变量的虚拟变量
相关文档
最新文档