计量经济学 第二版 第8章 虚拟变量
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
房地产价格受到以下因素影响:
易于量化的定量因素,如成本因素、房地产供求因素、经济
因素、人口因素; 不易量化的定性因素,如社会因素、行政因素、区位因素、 个别因素、投机因素、自然因素。在研究房地产价格中这些 定性变量具有不可忽视的重要影响。
问题的一般性描述
定量因素:可直接测度、数值性的因素。 定性因素:属性因素,表征某种属性存在与否的非数值性的 因素。
D=
2 研究生 1 本科 0 大专及以下
这样设置隐含了一个假定:研究生和本科生、 本科生与大专生之间薪酬差异程度相同
“0”和“1”选取原则
虚拟变量取“1”或“0”的原则,应从分析问题的 目的出发予以界定。 从理论上讲,虚拟变量取“0”值通常代表比较的 基础类型;而虚拟变量取“1”值通常代表被比较 的类型。 “0”代表基期(比较的基础,参照物); “1”代表报告期(被比较的效应)。
第八章 虚拟变量
一、虚拟变量及其作用 二、虚拟变量的设定 三、虚拟变量的特殊应用 四、虚拟被解释变量 练习题及参考资料 返回
教学目的及要求
了解虚拟变量的意义和作用,掌握虚拟解释变 量的引入方式与设置原则,掌握EViews软件 的相关应用。 掌握虚拟解释变量在调整季节波动、检验模型 的稳定性、分段回归和混合回归等方面的特殊 应用。 了解线性概率模型、Logit模型和Probit模型 的基本思想和估计方法。
例子:性别、国籍、城乡、政策实施、种族、学历、 季节等等
如:
1 D 0
城镇居民
农村居民 政策紧缩
1 D 0 1 D 0
销售旺季
销售淡季
本科以上学历 本科以下学历
1 D 0
政策宽松
变量的划分应遵循穷举与互斥原则。
2.引入虚拟变量的作用
(1)描述和测量定性因素的影响。检验不同属性类型 的因素对经济系统的影响,这是计量经济学研究的重 点。 (2)能够正确反映经济变量之间的相互关系,提高模 型精度。通过引人虚拟变量之后,我们将不同属性类 型的样本合并,这相当于扩大样本容量。 (3)分离异常数据。将异常数据作为特殊的定性因素 来处理。当样本资料中存在异常数据时,一般有三种 处理方式,一是在样本容量较大的情况下直接剔除异 常数据;二是用平均数等方式修匀异常数据;三是设 置虚拟变量(即将异常数据作为一个特殊的定性因 素): 1 异常时期
11668.59 8687.56 5149.67 4244.10 4937.80 5958.00 5265.91 5206.76 12482.94 8003.54 10007.31 4504.32 6680.18 5075.01 6118.77 4806.95 5035.26 4909.04 6906.93 3980.44 4744.36 4478.35 4462.05 3005.41 3369.34 3531.72 3437.55 2980.10 3346.15 4048.33 3883.10
引例:男女大学生的消费差异
在校大学生的消费行为越来越受到社会的关 注,学生家长也很关心自己的子女上大学的 花费问题。由共青团、全国学联共同发布的 《2004中国大学生消费与生活形态研究报告》 显示,当代大学生在消费结构方面呈现多元 化趋势。大学生除了日常生活费开支以外, 还有人际交往、网络通信、书报、衣着类、 化妆品类、电脑类、旅游类、食品类、学习 用品类、各类考证类等多重消费。
例如,研究居民住房消费函数时,考虑到城乡
观察相关图
操作演示
从相关图可以看出, 前3 个样本点与后 5 个样 本点存在较大差异,因 此,可设置虚拟变量反 映“收入层次”:
1 D 0
中高收入家庭 低收入家庭
将我国城镇居民的彩电需求函数设成: Yi=a+bxi+α Di+β XDi+ε i DATA D1 (由于D是EViews软件的保留字,所以将虚拟变量取名 为D1;另外,此时也可以用SMPL和GENR命令直接生 成D1变量) GENR XD=X*D1 生成变量XD LS Y C X D1 XD 估计需求函数 结果如下图所示:
这里主要介绍虚拟解释变量
二、虚拟变量的设定
问题: 如何将定性因素表述为虚拟变量(即虚拟变 量设置)? 如何将虚拟变量引入回归模型中(即含有虚 拟变量回归模型构建)?
二、虚拟变量的设定
(一)虚拟变量的引入方式 1、加法方式 D=1 a+α 1)无定量变量 a D=0 方差分析模型 Yi=a+α Di+ε i 等价为: 当Di =0时:Yi=a+ε i (基础类型) 当Di =1时:Yi=(a+α )+ε i(比较类型) 以加法方式引入,反映定性因素对截距的影响 ,即 平均水平的差异情况
加法方式引入虚拟变量的主要作用为: 在有定量解释变量的情形下,主要改变方程
截距;
在没有定量解释变量的情形下,主要用于方
差分析。
2、乘法方式
Yi=a+bxi+β XDi+ε i 其中:XDi=Xi*Di, 上式等价于: 当Di =0时:Yi=a+bxi+ε i a 当Di =1时:Yi=a+(b+的设定
(一)虚拟变量的引入方式 1、加法方式 2)有定量变量 Yi=a+bxi+α Di+ε i 等价为: 当Di =0时:Yi=a+bxi+ε i 当Di =1时:Yi=(a+α )+bxi+ε
D=1 a+α α D=0
a
i
以加法方式引入,反映定性因素对截距的影响 ,即平 均水平的差异情况,也就通过调整截距区分异常情况。
若设为:
1 D1 0 其他
本科
1 研究生 D 1 大专以下 3 D2 0 其他 0 其他
yi a bxi 1D1 2 D2 3 D3 i
D1 D2 D3 1
则年薪模型为
此时对任一类公司职员都有: 即产生完全共线性,陷入了“虚拟变量陷阱”。 “虚拟变量陷阱”的实质是:完全多重共线性。
对应的t统 计量值
R2的值
调整的R2值 SE的值
我国城镇居民彩电需求函数的估计结果为:
ˆ yi 57.61 0.0119 xi 31.8731Di 0.0088 XDi
结果表明不同收入家庭对彩电的消费需求,在 截距和斜率上都存在着明显差异。
低收入家庭:
ˆ yi (57.61 31.8731) (0.0119 0.0088) xi ˆ yi 57.61 0.0119 xi
发现不同性别大学生的消费结构有所不同,专科生、 本科生、研究生的消费结构也有所差异。调查发现: 年级越高,消费水平随之增长; 同年级的男生消费高于女生,虽然女生在化妆品、 衣着等方面的投资明显高于男生,然而时代在改变, 对美的追求已不限于女生,男生对于个人形象也逐 渐关注。此外,男生在人际交往上比女生投入的 “人情消费”更多。 为了研究男女大学生、不同层次大学生、不同年级 大学生的消费结构是否有差异,需要将这些非数量 变量引入计量模型,怎样才能在模型中有效地表示 这些因素的作用呢?
D=1
β
i
D=0
以乘法方式引入,可反映定性因素对斜率的影 响,系数β描述了定性因素的影响程度。
(3)一般方式(截距和斜率均发生变化)
Yi=a+bxi+αDi+βXDi+εi
同时用加法与乘法方式引入虚拟变量,然后再利用t 检验判断α 、β 是否显著的不等于零,进而确定虚 拟变量的具体引入方式。
【例7】教材P126表3-8列出了1998年我国城镇居 民人均收入与彩电每百户拥有量的统计资料。
2.虚拟变量的设置原则
⑴ 一个定性因素有多个属性类型 为反映“学历” 的影响,应该设置两个虚拟变量:
1 本科 D1 0 其他
1 研究生 D2 0 其他
而将年薪模型取成(假设以加法方式引入):
Yi=a+bxi+α 1D1i+α 2D2i +ε
i
其等价于: Yi=a+bxi+ε i Yi=(a+α 1)+ bxi+ε Yi=(a+α 2)+ bxi+ε
D 0
正常时期
2.引入虚拟变量的作用(新书) 可以作为属性因素的代表 作为某些非精确计量的数量因素的代表 作为某些偶然因素或政策因素的代表 可以作为时间序列分析季节代表 可以实现分段回归、研究斜率、截距的变动 或比较两个回归模型的结构差异。
虚拟变量包括
虚拟解释变量 虚拟被解释变量
城镇居民 人均可支配收入
26738.48 21402.01 14718.25 13996.55 15849.19 15761.38 14006.27 12565.98 28837.78 20551.72 24610.81 14085.74 19576.83 14021.54 17811.04 14371.56 14367.48 15084.31 21574.72 15451.48 13750.85 15748.67 13839.40 12862.53 14423.93 13544.41 14128.76 11929.78 12691.85 14024.70 12257.52
i i
大专以下(D1=D2=0) 本科(D1=1,D2=0) 研究生(D1=0,D2=1)
年薪 α2 -α1 α1
三类年薪函数的差异情况如下图所示:
上图直观地描述了三类 年薪函数的差异情况, 通过检验、 α1 、α2的 显著性,可以判断学历 层次对职员的年薪是否 有显著影响。 研究生 本科 大专以下
工龄
虚拟变量数量的设置规则
①若定性因素具有 m 个 2) (m 相互排斥属性(或 几个水平),当回归模型有截距项时,只能引入
m -1个虚拟变量;
②当回归模型无截距项时,则可引入 m 量;否则,就会陷入“虚拟变量陷阱 个虚拟变
(2)多个因素各两种类型
如果有m个定性因素,且每个定性因素各有两 个不同的属性类型,则引入 m 个虚拟变量。
中高收入家庭:
89.48 0.003xi
此例说明了三个问题: ①如何设置和在模型中引入虚拟变量; ②如何测量定性因素(即收入层次)的影响; ③如何区分不同类型的模型(即需求函数)。
2.虚拟变量的设置原则
⑴ 一个定性因素有多个相互排斥的类型 例如,设公司职员的年薪Y与工龄X和学历D有关。 学历分成三种:大专以下、本科、研究生。为反映 “学历D” 的影响,若设为:
基本思想:
如何对非定量因素进行回归分析? 直接在回归模型中加入定性因素存在诸多的困难(那些困 难?),是否可将这些定性因素进行量化,以达到定性 因素能与定量因素有着相同作用之目的。 采用“虚拟变量”对定性变量进行量化一种思路。
一、虚拟变量(dummy)及其作用
1.定义 虚拟变量(又称为属性变量、类型变量、二 值变量、范畴变量、定性变量、哑元变量 等),反映品质指标(定性因素)变化、数值只 取0和1的人工变量。一般用字母D(或dummy的 缩写DUM)表示。
2009年我国各地区城乡居民收入差距分析
表1 我国各地区城乡居民收入 单位:元、人
地区
北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西 山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆
农村居民 人均纯收入
数据来源:《中国统计年鉴2010》,中国统计出版社
城乡收入有没有差距?(虚拟变量) 城乡内部收入有没有差距?
依据上述数据,有: TSS=6438.586^2*(621)=2528778770.44316 RSS=7.33E+08 Ess=2528778770.443167.33e+08=1795778770.44316 于是方差分析的结果为 方差来源 离差平方和 组间(ESS) 1795778770.44316 组内(RSS) 7.33E+08 总和(TSS) 2528778770.44316