第七章 虚拟变量
第七章 虚拟变量和随机解释变量 (2)
第七章 虚拟变量和随机解释变量本章将讨论两种不同的模型:虚拟变量模型和随机解释变量模型,以及模型设定的其它问题。
第一节 虚拟变量模型在我们以前考虑的模型中,解释变量都是定量变量(如成本、价格、收入、产出等),但在经济研究中,因变量经常受到一些定性变量的影响(如性别、种族、季节、不同历史时期等),我们把这类定性变量称为虚拟变量。
习惯上用D表示虚拟变量,虚拟变量的取值通常为0和1。
0表示变量具备某种属性,1表示变量不具备某种属性。
一、包含一个虚拟变量的模型如果我们要研究的问题中解释变量只分为两类。
则需引入一个模拟变量。
例9.1建立模型研究中国妇女在工作中是否受到歧视。
令Y=年薪,X=工作年限⎩⎨⎧=,女性,男性101D 可以建立如下模型:i i i i u D B X B B Y +++=210 )1.9( 与一般的回归模型一样,假定0)(=i u E 男性就业者的平均年薪:i i i i X B B D X Y E 10)0,(+== )2.9(女性就业者的平均年薪:210)1,(B X B B D X Y E i i i i ++== )3.9(如果B 2=0则说明不存在性别歧视,如果02<B ,则说明存在性别歧视。
图9.1表明男女就业者的平均年薪对工龄的函数具有相同斜率B 1,即随着工龄的增长男女工资的增长幅度相同;截距不同,说明男女的初始年薪不同。
我们称这种虚拟变量只影响截距不影响斜率的模型为加法模型。
图9.1不同性别就业者的收入(加法模型,B 2<0)如果随着工龄增加,男性与女性的年薪差距也发生变化,则模型(9.1)就变为i i i i i u X D B X B B Y +++=210 )4.9(图9.2描绘了男性年薪增加较快的情况。
我们称虚拟变量只影响斜率而不影响截距的模型为乘法模型如(9.4)如果男性与女性的初始年薪和年薪增加速度都有差异,我们可以将加法模型和乘法模型结合起来,得到如下模型i i i i i i u D B X D B X B B Y ++++=3210 )5.9(模型(9.5)可以用来表示截距和斜率都发生变化的模型。
第7章 虚拟变量与随机解释变量
图7.1.2 虚拟变量对斜率的影响
(3)一般方式 实际应用中,一般是直接以加法和乘法方式引入虚
拟变量,然后再利用t检验判断其系数是否显著的不等
于零,进而确定虚拟变量的具体引入方式。 我们还可以用加法模型与乘法模型相结合的方式建立 模型来拟合经济发展出现转折的情况。
例7.1.6 进口商品消费支出y主要取决于国民生 产总值x的多少。我国改革开放前后,由于国家政策的 变化,及改革开放后外资的大量引入等因素的影响, 1978年前后,y和x
模型结构不稳定。
3.虚拟变量在分段回归中的应用 在实际经济问题的研究中,有些经济关系需要用分段回归加 以描述。假定现在要描绘并比较不同收入水平人群的消费函数, 为简单起见,只取一个解释变量x(收入),设定模型如下:
图7.1.10 分段线性回归模型 现在考虑如何设模型。为满足第一个要求,将所有样本 一起回归,并显示出差异,将模型设定为
第7章 单方程回归模型的几个专门问题
7.1 虚拟变量
7.1.1 虚拟变量的概念及作用
1.虚拟变量的内涵 在计量经济学中,我们把反映定性(或属性)因素变化,取值为0和1的人 工变量称为虚拟变量(Dummy Variable),或称为哑变量、虚设变量、属性变 量、双值变量、类型变量、定性变量、二元型变量、名义变量等,习惯上用 字母D表示。例如
2.虚拟变量在模型结构稳定性检验中的应用
利用不同的样本数据估计同一形式的计量经济模型, 可能会得到不同的估计结果。如果估计的参数之间存在着 显著差异,则称模型结构是不稳定的,反之则认为是稳定 的。
模型结构的稳定性检验主要有两个用途:一是分析模 型结构对样本变化的敏感性,如多重共线性检验;二是比 较两个(或多个)回归模型之间的差异情况,即分析模型结 构是否发生了显著变化。
计量经济学虚拟变量实验报告
第七章虚拟变量实验报告一、研究目的改革开放以来,我国经济保持了长期较快发展,与此同时,我国对外贸易规模也日益增长。
尤其是2002年中国加入世界贸易组织之后,我国对外贸易迅速扩张。
2012年,我国进出口总值38667.6亿美元,与上年同期相比增长6.2%。
至此,我国贸易总额首次超过美国,成为世界贸易规模最大的国家。
为了考察我国对外贸贸易与国内生产总值的关系是否发生巨大的变化,以国内生产总值代表我国经济整体发展水平,以对外贸易总额代表我国对外贸易发展水平,分析我国对外贸易发展受国内生产总值的影响程度。
二、模型设定为研究我国对外贸易发展规模受我国经济发展程度影响,引入国内生产总值为自变量。
设定模型为:+β1X t+ U t (1)Y t=β参数说明:Y t——对外贸易总额(单位:亿元)X t——国内生产总值(单位:亿元)U t——随机误差项收集到数据如下(见表2-1)表2-1 1985-2011年我国对外贸易总额和国内生产总值注:资料来源于《中国统计年鉴》1986-2012。
为了研究1985-2011年期间我国对外贸易总额随国内生产总值的变化规律是否有显著不同,考证对外贸易与国内生产总值随时间变化情况,如下图所示。
图2.1 对外贸易总额(Y)与国内生产总值(X)随时间变化趋势图从图2.1中,可以看出对外贸易总额明显表现出了阶段特征:在2002年、2007年和2009年有明显的转折点。
为了分析对外贸易总额在2002年前后、2007年前后及2009年前后几个阶段的数量关系,引入虚拟变量D1、D2、D3。
这三个年度对应的GDP分别为120332.69亿元、265810.31亿元和340902.81亿元。
据此,设定以下以加法和乘法两种方式同时引入虚拟变量的模型:Y t=β0+β1Xt+β2(Xt-120332.69)D1+β3(Xt-265810.31)D2+β4(Xt-340902.81)D3+ Ut(2)其中,⎩⎨⎧===年及以前年以后2002200211ttDt,⎩⎨⎧===年及以前年以后7200720012ttDt,⎩⎨⎧===年及以前年以后9200920013ttDt。
第七章虚拟变量
当截距与斜率发生变化时,则需要同时引入加法与乘法形 式的虚拟变量。
例,考察1990年前后的中国居民的总储蓄-收入关 系是否已发生变化。 表中给出了中国1979~2001年以城乡储蓄存 款余额代表的居民储蓄以及以GNP代表的居民收 入的数据。
90年前 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990
1 春季 D1t 0 其他
1 夏季 D2t 0 其他
1 秋季 D3t 0 其他
则冷饮销售量的模型为:
Yt 0 1 X1t k X kt 1D1t 2 D2t 3 D3t t
在上述模型中,若再引入第四个虚拟变量:
1 冬季 D4t 0 其他
则冷饮销售模型变量为:
Yt 0 1 X1t k X kt 1D1t 2 D2t 3 D3t 4 D4t t
可以通过传统的回归检验,对2的统计显著性进 行检验,以判断企业男女职工的平均薪金水平是
否有显著差异。
年薪 Y
2 0
男职工 女职工
工龄 X
又例:在横截面数据基础上,考虑个人保 健支出对个人收入和教育水平的回归。
教育水平考虑三个层次:高中以下, 高中, 大学及其以上。
这时需要引入两个虚拟变量:
1 D1 0
消费模型可建立如下:
Ct 0 1 X t 2 Dt X t t
这里,虚拟变量D以与X相乘的方式引入了模型中, 从而可用来考察消费倾向的变化。
假定E(i)= 0,上述模型所表示的函数可化为:
正常年份:
E(Ct | X t , Dt 1) 0 (1 2 ) X t
反常年份:
E(Ct | X t , Dt 0) 0 1 X t
虚拟变量回归模型_OK
是一样的,但两者的平均薪金水平相差 a。
可以通过传统的回归检验,对 a的统计显著性进行检验,以
判断男女职工的平均薪金水平是否显著差异。
16
例7.1.4 居民家庭的教育费用支出除了受收入水平的影响之外,还与子女 的年龄结构密切相关。如果家庭中有适龄子女(6-21岁),教育费用支出就 多。因此,为了反映“子女年龄结构”这一定性因素,设置虚拟变量:
当tt*=1978年, Dt = 1
ˆyt = bˆ0 aˆxt + bˆ1 + aˆ xt
32
28
例如,进口消费品数量Y主要取决于国民收入 X的多少,中国在改革开放前后,Y对X的回归关 系明显不同。
这时,可以t*=1978年为转折期,以1978年的 国民收入Xt*为临界值,设如下虚拟变量:
1 Dt = 0
t t* t t*
则进口消费品的回归模型可建立如下:
yt = b0 + b1 xt + a xt xt Dt + ut
9
概念:
同时含有一般解释变量与虚拟变量的模型称为 虚 拟 变 量 模 型或 者 方差 分 析 ( analysis-of variance: ANOVA)模型。
一个以性别为虚拟变量考察企业职工薪金的模型:
Yt = b 0 + b1 Xt + b 2Dt + mt
其中:Yt为企业职工的薪金,Xt为工龄, Dt=1,若是男性,Dt=0,若是女性。
D4=
1 喜欢某种商品 0 不喜欢某种商品
5)表示天气变化的虚拟变量可取为
D5=
1 晴天 0 雨天
6
2.引入虚拟变量的作用 引入虚拟变量的作用,在于将定性因素或属性因素对因变量
第七章虚拟变量
14
1 第一季度 D1 ={
0 其他
1 第二季度 D2 ={
0 其他 1 第三季度
D3={ 0 其他
15
年、季度
1990年1-3月 4-6月 7-9月 10-12月
1991年1-3月 4-6月 7-9月 10-12月
1992年 1-3月 4-6月 7-9月 10-12月
0
7-9月
0
10-12月
0
1992年 1-3月
1
4-6月
0
7-9月
0
10-12月 0
1993年1-3月
1
4-6月
0
7-9月
0
10-12月 0
1994年1-3月
1
D2
D3
0
0
1
0
0
1
0
0
0
0
1
0
0
1
0
0
0
0
1
0
0
1
0
0
0
0
1
0
0
1
0
0
0
0
18
估计结果如下:
Y= 9.0681+0.068301X-2.05875D1-1.8009D2-0.76594D3 所有t值都在1%的水平显著
103
208
1990
105
206
1991
96
203
1992
105
209
1993
78
213
1994
120
220
计量经济学课件虚拟变量
通过引入虚拟变量,可以更准确地刻画经济现象的非线性特征,从而提高计量经济学模型 的精度和预测能力。
拓展应用领域
虚拟变量的引入使得计量经济学模型能够应用于更多的领域,如金融、环境、社会等,进 一步拓展了计量经济学的应用范围。
未来研究方向和趋势
深入研究虚拟变量的理论 和方法
未来研究将进一步深入探讨虚 拟变量的理论和方法,包括虚 拟变量的选择、设定和估计方 法等,以更准确地刻画经济现 象。
https://
未来研究将积极推动虚拟变量 在交叉学科领域的应用,如环 境经济学、金融经济学等,以 促进不同学科之间的交流和合 作。
WENKU DESIGN
WENKU DESIGN
2023-2026
END
THANKS
感谢观看
KEEP VIEW
WENKU DESIGN
WENKU DESIGN
WENKU
REPORTING
要点二
虚拟变量的设置原则
在设置虚拟变量时,需要遵循完备性 和互斥性的原则。完备性要求虚拟变 量的取值能够覆盖所有可能的情况, 而互斥性则要求不同虚拟变量之间不 能存在重叠或交叉的情况。
要点三
虚拟变量的回归系数 解释
在线性回归模型中,虚拟变量的回归 系数表示该定性因素对因变量的影响 程度。当虚拟变量取值为1时,其对 应的回归系数表示该水平与参照水平 相比对因变量的影响;当虚拟变量取 值为0时,则表示该水平对因变量没 有影响。
参数估计与假设检验
参数估计
采用最小二乘法等估计方法,对引入虚拟变量后的模型进行参数估计,得到各 解释变量的系数估计值。
假设检验
根据研究问题和假设,构建相应的原假设和备择假设,通过t检验、F检验等方 法对参数进行假设检验,判断虚拟变量对模型的影响是否显著。
第七章 虚拟变量
在E(i)=0 的初始假定下,高中以下、高中、大学 及其以上教育水平下个人保健支出的函数:
高中以下:
E (Yi | X i , D1 0, D2 0) 0 1 X i
• 高中:
E (Yi | X i , D1 1, D2 0) ( 0 2 ) 1 X i
可视为截距项的解释变 量,即α0= α0×1
所以引入4个虚拟变量出现了完全多重共线 性的问题! OLS法不能使用! 这就是虚拟变量陷阱问题!
如果只取六个观测值,其中春季与夏季取了 两次,秋、冬各取到一次观测值,则式中的:
1 1 1 ( X, D) 1 1 1 X 11 X k1 X 12 X k 2 X 13 X k 3 X 14 X k 4 X 15 X k 5 X 16 X k 6 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 1 0 0 1 0 0 0
1.定义
虚拟变量是一用以反映质的属性的一个人工 变量,取值为0或1,通常记为D(Dummy Variable),又可称之为哑变量或二进制变量。 对基础类型或肯定类型设 D=1 对比较类型或否定类型设 D=0 虚拟变量示例 注意:虚拟变量D只能取0或1两个值,即属性 之间不能运算!
(-6.11) (22.89) (4.33) (-2.55)
R 2 =0.9836
由3与4的t检验可知:参数显著地不等于0,强 烈示出两个时期的回归是相异的, 储蓄函数分别为:
1990年前: 1990年后:
ˆ 1649.7 0.4116X Y i i
ˆ 15452 0.8881X Y i i
1 D2 0
第七章虚拟变量
第七章虚拟变量第七章虚拟变量第一节虚拟变量的引入一、什么是虚拟变量前面几章介绍的解释变量都是可以直接度量的,称为定量变量。
如收入、支出、价格、资金等等。
但在现实经济生活中,影响应变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些无法定量的解释变量的影响,如性别、民族、国籍、职业、文化程度、政府经济政策变动等因素,他们只表示某种特征的存在与不存在,所以称为属性变量或定性变量。
属性变量:不能精确计量的说明某种属性或状态的定性变量。
在计量经济模型中,应当包含属性变量对应变量的影响作用。
那怎么才能把定性变量包括在模型中呢?属性变量通常是非数值变量,直接纳入回归方程中进行回归,显然是很困难的。
为此,人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与定量变量一样在回归模型中得以应用。
由于定性变量通常是表明某种特征或属性是否存在,如性别变量中以男性为分析基础的话,那就只有男性、非男性;政策变动变量中以政策不变为基准,则有政策不变,和政策变动;至于有两种以上的状态的话,比如学历分高中,本科,本科以上等等,我们又怎么办呢?把疑问留到后面去解决。
既然定性变量只有存在或不存在两种状态,所以量化的一般方法是取值为0或1。
称为虚拟变量。
虚拟变量:人工构造的取值为0或1的作为属性变量代表的变量。
一般常用D表示。
D=0,表示某种属性或状态不存在D=1,表示某种属性或状态存在比如前面说的性别变量,以男性为基准,则当样本为男性时,虚拟变量取0,当样本为女性时,则虚拟变量取1。
当虚拟变量作为解释变量引入计量经济模型时,对其回归系数的估计和统计检验方法都与定量解释变量相同。
二、虚拟变量的作用1、作为属性因素的代表,如,性别、种族等2、作为某些非精确计量的数量因素的代表,如:受教育程度、年龄段等;3、作为某些偶然因素或政策因素的代表,如战争、911等。
4、时间序列分析中作为季节(月份)的代表(比如对某些明显有淡季、旺季之分的产品)5、分段回归,研究斜率、截距的变动;6、比较两个回归模型;7、虚拟应变量概率模型,应变量本身是定性变量(比如你研究某产品的购买率,应变量本身就是买或不买)三、虚拟变量的设置规则1、虚拟变量D取值为0,还是取值为1,要根据研究的目的决定。
计量经济第七章虚拟变量模型课件
log
P2i P1i
21
21 X i ;
log
P3i P1i
31
31 X i ;
log
P3i P2i
32
32 X i .
其中 P1i、P2i、P3i 分别表示第 个决策者做出 第1、2、3个选择的概率。
23
Yi 0 1D1i ui ,
i 1,2, ,n.
其中 Yi
为个人月支出,
D1i
=
1,已婚 0,未婚
6
• 未婚者的月期望支出为:
E Yi | D1i 0 E 0 1 0 ui 0
• 已婚者的月期望支出为:
E Yi | D1i 1 E 0 1 1 ui 0 1
0 :未婚者的月平均支出 1 :未婚者与已婚者的月平均支出差距 0 1 :已婚者的月平均支出
Zi
f
1
Pi
ln
1
Pi Pi
ln
Pi 1 Pi
0
1
X1i
+
+k X ki
17
二、二元Logit模型估计
• 1.可重复观测数据的二元Logit模型 参数估计
• P144 【相关链接】
• 2.不可重复观测数据的二元Logit模 型参数估计
• P145 【相关链接】
18
三、模型检验与拟合优度
定义:以虚拟变量为因变量的线性回 归模型称为线性概率模型。
(linear probability model,LPM) 模型的基本形式为:
Yi 0 1X1i +2 X2i k Xki ui ,
E Yi | X 0 1X1i +2 X2i k Xki ,
i 1,2, ,n.
计量经济第七章虚拟变量模型
1.线性概率模型(LPM模型)
定义:以虚拟变量为因变量的线性回 归模型称为线性概率模型。 (linear probability model,LPM) 模型的基本形式为:
Yi 0 1 X1i +2 X 2i L k X ki ui ,
E Yi | X 0 1 X1i +2 X 2i L k X ki ,
第八章 虚拟变量模型
1
第一节 第二节 第三节
虚拟变量模型概述 二元概率模型 二元逻辑模型
2
第一节
虚拟变量模型概述
一、虚拟变量的含义 二、虚拟变量作为自变量 三、虚拟变量作为因变量
3
一、虚拟变量的含义
• 一个定性变量,它的可能值只有两个, 也就是说出现或不出现某种属性。一般 地,用1表示出现某种属性,用0表示没 有出现该属性。像这样取值只为0、1的 变量称为虚拟变量或哑变量。 • 并用符号 D表示,从而与常用符号 X区别 开。我们把赋值为0的一类称为基准类。
14
一、二元Probit模型
• 二元Probit模型的基本形式为:
1 Pi Zi 2
Zi
e
t 2 /2
dt
其中 Zi 0 1 X1i +L +k X ki ;是累积标 准正态分布函数,t 为服从标准正态分布 的随机变量。
Zi 1 P i 1 P i 0 1 X1i +L +k X ki .
i 1,2,L , n.
1,已婚 其中 Yi 为个人月支出, D1i = 0,未婚
7
• 未婚者的月期望支出为:
E Yi | D1i 0 E 0 1 g0 ui 0
第七章虚拟变量
如何刻画我国居民在不同时段的消费行为?
基本思路:采用乘法方式引入虚拟变量的手段。显然, 1979年是一个转折点,可考虑在这个转折点作为虚拟 变量设定的依据。若设X* =1979,当 t<X* 时可引 入虚拟变量。(为什么选择1979作为转折点?)
实质:加法方式引入虚拟变量改变的是截距;乘法方式 引入虚拟变量改变的是斜率。
一、加法类型 (1)一个两种属性定性解释变量而无定量变量的情形
例:按性别划分的教授薪金
(2)包含一个定量变量,一个定性变量模型
, 设有模型,yt = 0 + 1 xt + 2D + ut
其中yt,xt为定量变量;D为定性变量。当D = 0 或1时,上述模型可表达为,
令Y代表年薪, X代表教龄,建立模型:
Yi B0 B1Xi B2D2i B3D3i B4D4i ui
可以看出基准类是本科女教师,B0为刚参加工作的本 科女教师的工资;B1为参加工作时间对工资的影响;B2 是性别差异系数;B3和B4为学历差异系数,B3是硕士学 历与本科学历的收入差异,B4是博士学历与本科学历的 收入差异;通过上述分析,我们可以确定Bi的符号。
问题:如何刻画同时发展油菜籽生产和养蜂生产的交互 作用?
基本思想:在模型中引入相关的两个变量的乘积。
区别之处在于,上页定义中的交互效应是针对数量变量, 而现在是定性变量,又应当如何处理?
(3)分段回归分析
作用: 提高模型的描述精度。
虚拟变量也可以用来代表数量因素的不同阶段。分段线性 回归就是类似情形中常见的一种。
第七章 多元回归分析-虚拟变量
• • • • • • • • • • 模型 y = β0 + β1x1 + β2x2 + . . . βkxk + u 虚拟变量 表示两个类型的虚拟变量 表示多个类型的虚拟变量 虚拟变量之间的交叉项 虚拟变量和连续变量的交叉项 Chow检验 线性概率模型 项目评估和自选择偏差
多个数值的类型变量(续)
• 任何类型变量都可以变成一组虚拟变量 • 因为参照组由常数项表示了, 那么如果一共 有n 个类型,就应该由n – 1 虚拟变量 • 如果有太多的类型,通常应该对其进行分 组 • 例:前10 , 11 – 25, 等
虚拟变量之间的交叉项
• 求虚拟变量的交叉项就相当于对样本进行进一 步分组 • 例:有男性(male)的虚拟变量和hsgrad (仅仅中学毕业) 和 colgrad (大学毕业)的 虚拟变量 • 加入 male*hsgrad 和 male*colgrad, 共有五个 虚拟变量 –> 共有六种类型 • 参照组是女性中学辍学的人 • 此时hsgrad 代表女性仅仅中学毕业者, colgrad 表示女性大学毕业者 • 交叉项表示男性仅仅中学毕业者和男性大学毕 业者
事实上是经济过程检验
• 做模型回归时我们假设所有的样本观测值 都来自同一个总体,如果总体发生改变, 那么模型参数也将发生改变,因此检验总 体也就是经济过程是否发生改变是用计量 进行经济研究的主要步骤。或者是在进行 经济计量研究时必须考虑的一个重要步 骤。其具体方法是:
• 假设我们在1到n个时期研究经济的结构关系,得到如 下的回归模型: Y=b0+b1X1+b2X2+…+bkXk+e 在第q期(1<q < n)曾出台一个经济政策,为检验该 经济政策是否影响我们所研究的经济结构可作如下检 验: 1、用1到q个观测值对模型进行回归,得到回归残差的平 方和,记为ESS1;用q+1到n个观测值对模型进行回 归,得到回归残差平方和,记为ESS2,并令 ESSUR= ESS1+ ESS2。 2、用1到n个观测值对模型进行回归,得到回归残差平方 和,记为ESSR,这可用下面的F统计量检验在k时期出 台的经济政策是否导致经济结构变化: ( ESS R − ESSUR ) / k F ( k , n − 2k ) = ESSUR /(n − 2k )
虚拟变量
(-6.550) (8.758) (4.500)
R2 0.904
SE 83.675 D W 1.072
结果显示,各项指标明显改进,农民人均生活费支出 在1994年向上跳跃405.98元
§7.1 含有虚拟解释变量的线性回归模型
例2 Yt 集体单位职工人数
Xt 全民单位职工人数 集体单位职工人数 1955:254万 ;1956:554万 全民单位职工人数 1957:748万; 1958:2316万
§7.1 含有虚拟解释变量的线性回归模型
异常数据的影响——干扰我们对主要规律的认识。 如何对待异常数据——既要看到它偶然、变异的 一面,也要理解它异常中所包含的普遍性——偶然与 变异之可以发生的基础的一面。 简单地直接使用,它们的“变异性”会影响我们 对主要规律的认识;而简单地删除舍去又会丢失它们 所包含的“普遍性信息”。 虚拟变量可以方便、合理地解决这一问题。
Ln
1
p P
0
1LnX
U
§7.2 含有虚拟被解释变量的线性回归模型
Logit函数性质
Ln p 1 P
0
1LnX
1
P
1 aX 1
(X 0)
(a e0 )
1是随机事件 A 出现的机会比率关于解释变量 X 的弹性
§7.2 含有虚拟被解释变量的线性回归模型
(二)Logit模型应用示例
ATB=农户从事农业劳动的时间所占全部劳动时间的比重
D W 2.124
THE END
ቤተ መጻሕፍቲ ባይዱ
例7.4 政策效用评价
3
Y=SYL(失业率), X=ZWKQL(职位空缺率)
2.5
2.02 SYL1.5
SYL
1.01
第七章 虚拟变量模型
一、虚拟变量的基本含义
许多经济变量是可以定量度量的,如:商品需 求量、价格、收入、产量等。
但也有一些影响经济变量的因素(品质变量, 也称属性变量或类型变量)无法定量度量,如: 职业、性别、文化程度、地区等对收入的影响, 战争、自然灾害对GDP的影响,季节对某些产 品(如冷饮)销售的影响等等。 为了在模型中能够反映这些因素的影响,并提 高模型的精度,需要将它们“量化”。
C Y D
而不能设置成如下的模型:
Ci 0 0Yi 1D1i 2 D2i i
(*)
其中: D 1i=
1 0
城镇居民 其他
1
D 2i= 0
城镇居民
其他
因为(*)式对于任何被调查的
居民家庭,都有D1i+D2i=1,说明 模型存在着完全的多重共线性, 这时参数将无法估计 ,这就是所 谓的“虚拟陷阱”。
设置虚拟变量: Di 0,样本1
1,样本2
将样本1和样本2的数据合并,估计以下模型:
Yi 1 1 X i 2 1 Di ( 2 1 ) Di X i ei
然后利用t检验判断Di,DiXi的系数的显著性,可
以得到以下四种检验结果: (1)两个系数均等于0,即 2 1 , 2 1 说明两 个回归模型之间没有显著差异,模型结构是稳 定的称之为”重合回归”. (2) Di的系数不等于0,DiXi的系数等于0,即
式中:Q为产量;L为劳动投入;K为资金投入.
1, 表示由甲工艺过程生产 Di 0, 表示由乙工艺过程生产
通过对模型中 进行显著性检验,如果 在统计上显 著,就说明该工艺过程对生产有影响. (二) 虚拟变量在分段回归中的应用 当现象在某一时期(或超过某一数量界限)有一明显转 折点时,可以利用虚拟变量建立分段回归模型.例如:进 口消费品数量Yt,主要取决于总收入X,但1980年前后 我国进口消费品数量明显不同,设 t 1980 年为转折 期,1980年国民总收入为 X ,其他年份国民总收入为 Xt.则进口消费品模型为: Yt 0 1 X t 2 X t X t* Di i 虚拟变量 1, t t * Di 0, t t *
第7讲虚拟变量
虚拟变量可用于政策分析,虚拟变量取值为0的一组称为控制 组或对照组(control group),取值为1的一组称为实验组
别、出生的月份(是否九月一号之前)、抽烟与否等。
定性信息一般通过定义一个二值变量(binary variable)或 0-1变量刻画。在计量经济学中,它们被称为虚拟变量
(dummy variable)
此类变量的数值只能表示样本中不同个体的特征及它们所
属的分组,数值大小本身并没有实际的意义。
虚拟变量的分类 a.定类/类别变量(nominal/categorical variable) b.定序/有序变量(ordinal variable) c.定距/定量变量(interval variable) 对于只有两种取值的定类变量,可以用0和1表示这两种 取值。这样的变量称为虚拟变量(dummy variable)或二分变 量(binary variable)。 其中,赋值为0的一组称为对照组(reference group)或基 准组(benchmark group)
下面是以单身男性为对照组的回归结果:
lwage mm sf mf …
Coef.
Std. Err.
t
P>t
[95% Conf. 0.1039 -0.2199 -0.3119 …
Interval] 0.3214 -0.0008 -0.0846 …
0.2127 0.0554 3.8400 0.0000 -0.1104 0.0557 -1.9800 0.0480 -0.1983 0.0578 -3.4300 0.0010 … … … …
第7章 虚拟变量
• d: dummy variable虚拟变量
Case 1: y = b0 + d0d + b1x + u • 考虑一个简单工资方程:
wage = b0 + d0 female + b1 educ + u
• If female =0, then wage = b0 + b1educ + u • If female =1, then wage = (b0 + d0) + b1educ + u •
•
d1 =E(wage|female=1,married=1, educ)- E(wage|female=0,married=1, educ)
= E(wage|female=1,married=0, educ)- E(wage|female=0,married=0, educ)
d2 =E(wage|female=1,married=1, educ)- E(wage|female=1,married=0, educ)
? wage =b0+d1estern+d2 central+b1educ+ u ? wage =b0+d1estern+d2 central+d3western+b1educ+u
• 2. 对于log model, 如何解释虚拟变量系数d0 ? log(wage) = b0 + d0 female+ b1 educ + u
2. 虚拟变量作为解释变量(截距项) Dummy Independent Variables
2. 虚拟变量作为解释变量
• • • • Case 1: y = b0 + d0d + b1x + u Case 2: y = b0 + d1d1 + d1d2 + b1x + u Case 3: y = b0 + d1d1 + d1d2 + d1d1d2 + b1x + u Case 4: y = b0 + d0d + d1d· x+b1x + u
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上述各例都可以用两种方法来解决,一种 解决方法是分别进行两类情况的回归,然后 看参数是否不同。另一种方法是用全部观测 值作单一回归,将定性因素的影响用虚拟变 量引入模型。
二、虚拟变量设置规则
虚拟变量的设置规则涉及三个方面:
1.“0”和“1”选取原则
虚拟变量取“1”或“0”的原则,应从分析问题的目的出发予以 界定。 从理论上讲,虚拟变量取“0”值通常代表比较的基础类型;而 虚拟变量取“1”值通常代表被比较的类型。 “0”代表基期(比较的基础,参照物);“1”代表报告期(被 比较的效应)。 例如,比较收入时考察性别的作用。当研究男性收入是否高于 女性时,是将女性作为比较的基础(参照物),故有男性为 “1”,女性为“0”。
100 Y 80
70 Y 60 50
60
40 30 20
40
20
120 40 60
情形1(不同类别数据的截距和斜率不同)
情形2(不同类别数据的截距和斜率不同)
例:用虚拟变量区别不同历史时期(file:dummy2) 中国进出口贸易总额数据(1950-1984)见下表。试检验改革前后该 时间序列的斜率是否发生变化。定义虚拟变量D如下 0 (1950 - 1977) D= 1 (1978 - 1984)
在这个问题中,一共有六个类别,但是我们只引入 了三个虚拟变量,而不是五个。 在就多个标准引入虚拟变量时,应该注意每一标准下 引入虚拟变量个数应该是这一标准下类别数目减一,所 以我们在本例中只引入三个虚拟变量而不是五个。如果 引入五个虚拟变量就会陷入虚拟变量陷阱。 运用OLS得到回归结果,再用t检验讨论因素 是否对 模型有影响。 加法方式引入虚拟变量的主要作用为: 1.在有定量解 释变量的情形下,主要改变方程截距; 2.在没有定量 解释变量的情形下,主要用于方 差分析。
i
现在要考虑城镇居民和农村居民 之间的差异,如何办? 为了对 “城镇居民”、“农村居民” 进行区分,分析各自在住房消费 D1i = 1 D1i = 支出 上的差异,设 为城 0 镇; 为农村。 ,则模型为+ 1D1 + ui Yi = 0 + 1 X i (模型有截距,“居民属性”定性变 量只有两个相互排斥的属性状态 ( m=2),故只设定一个虚拟 变量。)
以上只考虑定性变量影响截距,未考虑影响斜率, 即回归系数的变化。当需要考虑时,可建立如下模型: yt = 0 + 1 xt + 2 D + 3 xt D + ut , 其中xt为定量变量;D为定性变量。当D = 0 或1时, 上述模型可表达为, (0 + 2 ) + (1 + 3)xt + ut , (D = 1) yt = 0 + 1 xt + ut , (D = 0) 通过检验 3是否为零,可判断模型斜率是否发生变化。
(3)一个定性解释变量(两种以上属性)和一个 定量解释变量的情形
(4)两个定性解释变量(均为两种属性)和一个 定量解释变量的情形
例:研究大学教师的年薪是否受到性别、学历的影响。性别和学历是两 个不同的标准。按性别标准教师可以分成男、女两类,应该引入一个虚拟 变量;按学历标准大学教师可以分为大学本科学历、硕士学历、博士学历 三类,应该引入两个虚拟变量,共引入三个虚拟变量。
由于YZ捕获了收入和财产之间的相互作用而被称为交互作用 项。 显然,刻画交互作用的方法,在变量为数量(定量)变量时, 是以乘法方式引入虚拟变量的。
例: 是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总 收益的影响研究。模型设定为:
(1)式中, 以加法形式引入虚拟变量暗含何假设? (1)式以加法形式引入,暗含的假设为:菜籽生产和 养蜂生产是分别独立地影响农副品生产总收益。但 是,在发展油菜籽生产时,同时也发展养蜂生产, D 所取得的农副产品生产总收益,可能会高于不发展 养蜂生产的情况。即在是否发展油菜籽生产与养蜂 生产的虚拟变量 和 间,很可能存在着一定的交 互作用,且这种交互影响对被解释变量农副产品生 产收益会有影响。
(2)
若对两个相互排斥的 “居民属性” ,引入m=2个虚拟变量,则 有
则模型(1)为
则对任一家庭都有: D1+D2=1 即产生完全共线,陷入了“虚拟变量陷阱”。“虚拟变 量陷阱”的实质是:完全多重共线性。
第二节 虚拟解释变量的回归
在计量经济学中,通常引入虚拟变量的方式分为加法 方式和乘法方式两种:
虚拟变量数量的设置规则 1.若定性因素具有 m(m≥2) 个相互排 斥属性(或几个水平),当回归模型有截距项 时,只能引入m个虚拟变量; 2.当回归模型无截距项时,则可引入m个虚 拟变量;否则,就会陷入“虚拟变量陷阱”。
例 (虚拟变量陷阱) D1i = 1 研究居民住房消费支出 Y 和居民可支 配收入xi 之间的数量关系。回归 模型的设定为:Y = + X + u () 1 i 0 1 i i
以时间time为解释变量,进出口贸易总额用trade表示,估计结果如 下: trade = 0.37 + 0.066 time - 33.96D + 1.20 time D (1.86) (5.53) (-10.98) (12.42) = 0.37 + 0.066 time (D = 0, 1950 - 1977)
第七章 虚拟变量回归
第一节 虚拟变量的性质
一、基本概念 由于定性变量通常表示的是某种特征的有和无,所 以量化方法可采用取值为1或0。这种变量称作虚拟变 量(dummy variable)。虚拟变量也称:哑元变量、 定性变量等等。通常用字母D或DUM加以表示(英文 中虚拟或者哑元Dummy的缩写)。 用1表示具有某一“品质”或属性,用0表示不具有 该“品质”或属性。 虚拟变量使得我们可以将那些无法定量化的变量引 入回归模型中。 虚拟变量应用于模型中,对其回归系数的估计与检 验方法和定量变量相同。 虚拟变量表示两分性质,即“是”或“否”,“男” 或“女”等。
令Y代表年薪, X代表教龄,建立模型:
Yi B0 B1 X i B2 D2i B3 D3i B4 D4i ui
可以看出基准类是本科女教师,B0为刚参加工作的本 科女教师的工资;B1为参加工作时间对工资的影响;B2 是性别差异系数;B3和B4为学历差异系数,B3是硕士学 历与本科学历的收入差异,B4是博士学历与本科学历的 收入差异;通过上述分析,我们可以确定Bi的符号。
模型的设定形式为 :
回归方程:
显然,只要 、 不同时为零,上述模型就能刻画改革开放前后 我国居民储蓄收入模型结构是否发生变化。
(2)交互效应分析 交互作用 一个解释变量的边际效应有时可能要依赖于另一个 解释变量。为此,Klein和Morgen(1951)提出了有关 收入和财产在决定消费模式上相互作用的假设。他们认 为消费的边际倾向不仅依赖于收入,而且也依赖于财产 的多少 ——较富有的人可能会有不同的消费倾向。
例1:你在研究学历和收入之间的关系,在你的样 本中,既有女性又有男性,你打算研究在此关系中, 性别是否会导致差别。 例2:你在研究某省家庭收入和支出的关系,采集 的样本中既包括农村家庭,又包括城镇家庭,你打 算研究二者的差别。 例3:你在研究通货膨胀的决定因素,在你的观测 期中,有些年份政府实行了一项收入政策。你想检 验该政策是否对通货膨胀产生影响。
- 33.59 + 1.27 time (D = 1, 1978 - 1984) 上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总 额的年平均增长量扩大了18倍。
三、虚拟解释变量综合应用 (1)结构变化分析 结构变化的实质是检验所设定的模型在样本期内是否为同 一模型。显然,平行回归、共点回归、不同的回归三个 模型均不是同一模型。 平行回归模型的假定是斜率保持不变(加法类型,包括 方差分析); 共点回归模型的假定是截距保持不变(乘法类型,又被 称为协方差分析); 不同的回归的模型的假定是截距、斜率均为变动的(加 法、乘法类型的组合)。 例:比较改革开放前、后我国居民(平均)“储 蓄—收入”总量关系是否发生了变化?
2i
问题:如何刻画同时发展油菜籽生产和养蜂生产的交互 作用? 基本思想:在模型中引入相关的两个变量的乘积。 区别之处在于,上页定义中的交互效应是针对数量变量, 而现在是定性变量,又应当如何处理?
(3)分段回归分析 作用: 提高模型的描述精度。 虚拟变量也可以用来代表数量因素的不同阶段。分段线性 回归就是类似情形中常见的一种。 一个例子: 研究不同时段我国居民的消费行为。实际数据 表明,1979年以前,我国居民的消费支出 呈缓慢上 升的趋势;从1979年开始,居民消费支出为快速上升 趋势。 如何刻画我国居民在不同时段的消费行为? 基本思路:采用乘法方式引入虚拟变量的手段。显然, 1979年是一个转折点,可考虑在这个转折点作为虚拟 变量设定的依据。若设X* =1979,当 t<X* 时可引 入虚拟变量。(为什么选择1979作为转折点?) 依据上述思路,有如下描述我国居民在不同时段消费行为 模型:
二、乘法类型 基本思想:以乘法方式引入虚拟变量时,是在所设 立的模型中,将虚拟解释变量与其它解释变量的乘积, 作为新的解释变量出现在模型中,以达到其调整设定模 型斜率系数的目的。或者将模型斜率系数表示为虚拟变 量的函数,以达到相同的目的。 乘法引入方式: (1)截距不变; (2)截距和斜率均发生变化; 分析手段:仍然是条件期望。
2.属性(状态、水平)因素与设置虚拟变量数量的关系
定性因素的属性既可能为两种状态,也可能为多种 状态。例如,性别(男、女两种)、季节(4种状 态),地理位置(东、中、西部),行业归属,所有 制,收入的分组等。
(1,0) 如:(D1 ,D2)= (0,1) (0, 0) 天气阴 天气雨 其 他
实质:加法方式引入虚拟变量改变的是截距;乘法方式 引入虚拟变量改变的是斜率。