第七章_虚拟变量
第七章 虚拟变量和随机解释变量 (2)
第七章 虚拟变量和随机解释变量本章将讨论两种不同的模型:虚拟变量模型和随机解释变量模型,以及模型设定的其它问题。
第一节 虚拟变量模型在我们以前考虑的模型中,解释变量都是定量变量(如成本、价格、收入、产出等),但在经济研究中,因变量经常受到一些定性变量的影响(如性别、种族、季节、不同历史时期等),我们把这类定性变量称为虚拟变量。
习惯上用D表示虚拟变量,虚拟变量的取值通常为0和1。
0表示变量具备某种属性,1表示变量不具备某种属性。
一、包含一个虚拟变量的模型如果我们要研究的问题中解释变量只分为两类。
则需引入一个模拟变量。
例9.1建立模型研究中国妇女在工作中是否受到歧视。
令Y=年薪,X=工作年限⎩⎨⎧=,女性,男性101D 可以建立如下模型:i i i i u D B X B B Y +++=210 )1.9( 与一般的回归模型一样,假定0)(=i u E 男性就业者的平均年薪:i i i i X B B D X Y E 10)0,(+== )2.9(女性就业者的平均年薪:210)1,(B X B B D X Y E i i i i ++== )3.9(如果B 2=0则说明不存在性别歧视,如果02<B ,则说明存在性别歧视。
图9.1表明男女就业者的平均年薪对工龄的函数具有相同斜率B 1,即随着工龄的增长男女工资的增长幅度相同;截距不同,说明男女的初始年薪不同。
我们称这种虚拟变量只影响截距不影响斜率的模型为加法模型。
图9.1不同性别就业者的收入(加法模型,B 2<0)如果随着工龄增加,男性与女性的年薪差距也发生变化,则模型(9.1)就变为i i i i i u X D B X B B Y +++=210 )4.9(图9.2描绘了男性年薪增加较快的情况。
我们称虚拟变量只影响斜率而不影响截距的模型为乘法模型如(9.4)如果男性与女性的初始年薪和年薪增加速度都有差异,我们可以将加法模型和乘法模型结合起来,得到如下模型i i i i i i u D B X D B X B B Y ++++=3210 )5.9(模型(9.5)可以用来表示截距和斜率都发生变化的模型。
第7章 虚拟变量与随机解释变量
图7.1.2 虚拟变量对斜率的影响
(3)一般方式 实际应用中,一般是直接以加法和乘法方式引入虚
拟变量,然后再利用t检验判断其系数是否显著的不等
于零,进而确定虚拟变量的具体引入方式。 我们还可以用加法模型与乘法模型相结合的方式建立 模型来拟合经济发展出现转折的情况。
例7.1.6 进口商品消费支出y主要取决于国民生 产总值x的多少。我国改革开放前后,由于国家政策的 变化,及改革开放后外资的大量引入等因素的影响, 1978年前后,y和x
模型结构不稳定。
3.虚拟变量在分段回归中的应用 在实际经济问题的研究中,有些经济关系需要用分段回归加 以描述。假定现在要描绘并比较不同收入水平人群的消费函数, 为简单起见,只取一个解释变量x(收入),设定模型如下:
图7.1.10 分段线性回归模型 现在考虑如何设模型。为满足第一个要求,将所有样本 一起回归,并显示出差异,将模型设定为
第7章 单方程回归模型的几个专门问题
7.1 虚拟变量
7.1.1 虚拟变量的概念及作用
1.虚拟变量的内涵 在计量经济学中,我们把反映定性(或属性)因素变化,取值为0和1的人 工变量称为虚拟变量(Dummy Variable),或称为哑变量、虚设变量、属性变 量、双值变量、类型变量、定性变量、二元型变量、名义变量等,习惯上用 字母D表示。例如
2.虚拟变量在模型结构稳定性检验中的应用
利用不同的样本数据估计同一形式的计量经济模型, 可能会得到不同的估计结果。如果估计的参数之间存在着 显著差异,则称模型结构是不稳定的,反之则认为是稳定 的。
模型结构的稳定性检验主要有两个用途:一是分析模 型结构对样本变化的敏感性,如多重共线性检验;二是比 较两个(或多个)回归模型之间的差异情况,即分析模型结 构是否发生了显著变化。
第七章 虚拟变量 虚拟变量回归模型ppt汇总 计量经济学
• 在回归分析中,被解释变量的影响因素 除了量(或定量)的因素还有质(或定 性)的因素,这些质的因素可能 会使回 归模型中的参数发生变化,为了估计质 的因素产生的影响,在模型中就需要引 入一种特殊的变量—虚拟变量。
2020/6/16
(二)作用
• 1、可以描述和测量定性(或属性)因素 的影响;
2、多个因素各两种属性
• 如果有m个定性因素,且每个因素各有两个不同的 属性类型,则引入m个虚拟变量。
• 例2
• 研究居民住房消费函数时,考虑到城乡差异和不同 收入层次的影响将消费函数设定为:
Yt=b0+b1Xt+a1D1t+ a2D2t+ μt
Yt=居民住房消费支出
Xt=居民可支配收入
1城镇居民
2020/6/16
虚拟变量对截距的影响
y
有适龄子女
b0
o
图1 虚拟变量对截距的影响
x
2020/6/16
2、乘法方式引入虚拟变量
• 基本思想:以乘法方式引入虚拟解释变量
,是在所设定的计量经济模型中,将虚拟 解释变量与其他解释变量相乘作为新 的解释变量,以达到其调整模型斜率的
目的。 • 该方式引入虚拟变量主要作用:
D=
0 无适龄子女
将家庭教育费用支出函数写成:Yt=b0+b1Xt+aDt+μt 即以加法形式引入虚拟变量。
2020/6/16
子女年龄结构不同的家庭教育 费用支出函数为:
• 无适龄子女家庭的教育费用支出函数(D=0 ):Yt=b0+b1Xt+μt
• 有适龄子女家庭的教育费用支出函数(D=1 ):Yt=(b0+a)+b1Xt+μt
第七章 多元回归分析-虚拟变量
线性概率模型(续)
• 即使概率的预测值在 [0,1] 范围内, 我们也可能估 计出x 的变化对成功概率的影响大于+1 或者小于 –1, 因此最好用x 均值附近的变化 • 此外,该模型的扰动项不满足同方差的假设,因 此会对检验产生影响 • 虽然有以上不足,线性概率模型还是可以在y 为 二元变量的情况下作为初步的模型来使用
其它变量与虚拟变量的交叉项
• 也可以考虑虚拟变量 d 和连续变量 x 之间 的交叉项 • y = β0 + δ1d + β1x + δ2d*x + u • 若 d = 0, 那么 y = β0 + β1x + u • 若 d = 1, 那么 y = (β0 + δ1) + (β1+ δ2) x + u • 这里的两种情况可以看成是斜率的变化
虚拟变量回归模型_OK
是一样的,但两者的平均薪金水平相差 a。
可以通过传统的回归检验,对 a的统计显著性进行检验,以
判断男女职工的平均薪金水平是否显著差异。
16
例7.1.4 居民家庭的教育费用支出除了受收入水平的影响之外,还与子女 的年龄结构密切相关。如果家庭中有适龄子女(6-21岁),教育费用支出就 多。因此,为了反映“子女年龄结构”这一定性因素,设置虚拟变量:
当tt*=1978年, Dt = 1
ˆyt = bˆ0 aˆxt + bˆ1 + aˆ xt
32
28
例如,进口消费品数量Y主要取决于国民收入 X的多少,中国在改革开放前后,Y对X的回归关 系明显不同。
这时,可以t*=1978年为转折期,以1978年的 国民收入Xt*为临界值,设如下虚拟变量:
1 Dt = 0
t t* t t*
则进口消费品的回归模型可建立如下:
yt = b0 + b1 xt + a xt xt Dt + ut
9
概念:
同时含有一般解释变量与虚拟变量的模型称为 虚 拟 变 量 模 型或 者 方差 分 析 ( analysis-of variance: ANOVA)模型。
一个以性别为虚拟变量考察企业职工薪金的模型:
Yt = b 0 + b1 Xt + b 2Dt + mt
其中:Yt为企业职工的薪金,Xt为工龄, Dt=1,若是男性,Dt=0,若是女性。
D4=
1 喜欢某种商品 0 不喜欢某种商品
5)表示天气变化的虚拟变量可取为
D5=
1 晴天 0 雨天
6
2.引入虚拟变量的作用 引入虚拟变量的作用,在于将定性因素或属性因素对因变量
第七章 虚拟变量
在E(i)=0 的初始假定下,高中以下、高中、大学 及其以上教育水平下个人保健支出的函数:
高中以下:
E (Yi | X i , D1 0, D2 0) 0 1 X i
• 高中:
E (Yi | X i , D1 1, D2 0) ( 0 2 ) 1 X i
可视为截距项的解释变 量,即α0= α0×1
所以引入4个虚拟变量出现了完全多重共线 性的问题! OLS法不能使用! 这就是虚拟变量陷阱问题!
如果只取六个观测值,其中春季与夏季取了 两次,秋、冬各取到一次观测值,则式中的:
1 1 1 ( X, D) 1 1 1 X 11 X k1 X 12 X k 2 X 13 X k 3 X 14 X k 4 X 15 X k 5 X 16 X k 6 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 1 0 0 1 0 0 0
1.定义
虚拟变量是一用以反映质的属性的一个人工 变量,取值为0或1,通常记为D(Dummy Variable),又可称之为哑变量或二进制变量。 对基础类型或肯定类型设 D=1 对比较类型或否定类型设 D=0 虚拟变量示例 注意:虚拟变量D只能取0或1两个值,即属性 之间不能运算!
(-6.11) (22.89) (4.33) (-2.55)
R 2 =0.9836
由3与4的t检验可知:参数显著地不等于0,强 烈示出两个时期的回归是相异的, 储蓄函数分别为:
1990年前: 1990年后:
ˆ 1649.7 0.4116X Y i i
ˆ 15452 0.8881X Y i i
1 D2 0
第七章虚拟变量
第七章虚拟变量第七章虚拟变量第一节虚拟变量的引入一、什么是虚拟变量前面几章介绍的解释变量都是可以直接度量的,称为定量变量。
如收入、支出、价格、资金等等。
但在现实经济生活中,影响应变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些无法定量的解释变量的影响,如性别、民族、国籍、职业、文化程度、政府经济政策变动等因素,他们只表示某种特征的存在与不存在,所以称为属性变量或定性变量。
属性变量:不能精确计量的说明某种属性或状态的定性变量。
在计量经济模型中,应当包含属性变量对应变量的影响作用。
那怎么才能把定性变量包括在模型中呢?属性变量通常是非数值变量,直接纳入回归方程中进行回归,显然是很困难的。
为此,人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与定量变量一样在回归模型中得以应用。
由于定性变量通常是表明某种特征或属性是否存在,如性别变量中以男性为分析基础的话,那就只有男性、非男性;政策变动变量中以政策不变为基准,则有政策不变,和政策变动;至于有两种以上的状态的话,比如学历分高中,本科,本科以上等等,我们又怎么办呢?把疑问留到后面去解决。
既然定性变量只有存在或不存在两种状态,所以量化的一般方法是取值为0或1。
称为虚拟变量。
虚拟变量:人工构造的取值为0或1的作为属性变量代表的变量。
一般常用D表示。
D=0,表示某种属性或状态不存在D=1,表示某种属性或状态存在比如前面说的性别变量,以男性为基准,则当样本为男性时,虚拟变量取0,当样本为女性时,则虚拟变量取1。
当虚拟变量作为解释变量引入计量经济模型时,对其回归系数的估计和统计检验方法都与定量解释变量相同。
二、虚拟变量的作用1、作为属性因素的代表,如,性别、种族等2、作为某些非精确计量的数量因素的代表,如:受教育程度、年龄段等;3、作为某些偶然因素或政策因素的代表,如战争、911等。
4、时间序列分析中作为季节(月份)的代表(比如对某些明显有淡季、旺季之分的产品)5、分段回归,研究斜率、截距的变动;6、比较两个回归模型;7、虚拟应变量概率模型,应变量本身是定性变量(比如你研究某产品的购买率,应变量本身就是买或不买)三、虚拟变量的设置规则1、虚拟变量D取值为0,还是取值为1,要根据研究的目的决定。
计量经济第七章虚拟变量模型课件
log
P2i P1i
21
21 X i ;
log
P3i P1i
31
31 X i ;
log
P3i P2i
32
32 X i .
其中 P1i、P2i、P3i 分别表示第 个决策者做出 第1、2、3个选择的概率。
23
Yi 0 1D1i ui ,
i 1,2, ,n.
其中 Yi
为个人月支出,
D1i
=
1,已婚 0,未婚
6
• 未婚者的月期望支出为:
E Yi | D1i 0 E 0 1 0 ui 0
• 已婚者的月期望支出为:
E Yi | D1i 1 E 0 1 1 ui 0 1
0 :未婚者的月平均支出 1 :未婚者与已婚者的月平均支出差距 0 1 :已婚者的月平均支出
Zi
f
1
Pi
ln
1
Pi Pi
ln
Pi 1 Pi
0
1
X1i
+
+k X ki
17
二、二元Logit模型估计
• 1.可重复观测数据的二元Logit模型 参数估计
• P144 【相关链接】
• 2.不可重复观测数据的二元Logit模 型参数估计
• P145 【相关链接】
18
三、模型检验与拟合优度
定义:以虚拟变量为因变量的线性回 归模型称为线性概率模型。
(linear probability model,LPM) 模型的基本形式为:
Yi 0 1X1i +2 X2i k Xki ui ,
E Yi | X 0 1X1i +2 X2i k Xki ,
i 1,2, ,n.
计量经济第七章虚拟变量模型
1.线性概率模型(LPM模型)
定义:以虚拟变量为因变量的线性回 归模型称为线性概率模型。 (linear probability model,LPM) 模型的基本形式为:
Yi 0 1 X1i +2 X 2i L k X ki ui ,
E Yi | X 0 1 X1i +2 X 2i L k X ki ,
第八章 虚拟变量模型
1
第一节 第二节 第三节
虚拟变量模型概述 二元概率模型 二元逻辑模型
2
第一节
虚拟变量模型概述
一、虚拟变量的含义 二、虚拟变量作为自变量 三、虚拟变量作为因变量
3
一、虚拟变量的含义
• 一个定性变量,它的可能值只有两个, 也就是说出现或不出现某种属性。一般 地,用1表示出现某种属性,用0表示没 有出现该属性。像这样取值只为0、1的 变量称为虚拟变量或哑变量。 • 并用符号 D表示,从而与常用符号 X区别 开。我们把赋值为0的一类称为基准类。
14
一、二元Probit模型
• 二元Probit模型的基本形式为:
1 Pi Zi 2
Zi
e
t 2 /2
dt
其中 Zi 0 1 X1i +L +k X ki ;是累积标 准正态分布函数,t 为服从标准正态分布 的随机变量。
Zi 1 P i 1 P i 0 1 X1i +L +k X ki .
i 1,2,L , n.
1,已婚 其中 Yi 为个人月支出, D1i = 0,未婚
7
• 未婚者的月期望支出为:
E Yi | D1i 0 E 0 1 g0 ui 0
第七章虚拟变量
如何刻画我国居民在不同时段的消费行为?
基本思路:采用乘法方式引入虚拟变量的手段。显然, 1979年是一个转折点,可考虑在这个转折点作为虚拟 变量设定的依据。若设X* =1979,当 t<X* 时可引 入虚拟变量。(为什么选择1979作为转折点?)
实质:加法方式引入虚拟变量改变的是截距;乘法方式 引入虚拟变量改变的是斜率。
一、加法类型 (1)一个两种属性定性解释变量而无定量变量的情形
例:按性别划分的教授薪金
(2)包含一个定量变量,一个定性变量模型
, 设有模型,yt = 0 + 1 xt + 2D + ut
其中yt,xt为定量变量;D为定性变量。当D = 0 或1时,上述模型可表达为,
令Y代表年薪, X代表教龄,建立模型:
Yi B0 B1Xi B2D2i B3D3i B4D4i ui
可以看出基准类是本科女教师,B0为刚参加工作的本 科女教师的工资;B1为参加工作时间对工资的影响;B2 是性别差异系数;B3和B4为学历差异系数,B3是硕士学 历与本科学历的收入差异,B4是博士学历与本科学历的 收入差异;通过上述分析,我们可以确定Bi的符号。
问题:如何刻画同时发展油菜籽生产和养蜂生产的交互 作用?
基本思想:在模型中引入相关的两个变量的乘积。
区别之处在于,上页定义中的交互效应是针对数量变量, 而现在是定性变量,又应当如何处理?
(3)分段回归分析
作用: 提高模型的描述精度。
虚拟变量也可以用来代表数量因素的不同阶段。分段线性 回归就是类似情形中常见的一种。
第七章_虚拟变量
1 东部
D1= 0
其他
4
•
1 中部
D2= 0 其他
全集分为三类,所以需要两个虚拟变量。
5
第一节 临时虚拟
为了更好地对模型进行估算,经常要在模 型中排除一些又突发时间产生的异常值 (outlier),及其对模型的影响,例如战争、 地震、内乱、罢工等。
例如:y= α +β1 x + β2 D +μ 其中,D为临时虚拟变量 D=1,异常时期 D=0,平时
y= α +β1 x + β2 D1 + β3D2 +μ y为收入 x为教龄
23
1 男性 D1=
0 女性 1 白色 D2= 0 有色人种
24
黑人女教授的平均工资:
Ey= α +β1 x 黑人男教授的平均工资: Ey= α + β2 +β1 x 白人女教授的平均工资: Ey= α + β3 +β1 x 白人男教授的平均工资: Ey= α + β2 + β3 +β1 x 估计上述包括性别和肤色虚拟变量的模型,如果
Hisch = 0 非中学毕业(即中学以下) 1 中学毕业
Age 年龄 模型中包括了2个定量的解释变量和4个定
性的变量,所有变量的系数在5%的水平 都是显著的。
37
当所有的虚拟变量均取值为0时(白人、非 城镇、非西部、非中学毕业),
Wm=37.07+0.403W0+2.26age 当所有的虚拟变量均取值为1时(非白人、
例如:收入决定模型中,除了可以量化的工作年 限和受教育年限这两个变量以外,我们还包括 了性别这一定性的变量,用0表示女性,1表示 男性。模型可以写成:
y= α +β1 x + β2 D +μ 其中,D为虚拟变量 D=0,表示女性, D=1表示男性
第7章 虚拟变量
• d: dummy variable虚拟变量
Case 1: y = b0 + d0d + b1x + u • 考虑一个简单工资方程:
wage = b0 + d0 female + b1 educ + u
• If female =0, then wage = b0 + b1educ + u • If female =1, then wage = (b0 + d0) + b1educ + u •
•
d1 =E(wage|female=1,married=1, educ)- E(wage|female=0,married=1, educ)
= E(wage|female=1,married=0, educ)- E(wage|female=0,married=0, educ)
d2 =E(wage|female=1,married=1, educ)- E(wage|female=1,married=0, educ)
? wage =b0+d1estern+d2 central+b1educ+ u ? wage =b0+d1estern+d2 central+d3western+b1educ+u
• 2. 对于log model, 如何解释虚拟变量系数d0 ? log(wage) = b0 + d0 female+ b1 educ + u
2. 虚拟变量作为解释变量(截距项) Dummy Independent Variables
2. 虚拟变量作为解释变量
• • • • Case 1: y = b0 + d0d + b1x + u Case 2: y = b0 + d1d1 + d1d2 + b1x + u Case 3: y = b0 + d1d1 + d1d2 + d1d1d2 + b1x + u Case 4: y = b0 + d0d + d1d· x+b1x + u
虚拟变量
(-6.550) (8.758) (4.500)
R2 0.904
SE 83.675 D W 1.072
结果显示,各项指标明显改进,农民人均生活费支出 在1994年向上跳跃405.98元
§7.1 含有虚拟解释变量的线性回归模型
例2 Yt 集体单位职工人数
Xt 全民单位职工人数 集体单位职工人数 1955:254万 ;1956:554万 全民单位职工人数 1957:748万; 1958:2316万
§7.1 含有虚拟解释变量的线性回归模型
异常数据的影响——干扰我们对主要规律的认识。 如何对待异常数据——既要看到它偶然、变异的 一面,也要理解它异常中所包含的普遍性——偶然与 变异之可以发生的基础的一面。 简单地直接使用,它们的“变异性”会影响我们 对主要规律的认识;而简单地删除舍去又会丢失它们 所包含的“普遍性信息”。 虚拟变量可以方便、合理地解决这一问题。
Ln
1
p P
0
1LnX
U
§7.2 含有虚拟被解释变量的线性回归模型
Logit函数性质
Ln p 1 P
0
1LnX
1
P
1 aX 1
(X 0)
(a e0 )
1是随机事件 A 出现的机会比率关于解释变量 X 的弹性
§7.2 含有虚拟被解释变量的线性回归模型
(二)Logit模型应用示例
ATB=农户从事农业劳动的时间所占全部劳动时间的比重
D W 2.124
THE END
ቤተ መጻሕፍቲ ባይዱ
例7.4 政策效用评价
3
Y=SYL(失业率), X=ZWKQL(职位空缺率)
2.5
2.02 SYL1.5
SYL
1.01
第7讲虚拟变量
虚拟变量可用于政策分析,虚拟变量取值为0的一组称为控制 组或对照组(control group),取值为1的一组称为实验组
别、出生的月份(是否九月一号之前)、抽烟与否等。
定性信息一般通过定义一个二值变量(binary variable)或 0-1变量刻画。在计量经济学中,它们被称为虚拟变量
(dummy variable)
此类变量的数值只能表示样本中不同个体的特征及它们所
属的分组,数值大小本身并没有实际的意义。
虚拟变量的分类 a.定类/类别变量(nominal/categorical variable) b.定序/有序变量(ordinal variable) c.定距/定量变量(interval variable) 对于只有两种取值的定类变量,可以用0和1表示这两种 取值。这样的变量称为虚拟变量(dummy variable)或二分变 量(binary variable)。 其中,赋值为0的一组称为对照组(reference group)或基 准组(benchmark group)
下面是以单身男性为对照组的回归结果:
lwage mm sf mf …
Coef.
Std. Err.
t
P>t
[95% Conf. 0.1039 -0.2199 -0.3119 …
Interval] 0.3214 -0.0008 -0.0846 …
0.2127 0.0554 3.8400 0.0000 -0.1104 0.0557 -1.9800 0.0480 -0.1983 0.0578 -3.4300 0.0010 … … … …
统计学第七章虚拟变量
GNP 21662.5 26651.9 34560.5 46670.0 57494.9 66850.5 73142.7 76967.2 80579.4 88228.1 94346.4
以Y为储蓄,X为收入,可令:
1990年前: Yi=1+2Xi+1i
1990年后: Yi=1+2Xi+2i
•男职工本科以下学历的平均薪金:
E(Yi | X i , D1 1, D2 0) ( 0 2 ) 1 X i
•女职工本科以上学历的平均薪金:
E(Yi | X i , D1 0, D2 1) ( 0 3 ) 1 X i
•男职工本科以上学历的平均薪金:
于是有: E(Yi | Di 0, X i ) 0 1 X i
E(Yi | Di 1, X i ) ( 0 3 ) ( 1 4 ) X i
可分别表示1990年后期与前期的储蓄函数。
在统计检验中,如果3=0的假设被拒绝,则说明两个时 期中储蓄函数的截距不同,如果4=0的假设被拒绝,则说明两 个时期中储蓄函数的斜率不同。
年薪 Y 男职工 女职工
2 0
工龄 X
又例:在横截面数据基础上,考虑个人保 健支出对个人收入和教育水平的回归。
教育水平考虑三个层次:高中以下, 高中, 大学及其以上。
这时需要引入两个虚拟变量:
1 D1 0 高中 其他 1 D2 0 大学及其以上 其他
模型可设定如下:
Yi 0 1 X i 2 D1 3 D2 i
这种“量化”通常是通过引入“虚拟变量”来完成的。 根据这些因素的属性类型,构造只取“0”或“1”的人工变量, 通常称为虚拟变量(dummy variables),记为D。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ΣX=983.10 ΣY=198.10 ΣXY=11505.46 ΣX2=56993.83 ΣY2=2331.77 Y=-8.5246+0.34891X R2 =0.73985
18
季度虚拟变量数据表
年、季度 1990年1-3月 4-6月 7-9月 10-12月 1991年1-3月 4-6月 7-9月 10-12月 1992年 1-3月 4-6月 7-9月 10-12月 1993年1-3月 4-6月 7-9月 10-12月 1994年1-3月 D1 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 D2 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 D3 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0
40
这样可以用上面的模型表示下列两种情况: α +(β1 +β2) G +µ D=1 I= α +β1 G +µ D=0 不论是哪种情况,截距都没有发生改变。
7
(1)估计模型y= α +βx +µ (2)受1993年冻害的影响,水稻收成指数 为战后最低,出现了歉收。因此设D=1 为1993年,D=0为其他年份,估计下列 模型y= α +β1 x + β2 D +µ
ቤተ መጻሕፍቲ ባይዱ
8
根据数据计算结果如下: ΣX=2351 ΣY=1151 ΣXY=246601 ΣX2=503313 ΣY2=121757 n=11 Y= -48.224 + 0.71521X (73.4) 0.3432) R2=0.3255
10
如果直接去掉1993年的数据,回归的结果 为 Y= -40.292 + 0.69033X (30.898) (0.1450) R2 ==0.7408 经过校正的R2 =0.7084
11
第二节 季度虚拟
季度虚拟是通过回归模型中的常数项的变化 (斜率不变)来掌握季度和月度等季节变化对 模型的不同影响。例如,根据研究人们发现: 利用季度数据,消费对收入回归时,在夏季和 冬季(第二和第四季度)发半年奖和年终奖时, 收入异乎寻常地高,为了消除这种季节变化的 影响,引入季度虚拟变量D1、D2、D3。估计下 列多元回归模型: y= α +β1 x + β2 D1 + β3D2 + β4D3 +µ
25
例子2,假设我们具有消费C和收入Y的数 据,同时有一些定性的变量: S :性别, A:年龄(<25, 25-50, >50) E:教育(高中以下,高中以上,但大学以 下;大学及以上)
26
所估计的模型为: C=α+ β Y + γ 1D1 + γ 2D 2+ γ 3D 3 + γ 4D 4 + γ 5D5 +µ 1 男性 D1 = 0 女性
23
1 男性 D 1= 0 女性 1 白色 D 2= 0 有色人种
24
黑人女教授的平均工资: Ey= α +β1 x 黑人男教授的平均工资: Ey= α + β2 +β1 x 白人女教授的平均工资: Ey= α + β3 +β1 x 白人男教授的平均工资: Ey= α + β2 + β3 +β1 x 估计上述包括性别和肤色虚拟变量的模型,如果 它们的t值显著,表明这两个因素的确影响了收 入
27
1 如果年龄小于25 D2 = 0 其他 1 年龄在25到50之间 D3 = 0 其他 1 教育在高中以下 D4= 0 其他
28
1 学历在高中以上但大学以下 D5 = 0 其他 这是一个典型的截距发生改变的例子。例如: (1) 男性,年龄在25岁以下,大学毕业 C=(α+ γ 1 + γ 2)+ β Y +µ 相当于 D1 =1, D2 =1, D3=0, D4 =0, D5 =0 (2)女性,年龄在50以上,大学学历 C=α+ β Y +µ 相当于 D1 =0, D2 =0, D3=0, D4 =0, D5 =0
(2)城郊,10年内的影院,露天,有停车场, 首映 Y=4.13+5.77+8.21-7.68 -1.13+27.09+31.46logX1+0.81X2 =36.39+31.46logX1+0.81X2 大家还可以计算其他组合下的子模型。
34
例题:持有两份或多份工作,即一份主 业和一份或多份副业的人被称为 (moonlighter),即兼职者。两个学者试图 发现什么决定这些兼职者的工资。它们 根据318个兼职者的样本,估计如下回归 模型:
3
一般情况下,一个定性变量所需要的虚拟变量的 个数取决于该定性的变量的类别,如果有n个 类别,所引进的虚拟变量的个数时m-1,比总 体类别的数量少1。例如性别变量,分为两类 男性或女性,需要一个虚拟变量就可以了;如 果地区发展问题,考虑地区差异,假设把全国 分为东部,中部和西部,就需要2个虚拟变量, 令 1 东部 D1= 0 其他
9
引入临时虚拟变量后,即1993年为异常年份,计 算结果如下: ΣX=2351 ΣY=1151 ΣXY=246601 ΣX2=503313 ΣY2=121757 n=11 ΣD=1 ΣXD=213 ΣYD=78 Y= -40.292 + 0.69033X - 28.748D (30.90) (0.1444) (4.389) 经过校正的R2 =0.8675
19
估计结果如下:
Y= 9.0681+0.068301X-2.05875D1-1.8009D2-0.76594D3 所有t值都在1%的水平显著 经过校正的R2 =0.99390 将第一季度D1=1,D2=0,D3=0 代入上述模型,得到第一季度的子模型 Y=9.0681-2.5875+0.068301X=6.4806+0.068301X
12
1 第一季度 D1 ={ 0 其他 1 第二季度 D2 ={ 0 其他 1 第三季度 D3={ 0 其他
13
季度数据需要3个虚拟变量,月度数据用 11个虚拟变量。实际估计时,会根据t检 验结果去掉不显著的季度或月度虚拟变 量,然后用剩下的虚拟变量再重新估计 就可以了。
14
例题
下面时日本饮食消费总额(食品、饮料等) Y与国内家庭最终消费支出X的变化数据, 首先估计下面的模型:y= α +βx +µ(宏 观恩格尔函数) 引入季度虚拟变量,估计模型 y= α +β1 x + β2 D1 + β3D2 + β4D3 +µ
第七章
虚拟变量 Dummy variables
1
• 本章将主要考虑虚拟的自变量的情况, 即解释变量出现虚拟变量。 • 在现实中,模型中可能会出现一些定性 的变量作为解释变量。通常将虚拟变量 取值0或1,所以虚拟变量又称为二分变 量,用虚拟变量来表示某一性质或属性 出现或不出现。
2
例如:收入决定模型中,除了可以量化的工作年 限和受教育年限这两个变量以外,我们还包括 了性别这一定性的变量,用0表示女性,1表示 男性。模型可以写成: y= α +β1 x + β2 D +µ 其中,D为虚拟变量 D=0,表示女性, D=1表示男性 模型中加入虚拟变量后,更加贴近经济的真实情 况,也更加灵活,收入决定模型我们不仅要考 察一般人口的状况,也关注不同性别的收入决 定模型的差异,从而更有利于政策的制定和调 整。
饮食消费 Y 10.0 11.0 12.2 13.3 10.2 11.0 12.3 13.2 10.5 11.1 12.3 13.4 10.4 11.2 12.2 13.4 10.4
国内最终消费支出X 53.5 54.4 56.4 60.6 54.7 55.4 57.6 62.4 56.5 56.4 58.3 62.6 56.7 56.8 58.9 63.7 58.2
6
例题 下表是日本1985-1995年水稻产量Y和耕种面积的数据X: 年份 产量(10万吨)Y 耕种面积(万公顷)X 1985 116 232 1986 116 228 1987 106 212 1988 99 209 1989 103 208 1990 105 206 1991 96 203 1992 105 209 1993 78 213 1994 120 220 1995 107 211
31
1 首映 D5上映政策= 0 其他 X1平均每场放映的空位率 X2平均影片片租,以分摊到每张电影票上的美分 价计算
32
解释模型。 计算下列子模型: (1)城中心,电影院年龄在10年以上,无 停车场,室内,非首映(即虚拟变量取 值全部为0) Y=4.13+31.46logX1+0.81X2
33
29
例子3,兰普森研究一些定性变量对电影票价的 影响,他估计了下列模型 Y=4.13+5.77D1+8.21D2-7.68D3 -1.13D4+27.09D5+31.46logX1+0.81X2 其中Y成人晚间入场票 (美分) 1 郊区 D1电影院位置= 0 城中心
30
1 建成后或大修后10年内 D2电影院年龄= 0 其他 1 露天 D3电影院类型= 0 室内 1 有 D4停车场= 0 无
15
1 第一季度 D1 ={ 0 其他 1 第二季度 D2 ={ 0 其他 1 第三季度 D3={ 0 其他
16
年、季度 1990年1-3月 4-6月 7-9月 10-12月 1991年1-3月 4-6月 7-9月 10-12月 1992年 1-3月 4-6月 7-9月 10-12月 1993年1-3月 4-6月 7-9月 10-12月 1994年1-3月
4
• D2=
1
中部
0 其他 全集分为三类,所以需要两个虚拟变量。