第七章 虚拟变量模型
统计学之虚拟变量
(1) 1=1 ,且2=2 ,即两个回归相同,称为重合 回归(Coincident Regressions);
(2) 11 ,但2=2 ,即两个回归的差异仅在其截距, 称为平行回归(Parallel Regressions);
(3) 1=1 ,但22 ,即两个回归的差异仅在其斜率 ,称为汇合回归(Concurrent Regressions);
2. 乘法方式
加法方式引入虚拟变量,考察:截距的不同。 许多情况下:往往是斜率就有变化,或斜率、截距 同时发生变化。 斜率的变化可通过以乘法的方式引入虚拟变量来测 度。
例:根据消费理论,消费水平C主要取决于收 入水平Y,但在一个较长的时期,人们的消费倾 向会发生变化,尤其是在自然灾害、战争等反常 年份,消费倾向往往出现变化。这种消费倾向的 变化可通过在收入的系数中引入虚拟变量来考察 。
可以通过传统的回归检验,对2的统计显著性进 行检验,以判断企业男女职工的平均薪金水平是否 有显著差异。
2 0
又例:在横截面数据基础上,考虑个人保 健支出对个人收入和教育水平的回归。
教育水平考虑三个层次:高中以下, 高中, 大学及其以上。
这时需要引入两个虚拟变量:
模型可设定如下:
在E(i)=0 的初始假定下,高中以下、高中、大学及 其以上教育水平下个人保健支出的函数:
如,设
消费模型可建立如下:
这里,虚拟变量D以与X相乘的方式引入了模型中, 从而可用来考察消费倾向的变化。 假定E(i)= 0,上述模型所表示的函数可化为:
正常年份:
反常年份:
当截距与斜率发生变化时,则需要同时引入加法与乘法形 式的虚拟变量。
例,考察1990年前后的中国居民的总储蓄-收入关 系是否已发生变化。
第七章 虚拟变量 虚拟变量回归模型ppt汇总 计量经济学
• 在回归分析中,被解释变量的影响因素 除了量(或定量)的因素还有质(或定 性)的因素,这些质的因素可能 会使回 归模型中的参数发生变化,为了估计质 的因素产生的影响,在模型中就需要引 入一种特殊的变量—虚拟变量。
2020/6/16
(二)作用
• 1、可以描述和测量定性(或属性)因素 的影响;
2、多个因素各两种属性
• 如果有m个定性因素,且每个因素各有两个不同的 属性类型,则引入m个虚拟变量。
• 例2
• 研究居民住房消费函数时,考虑到城乡差异和不同 收入层次的影响将消费函数设定为:
Yt=b0+b1Xt+a1D1t+ a2D2t+ μt
Yt=居民住房消费支出
Xt=居民可支配收入
1城镇居民
2020/6/16
虚拟变量对截距的影响
y
有适龄子女
b0
o
图1 虚拟变量对截距的影响
x
2020/6/16
2、乘法方式引入虚拟变量
• 基本思想:以乘法方式引入虚拟解释变量
,是在所设定的计量经济模型中,将虚拟 解释变量与其他解释变量相乘作为新 的解释变量,以达到其调整模型斜率的
目的。 • 该方式引入虚拟变量主要作用:
D=
0 无适龄子女
将家庭教育费用支出函数写成:Yt=b0+b1Xt+aDt+μt 即以加法形式引入虚拟变量。
2020/6/16
子女年龄结构不同的家庭教育 费用支出函数为:
• 无适龄子女家庭的教育费用支出函数(D=0 ):Yt=b0+b1Xt+μt
• 有适龄子女家庭的教育费用支出函数(D=1 ):Yt=(b0+a)+b1Xt+μt
第七章 多元回归分析-虚拟变量
线性概率模型(续)
• 即使概率的预测值在 [0,1] 范围内, 我们也可能估 计出x 的变化对成功概率的影响大于+1 或者小于 –1, 因此最好用x 均值附近的变化 • 此外,该模型的扰动项不满足同方差的假设,因 此会对检验产生影响 • 虽然有以上不足,线性概率模型还是可以在y 为 二元变量的情况下作为初步的模型来使用
其它变量与虚拟变量的交叉项
• 也可以考虑虚拟变量 d 和连续变量 x 之间 的交叉项 • y = β0 + δ1d + β1x + δ2d*x + u • 若 d = 0, 那么 y = β0 + β1x + u • 若 d = 1, 那么 y = (β0 + δ1) + (β1+ δ2) x + u • 这里的两种情况可以看成是斜率的变化
第七章虚拟变量
当截距与斜率发生变化时,则需要同时引入加法与乘法形 式的虚拟变量。
例,考察1990年前后的中国居民的总储蓄-收入关 系是否已发生变化。 表中给出了中国1979~2001年以城乡储蓄存 款余额代表的居民储蓄以及以GNP代表的居民收 入的数据。
90年前 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990
1 春季 D1t 0 其他
1 夏季 D2t 0 其他
1 秋季 D3t 0 其他
则冷饮销售量的模型为:
Yt 0 1 X1t k X kt 1D1t 2 D2t 3 D3t t
在上述模型中,若再引入第四个虚拟变量:
1 冬季 D4t 0 其他
则冷饮销售模型变量为:
Yt 0 1 X1t k X kt 1D1t 2 D2t 3 D3t 4 D4t t
可以通过传统的回归检验,对2的统计显著性进 行检验,以判断企业男女职工的平均薪金水平是
否有显著差异。
年薪 Y
2 0
男职工 女职工
工龄 X
又例:在横截面数据基础上,考虑个人保 健支出对个人收入和教育水平的回归。
教育水平考虑三个层次:高中以下, 高中, 大学及其以上。
这时需要引入两个虚拟变量:
1 D1 0
消费模型可建立如下:
Ct 0 1 X t 2 Dt X t t
这里,虚拟变量D以与X相乘的方式引入了模型中, 从而可用来考察消费倾向的变化。
假定E(i)= 0,上述模型所表示的函数可化为:
正常年份:
E(Ct | X t , Dt 1) 0 (1 2 ) X t
反常年份:
E(Ct | X t , Dt 0) 0 1 X t
虚拟变量回归模型_OK
是一样的,但两者的平均薪金水平相差 a。
可以通过传统的回归检验,对 a的统计显著性进行检验,以
判断男女职工的平均薪金水平是否显著差异。
16
例7.1.4 居民家庭的教育费用支出除了受收入水平的影响之外,还与子女 的年龄结构密切相关。如果家庭中有适龄子女(6-21岁),教育费用支出就 多。因此,为了反映“子女年龄结构”这一定性因素,设置虚拟变量:
当tt*=1978年, Dt = 1
ˆyt = bˆ0 aˆxt + bˆ1 + aˆ xt
32
28
例如,进口消费品数量Y主要取决于国民收入 X的多少,中国在改革开放前后,Y对X的回归关 系明显不同。
这时,可以t*=1978年为转折期,以1978年的 国民收入Xt*为临界值,设如下虚拟变量:
1 Dt = 0
t t* t t*
则进口消费品的回归模型可建立如下:
yt = b0 + b1 xt + a xt xt Dt + ut
9
概念:
同时含有一般解释变量与虚拟变量的模型称为 虚 拟 变 量 模 型或 者 方差 分 析 ( analysis-of variance: ANOVA)模型。
一个以性别为虚拟变量考察企业职工薪金的模型:
Yt = b 0 + b1 Xt + b 2Dt + mt
其中:Yt为企业职工的薪金,Xt为工龄, Dt=1,若是男性,Dt=0,若是女性。
D4=
1 喜欢某种商品 0 不喜欢某种商品
5)表示天气变化的虚拟变量可取为
D5=
1 晴天 0 雨天
6
2.引入虚拟变量的作用 引入虚拟变量的作用,在于将定性因素或属性因素对因变量
第七章 虚拟变量
在E(i)=0 的初始假定下,高中以下、高中、大学 及其以上教育水平下个人保健支出的函数:
高中以下:
E (Yi | X i , D1 0, D2 0) 0 1 X i
• 高中:
E (Yi | X i , D1 1, D2 0) ( 0 2 ) 1 X i
可视为截距项的解释变 量,即α0= α0×1
所以引入4个虚拟变量出现了完全多重共线 性的问题! OLS法不能使用! 这就是虚拟变量陷阱问题!
如果只取六个观测值,其中春季与夏季取了 两次,秋、冬各取到一次观测值,则式中的:
1 1 1 ( X, D) 1 1 1 X 11 X k1 X 12 X k 2 X 13 X k 3 X 14 X k 4 X 15 X k 5 X 16 X k 6 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 1 0 0 1 0 0 0
1.定义
虚拟变量是一用以反映质的属性的一个人工 变量,取值为0或1,通常记为D(Dummy Variable),又可称之为哑变量或二进制变量。 对基础类型或肯定类型设 D=1 对比较类型或否定类型设 D=0 虚拟变量示例 注意:虚拟变量D只能取0或1两个值,即属性 之间不能运算!
(-6.11) (22.89) (4.33) (-2.55)
R 2 =0.9836
由3与4的t检验可知:参数显著地不等于0,强 烈示出两个时期的回归是相异的, 储蓄函数分别为:
1990年前: 1990年后:
ˆ 1649.7 0.4116X Y i i
ˆ 15452 0.8881X Y i i
1 D2 0
第七章虚拟变量
第七章虚拟变量第七章虚拟变量第一节虚拟变量的引入一、什么是虚拟变量前面几章介绍的解释变量都是可以直接度量的,称为定量变量。
如收入、支出、价格、资金等等。
但在现实经济生活中,影响应变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些无法定量的解释变量的影响,如性别、民族、国籍、职业、文化程度、政府经济政策变动等因素,他们只表示某种特征的存在与不存在,所以称为属性变量或定性变量。
属性变量:不能精确计量的说明某种属性或状态的定性变量。
在计量经济模型中,应当包含属性变量对应变量的影响作用。
那怎么才能把定性变量包括在模型中呢?属性变量通常是非数值变量,直接纳入回归方程中进行回归,显然是很困难的。
为此,人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与定量变量一样在回归模型中得以应用。
由于定性变量通常是表明某种特征或属性是否存在,如性别变量中以男性为分析基础的话,那就只有男性、非男性;政策变动变量中以政策不变为基准,则有政策不变,和政策变动;至于有两种以上的状态的话,比如学历分高中,本科,本科以上等等,我们又怎么办呢?把疑问留到后面去解决。
既然定性变量只有存在或不存在两种状态,所以量化的一般方法是取值为0或1。
称为虚拟变量。
虚拟变量:人工构造的取值为0或1的作为属性变量代表的变量。
一般常用D表示。
D=0,表示某种属性或状态不存在D=1,表示某种属性或状态存在比如前面说的性别变量,以男性为基准,则当样本为男性时,虚拟变量取0,当样本为女性时,则虚拟变量取1。
当虚拟变量作为解释变量引入计量经济模型时,对其回归系数的估计和统计检验方法都与定量解释变量相同。
二、虚拟变量的作用1、作为属性因素的代表,如,性别、种族等2、作为某些非精确计量的数量因素的代表,如:受教育程度、年龄段等;3、作为某些偶然因素或政策因素的代表,如战争、911等。
4、时间序列分析中作为季节(月份)的代表(比如对某些明显有淡季、旺季之分的产品)5、分段回归,研究斜率、截距的变动;6、比较两个回归模型;7、虚拟应变量概率模型,应变量本身是定性变量(比如你研究某产品的购买率,应变量本身就是买或不买)三、虚拟变量的设置规则1、虚拟变量D取值为0,还是取值为1,要根据研究的目的决定。
计量经济第七章虚拟变量模型课件
log
P2i P1i
21
21 X i ;
log
P3i P1i
31
31 X i ;
log
P3i P2i
32
32 X i .
其中 P1i、P2i、P3i 分别表示第 个决策者做出 第1、2、3个选择的概率。
23
Yi 0 1D1i ui ,
i 1,2, ,n.
其中 Yi
为个人月支出,
D1i
=
1,已婚 0,未婚
6
• 未婚者的月期望支出为:
E Yi | D1i 0 E 0 1 0 ui 0
• 已婚者的月期望支出为:
E Yi | D1i 1 E 0 1 1 ui 0 1
0 :未婚者的月平均支出 1 :未婚者与已婚者的月平均支出差距 0 1 :已婚者的月平均支出
Zi
f
1
Pi
ln
1
Pi Pi
ln
Pi 1 Pi
0
1
X1i
+
+k X ki
17
二、二元Logit模型估计
• 1.可重复观测数据的二元Logit模型 参数估计
• P144 【相关链接】
• 2.不可重复观测数据的二元Logit模 型参数估计
• P145 【相关链接】
18
三、模型检验与拟合优度
定义:以虚拟变量为因变量的线性回 归模型称为线性概率模型。
(linear probability model,LPM) 模型的基本形式为:
Yi 0 1X1i +2 X2i k Xki ui ,
E Yi | X 0 1X1i +2 X2i k Xki ,
i 1,2, ,n.
虚拟变量模型
建立如下模型:
注意:参照组是什么?
第14页/共30页
假定E(i)=0,则: 对于女职工(D=0),其平均薪金为:
对于男职工(D=1),其平均薪金为:
可以看出,虚拟变量对应的回归系数β2表示:虚拟变量取值为1所代表的类别(男)相对于参照类别(取值为0,女)在因变量上的平均差异,反映出定性变量取值的变化对因变量的影响 从回归模型上看,两个组上的回归模型的差异主要在于截距的不同
§5.1 虚拟变量模型
第1页/共30页
一、虚拟变量的含义
一种人为构造的、取值仅为“1”或“0”的变量
第2页/共30页
1. 定量变量和定性变量
定量变量:测度等级为间距(interval)或比率(ratio)尺度的变量,如需求量、价格、收入、产量等其取值为具有实际含义的数据可以在建模过程中直接使用这些变量及其数据定性变量:测度等级名义(nominal)或顺序(ordinal)尺度的变量,如性别、教育程度等其取值为类别或顺序,可用数值表示,但数值不具有实际含义,仅是表示类别或序次的代码性别(1-男;0-女)、教育程度(1-小学、2-初中、3-高中、4-大学)实际建模中,考虑定性变量的影响是必要的,但直接使用定性变量的取值则具有不合理性
由3与4的t检验可知:参数显著地不等于0,强烈显示出两个时期的回归是相异的,
1990年前:
1990年后:
储蓄函数分别为:
第27页/共30页
(三)临界指标的虚拟变量的引入
在经济发生转折时期,可通过建立临界指标的虚拟变量模型来反映。
则进口消费品的回归模型可建立如下:
例:进口消费品数量Y主要取决于国民收入X的多少,中国在改革开放前后,Y对X的回归关系明显不同。 这时,可以t*=1979年为转折期,以1979年的国民收入Xt*为临界值,设如下虚拟变量:
第七章 虚拟变量回归模型
1-4
第二节 解释变量均为定性变量的模型
方差分析模型( ANOVA ,analysis-of-variance models) • 回归模型中解释变量都是虚拟变量的模型 • 例如,一个以性别为虚拟变量考察高校教授薪 金的模型 Yi 1 2 Di ui
其中:Yi为高校教授的薪金 Di=1,若是男性;Di=0,若是女性
ˆ Yi 0.2610 2.3606 D2i 1.7327 D3i 0.8028 X i (0.2357) (5.4873) (2.1803) (9.9094)
1-24
R 2 0.203
第五节 解释变量包含一个定量变量、多个定 性变量的模型
交互影响问题
Yi 1 2 D2i 3 D3i 4 X i ui
1-33
一个例子:是那种模型关系?
在统计检验中,如果4=0的假设被拒绝,则说明两 个时期中储蓄函数的斜率不同。
具体的回归结果为:
ˆ Yi 15452 0.8881 i 138023Di 0.4765 i X i X . D
(-6.11) (22.89) (4.33) (-2.55)
(9.9095)
1-26
第五节 解释变量包含一个定量变量、多个定 性变量的模型
模型的一般化:多定量变量和多定性变量混合
例七 表 10-5(精要) Aggregate contributions U.S. political parties, 1982.
1-27
第六节 比较两个回归
如何分析定量变量与定性变量的交互影响?
Di为引入的虚拟变量: 于是有:
1 Di 0
90年前 90年后
E (Yi | Di 0, X i ) 1 2 X i
计量经济第七章虚拟变量模型
1.线性概率模型(LPM模型)
定义:以虚拟变量为因变量的线性回 归模型称为线性概率模型。 (linear probability model,LPM) 模型的基本形式为:
Yi 0 1 X1i +2 X 2i L k X ki ui ,
E Yi | X 0 1 X1i +2 X 2i L k X ki ,
第八章 虚拟变量模型
1
第一节 第二节 第三节
虚拟变量模型概述 二元概率模型 二元逻辑模型
2
第一节
虚拟变量模型概述
一、虚拟变量的含义 二、虚拟变量作为自变量 三、虚拟变量作为因变量
3
一、虚拟变量的含义
• 一个定性变量,它的可能值只有两个, 也就是说出现或不出现某种属性。一般 地,用1表示出现某种属性,用0表示没 有出现该属性。像这样取值只为0、1的 变量称为虚拟变量或哑变量。 • 并用符号 D表示,从而与常用符号 X区别 开。我们把赋值为0的一类称为基准类。
14
一、二元Probit模型
• 二元Probit模型的基本形式为:
1 Pi Zi 2
Zi
e
t 2 /2
dt
其中 Zi 0 1 X1i +L +k X ki ;是累积标 准正态分布函数,t 为服从标准正态分布 的随机变量。
Zi 1 P i 1 P i 0 1 X1i +L +k X ki .
i 1,2,L , n.
1,已婚 其中 Yi 为个人月支出, D1i = 0,未婚
7
• 未婚者的月期望支出为:
E Yi | D1i 0 E 0 1 g0 ui 0
第七章虚拟变量
如何刻画我国居民在不同时段的消费行为?
基本思路:采用乘法方式引入虚拟变量的手段。显然, 1979年是一个转折点,可考虑在这个转折点作为虚拟 变量设定的依据。若设X* =1979,当 t<X* 时可引 入虚拟变量。(为什么选择1979作为转折点?)
实质:加法方式引入虚拟变量改变的是截距;乘法方式 引入虚拟变量改变的是斜率。
一、加法类型 (1)一个两种属性定性解释变量而无定量变量的情形
例:按性别划分的教授薪金
(2)包含一个定量变量,一个定性变量模型
, 设有模型,yt = 0 + 1 xt + 2D + ut
其中yt,xt为定量变量;D为定性变量。当D = 0 或1时,上述模型可表达为,
令Y代表年薪, X代表教龄,建立模型:
Yi B0 B1Xi B2D2i B3D3i B4D4i ui
可以看出基准类是本科女教师,B0为刚参加工作的本 科女教师的工资;B1为参加工作时间对工资的影响;B2 是性别差异系数;B3和B4为学历差异系数,B3是硕士学 历与本科学历的收入差异,B4是博士学历与本科学历的 收入差异;通过上述分析,我们可以确定Bi的符号。
问题:如何刻画同时发展油菜籽生产和养蜂生产的交互 作用?
基本思想:在模型中引入相关的两个变量的乘积。
区别之处在于,上页定义中的交互效应是针对数量变量, 而现在是定性变量,又应当如何处理?
(3)分段回归分析
作用: 提高模型的描述精度。
虚拟变量也可以用来代表数量因素的不同阶段。分段线性 回归就是类似情形中常见的一种。
第七章_虚拟变量
1 东部
D1= 0
其他
4
•
1 中部
D2= 0 其他
全集分为三类,所以需要两个虚拟变量。
5
第一节 临时虚拟
为了更好地对模型进行估算,经常要在模 型中排除一些又突发时间产生的异常值 (outlier),及其对模型的影响,例如战争、 地震、内乱、罢工等。
例如:y= α +β1 x + β2 D +μ 其中,D为临时虚拟变量 D=1,异常时期 D=0,平时
y= α +β1 x + β2 D1 + β3D2 +μ y为收入 x为教龄
23
1 男性 D1=
0 女性 1 白色 D2= 0 有色人种
24
黑人女教授的平均工资:
Ey= α +β1 x 黑人男教授的平均工资: Ey= α + β2 +β1 x 白人女教授的平均工资: Ey= α + β3 +β1 x 白人男教授的平均工资: Ey= α + β2 + β3 +β1 x 估计上述包括性别和肤色虚拟变量的模型,如果
Hisch = 0 非中学毕业(即中学以下) 1 中学毕业
Age 年龄 模型中包括了2个定量的解释变量和4个定
性的变量,所有变量的系数在5%的水平 都是显著的。
37
当所有的虚拟变量均取值为0时(白人、非 城镇、非西部、非中学毕业),
Wm=37.07+0.403W0+2.26age 当所有的虚拟变量均取值为1时(非白人、
例如:收入决定模型中,除了可以量化的工作年 限和受教育年限这两个变量以外,我们还包括 了性别这一定性的变量,用0表示女性,1表示 男性。模型可以写成:
y= α +β1 x + β2 D +μ 其中,D为虚拟变量 D=0,表示女性, D=1表示男性
第七章 虚拟变量和随机解释变量 (2)
第七章 虚拟变量和随机解释变量本章将讨论两种不同的模型:虚拟变量模型和随机解释变量模型,以及模型设定的其它问题。
第一节 虚拟变量模型在我们以前考虑的模型中,解释变量都是定量变量(如成本、价格、收入、产出等),但在经济研究中,因变量经常受到一些定性变量的影响(如性别、种族、季节、不同历史时期等),我们把这类定性变量称为虚拟变量。
习惯上用D表示虚拟变量,虚拟变量的取值通常为0和1。
0表示变量具备某种属性,1表示变量不具备某种属性。
一、包含一个虚拟变量的模型如果我们要研究的问题中解释变量只分为两类。
则需引入一个模拟变量。
例9.1建立模型研究中国妇女在工作中是否受到歧视。
令Y=年薪,X=工作年限⎩⎨⎧=,女性,男性101D 可以建立如下模型:i i i i u D B X B B Y +++=210 )1.9( 与一般的回归模型一样,假定0)(=i u E 男性就业者的平均年薪:i i i i X B B D X Y E 10)0,(+== )2.9(女性就业者的平均年薪:210)1,(B X B B D X Y E i i i i ++== )3.9(如果B 2=0则说明不存在性别歧视,如果02<B ,则说明存在性别歧视。
图9.1表明男女就业者的平均年薪对工龄的函数具有相同斜率B 1,即随着工龄的增长男女工资的增长幅度相同;截距不同,说明男女的初始年薪不同。
我们称这种虚拟变量只影响截距不影响斜率的模型为加法模型。
图9.1不同性别就业者的收入(加法模型,B 2<0)如果随着工龄增加,男性与女性的年薪差距也发生变化,则模型(9.1)就变为i i i i i u X D B X B B Y +++=210 )4.9(图9.2描绘了男性年薪增加较快的情况。
我们称虚拟变量只影响斜率而不影响截距的模型为乘法模型如(9.4)如果男性与女性的初始年薪和年薪增加速度都有差异,我们可以将加法模型和乘法模型结合起来,得到如下模型i i i i i i u D B X D B X B B Y ++++=3210 )5.9(模型(9.5)可以用来表示截距和斜率都发生变化的模型。
《虚拟变量模型 》课件
业类型的效应,可以使用虚拟变量模型。理分类变量对连续结果的影响,能够同时分析多个分类变量的效应,有助于更好地理解数据之 间的关系。
缺点
当分类变量类别过多时,会导致虚拟变量的数量增加,从而增加模型的复杂性和计算负担。此外,虚 拟变量模型对于非线性关系的处理能力有限,可能无法准确捕捉数据之间的关系。
虚拟变量模型
目录
• 虚拟变量模型概述 • 虚拟变量模型的建立 • 虚拟变量模型的参数估计与检验 • 虚拟变量模型的应用案例 • 虚拟变量模型的局限性及未来研究方向 • 结论
01
虚拟变量模型概述
定义与特点
定义
虚拟变量模型是一种统计学方法,用于处理分类变量对连续结果的影响。它通过引入一系列二进制(或多元)虚 拟变量来代表分类变量的不同类别。
详细描述
通过引入虚拟变量,研究者可以控制和比较不同类别消费者之间的差异,例如 不同年龄、性别、收入水平的消费者在产品选择、品牌忠诚度和价格敏感度等 方面的表现。
案例二:市场细分研究
总结词
虚拟变量模型在市场细分研究中起到关 键作用,帮助企业了解不同客户群体的 需求和行为特征,从而制定更精准的市 场策略。
确定虚拟变量的数量
根据分类变量的数量,确定需要创建的虚拟变量的数量。
命名虚拟变量
为每个虚拟变量选择一个有意义的名称,以便在模型中使用。
构建虚拟变量模型
确定模型的形式
根据研究假设和问题,选择适合的模型形式 ,如线性回归、逻辑回归等。
引入虚拟变量
将选定的虚拟变量引入到模型中,并根据模 型的要求设置相应的参数。
特点
虚拟变量模型能够揭示分类变量对连续结果的影响,同时能够处理多个分类变量对结果的影响。它通过引入虚拟 变量来控制分类变量的效应,从而更好地理解数据之间的关系。
虚拟变量与滞后变量模型(习题与解答)
如果遗漏了重要解释变量 X3,而错误地定式为:
Yi = β1 + β 2 X i2 + ui
请给出在此条件下的 OLS 估计参数 b1 、 b2 的偏倚公式,并给予说明。 5-24.请判断下列陈述是否正确:
(1)在回归模型 Yi = β1 + β 2 Di + ui 中,如果虚拟变量 Di 的取值为 0 或 2,而非通常情况
5-15.在计量经济模型定式中,解释变量设定误差有几类?各有什么特点?
5-16.在实际建模中如何保证约化过程的有效性?人们有时将约化建模理论称为“TTT 方法
论”,意思是“检验、检验、再检验”,谈谈你对此的看法。
5-17.说明使用代理变量的条件。
5-18.叙述用阿尔蒙多项式法估计外生变量有限分布滞后模型的方法步骤,对多项式的次数
下的为 0 或 1,那么参数 β 2 的估计值将减半,其 T 值也将减半;
(2)在引入虚拟变量后,普通最小二乘法的估计值只有在大样本情况下才是无偏的; 5-25.根据美国 1961 年第一季度至 1977 年第二季度的季度数据,我们得到了如下的咖啡需 求函数的回归方程:
ln Qˆt = 1.2789 − 0.1647Pt + 0.5115ln It + 0.1483ln Pt′− 0.0089T − 0.0961D1t
(−2.14) (1.23)
(0.55) (−3.36) (−3.74)
− 0.1570D2t − 0.0097D3t (−6.03) (−0.37)
R 2 = 0.80
其中: Q ——人均咖啡消费量(单位:磅) P ——咖啡的价格(以 1967 年价格为不变价格)
虚拟变量
(-6.550) (8.758) (4.500)
R2 0.904
SE 83.675 D W 1.072
结果显示,各项指标明显改进,农民人均生活费支出 在1994年向上跳跃405.98元
§7.1 含有虚拟解释变量的线性回归模型
例2 Yt 集体单位职工人数
Xt 全民单位职工人数 集体单位职工人数 1955:254万 ;1956:554万 全民单位职工人数 1957:748万; 1958:2316万
§7.1 含有虚拟解释变量的线性回归模型
异常数据的影响——干扰我们对主要规律的认识。 如何对待异常数据——既要看到它偶然、变异的 一面,也要理解它异常中所包含的普遍性——偶然与 变异之可以发生的基础的一面。 简单地直接使用,它们的“变异性”会影响我们 对主要规律的认识;而简单地删除舍去又会丢失它们 所包含的“普遍性信息”。 虚拟变量可以方便、合理地解决这一问题。
Ln
1
p P
0
1LnX
U
§7.2 含有虚拟被解释变量的线性回归模型
Logit函数性质
Ln p 1 P
0
1LnX
1
P
1 aX 1
(X 0)
(a e0 )
1是随机事件 A 出现的机会比率关于解释变量 X 的弹性
§7.2 含有虚拟被解释变量的线性回归模型
(二)Logit模型应用示例
ATB=农户从事农业劳动的时间所占全部劳动时间的比重
D W 2.124
THE END
ቤተ መጻሕፍቲ ባይዱ
例7.4 政策效用评价
3
Y=SYL(失业率), X=ZWKQL(职位空缺率)
2.5
2.02 SYL1.5
SYL
1.01
第七章 虚拟变量模型
第七章 虚拟变量模型§1 概述一、虚拟变量的概念1 0 ⎧⎪⎧⎧⎫⎨--⎨⎬⎨⎪⎭⎩⎩⎩定量因素计量经济某种属性虚拟解释变量是定性因素虚拟变量分析否是否存在虚拟因变量 虚拟变量使用0和1两个数字表示的人工变量(属性变量、双值变量、类型变量、定性变量、二元变量) 二、虚拟变量的设置规则(一)如果有m 个相互排斥的属性,就要设置m-1个虚拟变量(否则会产生完全的多重共线性)(二)“0”、“1”的设定服从于分析的目的⎧⎨⎩0比较的基准1相对于基准所发生的变化(三)虚拟变量既包括虚拟解释变量,也包括虚拟因变量§2 虚拟解释变量一、加法类型(一) 一个两种属性的定性解释变量()()1 0 |0 |1 i ii i i i i i Y D D Y E Y D E Y D αβααβ=+⎧=-⎨⎩====+城镇居民居民年可支配收入其他农村居民年均收入城镇居民年均收入(二)一个定量+一个两种属性定性()()12112|0 |1() i i i i i i i i i i i Y D X u X E Y D X E Y D X ααβαβααβ=+++==+==++-居民受教育年数农村居民年均可支配收入城镇居民年均可支配收入(三)一个定量+一个两种以上属性定性123123 1 0 1 0 10 10001001D D D D D D ⎧⎧=⎪⎨⎩⎪⎧⎫⎪⎧⎪⎪⎪−−−→=⎨⎬⎨⎨⎩⎪⎪⎪⎩⎭⎪⎧⎪=⎨⎪⎩⎩三个虚拟变量高中以下其他高中以下高中文化3种高中程度属性其他高中以上高中以上其他在上述设置下,不同文化程度者三个虚拟变量的取值为:高中以下高中高中以上()()123120112212012011 1 0 0 0,01,0i i i i ii i i i i i i D D D D D Y D D X u E Y D D X E Y D D αααβαβα++=⎧⎧==⎨⎨⎩⎩=++++===+⇒===无论被调查者是何种文化程度,均有三个虚拟变量的任何一个都是另两个精确的线性组合,出现了完全的多重共线性,模型无法估计。
第七章 虚拟变量模型
一、虚拟变量的基本含义
许多经济变量是可以定量度量的,如:商品需 求量、价格、收入、产量等。
但也有一些影响经济变量的因素(品质变量, 也称属性变量或类型变量)无法定量度量,如: 职业、性别、文化程度、地区等对收入的影响, 战争、自然灾害对GDP的影响,季节对某些产 品(如冷饮)销售的影响等等。 为了在模型中能够反映这些因素的影响,并提 高模型的精度,需要将它们“量化”。
C Y D
而不能设置成如下的模型:
Ci 0 0Yi 1D1i 2 D2i i
(*)
其中: D 1i=
1 0
城镇居民 其他
1
D 2i= 0
城镇居民
其他
因为(*)式对于任何被调查的
居民家庭,都有D1i+D2i=1,说明 模型存在着完全的多重共线性, 这时参数将无法估计 ,这就是所 谓的“虚拟陷阱”。
设置虚拟变量: Di 0,样本1
1,样本2
将样本1和样本2的数据合并,估计以下模型:
Yi 1 1 X i 2 1 Di ( 2 1 ) Di X i ei
然后利用t检验判断Di,DiXi的系数的显著性,可
以得到以下四种检验结果: (1)两个系数均等于0,即 2 1 , 2 1 说明两 个回归模型之间没有显著差异,模型结构是稳 定的称之为”重合回归”. (2) Di的系数不等于0,DiXi的系数等于0,即
式中:Q为产量;L为劳动投入;K为资金投入.
1, 表示由甲工艺过程生产 Di 0, 表示由乙工艺过程生产
通过对模型中 进行显著性检验,如果 在统计上显 著,就说明该工艺过程对生产有影响. (二) 虚拟变量在分段回归中的应用 当现象在某一时期(或超过某一数量界限)有一明显转 折点时,可以利用虚拟变量建立分段回归模型.例如:进 口消费品数量Yt,主要取决于总收入X,但1980年前后 我国进口消费品数量明显不同,设 t 1980 年为转折 期,1980年国民总收入为 X ,其他年份国民总收入为 Xt.则进口消费品模型为: Yt 0 1 X t 2 X t X t* Di i 虚拟变量 1, t t * Di 0, t t *
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
D1i 0,农村
2i
0,女
C为香烟消费量;Y为居民的收入.
如果(**)式满足OLS的基本假定条件,可以估
计出各类型居民香烟消费函数为: ˆ ˆ ˆ C i 0 3Yi 农村女性居民: ˆ ˆ ˆ ˆ 城市女性居民: Ci ( 0 1 ) 3Yi ˆ ˆ ˆ ˆ 农村男性居民: Ci ( 0 2 ) 3Yi ˆ ˆ ˆ ˆ ˆ 农村女性居民: Ci ( 0 1 2 ) 3Yi 可以看出,上述四个类型的消费函数截距不同, 斜率相同.
1980年以后,D=1,进口消费品模型的函数形式为 ˆ ˆ ˆ ˆ ˆ Yt 0 2 X t* 1 2 X t
可以看出1980年以后函数的斜率明显大于1980年以 前.
(三)虚拟变量在季节调整模型中的应用 有些经济现象常受季节变动的影响.例如:盛夏时 节人们对肉食品的需求量减少,相反对冷饮的需求量 增大,而当到了元旦,春节时人们对肉食品的需求量 就增大,而对冷饮的需求量减少.所以,季节变动对某 些商品的需求量影响很大.为了把季节变动的影响反 映到模型中去,我们可以引进三个虚拟变量(设第一 季度为基础类型),其模型为
Yi 0 1 X 1i 2 X 2i ... k X ki 1 D1i 2 D2i 3 D3i i
这里X1,X2,…Xk为影响商品需求量Yi的因素
而且: 1,第二季度 1,第三季度 1,第四季度 D1i ,D 2 i ,D3i 0,其他季度 0,其他季度 0,其他季度
C Y D
而不能设置成如下的模型:
Ci 0 0Yi 1D1i 2 D2i i
(*)
其中: D 1i=
1 0
城镇居民 其他
1
D 2i= 0
城镇居民
其他
因为(*)式对于任何被调查的
居民家庭,都有D1i+D2i=1,说明 模型存在着完全的多重共线性, 这时参数将无法估计 ,这就是所 谓的“虚拟陷阱”。
图形:
Ci
ˆ ˆ ˆ ˆ Ci 0 1 2Yi
ˆ ˆ ˆ C i 0 2Yi
ˆ
0
ˆ 1
ˆ 1
ˆ 0
Yi
二类模型截距相同,斜率不同
如果香烟的需求量除收入和地区的影响外, 还受性别差异的影响,在香烟的关于收入的边 际消费倾向相同的条件下.其消费模型为: Ci 0 1 D1i 2 D2i 3Yi i (**) 1,男 式中, 1,城市 D
ˆ ˆ ˆ C i 0 1Yi
3.同时以加法和乘法引入虚拟变量D
当各类模型中截距和斜率都不相同时,可以考
虑通过加法和乘法方式在模型中引入虚拟变 量D. 例如:文化用品消费量在农村和城市的边际消 费倾向是不相同的,而且基本消费量也不相同, 其消费模型可以写成:
Ci 0 1 Di 2Yi 3 Di Yi i
2.以乘法方式引入虚拟变量
当各类模型中截距相同而斜率不同时,可以考
虑通过乘法方式在模型中引入虚拟变量D. 例如:文化用品消费量在农村和城市的边际消 费倾向是不相同的,其消费模型可以写成: Ci 0 1Yi 2 Di Yi i
式中,C为文化用品消费量;Y为居民收入;
*
* t
若上式满足OLS法基本假定条件,估计后
ˆ 这时只要检验 2 的统计显著性,就可以判断在临界水 ˆ X t* 处是否存在”突变”.如果 2 平 在统计上是显著 的,则1980年以前,D=0,进口消费品模型的函数形式为
ˆ ˆ ˆ Yt 0 1 X t
ˆ ˆ ˆ ˆ Y 0 1 X t 2 X t X t* Di
一般地,在虚拟变量的设置中: 基础类型、肯定类型取值为1;
比较类型,否定类型取值为0。
二、虚拟变量的设置规则
在模型中设置虚拟变量的一般规则是:如果一个品 质变量有m个水平属性(或类型),则模型中只能引入 m-1个虚拟变量。例如:居民家庭可以分为城镇和农村两 类,所以只能设置2-1=1个虚拟变量,对于居民住房消费 模型可以写成以下形式: i 0 1 i 2 i i 其中,C为住房消费;Y为收入; 1 城镇居民 D i= 0 农村居民
这种“量化”通常是通过引入“虚拟变量” 来完成的。虚拟变量就是把表现为某种属性的变 量虚拟为可以用数值表示的变量。根据这些因素 的属性类型,构造只取“0”或“1”的人工变量, 习惯上记为D。
例如,反映文化程度的虚拟变量可取为:
1, D i= 0, 非本科学历 本科学历
举例
反映性别的虚拟变量可以表示为 1, 男 D i= 0, 女 反映各不同时期的虚拟变量可以表示为 1, 正常时期 D i= 0, 异常时期
设置虚拟变量: Di 0,样本1
1,样本2
将样本1和样本2的数据合并,估计以下模型:
Yi 1 1 X i 2 1 Di ( 2 1 ) Di X i ei
然后利用t检验判断Di,DiXi的系数的显著性,可
以得到以下四种检验结果: (1)两个系数均等于0,即 2 1 , 2 1 说明两 个回归模型之间没有显著差异,模型结构是稳 定的称之为”重合回归”. (2) Di的系数不等于0,DiXi的系数等于0,即
以上几种回归的图示
(1)
(2)
(3)
(4)
2.Chow检验法
为了检验关于两个模型结构不同的假设是 正确的,我们从两个回归方程的结构是相同的 原假设开始,然后看看能否拒绝这个假设.这个 检验称之为邹检验(Chow test),是美国计量经 济学家邹志庄教授于1960年提出的一种检验 方法. 设有两个样本回归模型: 样本1: Yi 1 2 X 2i ... k X ki e1i (*) 样本2: Y j 1 2 X 2 j ... k X kj e2i (**)
Ci 0 1 Di 2Yi i
二、虚拟变量的引入
虚拟变量做为解释变量引入模型有两种基本方式:加法方 式和乘法方式。
1.
加法方式
当各类型模型的斜率相同,截距不相同时,可以考虑以加法形式引入 虚拟变量D。例如:香烟的需求量除了受收入因素影响外,还与地区有关。 当香烟关于收入的边际消费倾向相同时,其消费模型可写为 (*)
2 1 , 2 1 说明两个回归模型之间的斜率相
同,结构差异仅仅表现在截距上,称之为”平行 回归”. (3) Di的系数等于0,DiXi的系数不等于0,即 2 1 , 2 1 说明两个回归模型之间的截 距相同,结构差异仅仅表现在斜率上,称之为” 汇合回归”. (4) Di,DiXi的系数均不等于0,即 2 1 , 2 1 说明两个回归模型之间的截距相同,结构差异 仅仅表现在斜率上,称之为”相异回归”.
必须注意,我们在这里不能引进第四个虚拟变
量,不然的话我们就会掉入虚拟陷阱.模型中系 数 0 ,1 , 2 , 3分别反映了一,二,三,四季度对该 商品的平均影响程度,根据这些系数的统计检 验就可以判断季度因素对该商品的需求量是 否存在着显著影响.
(四)虚拟变量在模型结构稳定性检验中的应用 模型结构的稳定性,是指两个不同时期(或不同空 间)研究同一性质的问题时所建立的同一形式的回归 模型的参数之间无显著差异,如果存在差异,则认为 模型结构不稳定. 在现实经济生活中,往往由于某些重要因素影响着 解释变量与被解释变量之间可能会发生结构变化,例 如:1973年,1979年,以及1990-1991年的海湾战争期 间,由OPEC石油卡特尔组织发起的石油禁运,引起的 经济衰退使石油输出国真实国民收入的减少.我国由 于经济体制的变化,改革开放前后国民经济总量指标 之间的关系都发生很大变化.
式中:Q为产量;L为劳动投入;K为资金投入.
1, 表示由甲工艺过程生产 Di 0, 表示由乙工艺过程生产
通过对模型中 进行显著性检验,如果 在统计上显 著,就说明该工艺过程对生产有影响. (二) 虚拟变量在分段回归中的应用 当现象在某一时期(或超过某一数量界限)有一明显转 折点时,可以利用虚拟变量建立分段回归模型.例如:进 口消费品数量Yt,主要取决于总收入X,但1980年前后 我国进口消费品数量明显不同,设 t 1980 年为转折 期,1980年国民总收入为 X ,其他年份国民总收入为 Xt.则进口消费品模型为: Yt 0 1 X t 2 X t X t* Di i 虚拟变量 1, t t * Di 0, t t *
当上式满足OLS的基本假设条件后,可以估计
出各类型文化用品消费函数分别为: ˆ ˆ ˆ 农村: C i 0 2Yi ˆ ˆ ˆ ˆ ˆ 城市: Ci ( 0 1 ) ( 2 3 )Yi 可以看出上述模型的截距和斜率都不相同. ˆ ˆ ˆ ˆ ˆ C ( ) ( )Y 图示:
Ci 0 1 Di 2Yi i
1,城市 Di 0,农村
其中:C为香烟消费量;Y为居民的收入;
(*)式就是虚拟变量模型。当这一模型满足
最小二乘法的假定条件时,可以应用OLS估 ˆ ˆ ˆ ˆ C 计消费函数: i 0 1 Di 2Yi 由此可得: ˆ ˆ C 农村居民消费函数:ˆ i 0 2Yi ˆ ˆ ˆ ˆ C 城市居民消费函数: i 0 1 2Yi 如果绘出这两个函数的图形,就可以明显的 看出,这两个函数具有相同的斜率,不同的 截距.