第五章虚拟变量模型.
第五章_包含虚拟变量的回归模型(课堂PPT)
– 对数单位模型(Logit Model) – 概率单位模型(Probit Model)
1
《
55
包含虚拟因变量的回归模型
• 如何估计这类模型?是否可以用OLS? • 有特殊的统计推断问题吗? • 如何度量这种模型的拟合优度?
1
《
56
(一)线性概率模型(LPM)
yi 0 1xi ui
女性 : s·alaryi 17.96929 1.370714 yearsi
years
1
《
16
2定性变量+1定量变量
yi 0 1 d1i 2 d2i 3 xi ui
1, 男教师 d1i 0,女教师
1, 白种人 d2i 0, 非白种人
xi 教龄
1
《
17
思考题:以下定义方法的差别?
18.5 21.7 18.0 19.0 22.0
教育
0 1 0 0 1
1
《
7
1
《
8
y
1
1 3.28
d 0
《
d 1
x
9
• 虚拟变量系数(差别截距项系数)的经济 含义
• 赋值为0的一类常称为基准类(对比类)
1
《
10
思考题:如下定义存在什么问题?
yi 0 1 d1i 2 d2i ui
1
《
44
假说一和假说二
• 不同政策待遇的企业外国股权比例存在差 异
– 私营企业参与的合资企业比乡镇企业参与的合 资企业,其外国股权比例更高。
– 对资金有更大需求的企业比更小需求的企业, 其外国股权比例更高
1
《
45
假说三和假说四
• 由于浙江省对待不同企业的政策差异小于 江苏省,在浙江省所观察到的假说一和假 说二所描述的效应会弱于江苏省。
计量经济学第5章 虚拟变量模型
在经济计量模型中除了有量的因素外还有质的因 素,质的因素包括被解释变量为质的因素和解释变量 为质的因素。如果被解释变量为质的因素,主要是逻 辑回归要涉及的内容。本章就解释变量和被解释变量 为质的因素也就是存在虚拟解释变量和虚拟被解释变 量时如何进行参数估计等一系列问题进行讨论。
1
为基础类型截距项。
12
三、虚拟变量的作用 ⑴ 可以描述和测量定性因素的影响。
⑵ 能够正确反映经济变量之间的相互关系,提 高模型的精度。
⑶ 便于处理异常数据。
即将异常数据作为一个特殊的定性因素
1 , 异常时期
D
0
,
正常时期
13
第二节 虚拟解释变量模型
一 、截距变动模型(加法模型)
虚拟变量与其它变量相加,以加法形式引入模
Y i 0 1 D 1 i 2 D 2 i 3 X i u i
Y i ------年支出医疗保健费用支出 X i ------居民年可支配收入
18
1 , 高中
D 1i
0
,
其他
1 , 大学
D 2i
0
,
其他
于是:小学教育程度:
E (Y i X i,D 1 i 0 ,D 2 i 0 )03 X i
7
二、虚拟变量的设置规则
虚拟解释变量模型的设定因为质的因素的多少 和这些因素特征的多少而引入的虚拟变量也会不同。
以一个最简单的虚拟变量模型为例,如果只包 含一个质的因素,而且这个因素仅有两个特征,则 回归模型中只需引入一个虚拟变量。如果是含有多 个质的因素, 自然要引入多个虚拟变量。
8
如果只有一个质的因素,且该质的因素具有 m 个 相互排斥的特征(或类型、属性),那么在含有截距 项的模型中,只能引入 m-1 个虚拟变量,否则会陷入 所谓“虚拟变量陷阱”(dummy variable trap),产 生 完全的多重共线性,会使最小二乘法无解;在不含有 截距项的模型中, 引入 m 个虚拟变量不会导致完全 的多重共线性,不过这时虚拟变量参数的估计结果, 实际上是 D = 1 时的样本均值。
金融计量经济第五讲虚拟变量模型和Probit、Logit模型
原始模型:
YX (5.8)
• 其中Y为观测值取1和0的虚拟被解释变量,X为 解释变量。
• 模型的样本形式: yi Xii
(5.9)
• 因为E(i)0
,E所(y以i)Xi
• 令: p i P ( y i 1 ) 1 p i P ( y i 0 )
• 于是有: E ( y i) 1 P ( y i 1 ) 0 P ( y i 0 ) p i
其它季度
1, 三季度
D3
0,
其它季度
• 小心“虚拟变量陷阱”!
精品课件
三、虚拟变量的应用
• 1、在常数项引入虚拟变量,改变截距。
y i0D 1 x 1 i kx k iu i (5.1)
• 对上式作OLS,得到参数估计值和回归模型:
y ˆiˆ0ˆD ˆ1 x 1 i ˆkx ki(5.2)
金融计量经济第五讲
虚拟变量模型和Probit、Logit模 型
精品课件
第一节 虚拟变量的一般应用
一、虚拟变量及其作用 1.定义:取值为0和1的人工变量,表示非量化
(定性)因素对模型的影响,一般用符号D表 示。例如:政策因素、地区因素、心理因素、 季节因素等。 2.作用: ⑴描述和测量定性因素的影响; ⑵正确反映经济变量之间的相互关系,提高模型 的精度; ⑶便于处理异常数据。
yˆt ˆ ˆxt yˆt ˆ ˆxt ˆ2 yˆt ˆ ˆxt ˆ3 yˆt ˆ ˆxt ˆ4
精品课件
一季度 二季度 三季度 四季度
例题:美国制造业的利润—销售额行为
• 模型:利 t 1 润 2 D 2 t 3 D 3 t 4 D 4 t ( 销 ) t u t售
0.503543 0.500354 1.13E+03 1.99E+09 -13241.74 1.648066
第五章解释变量包含虚拟变量的回归模型
4860.3
1993
14762.4
5301.8 5957.4
1994
21518.8
1995
29662.3
7206.7
1996
38520.8
8989.1
1997
46279.8
10201.4
1998
53407.5
11954.5 14922.3
1999
59621.8
2000
64332.4
16917.8
2001
这时,可以t*=1979年为转折期,以1979 年的国民收入Xt*为临界值,设如下虚拟变量:
1 t t* Dt 0 t t *
则进口消费品的回归模型可建立如下:
Yt
0
1X t
2(Xt
X
* t
)Dt
t
OLS法得到该模型的回归方程为:
Yˆt
ˆ0
ˆ1 X t
ˆ2 (X t
X
* t
)Dt
❖ 10.得到回归的结果能看出哪个是判定系数, 残差平方和(RSS)和随机干扰项的标准差 以及赤池信息准则(AIC)和施瓦茨准则 (SC) 。以及判定系数的范围和趋于哪个 值就较好,和AIC、SC是越大越好还是反之。 其他的指标的意思能了解。
1 1 (X,D) 1 1 11
X 11 X 12 X 13 X 14 X 15 X 16
X k1 X k2 X k3 X k4 X k5 X k6
1 0 0 0 0 1
0 1 0 0 1 0
0 0 1 0 0 0
0 0
0
1
0 0
0
β
1
k
1
α
2 3 4
05虚拟变量模型
ˆ ˆ ) ˆX ˆ ( 秋: Y 0 4 1 ˆ ˆX ˆ 冬: Y
0 1
Y 0 1X 2 D ˆ ˆ ) ˆX ˆ ( 春: Y
0 2 1
ˆ 2 ˆ ) ˆX ˆ ( 夏: Y 0 2 1 ˆ 3 ˆ ) ˆX ˆ ( 秋: Y
男性平均年薪:
表明:当性别变量为常数时,工 龄每增加一年,平均年薪增加 1370 元,当工龄保持不变时,男 性的平均年薪比女性多 1330 元, 性别对薪金的影响是显著的。
ˆ (17.97 1.33) 1.37X 19.30 1.37X Y
二、虚拟变量的设置原则
虚拟变量的个数须按以下原则确定: (1)若定性因素有m个相互排斥的类型或属性,只能引 入(m-1)个虚拟变量,否则会陷入“虚拟变量陷阱”,产 生完全共线性。(当无截距项时,应引入m个虚拟变量) 例:已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受 春、夏、秋、冬四季变化的影响,要考察该四季的影响,只 需引入三个虚拟变量即可:
E(Yi | X i , Di 0) 0 1 X i
企业男职工的平均薪金为:
E(Yi | X i , Di 1) ( 0 2 ) 1 X i
几何意义: Yi 0 1 X i 2 Di i • 假定2>0,则两个函数有相同的斜率,但有不同 的截距。意即,男女职工平均薪金对工龄的变化 率是一样的,但两者的平均薪金水平相差2。 • 可以通过传统的回归检验,对2的统计显著性进 行检验,以判断企业男女职工的平均薪金水平是 否有显著差异。 • 2称为截距差异系数。
1 政策变动 Dt 0 政策不变
(3)虚拟变量在单一方程中,可以作为解释变量,也 可以作为被解释变量。
第五节虚拟变量模型
3.虚拟变量取值 为了将这些变量引入模型,必须将其数量化,比如当虚拟变量 起作用时取值为1(或0),不起作用时取值为0(或1)。 含有虚拟变量的模型称虚拟变量模型。 虚拟变量通常作为解释变量。 (二) 虚拟变量的设置原则 1、虚拟变量的设置规则 (1)一个因素m个属性,在模型中引入m-1个虚拟变量,否则产 生多重共线性。 (2)m个因素各两种属性,则引入m个虚拟变量。 (3)虚拟变量的取值(1或0)应从分析问题的目的出发予以 界定。 (4)虚拟变量在单一方程中可作为解释变量,也可作为被解 释变量。
0 正常年份
当这一模型满足普通最小二乘法假定条件时,可 应用普通最小二乘法求出消费函数回归方程 :
ˆ ˆ b1 b 2 X t , 正常年份 ˆ ˆ ˆ ˆ b b X b D Ct 1 2 t 3 t ˆ ˆ ˆ ( b1 b 3) b 2 X t ,反常年份
利润函数为
yt=b0+b1xt+a1D1t+a2D2t+a3D3t+ut
(二)虚拟变量模型在分段线性回归中的应用 分段回归:在解释变量x的值达到某一水平x*之前,解释变量 与被解释变量存在某种线性关系;当x的值超过某一水平x* 之后,解释变量与被解释变量的关系就会发生变化。此时, 如果已知x*,我们就可以用虚拟变量来估计每一段斜率。 例:进口商品的消费支出(y)受国民生产总值(x)的影响,1978 年前后,两者的回归关系明显不同,此时可建立虚拟变量模 型,以1978年为转折点,1978年的国民生产总值x=x*为临界 值,建立如下模型: Yt=b0+b1xt+a(xt-x*t)Dt+ut
二、 虚拟变量模型的运用
(一)虚拟变量模型在调整季节波动中的应用 例如:利用季节数据分析某公司利润(y)与销售收入 (x)之间的关系时,为研究四个季度对利润的季节 性影响,引入三个虚拟变量,
第五章 虚拟变量模型(蓝色)
1 城镇居民家庭 D 0 农村居民家庭
38
式(5.15)可以表示为
D 1 D0
Yi 0 1 ( 2 3 ) X i ui (5.16) Yi 0 2 X i ui
其中,X1i 1, X 2i D1i , X 3i D2i,显然如下等式成立。
X 1i X 2i X 3i
(5.4)
22
式(5.4)表明模型(5.3)即原模型(5.2)中有 完全的多重共线性,将导致最小二乘估计无 解。我们称该情景为掉入虚拟变量陷阱。所 以,在有截距项的情况下,如果一个质的因
47
而在1979年以后, 物资逐渐丰富, 商 品的买卖也取消了票证的限制, 消费者 储蓄的主要目的之一是购买高档耐用 消费品,储蓄不再具有“被迫”的性 质。
48
为了验证城镇居民的储蓄行为是否
(5.10) 其中,Yt=季度的消费,Xt=季度的收入, 对于四个季度,我们引入了三个虚拟变量:
33
1 第一季度 D1t 其他 0
1 第二季度 D2t 其他 0
1 第三季度 D3t 其他 0
这里,第四季度为基础类型,其截距项 为β0 。而其它三个季度的截距项分别为 β0+ β1,β0+ β2 ,β0+ β3 。β1,β2 , β3 代表 季节变动引起的消费差异。
号而已,不代表他们有高低的意义。
7
虚拟变量主要是用来代表质的因素, 但是有些情况下也可以用来代表数量 因素。例如建立储蓄函数时,“收入 ”显然是一个重要解释变量,虽然是 “数量”因素,但是为了方便也可以 用虚拟变量表示。
8
虚拟变量模型
§5.2 滞后变量模型
§5.1
虚拟变量模型
一、虚拟变量的含义 二、虚拟变量的设置 三、虚拟变量的引入
一、虚拟变量的含义
•一种人为构造的、取值仅为“1”或“0”的变量
1. 定量变量和定性变量
定量变量:测度等级为间距(interval)或比率(ratio)尺度的变量,
如需求量、价格、收入、产量等
测度等级名义nominal或顺序ordinal尺度的变量如性别教育程度等其取值为类别或顺序可用数值表示但数值不具有实际含义仅是表示类别或序次的代码实际建模中考虑定性变量的影响是必要的但直接使用定性变量的取值则具有不合理性直接使用定性变量的不合理性例
第五章 经典单方程计量经济学模型专门问题
§5.1 虚拟变量模型
Yi 1 X i 2 E1i+ 3 E2i 4 E3i i
大多数研究者认为 ,在一个含有截距的方程中,他们能更容易地处 理他们通常感兴趣的问题,是否有某个组与基准组有所不同以及有 多大不同,所以在方程中包括截距更方便。
——肯尼迪(Kennedy)
三、虚拟变量的引入
虚拟变量做为解释变量引入模型有两种基本方式: 加法方式和乘法方式。
◦ 其取值为具有实际含义的数据 ◦ 可以在建模过程中直接使用这些变量及其数据
定性变量:测度等级名义(nominal)或顺序(ordinal)尺度的变量,
如性别、教育程度等
◦ 其取值为类别或顺序,可用数值表示,但数值不具有实际含义,仅是表示
类别或序次的代码
性别(1-男;0-女)、教育程度(1-小学、2-初中、3-高中、4-大学)
• 其差异为:
E(男)-E(女)= 2
• 可以看出,虚拟变量对应的回归系数β2表示:虚拟变量取值为1所代表 的类别(男)相对于参照类别(取值为0,女)在因变量上的平均差异, 反映出定性变量取值的变化对因变量的影响 • 从回归模型上看,两个组上的回归模型的差异主要在于截距的不同
《虚拟变量模型 》课件
业类型的效应,可以使用虚拟变量模型。理分类变量对连续结果的影响,能够同时分析多个分类变量的效应,有助于更好地理解数据之 间的关系。
缺点
当分类变量类别过多时,会导致虚拟变量的数量增加,从而增加模型的复杂性和计算负担。此外,虚 拟变量模型对于非线性关系的处理能力有限,可能无法准确捕捉数据之间的关系。
虚拟变量模型
目录
• 虚拟变量模型概述 • 虚拟变量模型的建立 • 虚拟变量模型的参数估计与检验 • 虚拟变量模型的应用案例 • 虚拟变量模型的局限性及未来研究方向 • 结论
01
虚拟变量模型概述
定义与特点
定义
虚拟变量模型是一种统计学方法,用于处理分类变量对连续结果的影响。它通过引入一系列二进制(或多元)虚 拟变量来代表分类变量的不同类别。
详细描述
通过引入虚拟变量,研究者可以控制和比较不同类别消费者之间的差异,例如 不同年龄、性别、收入水平的消费者在产品选择、品牌忠诚度和价格敏感度等 方面的表现。
案例二:市场细分研究
总结词
虚拟变量模型在市场细分研究中起到关 键作用,帮助企业了解不同客户群体的 需求和行为特征,从而制定更精准的市 场策略。
确定虚拟变量的数量
根据分类变量的数量,确定需要创建的虚拟变量的数量。
命名虚拟变量
为每个虚拟变量选择一个有意义的名称,以便在模型中使用。
构建虚拟变量模型
确定模型的形式
根据研究假设和问题,选择适合的模型形式 ,如线性回归、逻辑回归等。
引入虚拟变量
将选定的虚拟变量引入到模型中,并根据模 型的要求设置相应的参数。
特点
虚拟变量模型能够揭示分类变量对连续结果的影响,同时能够处理多个分类变量对结果的影响。它通过引入虚拟 变量来控制分类变量的效应,从而更好地理解数据之间的关系。
虚拟变量模型
王中昭制作主要内容:§5.1 虚拟变量模型第五章经典单方程计量经济学模型:专门问题§5.1 、虚拟变量模型王中昭制作一、什么叫虚拟变量•在回归模型中,除了定量变量外,有时还必须引入一些不可量化的经济变量,例如,研究职工的收入问题,需考虑到职工的受教育程度,研究冷饮的需求量或某个旅游胜地的旅游人数,需引入季节因素。
这些都是非量化因素,但又非常重要,需引入模型中。
这些不可量化因素可称为虚拟变量。
•一般地,在模型中的定性变量称为虚拟变量。
或称为二元变量或分类变量等等。
用D表示虚拟变量,以强调它与其它定量变量的区别。
二、引入虚拟变量的方式与特点王中昭制作•①、加法方式:虚拟变量与各解释变量之间存在相加关系。
•特点:模型的截距不同,斜率相同。
•例如:Y=a1+a2D t+b1X t+μtt•当D=1时,截距=a1+a2;t•当D=0时,截距=a1t•②、乘法方式:虚拟变量与各解释变量之间存在相乘关系。
•特点:模型的截距相同,斜率不同。
•例如:Y=a1+ b1X t+b2D t*X t+μtt•当D=1时,斜率=b1+b2;t•当D=0时,斜率=b王中昭制作•③、混合方式:虚拟变量与各解释变量之间同时存在相乘和相加关系。
•特点:模型的截距和斜率均不相同。
•例如:Y t=a1+a2D t+b1X t+b2D t*X t+μt•当Dt =1时,截距=a1+a2,斜率=b1+b2;•当Dt=0时,截距=a1,斜率=b1。
王中昭制作•还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。
一个以性别为虚拟变量考察企业职工薪金的模型:D 1为性别,D 2为学历。
ii i D D X Y μββββ++++=231210⎩⎨⎧=012D 本科及以上学历本科以下学历职工薪金的加法方式引入的模型为:其中:Y 为企业职工的薪金,X 为工龄,D 1=1,若是男性,D 1=0,若是女性。
王中昭制作引入虚拟变量的作用是:消除异常值、体现其它重要的非量化因素对因变量的影响(如:转折点、季节因素、政策因素、教育程度、民族、性别、地区和资料分组等)、提高模型的可靠性。
第五章虚拟变量-第八章虚拟变量
1
问题的提出
1、计量经济学模型,需要经常考虑属性因素 的影响。例如,职业、战争与和平、繁荣与 萧条、文化程度、灾害、季节 2、属性因素往往很难直接度量它们的大小。 只能给出它们的“Yes—D=1”或”No—D=0”、 或者它们的程度或等级。 3、为了反映属性因素和提高模型的精度, 必须将属性因素“量化”。通过构造0-1型 的人工变量来量化属性因素。
入虚拟变量? (2)如果认为季节因素使利润对销售额的变化额发生变异,
应如何引入虚拟变量?
33
(3)如果认为上述二种情况都存在,又应如何引 入虚拟变量?
请对上述三种情况分别设定利润模型。
34
树立质量法制观念、提高全员质量意 识。20.10.1620.10.16F riday, October 16, 2020 人生得意须尽欢,莫使金樽空对月。02:54:4202:54: 4202:5410/16/2020 2:54:42 AM 安全象只弓,不拉它就松,要想保安 全,常 把弓弦 绷。20.10.1602:54:4202:54O ct-2016-Oct-20 加强交通建设管理,确保工程建设质 量。02: 54:4202:54:4202:54F riday, October 16, 2020 安全在于心细,事故出在麻痹。20.10.1620.10.1602: 54:4202:54:42October 16, 2020 踏实肯干,努力奋斗。2020年10月16日上午2时54分 20.10.1620.10.16 追求至善凭技术开拓市场,凭管理增 创效益 ,凭服 务树立 形象。2020年10月16日星期 五上午2时54分 42秒02:54:4220.10.16 严格把控质量关,让生产更加有保障 。2020年10月 上午2时 54分20.10.1602:54O ctober 16, 2020 作业标准记得牢,驾轻就熟除烦恼。2020年10月16日星期 五2时54分42秒 02:54: 4216 October 2020 好的事情马上就会到来,一切都是最 好的安 排。上 午2时54分42秒 上午2时54分02:54:4220.10.16 一马当先,全员举绩,梅开二度,业 绩保底 。20.10.1620.10.1602: 5402:54:4202: 54:42Oct-20 牢记安全之责,善谋安全之策,力务 安全之 实。2020年10月16日 星期五2时54分 42秒Fr iday, October 16, 2020 相信相信得力量。20.10.162020年10月 16日星 期五2时54分42秒20.10.16
第五章-含虚拟变量的回归模型
Econometrics第五章虚拟变量回归模型(教材第六章)第五章虚拟变量回归模型第一节虚拟变量的性质和引入的意义第二节虚拟变量的引入第三节交互作用效应第四节含虚拟变量的回归模型学习要点虚拟变量的性质,虚拟变量的设定5.1 虚拟变量的性质和引入的意义虚拟变量的性质f定性变量性别(男,女)婚姻状况(已婚,未婚)受教育程度(高等教育,其他)收入水平(高收入,中低收入)肤色(白人,有色人种)政治状况(和平时期,战争时期)f引入虚拟变量(Dummy Variables)1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。
2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。
3、提高模型的精度,相当与将不同属性的样本合并,扩大了样本量,从而提高了估计精度)。
5.1 虚拟变量的性质和引入的意义5.2 虚拟变量的引入虚变量引入的方式主要有两种f加法方式虚拟变量与其它解释变量在模型中是相加关系,称为虚拟变量的加法引入方式。
加法引入方式引起截距变动5.2 虚拟变量的引入f 虚拟变量的作用在于把定性变量“定量化”:通过赋值0和1,0表示变量不具备某种性质,1表示具备。
f 例,0代表男性,1代表女性;0代表未婚,1代表已婚;等等。
f 这类取值为0和1的变量称为虚拟变量(dummy variables ),通常用符号D 表示。
f 事实上,模型可以只包括虚拟变量(ANOVA 模型):其中,0,1,i i D D ==男性;女性。
12i i iY B B D u =++5.2 虚拟变量的引入虚拟变量的性质f 假定随机扰动项满足男性的期望:5.2 虚拟变量的引入虚拟变量的性质f 食品支出对性别虚拟变量(男=0,女=1)回归的结果:f 结果怎么解释?f 由于男性赋值为0,女性赋值为1,因此,截距项表示取值为0的一类(这里是男性)的均值。
金融计量经济第五讲虚拟变量模型和Probit,Logit模型
第二节 虚拟被解释变量模型
• 问题1:对于商业银行,企业贷款可能出现 违约,也就是说一家企业贷款后有违约和 不违约两种可能,如何甄别?(李萌, 2005)
• 问题2:证券投资者在特定时期内的投资选 择是买或不买,如何确定这样的选择? (王冀宁等,2003)
• 问题3:上市公司出现经营问题,可能成为 ST、PT,是什么原因导致这样的结果?
原始模型:
Y X
(5.8)
• 其中Y为观测值取1和0的虚拟被解释变量,X为 解释变量。
• 模型的样本形式: yi Xi i
(5.9)
• 因为E(i ) 0 ,所以 E( yi ) Xi
• 令: pi P( yi 1) 1 pi P( yi 0)
• 于是有: E( yi ) 1 P( yi 1) 0 P( yi 0) pi
GMSR
虚拟变量用于斜率
• CXYE = -1217.425 + 5.209*GMSR + 1.13*(D1*GMSR)
• 1952—1977: • CXYE = -1217.425 + 6.339*GMSR • 1978—1990: • CXYE = -1217.425 + 5.209*GMSR
(3.9) (2.07) (-0.445) (0.28) (3.33)
• 括号内为t统计值。
• 显然,三季度和四季度与一季度差异并不明显,重 新回归,仅考虑二季度,有结果:
利润 t
6541.66 1311.4D2t
0.0393(销售)t
(4.01) (2.7) (3.717)
• 4、引用虚拟变量处理“时间拐点”问题。
D3
0,
其它季度
• 小心“虚拟变量陷阱”!
浙大宁波理工学院计量经济学第五章 虚拟变量(Dummy Variable)
举例: 分析某公司员工的性别对薪水的影响:假设WAGE
为薪水,DUMMY为性别,取1为男性,取0为女性。 设立回归方程: WAGE=α+βDUMMY+μ
第五章 虚拟变量 5.3 两分定性变量模型
EViews的输出结果为:
Variable
DUMMY
Coefficient Std.Error
第五章 虚拟变量 5.2 虚拟变量的设置
举例2 公司职员的年薪与工龄(x)和学历(D)
有关。学历分为大专以下、本科生、研究生三个 水平。为了反映学历对职工年薪的影响,可引入 两个虚拟变量: 1 本科 1 研究生 D1= , D2= 0 其他 0 其他 x D D u 年薪模型为: y t 0 1 1 1 1 2 2 t
第五章 虚拟变量 5.2 虚拟变量的设置
当D1=D2=D3=0时,就表示冬季。 如果引入四个虚拟变量,即
1 春季 1 夏季 D1= ,D2= , 0 其他 0 其他 1 秋季 1 冬季 D3= ,D4= 0 其他 0 其他
模型变为,
y D D D D u i 1 1 2 2 3 3 4 4 t
例如: (1)表示性别的虚拟变量可取为
D1=
1
0
男性
女性
(4)表示消费心理的虚拟变量可取为
(2)表示文化程度的虚拟变量可取为 D2= 1 本科及以上学历
D4=
1 0
喜欢某种商品 不喜欢某种商品
0
本科以下学历
(5)表示天气变化的虚拟变量可取为
(3)表示地区的虚拟变量可取为 D3=
1
0
城市
农村
D5=
最新§5.1-虚拟变量模型PPT课件
年 薪 Y
2 0
男 职 工 女 职 工
工 龄 X
又例:在横截面数据基础上,考虑个人保健支出 对个人收入和教育水平的回归。
教育水平考虑三个层次:高中以下, 高中, 大学及其以上
这时需要引入两个虚拟变量:
1 高中 1 大学及
D 1 0 其他 D 2 0
其他
模型可设定如下:
Y i 0 1 X i 2 D 1 3 D 2 i
当截距与斜率发生变化时,则需要同时引入加 法与乘法形式的虚拟变量。
• 例5.1.1,考察1990年前后的中国居民的总储蓄-收 入关系是否已发生变化。
表5.1.1中给出了中国1979~2001年以城乡储蓄存 款余额代表的居民储蓄以及以GNP代表的居民收入 的数据。
90年前 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990
假定3>2,其几何意义:
大 学 教 育
保 健
高 中 教 育
支 出
低 于 中 学 教 育
收 入
• 还可将多个虚拟变量引入模型中以考察多种“定 性”因素的影响。
如在上述职工薪金的例中,再引入代表学历的虚拟 变量D2:
1
D2
0
本科及以上学历 本科以下学历
职工薪金的回归模型可设计为:
Y i 0 1 X i 2 D 1 3 D 2 i
• 为了在模型中能够反映这些因素的影响,并提高 模型的精度,需要将它们“量化”,
几何意义:
• 假定2>0,则两个函数有相同的斜率,但有不同 的截距。意即,男女职工平均薪金对教龄的变化 率是一样的,但两者的平均薪金水平相差2。
• 可以通过传统的回归检验,对2的统计显著性进 行检验,以判断企业男女职工的平均薪金水平是 否有显著差异。
古扎拉蒂计量经济学第四版讲义Ch5DummyVariablesModels
第五章第五章 虚拟变量回归模型虚拟变量回归模型Dummy Variable Regression Models1、什么是虚拟变量?、什么是虚拟变量?名义型变量又称为指标变量、分类变量、定性变量,或者虚拟变量(哑变量)。
2、方差分析模型(ANOVA models )一种类型的回归模型就是解释变量全部是虚拟变量,这样的模型称为Analysis of Variance (ANOV A) models 。
假如我们想检验东(10个省)中(12个省)西(9个省)部三个地区教师的平均收入是否不同。
对三个地区教师工资数据取算术平均值,发现不同,这种不同显著吗?一般用D 表示哑变量,设定如下的哑变量:表示哑变量,设定如下的哑变量: D2 =1 代表东部省份;否则用0表示表示 D3 =1代表中部省份;否则用0表示表示可以写出如下的模型可以写出如下的模型12233i i i i y D D βββε=+++ 9.2.1这类似于一般的多元回归模型的形式。
这类似于一般的多元回归模型的形式。
假定该模型的误差项满足通常OLS 回归的假定,对上式两边取期望,得到回归的假定,对上式两边取期望,得到 对东部地区:对东部地区: ()2312|1,0i i i E y D D ββ===+ 对中部地区:对中部地区: ()2313|0,1i i i E y D D ββ===+ 对西部地区:对西部地区: ()231|0,0i i i E y D D β===假定回归结果为假定回归结果为()()()2322158.622264.6151734.473:0.00000.03490.23300.0901i i i y D D p R =++=1)虚拟变量使用注意)虚拟变量使用注意使用虚拟变量要小心,特别要注意以下几点:使用虚拟变量要小心,特别要注意以下几点:1)一个定性解释变量如果分成m 类,则用m-1个哑变量表示;如果分成m 类用m 个哑变差别截距系数,代表该类别均值比基准别均,前系数称为差别截距系数差别截距,前系数称为的类别可称为差别截距()()()()2321077.231900.2361634.256 3.2889:9.5115 1.3286 2.088910.35390.7266i i ii y D D x t R =+++=4、Chow Test 的替代方法:虚拟变量方法的替代方法:虚拟变量方法多元回归章节的多步Chow Test 程序只能告诉我们两个子区间的回归是否不同,并没有告诉我们这种不同的根源,是由于截距项的差异呢,还是由于斜率项的差异,或者来自两者。
第五章虚拟变量模型和滞后变量模型
第五章虚拟变量模型和滞后变量模型以下是为大家整理的第五章虚拟变量模型和滞后变量模型的相关范文,本文关键词为第五,虚拟,变量,模型,滞后,5.1,出了,中国,1980,,您可以从右上方搜索框检索更多相关文章,如果您觉得有用,请继续关注我们并推荐给您的好友,您可以在综合文库中查看更多范文。
1.表5.1中给出了中国1980—20XX年以城乡储蓄存款新增额代表的居民当年储蓄及以gnp代表的居民当年收入的数据。
以1991年为界,判断1991年前和1991年后的两个时期中国居民的储蓄—收入关系是否已发生变化。
表5.11980—20XX年中国居民储蓄与收入数据单位:亿元年份储蓄sgnp年份储蓄s1980118.54517.819912072.81981124.24860.319922438.41982151.753 01.8199332171983217.15957.419946756.41984322.27206.719958143.5 1985407.98989.119968858.5198661510201.4199777591987835.711954 .519987127.71988728.214922.319996214.319891345.416917.82000471 0.619901887.318598.420XX9430估计以下回归模型:Yi??0??1xi??2Di??3(Dixi)?ui其中D?i为引入的虚拟变量:Di??1,1991年前?0,1991年后对上面的模型进行估计,结果如下:所以表达式为:Yi?1535?0.075xi?1981.9Di?0.032(Dixi)(1.40)(4.45)(-1.38)(0.37)gnp21662.526651.934560.54667057494.966850.573142.776967.280579.488228.194346.4从?2和?3的t检验值可以知道,这两个参数显著的为0,所以1991年前和1991年后两个时期的回归结果是相同的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(5.14)
12
(四)截距和斜率同时变动模型 在多数情况下,质的因素不但对回 归模型的截距有影响,而且还会改变 模型的斜率。
13
例如城镇居民和农村居民的消费
函数不但在斜率上有差异,在截距上
也是有可能不一致的,将两个问题同
时考虑进来,我们可以得到回归方程
14
Yi 0 1 D 2 X i 3 ( DX i ) ui
17
下面,以我国城镇居民家庭储蓄模型为 例,实际体会虚拟变量模型从建模到检验 再到估计参数最后下结论的全过程。 【例5.2】已有数据资料为我国城镇居民家 庭1955年至1985年人均收入和人均储蓄。 根据经验,也就是先验信息,再通过某些 检验,我们发现储蓄和收入有很强的相关 关系而且收入的变化会引起储蓄的变化。
(5.15) 式中,Yi=第个家庭的消费水平,Xi=第个 家庭的收入水平,
1 城镇居民家庭 D 0 农村居民家庭
15
式(5.15)可以表示为
D 1 D0ຫໍສະໝຸດ Yi 0 1 ( 2 3 ) X i ui (5.16) Yi 0 2 X i ui
ˆ 33.4 0.17X S t t
R2 =0.833, DW=0.398
(5.19)
20
模型(5.19)包含了这样一个假定,那 就是在1955到1985年期间我国城镇居民家 庭的储蓄行为大体保持不变。
21
这一假定实际上是行不通的,因为在 十一届三中全会召开之后,居民的收入 大大增加,而且与居民储蓄有关的许多 重要因素在1979年以后发生了明显变化。 在改革开放之前, 我国居民的收入水 平仅仅能够维持温饱水平,根本不可能 有多少储蓄。
(5.17)
β1和 β3 分别表示城镇居民家庭和农村居民
家庭的消费函数在截距和斜率上的差异。
16
我们一般通过t 检验来判定它们之间是否有 差异。 1.若β1≠0 ,β3≠0,则为截距和斜率同时变 动模型; 2.若 β1≠0,β3=0,则为截距变动模型; 3.若 β1=0,β3=0, 则表示城镇居民家庭和农 村居 民家庭有着完全相同的消费模式; 4.若 β1=0,β3≠0,则为斜率变动模型,这种 情况在现实中出现得不是很多。
22
1979年以后,我国居民的收入水平大
幅度提高,同时,居民储蓄也在大幅
度增长。从这些可以看出来,1979年 前后两个时期,我国居民的边际储蓄 倾向有显著性差异。
Yi 0 1 X i 2 ( DX i ) ui (5.7)
其中,Yi=第个家庭的消费水平,Xi= 第个家庭的收入水平,
1 城镇居民家庭 D 0 农村居民家庭
6
式(5.7)可以表示为
D 1, D 0,
Yi 0 (1 2 ) X i ui Yi 0 1 X i ui
正常年份的居民消费水平高于非正常年份
的居民消费水平。
4
(二)斜率变动模型
在实际问题中,斜率单独变动出现的情
形一般比较少,它指的是改变了变动的速
率也就是弹性。 例如城镇居民家庭与农村
居民家庭的消费函数, 在边际消费倾向
(斜率)上可能会有所不同,假设它们的
消费函数在截距项没有区别。
5
那么回归模型可记为
18
假定它们之间为线性关系,我们可以建立 储蓄模型如下
St 0 1 X t ut
(5.18)
式中,St=人均储蓄,Xt=人均收入,t= 年份(t=1955,1956,…,1985)。
19
把1955年作为基期并把该期的价格水平 定为100,再分别扣除包含在和中的物价 上涨因素。用最小二乘法估计式(5.18) ,得到
9
例如,我们用季度资料研究各种商品消 费额在季节上有没有什么区别?可以建立 模型如下:
Yt 0 1 D1t 2 D2t 3 D3t 4 X t ut (5.10)
其中,Yt=季度的消费,Xt=季度的收入, 对于四个季度,我们引入了三个虚拟变量:
10
1 第一季度 D1t 其他 0
1 第二季度 D2t 其他 0
1 第三季度 D3t 其他 0
这里,第四季度为基础类型,其截距项 为β0 。而其它三个季度的截距项分别为 β0+ β1,β0+ β2 ,β0+ β3 。β1,β2 , β3 代表 季节变动引起的消费差异。
11
四个季度的回归模型分别为
第一季度 第二季度 第三季度 第四季度 Yt 0 1 4 X t u t (5.11) Yt 0 2 4 X t u t (5.12) Yt 0 3 4 X t u t (5.13) Yt 0 4 X t u t
(5.8) (5.9)
7
(三)包含多个虚拟变量的截距变动模型 如果一个质的因素仅有两种特征,只 需引入一个虚拟变量。但是,很多质的因素 往往不只具有两个特征,例如全世界的国家 可以分为发达国家、发展中国家、不发达国 家。
8
我国少数民族在很多问题上有差 异,所以当把民族作为虚拟变量时, 不能简单将其分为汉族和非汉族;季 节因素是我们最常见的质的因素,它 具有四个特征,按照前面的原则,我 们要引入三个虚拟变量。
候只需要引入一个虚拟变量。
2
例5.1描述了一个包括正常年份和非正常
年份(亚洲金融危机或SARS的影响)居
民消费的样本,并建立了虚拟变量计量模 型。
3
利用最小二乘法对式(5.1)进行估计,可得到
ˆ ˆ D ˆ X ˆ Y i 0 1 2 i
(5.6)
对 β1 作t 检验,若 β1 显著地不为0, 我们就认为正常年份和非正常年份居民在 消费行为上的差异是明显的。若 β1 >0,则
18 16 14 12 10 8 6 4 2 0 50-60 70-80
35% 30% 25% 20%
`
15% 10% 5% 0% 90-100
第2节 虚拟解释变量模型
一 、截距变动模型和斜率变动模型
(一)包含一个虚拟变量的截距变动模型
假设只有一个定性因素影响被解释变量
的变化,而且这个因素仅有两种特征,这时