第五章1 虚拟变量模型PPT课件
第五章_包含虚拟变量的回归模型(课堂PPT)
– 对数单位模型(Logit Model) – 概率单位模型(Probit Model)
1
《
55
包含虚拟因变量的回归模型
• 如何估计这类模型?是否可以用OLS? • 有特殊的统计推断问题吗? • 如何度量这种模型的拟合优度?
1
《
56
(一)线性概率模型(LPM)
yi 0 1xi ui
女性 : s·alaryi 17.96929 1.370714 yearsi
years
1
《
16
2定性变量+1定量变量
yi 0 1 d1i 2 d2i 3 xi ui
1, 男教师 d1i 0,女教师
1, 白种人 d2i 0, 非白种人
xi 教龄
1
《
17
思考题:以下定义方法的差别?
18.5 21.7 18.0 19.0 22.0
教育
0 1 0 0 1
1
《
7
1
《
8
y
1
1 3.28
d 0
《
d 1
x
9
• 虚拟变量系数(差别截距项系数)的经济 含义
• 赋值为0的一类常称为基准类(对比类)
1
《
10
思考题:如下定义存在什么问题?
yi 0 1 d1i 2 d2i ui
1
《
44
假说一和假说二
• 不同政策待遇的企业外国股权比例存在差 异
– 私营企业参与的合资企业比乡镇企业参与的合 资企业,其外国股权比例更高。
– 对资金有更大需求的企业比更小需求的企业, 其外国股权比例更高
1
《
45
假说三和假说四
• 由于浙江省对待不同企业的政策差异小于 江苏省,在浙江省所观察到的假说一和假 说二所描述的效应会弱于江苏省。
第五章虚拟变量模型.
(5.14)
12
(四)截距和斜率同时变动模型 在多数情况下,质的因素不但对回 归模型的截距有影响,而且还会改变 模型的斜率。
13
例如城镇居民和农村居民的消费
函数不但在斜率上有差异,在截距上
也是有可能不一致的,将两个问题同
时考虑进来,我们可以得到回归方程
14
Yi 0 1 D 2 X i 3 ( DX i ) ui
17
下面,以我国城镇居民家庭储蓄模型为 例,实际体会虚拟变量模型从建模到检验 再到估计参数最后下结论的全过程。 【例5.2】已有数据资料为我国城镇居民家 庭1955年至1985年人均收入和人均储蓄。 根据经验,也就是先验信息,再通过某些 检验,我们发现储蓄和收入有很强的相关 关系而且收入的变化会引起储蓄的变化。
(5.15) 式中,Yi=第个家庭的消费水平,Xi=第个 家庭的收入水平,
1 城镇居民家庭 D 0 农村居民家庭
15
式(5.15)可以表示为
D 1 D0ຫໍສະໝຸດ Yi 0 1 ( 2 3 ) X i ui (5.16) Yi 0 2 X i ui
ˆ 33.4 0.17X S t t
R2 =0.833, DW=0.398
(5.19)
20
模型(5.19)包含了这样一个假定,那 就是在1955到1985年期间我国城镇居民家 庭的储蓄行为大体保持不变。
21
这一假定实际上是行不通的,因为在 十一届三中全会召开之后,居民的收入 大大增加,而且与居民储蓄有关的许多 重要因素在1979年以后发生了明显变化。 在改革开放之前, 我国居民的收入水 平仅仅能够维持温饱水平,根本不可能 有多少储蓄。
(5.17)
计量经济学第5章 虚拟变量模型
在经济计量模型中除了有量的因素外还有质的因 素,质的因素包括被解释变量为质的因素和解释变量 为质的因素。如果被解释变量为质的因素,主要是逻 辑回归要涉及的内容。本章就解释变量和被解释变量 为质的因素也就是存在虚拟解释变量和虚拟被解释变 量时如何进行参数估计等一系列问题进行讨论。
1
为基础类型截距项。
12
三、虚拟变量的作用 ⑴ 可以描述和测量定性因素的影响。
⑵ 能够正确反映经济变量之间的相互关系,提 高模型的精度。
⑶ 便于处理异常数据。
即将异常数据作为一个特殊的定性因素
1 , 异常时期
D
0
,
正常时期
13
第二节 虚拟解释变量模型
一 、截距变动模型(加法模型)
虚拟变量与其它变量相加,以加法形式引入模
Y i 0 1 D 1 i 2 D 2 i 3 X i u i
Y i ------年支出医疗保健费用支出 X i ------居民年可支配收入
18
1 , 高中
D 1i
0
,
其他
1 , 大学
D 2i
0
,
其他
于是:小学教育程度:
E (Y i X i,D 1 i 0 ,D 2 i 0 )03 X i
7
二、虚拟变量的设置规则
虚拟解释变量模型的设定因为质的因素的多少 和这些因素特征的多少而引入的虚拟变量也会不同。
以一个最简单的虚拟变量模型为例,如果只包 含一个质的因素,而且这个因素仅有两个特征,则 回归模型中只需引入一个虚拟变量。如果是含有多 个质的因素, 自然要引入多个虚拟变量。
8
如果只有一个质的因素,且该质的因素具有 m 个 相互排斥的特征(或类型、属性),那么在含有截距 项的模型中,只能引入 m-1 个虚拟变量,否则会陷入 所谓“虚拟变量陷阱”(dummy variable trap),产 生 完全的多重共线性,会使最小二乘法无解;在不含有 截距项的模型中, 引入 m 个虚拟变量不会导致完全 的多重共线性,不过这时虚拟变量参数的估计结果, 实际上是 D = 1 时的样本均值。
金融计量经济第五讲虚拟变量模型和Probit、Logit模型
原始模型:
YX (5.8)
• 其中Y为观测值取1和0的虚拟被解释变量,X为 解释变量。
• 模型的样本形式: yi Xii
(5.9)
• 因为E(i)0
,E所(y以i)Xi
• 令: p i P ( y i 1 ) 1 p i P ( y i 0 )
• 于是有: E ( y i) 1 P ( y i 1 ) 0 P ( y i 0 ) p i
其它季度
1, 三季度
D3
0,
其它季度
• 小心“虚拟变量陷阱”!
精品课件
三、虚拟变量的应用
• 1、在常数项引入虚拟变量,改变截距。
y i0D 1 x 1 i kx k iu i (5.1)
• 对上式作OLS,得到参数估计值和回归模型:
y ˆiˆ0ˆD ˆ1 x 1 i ˆkx ki(5.2)
金融计量经济第五讲
虚拟变量模型和Probit、Logit模 型
精品课件
第一节 虚拟变量的一般应用
一、虚拟变量及其作用 1.定义:取值为0和1的人工变量,表示非量化
(定性)因素对模型的影响,一般用符号D表 示。例如:政策因素、地区因素、心理因素、 季节因素等。 2.作用: ⑴描述和测量定性因素的影响; ⑵正确反映经济变量之间的相互关系,提高模型 的精度; ⑶便于处理异常数据。
yˆt ˆ ˆxt yˆt ˆ ˆxt ˆ2 yˆt ˆ ˆxt ˆ3 yˆt ˆ ˆxt ˆ4
精品课件
一季度 二季度 三季度 四季度
例题:美国制造业的利润—销售额行为
• 模型:利 t 1 润 2 D 2 t 3 D 3 t 4 D 4 t ( 销 ) t u t售
0.503543 0.500354 1.13E+03 1.99E+09 -13241.74 1.648066
05虚拟变量模型
ˆ ˆ ) ˆX ˆ ( 秋: Y 0 4 1 ˆ ˆX ˆ 冬: Y
0 1
Y 0 1X 2 D ˆ ˆ ) ˆX ˆ ( 春: Y
0 2 1
ˆ 2 ˆ ) ˆX ˆ ( 夏: Y 0 2 1 ˆ 3 ˆ ) ˆX ˆ ( 秋: Y
男性平均年薪:
表明:当性别变量为常数时,工 龄每增加一年,平均年薪增加 1370 元,当工龄保持不变时,男 性的平均年薪比女性多 1330 元, 性别对薪金的影响是显著的。
ˆ (17.97 1.33) 1.37X 19.30 1.37X Y
二、虚拟变量的设置原则
虚拟变量的个数须按以下原则确定: (1)若定性因素有m个相互排斥的类型或属性,只能引 入(m-1)个虚拟变量,否则会陷入“虚拟变量陷阱”,产 生完全共线性。(当无截距项时,应引入m个虚拟变量) 例:已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受 春、夏、秋、冬四季变化的影响,要考察该四季的影响,只 需引入三个虚拟变量即可:
E(Yi | X i , Di 0) 0 1 X i
企业男职工的平均薪金为:
E(Yi | X i , Di 1) ( 0 2 ) 1 X i
几何意义: Yi 0 1 X i 2 Di i • 假定2>0,则两个函数有相同的斜率,但有不同 的截距。意即,男女职工平均薪金对工龄的变化 率是一样的,但两者的平均薪金水平相差2。 • 可以通过传统的回归检验,对2的统计显著性进 行检验,以判断企业男女职工的平均薪金水平是 否有显著差异。 • 2称为截距差异系数。
1 政策变动 Dt 0 政策不变
(3)虚拟变量在单一方程中,可以作为解释变量,也 可以作为被解释变量。
虚拟变量模型.最全优质PPT
设 Y i 为消费支出;X i 为收入;D i 为虚拟变量, 即
1,城镇居民
Di 0,农村居民 i1,2,3, ,n
上述表达式的意义在于,在收入不变的条件下,研 究城镇居民和农村居民对消Y i 费的不同影响,即判断 城乡居民在消费上是否存在显著性差异。 农村居民年平均消费:
E (Y i,|X i,D i0)12X i
1.2 二态变量的作用
引入虚拟变量的作用,在于将定性因素或属性因素 对因变量的影响数量化。 1.可以描述和测量定性(或属性)因素的影响。 2.能够正确反映经济变量之间的相互关系,提高模 型的精度;例如在分段回归中的应用。 3.便于处理异常数据。由于某些突发事件的存在, 如战争、自然灾害,使原本比较稳定的经济关系发 生一段时间的混乱,此时可以利用虚拟变量。
设变量D表示某种属性,该属性有两种类型,即当 属性存在时D取值为1;当属性不存在时D取值为0。 记为
1 具有某种属性 D0 不具有该属性
该变量D即为二态变量。二态变量又称虚拟变量、 名义变量或哑变量,是用以反映质的属性的一个人 工变量,是量化了的质变量,通常取值为0或1, 一般“1”代表某一属性存在,“0”代表某一属 性不存在, 即“是”或“否”,“男”或“女”等。
对上述模型进行回归,利用样本统计量对假 设作出判断(t检验)。只有一个定性解释变 量往往可用于检验一个属性因素对被解释变 量的影响是否显著性存在。
2.1.2 模型中有一个定量解释变量和一
个定性解释变量
设模型形式为
Y i12Xi3D iui
式中,X i 为定量变量,D i 为具有两个属性类型 的定性变量。
设模型形式为
计量经济学单方程计量经济学模型专门问题PPT学习教案
64332.4
88228.1
1989 5146.9
16917.8
2001
73762.4
94346.4
1990 7034.2
18598.4
第6页/共65页
以Y为储蓄,X为收入,可令:
1990年前:Yi=1+2Xi+1i i=1,2…,n1 1990年后:Yi=1+2Xi+2i i=1,2…,n2 则有可能出现下述四种情况中的一种: (1)1=1,且2=2,即两个回归相同,称为重合回归; (2)11,但2=2,两个回归的差异仅在截距,称为平行回归; (3)1=1,但22,两个回归的差异仅在斜率,称为汇合回归; (4)11,且22,即两个回归完全不同,称为相异回归 可以运用邹氏结构变化的检验。这一问题也可通过引入乘法形式
(-2.55)
由2与3的t检验可知:参数显著不等于0,强烈显示出两个时期 的回归是相异的,储蓄函数分别为:
1990年前Dt=1 : Ŷt =-1649.7+0.4116Xt 1990年后Dt=0 : Ŷt =-15452+0.8881Xt 共同的储蓄函数为:Ŷt =-15452+0.8881Xt 教科书上分别给出了1991年和1997年的估计模型
第7页/共65页
8
3.临界指标的虚拟变量的引入
在经济发生转折时期,可通过建立临界值指标的虚拟变量模 型来反映。 案例4,进口消费品数量Y主要取决于国民收入X的多少,中国在 改革开放前后,Y对X的回归关系明显不同。
这时,可以t*=1979年为转折期,以1979年的国民收入Xt*为 临界值,设虚拟变量:t< t*, Dt=0 , t t*, Dt=1
产品(如冷饮)销售的影响等等。
计量经济学虚拟变量模型课件
计量经济学虚拟变量模型
21
1 正常年份 D1i 0 非正常年份
式(5.2)也可表示为
1 非正常年份 D2i 0 正常年份
Y i 0 X 1 i 1 X 2 i 2 X 3 i 3 X i u i (5.3)
其中,X 1i1 ,X 2iD 1i,X 3iD 2i,显然如下等式成立。
X1i X2i X3i
计量经济学虚拟变量模型
3
例如,性别可表现为男或女;人种可表 现为白种人和非白种人;宗教信仰可表 现为教徒和非教徒;政府的经济政策可 表现为改革开放前和改革开放后,如此 等等。
Hale Waihona Puke 计量经济学虚拟变量模型4
显然,这种不同的具体形式是无法直接引 入经济计量模型中去的。但由于这类变量 通常表现为品质、属性、种类的出现或者 未出现,所以我们可以根据质量变量的这 一特征将其数量化。
Y i1 D 1 i2 D 2 i3 X i u i (5.5)
显然模型(5.5)中,解释变量D1,D2和X之间 无完全的多重共线性。可以使用普通最小二乘 法估计式(5.5)的参数。
第五章 虚拟变量模型
在经济计量模型中除了有量的因素外 还有质的因素,质的因素包括被解释变量 为质的因素和解释变量为质的因素。如果 被解释变量为质的因素,主要是逻辑回归 要涉及的内容。
计量经济学虚拟变量模型
1
第一节 虚拟变量的概念与设定
一、虚拟变量的概念 在经济计量分析中, 经常会碰到所建模
型的被解释变量不仅受诸如收入、产量 、价格、 成本、需求、投资等数量变量
(5.4)
计量经济学虚拟变量模型
22
式(5.4)表明模型(5.3)即原模型(5.2)中有 完全的多重共线性,将导致最小二乘估计无 解。我们称该情景为掉入虚拟变量陷阱。所 以,在有截距项的情况下,如果一个质的因 素有多少个特征就引入多少个虚拟变量是行 不通的。
第五讲 虚拟变量模型
第七讲 经典单方程计量经济学模型:专门问题虚拟变量模型学习目标:1. 了解什么是虚拟变量以及什么是虚拟变量模型;2. 理解虚拟变量的设置原则;3. 掌握虚拟变量模型的两种基本引入方式(加法方式和乘法方式);4. 能够自行设计虚拟变量模型,并能够解释其中蕴含的经济意义; 教学基本内容一、 虚拟变量许多经济变量是可以定量度量,例如:商品需求量、价格、收入、产量等;但有一些影响经济变量的因素是无法定量度量。
例如:职业、性别对收入的影响,战争、自然灾害对GDP 的影响,季节对某些产品(如冷饮)销售的影响等。
定性变量:把职业、性别这样无法定量度量的变量称为定性变量。
定量变量:把价格、收入、销售额这样可以可以定量度量的变量称为定量变量。
为了能够在模型中能够反映这些因素的影响,提高模型的精度,拓展回归模型的功能,需要将它们“量化”。
这种“量化”通常是通过引入“虚拟变量”来完成的。
根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(dummy variables ) ,记为D 。
虚拟变量只作为解释变量。
例如:反映性别的虚拟变量⎩⎨⎧=女男;0;1D 反映文化程度的虚拟变量⎩⎨⎧=非本科学历本科学历;0;1D 一般地,基础类型和肯定类型取值为1;比较类型和否定类型取值为0。
二、 虚拟变量的设置原则设置原则:每一定性变量(qualitative variable)所需的虚拟变量个数要比该定性变量的状态类别数(categories)少1。
即如果有m 种状态,只在模型中引入m-1个虚拟变量。
例如,冷饮的销售量会受到季节变化的影响。
季节定性变量有春、夏、秋、冬4种状态,只需要设置3个虚拟变量:⎩⎨⎧=其他春季;0;11D ⎩⎨⎧=其他夏季;0;12D ⎩⎨⎧=其他秋季;0;13D错误设置:⎩⎨⎧=其他春季;0;11D ⎩⎨⎧=其他夏季;0;12D ⎩⎨⎧=其他秋季;0;13D ⎩⎨⎧=其他冬季;0;14D 如果设置第4个虚变量,则出现“虚拟变量陷井”(Dummy Variable Trap )问题。
第五章第一节虚拟变量模型25页PPT
例。已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受 春、夏、秋、冬四季变化的影响,要考察该四季的影响,只
需引入三个虚拟变量即可:
1 春季
D 1t
0
其他
1 夏季
D 2t
0
其他
1
D 3t
0
秋季 其他
1 春季
D 1t
0
其他
1 夏季
D 2t
0
其他
1
D 3t
0
秋季 其他
则冷饮销售量的模型为:
Y i01 X i2 D ii
其中:Yi为企业职工的薪金(千元),Xi为工龄;
1 Dt 0
男 女
Yˆ 17.971.37X1.33D t (93.61) (38.45) (8.57) R2 0.99
女性平均年薪:
Y ˆ1.9 7 71.3X 7
表明:当性别变量为常数时, 工龄每增加一年,平均年薪 增加1370元,当工龄保持不 变时,男性的平均年薪比女 性多1330元,性别对薪金的 影响是显著的。
三、虚拟变量的引入
• 虚拟变量做为解释变量引入模型有两种基本方式: 加法方式和乘法方式。
1、加法方式 Y i01 X i2 D ii
上述企业职工薪金模型中性别虚拟变量的引入采 取了加法方式。
在该模型中,如果仍假定E(i)=0,则 企业女职工的平均薪金为:
E ( Y i|X i,D i 0 ) 0 1 X i
男性平均年薪:
Y ˆ ( 1 .9 7 1 7 .3 ) 1 3 .3 X 7 1 .3 9 1 0 .3 X 7
二、虚拟变量的设置原则
虚拟变量的个数须按以下原则确定:
(1)若定性因素有m个相互排斥的类型或属性,只能引 入(m-1)个虚拟变量,否则会陷入“虚拟变量陷阱”,产 生完全共线性。(当无截距项时,应引入m个虚拟变量)
《虚拟变量模型 》课件
业类型的效应,可以使用虚拟变量模型。理分类变量对连续结果的影响,能够同时分析多个分类变量的效应,有助于更好地理解数据之 间的关系。
缺点
当分类变量类别过多时,会导致虚拟变量的数量增加,从而增加模型的复杂性和计算负担。此外,虚 拟变量模型对于非线性关系的处理能力有限,可能无法准确捕捉数据之间的关系。
虚拟变量模型
目录
• 虚拟变量模型概述 • 虚拟变量模型的建立 • 虚拟变量模型的参数估计与检验 • 虚拟变量模型的应用案例 • 虚拟变量模型的局限性及未来研究方向 • 结论
01
虚拟变量模型概述
定义与特点
定义
虚拟变量模型是一种统计学方法,用于处理分类变量对连续结果的影响。它通过引入一系列二进制(或多元)虚 拟变量来代表分类变量的不同类别。
详细描述
通过引入虚拟变量,研究者可以控制和比较不同类别消费者之间的差异,例如 不同年龄、性别、收入水平的消费者在产品选择、品牌忠诚度和价格敏感度等 方面的表现。
案例二:市场细分研究
总结词
虚拟变量模型在市场细分研究中起到关 键作用,帮助企业了解不同客户群体的 需求和行为特征,从而制定更精准的市 场策略。
确定虚拟变量的数量
根据分类变量的数量,确定需要创建的虚拟变量的数量。
命名虚拟变量
为每个虚拟变量选择一个有意义的名称,以便在模型中使用。
构建虚拟变量模型
确定模型的形式
根据研究假设和问题,选择适合的模型形式 ,如线性回归、逻辑回归等。
引入虚拟变量
将选定的虚拟变量引入到模型中,并根据模 型的要求设置相应的参数。
特点
虚拟变量模型能够揭示分类变量对连续结果的影响,同时能够处理多个分类变量对结果的影响。它通过引入虚拟 变量来控制分类变量的效应,从而更好地理解数据之间的关系。
虚拟变量模型
王中昭制作主要内容:§5.1 虚拟变量模型第五章经典单方程计量经济学模型:专门问题§5.1 、虚拟变量模型王中昭制作一、什么叫虚拟变量•在回归模型中,除了定量变量外,有时还必须引入一些不可量化的经济变量,例如,研究职工的收入问题,需考虑到职工的受教育程度,研究冷饮的需求量或某个旅游胜地的旅游人数,需引入季节因素。
这些都是非量化因素,但又非常重要,需引入模型中。
这些不可量化因素可称为虚拟变量。
•一般地,在模型中的定性变量称为虚拟变量。
或称为二元变量或分类变量等等。
用D表示虚拟变量,以强调它与其它定量变量的区别。
二、引入虚拟变量的方式与特点王中昭制作•①、加法方式:虚拟变量与各解释变量之间存在相加关系。
•特点:模型的截距不同,斜率相同。
•例如:Y=a1+a2D t+b1X t+μtt•当D=1时,截距=a1+a2;t•当D=0时,截距=a1t•②、乘法方式:虚拟变量与各解释变量之间存在相乘关系。
•特点:模型的截距相同,斜率不同。
•例如:Y=a1+ b1X t+b2D t*X t+μtt•当D=1时,斜率=b1+b2;t•当D=0时,斜率=b王中昭制作•③、混合方式:虚拟变量与各解释变量之间同时存在相乘和相加关系。
•特点:模型的截距和斜率均不相同。
•例如:Y t=a1+a2D t+b1X t+b2D t*X t+μt•当Dt =1时,截距=a1+a2,斜率=b1+b2;•当Dt=0时,截距=a1,斜率=b1。
王中昭制作•还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。
一个以性别为虚拟变量考察企业职工薪金的模型:D 1为性别,D 2为学历。
ii i D D X Y μββββ++++=231210⎩⎨⎧=012D 本科及以上学历本科以下学历职工薪金的加法方式引入的模型为:其中:Y 为企业职工的薪金,X 为工龄,D 1=1,若是男性,D 1=0,若是女性。
王中昭制作引入虚拟变量的作用是:消除异常值、体现其它重要的非量化因素对因变量的影响(如:转折点、季节因素、政策因素、教育程度、民族、性别、地区和资料分组等)、提高模型的可靠性。
计量经济学课件虚拟变量
2. 检验模型结构的稳定性
定义: 如果模型中参数的估计值与样本的选取无关, 则称该模型结构是稳定的。 用途: (1)检验多重共线性; (2)比较两个回归模型是否存在显著差异。 例:不同时期、不同地区、不同行业
模型:
样本1
样本2
y a1 b1 x
y a2 b2 x
组合:y a bx D XD
1 D 0 1 D 0
1 D 0 1 D 0
宽松政策 紧缩政策 发达地区 不发达地区
销售旺季 销售淡季
高收入家庭 低收入家庭
作用:
⑴描述和测量定性因素的影响; ⑵正确反映经济变量之间的关系,提高模型的精度 ⑶便于处理异常数据。
本节学习要求: 1958 年 1 D 其他年份 ⑴如何设置虚拟变量; 0 ⑵如何描述和测量定性因素的影响。
东 中 西
中部地区 其他地区
α2 -α1
(a 1 ) bX
东部地区 其他地区
α1
a bX
方式3:设置3个虚拟变量
1 D1 0
1 D3 0
中部地区 其他地区
西部地区 其他地区
1 D2 0
东部地区 其他地区
D1 D2 D3 1
虚拟变量的设置原则 1:
第四节
虚拟变量
一、虚拟变量及其作用
问题: 在计量经济模型中如何反映定性因素影响?例如:
金融计量分析中的政策因素、心理因素 经济增长分析中的地区差异因素 产品销售分析中的季节因素、消费习惯等因素
定义: 用以描述定性因素影响、只取数值0和1的人工变 量为“虚拟变量”,一般用符号D表示。 (Dummy variable—哑变量)
第五章-含虚拟变量的回归模型
Econometrics第五章虚拟变量回归模型(教材第六章)第五章虚拟变量回归模型第一节虚拟变量的性质和引入的意义第二节虚拟变量的引入第三节交互作用效应第四节含虚拟变量的回归模型学习要点虚拟变量的性质,虚拟变量的设定5.1 虚拟变量的性质和引入的意义虚拟变量的性质f定性变量性别(男,女)婚姻状况(已婚,未婚)受教育程度(高等教育,其他)收入水平(高收入,中低收入)肤色(白人,有色人种)政治状况(和平时期,战争时期)f引入虚拟变量(Dummy Variables)1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。
2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。
3、提高模型的精度,相当与将不同属性的样本合并,扩大了样本量,从而提高了估计精度)。
5.1 虚拟变量的性质和引入的意义5.2 虚拟变量的引入虚变量引入的方式主要有两种f加法方式虚拟变量与其它解释变量在模型中是相加关系,称为虚拟变量的加法引入方式。
加法引入方式引起截距变动5.2 虚拟变量的引入f 虚拟变量的作用在于把定性变量“定量化”:通过赋值0和1,0表示变量不具备某种性质,1表示具备。
f 例,0代表男性,1代表女性;0代表未婚,1代表已婚;等等。
f 这类取值为0和1的变量称为虚拟变量(dummy variables ),通常用符号D 表示。
f 事实上,模型可以只包括虚拟变量(ANOVA 模型):其中,0,1,i i D D ==男性;女性。
12i i iY B B D u =++5.2 虚拟变量的引入虚拟变量的性质f 假定随机扰动项满足男性的期望:5.2 虚拟变量的引入虚拟变量的性质f 食品支出对性别虚拟变量(男=0,女=1)回归的结果:f 结果怎么解释?f 由于男性赋值为0,女性赋值为1,因此,截距项表示取值为0的一类(这里是男性)的均值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
问题:建模过程中如何使用定性变量?
Copyright©princebf,2008-2009,YNUFE
3. 正确应用定性变量的方式
【例】:对于上例,设置如下两个变量:
Copyright©princebf,2008-2009,YNUFE
2. 直接使用定性变量的不合理性
【例】:考虑教育程度(E)、工龄(X)和收入(Y)的关系。
Y i01 X i2 E ii
其中:E:1-本科;2-硕士;3-博士
◦ 模型中系数 β2 的经济意义是什么? ◦ 注意到 β2 是一个常数,这意味着什么?
虚拟变量:
E1
1 0
硕士 其它
1 博士
E
2
0
其它
E1=1 E2=0 E1=0
E2=0 :硕士 E2=1 :博士 E2=0 :本科
例2:
男
定性变量: 性别
女
1 男
虚拟变量: S
0
女
Copyright©princebf,2008-2009,YNUFE
2. 虚拟变量的设置说明
(1)这一规则适用于模型中包含一个或多个定性变量的情形。即如果模 型存在多个定性变量,则需要设置多组虚拟变量,每组虚拟变量的 个数取决于对应的定性变量所具有的类别数。
• 实质上,虚拟变量是定性变量的一种“量化”工具,用以反映观测在定 性变量上所属的类别或所具有的属性。 • 虚拟变量可以类似于定量变量一样直接引入模型,而不丧失模型的合理 性,因此:正确应用定性变量的一种方式是通过设置“虚拟变量”引入定 性变量。 • 由此,包含虚拟变量的模型称之为虚拟变量模型
※ 问题:如何正确地设置虚拟变量?
(2)定性变量的分类中,不指定其虚拟变量的类别(组)称为基准组 (base)或参照组(reference)。 • 如上例:本科教育程度组即为基准组或参照组 • 在基准组上,所有对应的虚拟变量的取值均为0 • 实际问题中,基准组或参照组的选择完全取决于研究者。 • 一旦选定基准组,分析中,所有其它组都将与基准组进行比较。
第五章 经典单方程计量经济学模型专门问题
§5.1 虚拟变量模型 §5.2 滞后变量模型
Copyright©princebf,2008-2009,YNUFE
§5.1 虚拟变量模型
一、虚拟变量的含义 二、虚拟变量的设置 三、虚拟变量的引入
Copyright©princebf,2008-2009,YNUFE
Copyright©princebf,2008-2009,YNUFE
【分析】: 假定我们有6个观测值,其中2个硕士、1个博士、3个本科生 考虑模型的设计矩阵X:
1 X 1 1 0 0
1
X2
1
ห้องสมุดไป่ตู้
0
0
1 X
X3
0
1
0
1 X 4 0 0 1
1 1
X5 X6
0 0
0 0
1 1
显然,矩阵X是不满秩的,产生了“完全的多重共线性”!
一、虚拟变量的含义
•一种人为构造的、取值仅为“1”或“0”的变量
Copyright©princebf,2008-2009,YNUFE
1. 定量变量和定性变量
定量变量:测度等级为间距(interval)或比率(ratio)尺度的变量, 如需求量、价格、收入、产量等
◦ 其取值为具有实际含义的数据 ◦ 可以在建模过程中直接使用这些变量及其数据
此即所谓的“虚拟变量陷阱”!
Copyright©princebf,2008-2009,YNUFE
1. 虚拟变量的设置原则
对每个定性变量而言,所引入的虚拟变量的个数应该比该变量的类别数 少1,即:如果某个定性变量具有m个类别,则只需在模型中引入(m-1) 个虚拟变量。
例1:定性变量:教育程度E:1-本科;2-硕士;3-博士
Copyright©princebf,2008-2009,YNUFE
4. 虚拟变量的含义
• 虚拟变量(dummy variable):一种人为构造的、取值仅为“1”或 “0”的变量,又称示性变量(indicator variable)。
• “1”表示属于某个类别或具备某种属性
• “0”表示不属于该类别或不具备该属性
对于硕士生,其收入为:E ( Y i | E 1 = 1 , E 2 = 0 ) 0 1 X i 2 对于博士生,其收入为:E ( Y i | E 1 = 1 , E 2 = 0 ) 0 1 X i 3
※ 教育程度的变动带来的影响分别是β2(本-硕)和(β3-β2)(硕- 博),模型合理性得到改进!
1 硕士
E1
0
其它
这意味着:对于某个硕士生:E1=1 E2=0 对于某个博士生:E1=0 E2=1
1 博士
E
2
0
其它
对于某个本科生:E1=0 E2=0
建立如下模型: Y i0 1 X i2 E 1 i+ 3 E 2 ii
于是:对于本科生,其收入为:E ( Y i| E 1 = 0 , E 2 = 0 ) 01 X i
1 硕士
E1
0
其它
这意味着:
1 博士
E
2
0
其它
1 本科
E
3
0
其它
对于某个硕士生:E1=1 E2=0 E3=0 对于某个博士生:E1=0 E2=1 E3=0 对于某个本科生:E1=0 E2=0 E3=1
相应的模型:
Y i 0 1 X i 2 E 1 i + 3 E 2 i 4 E 3 i i
定性变量:测度等级名义(nominal)或顺序(ordinal)尺度的变量, 如性别、教育程度等
◦ 其取值为类别或顺序,可用数值表示,但数值不具有实际含义,仅是表示 类别或序次的代码
性别(1-男;0-女)、教育程度(1-小学、2-初中、3-高中、4-大学)
◦ 实际建模中,考虑定性变量的影响是必要的,但直接使用定性变量的取值 则具有不合理性
Copyright©princebf,2008-2009,YNUFE
二、虚拟变量的设置
• 虚拟变量的个数为定性变量类别数-1 • 注意参照类的设置 • 注意虚拟变量陷阱
Copyright©princebf,2008-2009,YNUFE
# 对例题的思考
【思考】:上例中,为什么不用三个虚拟变量表示三种教育程度?