第五章 解释变量包含虚拟变量 的回归模型

合集下载

第五章_包含虚拟变量的回归模型(课堂PPT)

第五章_包含虚拟变量的回归模型(课堂PPT)
• 其它模型
– 对数单位模型(Logit Model) – 概率单位模型(Probit Model)
1

55
包含虚拟因变量的回归模型
• 如何估计这类模型?是否可以用OLS? • 有特殊的统计推断问题吗? • 如何度量这种模型的拟合优度?
1

56
(一)线性概率模型(LPM)
yi 0 1xi ui
女性 : s·alaryi 17.96929 1.370714 yearsi
years
1

16
2定性变量+1定量变量
yi 0 1 d1i 2 d2i 3 xi ui
1, 男教师 d1i 0,女教师
1, 白种人 d2i 0, 非白种人
xi 教龄
1

17
思考题:以下定义方法的差别?
18.5 21.7 18.0 19.0 22.0
教育
0 1 0 0 1
1

7
1

8
y
1
1 3.28
d 0

d 1
x
9
• 虚拟变量系数(差别截距项系数)的经济 含义
• 赋值为0的一类常称为基准类(对比类)
1

10
思考题:如下定义存在什么问题?
yi 0 1 d1i 2 d2i ui
1

44
假说一和假说二
• 不同政策待遇的企业外国股权比例存在差 异
– 私营企业参与的合资企业比乡镇企业参与的合 资企业,其外国股权比例更高。
– 对资金有更大需求的企业比更小需求的企业, 其外国股权比例更高
1

45
假说三和假说四
• 由于浙江省对待不同企业的政策差异小于 江苏省,在浙江省所观察到的假说一和假 说二所描述的效应会弱于江苏省。

第2部分:线性回归(4)-包含虚拟变量的回归模型

第2部分:线性回归(4)-包含虚拟变量的回归模型
几个问题:
1、在模型中引入多个虚拟变量时,虚拟变量的个 数应按下列原则确定:如果有 m 种互斥的属性类 型,在模型中引入 m-1 个虚拟变量。即每个虚拟 变量的个数要比该变量的分类数少1。例如,性别 有2个互斥的属性,引用2-1=1个虚拟变量。否则 就会陷入虚拟变量陷阱。 2、赋值为0的一类称为基准类、对比类等。 3、虚拟变量D的系数称为差别截距系数。
1。加法方式——影响截距
虚拟变量D 与其它解释变量在模型中是相 加关系,称为虚拟变量的加法引入方式。 例如,讨论消费问题,消费水平C主要由收 入水平Y决定,但是当特殊情况出现时政府 会采取对消费品限量供应措施,因此引入 虚拟变量D来表示这些特殊情况与非特殊情 况。 加法引入方式引起截距变动
10
消费问题的虚拟变量模型
c C=b0+(b1+b2)x D=1反常 Y=b0+b1X+b2DX D=0正常 x
17
C=b0+b1x
运用虚拟变量同时改变回归直线的截距和斜率
D=1反常 Y=(b0+b2)+(b1 +b3)x+e Y=b0+b1X+b2D+b3DX+e
Y=b0+b1x+e 正常时期 D=0正常
18
折线回归
I=b0+b1G+b2(G-G0)D1+b3(G-G1)D2+e I t<84 D1=0 G0 t<88 D2=0 G1 D1、D2处理3状态
1、方差分析模型(ANOVA):回归模型中, 解释变量仅是虚拟变量的模型。
如:yi = B1 + B2 Di + ui , 其中y为初始年薪, Di = 1、 0,为1时表示大学毕业,为0时表示其他。 则大学毕业生的初始年薪期望为: E ( yi | Di = 1) = B1+B2 .0 = B1 非大学毕业生的初始年薪期望为 : E ( yi | Di = 0) = B1+B2 .1 = B1 + B2

8. 虚拟变量回归模型

8. 虚拟变量回归模型
11
包含一个定量变量、两个定性变量的回归模型

例3:研究的问题中需要按不同标准引入多个定性变量 例:研究大学教师的年薪是否受到性别、学历的影响。 按性别标准教师分:男、女两类 引入一个虚拟变量; 按学历标准大学教师分:大学本科、研究生、博士三类 引入两个虚拟变量 总计需要引入三个虚拟变量:
D 1 ,女性

令Y=年薪,建立如下模型:
Yi B1 B2 Di ui
男性就业者的平均年薪: E (Yi | Di 0) B1 女性就业者的平均年薪:E (Yi | Di 1) B1 B2 如果B2 =0 ? 说明不存在性别歧视 如果B2 <0 ? 说明存在性别歧视
18
虚拟变量的交互影响



婚姻状况与性别对工资的影响 married:已婚取1 famle:女性取1
ˆ wage) 0.321 0.110 female 0.213married log( 0.301 female married
19
包含一个定量变量、一个定性变量的回归模型
(一)加法模型 0 ,男性 D 例1,再引入一个变量 1 ,女性 X=工作年限 建立如下模型: Yi B1 B2 X i B3 Di ui 男性就业者的平均年薪: 女性就业者的平均年薪: 如果B3 =0? 说明不存在性别歧视
16Biblioteka 回归模型中的结构稳定性:虚拟变量法
两条不同时期的直线在转折点连起成为一条折线。
进口商品支出回归方程为
* 1 t t Dt * 0 t t
Yt B1 B2 X t B3 ( X t X t * ) Dt ut
17

虚拟变量

虚拟变量
• 大学及其以上:
E(Yi | X i , D1 0, D2 1) ( 0 3 ) 1 X i
假定3>2,其几何意义:
大学教育 保健 支出 高中教育 低于中学教育
收入
自变量包含虚拟变量的回归模型
o 1999年中国人均GDP的地区差异

(1) GDPi 1513 3154easti p
1 正常年份 Dt 消费模型可建立如下: 0 反常年份
如,设
Ct 0 1 X t 2 Dt X t t
这里,虚拟变量D以与X相乘的方式引入了模型中,从而可 用来考察消费倾向的变化。 假定E(i)= 0,| X t , Dt 1) 0 ( 1 2 ) X t
为了在模型中能够反映这些因素的影响,并提 高模型的精度,需要将它们“量化”。
这种“量化”通常是通过引入“虚拟 变量”来完成的。根据这些因素的属性类 型,构造只取“0”或“1”的人工变量,通 常称为虚拟变量(dummy variables),记 为D。 例如,反映文程度的虚拟变量可取为:
1,
本科学历
虚拟变量
虚拟变量
1. 什么是虚拟变量
二分、多分变量 2. 自变量包含虚拟变量的回归模型 极差截距、极差斜率 3. 应用实例
一、虚拟变量的基本含义
许多经济变量是可以定量度量的,如:商品需
求量、价格、收入、产量等。
但也有一些影响经济变量的因素无法定量度量 ,如:职业、性别对收入的影响,战争、自然 灾害对GDP的影响,季节对某些产品(如冷饮 )销售的影响等等。
由3与4的t检验可知:参数显著地不等于0, R2 强烈示出两个时期的回归是相异的,储蓄函数 分别为:
1990年前: 1990年后:

3.6 虚拟变量模型

3.6 虚拟变量模型
– 设置多个虚拟变量,理论上正确,带来自由度损失。 – 以定性变量为研究对象,构造多元排序离散选择模型,然后 以模型结果对定性变量的各种状态赋值。但需要更多的信息 支持。
• 赋值的方法等于是对虚变量方法中的各个虚变量的参 数施加了约束,而这种约束经常被检验为错误的。
– 在该模型中,如果仍假定E(i)=0,则企业男、女职 工的平均薪金为:
E(Yi | X i , Di 1) ( 0 2 ) 1 X i E(Yi | X i , Di 0) 0 1 X i
– 假定2>0,则两个函数有相同的斜率,但有不同的截距。 意即,男女职工平均薪金对工龄的变化率是一样的,但 两者的平均薪金水平相差2。 – 可以通过对2的统计显著性进行检验,以判断企业男女 职工的平均薪金水平是否有显著差异。
三、虚拟变量的设置原则
• 每一定性变量(qualitative variable)所需的虚 拟变量个数要比该定性变量的状态类别数 (categories)少1。即如果有m种状态,只在模 型中引入m-1个虚拟变量。 • 例如,季节定性变量有春、夏、秋、冬4种状 态,只需要设置3个虚变量:
1 D1 0 春季 其它 1 D2 0 夏季 其它 1 D3 0 秋季 其它
男职工本科以下学历的平均薪金:
E(Yi | X i , D1 1, D2 0) ( 0 2 ) 1 X i
女职工本科以上学历的平均薪金:
E(Yi | X i , D1 0, D2 1) ( 0 3 ) 1 X i
男职工本科以上学历的平均薪金:
1 Di 0 农村居民 城镇居民
Ci 0 1 X i 2 Di X i i
E(Ci | X i , Di 1) 0 (1 2 ) X i E(Ci | X i , Di 0) 0 1 X i

带虚拟变量的回归模型

带虚拟变量的回归模型

§5.5 含有虚拟变量的回归模型 1.带虚变量的回归预测前述变量均是用某种意义明确的尺度加以定量的变数。

暂时性影响:经济行为受特定因素的影响,因而促使一期或数期变数与其他各期有明显的差异。

虚拟变量:用来表现暂时性影响的变量,或者说,表明某种“品质”或属性是否存在的的变量。

2.基本概念(1)水平:当自变量以虚拟变量的形式出现时,虚拟变量的出现形式称为“水平”。

(2)反应:用()k j i,δ表示第i 个样本第j 个自变量取第k 个水平的反应:()k j i ,δ=⎩⎨⎧否则个水平时个自变量取第个样本第当第01k j i(3)反应表:将各样本的资料排列得到的表格称为反应表。

(4)反应矩阵:把反应表中的反应()k j i,δ写成矩阵形式,称为反应矩阵。

记为X=(()k j i,δ)。

3.基本方法(1)建模原则:如果一个属性变数有m 个类型,只引入m —1个虚拟变量。

否则,会陷入所谓的虚拟变数陷阱之中,出现完全多重共线性的情况。

在解释采用虚拟变量的模型结果时,要弄清楚水平值是如何确定的。

指定取值为0的类型或组通常用来指明基础类型、控制类型、对比类型或被省略的类型。

附属于虚拟变量D 的系数α1称为不同的截距系数,它说明D 取值为1的那种类型的截距项与基础类型的截距系数的数值差异有多大。

(2)建立数学模型:将虚拟变量视为普通变量,建立回归模型。

(3)对参数作出估计。

(4)进行预测。

(5)一般情况:指模型自变量中同时含有虚拟变量和普通变量。

4.应用实例研究1958年第四季度到1971年第二季度期间英国的失业率和职务空缺率之间的关系。

原始作出散点图解释:1966年第四季度起,失业—职位空缺的关系发生变化,表示两者之间关系的曲线在该季度开始上移。

这种上移的含义是指对于一定的职位空缺率来说,1966年第四季度比以前有更多的失业者。

其原因是1966年10月(即第四季度),当时的英国政府通过以统一收费率和(以前的)有关救济金收入的混合制度,取代短期失业救济的统一收费率制度,从而放宽了国民保险条例,这明显地增加了失业救济金的水平。

解释变量包含虚拟变量的回归模型

解释变量包含虚拟变量的回归模型
(3) 1=1 ,但22 ,即两个回归旳差别仅在其 斜率,称为汇合回归(Concurrent Regressions);
(4) 11,且22 ,即两个回归完全不同,称为 相异回归(Dissimilar Regressions)。
平行回归
汇合回归
相异回归
能够利用邹氏构造变化旳检验。这一问题 也可经过引入乘法形式旳虚拟变量来处理。
• 为了在模型中能够反应这些原因旳影响,并提 升模型旳精度,需要将它们“量化”。
这种“量化”一般是经过引入“虚拟变量” 来完毕旳。根据这些原因旳属性类型,构造只取 “0”或“1”旳人工变量,一般称为虚拟变量 (dummy variables),记为D。
• 例如,反应文化程度旳虚拟变量来自取为:1, 本科学历 D=
90年前 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990
表 5.1.1
储蓄 281 399.5 523.7 675.4 892.5 1214.7 1622.6 2237.6 3073.3 3801.5 5146.9 7034.2
1979~2001 年中国居民储蓄与收入数据(亿元)
GNP
90年后
储蓄
4038.2
1991
9107
4517.8
1992
11545.4
4860.3
1993
14762.4
5301.8
1994
21518.8
5957.4
1995
29662.3
7206.7
1996
38520.8
8989.1
1997
46279.8
第五章 解释变量包括虚拟变量 旳回归模型

虚拟变量回归模型:计量经济学3

虚拟变量回归模型:计量经济学3
E( yi D2 0, D3 0) 1 xi
3、虚拟变量的实际应用
(1)虚拟变量可以用于研究制度变迁的影响

如:研究2001年中国加入WTO事件对中国进出 口贸易的影响,可以建立如下方程:
+d 主要贸易伙伴国 GDP+e DWTO
中国的进出口贸易总值 =a b 人民币汇率 c 中国GDP
计量经济学专题:
虚拟变量的回归与Probit模型、 Logit模型
1、虚拟变量的性质


与有明确尺度量化了的变量(GDP、产 量、价格、成本、汇率等)不同,虚拟 变量是一种定性性质的变量,如性别、 种族、国籍等只涉及“是”与“非”两 种状态的变量。 虚拟变量的取值只取0或1。1表示某种性 质出现,0表示某种性质不出现。

(3)对一个普通变量与两个两分虚拟变 量的回归

例:种族及性别差异对薪金的影响。 假定薪金除了受工作年限、性别的影响 之外,还受种族的影响。
yi 1 2 D2i 3D3i xi ui

yi 为某人的工资水平,xi 为工作年限。

yi 1 2 D2i 3D3i xi ui 虚拟变量模型:

白人女性的工资水平:
E( yi D2 0, D3 1) (1 3) xi

yi 1 2 D2i 3D3i xi ui 虚拟变量模型:

其他人种男性的平均工资:
E( yi D2 1, D3 0) (1 2) xi

其他人种女性的平均工资:
Pi P r(Y 1) P r(I i * I i ) F ( I i ) 1 2 1 2

Ii

计量经济学10虚拟变量回归模型

计量经济学10虚拟变量回归模型
把定性因素“定量化”的一个方法是建立人 工变量(也称为虚拟变量,Dummy variable),并赋值0和1:
0:不具备某种性质; 1:具备某种性质。 虚拟变量常用变量D表示。
10-4
例如,反映文化程度的虚拟变量可取为: 1, 本科学历
D= 0, 非本科学历
10-5
一般地,在虚拟变量的设置中:
品消费支出对的回归模型
回归模型如公式10-8,10-9 对模型的解释:
虚拟变量的统计显著; 常数统计显著; 对定量变量回归统计的解释。
对比没有虚拟变量的模型
10-13
例:一个以性别虚拟变量考察企业职工薪 水的模型:
Yi=B1+B2Xi+B3Di+ui
其中:Yi为企业职工的薪金,Xi为工龄, Di=1,若是男性,Di=0,若是女性。
研究类型、肯定类型取值为1; 基准类型,否定类型取值为0。
称虚拟变量也为二元变量binary variable
10-6
方差分析模型(Analysis of variance models,ANOVA):仅包含定性变量或 虚拟变量的回归模型,其形式如下: Yi=B0+B1Di+ui
假定Y:每年食品支出(美元);Di=1表示 女性;Di=0表示男性,则:
• D2=1表东北和中北部地区,D2=0为其它地区; • D3=1表南部地区,D3=0为其它地区
这是将西部地区看成是基准类。
10-15
再考虑政府机构用于每个学生的花费和地区对 教师平均年薪水的影响: AASi=B1+B2D2i+B3D3i+B4PPSi
对模型的解释:
D2显著,而D3不显著,表明原模型存在设定误差; PPS的系数的含义

计量经济学(第四版)3.6 虚拟变量模型

计量经济学(第四版)3.6 虚拟变量模型
– 设置多个虚拟变量,理论上正确,带来自由度损失。 – 以定性变量为研究对象,构造多元排序离散选择模型,然后
以模型结果对定性变量的各种状态赋值。但需要更多的信息 支持。
• 赋值的方法等于是对虚变量方法中的各个虚变量的参 数施加了约束,而这种约束经常被检验为错误的。
– 模型含常数项
– 模型不含常数项
讨论:定序定性变量可否按照状态赋值?
• 例如:表示居民对某种服务的满意程度,分5种状态: 非常不满意、一般不满意、无所谓、一般满意、非常 满意。在模型中按照状态分别赋值0、1、2、3、4或 者-2、-1、0、1、2。
• 被经常采用,尤其在管理学、社会学研究领域。
• 正确的方法:
三、虚拟变量的设置原则
• 每一定性变量(qualitative variable)所需的虚 拟变量个数要比该定性变量的状态类别数 (categories)少1。即如果有m种状态,只在模 型中引入m-1个虚拟变量。
• 例如,季节定性变量有春、夏、秋、冬4种状 态,只需要设置3个虚变量:
1 春季
1 夏季
• 对于一元模型,有两组样本,则有可能出现下 述四种情况中的一种:
– 1=1 ,且2=2 ,即两个回归相同,称为重合回 归(Coincident Regressions);
– 11 ,但2=2 ,即两个回归的差异仅在其截距, 称为平行回归(Parallel Regressions);
– 称1=为汇1 合,回但归2(Co2n,cu即rre两nt个R回eg归re的ss差ion异s)仅;在其斜率,
年薪 Y
2 0
男职工 女职工
工龄 X
• 将上例中的性别换成教育水平,教育水平考虑 三个层次:高中以下、高中、大学及其以上。

含虚拟自变量的回归分析

含虚拟自变量的回归分析
研究指出,虚拟自变量的适用条件包括样本量、数据类型等方面的要求,同时在使用过 程中也存在一定的局限性,需要结合实际情况进行权衡和选择。
研究成果对实践的指导意义
01
提供了一种新的回归 分析思路
本研究为回归分析提供了一种新的思 路和方法,有助于解决传统回归分析 中难以处理的问题,提高分析结果的 准确性和可靠性。
模型构建
根据行业特点和历史销 售数据,构建一个含虚 拟自变量的回归模型。 其中,虚拟自变量可以 表示季节性、促销活动
等因素。
实证分析
利用历史销售数据对模 型进行实证分析,估计 模型参数并检验虚拟自 变量的显著性。通过模 型评价和诊断确保模型
的有效性。
预测与应用
利用估计得到的回归模 型对未来销售进行预测 ,并根据预测结果制定 相应的市场策略和销售
某个虚拟自变量的系数不显著,则说明该自变量对因变量的影响不显著。
03
模型的诊断
通过残差分析、异方差性检验、多重共线性检验等方法,对模型进行诊
断。如果发现模型存在问题,则需要对模型进行改进。
模型优化与改进
变量的筛选
通过逐步回归、向前选择、向后剔除等方法,对自变量进行筛选。保留对因变量有显著影响的自变量,剔除对因变量 影响不显著的自变量。
结果展示
将实证分析的结果以表格、图形等形式进行展示,以便更 直观地了解虚拟自变量对因变量的影响程度和方向。
应用举例:某行业销售预测模型
第一季度
第二季度
第三季度
第四季度
背景介绍
以某行业的销售数据为 例,探讨含虚拟自变量 的回归分析在销售预测 中的应用。该行业销售 受到多种因素的影响, 包括季节性、促销活动 、竞争对手行为等。
参数估计方法

含虚拟自变量的回归分析

含虚拟自变量的回归分析

表7-6 保险公司革新情况1
17
151
0
2
26
92
0
3
21
175
0
4
30
31
0
5
22
104
0
6
0
277
0
7
12
210
0
8
19
120
0
9
4
290
0
10
16
238
0
11
28
164
1
12
15
272
1
13
11
295
1
14
38
68
1
15
31
85
1
16
21
224
1
17
20
166
1
18
13
305
1
19
在建立一个实际问题的回归方程时,经常 需要考虑这些定性变量。例如,建立粮食产量 预测方程就应考虑到正常年份与受灾年份的不 同影响;建立空调的销售模型时,除了要考虑 居民收入和商品价格这两个量的因素之外,还 必须将“季节”这个质的因素,作为一个重要 解释变量。
由于受到质的因素影响,回归模型的参数 不再是固定不变的。例如,在空调销售模型中, 收入、价格与空调销售额的关系是随着季节变 化而改变的,也就是说,在不同的季节回归模 型的参数也会有所不同。再如,我国居民的消 费行为在改革开放前后大不相同,因此消费函 数的参数也会发生变化。显然,如果忽略质的 因素,仍把模型中的参数看作是固定不变的, 得到的参数估计量就不能正确描述经济变量之 间的关系。
在回归分析中,对一些自变量是定性变量 的先作数量化处理,处理的方法是引进只取 “0”和“1”两个值的0−1型虚拟自变量。当某 一属性出现时,虚拟变量取值为“1”,否则 取值为“0”。例如,令“1”表示改革开放以 后的时期,“0”则表示改革开放以前的时期。 再如,用“l”表示某人是男性,“0”则表示

《计量经济学》第五章最新完整知识

《计量经济学》第五章最新完整知识

第五章 多元线性回归模型在第四章中,我们讨论只有一个解释变量影响被解释变量的情况,但在实际生活中,往往是多个解释变量同时影响着被解释变量。

需要我们建立多元线性回归模型。

一、多元线性模型及其假定 多元线性回归模型的一般形式是i iK K i i i x x x y εβββ++++= 2211令列向量x 是变量x k ,k =1,2,的n 个观测值,并用这些数据组成一个n ×K 数据矩阵X ,在多数情况下,X 的第一列假定为一列1,则β1就是模型中的常数项。

最后,令y 是n 个观测值y 1, y 2, …, y n 组成的列向量,现在可将模型写为:εββ++=K K x x y 11构成多元线性回归模型的一组基本假设为 假定1. εβ+=X y我们主要兴趣在于对参数向量β进行估计和推断。

假定2. ,0][][][][21=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n E E E E εεεε 假定3. n I E 2][σεε='假定4. 0]|[=X E ε我们假定X 中不包含ε的任何信息,由于)],|(,[],[X E X Cov X Cov εε= (1)所以假定4暗示着0],[=εX Cov 。

(1)式成立是因为,对于任何的双变量X ,Y ,有E(XY)=E(XE(Y|X)),而且])')|()([(])')((),(EY X Y E EX X E EY Y EX X E Y X Cov --=--=))|(,(X Y E X Cov =这也暗示 βX X y E =]|[假定5 X 是秩为K 的n ×K 随机矩阵 这意味着X 列满秩,X 的各列是线性无关的。

在需要作假设检验和统计推断时,我们总是假定: 假定6 ],0[~2I N σε 二、最小二乘回归 1、最小二乘向量系数采用最小二乘法寻找未知参数β的估计量βˆ,它要求β的估计βˆ满足下面的条件 22min ˆ)ˆ(ββββX y X y S -=-∆ (2)其中()()∑∑==-'-=⎪⎪⎭⎫ ⎝⎛-∆-nj Kj j ij i X y X y x y X y 1212ββββ,min 是对所有的m 维向量β取极小值。

计量名词解释

计量名词解释

计量经济学第一部分:名词解释第一章1、模型:对现实的描述和模拟。

2、广义计量经济学:利用经济理论、统计学和数学定量研究经济现象的经济计量方法的统称,包括回归分析方法、投入产出分析方法、时间序列分析方法等。

3、狭义计量经济学:以揭示经济现象中的因果关系为目的,在数学上主要应用回归分析方法。

第二章1、总体回归函数:指在给定Xi 下Y 分布的总体均值与Xi 所形成的函数关系(或者说总体被解释变量的条件期望表示为解释变量的某种函数)。

2、样本回归函数:指从总体中抽出的关于Y ,X 的若干组值形成的样本所建立的回归函数。

3、随机的总体回归函数:含有随机干扰项的总体回归函数(是相对于条件期望形式而言的)。

4、线性回归模型:既指对变量是线性的,也指对参数β为线性的,即解释变量与参数β只以他们的1次方出现。

5、随机干扰项:即随机误差项,是一个随机变量,是针对总体回归函数而言的。

6、残差项:是一随机变量,是针对样本回归函数而言的。

7、条件期望:即条件均值,指X 取特定值Xi 时Y 的期望值。

8、回归系数:回归模型中βo ,β1等未知但却是固定的参数。

9、回归系数的估计量:指用 01,ββ等表示的用已知样本提供的信息所估计出来总体未知参数的结果。

10、最小二乘法:又称最小平方法,指根据使估计的剩余平方和最小的原则确定样本回归函数的方法。

11、最大似然法:又称最大或然法,指用生产该样本概率最大的原则去确定样本回归函数的方法。

12、估计量的标准差:度量一个变量变化大小的测量值。

13、总离差平方和:用TSS 表示,用以度量被解释变量的总变动。

14、回归平方和:用ESS 表示:度量由解释变量变化引起的被解释变量的变化部分。

15、残差平方和:用RSS 表示:度量实际值与拟合值之间的差异,是由除解释变量以外的其他因素引起的被解释变量变化的部分。

16、协方差:用Cov (X ,Y )表示,度量X,Y 两个变量关联程度的统计量。

第五章-含虚拟变量的回归模型

第五章-含虚拟变量的回归模型

Econometrics第五章虚拟变量回归模型(教材第六章)第五章虚拟变量回归模型第一节虚拟变量的性质和引入的意义第二节虚拟变量的引入第三节交互作用效应第四节含虚拟变量的回归模型学习要点虚拟变量的性质,虚拟变量的设定5.1 虚拟变量的性质和引入的意义虚拟变量的性质f定性变量性别(男,女)婚姻状况(已婚,未婚)受教育程度(高等教育,其他)收入水平(高收入,中低收入)肤色(白人,有色人种)政治状况(和平时期,战争时期)f引入虚拟变量(Dummy Variables)1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。

2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。

3、提高模型的精度,相当与将不同属性的样本合并,扩大了样本量,从而提高了估计精度)。

5.1 虚拟变量的性质和引入的意义5.2 虚拟变量的引入虚变量引入的方式主要有两种f加法方式虚拟变量与其它解释变量在模型中是相加关系,称为虚拟变量的加法引入方式。

加法引入方式引起截距变动5.2 虚拟变量的引入f 虚拟变量的作用在于把定性变量“定量化”:通过赋值0和1,0表示变量不具备某种性质,1表示具备。

f 例,0代表男性,1代表女性;0代表未婚,1代表已婚;等等。

f 这类取值为0和1的变量称为虚拟变量(dummy variables ),通常用符号D 表示。

f 事实上,模型可以只包括虚拟变量(ANOVA 模型):其中,0,1,i i D D ==男性;女性。

12i i iY B B D u =++5.2 虚拟变量的引入虚拟变量的性质f 假定随机扰动项满足男性的期望:5.2 虚拟变量的引入虚拟变量的性质f 食品支出对性别虚拟变量(男=0,女=1)回归的结果:f 结果怎么解释?f 由于男性赋值为0,女性赋值为1,因此,截距项表示取值为0的一类(这里是男性)的均值。

第五章虚拟变量回归(20091105)

第五章虚拟变量回归(20091105)

第五章 虚拟变量回归第一节 虚拟变量的概念一、问题的提出计量经济学模型对变量的要求——可观测、可计量。

但在现实经济问题中,存在定性影响因素,比如1、属性(品质)因素的表达。

在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。

如收入在形成过程中,不同的性别所得到的收入是不一样的;在城乡、不同地区等收入存在差距;再比如,在我国,经济的发展水平对于不同的区域有不同的表现。

2、异常值现象。

当经济运行过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。

3、季节因素的影响。

有的经济现象存在明显的季节特征,如啤酒的消费。

那么,在建模过程中,季节变动这一因素怎样考虑?4、离散选择现象的描述。

如公共交通与私人交通的选择、商品购买与否的决策、求职者对职业的选择等。

第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。

称前一种情况为虚拟解释变量,后一种为虚拟被解释变量。

本章主要介绍虚拟解释变量的内容。

二、虚拟变量的定义1、定义。

设变量D 表示某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D 取值为0。

记为⎩⎨⎧=不具有该属性具有某种属性01D2、虚拟变量引入的规则。

(1)在模型里存在截距项的条件下,如果一个属性存在m 个相互排斥类型(非此即彼),则在模型里引入m-1个虚拟变量。

否则,会出现完全的多重共线性。

但要注意,在模型无截距项的情况下,如果一个属性存在m 个类型,即便引入m 个变量,不会出现多重共线性问题。

( 请思考为什么?)(2)虚拟变量取值为0,意味着所对应的类型是基础类型。

而虚拟变量取值为1,代表与基础类型相比较的类型,称为比较类型。

例如“有学历”D 为1,“无学历”D 为0,则“无学历”就是基础类型,“有学历”为比较类型。

(3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况D=0, 第一个类型;D=1, 第二个类型;……D=m-1, 第m 个类型。

第五章 线性回归模型的扩展(含虚拟变量模型)

第五章 线性回归模型的扩展(含虚拟变量模型)


解释:(1)资本的产出弹性是0.49;(2)劳 动的产出弹性是1.50:(3)规模收益递增:a + b =1.99.(4)R2 意味着产出对数变异的 89% 由资本和劳动力的对数解释 。
例3.2 需求方程 我们可以将需求模型建立成双对数的形式,从 而估计需求弹性。 模型设为: lnQ = b0 + b1 ln P+ b2 lnI+b3 ln Pr+u 其中, Q 是每天的咖啡销售量 I是收入 P 是咖啡每磅的价格 Pr 是相关产品——茶叶每磅的价格

例3.1 利用1958-72年台湾农业的数据估计C— D生产函数,估计结果为: lnY = -3.34 + 0.49 lnK + 1.50 lnL t (-1.36) (4.80) (0.54) R2 = 0.89 其中, Y 是 GNP (百万美元) K 是实际资本(百万美元) L 是劳动力(百万人)

估计结果为: lnQ=0.78 -0.25lnP +0.6I+ 0.38lnPr t (51.1) (-5.12) (15.12) (3.25) 解释: (1)自价格弹性 是 -0.25,表明保持其他 不变,如果价格增加1%,需求量将减少0.25%。 这是缺乏弹性的——弹性的绝对值小于1 (2)收入弹性是0.6 (3)交叉价格弹性是.38,表明保持其他不变, 如果茶叶的价格增加1%,咖啡的需求量增加 0.38%。 注: 如果交叉弹性是正的,表明它们是替代品; 如果交叉弹性是负的,表明它们是互补的。

例3 货币供给的增长率对GNP的影响模型为: GNP = b 0 + b 1 lnM + u 斜率b1度量M的相对变化对GNP的绝对变化 量——M变化1%,GNP的绝对变化量为b1/100 个单位。 例如:b1=2000,说明货币供给增加1% ,将 使GNP 增加2000/100 = 20 (亿元)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

•男职工本科以上学历的平均薪金:
E(Yi | X i , D1 1, D2 1) ( 0 2 3 ) 1 X i
2.
乘法方式

加法方式引入虚拟变量,考察:截距的不同。

许多情况下:往往是斜率就有变化,或斜率、截 距同时发生变化。
斜率的变化可通过以乘法的方式引入虚拟变量来 测度。
当截距与斜率发生变化时,则需要同时引入 加法与乘法形式的虚拟变量。

例 ,考察1990年前后的中国居民的总储蓄 -收入 关系是否已发生变化。
表中给出了中国 1979~2001 年以城乡储蓄 存款余额代表的居民储蓄以及以 GNP 代表的居 民收入的数据。
表 5.1.1 90年前 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 储蓄 281 399.5 523.7 675.4 892.5 1214.7 1622.6 2237.6 3073.3 3801.5 5146.9 7034.2
• 高中: E(Yi | X i , D1 1, D2 0) ( 0 2 ) 1 X i
• 大学及其以上:
E(Yi | X i , D1 0, D2 1) ( 0 3 ) 1 X i
假定3>2,其几何意义:
大学教育 保健 支出 高中教育 低于中学教育
在上述模型中,若再引入第四个虚拟变量:
1 D4t 0
冬季 其他
则冷饮销售模型变量为:
Yt 0 1 X 1t k X kt 1 D1t 2 D2t 3 D3t 4 D4t t
其矩阵形式为:
β Y (X, D) α μ
Yi 0 1 X i 3 Di 4 ( Di X i ) i
Di为引入的虚拟变量:
1 Di 0
90年前 90年后
于是有: E(Yi | Di 0, X i ) 0 1 X i
E(Yi | Di 1, X i ) ( 0 3 ) ( 1 4 ) X i
•女职工本科以下学历的平均薪金:
E(Yi | X i , D1 0, D2 0) 0 1 X i
•男职工本科以下学历的平均薪金:
E(Yi | X i , D1 1, D2 0) ( 0 2 ) 1 X i
•女职工本科以上学历的平均薪金:
E(Yi | X i , D1 0, D2 1) ( 0 3 ) 1 X i

例:根据消费理论,消费水平C主要取决于收 入水平Y,但在一个较长的时期,人们的消费倾 向会发生变化,尤其是在自然灾害、战争等反常 年份,消费倾向往往出现变化。这种消费倾向的 变化可通过在收入的系数中引入虚拟变量来考察。
1 正常年份 Dt 消费模型可建立如下: 0 反常年份
如,设
Ct 0 1 X t 2 Dt X t t


一般地,在虚拟变量的设置中: 基础类型、肯定类型取值为1; 比较类型,否定类型取值为0。
概念:
同时含有一般解释变量与虚拟变量的模 型称为虚拟变量模型或者方差分析 (analysis-of variance: ANOVA)模型。 一个以性别为虚拟变量考察企业职工薪 金的模型:
Yi 0 1 X i 2 Di i
例 已知冷饮的销售量Y除受k种定量变量Xk 的影响外,还受春、夏、秋、冬四季变化的影响, 要考察该四季的影响,只需引入三个虚拟变量即 可:
1 春季 D1t 0 其他
1 夏季 D2t 0 其他
1 D3t 0
秋季 其他
则冷饮销售量的模型为:
Yt 0 1 X 1t k X kt 1 D1t 2 D2t 3 D3t t

这里,虚拟变量D以与X相乘的方式引入了模型中, 从而可用来考察消费倾向的变化。
假定E(i)= 0,上述模型所表示的函数可化为: 正常年份:

E(Ct | X t , Dt 1) 0 ( 1 2 ) X t
反常年份:
E(Ct | X t , Dt 0) 0 1 X t


i=1,2…,n1
i=1,2…,n2
则有可能出现下述四种情况中的一种:
(1) 1=1 ,且2=2 ,即两个回归相同,称为重合 回归(Coincident Regressions);
(2) 11 ,但2=2 ,即两个回归的差异仅在其截 距,称为平行回归(Parallel Regressions);
则两时期进口消费品函数分别为: ˆ ˆX ˆ 当t<t*=1979年, Y t 0 1 t 当tt*=1979年,
ˆ ˆ X * ) ( ˆ ˆ )X ˆ ( Y t 0 2 i 1 2 t
三、虚拟变量的设置原则
虚拟变量的个数须按以下原则确定:
每一定性变量所需的虚拟变量个数要比该定 性变量的类别数少1,即如果有m个定性变量,只 在模型中引入m-1个虚拟变量。
(-6.11) (22.89) R 2 =0.9836 (4.33) (-2.55)
由3与4的t检验可知:参数显著地不等于0, 强烈示出两个时期的回归是相异的,储蓄函数 分别为:
1990年前: 1990年后:
ˆ 1649 Y .7 0.4116X i i
ˆ 15452 0.8881 Y Xi i
可分别表示1990年后期与前期的储蓄函数。
在统计检验中,如果3=0的假设被拒绝,则
说明两个时期中储蓄函数的截距不同,如果4=0 的假设被拒绝,则说明两个时期中储蓄函数的斜 率不同。

具体的回归结果为: ˆ 15452 0.8881 Y X i 13802 .3Di 0.4765 Di X i i


3.
临界指标的虚拟变量的引入(分段回归)
在经济发生转折时期,可通过建立临界指标 的虚拟变量模型来反映。 例如,进口消费品数量 Y主要取决于国民收 入X的多少,中国在改革开放前后,Y对X的回归 关系明显不同。
这时,可以t*=1979年为转折期,以1979 年的国民收入Xt*为临界值,设如下虚拟变量:
为了在模型中能够反映这些因素的影响,并提 高模型的精度,需要将它们“量化”。

这种“量化”通常是通过引入“虚拟变量” 来完成的。根据这些因素的属性类型,构造只取 “0”或“1”的人工变量,通常称为虚拟变量 (dummy variables),记为D。

例如,反映文化程度的虚拟变量可取为:
1, D= 0, 非本科学历 本科学历
1 Dt 0
t t* t t*
则进口消费品的回归模型可建立如下:
Yt 0 1 X t 2 ( X t X t* )Dt t
OLS法得到该模型的回归方程为:
ˆ ˆ X ˆ ( X X * )D ˆ Y t 0 1 t 2 t t t
邹氏结构变化的检验和虚拟变量法的比较
邹检验只是告诉我们结构是否已经变化,而不能告 诉我们当有变化时候是因为只是斜率相异或只是截 距相异,或两者均相异。但是虚拟变量法不仅告诉 我们两个回归是否有差异,而且落实到差异的起 因——由于截距或由于斜率或由于两者。 我们只要做一个回归,因为其他的回归可以方便地 由它导出。 这个单一的回归可以用来做各种假设检验。 由于合并而增加了自由度,参数估计的相对精度也 有所改进。
E(Yi | X i , Di 0) 0 1 X i
企业男职工的平均薪金为:
E(Yi | X i , Di 1) ( 0 2 ) 1 X i
几何意义: • 假定2>0,则两个函数有相同的斜率, 但有不同的截距。意即,男女职工平均薪金对 工龄的变化率是一样的,但两者的平均薪金水 平相差2。
第五章 解释变量包含虚拟变量 的回归模型
一、虚拟变量的基本含义 二、虚拟变量的引入 三、虚拟变量的设置原则
一、虚拟变量的基本含义

许多经济变量是可以定量度量的,如:商品需 求量、价格、收入、产量等。

但也有一些影响经济变量的因素无法定量度量, 如:职业、性别对收入的影响,战争、自然灾 害对GDP的影响,季节对某些产品(如冷饮) 销售的影响等等。
1 D1 0 高中 其他 1 D2 0 大学及其以上 其他
模型可设定如下:
Yi 0 1 X i 2 D1 3 D2 i
在E(i)=0 的初始假定下,高中以下、 高中、大学及其以上教育水平下个人保健支出 的函数:

高中以下:
E(Yi | X i , D1 0, D2 0) 0 1 X i
(3) 1=1 ,但22 ,即两个回归的差异仅在其 斜率,称为汇合回归(Concurrent Regressions);
(4) 11,且22 ,即两个回归完全不同,称为 相异回归(Dissimilar Regressions)。
平行回归
汇合回归
相异回归
可以运用邹氏结构变化的检验。这一问题 也可通过引入乘法形式的虚拟变量来解决。 将n1与n2次观察值合并,并用以估计以下回归:
1979~2001 年中国居民储蓄与收入数据(亿元) GNP 90年后 储蓄 4038.2 1991 9107 4517.8 1992 11545.4 4860.3 1993 14762.4 5301.8 1994 21518.8 5957.4 1995 29662.3 7206.7 1996 38520.8 8989.1 1997 46279.8 10201.4 1998 53407.5 11954.5 1999 59621.8 14922.3 2000 64332.4 16917.8 2001 73762.4 18598.4
相关文档
最新文档