计量经济学课件第八章 虚拟变量回归

合集下载

虚拟变量回归课件

虚拟变量回归课件
虚拟变量回归在各个领域都有广泛的应用,其中包括房价预测和汽车保险费用预估。通过实际案例分析, 我们将展示其在实际问题中的应用。
虚拟变量回归面临的问题
在进行虚拟变量回归时,我们可能会面临多重共线性问题。为了解决这个问 题,我们将介绍哑变量陷阱和特征选 收集数据 2. 对数据进行预处理 3. 分析数据 4. 建立模型 5. 模型的评估与优化
虚拟变量回归
通过介绍虚拟变量回归,我们将探讨其概念、作用以及应用。还将讨论面临 的问题和解决方法,以及如何进行虚拟变量回归并提高模型精度。
什么是虚拟变量回归
虚拟变量回归是一种统计方法,用于处理具有分类特征或非数字特征的数据。 它将非数字变量转换为二元变量,以便在回归模型中使用。
虚拟变量回归的应用
总结
虚拟变量回归具有自身的优点和局限性。我们将总结这些,并探讨未来的发 展方向。最后,我们将分享一些提高模型精度的技巧和建议。

第八章-虚拟变量回归

第八章-虚拟变量回归

1 高中 D2 0 其它
1 博士 D5 0 其它
1 大 学 D3 0 其 它
1 小 学 D6 0 其 它
则总体回归模型:
w 0 1 X 2 D1 3 D2 4 D3 5 D4 6 D5 7 D6+u
17
二、用虚拟变量测量斜率变动
基本思想
引入虚拟变量测量斜率变动,是在所设立的模型中,将虚 拟解释变量与其它解释变量的乘积,作为新的解释变量出 现在模型中,以达到其调整设定模型斜率系数的目的。
可能的情形:
(1)截距不变;
(2)截距和斜率均发生变化;
分析手段:仍然是条件期望。
18
(1)截距不变
模型形式:
意义:若α1显著,表明城市居民的平均人均可支配收入比农村 高α1元。但这种差异可能是由其它因素引起的,并不一定是由 户籍差异引起。
12
(2) 一个两属性定性解释变量和一个定量 解释变量
模型形式 Yi = f(Di,X i )+ μi 例如:Yi = 0 1 Di + X i + μi 1 城市 其中: Y-人均可支配收入;X-工作时间; Di 0 农村
会受到一些定性因素的影响,如性别、国籍、民族、自 然灾害和政治体制等。
问题:我们如何把这些定性想:将这些定性因素进行量化
由于定性变量通常表示某种属性是否存在,如是否男性、 是否经济特区、是否有色人和等。因此若该属性存在, 我们就将变量赋值为1,否则赋值为0,从而将定性因素 定量化。 计量经济学中,将取值为0和1的人工变量称为虚拟变量 (DUMMY)或哑元变量。通常用字母D或DUM表示。
7
一个例子(虚拟变量陷阱)
研究工资收入与学历之间的关系:

计量经济学第八章关于虚拟变量的回归.

计量经济学第八章关于虚拟变量的回归.
年 薪 Y 女教授
类的截距。
2
2:级差截距系数
教龄X
1
0
薪金与性别:估计结果
1,若是男性 Di 0,若是女性
ˆ 17.969 1.371X 3.334D Y i i i se : (0.192) (0.036) (0.155) t : (93.61) (38.45) (21.455) r 2 0.993
一、虚拟变量的性质

例:教授薪金与性别、教龄的关系

男教授平均薪金和女 教授平均薪金水平相 差2,但平均年薪对 教龄的变化率是一样 的
Yi=1+2Di+Xi+I (1) 1,若是男性 D 其中:Yi=教授的薪金, Xi=教龄, Di=性别 0,若是女性 i 女教授平均薪金:E(Yi | X i , Di 0) 1 X i 被赋予0值的 男教授平均薪金:E(Yi | X i , Di 1) (1 2) X i 类别是基底(基 准),1是基底 男教授

比较英国在第二次大战后重建时期和重建后时期的总 储蓄-收入关系是否发生变化。数据如表。 Yt 1 2 Dt 1 X t 2 ( Dt X t ) t
D=1,重建时期
级差截距:区分两 个时期的截距 级差斜率系数:区分 两个时期的斜率 =0,重建后时期
D=1 D=0
E(Yt | Dt 0, X t ) 1 1 X t E(Yt | Dt 1, X t ) (1 2 ) ( 1 2 ) X t
男教授平均薪金水平比 女教授显著高$3.334K (男:21.3,女:17.969)
1,若是女性 Di 0,若是男性
ˆ 21.303 1.371X 3.334D Y i i i se : (0.182) (0.036) (0.155) t : (117.2) (38.45) (21.455)

9第八章 虚拟变量回归模型

9第八章 虚拟变量回归模型
说明 X i 变动一个单位,机会比率对数平均变化 2 个单位,
Logit 模型的估计
区分两类数据:
(1)个体水平数据
购房概率 p 0 0 1 1
收入 X(千美元) 6 8 10 12
如果
pi
0,
Zi
ln
0 1
pi
1,
Zi
ln
1 0
可见,Z 表达式无意义,无法用OLS,需用ML(最大似然法)
冰箱销售量(千台) FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269
耐用品支出(10亿美元) DUR 252.6 272.4 270.9 273.9 268.9 262.9 270.9 263.4 260.6 231.9 242.7 248.6 258.7 248.4 255.5 240.4 247.7 249.1 251.8
4 回归分析操作命令: equation eq.ls Frig c Dur D1 D2 D3
提问 根据回归分析结果,发现存在什么问题?如何修改回归模型?
8.4 虚拟被解释变量的回归模型
【例】 研究是否购买住房与收入水平的关系。
设是否购房为被解释变量,用 Y 表示;收入为解释变量, 用 X 表示。
1 变量分析:
将DUR作为解释变量;FRIG作为被解释变量; 引入3个季度虚拟变量D1,D2,D3。 (虚拟变量数 = 属性数 – 1 )
2 季度虚拟变量的赋值规则:
D1=
1 (第1季度) 0 (其他季度)
D3=
1 (第3季度) 0 (其他季度)
D2=

庞浩计量经济学课件第八章虚拟变量回归资料重点

庞浩计量经济学课件第八章虚拟变量回归资料重点

初中、小学及以下)作为解释变量引入下面的
模型中。
Yi 1 1 X i ui
0, 其他
0, 其他
0, 其他
D2i 1, 初中 D3i 1, 高中 D4i 1, 大专及以上
Yi 1 1 X i 2 D2i 3 D3i 4 D4i ui
7
三、虚拟变量的作用
虚拟变量可以作为下列因素的代表: 属性因素 非精确计量的数量因素 偶然因素或政策因素 时间序列分析中的季节(或月份)因素 用于分段回归
Di 1, 表示男性
3
二、虚拟变量的设置规则
1.虚拟变量个数的设置规则 若定性因素有m个相互排斥的类型(或属性、水
平),则: 在有截距项的模型中,只能引入m-1个虚拟变
量,否则会陷入“虚拟变量陷阱”(即:出 现完全的多重共线性); 在无截距项的模型中,可以引入m个虚拟变量, 不会导致完全的多重共线性。
第八章 虚拟变量回归
第一节 第二节 第三节 第四节
虚拟变量 虚拟解释变量的回归 虚拟被解释变量 案例分析
1
第一节 虚拟变量
一、虚拟变量的基本概念 二、虚拟变量的设置规则 三、虚拟变量的作用
2
一、虚拟变量的基本概念
定量因素:指那些可直接测度的数值型因素。
定性因素:也称为属性因素,指不能直接测度的,说 明某种属性或状态存在与否的非数值型因素。
解释变量包含一个定量变量和一个分为两种类型 定性变量的回归
解释变量包含一个定量变量和一个两种以上类型 的定性变量的回归
解释变量包含一个定量变量和两个定性变量的回 归
10
解释变量只有一个分为两种相互排斥类型 的定性变量,而无定量变量的回归
假定文化程度、职业、性别等不变,研究农村居 民与城镇居民的年平均可支配收入是否有差异。

庞浩计量经济学课件第八章 虚拟变量回归

庞浩计量经济学课件第八章 虚拟变量回归

二、虚拟变量的设置规则
1.虚拟变量个数的设置规则 若定性因素有m个相互排斥的类型(或属性、水 平),则: 在有截距项的模型中,只能引入m-1个虚拟变 量,否则会陷入“虚拟变量陷阱”(即:出 现完全的多重共线性); 在无截距项的模型中,可以引入m个虚拟变量, 不会导致完全的多重共线性。
4
例如:研究城乡居民的可支配收入对居民住房消费支 出的影响 C Y D u i 1 1 i 2 i i
21
分段线性回归
适合于社会经济现象会在解释变量达到某个临界值时 发生突变,考虑下述模型: Yt 1 1 X t 2 ( X t X * ) Dt ut 0, X t X * Dt * 1, X t X
当X t X *时, Yt 1 1 X t ut 当X t X 时, Yt 1 1 X t 2 ( X t X * ) ut
18
二、用虚拟变量表示不同斜率的回归—— 乘法类型
回归模型的比较——结构变化检验
分段线性回归
19
回归模型的比较——结构变化检验
研究改革开放前后(1950-2004),储蓄与收入的关系: Yi 1 2 Di 1 X i 2 ( Di X i ) ui
( 1950 1977 ) 0, 改革开放前 Di ( 1978 2004 ) 1, 改革开放后
Yi 1 2 Di 1 X i ui
0, 租房户 Di 1, 有房户
15
i 1 2 3 4 5 6 7 8 9 10
Y 1.0 1.3 0.7 0.8 0.5 2.4 0.3 3.2 2.8 0.0
X 20.0 24.0 12.0 16.0 11.0 32.0 10.0 40.0 32.0 7.0

第8章 虚拟变量回归

第8章 虚拟变量回归

(2)比较两个回归结构稳定性:虚拟变量法 上节中探讨的邹检验程序,可以通过虚拟变量的使用而大为简化。 仍然使用储蓄-回归的例子,将n1和n2次观测值合并,用下列回归方 程:
其中Yi和Xi仍然代表储蓄和收入。而Di=1,如果观测值属于重建时期
(时期I);Di=0,如果观测值属于重建后时期(时期II)。 为了看清楚,实际上方程等效于:
它们分别是第二(重建后)和第一(重建)两个时期的平均储蓄函
数。相当于取γ1=α1,γ2=β1,λ1=α1+α2,和λ2=β1+β2。这样上述回归方 程等效于估计两个个别的储蓄函数。 α2和先前一样是级差截距;β2是级差斜率系数,表明在第一时期储蓄 函数的斜率和第二时期储蓄函数的斜率系数相差多少。
现在我们要问,在时期I(1946-1954)和时期II(1955-1963)中,储 蓄与收入之间的关系,是否是一回事呢?或者说,两个时期的储蓄 函数是否存在有结构性的变换呢?
这里,结构性变化是指两个截距或两个斜率不同,或者指截距和斜
率均不同,以致任何其他适当的参数组合有所不同。 为了判明这个变化是否真实,假定两个时期的储蓄函数分别是:
工资的重要决定性因素。
上述讨论的结论:模型可推广到含有多个定量变量和多个定性变量
的情形。唯一要提醒注意的是:每一个定性变量所需的虚拟变量的 个数要比该变量的类别数少一。
一个例子:“兼职”经济学
所谓“兼职”是指一个人执有两分或两分以上的工作,其中一份是
主业,其他称为副业。希斯克和罗斯特克研究了影响兼职者工薪的 因素,他们利用一个有318兼职者调查数据的样本,做了如下回归:
图中数据编排为女教
授和男教授两类。图 形可见导出的回归函 数是一个阶梯函数。 女教授的平均工资为 18000美元,而男教 授的工资则跃升了 3280美元,达到了 21280美元。

计量经济学第八章完整课件

计量经济学第八章完整课件
多元线性回归分析
多元线性回归模型
多元线性回归模型是用来描述因变量和多个自 变量之间线性关系的模型。
模型的一般形式为:Y = β0 + β1X1 + β2X2 + ... + βpXp + ε
其中,Y是因变量,X1, X2, ..., Xp是自变量, β0, β1, ..., βp是模型的参数,ε是误差项。
回归分析的应用领域
经济学、金融学、社会学、生物学等。
回归分析的分类
1 2
一元线性回归分析
研究一个因变量与一个自变量之间的线性关系。
多元线性回归分析
研究一个因变量与多个自变量之间的线性关系。
3
非线性回归分析
研究因变量与自变量之间的非线性关系。
回归分析的步骤
确定研究问题
01
明确研究目的,确定因变量和自变量。
主成分分析
将多个高度相关的解释变量组合成少数几个主成分,用主成分代 替原始变量进行回归分析。
岭回归
通过在回归系数上加上一个小的正则项,解决多重共线性问题, 使估计的系数更加稳定。
THANKS
感谢观看
模型修正
对模型进行修正,以消除异方差性的影响。例如,可 以使用加权最小二乘法等方法对模型进行修正。
04
自相关性与处理
自相关性的定义
01
自相关性是指时间序列数据中,当前值与过去值之 间存在相关性。
02
在计量经济学中,自相关性是指一个随机误差项的 各期值之间存在相关性。
03
自相关性可能导致模型估计的不准确,因此需要对 其进行检验和处理。
相关性检验
通过计算解释变量之间的相关系数,判断是否存在 高度相关性。相关系数接近1或-1,表明存在多重 共线性。

计量经济学第八章 虚拟变量

计量经济学第八章 虚拟变量

Yi X i Di X i i
如果该模型设定正确,此时有:
E(Yi
)



(
X
)
i
X
i
D 1 D0
可见,城镇ቤተ መጻሕፍቲ ባይዱ民的边际消费倾向为 ( ) ,农
村居民的边际消费倾向为 。
如果不同属性类别对应的截距项和斜率项都 是有差异的,可在回归模型中同时引入虚拟 变量的加法方式和乘法方式,结果如下:
1 东部 D1 0 其他
1 中部 D2 0 其他
若考虑不同区域居民对应回归模型截距的不同 ,可构建模型如下:
Yi 1D1i 2 D2i X i i
则有:
E (Yi
)

( (

2) 1)

X i X i

Xi
Yi Di X i Di X i i
对于城镇居民和农村居民这两个类别,有总 体回归函数如下:
E(Yi
)

(


)

( X i

)X
i
D 1 D0
可见, 和 分别表示城镇居民与农村居民
的消费函数在截距和斜率上的差异。
注:
对于包含多个类别(M个)的属性变量,构 建M-1个虚拟变量,如在消费模型中,考虑 区域因素(东部,中部,西部)影响,可构 建2个虚拟变量:
Yi 1D1i 2 D2i (D1i D2i ) X i i
• 则有: ( 1 2 ) Xi

E
(Yi
)



( 1) Xi ( 2 ) Xi

第八章(虚拟变量回归)_图文

第八章(虚拟变量回归)_图文

5.社会因素:包括社会治安、城市化水平、消费心理等;
6.行政(政策)因素:包括土地与住房制度、房地产价格政策等;
7.区域因素:包括所处地段的市政基础设施、交通状况等;
8.个别因素:包括朝向、结构、材料、功能设计、施工质量等;
9.房地产投机因素:投机者在房地产市场中的投机活动;
10.自然因素:包括自然环境、地质、地形、地势及气候等。
使用虚拟变量需注意的问题
v 虚拟变量陷阱:若定性变量有m个类别,则引入 m个虚拟变量将会产生完全多重共线性问题,避 免方法:
Ø 只引入(m-1)个虚拟变量 Ø 引入m个虚拟变量但去掉截距项
v 哪种方法更好:包含截距项更方便,可以很容易 地检验某个组与基准组之间是否存在显著差异以 及差异程度。
2、避免落入“ 虚拟变量陷阱”
•男职工本科以上学历的平均薪金:
1.解释变量只有一个分为两种类型的定性变量无 定量变量的回归
这种模型又称方差分析模型
其中:Y为公立学校教师工资,
D=0为农村学校;D=1为城镇学校
分析条件期望:
基础类型:
比较类型:
为差异截距系数,通过对系数 可检验
的 t 检验:
在其他因素不变的条件下,城乡教师的工资是否有显2著323
D=0 表示某种属性或状态不出现或不存在 5
虚拟变量的作用
● 作为属性因素的代表,如性别 ● 作为某些非精确计量的数量因素的代表,
如受教育程度(高中及以下、专科、本科及以上) ● 作为某些偶然因素或政策因素的代表,
如 伊拉克战争、“911事件”、四川汶川大地震 ● 时间序列分析中作为季节(月份)的代表 ● 分段回归——研究斜率、截距的变动 ● 比较两个回归模型的差异 ● 虚拟被解释变量模型:

计量经济学第二版第8章-虚拟变量ppt课件

计量经济学第二版第8章-虚拟变量ppt课件

表1 我国各地区城乡居民收入 单位:元、人
地区 城镇居民
农村居民
人均可支配收入
人均纯收入
北 京 26738.48
11668.59
天 津 21402.01
8687.56
河 北 14718.25
5149.67
山 西 13996.55
4244.10
内蒙古 15849.19
4937.80
辽 宁 15761.38
➢ 了解线性概率模型、Logit模型和Probit模型的基 本思想和估计方法。
精品课件
引例:男女大学生的消费差异
在校大学生的消费行为越来越受到社会的关 注,学生家长也很关心自己的子女上大学的 花费问题。由共青团、全国学联共同发布的 《2004中国大学生消费与生活形态研究报告》 显示,当代大学生在消费结构方面呈现多元 化趋势。大学生除了日常生活费开支以外, 还有人际交往、网络通信、书报、衣着类、 化妆品类、电脑类、旅游类、食品类、学习 用品类、各类考证类等多重消费。
Yi=(a+α2)+ bxi+εi 研究生(D1=0,D2=1)
三类年薪函数的差异情况如下图所示:
上图直观地描述了三类 年薪函数的差异情况, 通过检验、 α1 、α2的 显著性,可以判断学历 层次对职员的年薪是否 有显著影响。
年薪
α1
精品课件
α2 -α1
研究生 本科 大专以下
工龄
虚拟变量数量的设置规则
4478.35
四 川 13839.40
4462.05
贵 州 12862.53
3005.41
云 南 14423.93
3369.34
西 藏 13544.41
3531.72

虚拟变量回归课件

虚拟变量回归课件

例1
(1)
D
=
1 0
男 女
( 2)D=1 0
改 革 开 放 以 后 改 革 开 放 以 前
(3)D1 =0 1
天气阴 其 他(4)D2
=1 0
天气雨 其他
问题:
为何只选0、1,选2、3、4行吗?为什么?
虚拟变量回归
14
属性的状态(水平)数与虚拟变量 数量的关系
定性因素的属性既可能为两种状态,也可能为多种 状态。例如,性别(男、女两种)、季节(4种状 态),地理位置(东、中、西部),行业归属,所 有制,收入的分组等。
虚拟变量回归
11
二、虚拟变量设置规则
虚拟变量的设置规则涉及三个方面: 1.“0”和“1”选取原则 2.属性(状态、水平)因素与设置虚拟变量
数量的关系 3.虚拟变量在回归分析中的角色以及作用等
方面的问题
虚拟变量回归
12
“0”和“1”选取原则
虚拟变量取“1”或“0”的原则,应从分析问题的 目的出发予以界定。
虚拟变量回归
16
一个例子(虚拟变量陷阱)
研究居民住房消费支出 Yi 和居民可支配收入 Xi 之间的
数量关系。回归模型的设定为:Y i= 0 + 1 X i+ u i( 1 )
现在要考虑城镇居民和农村居民之间的差异,如何办?
为了对 “城镇居民”、“农村居民”进行区分,分析
各自在住房消费支出 Yi上的差异,设 D1i = 1 为城镇;
非数值性的因素。 基本思想: 直接在回归模型中加入定性因素存在诸多的困难 (那些困难?),是否可将这些定性因素进行量 化,以达到定性因素能与定量因素有着相同作用 之目的。
虚拟变量回归
10

计量经济学课件:第08讲 虚拟变量与模型选择

计量经济学课件:第08讲 虚拟变量与模型选择

2022/3/27
金融与统计学院
10
加法方式
在所设定的计量经济模型中,根据问 题中定性变量的影响作用,按照虚拟 变量设置规则,直接加入适当的虚拟 解释变量,此时,虚拟解释变量与其 他解释变量是相加关系。
加法形式引入虚拟解释变量,作用在 于改变模型的截距水平。
2022/3/27
金融与统计学院
11
女性本科及以上:
E(Yi
|
D1
1,D2
1, X) i (0
1
2
3)
4 X i
男性本科及以上:
E(Yi
|
D1
0, D2
1, X ) i (0
2)
4 X i
女性本科以下:
E(Yi
|
D1
1,D2
0, X ) i (0
1)
4 X i
男性本科以下:
E(Yi
|
D1
0, D2
0, X ) i
0
根据这些因素的属性类型,构造只取“0” 或“1”的人工变量——虚拟变量 (Dummy Variables),记为D。
例如,反映文程度的虚拟变量可取为:
1 本科 D 0 非本科 一般地,在虚拟变量的设置中:
➢ 基础类型、肯定类型取值为1; ➢ 比较类型,否定类型取值为0。
虚拟变量的作用:定性因素定量化
4 X i
其中:
1为女性群体服装年均支出的截距差异系数;
为本科及以上群体服装年均支出的截距差异系
2
数;
3为本科及以上女性群体服装年均支出的截距差
异系数,成为本科女性的交互效应系数。
借助于交互效应虚拟解释变量系数ˆ 3的显著
性检验,可以判断交互效应是否存在。

计量经济学:第八章虚拟变量回归

计量经济学:第八章虚拟变量回归

计量经济学:第⼋章虚拟变量回归第⼋章虚拟变量回归第⼀节虚拟变量的概念⼀、问题的提出计量经济学模型对变量的要求——可观测、可计量。

但在现实经济问题中,存在定性影响因素,⽐如1、属性(品质)因素的表达。

在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。

如收⼊在形成过程中,不同的性别所得到的收⼊是不⼀样的;在城乡、不同地区等收⼊存在差距;再⽐如,在我国,经济的发展⽔平对于不同的区域有不同的表现。

2、异常值现象。

当经济运⾏过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。

3、季节因素的影响。

有的经济现象存在明显的季节特征,如啤酒的消费。

那么,在建模过程中,季节变动这⼀因素怎样考虑?4、离散选择现象的描述。

如公共交通与私⼈交通的选择、商品购买与否的决策、求职者对职业的选择等。

第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。

称前⼀种情况为虚拟解释变量,后⼀种为虚拟被解释变量。

本章主要介绍虚拟解释变量的内容。

⼆、虚拟变量的定义1、定义。

设变量D 表⽰某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D 取值为0。

记为=不具有该属性具有某种属性01D2、虚拟变量引⼊的规则。

(1)在模型⾥存在截距项的条件下,如果⼀个属性存在m 个相互排斥类型(⾮此即彼),则在模型⾥引⼊m-1个虚拟变量。

否则,会出现完全的多重共线性。

但要注意,在模型⽆截距项的情况下,如果⼀个属性存在m 个类型,即便引⼊m 个变量,不会出现多重共线性问题。

(请思考为什么?)(2)虚拟变量取值为0,意味着所对应的类型是基础类型。

⽽虚拟变量取值为1,代表与基础类型相⽐较的类型,称为⽐较类型。

例如“有学历”D 为1,“⽆学历”D 为0,则“⽆学历”就是基础类型,“有学历”为⽐较类型。

(3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况D=0,第⼀个类型;D=1,第⼆个类型;……D=m-1,第m 个类型。

计量经济学第八章虚拟变量回归

计量经济学第八章虚拟变量回归
Yi b0b1Dii
其中, Yi 某公司职员年薪
1 男性 Di 2 0 女 这个模型和前面的回归模性型没有什么太大的差异,只不过 用一个虚拟变量D代替了X。这个模型能使我们发现性别是否 会造成公司职员薪水差异,这里假定了其他变量如年龄、学历 等都相同,而且随机误差项也服从线性回归模型的基本假定。
假设在原模型中设定两个虚拟变量:
Y i b 0 b 1 D 1 i b 2 D 2 i b 3 X ii
1 男性
1 女性
D1i 2 0 其他 D2i 2 0 么数据矩阵如下
Yi
b0
D1
D2
Xi
Y1
1
1(男)
0
X1
Y2
1
1(男)
t
(9.03)
(8.32)
(-6.59)
1 中高收入家庭
Di 2 0 低收入家庭
模型的估计参数都通过了显著性检验,说明我国城镇居 民中高收入和低收入家庭对彩电的消费需求,在截距和斜率 上都存在明显差异。
低收Y ˆ 入 i5.6 家 71 庭 1 0 .031X 1 i 8
中高 Y ˆ i ( 收 5 .6 71 入 3 .1 8 1) 3 7 家 3 0 .0 + 1 庭 1 0 .0 1 ( ) 0 8 X i 8
• 这种人为设定的变量就称作虚拟变量(Dummy Variable)
学历 性别 季节
1 大学毕业 2 0 其他
1 男性 2 0 女性
1 夏季 2 0 其他季

企业规模
1 大型企业 2 0 其他
户口
1 城镇 2 0 农村
3
8.1.2 虚拟变量的引入方式
• 1.加法模型:仅仅反映定性变量对截距的影响。

计量经济学第八章-虚拟变量回归PPT课件

计量经济学第八章-虚拟变量回归PPT课件

.
15
从居民储蓄增量图(上页左图)可以看出,城乡居 民的储蓄行为表现出了明显的阶段特征:在1996 年和2000年有两个明显的转折点。再从城乡居民 储蓄存款增量与国民总收入之间关系的散布图看 (见上页右图),也呈现出了相同的阶段性特征。
.
16
为了分析居民储蓄行为在1996年前后和2000年前后三个阶段
的属性状态( m 2 ),故只设定一个虚拟变量。)
.
31
若对两个相互排斥的属性 “居民属性” ,仍然 引入 m 2 个虚拟变量,则有
(Y Y )
7759 7615.4 6253 4976.7 9457.6 13233.2 16631.9
.
13
为了研究1978—2003年期间城乡居民储蓄存款随收入的 变化规律是否有变化,考证城乡居民储蓄存款、国民总收 入随时间的变化情况,如下图所示:
.
14
从上图中,尚无法得到居民的储蓄行为发生明显改变 的详尽信息。若取居民储蓄的增量( Y Y ),并作时序 图(见左下图):
Y Y t -30790.05960.4133G N It3t t2000
这表明三个时期居民储蓄增加额的回归方程在统计
意义上确实是不相同的。1996年以前收入每增加1
亿元,居民储蓄存款的平均增加0.1445亿元;在
2000年以后,则为0.4133亿元,已发生了很大变化。
.
20
上述模型与城乡居民储蓄存款与国民总收入之间 的散布图是吻合的,与当时中国的实际经济运行 状况也是相符的。 需要指出的是,在上述建模过程中,主要是从教 学的目的出发运用虚拟变量法则,没有考虑通货 膨胀因素。而在实证分析中,储蓄函数还应当考
虑通货膨胀因素。
.

第八章虚拟变量回归课件

第八章虚拟变量回归课件

9.房地产投机因素:投机者在房地产市场中的投机活动;
10.自然因素:包括自然环境、地质、地形、地势及气候等。
(资料来源:徐静; 武乐杰, 房地产价格影响因素的解释结构模型分析, 金融
经济, 2009年 10期)
第八章虚拟变量回归
2
在影响房地产价格的众多因素中,有定量的因素:
成本因素、房地产供求因素、经济因素、人口因素等;
Y t 0 1 X 1 t k X k 1 t D 1 t 2 D 2 t 3 D 3 t 4 D 4 t t
其矩阵形式为:
Y(XD, )α βμ
第八章虚拟变量回归
如果只取六个观测值,其中春季与夏季取了两次, 秋、冬各取到一次观测值,则式中的:
1 1
X 11 X 12
X k1 Xk2
被解释变量本身是定性变量
第八章虚拟变量回归
6
二、虚拟变量模型
虚拟变量模型:包含有虚拟变量的模型称虚拟变量模型 三种类型: 1、 解释变量中只包含虚拟变量
作用:假定其他因素都不变,只研究某种定性因素在某定
量变量上是否表现出显著差异
2、 解释变量中既含定量变量,又含虚拟变量
作用:研究定量变量和虚拟变量同时对被解释变量的影响
也有定性的因素:
社会因素、行政因素、区位因素、个别因素、投机因
素、 自然因素等。
在研究房地产价格影响机理时,需要分析那些不易量化
的定性因素对房地产价格是否真的有显著影响。
能否把定性的因素也引入计量经济模型中呢? 怎样才能
在模型中有效地表示这些定性因素的作用呢?
第八章虚拟变量回归
3
引子2 男女大学生的消费真的有差异吗?
例如:D=0 如果是女性(基础类型)

第八章 虚拟变量回归

第八章 虚拟变量回归

其中括号内这T-统计量,所有参数 均为显著的,拟合集优度R2=0.999 ,但DW值存在自相关,进行AR(1)
修正,重新估计得:
以上回归的模拟效果:
2500 2000 1500 40 20 0 -20 -40 1975 1980 1985 1990 Actual 1995 2000 Fitted 1000 500 0
有时我们所研究的变量之间 的变化趋势在某一时点上发生 了转折,如图8-3中所呈现的样 本散布点图,它表明变量Y与变 量X之间的变化关系在点X*处发 生了转折,一般来说,这样的 转折点是由于突发
Y


X X
*
0
图8.3
从图中可以算出,消费随时间 有规律地变化,为了模拟消费的 变化趋势,从而对其进行预测, 我们选择时间变量(T)为解释 变量,考虑到季节变动,引入虚 拟 变 量 , D1,D2,D3( 定 义 同 上)等。 由图可知,PCE随时间的变化 是二次曲线,设定模型为下式:
PCEt 0 4Tt 5 D1 t * T 6 D2 t * T 2 7 D3 t * T 8T ut
假设模型中仅有一个解释 变量X,线性概率模型可以表 示为:
Yi 0 1 Xi u i
由于Yi 只取两个值0与1, 设Yi 取1的概率为Pi ,则Yi 取0 的概率为(1-Pi ),于是,
E(Yi ) 1* Pi 0 * (1 Pi ) Pi

E(Yi ) 0 1Xi
Pi
1
0 1X i) (
作出该项选择与不作出该项选 择的概率之比的对数值增加一 个 1 。
三、概率单位模型(Probit)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第八章虚拟变量回归引子:男女大学生消费真有差异吗?在对在校学生的消费行为进行的调查中,发现在校生的消费行为呈现多元化的结构。

人际交往消费、手机类消费、衣着类消费、化妆品类消费、电脑类消费、旅游类消费占有较大的比例;而食品类消费、学习用品类消费不突显。

显然,男女生在消费上存在差异。

为了了解男、女生的消费支出结构差异,应当如何建立模型?面临的问题:如何把男女生这样的非数量变量引问题的一般性描述在实际建模中,一些定性变量具有不可忽视的重要影响。

例如,研究某个企业的销售水平,产业属性(制造业、零售业)、所有制(私营、非私营)、地理位置(东、中、西部)、管理者的素质、不同的收入水平等是值得考虑的重要影响因素,但这些因素共同的特征是定性描述的。

如何对非定量因素进行回归分析?采用“虚拟变量”对定性变量进行量化一种思路。

第八章虚拟变量回归本章主要讨论:●虚拟变量●虚拟解释变量的回归●虚拟被解释变量的回归(选讲,不包括)第一节虚拟变量本节基本内容:●基本概念●虚拟变量设置规则一、基本概念定量因素:可直接测度、数值性的因素。

定性因素:属性因素,表征某种属性存在与否的非数值性的因素。

基本思想:直接在回归模型中加入定性因素存在诸多的困难(那些困难?),是否可将这些定性因素进行量化,以达到定性因素能与定量因素有着相同作用之目的。

虚拟变量的定义计量经济学中,将取值为0和1的人工变量称为虚拟变量。

虚拟变量也称:哑元变量、定性变量等等。

通常用字母D或DUM加以表示(英文中虚拟或者哑元Dummy的缩写)。

对定性变量的量化可采用虚拟变量的方式实现。

二、虚拟变量设置规则虚拟变量的设置规则涉及三个方面:1.“0”和“1”选取原则2.属性(状态、水平)因素与设置虚拟变量数量的关系3.虚拟变量在回归分析中的角色以及作用等方面的问题“0”和“1”选取原则● 虚拟变量取“1”或“0”的原则,应从分析问题的目的出发予以界定。

● 从理论上讲,虚拟变量取“0”值通常代表比较的基础类型;而虚拟变量取“1”值通常代表被比较的类型。

“0”代表基期(比较的基础,参照物);“1”代表报告期(被比较的效应)。

例如,比较收入时考察性别的作用。

当研究男性收入是否高于女性时,是将女性作为比较的基础(参照物),故有男性为“1”,女性为“0”。

例1(1) ⎧1 男D=⎨⎩0 女1 改革开放以后(2) D =0 改革开放以前1 天气阴⎧1 天气雨(3) D1 = ()D2 = ⎨4⎩0 其他0 其 他问题:为何只选0、1,选2、3、4行吗?为什么?属性的状态(水平)数与虚拟变量数量的关系定性因素的属性既可能为两种状态,也可能为多种状态。

例如,性别(男、女两种)、季节(4种状态),地理位置(东、中、西部),行业归属,所有制,收入的分组等。

⎧(1,0) 天气阴⎪如:(D1 ,D2)= ⎨ (0,1) 天气雨⎪ (0,0) 其他⎩虚拟变量数量的设置规则1.若定性因素具有m 个(m 2) 相互排斥属性(或几个水平),当回归模型有截距项时,只能引入m -1个虚拟变量;2.当回归模型无截距项时,则可引入m 个虚拟变量;否则,就会陷入“虚拟变量陷阱”。

(为什么?)一个例子(虚拟变量陷阱)研究居民住房消费支出Y i 和居民可支配收入X i 之间的数量关系。

回归模型的设定为:Y i = α0 + β1 X i +u i ()1现在要考虑城镇居民和农村居民之间的差异,如何办?为了对“城镇居民”、“农村居民”进行区分,分析各自在住房消费支出Y 上的差异,设D1i = 1 为城镇;iD1i = 0 为农村,则模型为Y i = 0 + 1 X i + 1D1 +u i(2)(模型有截距,“居民属性”定性变量只有两个相互排斥的属性状态(m = 2 ),故只设定一个虚拟变量。

)若对两个相互排斥的属性“居民属性”,仍然引入m 2 个虚拟变量,则有⎧1 城镇居民D1i = ⎨⎩0 农村居民 ⎧1 农村居民D2i = ⎨⎩0 城镇居民则模型(1)为Y i 0 1 X i 1D 1 2 D 2 u i (3)则对任一家庭都有:D1 + D2 = 1 D1 + D2 - 1 = 0 ,即产生完全共线,陷入了“虚拟变量陷阱”。

“虚拟变量陷阱”的实质是:完全多重共线性。

虚拟变量在回归模型中的角色虚拟变量既可作为被解释变量,也可作为解释变量,分别称其为虚拟被解释变量和虚拟解释变量。

虚拟被解释变量的研究是当前计量经济学研究的前沿领域,如MacFadden、Heckmen等人的微观计量经济学研究,大量涉及到虚拟被解释变量的分析。

本课程只是讨论虚拟解释变量的问题第二节虚拟解释变量的回归本节基本内容:●加法类型●乘法类型●虚拟解释变量综合应用在计量经济学中,通常引入虚拟变量的方式分为加法方式和乘法方式两种:即Y t = α0 + β X t + u t +α1DY t = α + β1 X t + u t + β2 X t D原模型:Y i = α + ®Ξ i + u i加法方式引入α = α 0 + α1D乘法方式引入β = β1 + β 2 D实质:加法方式引入虚拟变量改变的是截距;乘法方式引入虚拟变量改变的是斜率。

一、加法类型以加法方式引入虚拟变量时,主要考虑的问题是定性因素的属性和引入虚拟变量的个数。

分为四种情形讨论:(1)解释变量只有一个定性变量而无定量变量,而且定性变量为两种相互排斥的属性;(2)解释变量分别为一个定性变量(两种属性)和一个定量解释变量;(3)解释变量分别为一个定性变量(两种以上属性)和一个定量解释变量;(4)解释变量分别为两个定性变量(各自分别是两种属性)和一个定量解释变量;思考:四种加法方式引入虚拟变量会产生什么效应?(1)一个两种属性定性解释变量而 无定量变量的情形模型形式:Y i f ( D i ) i 0 1D i 例如:Y i 0 1D i i 1 其中:D i =0 城市农村 (比较的基础:农村) 那么: E (Y i | D i = 1) = α 0 + α1) ( Y i = α 0 + α1) μi(+ Y i = α 0 + μi E (Y i | D i = 0 ) = α 0城市农村(2) 一个定性解释变量(两种属性) 和一个定量解释变量的情形模型形式 Y i = f(D i ,X i )+ μi ⇒ α = α 0 + α1D i 例如:Y i = α 0 + α1D i + β X i + μi ⎧1 城市其中: Y -支出;X -收入; D i = ⎨ ⎩0 农村E Y i | X i , D i 1 0 1) X i (E Y i | X i , D i 0 0) X i(Y i = 0 + X i + ⎧i Y i = 0 + 1 + X i + ⎧i() 城市 农村YX 共同的特征:截距发生改变(?)(3)一个定性解释变量(两种以上属性)和一个定量解释变量的情形模型形式Y i = f ( X i,1,2,) + μiD D ...(如:民族有56种特性;季度有4种特性)例如:啤酒售量Y、人均收入X 、季度D;Y i = α 0 + α1D1 + α 2 D2 + α 3 D3 + β X i + μi⎧ 1 一季度⎧1其中:D1 = ⎨D2 = ⎨ ⎩0 其它⎩0⎧ 1 三季度D3 = ⎨⎩0 其它二季度其它一季度:E (Y i | X 1, D 1 = 1, D 2 = D 3 = 0 ) = α 0 + α1)+ β X i( 二季度:E (Y i | X 1, D 2 = 1, D 1 = D 3 = 0 ) = (α 0 + α 2 ) + β X i四季度:E (Y i | X 1, D 1 = D 2 = D 3 = 0 ) = α 0 + β X i三季度:E (Y i | X 1, D 3 = 1, D 1 = D 2 = 0 ) = (α 0 + α3 ) + β X i( 基准:四季度)(4)两个定性解释变量(均为两种属性)和一个定量解释变量的情形夏季、城市居民EY i | X i , D 11, D 2 112) X i(夏季、农村居民 E Y i | X i ,D 1 = 1, D 2 = 0= 0 +1)X i(+冬季、城市居民 EY i | X i , D 1 0, D 2 1(2 )+ X i 冬季、农村居民EY i | X i , D 1 0, D 2D1 = 1, D2 = 1Y D1 = 1, D2 = 0D1 = 0, D2 = 1D1 = 0, D2 = 0X上述图形的前提条件是什么?运用OLS得到回归结果,再用t检验讨论因素是否对模型有影响。

加法方式引入虚拟变量的一般表达式:Y t = α0 + α1D1t + α 2 D2t + ... + α k D kt + β X t + u t 基本分析方法: 条件期望。

E(Y t / D1t , D2t ,..., D kt ) = α0 + α1D1t + α2 D2t + ... + αk D kt + β X t加法方式引入虚拟变量的主要作用为:1.在有定量解释变量的情形下,主要改变方程截距;2.在没有定量解释变量的情形下,主要用于方差分析。

二、乘法类型基本思想以乘法方式引入虚拟变量时,是在所设立的模型中,将虚拟X i解释变量与其它解释变量的乘积,作为新的解释变量出现在模型中,以达到其调整设定模型斜率系数的目的。

或者将模型斜率系数表示为虚拟变量的函数,以达到相同的目的。

乘法引入方式:(1)截距不变;(2)截距和斜率均发生变化;分析手段:仍然是条件期望。

(1)截距不变的情形模型形式:Y t = f X t , D t X t u t ,1 2 D例:研究消费支出Y 受收入X 、年份状况 D 的影响Y t = α + β1 X t + β 2 ( D t X t ) + μt⎧1 反常年份其中:Y - 消费支出;X - 收入;D t = ⎨⎩0 正常年份反常年份E (Y t | X t , D t = 1) = α + ( β1 + β 2 ) X t正常年份E (Y t | X t , D t = 0 ) = α + β1X t在正常年份的基础上进行比较,(只有斜率系数发生改变)。

(2)截距和斜率均发生变化模型形式:Y i f X t , D t , D t X t 0 1D,1 2 D例,同样研究消费支出Y 、收入X 、年份状况D 间的影响关系。

Y t = α 0 + β1 X t + α1D t + β 2 ( D t X t ) + μt⎧1 反常年份其中:Y - 消费支出;X - 收入;D t = ⎨⎩0 正常年份反常年份E (Y t | X t , D t = 1) = (α 0 + α1 ) + ( β1 + β 2 ) X t正常年份E (Y t | X t , D t = 0 ) = α + β1 X t在正常年份基础上比较,截距和斜率系数都改变,为什么?不同截距、斜率的组合图形重合回归:截距斜率均相同平行回归:截距不同斜率相同共点回归:截距相同斜率不同三、虚拟解释变量综合应用所谓综合应用是指将引入虚拟解释变量的加法方式、乘法方式进行综合使用。

相关文档
最新文档