计量经济学第八章-虚拟变量回归
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(如:民族有56种特征;季节有4种特征)
例: 啤酒销量Y、人均收入X、季节D;
Yi 0 1D1 2D2 3D3 Xi i
其中:
D1
1 0
一季度
1
其 它 D2 0
二季度 其它
D3
1 0
三季度 其它
一季度
E Yi | X1, D1 1, D2 D3 0 (0 1) Xi
◆基本分析方法: 条件期望。
E Yt | Xt , D1t , D2t , , Dkt 0 Xt 1D1t 2D2t k Dkt
运用OLS得到回归结果,再用t-检验讨论因素是否对模型有影响.
二、乘法类型
◆目的:调整设定模型的斜率系数。
◆基本思想: 以乘法方式引入虚拟变量时,是在所设立的模型
中,将虚拟解释变量与其它解释变量(Xi 或为Di)的乘积,作为新
的解释变量出现在模型中,以达到其调整设定模型斜率系数的目
的(以下仅讨论虚拟解释变量Di与Xi乘积作为新变量的情况)。
◆乘法引入方式可分为两种情形讨论 (1)截距不变; (2)截距和斜率均发生变化; 分析手段:仍然是条件期望。
(1)截距不变的情形
任一家庭都有:D1+D2=1,即 D1+D2-1=0(完全共线),就 陷入了“虚拟变量陷阱”,产生完全共线。
第二节 虚拟解释变量的回归
◆虚拟变量模型:含有虚拟变量的模型称为虚拟变量模型。
◆在计量经济学中,通常引入虚拟变量的方式分为:加法方式
和乘法方式两种:即
1D
Yt 1Xt ut 2 Xt D
模型形式:
Yt f Xt , Dt Xt ut , 1 2D
例:研究消费支出Y 受到收入X、年份状况D 的影响。
Yt 1Xt 2 (Dt Xt ) t
其中:
Y
: 消费支出;X:收入;
Dt
1 0
反常年份 正常年份
反常年份 E Yt | Xt , Dt 1 (1 2 ) Xt
面临的问题:如何把性别(男、女生)这样的非数 量变量引入方程?
问题的一般性描述
前面讨论的回归模型中,所遇的变量均为定量变量(可直接测 度、数值性)。
例如:GDP,工资,收入、受教育年数,销售额等. 在实际建模时,一些定性变量具有不可忽视的重要影响。 例如:研究某个企业的销售水平,产业属性(制造业、零售 业)、所有制(私营、非私营)、地理位置(东、中、西部)、管 理者的素质、不同的收入水平等是值得考虑的重要影响因素,但这 些因素共同的特征是定性描述的。
城镇
D1i 0: E Yi | Xi , D1i 0 0 1Xi
农村
若在量化只有两个相互排斥属性的“居民属性”定性变量时,
引入 m=2 个虚拟变量。
1 城镇居民 D1i 0 农村居民
1 农村居民 D2i 0 城镇居民
模型为 Yi 0 1Xi 1D1 2D2 ui (3)
三、虚拟解释变量综合应用 所谓综合应用是指将引入虚拟解释变量的加法方式、 乘法方式进行综合使用。 可以讨论: 结构变化分析( 关于两个回归模型的比较); 因素间的交互效应分析; 分段回归分析
以下仅对结构变化分析、分段回归分析进行讨论:
1、结构变化分析(回归模型的比较)
通过对模型的参数检验,可以检验模型是否有不同的结构。即 定性变量D的引入,是否影响不同类型(属性)模型的
Yt 0 1Xt 1Dt 2 (Dt Xt ) t
其中:
Y
: 消费支出;X:收入;
Dt
1 0
反常年份 正常年份
反常年份 E Yt | Xt , Dt 1 0 1 (1 2 )Xt
正常年份 E Yt | Xt , Dt 0 1Xt
女
( 比较的基础:女性);Y代表收入
2、一个定性解释变量(两种属性)和一个定量解 释变量的情形
模型形式 Yi f (Di,Xi ) i
例如:Yi 0 1Di Xi i
其中:Di
1 0
城镇 农村
(比较的基础:农村); Yi 代表消费支出; X代表收入
E Yi | Xi , Di 1 (0 1) Xi
问题:直接在回归模型中加入定性因素存在诸多的困难,能 否采用“虚拟变量”对定性变量进行量化,以达到定性因素能与定 量因素有着相同作用之目的?
二、虚拟变量的设置规则(原则) 虚拟变量的设置规则是在回答“如何”问题。其规则 涉及到以下的三个方面: 1、“0”和“1”的选取原则; 2、属性(状态、水平)因素与设置虚拟变量数量的关系; 3、虚拟变量在回归分析中的角色及作用等方面的问题.
(0,0,0) 东部沿海地区
2
(D1,
D2
,
D3
)
( 1,0,0) ( 0,1,0)
东部非沿海地区 中部地区
(0,0,1) 西部地区
◆定性因素D如何选取?其设置规则为:
1)定性因素有m (m=2,3,4,…)个相互排斥类型(或特征、水 平) ,当回归模型有截距项时,模型中只能引入( m-1)个虚拟 变量,否则会陷入“虚拟变量陷阱”(产生完全共线)。(为什么?)
面临的问题:在同时考虑定量和定性因素的条件下,依据现有 的回归分析知识,如何对非定量因素进行回归分析?
第一节 虚拟变量
一、基本概念 1、定量因素、定性因素 ◆ 定量因素:可直接测度、数值性的因素。 ◆ 定性(属性)因素:表示某种属性存在与否的非数值性因素. 2、虚拟变量的定义 ◆ 虚拟变量:取值为0、1的人工(特殊)变量 。 注:虚拟变量的同位语有:哑元变量、定性变量等等。通常用 字母 D 或DUM加以表示(英文中虚拟或者哑元Dummy的缩写)。
E Yi | Xi , Di 0 (0) Xi
Yi (0 1) Xi i 城镇
Yi 0 Xi i
农村
Y
X
共同的特征:截距发生改变
3、一个定性解释变量(两种以上属性)和一个定量 解释变量的情形
模型形式 Yi f ( Xi,D1,D2,...) i
1、一个两种属性定性解释变量而无定量变量的情形
Yi f (Di ) i
例1:Yi 0 1Di i
其中:Di
1 0
男 女
E(Yi / Di 1) (0 1) 男
E(Yi / Di 0) 0
女
Yi (0 1) i 男
Yi 0 i
第八章
虚拟变量回归
引子:
1、男女大学生的消费真有差异吗?
对在校生的消费行为进行调查,发现在校生的消费行 为呈现多元化的结构。人际交往消费、手机类消费、衣着 类消费、化妆品类消费、电脑类消费、旅游类消费占有较 大的比例;而食品类消费、学习用品类消费不突显。为了 了解男、女生在消费支出结构上的差异,应当如何建立模 型?
2)回归模型无截距项时,则引入m个虚拟变量。
注:“虚拟变量陷阱”的实质:完全多重共线性。
例(一个陷入“虚拟变量陷阱”实例)研究居民住房消费支出 Yi 、居民可支配收入Xi之间的数量关系,回归模型设定为:
Yi 0 1Xi ui (1)
现在要考虑城镇居民和农村居民之间的差异,如何办?
为了对 “城镇居民”、“农村居民”进行区分,分析各自在
4、两个定性解释变量(均为两种属性)和一个定量 解释变量的情形
模型形式: Yi f ( Xi,D1,D2 ) i
例: 分析啤酒销量Y受到人均收入X、季节D的影响。
Yi 0 1D1 2D2 Xi i
其中:D1
1 0
夏季 冬季
1 D2 0
城市 农村
正常年份 E Yt | Xt , Dt 0 1Xt
在正常年份的基础上进行比较,(只有斜率系数发生改变)。
(2)截距和斜率均发生变化 模型形式:
Yi f Xt , Dt , Dt Xt 0 1D, 1 2D
例:研究消费支出Y 、收入X、年份状况D 间的影响关系。
在正常年份基础上比较,(截距和斜率系数都改变,为什么?)
比较:发生了那些变化?
例:改革开放前、后(平均)“储蓄—收入”模型:
Yt 1 2 Dt 1 X t 2 (Dt X t ) ut
其中:Yt为储蓄总额;X
为收入总额
t
(1)
1 改革开放前 D 0 改革开放后
1)平均水平(截距项)? 2)相对变化(斜率系数)?
3)平均水平(截距项)和相对变化(斜率系数)?
例如:城镇居民家庭与农村居民家庭的消费函数不仅在截距上 有差异,边际消费倾向可能也会有所不同。模型可以记为
改革开放后:Yt 1 1X t ut
(2)
改革开放前:Yt (1 2)(1 2)X t ut (3)
加法方式引入D:为了区别改革开放前、后储蓄起点的情况 (即两 模型的截距变化)
乘法方式引入D:为了区别改革开放前、后“储蓄“关于”收 入”的相对变化情况(即两模型的斜率系数变化)
具体说明如下:
1、虚拟变量的“0”和“1”选取原则
取“0”或“1”应从分析问题的目的出发予以界定。 “0”代表基期(比较的基础,参照物) “1”代表报告期(被比较的效应)。
例如,比较收入时欲考察性别(定性变量)的作用(差异). 当研究男性收入是否高于女性时,是将女性作为比较的基础 (参照物),故设男性为“1”,女性为“0”。
2、属性因素(状态、水平)与虚拟变量数量的关系
定性因素的属性既可能为两种状态,也可能为多种状态。 例如,性别(男、女两种)、季节(4种状态),地理位置
(东、中、西部),行业(D1, D2 ) ( 0, 1)
( 0, 0)
天气阴 天气雨 天气晴
◆实质: 加法方式引入虚拟变量改变的是截距; 乘法方式引入虚拟变量改变的是斜率。
一、加法类型
以加法方式引入虚拟变量时,主要考虑的问题是定性因素的属 性和引入虚拟变量的个数。
◆分为四种情形讨论: (1)解释变量只有一个定性变量而无定量变量,而且定性变量 为两种相互排斥的属性; (2)解释变量分别为一个定性变量(两种属性)和一个定量解 释变量; (3)解释变量分别为一个定性变量(两种以上属性)和一个定 量解释变量; (4)解释变量分别为两个定性变量(各自分别是两种属性)和 一个定量解释变量。
冬季、农村居民
E Yi | Xi , D1 0, D2 0 0 Xi
Y
D1=1,D2=1
D1=1,D2=0
D1=1,D2=0
D1=0,D2=0
X
◆加法方式引入虚拟变量的一般表达式:
Yt 0 1D1t 2D2t k Dkt Xt ut
住房消费支出 Yi 上的差异,设
D1i
1 0
城镇 农村
只设定一个虚拟变量原因:模型有截距,“居民属性”定性变 量只有两个相互排斥的属性状态(m=2),故只设定一个虚拟变量。
则模型为
Yi 0 1Xi 1D1 ui (2)
D1i 1: E Yi | Xi , D1i 1 0 1 1Xi
比较的基础—冬季、农村
夏季、城市居民
E Yi | Xi , D1 1, D2 1 (0 1 2) Xi
夏季、农村居民
E Yi | Xi , D1 1, D2 0 (0 1) Xi
冬季、城市居民
E Yi | Xi , D1 0, D2 1 (0 2) Xi
二季度
E Yi | X1, D2 1, D1 D3 0 (0 2) Xi
三季度
E Yi | X1, D3 1, D1 D2 0 (0 3) Xi
四季度
E Yi | X1, D1 D2 D3 0 0 Xi 比较的基础—四季度
例: 啤酒销量Y、人均收入X、季节D;
Yi 0 1D1 2D2 3D3 Xi i
其中:
D1
1 0
一季度
1
其 它 D2 0
二季度 其它
D3
1 0
三季度 其它
一季度
E Yi | X1, D1 1, D2 D3 0 (0 1) Xi
◆基本分析方法: 条件期望。
E Yt | Xt , D1t , D2t , , Dkt 0 Xt 1D1t 2D2t k Dkt
运用OLS得到回归结果,再用t-检验讨论因素是否对模型有影响.
二、乘法类型
◆目的:调整设定模型的斜率系数。
◆基本思想: 以乘法方式引入虚拟变量时,是在所设立的模型
中,将虚拟解释变量与其它解释变量(Xi 或为Di)的乘积,作为新
的解释变量出现在模型中,以达到其调整设定模型斜率系数的目
的(以下仅讨论虚拟解释变量Di与Xi乘积作为新变量的情况)。
◆乘法引入方式可分为两种情形讨论 (1)截距不变; (2)截距和斜率均发生变化; 分析手段:仍然是条件期望。
(1)截距不变的情形
任一家庭都有:D1+D2=1,即 D1+D2-1=0(完全共线),就 陷入了“虚拟变量陷阱”,产生完全共线。
第二节 虚拟解释变量的回归
◆虚拟变量模型:含有虚拟变量的模型称为虚拟变量模型。
◆在计量经济学中,通常引入虚拟变量的方式分为:加法方式
和乘法方式两种:即
1D
Yt 1Xt ut 2 Xt D
模型形式:
Yt f Xt , Dt Xt ut , 1 2D
例:研究消费支出Y 受到收入X、年份状况D 的影响。
Yt 1Xt 2 (Dt Xt ) t
其中:
Y
: 消费支出;X:收入;
Dt
1 0
反常年份 正常年份
反常年份 E Yt | Xt , Dt 1 (1 2 ) Xt
面临的问题:如何把性别(男、女生)这样的非数 量变量引入方程?
问题的一般性描述
前面讨论的回归模型中,所遇的变量均为定量变量(可直接测 度、数值性)。
例如:GDP,工资,收入、受教育年数,销售额等. 在实际建模时,一些定性变量具有不可忽视的重要影响。 例如:研究某个企业的销售水平,产业属性(制造业、零售 业)、所有制(私营、非私营)、地理位置(东、中、西部)、管 理者的素质、不同的收入水平等是值得考虑的重要影响因素,但这 些因素共同的特征是定性描述的。
城镇
D1i 0: E Yi | Xi , D1i 0 0 1Xi
农村
若在量化只有两个相互排斥属性的“居民属性”定性变量时,
引入 m=2 个虚拟变量。
1 城镇居民 D1i 0 农村居民
1 农村居民 D2i 0 城镇居民
模型为 Yi 0 1Xi 1D1 2D2 ui (3)
三、虚拟解释变量综合应用 所谓综合应用是指将引入虚拟解释变量的加法方式、 乘法方式进行综合使用。 可以讨论: 结构变化分析( 关于两个回归模型的比较); 因素间的交互效应分析; 分段回归分析
以下仅对结构变化分析、分段回归分析进行讨论:
1、结构变化分析(回归模型的比较)
通过对模型的参数检验,可以检验模型是否有不同的结构。即 定性变量D的引入,是否影响不同类型(属性)模型的
Yt 0 1Xt 1Dt 2 (Dt Xt ) t
其中:
Y
: 消费支出;X:收入;
Dt
1 0
反常年份 正常年份
反常年份 E Yt | Xt , Dt 1 0 1 (1 2 )Xt
正常年份 E Yt | Xt , Dt 0 1Xt
女
( 比较的基础:女性);Y代表收入
2、一个定性解释变量(两种属性)和一个定量解 释变量的情形
模型形式 Yi f (Di,Xi ) i
例如:Yi 0 1Di Xi i
其中:Di
1 0
城镇 农村
(比较的基础:农村); Yi 代表消费支出; X代表收入
E Yi | Xi , Di 1 (0 1) Xi
问题:直接在回归模型中加入定性因素存在诸多的困难,能 否采用“虚拟变量”对定性变量进行量化,以达到定性因素能与定 量因素有着相同作用之目的?
二、虚拟变量的设置规则(原则) 虚拟变量的设置规则是在回答“如何”问题。其规则 涉及到以下的三个方面: 1、“0”和“1”的选取原则; 2、属性(状态、水平)因素与设置虚拟变量数量的关系; 3、虚拟变量在回归分析中的角色及作用等方面的问题.
(0,0,0) 东部沿海地区
2
(D1,
D2
,
D3
)
( 1,0,0) ( 0,1,0)
东部非沿海地区 中部地区
(0,0,1) 西部地区
◆定性因素D如何选取?其设置规则为:
1)定性因素有m (m=2,3,4,…)个相互排斥类型(或特征、水 平) ,当回归模型有截距项时,模型中只能引入( m-1)个虚拟 变量,否则会陷入“虚拟变量陷阱”(产生完全共线)。(为什么?)
面临的问题:在同时考虑定量和定性因素的条件下,依据现有 的回归分析知识,如何对非定量因素进行回归分析?
第一节 虚拟变量
一、基本概念 1、定量因素、定性因素 ◆ 定量因素:可直接测度、数值性的因素。 ◆ 定性(属性)因素:表示某种属性存在与否的非数值性因素. 2、虚拟变量的定义 ◆ 虚拟变量:取值为0、1的人工(特殊)变量 。 注:虚拟变量的同位语有:哑元变量、定性变量等等。通常用 字母 D 或DUM加以表示(英文中虚拟或者哑元Dummy的缩写)。
E Yi | Xi , Di 0 (0) Xi
Yi (0 1) Xi i 城镇
Yi 0 Xi i
农村
Y
X
共同的特征:截距发生改变
3、一个定性解释变量(两种以上属性)和一个定量 解释变量的情形
模型形式 Yi f ( Xi,D1,D2,...) i
1、一个两种属性定性解释变量而无定量变量的情形
Yi f (Di ) i
例1:Yi 0 1Di i
其中:Di
1 0
男 女
E(Yi / Di 1) (0 1) 男
E(Yi / Di 0) 0
女
Yi (0 1) i 男
Yi 0 i
第八章
虚拟变量回归
引子:
1、男女大学生的消费真有差异吗?
对在校生的消费行为进行调查,发现在校生的消费行 为呈现多元化的结构。人际交往消费、手机类消费、衣着 类消费、化妆品类消费、电脑类消费、旅游类消费占有较 大的比例;而食品类消费、学习用品类消费不突显。为了 了解男、女生在消费支出结构上的差异,应当如何建立模 型?
2)回归模型无截距项时,则引入m个虚拟变量。
注:“虚拟变量陷阱”的实质:完全多重共线性。
例(一个陷入“虚拟变量陷阱”实例)研究居民住房消费支出 Yi 、居民可支配收入Xi之间的数量关系,回归模型设定为:
Yi 0 1Xi ui (1)
现在要考虑城镇居民和农村居民之间的差异,如何办?
为了对 “城镇居民”、“农村居民”进行区分,分析各自在
4、两个定性解释变量(均为两种属性)和一个定量 解释变量的情形
模型形式: Yi f ( Xi,D1,D2 ) i
例: 分析啤酒销量Y受到人均收入X、季节D的影响。
Yi 0 1D1 2D2 Xi i
其中:D1
1 0
夏季 冬季
1 D2 0
城市 农村
正常年份 E Yt | Xt , Dt 0 1Xt
在正常年份的基础上进行比较,(只有斜率系数发生改变)。
(2)截距和斜率均发生变化 模型形式:
Yi f Xt , Dt , Dt Xt 0 1D, 1 2D
例:研究消费支出Y 、收入X、年份状况D 间的影响关系。
在正常年份基础上比较,(截距和斜率系数都改变,为什么?)
比较:发生了那些变化?
例:改革开放前、后(平均)“储蓄—收入”模型:
Yt 1 2 Dt 1 X t 2 (Dt X t ) ut
其中:Yt为储蓄总额;X
为收入总额
t
(1)
1 改革开放前 D 0 改革开放后
1)平均水平(截距项)? 2)相对变化(斜率系数)?
3)平均水平(截距项)和相对变化(斜率系数)?
例如:城镇居民家庭与农村居民家庭的消费函数不仅在截距上 有差异,边际消费倾向可能也会有所不同。模型可以记为
改革开放后:Yt 1 1X t ut
(2)
改革开放前:Yt (1 2)(1 2)X t ut (3)
加法方式引入D:为了区别改革开放前、后储蓄起点的情况 (即两 模型的截距变化)
乘法方式引入D:为了区别改革开放前、后“储蓄“关于”收 入”的相对变化情况(即两模型的斜率系数变化)
具体说明如下:
1、虚拟变量的“0”和“1”选取原则
取“0”或“1”应从分析问题的目的出发予以界定。 “0”代表基期(比较的基础,参照物) “1”代表报告期(被比较的效应)。
例如,比较收入时欲考察性别(定性变量)的作用(差异). 当研究男性收入是否高于女性时,是将女性作为比较的基础 (参照物),故设男性为“1”,女性为“0”。
2、属性因素(状态、水平)与虚拟变量数量的关系
定性因素的属性既可能为两种状态,也可能为多种状态。 例如,性别(男、女两种)、季节(4种状态),地理位置
(东、中、西部),行业(D1, D2 ) ( 0, 1)
( 0, 0)
天气阴 天气雨 天气晴
◆实质: 加法方式引入虚拟变量改变的是截距; 乘法方式引入虚拟变量改变的是斜率。
一、加法类型
以加法方式引入虚拟变量时,主要考虑的问题是定性因素的属 性和引入虚拟变量的个数。
◆分为四种情形讨论: (1)解释变量只有一个定性变量而无定量变量,而且定性变量 为两种相互排斥的属性; (2)解释变量分别为一个定性变量(两种属性)和一个定量解 释变量; (3)解释变量分别为一个定性变量(两种以上属性)和一个定 量解释变量; (4)解释变量分别为两个定性变量(各自分别是两种属性)和 一个定量解释变量。
冬季、农村居民
E Yi | Xi , D1 0, D2 0 0 Xi
Y
D1=1,D2=1
D1=1,D2=0
D1=1,D2=0
D1=0,D2=0
X
◆加法方式引入虚拟变量的一般表达式:
Yt 0 1D1t 2D2t k Dkt Xt ut
住房消费支出 Yi 上的差异,设
D1i
1 0
城镇 农村
只设定一个虚拟变量原因:模型有截距,“居民属性”定性变 量只有两个相互排斥的属性状态(m=2),故只设定一个虚拟变量。
则模型为
Yi 0 1Xi 1D1 ui (2)
D1i 1: E Yi | Xi , D1i 1 0 1 1Xi
比较的基础—冬季、农村
夏季、城市居民
E Yi | Xi , D1 1, D2 1 (0 1 2) Xi
夏季、农村居民
E Yi | Xi , D1 1, D2 0 (0 1) Xi
冬季、城市居民
E Yi | Xi , D1 0, D2 1 (0 2) Xi
二季度
E Yi | X1, D2 1, D1 D3 0 (0 2) Xi
三季度
E Yi | X1, D3 1, D1 D2 0 (0 3) Xi
四季度
E Yi | X1, D1 D2 D3 0 0 Xi 比较的基础—四季度