计量经济学第八章虚拟变量回归
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2)回归模型无截距项时,则引入m个虚拟变量。 注:“虚拟变量陷阱”的实质:完全多重共线性。
例(一个陷入“虚拟变量陷阱”实例)研究居民住房消费支出Yi 、居民可支配收入Xi之间的数量关系,回归模 型设定为:
Y i0 1 X i u i( 1 )
现在要考虑城镇居民和农村居民之间的差异,如何办? 为了对 “城镇居民”、“农村居民”进行区分,分析各自在住房消费支出 Yi 上的差异,设
具体说明如下:
1、虚拟变量的“0”和“1”选取原则 取“0”或“1”应从分析问题的目的出发予以界定。
“0”代表基期(比较的基础,参照物) “1”代表报告期(被比较的效应)。 例如,比较收入时欲考察性别(定性变量)的作用(差异). 当研究男性收入是否高于女性时,是将女性作为比较的基础(参照物),故设男性为“1”,女性为“0”。
1 男 D 0 女
2、属性因素(状态、水平)与虚拟变量数量的关系
定性因素的属性既可能为两种状态,也可能为多种状态。 例如,性别(男、女两种)、季节(4种状态),地理位置(东、中、西部),行业归属,所有制,收入的分 组等。
( 1, 0) 天气阴
1 (D1,D2)( 0, 1) 天气雨
( 0, 0) 天气晴
面临的问题:如何把性别(男、女生)这样的非数量变量引入方程?
问题的一般性描述
前面讨论的回归模型中,所遇的变量均为定量变量(可直接测度、数值性)。 例如:GDP,工资,收入、受教育年数,销售额等. 在实际建模时,一些定性变量具有不可忽视的重要影响。 例如:研究某个企业的销售水平,产业属性(制造业、零售业)、所有制(私营、非私营)、地理位置(东、
1 城镇 D1i 0 农村
只设定一个虚拟变量原因:模型有截距,“居民属性”定性变量只有两个相互排斥的属性状态(m=2),故只 设定一个虚拟变量。
则模型为
Y i 0 1 X i 1 D 1 u i ( 2 )
D 1 i 1 : E Y i |X i , D 1 i 1 0 1 1 X i 城镇
问题:直接在回归模型中加入定性因素存在诸多的困难,能否采用“虚拟变量”对定性变量进行量化,以达 到定性因素能与定量因素有着相同作用之目的?
二、虚拟变量的设置规则(原则)
虚拟变量的设置规则是在回答“如何”问题。其规则涉及到以下的三个方面: 1、“0”和“1”的选取原则; 2、属性(状态、水平)因素与设置虚拟变量数量的关系; 3、虚拟变量在回归分析中的角色及作用等方面的问题.
任一家庭都有:D1+D2=1,即 D1+D2-1=0(完全共线),就 陷入了“虚拟变量陷阱”,产生完全共线。
第二节 虚拟解释变量的回归 ◆虚拟变量模型:含有虚拟变量的模型称为虚拟变量模型。 ◆在计量经济学中,通常引入虚拟变量的方式分为:加法方式和乘法方式两种:即
Y t0X tut 1 D
Y t1Xtut2XtD
(0, 0, 0) 东部沿海地区
2 (D1,D2,D3)( ( 10,,01,,00) )东 中部 部非 地沿 区海地区
(0, 0, 1) 西部地区
◆定性因素D如何选取?其设置规则为: 1)定性因素有m (m=2,3,4,…)个相互排斥类型(或特征、水平) ,当回归模型有截距项时,模型中只能引入
( m-1)个虚拟变量,否则会陷入“虚拟变量陷阱”(产生完全共线)。(为什么?)
计量经济学第八章虚拟变量回归
1
引子: 1、男女大学生的消费真有差异吗? 对在校生的消费行为进行调查,发现在校生的消费行为呈现多元化的结构。人际交往消费、手机类消费、衣着 类消费、化妆品类消费、电脑类消费、旅游类消费占有较大的比例;而食品类消费、学习用品类消费不突显。为了 了解男、女生在消费支出结构上的差异,应当如何建立模型?
◆实质: 加法方式引入虚拟变量改变的是截距; 乘法方式引入虚拟变量改变的是斜率。
一、加法类型
以加法方式引入虚拟变量时,主要考虑的问题是定性因素的属 性和引入虚拟变量的个数。
◆分为四种情形讨论: (1)解释变量只有一个定性变量而无定量变量,而且定性变量 为两种相互排斥的属性; (2)解释变量分别为一个定性变量(两种属性)和一个定量解 释变量; (3)解释变量分别为一个定性变量(两种以上属性)和一个定 量解释变量; (4)解释变量分别为两个定性变量(各自分别是两种属性)和 一个定量解释变量。
D 1 i 0 : E Y i |X i , D 1 i 0 0 1 X i 农村
若在量化只有两个相互排斥属性的“居民属性”定性变量时,引入 m=2 个虚拟变量。
1 城 镇 居 民
1 农 村 居 民
D1i0 农 村 居 民
D2i 0 城 镇 居 民
模型为
Y i 0 1 X i 1 D 1 2 D 2 u i( 3 )
1、一个两种属性定性解释变量而无定量变量的情形
Yi f (Di ) i
例 1: Yi 0 1Di i
其
中
:
Di
1
0
男 女
E (Yi
/
Di
1)
(Biblioteka Baidu
0
)
1
男
E (Yi / Di 0) 0
女
Yi ( 0 1) i 男
Yi 0 i
女
( 比较的基础:女性);Y代表收入
2、一个定性解释变量(两种属性)和一个定量解释变量的情形
中、西部)、管理者的素质、不同的收入水平等是值得考虑的重要影响因素,但这些因素共同的特征是定性描述的。
面临的问题:在同时考虑定量和定性因素的条件下,依据现有的回归分析知识,如何对非定量因素进行回归分 析?
第一节 虚拟变量 一、基本概念 1、定量因素、定性因素 ◆ 定量因素:可直接测度、数值性的因素。 ◆ 定性(属性)因素:表示某种属性存在与否的非数值性因素. 2、虚拟变量的定义 ◆ 虚拟变量:取值为0、1的人工(特殊)变量 。 注:虚拟变量的同位语有:哑元变量、定性变量等等。通常用字母 D 或DUM加以表示(英文中虚拟或者哑元 Dummy的缩写)。
模 型 形 式Yif(D i, Xi)i 例 如 : Yi01D iXii
其 中 : D i 1 0
城 镇 农 村
(比 较 的 基 础 : 农 村 ) ;Yi代 表 消 费 支 出 ;X代 表 收 入
例(一个陷入“虚拟变量陷阱”实例)研究居民住房消费支出Yi 、居民可支配收入Xi之间的数量关系,回归模 型设定为:
Y i0 1 X i u i( 1 )
现在要考虑城镇居民和农村居民之间的差异,如何办? 为了对 “城镇居民”、“农村居民”进行区分,分析各自在住房消费支出 Yi 上的差异,设
具体说明如下:
1、虚拟变量的“0”和“1”选取原则 取“0”或“1”应从分析问题的目的出发予以界定。
“0”代表基期(比较的基础,参照物) “1”代表报告期(被比较的效应)。 例如,比较收入时欲考察性别(定性变量)的作用(差异). 当研究男性收入是否高于女性时,是将女性作为比较的基础(参照物),故设男性为“1”,女性为“0”。
1 男 D 0 女
2、属性因素(状态、水平)与虚拟变量数量的关系
定性因素的属性既可能为两种状态,也可能为多种状态。 例如,性别(男、女两种)、季节(4种状态),地理位置(东、中、西部),行业归属,所有制,收入的分 组等。
( 1, 0) 天气阴
1 (D1,D2)( 0, 1) 天气雨
( 0, 0) 天气晴
面临的问题:如何把性别(男、女生)这样的非数量变量引入方程?
问题的一般性描述
前面讨论的回归模型中,所遇的变量均为定量变量(可直接测度、数值性)。 例如:GDP,工资,收入、受教育年数,销售额等. 在实际建模时,一些定性变量具有不可忽视的重要影响。 例如:研究某个企业的销售水平,产业属性(制造业、零售业)、所有制(私营、非私营)、地理位置(东、
1 城镇 D1i 0 农村
只设定一个虚拟变量原因:模型有截距,“居民属性”定性变量只有两个相互排斥的属性状态(m=2),故只 设定一个虚拟变量。
则模型为
Y i 0 1 X i 1 D 1 u i ( 2 )
D 1 i 1 : E Y i |X i , D 1 i 1 0 1 1 X i 城镇
问题:直接在回归模型中加入定性因素存在诸多的困难,能否采用“虚拟变量”对定性变量进行量化,以达 到定性因素能与定量因素有着相同作用之目的?
二、虚拟变量的设置规则(原则)
虚拟变量的设置规则是在回答“如何”问题。其规则涉及到以下的三个方面: 1、“0”和“1”的选取原则; 2、属性(状态、水平)因素与设置虚拟变量数量的关系; 3、虚拟变量在回归分析中的角色及作用等方面的问题.
任一家庭都有:D1+D2=1,即 D1+D2-1=0(完全共线),就 陷入了“虚拟变量陷阱”,产生完全共线。
第二节 虚拟解释变量的回归 ◆虚拟变量模型:含有虚拟变量的模型称为虚拟变量模型。 ◆在计量经济学中,通常引入虚拟变量的方式分为:加法方式和乘法方式两种:即
Y t0X tut 1 D
Y t1Xtut2XtD
(0, 0, 0) 东部沿海地区
2 (D1,D2,D3)( ( 10,,01,,00) )东 中部 部非 地沿 区海地区
(0, 0, 1) 西部地区
◆定性因素D如何选取?其设置规则为: 1)定性因素有m (m=2,3,4,…)个相互排斥类型(或特征、水平) ,当回归模型有截距项时,模型中只能引入
( m-1)个虚拟变量,否则会陷入“虚拟变量陷阱”(产生完全共线)。(为什么?)
计量经济学第八章虚拟变量回归
1
引子: 1、男女大学生的消费真有差异吗? 对在校生的消费行为进行调查,发现在校生的消费行为呈现多元化的结构。人际交往消费、手机类消费、衣着 类消费、化妆品类消费、电脑类消费、旅游类消费占有较大的比例;而食品类消费、学习用品类消费不突显。为了 了解男、女生在消费支出结构上的差异,应当如何建立模型?
◆实质: 加法方式引入虚拟变量改变的是截距; 乘法方式引入虚拟变量改变的是斜率。
一、加法类型
以加法方式引入虚拟变量时,主要考虑的问题是定性因素的属 性和引入虚拟变量的个数。
◆分为四种情形讨论: (1)解释变量只有一个定性变量而无定量变量,而且定性变量 为两种相互排斥的属性; (2)解释变量分别为一个定性变量(两种属性)和一个定量解 释变量; (3)解释变量分别为一个定性变量(两种以上属性)和一个定 量解释变量; (4)解释变量分别为两个定性变量(各自分别是两种属性)和 一个定量解释变量。
D 1 i 0 : E Y i |X i , D 1 i 0 0 1 X i 农村
若在量化只有两个相互排斥属性的“居民属性”定性变量时,引入 m=2 个虚拟变量。
1 城 镇 居 民
1 农 村 居 民
D1i0 农 村 居 民
D2i 0 城 镇 居 民
模型为
Y i 0 1 X i 1 D 1 2 D 2 u i( 3 )
1、一个两种属性定性解释变量而无定量变量的情形
Yi f (Di ) i
例 1: Yi 0 1Di i
其
中
:
Di
1
0
男 女
E (Yi
/
Di
1)
(Biblioteka Baidu
0
)
1
男
E (Yi / Di 0) 0
女
Yi ( 0 1) i 男
Yi 0 i
女
( 比较的基础:女性);Y代表收入
2、一个定性解释变量(两种属性)和一个定量解释变量的情形
中、西部)、管理者的素质、不同的收入水平等是值得考虑的重要影响因素,但这些因素共同的特征是定性描述的。
面临的问题:在同时考虑定量和定性因素的条件下,依据现有的回归分析知识,如何对非定量因素进行回归分 析?
第一节 虚拟变量 一、基本概念 1、定量因素、定性因素 ◆ 定量因素:可直接测度、数值性的因素。 ◆ 定性(属性)因素:表示某种属性存在与否的非数值性因素. 2、虚拟变量的定义 ◆ 虚拟变量:取值为0、1的人工(特殊)变量 。 注:虚拟变量的同位语有:哑元变量、定性变量等等。通常用字母 D 或DUM加以表示(英文中虚拟或者哑元 Dummy的缩写)。
模 型 形 式Yif(D i, Xi)i 例 如 : Yi01D iXii
其 中 : D i 1 0
城 镇 农 村
(比 较 的 基 础 : 农 村 ) ;Yi代 表 消 费 支 出 ;X代 表 收 入