虚拟解释变量回归
虚拟变量回归模型
PART 07
虚拟变量回归模型的发展 趋势和未来展望
发展趋势
模型应用范围不断扩大
随着数据科学和统计学的发展,虚拟变量回归模型的应用范围不断扩大,不仅局限于传统的回归分析,还广泛应用于 分类、聚类、预测等领域。
模型复杂度不断提高
为了更好地处理复杂的数据结构和特征,虚拟变量回归模型的复杂度不断提高,出现了多种新型的模型,如集成学习 模型、深度学习模型等。
医学领域的应用
流行病学研究
在流行病学研究中,利用虚拟变量回归模型分析疾病发病率和死亡 率的影响因素,如年龄、性别、生活习惯等。
临床医学研究
在临床医学研究中,利用虚拟变量回归模型分析治疗效果的影响因 素,如治疗方案、患者特征、疾病严重程度等。
药物研究
在药物研究中,利用虚拟变量回归模型分析药物疗效的影响因素, 如药物剂量、给药方式、患者生理特征等。
模型解释性要求更高
随着人们对数据分析和模型结果的关注度提高,虚拟变量回归模型的解释性要求也更高,需要更加清晰、 直观地解释模型结果和变量之间的关系。
未来展望
模型可解释性研究
未来将更加注重虚拟变量回归模型的可解释性研究,以提高模型结果的透明度和可信度。
新型特征选择和降维技术
随着数据规模的扩大和特征维度的增加,未来将更加关注新型的特征选择和降维技术,以提取关 键特征并降低模型复杂度。
PART 01
引言
目的和背景
探索自变量与因变量之间的关系
虚拟变量回归模型主要用于探索自变量与因变量之间的数量关系,帮助我们理 解不同类别数据对结果的影响。
处理分类变量
当自变量是分类变量时,虚拟变量回归模型能够将这些分类变量转换为一系列 二进制(0和1)的虚拟变量,从而进行回归分析。
引入虚拟解释变量的两种基本方式
引入虚拟解释变量的两种基本方式
在统计学分析中,引入虚拟解释变量是一种常用的方式,它可以提高统计模型的精确性,减少错误。
虚拟解释变量是一种变量,它不能显示出主要变量之间的关系,而是用于捕捉模型中其他非线性变量的影响,以抵消其他变量可能引起的误差。
使用虚拟解释变量可以更好地预测数据,并且可以消除变量之间的联系,使模型更加准确。
在引入虚拟解释变量时,有两种基本方式可以使用,即直接编码和回归编码。
在直接编码中,变量是将数据集中的每个观察点映射到一个多维统计模型,该模型包含了所有解释变量可能表示的可能效果及其影响。
直接编码将每个观察点映射到单个结果,这就可以预测出每个观察点的结果,即回归结果。
回归编码的方法更加复杂,它使用一个多变量的回归模型来模仿虚拟变量的影响。
回归编码的模型包含多个变量,其中虚拟变量和其他变量的加权和的结果来决定回归因素的影响。
例如,如果虚拟变量叫做“货币”,而另一个变量叫做“国家”,它们之间可能存在某种关系,回归编码方法可以捕捉这种关系,可以更好地预测结果。
引入虚拟解释变量可以改善模型的准确性,减少输入变量和输出变量之间的错误。
使用虚拟解释变量可以解决许多模型中出现的数据失真问题,可以显著提高模型的准确性和可靠性。
当使用虚拟解释变量时,有两种基本的编码方式可以使用,分别为直接编码和回归编码,它们都为统计模型提供了有效的正确性。
- 1 -。
第八章-虚拟变量回归
1 高中 D2 0 其它
1 博士 D5 0 其它
1 大 学 D3 0 其 它
1 小 学 D6 0 其 它
则总体回归模型:
w 0 1 X 2 D1 3 D2 4 D3 5 D4 6 D5 7 D6+u
17
二、用虚拟变量测量斜率变动
基本思想
引入虚拟变量测量斜率变动,是在所设立的模型中,将虚 拟解释变量与其它解释变量的乘积,作为新的解释变量出 现在模型中,以达到其调整设定模型斜率系数的目的。
可能的情形:
(1)截距不变;
(2)截距和斜率均发生变化;
分析手段:仍然是条件期望。
18
(1)截距不变
模型形式:
意义:若α1显著,表明城市居民的平均人均可支配收入比农村 高α1元。但这种差异可能是由其它因素引起的,并不一定是由 户籍差异引起。
12
(2) 一个两属性定性解释变量和一个定量 解释变量
模型形式 Yi = f(Di,X i )+ μi 例如:Yi = 0 1 Di + X i + μi 1 城市 其中: Y-人均可支配收入;X-工作时间; Di 0 农村
会受到一些定性因素的影响,如性别、国籍、民族、自 然灾害和政治体制等。
问题:我们如何把这些定性想:将这些定性因素进行量化
由于定性变量通常表示某种属性是否存在,如是否男性、 是否经济特区、是否有色人和等。因此若该属性存在, 我们就将变量赋值为1,否则赋值为0,从而将定性因素 定量化。 计量经济学中,将取值为0和1的人工变量称为虚拟变量 (DUMMY)或哑元变量。通常用字母D或DUM表示。
7
一个例子(虚拟变量陷阱)
研究工资收入与学历之间的关系:
第七章 虚拟变量 虚拟变量回归模型ppt汇总 计量经济学
• 在回归分析中,被解释变量的影响因素 除了量(或定量)的因素还有质(或定 性)的因素,这些质的因素可能 会使回 归模型中的参数发生变化,为了估计质 的因素产生的影响,在模型中就需要引 入一种特殊的变量—虚拟变量。
2020/6/16
(二)作用
• 1、可以描述和测量定性(或属性)因素 的影响;
2、多个因素各两种属性
• 如果有m个定性因素,且每个因素各有两个不同的 属性类型,则引入m个虚拟变量。
• 例2
• 研究居民住房消费函数时,考虑到城乡差异和不同 收入层次的影响将消费函数设定为:
Yt=b0+b1Xt+a1D1t+ a2D2t+ μt
Yt=居民住房消费支出
Xt=居民可支配收入
1城镇居民
2020/6/16
虚拟变量对截距的影响
y
有适龄子女
b0
o
图1 虚拟变量对截距的影响
x
2020/6/16
2、乘法方式引入虚拟变量
• 基本思想:以乘法方式引入虚拟解释变量
,是在所设定的计量经济模型中,将虚拟 解释变量与其他解释变量相乘作为新 的解释变量,以达到其调整模型斜率的
目的。 • 该方式引入虚拟变量主要作用:
D=
0 无适龄子女
将家庭教育费用支出函数写成:Yt=b0+b1Xt+aDt+μt 即以加法形式引入虚拟变量。
2020/6/16
子女年龄结构不同的家庭教育 费用支出函数为:
• 无适龄子女家庭的教育费用支出函数(D=0 ):Yt=b0+b1Xt+μt
• 有适龄子女家庭的教育费用支出函数(D=1 ):Yt=(b0+a)+b1Xt+μt
虚拟变量回归
数据收集
收集不同市场细分群体的基本信息和 产品需求数据,如年龄、性别、收入、 消费习惯等。
变量设置
将市场细分变量转换为虚拟变量,并 引入到回归模型中。
结果分析
分析虚拟变量的系数和显著性,解释 其对产品需求的影响,为市场定位提 供依据。
案例三:教育程度与收入水平的关系研究
目的
研究教育程度对收入水平的影响,以及 不同教育程度对收入水平的差异。
虚拟变量可能依赖于某些自变量,需 要谨慎处理以避免多重共线性问题。
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
03
虚拟变量回归的模型构 建
线性回归模型
线性回归模型是最常用的回归分析方法之一,用 于探索自变量与因变量之间的线性关系。
在线性回归模型中,虚拟变量可以作为自变量引 入,以解释和预测因变量的变化。
变量设置
将教育程度转换为虚拟变量,并引入 到回归模型中。
数据收集
收集受访者的教育程度和收入水平数 据。
结果分析
分析虚拟变量的系数和显著性,解释 其对收入水平的影响,为职业规划和 教育投资提供参考。
案例四:健康状况与生活习惯的关系研究
目的
数据收集
研究生活习惯对健康状况的影响,以及不 同生活习惯对健康状况的差异。
虚拟变量回归的应用场景
1 2
社会科学研究
在社会科学研究中,经常需要研究分类变量对连 续变量的影响。例如,研究不同教育程度或不同 职业对收入的影响。
生物统计学
在生物统计学中,虚拟变量回归可用于研究基因 型、物种或地理区域等因素对连续变量的影响。
3
市场分析
在市场分析中,虚拟变量回归可用于研究不同产 品类别、品牌或市场细分对销售或其他连续变量 的影响。
解释变量包含虚拟变量的回归模型
(4) 11,且22 ,即两个回归完全不同,称为 相异回归(Dissimilar Regressions)。
平行回归
汇合回归
相异回归
能够利用邹氏构造变化旳检验。这一问题 也可经过引入乘法形式旳虚拟变量来处理。
• 为了在模型中能够反应这些原因旳影响,并提 升模型旳精度,需要将它们“量化”。
这种“量化”一般是经过引入“虚拟变量” 来完毕旳。根据这些原因旳属性类型,构造只取 “0”或“1”旳人工变量,一般称为虚拟变量 (dummy variables),记为D。
• 例如,反应文化程度旳虚拟变量来自取为:1, 本科学历 D=
90年前 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990
表 5.1.1
储蓄 281 399.5 523.7 675.4 892.5 1214.7 1622.6 2237.6 3073.3 3801.5 5146.9 7034.2
1979~2001 年中国居民储蓄与收入数据(亿元)
GNP
90年后
储蓄
4038.2
1991
9107
4517.8
1992
11545.4
4860.3
1993
14762.4
5301.8
1994
21518.8
5957.4
1995
29662.3
7206.7
1996
38520.8
8989.1
1997
46279.8
第五章 解释变量包括虚拟变量 旳回归模型
虚拟变量虚拟解释变量的回归虚拟被解释变量的回归
显然,在研究房地产价格影响机理时,需要分 析那些不易量化的定性因素对房地产价格是否 真的有显著影响。 能否把定性的因素也引入计量经济模型中呢? 怎样才能在模型中有效地表示这些定性因素的 作用呢?
1
问题的一般性描述
在前面各章的分析中,被解释变量主要是受可以直 接度量的定量因素的影响,如收入、产出、商品需 求量、价格、成本、资金、人数等。但现实经济生 活中,影响被解释变量变动的因素,除了可以直接 观测数据的定量变量外,可能还包括一些本质上为 定性因素的影响,例如性别、种族、职业、季节、 文化程度、战争、自然灾害、政府经济政策的变动 等。
则对任一家庭都有: D1 + D2 = 1 D1 + D2 - 1 = 0 ,
即产生完全共线,陷入了“虚拟变量陷阱”。
“虚拟变量陷阱”的实质是:完全多重共线性。
15
综上可知: 1.引入虚拟变量的个数与两个因素有关;一是定性 变量的属性多少,一是有无截距项; 2.对虚拟变量的运用要谨慎,虚拟变量的使用得当 常能发挥积极的作用,但在模型中引入虚拟变量的 数量要适当,引入的虚拟变量的数量过度,则可能 带来负面的影响。
10
例如,比较收入时考察性别的作用。当研究男性收入是否 高于女性时,是将女性作为比较的基础(参照物),故有 男性为“1”,女性为“0”。
例1
(1)
D
=
1 0
男 女
(2)
D
=
1 0
改革开放以后 改革开放以前
(3)
D1
=
1 0
天气阴 (4) 其他
D2
=
1 0
天气雨 其他
问题:
为何只选0、1,选2、3、4行吗?为什么?
16
第六章 虚拟变量的回归模型
在一元回归和多元回归分析中,被解释变量主 要受一个或多个可以度量的解释变量的影响,如 收入、价格、FDI等。但在现实的经济社会中,影 响被解释变量的因素除了可度量的之外,还有可 能受一些不可度量的因素的影响,如性别、战争、 政策、学历、职称等因素。有时候这些不可度量 的因素对被解释变量的影响又不可忽略,这时我 们需要引入虚拟变量来代替不可量化的因素。
一、虚拟变量的概念
1.影响因素 定量因素——定量变量,可以直接测量的数值型因素。
定性因素——定性变量,不能直接测量的,用来说明
某种属性或状态的非数值型因素。
2.虚拟变量——(dummy variable)是人工构造的取值为0或1的、 作为定性变量的代表变量。简写为D或DUM。 3、形式 1 , 表示某种属性或状态出现或存在,是 D= 0 , 表示某种属性或状态出现或存在,否
男教授的平均收入=a+b 女教授的平均收入=a 在eviews中用OLS估计回归系数,确定a、b
wage=18+3.28sex (57.7) (7.44) R2 =0.87, F=55.34
从回归分析结果得出的结论:
1、统计检验 1)拟合优度检验 R2 =0.87,说明所建模型整体上对样本数据拟合较好,即解释 变量性别对被解释变量收入的87%的差异作出了解释。 2)t检验 t(b)=7.44, p=0.0001,则拒绝原假设,表明性别对教授收入有 显著影响。 3)F检验 F=55.34,p=0,则拒绝原假设,表明该回归方程整体显著, 通过检验。 2、经济意义
二、虚拟变量模型
1、概念:把含有虚拟变量的模型称为虚拟变量模型。 2、常见的虚拟变量模型的种类
虚拟变量回归模型:计量经济学
对未来研究的展望
拓展模型应用领域
未来研究可以进一步拓展虚拟变 量回归模型的应用领域,如环境 经济学、劳动经济学、金融经济 学等,以更深入地揭示经济现象 背后的规律。
宏观经济学领域应用
经济增长研究
引入虚拟变量以刻画不同国家或地区的经济增 长模式,并分析各种因素对经济增长的贡献。
通货膨胀与货币政策研究
利用虚拟变量回归模型,探讨通货膨胀的成因、 传导机制及货币政策的效应。
国际贸易研究
通过构建虚拟变量,分析贸易自由化、关税壁垒等因素对国际贸易流量的影响。
金融学领域应用
线性问题,影响模型的稳定性和解释性。
预测能力有限
03
对于具有复杂关系的数据,虚拟变量回归模型可能无法提供准
确的预测。
与其他模型的比较
01
与线性回归模型的比较
虚拟变量回归模型是线性回归模型的一种扩展,通过引入 虚拟变量来处理分类变量。线性回归模型则主要关注连续 变量的影响。
02 03
与逻辑回归模型的比引言 • 虚拟变量回归模型基本原理 • 虚拟变量回归模型应用举例 • 虚拟变量回归模型优缺点分析 • 虚拟变量回归模型在实证研究中的应用 • 虚拟变量回归模型的发展趋势和前景
01 引言
计量经济学简介
1 2
计量经济学定义
计量经济学是应用数学、统计学和经济学方法, 对经济现象进行定量分析的学科。
完善模型理论和方法
在模型理论和方法方面,未来研 究可以进一步完善虚拟变量回归 模型的理论基础和方法体系,提 高模型的解释力和预测能力。
虚拟变量回归
虚拟变量回归
虚拟变量回归是指将一个分类变量转化为虚拟变量(也称为哑变量或指示变量),并将其作为解释变量在回归模型中使用。
虚拟变量是一种二元变量,其中一个变量用1表示某个类别,另一个变量用0表示不属于该类别。
例如,当一个分类变量有三个类别时,可以创建两个虚拟变量来表示这三个类别,分别是0-1变量A和0-1变量B,它们满足如下条件:
- 当分类变量属于A类时,变量A为1,变量B为0;
- 当分类变量属于B类时,变量A为0,变量B为1;
- 当分类变量属于C类时,变量A和变量B均为0。
在回归模型中使用虚拟变量可以使我们将分类变量的不同类别彼此对比,并推断它们对应的不同的回归系数,从而更好地解释和预测因变量。
虚拟变量回归在经济学、社会学、医疗保健等领域中很常见,可以用来研究诸如性别、种族、政治党派、行业等分类变量对某一因变量的影响。
第八章虚拟解释变量回归
第八章虚拟解释变量回归第一节虚拟变量一、虚拟变量的差不多概念在前面的分析中,被说明变量要紧受到一些能够直截了当度量的变量阻碍,如收入、产出、商品需求量、价格、成本、资金、人数等。
但现实经济生活中,阻碍被说明变量变动的因素,除了这些能够直截了当获得实际观测数据的定量变量外,还包括一些本质上为定性因素(或称属性因素)的阻碍,例如性别、种族、肤色、职业、季节、文化程度、战争、自然灾难、政府经济政策的变动等因素。
在实际经济分析中,这些定性变量有时具有不可忽视的重要阻碍。
例如,研究某个企业的销售水平,产业部门(制造业、零售业)、所有制(私营、非私营)、地理位置(东、中、西部)、治理者素养的高低等是值得经常考虑的阻碍因素,这些因素有共同的特点,即差不多上表示某种属性的,不能直截了当用数据精确描述的因素。
因此,被说明变量的变动经常是定量因素和属性因素共同作用的结果。
在计量经济模型中,应当同时包含定量和属性两种因素对被说明变量的阻碍作用。
定量因素是指那些可直截了当测度的数值型因素,如GDP、M2等。
定性因素,或称为属性因素,是不能直截了当测度的、说明某种属性或状态存在与否的非数值型因素,如男性或女性、都市居民或非都市居民、气候条件正常或专门、政府经济政策不变与改革等。
在计量经济学的建模中应当将定量因素和定性因素同时纳入模型之内。
为了在模型中反映定性因素,能够将定性因素转化为虚拟变量去表现。
虚拟变量(或称为属性变量、双值变量、类型变量、定性变量、二元型变量等),是人工构造的取值为0和1的作为属性变量代表的变量,一样用字母D(或DUM,英文dummy的缩写)表示。
属性因素通常具有若干类型或水平,通常虚拟变量的取值为0和1,当虚拟变量取值为0,即D=0时,表示某种属性或状态不显现或不存在,即不是某种类型;当虚拟变量取值为1,即D=1时,表示某种属性或状态显现或存在,即是某种类型。
例如,构造政府经济政策人工变量,当经济政策不变时,虚拟变量取值为0,当经济政策改变时,虚拟变量取值为1。
3-2虚拟变量的回归
大学及其以上: E(Yi | X i , D1 0, D2 1) ( 0 3 ) 1 X i假定3>2>0
保健
其几何意义:
支出
3 2
0
大学教育 高中教育 低于高中教育
收入
3.模型中包含二个定性变量
• 例如,在上述职工薪金模型中,再引入代表学历的虚拟变量D2。
1 本科及以上学历
D2
0
本科以下学历
• 男职工的平均薪金为: E(Yi | Xi , Di 1) (0 2 ) 1Xi
• 假定2>0,则两个函数有相同的斜率,但有不同的截距。意即, 男女职工平均薪金对教龄的变化率是一样的,但两者的平均薪金 水平相差2。
• 可以通过传统的回归检验,对2的统计显著性进行检验,以判断 企业男女职工的平均薪金水平是否有显著差异。
• 斜率的变化可通过以乘法的方式引入虚拟变量来测度。
例:根据消费理论,消费水平(C)主要取决于收入水平(Y),但在一个较长的时
期,人们的边际消费倾向会发生变化,尤其是在自然灾害、战争等反常年份, 边际消费倾向往往出现变化。
这种边际消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。
1 正常年份
设
重合回归
平行回归
同截距回归
不同的回归
思考:当我们运用样本数据对金融危机前后两个消费模型进行回归后,如何界定所得结果在
统计意义上属于哪一种类型呢? • 这时可采用以乘法形式引入虚拟变量。例如,对于金融危机前后消费—收入模型,可设
定为:
• 假设: E(t)= 0,上述模型所表示的函数可化为:
2.交互效应分析
Yi 0 1 X i 2 D1 3 D2 i
在 E(i)=0 的初始假定下,高中以下、高中、大学及其以上教育水平
stata虚拟变量的回归命令
stata虚拟变量的回归命令虚拟变量是用来表示分类变量的一种方法,它可以将分类变量转换为一系列二进制变量,每个二进制变量表示分类变量的一个类别。
这样,就可以使用回归模型来分析分类变量对因变量的影响。
stata中有多个回归命令可以用于分析虚拟变量,包括:•regress:这是最基本的回归命令,可以用于分析连续因变量和分类自变量之间的关系。
•logit:这是一个非线性回归命令,可以用于分析二分类因变量和分类自变量之间的关系。
•probit:这是一个非线性回归命令,可以用于分析二分类因变量和分类自变量之间的关系。
•poisson:这是一个非线性回归命令,可以用于分析计数因变量和分类自变量之间的关系。
在stata中使用虚拟变量回归命令时,需要特别注意以下几点:•虚拟变量的个数:分类变量的类别数决定了虚拟变量的个数。
例如,一个有3个类别的分类变量需要创建2个虚拟变量。
•虚拟变量的取值:虚拟变量的取值为0或1,其中0表示分类变量不属于该类别,1表示分类变量属于该类别。
•虚拟变量的解释:虚拟变量的系数表示分类变量的每个类别对因变量的影响。
例如,一个虚拟变量的系数为正,表示该类别对因变量有正向影响;一个虚拟变量的系数为负,表示该类别对因变量有负向影响。
下面是一个stata虚拟变量回归命令的例子:regress y x1 x2 x3logistic y x1 x2 x3poisson y x1 x2 x3在这个例子中,y是因变量,x1、x2和x3是分类自变量。
regress命令用于分析y和x1、x2、x3之间的线性关系,logistic命令用于分析y和x1、x2、x3之间的非线性关系,poisson命令用于分析y和x1、x2、x3之间的非线性关系。
虚拟变量回归命令是stata中非常重要的一个工具,它可以用于分析分类变量对因变量的影响。
在使用虚拟变量回归命令时,需要特别注意虚拟变量的个数、虚拟变量的取值和虚拟变量的解释。
stata虚拟变量解释
在 Stata 中,虚拟变量(Dummy Variable)通常用于表示一个分类变量的不同水平(categories)或组。
虚拟变量是二进制的,通常被用来在回归等分析中引入分类变量的效应。
下面是关于 Stata 中虚拟变量的解释:创建虚拟变量:在 Stata 中,可以使用tabulate命令创建虚拟变量。
假设有一个名为category的分类变量,可以使用以下命令创建虚拟变量:这将为category变量的每个水平生成一个虚拟变量,变量名为dummy后加上水平的标签。
虚拟变量的解释:虚拟变量通常用于回归分析中,以表示分类变量的不同水平对因变量的影响。
例如,在一个回归模型中:其中,i.category表示将category变量转换为虚拟变量。
回归模型会为category中的每个水平引入一个虚拟变量,并拟合模型。
虚拟变量的效应:1.截距项:虚拟变量的一个水平通常被视为截距项。
其他虚拟变量的系数表示相对于这个水平的效应。
2.系数解释:虚拟变量的系数表示相对于参考水平的平均因变量的变化。
例如,如果有一个名为dummy_category的虚拟变量,其系数为 0.5,则表示相对于参考水平,该分类变量的这个水平平均因变量增加了 0.5。
注意事项:1.多重共线性:当引入虚拟变量时,需要注意多重共线性问题。
由于虚拟变量之间存在线性相关性,可能导致方差膨胀因子(VIF)较高。
2.虚拟变量陷阱:在使用虚拟变量时,要避免虚拟变量陷阱,即变量之间存在完全的线性相关性。
通常,可以通过将虚拟变量中的一个去掉来避免陷阱。
总体来说,虚拟变量是 Stata 中用于表示分类变量的一种常见方式,通过在回归分析中引入虚拟变量,可以更好地理解分类变量的效应。
虚拟变量的回归分析
哑变量赋值的操作
所有EDU=0 EDU2=1,其他EDU=0 EDU3=1,其他EDU=0 EDU4=1,其他EDU=0 EDU5=1,其他EDU=0 AREA=1
AREA=0
精品课件
应用SPSS建立回归方程
回归结果:
精品课件
SPSS输出结果
M od e l Summary
Model 1
AdjustedStd. Err or of
6
3.098 32.759
Sig. .000a
Residual .851
9
.095
Total 19.438
15
a.Predictors: (Constant) , AREA, ED 3, 年 龄 , ED2, ED 4,
b.Dependent Var iable: 生 子 女 数
精品课件
SPSS输出结果
Coef fic ientas
Unstandardized Standardized Coefficients Coefficients
Mo de l
B) 1.409
.6 82
年龄
.0 68
.0 13
Be ta .5 69
ED2
-1 .1 27
.2 95
-. 39 9
R R SquareR Squartehe Estimate
.978a
.956
.927
.30751
a.Pr edict ors: ( Co nstant), AREA, ED3, 年 龄 , E ED5
ANOVbA
Sum of
Model
Squares
1
Regress1io8n.586
古扎拉蒂《计量经济学基础》第9章
虚拟变量数量的设置规则
1.若定性因素具有m(m≥2)个相互排斥
属性(或几个水平),当回归模型有截距项时, 只能引入m-1个虚拟变量;
2.当回归模型无截距项时,则可引入m个 虚拟变量;否则,就会陷入“虚拟变量陷阱”。 (为什么?)
若对两个相互排斥的属性 “性别属性”, 仍然引入m=2个虚拟变量,则有
E Yi | Di = 0 = 0
Yi ( 0 1) i 女 性
Yi 0 i
男性
(2)一个定性解释变量(两种属性)和一
个定量解释变量的情形
模型形式 Yi = f(Di,Xi )+μi 0 1Di
例如:Yi =0 1Di +Xi +μi
其中:Y-支出;X-收入;
Di
1 0
女性 支出
例:比较改革开放前、后我国居民(平 均)“储蓄-收入”总量关系是否发生了变 化?模型的设定形式为:
Yt 1 2 Dt 1X t 2 (Dt X t ) ut
其中 : Yt为储蓄总额,X t为收入总额。
D
1
0
改革开放后 改革开放前
回归方程:
改革开放后 EYt | Xt , D 1 (1 2)(1 2)Xt 改革开放前 EYt | Xt , D 0 1 1Xt
夏季、农村居民
E Yi | X i ,D1 = 1, D2 = 0 =( 0 + 1)+ X i
冬季、城市居民
E Yi | X i , D1 0, D2 1 (0 2 )+ X i
冬季、农村居民
E Yi | X i , D1 0, D2 0 0 X i
Y
D1 1,D2 1
基准:四季度
(4)两个定性解释变量(均为两种属性) 和一个定量解释变量的情形
虚拟变量与面板数据回归模型
• 农村家庭平均消费支出:
E Yi | Xi , Di 0 1 1 Xi
式中 2 和 2 分别表示城镇居民家庭不农村居民家庭的 消费函数在戔距和斜率上的差异。 2 称为级差斜率系 数。
性发量有 m个类别,则仅引入m-1 个虚拟发量。但如果 回归模型中丌含戔距项, 则m种特征需引入m个虚拟发 量。 如果我们丌遵从这一觃则,则有落入虚拟发量陷 阱乊虞。 •
《经济计量学》高等院校统计学精品教材 2014
9
第一节 虚拟解释变量回归模型
• 1、虚拟解释变量回归模型的类型 • (2) 以“0”和“1”为叏值的虚拟发量所反映的内
• 在经济关系中常有这样的现象:当解释发量X的值达到
某一门槛值 X 乊前,不被解释发量Y 存在某种线性 关系;当达到 X 乊后,不被解释发量Y 的关系就会収 生发化。此时,如果门槛值 X 已知,我们就可以用
虚拟发量来估计每段的斜率,这就是所谓的分段线性 回归。
•
《经济计量学》高等院校统计学精品教材 2014
21
第一节 虚拟解释变量回归模型
• 2、虚拟解释变量回归模型的应用 • 设某公司对其销售人员在销售额的基础上按如下斱式
支付佣金:在销售额达到目标戒门槛水平 X 前采叏 一种佣金结构,超过水平 X 后又是另一种佣金结构。
这里把影响销售佣金的其他因素由随机干扰项代表。 •
《经济计量学》高等院校统计学精品教材 2014
Yi 1 2 Di2 3Di3 Xi ui • 其中 Yi =大学教授薪金; X i =教龄;
•
1 男
D2 0 女
1 白色 D3 0 其他
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
虚拟变量回归第一节虚拟变量一、虚拟变量的基本概念在前面的分析中,被解释变量主要受到一些可以直接度量的变量影响,如收入、产出、商品需求量、价格、成本、资金、人数等。
但现实经济生活中,影响被解释变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些本质上为定性因素(或称属性因素)的影响,例如性别、种族、肤色、职业、季节、文化程度、战争、自然灾害、政府经济政策的变动等因素。
在实际经济分析中,这些定性变量有时具有不可忽视的重要影响。
例如,研究某个企业的销售水平,产业部门(制造业、零售业)、所有制(私营、非私营)、地理位置(东、中、西部)、管理者素质的高低等是值得经常考虑的影响因素,这些因素有共同的特征,即都是表示某种属性的,不能直接用数据精确描述的因素。
因此,被解释变量的变动经常是定量因素和属性因素共同作用的结果。
在计量经济模型中,应当同时包含定量和属性两种因素对被解释变量的影响作用。
定量因素是指那些可直接测度的数值型因素,如GDP、M2等。
定性因素,或称为属性因素,是不能直接测度的、说明某种属性或状态存在与否的非数值型因素,如男性或女性、城市居民或非城市居民、气候条件正常或异常、政府经济政策不变与改革等。
在计量经济学的建模中应当将定量因素和定性因素同时纳入模型之内。
为了在模型中反映定性因素,可以将定性因素转化为虚拟变量去表现。
虚拟变量(或称为属性变量、双值变量、类型变量、定性变量、二元型变量等),是人工构造的取值为0和1的作为属性变量代表的变量,一般用字母D(或DUM,英文dummy的缩写)表示。
属性因素通常具有若干类型或水平,通常虚拟变量的取值为0和1,当虚拟变量取值为0,即D=0时,表示某种属性或状态不出现或不存在,即不是某种类型;当虚拟变量取值为1,即D=1时,表示某种属性或状态出现或存在,即是某种类型。
例如,构造政府经济政策人工变量,当经济政策不变时,虚拟变量取值为0,当经济政策改变时,虚拟变量取值为1。
这种做法实际上是一种变换或映射,将不能精确计量的定性因素的水平或状态变换为用0 和 1 来定量描述。
二、虚拟变量的设置规则在计量经济学模型中引入虚拟变量,可以使我们同时兼顾定量因素和定性因素的影响和作用。
但是,在设置虚拟变量时应遵循一定的规则。
1、虚拟变量数量的设置规则虚拟变量个数的设置规则是:若定性因素有m个相互排斥的类型(或属性、水平),在有截距项的模型中只能引入m-1个虚拟变量,否则会陷入所谓“虚拟变量陷阱”,产生完全的多重共线性。
在无截距项的模型中,定性因素有m个相互排斥的类型时,引入m个虚拟变量不会导致完全多重共线性,不过这时虚拟变量参数的估计结果,实际上是D=1时的样本均值。
例如,城镇居民和农村居民住房消费支出的模型可设定为:i i i i u D Y C +++=21αβα (8.1)其中,i C 为居民的住房消费支出,i Y 为居民的可支配收入,i D 为虚拟变量,10i D ⎧=⎨⎩城镇居民其他,即当1=i D 时为城镇居民;当0=i D 时为其他(农村居民)。
这里区分城镇居民和农村居民的定性变量的类型有m=2个,按虚拟变量的设置规则应引入m -1=2-1=1个虚拟变量。
但是,如果引入了m=2个虚假变量:210i D ⎧=⎨⎩城镇居民其他 , 310i D ⎧=⎨⎩农村居民其他, 则有:i i i i i u D D Y C ++++=33221ααβα (8.2)这时,当i D 2=1时同时有i D 3=0;反之,当i D 2=0时有i D 3=1。
即对于任何被调查的居民家庭都有i D 2+i D 3=1,2D 和3D 存在完全的共线性,无法利用OLS 估计其参数,从而陷入“虚拟变量陷阱”。
由此,所谓的“虚拟变量陷阱”的实质是出现完全多重共线性。
可见,虚拟变量有其积极作用的一面,也有不良影响的一面,引入的虚拟变量适当,则发挥了积极的作用,引入的虚拟变量过度,则会带来负面的影响。
2、虚拟变量的“0”和“1”的选取原则虚拟变量取“1”或“0”的原则,应从分析问题的目的出发予以界定。
从理论上讲,虚拟变量取“0”值通常代表为比较的基础类型;而虚拟变量取“1”值通常代表为被比较的类型。
例如,引入政府经济政策的变动对被解释变量的影响时,由于此时的比较是在政府经济政策不变的基础上进行的,故虚拟变量确定为:1:0:t D ⎧=⎨⎩基础类型政府经济政策变动比较类型政府经济政策不变 三、虚拟变量的作用在计量经济模型中,虚拟变量可以发挥多方面的作用:(1)可以作为属性因素的代表,如性别、所有制等;(2)作为某些非精确计量的数量因素的代表,如受教育程度、管理者素质等;(3)作为某些偶然因素或政策因素的代表,如战争、灾害、改革前后等;(4)还可以作为时间序列分析中季节(月份)的代表;(5)可以实现分段回归,研究斜率、截距的变动,或比较两个回归模型的结构差异。
在计量经济学中,把包含有虚拟变量的模型称为虚拟变量模型。
常用的虚拟变量模型有三种类型:(1)解释变量中只包含虚拟变量,作用是在假定其他因素都不变时,只研究定性变量是否使被解释变量表现出显著差异;(2)解释变量中既含定量变量,又含虚拟变量,研究定量变量和虚拟变量同时对被解释变量的影响;(3)被解释变量本身为虚拟变量的模型,是被解释变量本身取值为0或1的模型,适于对某社会经济现象进行“是”与“否”的判断研究。
特别要注意的是,定型或属性变量,通常由1个以上的虚拟变量描述。
例如,分析考证区域这样一个定性因素的影响时,若将区域因素划分为东、中、西三种属性时,在有截距项的回归模型中,只能引人2个虚拟变量,而这两个虚拟变量只是描述了1个定性因素(区域因素),而不是2个定性因素。
当然,当定性因素为性别因素时,1个虚拟变量就描述了1个定性因素。
第二节 虚拟解释变量的回归在计量经济模型中,加入虚拟解释变量的途径有两种基本类型:一是加法类型;二是乘法类型。
不同的途径引入虚拟变量有不同的作用,加法方式引入虚拟变量改变的是截距;乘法方式引入虚拟变量改变的是斜率。
一、用虚拟变量表示不同截矩的回归——加法类型以加法类型引入虚拟解释变量的模型,如(8.3)式那样,123t t t Y X D u ααα=+++ (8.3)在(8.3)所设定的计量经济模型中,虚拟解释变量与其他解释变量是相加关系。
以加法形式引入虚拟解释变量,从计量经济模型的意义看,其作用是改变了设定模型的截距水平。
以加法方式引入虚拟变量时,分为四种情形:(1)解释变量只有一个分为两种相互排斥类型的定性变量而无定量变量;(2)解释变量包含一个定量变量和一个分为两种类型的定性变量;(3)解释变量包含一个定量变量和一个两种以上类型的定性变量;(4)解释变量包含一个定量变量和两个定性变量。
1、解释变量只有一个分为两种相互排斥类型的定性变量而无定量变量的回归这种情况的模型又被称为方差分析模型,例如(8.4)式i i i u D Y ++=βα(8.4)其中,i Y 为居民的年可支配收入,i D 为虚拟解释变量,i D =1代表城镇居民;i D =0代表非城镇居民。
(8.4)式的意义是,假设其他因素(包括文化程度、职业、性别等)保持不变的条件下,研究城镇居民和非城镇居民的收入是否存在差别。
当i u 满足古典假设时,由式(8.4)有:非城镇居民的年平均收入:α==)0|(i i D Y E (8.5)城镇居民的年平均收入: βα+==)1|(i i D Y E (8.6)即在(8.4)式中,截距项α给出了非城镇居民的年平均可支配收入水平,而另一系数β则表明城镇居民年平均可支配水平不同于非城镇居民年平均可支配收入的部分。
由式(8.5)和(8.6)可知,虚拟解释变量的作用是改变设定模型的截距水平。
为了检验城镇居民和非城镇居民的年均可支配收入是否有显著差别,可构造假设H 0:0=β,即城镇与非城镇居民年均可支配收入无差别。
对式(8.4)回归,依据β估计值的t 检验是否显著,可作出接受或不能接受H 0假设的判断。
2、解释变量包含一个定量变量和一个分为两种类型定性变量的回归例如 12i i i i Y D X ααβμ=+++ (8.7)1:0i Y X D ⎧=⎨⎩城镇居民其中:消费支出;:收入;农村居民模型(8.7)的意义在于描述收入和城乡差别对居民消费支出的影响。
(8.7)式由一个定量解释变量X 和一个分为两种类型的虚拟解释变量组成。
注意这里一个定性变量具有两种类型,只使用了一个虚拟变量。
当(8.7)式中的i u 服从古典假定时,有:基础类型:()1|,0i i i i E Y X D X αβ==+农村居民消费支出: (8.8) 比较类型:()12|,1i i i i E Y X D X ααβ==++城镇居民消费支出:() (8.9) 其中1α为差异截距系数。
(8.7)式可图示为8.1,表明非城镇居民与城镇居民两种类型收入函数的斜率相同(均为β),而截距水平不同。
这说明,城镇居民和非城镇居民在消费支出水平上,存在着规模为1α的差异,而由收入因素而产生的平均消费支出水平变化却是相同的。
图8.1 城镇农村居民消费支出水平的差异在0:10=αH 的假设下,对参数1α估计值的t 检验,可以进行消费支出是否存在城乡差异的检验。
3、解释变量包含一个定量变量和一个两种以上类型的定性变量的回归考虑以下模型:i i i i i u X D D Y ++++=βααα33221(8.10)其中:i Y 为年医疗保健费用支出,i X 为居民的年可支配收入,210D ⎧=⎨⎩高中及高中教育以上其他,310D ⎧=⎨⎩大专及大专以上其他 0X 1 2a显然,模型(8.9)是描述居民的年医疗保健费用支出与居民可支配收入(定量变量)和受教育程度(定性变量)间的因果关系。
这里,定性因素(受教育的程度)划分为三种类型;高中以下、高中、大专及大专以上。
注意这里的定性变量有3种类型,依据虚拟变量设置规则引入了m -1=3-1=2个虚拟变量,而且一个定性变量多种类型时,虚拟变量可同时取值为0,但不能同时取值为1,因为同一定性变量的各种类型间“非此即彼”。
当式(8.10)服从古典假定时,有:基础类型:高中以下教育:1132)0,0,|(X D D X Y E i i βα+=== (8.11) 比较类型:高中教育: i i i X D D X Y E βαα++===)()0,1,|(2132 (8.12)大专及大专以上:i i i X D D X Y E βαα++===)()1,0,|(3132 (8.13)这表明,三种不同教育程度居民的医疗保健费用年均支出的起点水平(截距)不同,差异截距系数为2α和3α。