第八章虚拟变量回归new
虚拟变量回归课件
虚拟变量回归面临的问题
在进行虚拟变量回归时,我们可能会面临多重共线性问题。为了解决这个问 题,我们将介绍哑变量陷阱和特征选 收集数据 2. 对数据进行预处理 3. 分析数据 4. 建立模型 5. 模型的评估与优化
虚拟变量回归
通过介绍虚拟变量回归,我们将探讨其概念、作用以及应用。还将讨论面临 的问题和解决方法,以及如何进行虚拟变量回归并提高模型精度。
什么是虚拟变量回归
虚拟变量回归是一种统计方法,用于处理具有分类特征或非数字特征的数据。 它将非数字变量转换为二元变量,以便在回归模型中使用。
虚拟变量回归的应用
总结
虚拟变量回归具有自身的优点和局限性。我们将总结这些,并探讨未来的发 展方向。最后,我们将分享一些提高模型精度的技巧和建议。
第八章 包含虚拟变量的回归模型
第八章 包含虚拟变量的回归模型一、虚拟变量的基本含义通常在回归分析中,因变量不仅受一些定量变量的影响,而且还受一些定性变量的影响,比如性别、种族、婚姻状况等等。
为了在模型中反映这些因素的影响,需要把定性因素进行“量化”。
通常是引进人工变量完成。
通过定性因素的属性类别,构造取值为0或者1的变量,如、 1代表男性, 0代表女性; 1代表某人是大学毕业, 0代表某人不是大学毕业,这类取值为0,1的变量称为虚拟变量(dummy variable )。
虚拟变量与定量变量一样可用于回归分析。
事实上,一个回归模型的解释变量可以仅仅是虚拟变量。
解释变量仅是虚拟变量的模型称为方差分析模型( analysis-of-variance models ) (ANOVA)。
例1:1i i Y D i βα=++ε,其中Y 表示职工工资,。
10i D ⎧=⎨⎩,本科学历,非本科学历这个模型与我们前面讨论过的双变量模型类似,但这里的解释变量是虚拟变量。
1(0)i E Y D β==,1(1)i E Y D βα==+显然,1β表示非大学毕业生的平均初职年薪,1βα+表示具有大学学历职工的平均工资,α代表二者之差。
回归模型中可以有同时有虚拟变量以及定量变量。
例2:考虑是否上过大学和工龄作为职工工资的模型:12i i i Y X D i ββαε=+++Y ,表示职工工资,X表示工龄,D同上。
含虚拟变量的模型只要扰动项符合古典假定,仍用OLS方法估计模型。
注意:虚拟变量系数显著性检验的意义::0H 0α=;:1H 0α≠。
同学们思考:这个检验在上面两个例子中分别具有何实际意义?二、虚拟变量的引入模型的方式 1、加法方式上面考察的例子都是加法方式。
注意虚拟变量模型的几何意义:以上述例2考察。
例3:如果上述职工工资方程(例2)中,学历考虑三个层次:高中以下、高中、大学及以上。
该如何建模?引进两个虚拟变量:,1 1 0 D ⎧=⎨⎩高中其他2 1 0 D ⎧=⎨⎩大学及以上其他121222Y X D D ββαα=++++ε请同学们分析模型的含义。
第八章-虚拟变量回归
1 高中 D2 0 其它
1 博士 D5 0 其它
1 大 学 D3 0 其 它
1 小 学 D6 0 其 它
则总体回归模型:
w 0 1 X 2 D1 3 D2 4 D3 5 D4 6 D5 7 D6+u
17
二、用虚拟变量测量斜率变动
基本思想
引入虚拟变量测量斜率变动,是在所设立的模型中,将虚 拟解释变量与其它解释变量的乘积,作为新的解释变量出 现在模型中,以达到其调整设定模型斜率系数的目的。
可能的情形:
(1)截距不变;
(2)截距和斜率均发生变化;
分析手段:仍然是条件期望。
18
(1)截距不变
模型形式:
意义:若α1显著,表明城市居民的平均人均可支配收入比农村 高α1元。但这种差异可能是由其它因素引起的,并不一定是由 户籍差异引起。
12
(2) 一个两属性定性解释变量和一个定量 解释变量
模型形式 Yi = f(Di,X i )+ μi 例如:Yi = 0 1 Di + X i + μi 1 城市 其中: Y-人均可支配收入;X-工作时间; Di 0 农村
会受到一些定性因素的影响,如性别、国籍、民族、自 然灾害和政治体制等。
问题:我们如何把这些定性想:将这些定性因素进行量化
由于定性变量通常表示某种属性是否存在,如是否男性、 是否经济特区、是否有色人和等。因此若该属性存在, 我们就将变量赋值为1,否则赋值为0,从而将定性因素 定量化。 计量经济学中,将取值为0和1的人工变量称为虚拟变量 (DUMMY)或哑元变量。通常用字母D或DUM表示。
7
一个例子(虚拟变量陷阱)
研究工资收入与学历之间的关系:
虚拟变量回归
数据收集
收集不同市场细分群体的基本信息和 产品需求数据,如年龄、性别、收入、 消费习惯等。
变量设置
将市场细分变量转换为虚拟变量,并 引入到回归模型中。
结果分析
分析虚拟变量的系数和显著性,解释 其对产品需求的影响,为市场定位提 供依据。
案例三:教育程度与收入水平的关系研究
目的
研究教育程度对收入水平的影响,以及 不同教育程度对收入水平的差异。
虚拟变量可能依赖于某些自变量,需 要谨慎处理以避免多重共线性问题。
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
03
虚拟变量回归的模型构 建
线性回归模型
线性回归模型是最常用的回归分析方法之一,用 于探索自变量与因变量之间的线性关系。
在线性回归模型中,虚拟变量可以作为自变量引 入,以解释和预测因变量的变化。
变量设置
将教育程度转换为虚拟变量,并引入 到回归模型中。
数据收集
收集受访者的教育程度和收入水平数 据。
结果分析
分析虚拟变量的系数和显著性,解释 其对收入水平的影响,为职业规划和 教育投资提供参考。
案例四:健康状况与生活习惯的关系研究
目的
数据收集
研究生活习惯对健康状况的影响,以及不 同生活习惯对健康状况的差异。
虚拟变量回归的应用场景
1 2
社会科学研究
在社会科学研究中,经常需要研究分类变量对连 续变量的影响。例如,研究不同教育程度或不同 职业对收入的影响。
生物统计学
在生物统计学中,虚拟变量回归可用于研究基因 型、物种或地理区域等因素对连续变量的影响。
3
市场分析
在市场分析中,虚拟变量回归可用于研究不同产 品类别、品牌或市场细分对销售或其他连续变量 的影响。
8第八章包含虚拟变量的回归
c1D1 +c2 D2+ c3 D3
引入二个虚拟变量
D1=1,大学;=0,其他 D2=1,中学;=0,其他
Y=b0+b1 X1 +
c1D1 +c2 D2
2、模型中一个定性变量,该变量 具有多种分类,p218
即多分定性变量 假定根据横截面数据,我们做个人旅游支 出Y对其收入X和学历的回归,学历这个定 性变量,可分为:
中学以下、中学、大学三个层次,
如何设置虚拟变量?
我们有如下选择
引入一个虚拟变量D 引入三个虚拟变量
D= 2,大学;=1,中学;=0,中学以下 回归方程为:Y=b0+b1 X1 +b2 D
这里有两个两分定性变量,肤色和种族 可引入两个虚拟变量
例-性别、肤色和工龄、学历(3种类型) 一起解释薪酬
性别、肤色分别引入2个虚拟变量,学历引入2
个虚拟变量
例题
P221 10-18:性别、种族对收入的影响
Y-小时工资,X-教育年限 D2-=1(女性);=0(男性) D3-=1(非白种人且非西班牙裔);=0(其 他) Y^=-0.26-2.36 D2-1.73 D3+0.80X 总结:每个定性变量所需引入的虚拟变量 比该变量类型数少一。 返回
对于方程10-18 ,其样本回归线
Y^=-0.26-2.36 D2-1.73 D3+0.80X,隐含假定
了不同性别下,种族变量对收入的影响是一样 的。同样的,不同种族下,性别变量对收入的 影响也是相同的。
计量经济学第八章 虚拟变量回归
第八章
虚拟变量回归
1
第八章 虚拟变量回归
本章主要讨论:
●虚拟变量
●虚拟解释变量的回归
2
本章的教学目标
(1)深刻理解定性因素在计量经济分析中的 背景和含义; (2)明确虚拟变量在建立和估计计量经济模 型中的意义和作用; (3)熟练掌握引入和应用虚拟变量的基本思 想和方法; (4)能够运用虚拟变量模型作相应的经济实 证分析方面的应用; (5)掌握Eviews软件中相关内容的操作方法。
这表明三个时期居民储蓄增加额的回归方程在统计 意义上确实是不相同的。1996年以前收入每增加1 亿元,居民储蓄存款的平均增加0.1445亿元;在 2000年以后,则为0.4133亿元,已发生了很大变化。
20
上述模型与城乡居民储蓄存款与国民总收入之间 的散布图是吻合的,与当时中国的实际经济运行 状况也是相符的。 需要指出的是,在上述建模过程中,主要是从教 学的目的出发运用虚拟变量法则,没有考虑通货 膨胀因素。而在实证分析中,储蓄函数还应当考
单位:亿元
城乡居民 人民币储 蓄存款增 额 (YY) 2121.8 2517.8 3444.1 6315.3 8143.5 8858.5
年 份
城乡居民 国民总收 人民币储 蓄存款年 入 (GNI) 底余额 (Y) 3624.1 4038.2 4517.8 4860.3 5301.8 5957.4 210.6 281 399.5 532.7 675.4 892.5
(1,0) 天气阴 如:(D1 ,D2)= (0,1) 天气雨 (0,0) 其 他
29
虚拟变量数量的设置规则
1.若定性因素具有 m 个 (m 2) 相互排斥属性(或 几个水平),当回归模型有截距项时,只能引入
9第八章 虚拟变量回归模型
Logit 模型的估计
区分两类数据:
(1)个体水平数据
购房概率 p 0 0 1 1
收入 X(千美元) 6 8 10 12
如果
pi
0,
Zi
ln
0 1
pi
1,
Zi
ln
1 0
可见,Z 表达式无意义,无法用OLS,需用ML(最大似然法)
冰箱销售量(千台) FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269
耐用品支出(10亿美元) DUR 252.6 272.4 270.9 273.9 268.9 262.9 270.9 263.4 260.6 231.9 242.7 248.6 258.7 248.4 255.5 240.4 247.7 249.1 251.8
4 回归分析操作命令: equation eq.ls Frig c Dur D1 D2 D3
提问 根据回归分析结果,发现存在什么问题?如何修改回归模型?
8.4 虚拟被解释变量的回归模型
【例】 研究是否购买住房与收入水平的关系。
设是否购房为被解释变量,用 Y 表示;收入为解释变量, 用 X 表示。
1 变量分析:
将DUR作为解释变量;FRIG作为被解释变量; 引入3个季度虚拟变量D1,D2,D3。 (虚拟变量数 = 属性数 – 1 )
2 季度虚拟变量的赋值规则:
D1=
1 (第1季度) 0 (其他季度)
D3=
1 (第3季度) 0 (其他季度)
D2=
第八章 虚拟变量实验报告
第八章虚拟变量实验报告一、研究目的改革开放以来, 我国经济保持了长期较快发展, 我国对外贸易规模也日益增长。
尤其是2002年中国加入WTO之后, 我国对外贸易迅速扩张。
2012年, 我国进出口总值38667.6亿美元, 与上年同期相比增长6.2%, 我国贸易总额首次超过美国, 成为世界贸易规模最大的国家。
为了考察我国对外贸贸易与国内生产总值的关系是否发生变化, 以国内生产总值代表经济整体发展水平, 以对外贸易总额代表对外贸易发展水平, 分析我国对外贸易发展受国内生产总值的影响程度。
二、模型设定为研究我国对外贸易发展规模受我国总体经济发展程度影响, 引入国内生产总值为自变量。
设定模型为:+β1X t+ U tY t=β参数说明:Yt——对外贸易总额(单位: 亿元)Xt——国内生产总值(单位: 亿元)U t——随机误差项收集到数据如下(见表2-1)1993 11271 35333.92 2007 166740.2 265810.31 1994 20381.9 48197.86 2008 179921.5 314045.43 1995 23499.9 60793.73 2009 150648.1 340902.81 1996 24133.8 71176.59 2010 201722.1 401512.8 1997 26967.2 78973.03 2011 236402 472881.56 1998 26693.823 73617.66322注: 资料来源于《中国统计年鉴》1986-2012。
为了研究1985-2011年期间我国对外贸易总额随国内生产总值的变化规律是否有显著不同, 考证对外贸易与国内生产总值随时间变化情况, 如下图所示。
图2-1 对外贸易总额(Y)与国内生产总值(X)随时间变化趋势图从图2-1中, 可以看出对外贸易总额明显表现出了阶段特征: 在2002年、2007年和2009年有明显的转折点。
第8章 虚拟变量回归
(2)比较两个回归结构稳定性:虚拟变量法 上节中探讨的邹检验程序,可以通过虚拟变量的使用而大为简化。 仍然使用储蓄-回归的例子,将n1和n2次观测值合并,用下列回归方 程:
其中Yi和Xi仍然代表储蓄和收入。而Di=1,如果观测值属于重建时期
(时期I);Di=0,如果观测值属于重建后时期(时期II)。 为了看清楚,实际上方程等效于:
它们分别是第二(重建后)和第一(重建)两个时期的平均储蓄函
数。相当于取γ1=α1,γ2=β1,λ1=α1+α2,和λ2=β1+β2。这样上述回归方 程等效于估计两个个别的储蓄函数。 α2和先前一样是级差截距;β2是级差斜率系数,表明在第一时期储蓄 函数的斜率和第二时期储蓄函数的斜率系数相差多少。
现在我们要问,在时期I(1946-1954)和时期II(1955-1963)中,储 蓄与收入之间的关系,是否是一回事呢?或者说,两个时期的储蓄 函数是否存在有结构性的变换呢?
这里,结构性变化是指两个截距或两个斜率不同,或者指截距和斜
率均不同,以致任何其他适当的参数组合有所不同。 为了判明这个变化是否真实,假定两个时期的储蓄函数分别是:
工资的重要决定性因素。
上述讨论的结论:模型可推广到含有多个定量变量和多个定性变量
的情形。唯一要提醒注意的是:每一个定性变量所需的虚拟变量的 个数要比该变量的类别数少一。
一个例子:“兼职”经济学
所谓“兼职”是指一个人执有两分或两分以上的工作,其中一份是
主业,其他称为副业。希斯克和罗斯特克研究了影响兼职者工薪的 因素,他们利用一个有318兼职者调查数据的样本,做了如下回归:
图中数据编排为女教
授和男教授两类。图 形可见导出的回归函 数是一个阶梯函数。 女教授的平均工资为 18000美元,而男教 授的工资则跃升了 3280美元,达到了 21280美元。
8第八章虚拟变量回归new
三类年薪函数的差异情况如下图所示:
年薪 α1
α2 -α1
研究生 本科 大专以下
工龄
设置虚拟变量D或增设D3行吗?
2 D= 1
0
博士研究生
硕士研究D生 2
本科及以下
1 0
研究生 其他
(2)多个因素各两种类型
如果有m个定性因素,且每个因素各有两个不 同的属性类型,则引入 m 个虚拟变量。
例如,研究居民住房消费函数时,考虑到城乡 的差异以及不同收入层次的影响,将消费函数取成: yi=a+bxi+α1D1i+α2D2i +εi
【例】现有1998年我国城镇居民人均收入与彩 电每百户拥有量的统计资料。
9
观察相关图
从相关图可以看出, 前3个样本点与后5个样 本点存在较大差异,因 此,可设置虚拟变量反 映“收入层次”:
D
1 0
中高收入家庭 低收入家庭
10
将我国城镇居民的彩电需求函数设成:
Yi=a+bxi+αDi+βXDi+εi DATA D1
其中y ,x分别是居民住房消费支出和可支配收 入,虚拟变量设为:
1 农村居民 D1 0 城镇居民
1 高收入家庭 D2 0 低费情况:
城市低收入家庭 城市高收入家庭 农村低收入家庭 农村高收入家庭
(D1=0,D2=0)
(D1=0,D2=1) (D1=1,D2=0) (D1=1,D2=1)
政策紧缩 政策宽松
D
1 0
本科以上学历 本科以下学历
变量的划分应遵循穷举与互斥原则。
5
二、作用
⑴可以描述和测量定性因素的影响。
⑵能够正确反映经济变量之间的相互关系,提高模 型的精度。
第八章(虚拟变量回归)_图文
5.社会因素:包括社会治安、城市化水平、消费心理等;
6.行政(政策)因素:包括土地与住房制度、房地产价格政策等;
7.区域因素:包括所处地段的市政基础设施、交通状况等;
8.个别因素:包括朝向、结构、材料、功能设计、施工质量等;
9.房地产投机因素:投机者在房地产市场中的投机活动;
10.自然因素:包括自然环境、地质、地形、地势及气候等。
使用虚拟变量需注意的问题
v 虚拟变量陷阱:若定性变量有m个类别,则引入 m个虚拟变量将会产生完全多重共线性问题,避 免方法:
Ø 只引入(m-1)个虚拟变量 Ø 引入m个虚拟变量但去掉截距项
v 哪种方法更好:包含截距项更方便,可以很容易 地检验某个组与基准组之间是否存在显著差异以 及差异程度。
2、避免落入“ 虚拟变量陷阱”
•男职工本科以上学历的平均薪金:
1.解释变量只有一个分为两种类型的定性变量无 定量变量的回归
这种模型又称方差分析模型
其中:Y为公立学校教师工资,
D=0为农村学校;D=1为城镇学校
分析条件期望:
基础类型:
比较类型:
为差异截距系数,通过对系数 可检验
的 t 检验:
在其他因素不变的条件下,城乡教师的工资是否有显2著323
D=0 表示某种属性或状态不出现或不存在 5
虚拟变量的作用
● 作为属性因素的代表,如性别 ● 作为某些非精确计量的数量因素的代表,
如受教育程度(高中及以下、专科、本科及以上) ● 作为某些偶然因素或政策因素的代表,
如 伊拉克战争、“911事件”、四川汶川大地震 ● 时间序列分析中作为季节(月份)的代表 ● 分段回归——研究斜率、截距的变动 ● 比较两个回归模型的差异 ● 虚拟被解释变量模型:
计量经济学-虚拟变量回归
虚拟变量模型有三种类型
1. 解释变量中只包含虚拟变量 2. 解释变量中既包含定量变量也包含虚拟
变量。 3. 被解释变量本身为虚拟变量。
20
第二节 虚拟解释变量的回归
本节基本内容:
●加法类型 ●乘法类型 ●虚拟解释变量综合应用
21
在计量经济学中,通常引入虚拟变量的方式分为 加法方式和乘法方式两种:即
分为四种情形讨论: (1)解释变量只有一个定性变量而无定量变量,而且定性
变量为两种相互排斥的属性; (2)解释变量分别为一个定性变量(两种属性)和一个定
量解释变量;
23
(3)解释变量分别为一个定性变量(两种以上属 性)和一个定量解释变量;
(4)解释变量分别为两个定性变量(各自分别是 两种属性)和一个定量解释变量;
计量经济学
第八章 虚拟变量回归
1
引子:男女大学生消费真有差异吗?
由共青团中央,全国学联共同发布的 《 2004中国大学生消费与生活型态研究报 告》显示,当代大学生的消费行为呈现多元 化的结构。除日常生活开支外还有人际交往 消费、手机类消费、衣着类消费、化妆品类 消费、电脑类消费、旅游类消费等等。
2
4
第一节 虚拟变量
本节基本内容:
●基本概念 ●虚拟变量设置规则
5
一、基本概念
定量因素:可直接测度的数值型因素。 如收入、产出、价格、人数等。
定性因素:属性因素,不能直接测度、 表征某种属性或状态存在与否的非数值型 因素。如性别、婚否、政府经济政策不变 与改革、城市居民或非城市居民等。
6
在以前的学习中,解释变量主要是定 量变量,但现实经济生活中影响被解释 变量的还包括定性变量,比如:研究某 个企业的销售水平,所有制(私营、非 私营)、地理位置(东、中、西部)等 是必须考虑的因素。
计量经济学:第八章虚拟变量回归
计量经济学:第⼋章虚拟变量回归第⼋章虚拟变量回归第⼀节虚拟变量的概念⼀、问题的提出计量经济学模型对变量的要求——可观测、可计量。
但在现实经济问题中,存在定性影响因素,⽐如1、属性(品质)因素的表达。
在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。
如收⼊在形成过程中,不同的性别所得到的收⼊是不⼀样的;在城乡、不同地区等收⼊存在差距;再⽐如,在我国,经济的发展⽔平对于不同的区域有不同的表现。
2、异常值现象。
当经济运⾏过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。
3、季节因素的影响。
有的经济现象存在明显的季节特征,如啤酒的消费。
那么,在建模过程中,季节变动这⼀因素怎样考虑?4、离散选择现象的描述。
如公共交通与私⼈交通的选择、商品购买与否的决策、求职者对职业的选择等。
第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。
称前⼀种情况为虚拟解释变量,后⼀种为虚拟被解释变量。
本章主要介绍虚拟解释变量的内容。
⼆、虚拟变量的定义1、定义。
设变量D 表⽰某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D 取值为0。
记为=不具有该属性具有某种属性01D2、虚拟变量引⼊的规则。
(1)在模型⾥存在截距项的条件下,如果⼀个属性存在m 个相互排斥类型(⾮此即彼),则在模型⾥引⼊m-1个虚拟变量。
否则,会出现完全的多重共线性。
但要注意,在模型⽆截距项的情况下,如果⼀个属性存在m 个类型,即便引⼊m 个变量,不会出现多重共线性问题。
(请思考为什么?)(2)虚拟变量取值为0,意味着所对应的类型是基础类型。
⽽虚拟变量取值为1,代表与基础类型相⽐较的类型,称为⽐较类型。
例如“有学历”D 为1,“⽆学历”D 为0,则“⽆学历”就是基础类型,“有学历”为⽐较类型。
(3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况D=0,第⼀个类型;D=1,第⼆个类型;……D=m-1,第m 个类型。
计量经济学第八章虚拟变量回归
其中, Yi 某公司职员年薪
1 男性 Di 2 0 女 这个模型和前面的回归模性型没有什么太大的差异,只不过 用一个虚拟变量D代替了X。这个模型能使我们发现性别是否 会造成公司职员薪水差异,这里假定了其他变量如年龄、学历 等都相同,而且随机误差项也服从线性回归模型的基本假定。
假设在原模型中设定两个虚拟变量:
Y i b 0 b 1 D 1 i b 2 D 2 i b 3 X ii
1 男性
1 女性
D1i 2 0 其他 D2i 2 0 么数据矩阵如下
Yi
b0
D1
D2
Xi
Y1
1
1(男)
0
X1
Y2
1
1(男)
t
(9.03)
(8.32)
(-6.59)
1 中高收入家庭
Di 2 0 低收入家庭
模型的估计参数都通过了显著性检验,说明我国城镇居 民中高收入和低收入家庭对彩电的消费需求,在截距和斜率 上都存在明显差异。
低收Y ˆ 入 i5.6 家 71 庭 1 0 .031X 1 i 8
中高 Y ˆ i ( 收 5 .6 71 入 3 .1 8 1) 3 7 家 3 0 .0 + 1 庭 1 0 .0 1 ( ) 0 8 X i 8
• 这种人为设定的变量就称作虚拟变量(Dummy Variable)
学历 性别 季节
1 大学毕业 2 0 其他
1 男性 2 0 女性
1 夏季 2 0 其他季
节
企业规模
1 大型企业 2 0 其他
户口
1 城镇 2 0 农村
3
8.1.2 虚拟变量的引入方式
• 1.加法模型:仅仅反映定性变量对截距的影响。
第八章__虚拟解释变量回归
第八章虚拟变量回归第一节虚拟变量一、虚拟变量的基本概念在前面的分析中,被解释变量主要受到一些可以直接度量的变量影响,如收入、产出、商品需求量、价格、成本、资金、人数等。
但现实经济生活中,影响被解释变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些本质上为定性因素(或称属性因素)的影响,例如性别、种族、肤色、职业、季节、文化程度、战争、自然灾害、政府经济政策的变动等因素。
在实际经济分析中,这些定性变量有时具有不可忽视的重要影响。
例如,研究某个企业的销售水平,产业部门(制造业、零售业)、所有制(私营、非私营)、地理位置(东、中、西部)、管理者素质的高低等是值得经常考虑的影响因素,这些因素有共同的特征,即都是表示某种属性的,不能直接用数据精确描述的因素。
因此,被解释变量的变动经常是定量因素和属性因素共同作用的结果。
在计量经济模型中,应当同时包含定量和属性两种因素对被解释变量的影响作用。
定量因素是指那些可直接测度的数值型因素,如GDP、M2等。
定性因素,或称为属性因素,是不能直接测度的、说明某种属性或状态存在与否的非数值型因素,如男性或女性、城市居民或非城市居民、气候条件正常或异常、政府经济政策不变与改革等。
在计量经济学的建模中应当将定量因素和定性因素同时纳入模型之内。
为了在模型中反映定性因素,可以将定性因素转化为虚拟变量去表现。
虚拟变量(或称为属性变量、双值变量、类型变量、定性变量、二元型变量等),是人工构造的取值为0和1的作为属性变量代表的变量,一般用字母D(或DUM,英文dummy的缩写)表示。
属性因素通常具有若干类型或水平,通常虚拟变量的取值为0和1,当虚拟变量取值为0,即D=0时,表示某种属性或状态不出现或不存在,即不是某种类型;当虚拟变量取值为1,即D=1时,表示某种属性或状态出现或存在,即是某种类型。
例如,构造政府经济政策人工变量,当经济政策不变时,虚拟变量取值为0,当经济政策改变时,虚拟变量取值为1。
第八章 虚拟变量回归
其中:
1 t = 1996年以后 D1t = 0 t = 1996年及以前
1 t = 2000年以后 D2 t = 0 t = 2000年及以前
1
基本思路:采用乘法方式引入虚拟变量的手 段。显然,1979年是一个转折点,可考虑在 这个转折点作为虚拟变量设定的依据。若设 X*=1979,当 t < X* 时可引入虚拟变量。 (为什么选择1979作为转折点?)
2
依据上述思路,有如下描述我国居民在不同时段消费 行为模型:
Yt = β 0 + β1t + β 2 (t X * ) D + ut
5
表8.1
年 份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 国民总收入 (GNI) 3624.1 4038.2 4517.8 4860.3 5301.8 5957.4 7206.7 8989.1 10201.4 11954.5 14922.3 16917.8 18598.4
9
为了分析居民储蓄行为在1996年前后和2000年前 后三个阶段的数量关系,引入虚拟变量D1和D2。 D1和D2的选择,是以1996、2000年两个转折点 作为依据,1996年的GNI为66850.50亿元,2000年 的GNI为国为民8254.00亿元,并设定了如下以加法 和乘法两种方式同时引入虚拟变量的的模型:
城乡居民人民 币储蓄存款年 底余额(Y) 210.6 281 399.5 532.7 675.4 892.5 1214.7 1622.6 2237.6 3073.3 3801.5 5146.9 7119.8
第八章 虚拟变量
1 (中学学历) D2 0 (非中学学历)
1 (小学学历) D3 0 (非小学学历)
Company Logo
一、为什么引入虚拟变量
❖5.虚拟变量本卷须知
❖〔1〕 当定性变量含有m 个类别时,模型不能引入 m个虚拟变量。否那么在 虚拟变量间会发生完全多 重共线性,无法估量回归 参数。
❖ 例如:一年四季,取 m=4个虚拟变量。
❖3.如何将定性变量引入模型 ❖ 由于定性变量通常表示的是某种特征或属功
用否存在,如男性、女性,城市户口、非城市户口 等,所以量化方法可采用取值为0或1。 ❖ 可以用1表示该属性存在,0表示该属性不存 在(也可相反)。
Company Logo
一、为什么引入虚拟变量
❖4.虚拟变量 ❖ 上述这种取值为0或1的变量称作虚拟变量,
二、用虚拟变量测量截距变化
研讨,1982年第1季度至1988年第4季度全国按时 节市场用煤销售量,时间序列图如下
Y
5500 5000 4500 4000 3500 3000 2500
0
5
10 15 20 25 30
T
Company Logo
二、用虚拟变量测量截距变化
从上图看出,煤销售量随时节不同呈清楚的周 期性变化。给出三个虚拟变量,设:
0 5 10 15 20 25 30
T
Y
Company Logo
三、测量斜率变化
❖用虚拟变量还可以调查回归函数的斜率能否发作变
化,来剖析不同〝类型〞的不同斜率。
❖方法是在模型中参与定质变量与虚拟变量的乘积项:
❖ 设模型如下
Yi 0 1X i 2Di 3 ( X i Di ) ui
❖ 按β2、β3能否为零,回归函数可有如下四种方
第八章 虚拟变量回归
其中括号内这T-统计量,所有参数 均为显著的,拟合集优度R2=0.999 ,但DW值存在自相关,进行AR(1)
修正,重新估计得:
以上回归的模拟效果:
2500 2000 1500 40 20 0 -20 -40 1975 1980 1985 1990 Actual 1995 2000 Fitted 1000 500 0
有时我们所研究的变量之间 的变化趋势在某一时点上发生 了转折,如图8-3中所呈现的样 本散布点图,它表明变量Y与变 量X之间的变化关系在点X*处发 生了转折,一般来说,这样的 转折点是由于突发
Y
X X
*
0
图8.3
从图中可以算出,消费随时间 有规律地变化,为了模拟消费的 变化趋势,从而对其进行预测, 我们选择时间变量(T)为解释 变量,考虑到季节变动,引入虚 拟 变 量 , D1,D2,D3( 定 义 同 上)等。 由图可知,PCE随时间的变化 是二次曲线,设定模型为下式:
PCEt 0 4Tt 5 D1 t * T 6 D2 t * T 2 7 D3 t * T 8T ut
假设模型中仅有一个解释 变量X,线性概率模型可以表 示为:
Yi 0 1 Xi u i
由于Yi 只取两个值0与1, 设Yi 取1的概率为Pi ,则Yi 取0 的概率为(1-Pi ),于是,
E(Yi ) 1* Pi 0 * (1 Pi ) Pi
而
E(Yi ) 0 1Xi
Pi
1
0 1X i) (
作出该项选择与不作出该项选 择的概率之比的对数值增加一 个 1 。
三、概率单位模型(Probit)
第八章第二节 虚拟解释变量的回归
冬季、城市居民 Yi (0 2) X i i
冬季、农村居民 Yi 0 X i i
(比较的基础 — 冬季、农村)
20 15 10 5 0
1234567
补充案例研究:为了解工作妇女是否受到歧视,可
以用美国统计局的“当前人口调查”中的截面数据, 研究男女工资有没有差别。这项多元回归分析研究 所用到的变量有:
第二节 虚拟解释变量的回归 加入虚拟变量的两种基本途径:加法类型、乘法类型。 一、加法类型 设定的虚拟变量以相加的形式出现 作用:改变了设定模型的截距水平,称为截距变动模型。
(一)加法类型的虚拟变量模型
1、一个定性变量(两种属性):Yi f (Di ) i
例:Yi 0 1Di i
R2 0.398 F 21.9
注意上述模型,男女差异还是显著的。这个回归模型告 诉我们,在其他条件不变的情况下,雇员的工资率随年龄的
增长而增加,但增加的速度是递减的。
(二)一个定量变量X、多个虚拟变量(定性变量)的模型
Yt 0 1D1t D2t Dkt X t ut
下面分别对三个作用进行讨论: (一)回归模型的比较(结构变化检验)
通过对模型的参数检验,可以检验模型是否有不同的结构。 即
定性变量D的引入,是否影响不同类型(属性)模型的平均水平(截距
项)?
定性变量D的引入,是否影响不同类型(属性)模型的相对变化(斜率 系数)?
例如,在研究改革开放前后储蓄——收入总量关系时,所设 定的模型为:
例如,不同人群组的衣着消费函数
Yi 1 2 D2i 3D3i X i ui
(1)
其中:Y(i 服装年均支出费);X(i 收入水平)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表8.1 国民总收入与居民储蓄存款 (续) 单位:亿元
城乡居 城乡居
民人民 民人民
年 国民总收 币储蓄 币储蓄 年 份 入 (GNI) 存款年 存款增 份
底余额 加额
() ( )
1984 7206.7 1214.7 322.2 1997
1985 8989.1 1622.6 407.9 1998
1986 10201.4 2237.6 615
D=1
其中:XDi=Xi*Di, 上式等价于:
a
当Di =0时:Yi=a+bxi+εi
β
D=0
当Di =1时:Yi=a+(b+β)xi+εi
以乘法方式引入,可反映定性因素对斜率的影 响,系数β描述了定性因素的影响程度。
第八章虚拟变量回归new
(3)一般方式 同时用加法与乘法方式引入虚拟变量,然后再利
第八章虚拟变量回归 new
2020/11/27
第八章虚拟变量回归new
引子:男女大学生消费真有差异吗?
在对在校学生的消费行为进行的调查中,发现在校 生的消费行为呈现多元化的结构。人际交往消费、 手机类消费、衣着类消费、化妆品类消费、电脑类 消费、旅游类消费占有较大的比例;而食品类消费、 学习用品类消费不突显。 显然,男女生在消费上存在差异。为了了解男、女 生的消费支出结构差异,应当如何建立模型?
思考:若是多因素、多个属性水平的问题,如何设置?
第八章虚拟变量回归new
第三节 虚拟变量的特殊应用
一、调整季节波动
例如,用季度数据分析某公司利润y与销售 收入x之间的相互关系时,为研究四个季度的季 节性影响,引入三个虚拟变量(设第1季度为基 础类型):
第i+1季度
i=1,2,3
其他季度 利润函数可取为 :
21518.8 6315.3
1982 5301.8 675.4
151.7 1995 57494.9 29662.3 8143.5
1983 5957.4 892.5
217.1 1996 66850.5 38520.8 8858.5
数据来源:《中国统计年鉴2004》,中国统计出版社。表中“城乡居民人民币 储蓄存款年增加额”为年鉴数值,与用年底余额计算的第数八章值虚有拟变差量异回归。new
NA
1991 21662.5 9241.6
2121.8
1979 4038.2 281
70.4 1992 26651.9 11759.4 2517.8
1980 4517.8 399.5
118.5 1993 34560.5 15203.5 3444.1
1981 4860.3 532.7
124.2 1994 46670
第八章虚拟变量回归new
为了研究1978—2003年期间城乡居民储蓄存款随收入的 变化规律是否有变化,考证城乡居民储蓄存款、国民总收 入随时间的变化情况,如下图所示:
第八章虚拟变量回归new
从上图中,尚无法得到居民的储蓄行为发生明显改变 的详尽信息。若取居民储蓄的增量( ),并作时序 图(见左下图):
1999
1987 11954.5 3073.3 835.7 2000
1988 14922.3 3801.5 728.2 2001
1989 16917.8 5146.9 1374.2 2002
1990 18598.4 7119.8 1923.4 2003
国民总收入 (GNI)
城乡居民人 民币储蓄存 款年底余额
第八章虚拟变量回归new
为比较两年的消费函数是否有显著差异,设置虚拟
变量:
1999年
1998年
并且合并两年的数据,估计以下模型:
Yi= a1 +b1xi+αDi+βXDi +εi 其中α=a2-a1 ,β=b2-b1。
第八章虚拟变量回归new
使用EViews软件的估计过程如下:
CREATE U 16
第八章虚拟变量回归new
将我国城镇居民的彩电需求函数设成:
Yi=a+bxi+αDi+βXDi+εi DATA D1
(由于D是EViews软件的保留字,所以将虚拟变量取 名为D1;另外,此时也可以用SMPL和GENR命令直 接生成D1变量)
GENR XD=X*D1
生成变量XD
LS Y C X D1 XD 估计需求函数
x<x* x>x*
第八章虚拟变量回归new
四、混合回归 能否将变量的时序数据和横截面数据混合建模
【例】现有我国城镇居民1998年、1999年全年人均消 费支出和可支配收入的统计资料。试使用混合样本 数据估计我国城镇居民消费函数。 设1998年、1999年我国城镇居民消费函数分别为: 1998年:Yi=a1+b1xi +εi 1999年:Yi=a2+b2xi +εi
相异回归
第八章虚拟变量回归new
三、分段回归 设虚拟变量为:
分段回归模型设置成:
x>x* x<x*
使用虚拟变量能如 实描述不同阶段的 经济关系,又未减 少估计模型时样本 容量,保证了估计
精度。
Yi= a+bxi+β(xi-x*)Di+εi
其中,x*是已知的临界水平(分段点)。
这样各段的函数为:
Yi= a +bxi+εi Yi= (a-β)+(b+β)xi+εi
用t检验判断α 、β是否显著的不等于零,进而确 定虚拟变量的具体引入方式。
【例】现有1998年我国城镇居民人均收入与彩 电每百户拥有量的统计资料。
第八章虚拟变量回归new
观察相关图
从相关图可以看出, 前3个样本点与后5个样 本点存在较大差异,因 此,可设置虚拟变量反 映“收入层次”:
中高收入家庭
低收入家庭
结果如下图所示:
第八章虚拟变量回归new
对应的t统 计量值
R2的值 调整的R2值 SE的值
我国城镇居民彩电需求函数的估计结果为:
结果表明不同收入家庭对彩电的消费需求,在 截距和斜率上都存在着明显差异。
第八章虚拟变量回归new
低收入家庭:
中高收入家庭:
此例说明了三个问题: ①如何设置和在模型中引入虚拟变量; ②如何测量定性因素(即收入层次)的影响; ③如何区分不同类型的模型(即需求函数)。
GENR XD=X*D1
LS
Y C X D1 XD
估计结果为: 操作演示
t统计量
样本期调至1998~1999年 生成XD的值 利用混合样本估计模型
R2的值 调整的R2值
第八章虚拟变量回归new
第四节 案例分析
为了考察改革开放以来中国居民的储蓄存款与收 入的关系是否已发生变化,以城乡居民人民币储 蓄存款年底余额代表居民储蓄( ),以国民总 收入GNI代表城乡居民收入,分析居民收入对储 蓄存款影响的数量关系,并建立相应的计量经济 学模型 。
面临的问题:如何把男女生这样的非数量变量引
入方程?
第八章虚拟变量回归new
问题的一般性描述
在实际建模中,一些定性变量具有不可忽视的重要 影响。例如,研究某个企业的销售水平,产业属性 (制造业、零售业)、所有制(私营、非私营)、 地理位置(东、中、西部)、管理者的素质、不同 的收入水平等是值得考虑的重要影响因素,但这些 因素共同的特征是定性描述的。 如何对非定量因素进行回归分析? 采用“虚拟变量”对定性变量进行量化一种思路。
建立工作文件
DATA
YX
(输入1998、1999年消费支出和收入的数据,1~8期
为1998年资料,9~16期为1999年资料)
SMPL
18
样本期调为1998年
GENR
D1=0
输入虚拟变量的值
SMPL
9 16
样本期调为1999年
GENR
D1=1
输入虚拟变量的值
第八章虚拟变量回归new
SMPL 1 16
第八章虚拟变量回归new
年薪 α1
α2 -α1
研究生 本科 大专以下
工龄
设置虚拟变量D或增设D3行吗? 研究生
D= 其他
第八章虚拟变量回归new
(2)多个因素各两种类型 如果有m个定性因素,且每个因素各有两个不
同的属性类型,则引入 m 个虚拟变量。 例如,研究居民住房消费函数时,考虑到城乡
的差异以及不同收入层次的影响,将消费函数取成: yi=a+bxi+α1D1i+α2D2i +εi
第二节 虚拟变量的设定
一、虚拟变量的引入方式
(1)加法方式
Yi=a+bxi+αDi+εi
a+α
等价为:
当Di =0时:Yi=a+bxi+εi a 当Di =1时:Yi=(a+α)+bxi+εi
D=1
α D=0
以加法方式引入,反映定性因素对截距的影响
第八章虚拟变量回归new
(2)乘法方式
Yi=a+bxi+βXDi+εi
政策紧缩 政策宽松
本科以上学历 本科以下学历
变量的划分应遵循穷举与互斥原则。
第八章虚拟变量回归new
二、作用 ⑴可以描述和测量定性因素的影响。 ⑵能够正确反映经济变量之间的相互关系,提高模
型的精度。 ⑶便于处理异常数据。
即将异常数据作为一个特殊的定性因素 异常时期 正常时期
第八章虚拟变量回归new
第八章虚拟变量回归new
第八章 虚拟变量回归
本章主要讨论:
●虚拟变量及其作用 ●虚拟变量设定 ●虚拟解释变量的回归 ●虚拟被解释变量的回归(选讲,不包括)