第7章 虚拟变量回归模型-案例
第7章 Dummy Variables 虚拟变量
Case 1: y = b0 + d0d + b1x + u
• 考虑一个简单工资方程:
wage = b0 + d0 female + b1 educ + u
• If female =0, then wage = b0 + b1educ + u • If female =1, then wage = (b0 + d0) + b1educ + u
• d0 = E(wage| female=1, educ) - E(wage| female=0, educ)
• d0 (an intercept shift): 给定教育年限educ,女性平 均工资比男性平均工资高d0元。
Example of d0 > 0
E(wage|female,educ) = b0 + d0 female + b1 educ
扩展:多个虚拟变量回归模型
• female(1 female; 0 male); married(1 married; 0 single) • marrfem( 1 female married; 0 others) • marrmale (1 male married; 0 others) • singlefem (1 female single; 0 others) • singlemale (1 male single; 0 others)
• A dummy variable 是一种只取1或0两个数值的变量. • Examples: (1) sex: 1: male 2: female
male (= 1 if male, 0 otherwise); female (= 1 if female, 0 otherwise) (2) region: 1. eastern; 2. central ; 3. western) eastern (=1 if eastern, 0 otherwise); central (=1 if central, 0 otherwise) western (=1 if western, 0 otherwise) • Dummy variables are also called: 二值变量(binary variables), 0-1变量(zero-one variables)
Eviews数据统计与分析教程7章 含虚拟变量的回归模型
第二步,在该工作文件中建立四个序列对象。 “pc” 代表家 庭拥有的电脑数量;“rev”代表家庭每月收入;“edu”代表 教育程度;“city”表示城乡居民情况。并把相应的数据输入 到每个序列对象中。
EViews统计分析基础教程
二、含虚拟变量的模型
1.仅含一个虚拟变量
实验: 第二步,在该工作文件中建立两个序列对象,一个为 “wage”,一个为“sex”。 第三步,在“wage”序列对象中输入 “工资”的数据,在 “sex”序列对象中输入 “性别”的数据。
EViews统计分析基础教程
二、含虚拟变量的模型
EViews统计分析基础教程
二、含虚拟变量的模型
1.仅含一个虚拟变量
如果该回归模型的随机误差项满足线性回归模型的五个基本 假定条件,则 E(yt| Dt=1)= E(雇员工资收入|雇员为女性)=β0 + β1 E(yt| Dt=0)= E(雇员工资收入|雇员为男性)=β0 β0 + β1表示女性雇员的平均工资收入,β0表示男性雇员的平 均工资收入。
EViews统计分析基础教程
一、虚拟变量的定义
2.虚拟变量
虚拟变量陷阱: 所谓的“虚拟变量陷阱”是指自变量(解释变量)中包含 了过多的虚拟变量,从而导致了模型出现多重共线性。当 模型中既有整体截距又对每一组都设有一个虚拟变量时, 就产生了虚拟变量陷阱。
EViews统计分析基础教程
一、虚拟变量的定义
EViews统计分析基础教程
二、含虚拟变量的模型
2. 同时含虚拟和定量解释变量
操作步骤: 第四步,结果分析。 右图中,变量edu和变量city没有 通过显著性(t)检验,说明这两 个变量对因变量pc的影响不显著。 因而,在所调查的样本中,被调 查者的受教育程度以及是否是城 镇居民对拥有个人电脑的数量没 有显著的影响。
第七章 虚拟变量 虚拟变量回归模型ppt汇总 计量经济学
• 在回归分析中,被解释变量的影响因素 除了量(或定量)的因素还有质(或定 性)的因素,这些质的因素可能 会使回 归模型中的参数发生变化,为了估计质 的因素产生的影响,在模型中就需要引 入一种特殊的变量—虚拟变量。
2020/6/16
(二)作用
• 1、可以描述和测量定性(或属性)因素 的影响;
2、多个因素各两种属性
• 如果有m个定性因素,且每个因素各有两个不同的 属性类型,则引入m个虚拟变量。
• 例2
• 研究居民住房消费函数时,考虑到城乡差异和不同 收入层次的影响将消费函数设定为:
Yt=b0+b1Xt+a1D1t+ a2D2t+ μt
Yt=居民住房消费支出
Xt=居民可支配收入
1城镇居民
2020/6/16
虚拟变量对截距的影响
y
有适龄子女
b0
o
图1 虚拟变量对截距的影响
x
2020/6/16
2、乘法方式引入虚拟变量
• 基本思想:以乘法方式引入虚拟解释变量
,是在所设定的计量经济模型中,将虚拟 解释变量与其他解释变量相乘作为新 的解释变量,以达到其调整模型斜率的
目的。 • 该方式引入虚拟变量主要作用:
D=
0 无适龄子女
将家庭教育费用支出函数写成:Yt=b0+b1Xt+aDt+μt 即以加法形式引入虚拟变量。
2020/6/16
子女年龄结构不同的家庭教育 费用支出函数为:
• 无适龄子女家庭的教育费用支出函数(D=0 ):Yt=b0+b1Xt+μt
• 有适龄子女家庭的教育费用支出函数(D=1 ):Yt=(b0+a)+b1Xt+μt
虚拟变量回归模型:计量经济学3
3、虚拟变量的实际应用
(1)虚拟变量可以用于研究制度变迁的影响
如:研究2001年中国加入WTO事件对中国进出 口贸易的影响,可以建立如下方程:
+d 主要贸易伙伴国 GDP+e DWTO
中国的进出口贸易总值 =a b 人民币汇率 c 中国GDP
计量经济学专题:
虚拟变量的回归与Probit模型、 Logit模型
1、虚拟变量的性质
与有明确尺度量化了的变量(GDP、产 量、价格、成本、汇率等)不同,虚拟 变量是一种定性性质的变量,如性别、 种族、国籍等只涉及“是”与“非”两 种状态的变量。 虚拟变量的取值只取0或1。1表示某种性 质出现,0表示某种性质不出现。
(3)对一个普通变量与两个两分虚拟变 量的回归
例:种族及性别差异对薪金的影响。 假定薪金除了受工作年限、性别的影响 之外,还受种族的影响。
yi 1 2 D2i 3D3i xi ui
yi 为某人的工资水平,xi 为工作年限。
yi 1 2 D2i 3D3i xi ui 虚拟变量模型:
白人女性的工资水平:
E( yi D2 0, D3 1) (1 3) xi
yi 1 2 D2i 3D3i xi ui 虚拟变量模型:
其他人种男性的平均工资:
E( yi D2 1, D3 0) (1 2) xi
其他人种女性的平均工资:
Pi P r(Y 1) P r(I i * I i ) F ( I i ) 1 2 1 2
Ii
第七章 虚拟变量
在E(i)=0 的初始假定下,高中以下、高中、大学 及其以上教育水平下个人保健支出的函数:
高中以下:
E (Yi | X i , D1 0, D2 0) 0 1 X i
• 高中:
E (Yi | X i , D1 1, D2 0) ( 0 2 ) 1 X i
可视为截距项的解释变 量,即α0= α0×1
所以引入4个虚拟变量出现了完全多重共线 性的问题! OLS法不能使用! 这就是虚拟变量陷阱问题!
如果只取六个观测值,其中春季与夏季取了 两次,秋、冬各取到一次观测值,则式中的:
1 1 1 ( X, D) 1 1 1 X 11 X k1 X 12 X k 2 X 13 X k 3 X 14 X k 4 X 15 X k 5 X 16 X k 6 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 1 0 0 1 0 0 0
1.定义
虚拟变量是一用以反映质的属性的一个人工 变量,取值为0或1,通常记为D(Dummy Variable),又可称之为哑变量或二进制变量。 对基础类型或肯定类型设 D=1 对比较类型或否定类型设 D=0 虚拟变量示例 注意:虚拟变量D只能取0或1两个值,即属性 之间不能运算!
(-6.11) (22.89) (4.33) (-2.55)
R 2 =0.9836
由3与4的t检验可知:参数显著地不等于0,强 烈示出两个时期的回归是相异的, 储蓄函数分别为:
1990年前: 1990年后:
ˆ 1649.7 0.4116X Y i i
ˆ 15452 0.8881X Y i i
1 D2 0
计量经济第七章虚拟变量模型课件
log
P2i P1i
21
21 X i ;
log
P3i P1i
31
31 X i ;
log
P3i P2i
32
32 X i .
其中 P1i、P2i、P3i 分别表示第 个决策者做出 第1、2、3个选择的概率。
23
Yi 0 1D1i ui ,
i 1,2, ,n.
其中 Yi
为个人月支出,
D1i
=
1,已婚 0,未婚
6
• 未婚者的月期望支出为:
E Yi | D1i 0 E 0 1 0 ui 0
• 已婚者的月期望支出为:
E Yi | D1i 1 E 0 1 1 ui 0 1
0 :未婚者的月平均支出 1 :未婚者与已婚者的月平均支出差距 0 1 :已婚者的月平均支出
Zi
f
1
Pi
ln
1
Pi Pi
ln
Pi 1 Pi
0
1
X1i
+
+k X ki
17
二、二元Logit模型估计
• 1.可重复观测数据的二元Logit模型 参数估计
• P144 【相关链接】
• 2.不可重复观测数据的二元Logit模 型参数估计
• P145 【相关链接】
18
三、模型检验与拟合优度
定义:以虚拟变量为因变量的线性回 归模型称为线性概率模型。
(linear probability model,LPM) 模型的基本形式为:
Yi 0 1X1i +2 X2i k Xki ui ,
E Yi | X 0 1X1i +2 X2i k Xki ,
i 1,2, ,n.
第七章 虚拟变量和随机解释变量 (2)
第七章 虚拟变量和随机解释变量本章将讨论两种不同的模型:虚拟变量模型和随机解释变量模型,以及模型设定的其它问题。
第一节 虚拟变量模型在我们以前考虑的模型中,解释变量都是定量变量(如成本、价格、收入、产出等),但在经济研究中,因变量经常受到一些定性变量的影响(如性别、种族、季节、不同历史时期等),我们把这类定性变量称为虚拟变量。
习惯上用D表示虚拟变量,虚拟变量的取值通常为0和1。
0表示变量具备某种属性,1表示变量不具备某种属性。
一、包含一个虚拟变量的模型如果我们要研究的问题中解释变量只分为两类。
则需引入一个模拟变量。
例9.1建立模型研究中国妇女在工作中是否受到歧视。
令Y=年薪,X=工作年限⎩⎨⎧=,女性,男性101D 可以建立如下模型:i i i i u D B X B B Y +++=210 )1.9( 与一般的回归模型一样,假定0)(=i u E 男性就业者的平均年薪:i i i i X B B D X Y E 10)0,(+== )2.9(女性就业者的平均年薪:210)1,(B X B B D X Y E i i i i ++== )3.9(如果B 2=0则说明不存在性别歧视,如果02<B ,则说明存在性别歧视。
图9.1表明男女就业者的平均年薪对工龄的函数具有相同斜率B 1,即随着工龄的增长男女工资的增长幅度相同;截距不同,说明男女的初始年薪不同。
我们称这种虚拟变量只影响截距不影响斜率的模型为加法模型。
图9.1不同性别就业者的收入(加法模型,B 2<0)如果随着工龄增加,男性与女性的年薪差距也发生变化,则模型(9.1)就变为i i i i i u X D B X B B Y +++=210 )4.9(图9.2描绘了男性年薪增加较快的情况。
我们称虚拟变量只影响斜率而不影响截距的模型为乘法模型如(9.4)如果男性与女性的初始年薪和年薪增加速度都有差异,我们可以将加法模型和乘法模型结合起来,得到如下模型i i i i i i u D B X D B X B B Y ++++=3210 )5.9(模型(9.5)可以用来表示截距和斜率都发生变化的模型。
虚拟变量回归课件
例1
(1)
D
=
1 0
男 女
( 2)D=1 0
改 革 开 放 以 后 改 革 开 放 以 前
(3)D1 =0 1
天气阴 其 他(4)D2
=1 0
天气雨 其他
问题:
为何只选0、1,选2、3、4行吗?为什么?
虚拟变量回归
14
属性的状态(水平)数与虚拟变量 数量的关系
定性因素的属性既可能为两种状态,也可能为多种 状态。例如,性别(男、女两种)、季节(4种状 态),地理位置(东、中、西部),行业归属,所 有制,收入的分组等。
虚拟变量回归
11
二、虚拟变量设置规则
虚拟变量的设置规则涉及三个方面: 1.“0”和“1”选取原则 2.属性(状态、水平)因素与设置虚拟变量
数量的关系 3.虚拟变量在回归分析中的角色以及作用等
方面的问题
虚拟变量回归
12
“0”和“1”选取原则
虚拟变量取“1”或“0”的原则,应从分析问题的 目的出发予以界定。
虚拟变量回归
16
一个例子(虚拟变量陷阱)
研究居民住房消费支出 Yi 和居民可支配收入 Xi 之间的
数量关系。回归模型的设定为:Y i= 0 + 1 X i+ u i( 1 )
现在要考虑城镇居民和农村居民之间的差异,如何办?
为了对 “城镇居民”、“农村居民”进行区分,分析
各自在住房消费支出 Yi上的差异,设 D1i = 1 为城镇;
非数值性的因素。 基本思想: 直接在回归模型中加入定性因素存在诸多的困难 (那些困难?),是否可将这些定性因素进行量 化,以达到定性因素能与定量因素有着相同作用 之目的。
虚拟变量回归
10
7.虚拟变量
在下降(仅为0.72)。
变参数线性回归模型
如果模型参数取值呈连续变化的,称为连续型确定性变参
数线性回归模型。
(1)截距系统变动模型。即在回归模型中仅截距项发生系统 性变化,而斜率在整个样本期内不发生变化的变参数线性回归
模型。
(2)斜率系统变动模型。即在回归模型中仅有斜率项发生系 统性变化,而截距在整个样本期内不发生变化变参数线性回归
0
0 0 0 0 0 0 0 0
0
0 0 0 0 0 0 0 0
1964
1965 1966 1967 1968
0.975
1.184 1.271 1.122 1.085
15
16 17 18 19
0
0 0 0 0
0
0 0 0 0
年份 1969 1970 1971 1972 1973 1974
进出口总额y 1.069 1.129 1.209 1.469 2.205 2.923
(单位:千美元)
y 0.3 0.0 1.0 2.0 0.4 0.7 1.5 1.6 0.6 0.6 x 9.0 6.0 18.0 20.0 12.0 14.0 15.0 16.0 15.0 14.0 D 0 0 0 1 0 0 1 1 0 0
图4
家庭年储蓄额yt与收入额xt散点图
通过散点图分析,可以给模型加入一个定性变量“住房状况”,用D表 示。虚拟变量D定义如下:
图1表明,在相同的收入水平情况下,有适龄子女家庭的教育费用平均要比无 适龄子女家庭的教育费用多支a出个单位。
图1 虚拟变量对截距的影响
(2)乘法类型 在所设定的计量经济模型中,将虚拟解释变量与其他解释变
量相乘作为新的解释变量出现在模型中,以达到其调整设定模型
虚拟变量回归模型课件.ppt
7.1 虚拟变量
7.1.1 虚拟变量的概念及作用
1.虚拟变量的内涵 在计量经济学中,我们把反映定性(或属性)因素变化,取值为0和1的人工变量称为 虚拟变量(Dummy Variable),或称为哑变量、虚设变量、属性变量、双值变量、类型变量、 定性变量、二元型变量、名义变量等,习惯上用字母D表示。例如
第2页,共32页。
虚拟变量
为什么要引入“虚拟变量” ?? 许多经济变量是可以定量度量的或者说是可以直接观测的
如商品需求量、价格、收入、产量等
但是也有一些影响经济变量的因素无法定量度量或者说无法直接观测
如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节 对某些产品(如冷饮)销售的影响等。
第3页,共32页。
第29页,共32页。
临界指标的虚拟变量的引入
在经济发生转折时期,可通过建立临界指 标的虚拟变量模型来反映。
第30页,共32页。
第31页,共32页。
当截距与斜率发生变化时,则需要同时引入加法与乘 法形式的虚拟变量。
OLS法得到该模型的回归方程为
则两时期进口消费品函数分别为:
当t<t*=1978年, Dt = 0
•女职工本科以上学历的平均薪金: E(Yt | Xt , D1 = 0, D2 = 1) = (b 0 + b3 ) + b1 Xt
•男职工本科以上学历的平均薪金:
E(Yt | Xt , D1 = 1, D2 = 1) = (b0 + b 2 + b3 ) + b1 Xt
第23页,共32页。
2、乘法方式
第8页,共32页。
这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些
虚拟变量回归模型案例分析
Prob(F-statistic) 0.000079
1641.000 0.000000 0.000000 1.000000
1225.000 0.000000 0.000000 0.000000
1429.000 1.000000 0.000000 0.000000
1699.000 0.000000 1.000000 0.000000
1749.000 0.000000 0.000000 1.000000
0.0000 0.4701 0.0011 0.0000
R-squared
0.531797 Mean dependent var 1354.844
Adjusted R-squared 0.481632 S.D. dependent var 235.6719
S.E. of regression 169.6785 Akaike info criterion 13.22216
Y
1317.000 1615.000 1662.000 1295.000 1271.000 1555.000 1639.000 1238.000 1277.000 1258.000 1417.000 1185.000 1196.000 1410.000 1417.000 919.0000
D1
1.000000 0.000000 0.000000 0.000000 1.000000 0.000000 0.000000 0.000000 1.000000 0.000000 0.000000 0.000000 1.000000 0.000000 0.000000 0.000000
h
4
在美国,
诸如失业率、消费者价格指 数、生产者价格指数和工业 生产指数等重要的经济时间 序列通常都以季节调整后的
06_包含虚拟变量的回归模型
厦门大学经济学院
胡朝霞
虚拟变量显著性检验:t 检验显著表明虚拟变量被赋予 1 值的分类与基底类的差异是显著 的。 Example 6.1 如果方差分析模型中的因变量实际上还受其他的定量变量的影响,则原来的方差分析模型 存在模型的设定偏差。 Example 6.2 三、包含一个定量变量,一个虚拟变量的回归模型 在经济学的分析中,很少使用前面提到的方差分析模型, ,更多的是用到既有定量变量,又 有虚拟变量作为解释变量的回归模型,这样的回归模型称为协方差分析模型(ANCOVA) 。 例:分析大学教师的工资的主要影响因素。 设定以下回归模型:
Yi b1 b 2 D1i b3D 2 i b 4 X i u i
其中,Y――年薪;X――教龄;
1 : 男教师; D1i 0:女教师
白种男教师的年薪模型:
1 :白种 D 2i 0:非白种
以上模型可以分解为四种不同的对象的模型: (假设斜率都相同)
Yi b1 b 2 b 3 b 4 X i u i
厦门大学经济学院
胡朝霞
D1=0;D2=0 女;非白 差别(非白人内部男女 的差别)
a0
b0
a1
b1
Example: p142 七、回归模型的结构稳定性检验:虚拟变量法 Example: 6-4 , p145. 美国的储蓄收入关系是否发生结构性变化? Problems 6.23,p159 美国的菲利普斯曲线失灵了吗? 八、虚拟变量在消除季节因素中的应用 季节调整(非季节化) (deseasonalization ; seasonal adjustment) :指的是从一个时间序 列中剔除掉季节因素(成分)以便于工作于集中分析另一些成分如长期趋势成分。经过季节
第七节回归模型的结构稳定性检验-虚拟变量法
其中a=a0-b0,b=a1-b1
利用t检验判断a和b是否显著为零。
当a=b=0显著成立时,表明两模型之间没有显著差异, 称为“重合回归”,模型结构稳定。 当b=0 显著成立, a=0不显著成立时,表明两模型 之间差异表现在截距上,称“平行回归”,模型 结构不稳定。 当a=0显著成立,b=0不显著成立时,表明两模型之 间差异表现在斜率上,称“汇合回归”,模型结 构不稳定。 当a=0与a1=0均不显著成立时,表明两模型之间差异 显著,称“相异回归”,模型结构不稳定。
第七节回归模型的结构稳定性检验虚拟变量法虚拟变量回归多变量协整检验虚拟变量回归模型spss回归分析控制变量工具变量回归eviews虚拟变量回归stata虚拟变量回归spss虚拟变量回归spss多变量回归分析
检验模型结构的稳定性
设同一总体两个样本的回归模型分别为 样本1:yt=b0+b1xt+ut 样本2:yt=a0+a1xt+ut 设虚拟变量 1 样本 2
计量经济学习题第7章单方程回归模型的几个专题
计量经济学习题第7章单方程回归模型的几个专题第7章单方程回归模型的几个专题一、名词解释1、虚拟变量2、模型设定误差3、工具变量4、工具变量法5、变参数模型6、分段线性回归模型7、虚拟变量模型二、简答题1、模型中引入虚拟变量的作用是什么?2、虚拟变量引入的原则是什么?3、虚拟变量引入的方式及每种方式的作用是什么?4、判断计量经济模型优劣的基本原则是什么?5、模型设定误差的类型有那些?6、工具变量选择必须满足的条件是什么?7、滞后变量模型包括哪几种类型?写出各自的模型形式。
8、设定误差产生的主要原因是什么?9、在建立计量经济学模型时,什么时候,为什么要引入虚拟变量?三、单项选择题1、设某地区消费函数i i i x c c y μ++=10中,消费支出不仅与收入x 有关,而且与消费者的年龄构成有关,若将年龄构成分为小孩、青年人、成年人和老年人4个层次。
假设边际消费倾向不变,则考虑上述构成因素的影响时,该消费函数引入虚拟变量的个数为()A.1个B.2个C.3个D.4个2、当质的因素引进经济计量模型时,需要使用()A. 外生变量B. 前定变量C. 内生变量D. 虚拟变量3、.由于引进虚拟变量,回归模型的截距或斜率随样本观测值的改变而系统地改变,这种模型称为()A. 系统变参数模型B.系统模型C. 变参数模型D. 分段线性回归模型4、.假设回归模型为i i i x y μβα++=,其中Xi 为随机变量,Xi 与Ui 相关则β的普通最小二乘估计量( )A.无偏且一致B.无偏但不一致C.有偏但一致D.有偏且不一致5、假定正确回归模型为i i i i x x y μββα+++=2211,若遗漏了解释变量X2,且X1、X2线性相关则1β的普通最小二乘法估计量( )A.无偏且一致B.无偏但不一致C.有偏但一致D.有偏且不一致6、对于误差变量模型,模型参数的普通最小二乘法估计量是( )A.无偏且一致的B.无偏但不一致C.有偏但一致D.有偏且不一致7、系统变参数模型分为( )A.截距变动模型和斜率变动模型B.季节变动模型和斜率变动模型C.季节变动模型和截距变动模型D.截距变动模型和截距、斜率同时变动模型8、虚拟变量( )A.主要来代表质的因素,但在有些情况下可以用来代表数量因素B.只能代表质的因素C.只能代表数量因素D.只能代表季节影响因素9、. 分段线性回归模型的几何图形是( )A.平行线B.垂直线C.光滑曲线D.折线10、如果一个回归模型中不包含截距项,对一个具有m 个特征的质的因素要引入虚拟变量数目为( )A.mB.m-1C.m-2D.m+111、设某商品需求模型为Yt=β0+β1Xt+Ut ,其中Y 是商品的需求量,X 是商品的价格,为了考虑全年12个月份季节变动的影响,假设模型中引入了12个虚拟变量,则会产生的问题为()A .异方差性B .序列相关C .不完全的多重共线性D .完全的多重共线性四、多项选择题1、系统变参数模型中,参数变化是( )A.随机的B.离散的C.非随机的D.连续的E.系统的2、在包含有随机解释变量的回归模型中,可用作随机解释变量的工具变量必须具备的条件有,此工具变量( )A.与该解释变量高度相关B.与其它解释变量高度相关C.与随机误差项高度相关D.与该解释变量不相关E.与随机误差项不相关3、关于虚拟变量,下列表述正确的有()A .是质的因素的数量化B .取值为l 和0C .代表质的因素D .在有些情况下可代表数量因素E .代表数量因素4、虚拟变量的取值为0和1,分别代表某种属性的存在与否,其中()A 、0表示存在某种属性B 、0表示不存在某种属性C 、1表示存在某种属性D 、1表示不存在某种属性E 、0和1代表的内容可以随意设定5、在截距变动模型i i i x D y μβαα+++=10中,模型系数()A 、0α是基础类型截距项B 、1α是基础类型截距项C 、0α称为公共截距系数D 、1α称为公共截距系数E 、01αα-为差别截距系数6、对于线性回归模型i i i i Dx x D y μββαα++++=)(2110,其中D 为虚拟变量,有()A 、其图形是两条平行线B 、基础类型的截距项是0αC 、基础类型的截距为1βD 、差别截距系数为1αE 、差别斜率系数为12ββ-7、对于分段线性回归模型t t t t D x x x y μβββ+-++=)(*210,其中()A 、虚拟变量D 代表品质因素B 、虚拟变量D 代表数量因素C 、以*x x t =为界,前后两段回归直线的斜率不同D 、以*x x t =为界,前后两段回归直线的截距不同E 、该模型是系统变参数模型的一种特殊形式五、计算题1、家庭消费C ,除依赖于收入Y 之外,还同下列因素有关:(1)民族:汉、蒙、满、回、藏(2)家庭小孩数:没有孩子、1-2个孩子、3个及以上孩子(3)户主的文化程度:高中以下、高中、大专以上试设定该家庭消费函数的回归模型。
计量经济学第7章 含有定性信息的多元回归分析
第7章含有定性信息的多元回归分析:二值(或虚拟)变量在前面几章中,我们的多元回归模型中的因变量和自变量都具有定量的含义。
就像小时工资率、受教育年数、大学平均成绩、空气污染量、企业销售水平和被拘捕次数等。
在每种情况下,变量的大小都传递了有用的信息。
在经验研究中,我们还必须在回归模型中考虑定性因素。
一个人的性别或种族、一个企业所属的产业(制造业、零售业等)和一个城市在美国所处的地理位置(南、北、西等)都可以被认为是定性因素。
本章的绝大部分内容都在探讨定性自变量。
我们在第7.1节介绍了描述定性信息之后,又在第7.2、7.3和7.4节中说明了,如何在多元回归模型中很容易地包含定性的解释变量。
这几节几乎涵盖了定性自变量用于横截面数据回归分析的所有流行方法。
我们在第7.5节讨论了定性因变量的一种特殊情况,即二值因变量。
这种情形下的多元回归模型具有一个有趣的含义,并被称为线性概率模型。
尽管有些计量经济学家对线性概率模型多有中伤,但其简洁性还是使之在许多经验研究中有用武之地。
虽然我们在第7.5节将指出其缺陷,但在经验研究中,这些缺陷常常都是次要的。
7.1 对定性信息的描述定性信息通常以二值信息的形式出现:一个人是男还是女;一个人有还是没有一台个人计算机;一家企业向其一类特定的雇员提供还是不提供退休金方案;一个州实行或不实行死刑。
在所有这些例子中,有关信息可通过定义一个二值变量(binary variable)或一个0-1变量来刻画。
在计量经济学中,对二值变量最常见的称呼是虚拟变量(dummy variable),尽管这个名称并不是特别形象。
在定义一个虚拟变量时,我们必须决定赋予哪个事件的值为1和哪个事件的值为0。
比如,在一项对个人工资决定的研究中,我们可能定义female为一个虚拟变Array量,并对女性取值1,而对男性取值0。
这种情形中的变量名称就是取值1的事件。
通过定义male在一个人为男性时取值1并在一个人为女性时取值0,也能刻画同样的信息。
STATA简介与带虚拟变量的回归模型
❖ -------------+------------------------------
❖
Total | 12.8141856 16 .8008866
Number of obs = 17 F( 2, 14) = 1968.49 Prob > F = 0.0000 R-squared = 0.9965 Adj R-squared = 0.9960 Root MSE = .05695
的观测; ❖ [in range]表示命令只针对处在range指定的范围内的观测; ❖ [,options]是命令特有的一些选项,根据情况和需要而定,
Stata的强大功能主要就体现在这些选项上,选项的使用非 常精细和讲究,使用时既要依据个人的经验,也要参看 Stata的帮助系统或工具手册。
4、数据管理
❖ consume | 3.518791 .4291866 8.20
0.000 2.598277 4.439304
❖
_cons | -362.7934 26.28401 -13.80 0.000 -419.1671 -306.4198
❖ ------------------------------------------------------------------------------
❖ ■ regress y x1 x2 [if exp][in range] (使用满足[if exp]和[in range]的观测做回归)
二、模型选择:线性回归模型的初步拓展 (一)
❖ 研究问题:我国职工工资总额是否受到GDP 和居民消费价格这两个变量的影响。
❖ 使用数据:1978年-1999年《中国统计年鉴》 发布的职工工资总额指数数据、GDP指数数 据和居民消费价格指数数据。(所有指数数 据都以1978年为100)
第七章虚拟变量回归
第七章虚拟变量回归第七章虚拟变量回归第⼀节虚拟变量的性质在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。
例如需要考虑性别、民族、不同历史时期、季节差异、政府的更迭(⼯党-保守党)、经济体制的改⾰、固定汇率变为浮动汇率、从战时经济转为和平时期经济等。
这些因素也应该包括在模型中。
⼀、基本概念由于定性变量通常表⽰的是某种特征的有和⽆,所以量化⽅法可采⽤取值为1或0。
这种变量称作虚拟变量(dummy variable )。
虚拟变量也称:哑元变量、定性变量等等。
通常⽤字母D 或DUM 加以表⽰(英⽂中虚拟或者哑元Dummy 的缩写)。
⽤1表⽰具有某⼀“品质”或属性,⽤0表⽰不具有该“品质”或属性。
虚拟变量使得我们可以将那些⽆法定量化的变量引⼊回归模型中。
虚拟变量应⽤于模型中,对其回归系数的估计与检验⽅法和定量变量相同。
虚拟变量表⽰两分性质,即“是”或“否”,“男”或“⼥”等。
下⾯给出⼏个可以引⼊虚拟变量的例⼦。
例1:你在研究学历和收⼊之间的关系,在你的样本中,既有⼥性⼜有男性,你打算研究在此关系中,性别是否会导致差别。
例2:你在研究某省家庭收⼊和⽀出的关系,采集的样本中既包括农村家庭,⼜包括城镇家庭,你打算研究⼆者的差别。
例3:你在研究通货膨胀的决定因素,在你的观测期中,有些年份政府实⾏了⼀项收⼊政策。
你想检验该政策是否对通货膨胀产⽣影响。
上述各例都可以⽤两种⽅法来解决,⼀种解决⽅法是分别进⾏两类情况的回归,然后看参数是否不同。
另⼀种⽅法是⽤全部观测值作单⼀回归,将定性因素的影响⽤虚拟变量引⼊模型。
⼆、虚拟变量设置规则虚拟变量的设置规则涉及三个⽅⾯: 1.“0”和“1”选取原则虚拟变量取“1”或“0”的原则,应从分析问题的⽬的出发予以界定。
从理论上讲,虚拟变量取“0”值通常代表⽐较的基础类型;⽽虚拟变量取“1”值通常代表被⽐较的类型。
“0”代表基期(⽐较的基础,参照物);“1”代表报告期(被⽐较的效应)。
虚拟变量回归模型
6.3 包含一个定量变量、一个多分定 性变量的 回归
如果根据地区不同将学校分为三类:南部;东北和中 北部;西部。
根据虚拟变量的引入原则,变量有三个分类,需要引 入?个虚拟变量。
1 东北和中北
部地区
D2
第6章 虚拟变量回归模 型
单击此处添加副标题
汇 报 人 姓汇名报 日 期
目录
CONTENTS Yi432.41380.0013Xi
1
X代表家庭年收入
2
Y代表数学分数
○ 数值变量
○ 定量变量
6.1 虚拟变量的性质
调查研究显示,在其它条件相同的情况下,
大学女教师的收入低于男教师。这意味着在影 响教师收入的因素中,需要考虑到性别这个变 量。
女
1
0
男
0
1
01
包 含 一Y 个i= 定 量B 变1量+ ,B 一2D 个 两i+ 分 定B 3 性X 变i量+ 的u 回i归
ቤተ መጻሕፍቲ ባይዱ02
注意区分当虚拟变量取不同值时,Y的条件均值的
含义,以及虚拟变量的回归系数的含义。
E (Y |X i,D 0 ) B 1 B 3X i
E ( Y |X 0i3,D Y代1 代表) 表男 食( 品B 支1 出 ,XB 代2 表) 税 后B 收3 入X ,Di取值1代表女,0
1
西部地区
D3
0 其他地区
0 其他地区
A c c e p ti 4 4 .5 4 1 1 0 .6 8 D 2 1 2 .5 0 1 D 3
t ( 1 4 .3 8 )( 2 .6 7 )( 2 .2 6 )
第七章 多元回归分析-虚拟变量
虚拟变量之间的交叉项(续)
• 模型可以写成 y = β0 + δ1male + δ2hsgrad + δ3colgrad + δ4male*hsgrad + δ5male*colgrad + β1x + u, 那么: • 若 male = 0 且 hsgrad = 0 且 colgrad = 0 则 y = β0 + β1x + u • 若 male = 0 且 hsgrad = 1 且 colgrad = 0 则 y = β0 + δ2hsgrad + β1x + u • 若male = 1且hsgrad = 0且 colgrad = 1 则 y = β0 + δ1male + δ3colgrad + δ5male*colgrad + β1x + u
δ0 > 0 且 δ1 < 0的例子
y y = β0 + β1x d=0 d=1 y = (β0 + δ0) + (β1 + δ1) x x
检验不同组之间的差异
• 为了检验一个回归方程对不同的组是否应 该取不同的参数,我们可以检验表示组的 虚拟变量及其和所有其他x变量的交叉项的 显著性 • 因此可以估计有所有交叉项和没有交叉项 两种情况下的模型,然后构造F 统计量, 但 这种方法不容易把握
在项目评估中的注意之处
• 当我们考查一个项目的影响时,我们常会 用到虚拟变量 • 例如,我们会遇到一些接受过工作培训或 福利项目的人的数据,等等 • 需要记住的是:通常个人会对是否参与某 个项目做出选择的,这样就可能存在自选 择的问题
自选择的问题
• 如果我们能够控制住所有与是否参加项目 以及相应结果相关的因素,那么自选择也 就不是一个问题 • 但是,通常存在一些不可观察的因素与参 与行为相关 • 在这种情况下,项目效果的估计就是有偏 的,我们也不应该在此基础上进行政策的 制定!
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
是用作解释变量。
例如:一个以性别为虚拟变量来考察职工薪金的模型如下:
Yi = b0 b1 X i b2 Di mi
其中 (7-1)
Yi ——为职工的薪金; X i ——为职工工龄;
Di =1 ——代表男性 Di =0 ——代表女性
§7.2 虚拟变量的引入
虚拟变量做为解释变量引入模型有两种基本方式:
1 D1 = 0 高中 其他 1 D2 = 0 大学及其以上 其他
模型可设定如下:
Yt = b 0 b 1 X t b 2 D1 b 3 D2 m t
在E(mt)=0 的初始假定下,高中以下、高中、大 学及其以上教育水平下个人保健支出的函数: 高中以下: 高中:
E(Yt | X t , D1 = 0, D2 = 0) = b 0 b1 X t
(2)乘法类型
例7.1.6 随着收入水平的提高,家庭教育费用支出的边际消费倾向
可能会发生变化。为了反映定性因素对斜率的影响,可以用乘法方式 引入虚拟变量,将家庭教育费用支出函数取成:
图7.1.2 虚拟变量对斜率的影响
如,设
1 正常年份 消费模型可建立如下: Dt = 0 反常年份
Ct = b 0 b1 X t b 2 Dt X t m t
对某些产品(如冷饮)销售的影响等。
为了能够在模型中反映这些因素的影响,并提高模型的精度,需要将 它们人为地“量化”,这种“量化”通常是通过引入“虚拟变量”来完成的。
这种用两个相异数字来表示对被解释变量有重要影响而自身又 没有观测数值的一类变量,称为虚拟变量(dummy variables)。
虚拟变量也称为哑变量或定性变量。
yt = b0 b1 xt a xt x Dt ut
t
临界指标的虚拟变量的引入 在经济发生转折时期,可通过建立临 界指标的虚拟变量模型来反映。
当截距与斜率发生变化时,则需要同时引入加 法与乘法形式的虚拟变量。
OLS法得到该模型的回归方程为
则两时期进口消费品函数分别为:
当t<t*=1978年,
一个以性别为虚拟变量考察企业职工薪金的模型:
Yt = b 0 b 1 X t b 2 Dt m t
其中:Yt为企业职工的薪金,Xt为工龄, Dt=1,若是男性,Dt=0,若是女性。
虚拟变量模型
同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型。
在模型中,虚拟变量可作为解释变量,也可作为被解释变量,但主要
β2 β0
收入
还可将多个虚拟变量引入模型中以考察多种 “定性”因素的影响。
如在上述职工薪金的例中,再引入代表学历 的虚拟变量D2:
1 本科及以上学历 D2 = 0 本科以下学历
职工薪金的回归模型可设计为:
Yt = b 0 b 1 X t b 2 D1 b 3 D2 m t
于是,不同性别、不同学历职工的平均薪 金分别为:
•女职工本科以下学历的平均薪金: E(Yt | X t , D1 = 0, D2 = 0) = b 0 b 1 X t
•男职工本科以下学历的平均薪金:
E(Yt | X t , D1 = 1, D2 = 0) = ( b 0 b 2 ) b 1 X t
•女职工本科以上学历的平均薪金:
E(Yt | X t , D1 = 0, D2 = 1) = ( b 0 b 3 ) b 1 X t
许多经济变量是可以定量度量的,如:商品需求量、价格、 收入、产量等, 但也有一些影响经济变量的因素无法定量度量,如:职业、 性别对收入的影响,战争、自然灾害对GDP的影响,季节 对某些产品(如冷饮)销售的影响等等。 为了在模型中能够反映这些因素的影响,并提高模型的精 度,需要将它们“量化”。
这种“量化”通常是通过引入“虚拟变量”来完成 的。根据这些因素的属性类型,构造只取“0”或“1”的人工 变量,通常称为虚拟变量(dummy variables),记为D。
双值变量、类型变量、定性变量、二元型变量、名义变量等,习惯上用字母D表
示。例如
虚拟变量
为什么要引入“虚拟变量” ??
许多经济变量是可格、收入、产量等
但是也有一些影响经济变量的因素无法定量度量或者说无法直接观测
如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节
影响,1978年前后,y和x
例如,进口消费品数量Y主要取决于国民收入 X的多少,中国在改革开放前后,Y对X的回归关 系明显不同。 这时,可以t*=1978年为转折期,以1978年 的国民收入Xt*为临界值,设如下虚拟变量:
1 Dt = 0
t t* t t*
则进口消费品的回归模型可建立如下:
加法方式 所设定的计量经济模型中加入适当的虚拟变量,此
时虚拟变量与其他解释变量在设定模型中是相加关 系。其作用是改变了设定模型的截距水平。
乘法方式
在所设定的计量经济模型中,将虚拟解释变量与其
他解释变量相乘作为新的解释变量出现在模型中,
以达到其调整设定模型斜率系数的目的。
§7.2 虚拟变量的引入
加法方式引入虚拟变量,考察:截距的不同, 许多情况下:往往是斜率就有变化,或斜率、截距同时发 生变化。 斜率的变化可通过以乘法的方式引入虚拟变量来测度。
例:根据消费理论,消费水平C主要取决于收入水平Y,但 在一个较长的时期,人们的消费倾向会发生变化,尤其是在自 然灾害、战争等反常年份,消费倾向往往出现变化。这种消费 倾向的变化可通过在收入的系数中引入虚拟变量来考察。
2.引入虚拟变量的作用
引入虚拟变量的作用,在于将定性因素或属性因素对因变 量的影响数量化。
(1)可以描述和测量定性(或属性)因素的影响;
(2)能够正确反映经济变量之间的相互关系,提高模型的精 度;
(3)便于处理异常数据。设置虚拟变量 (即将异常数据作为
一个特殊的定性因素)。例如:
§7.1 虚拟变量的基本含义
年薪 Y 男职工 女职工
b0+a
b0
工龄 X
7.2.虚拟变量的引入
虚拟变量作为解释变量引入模型有两种基本方式:加法方式和乘法方式。
1. 加法方式
1 男性 yt = b0 b1 xt aDt ut , D = 0 女性
E ut = 0 ,则:
为什么下面这样的写法?
上述职工薪金模型(7-1)中性别虚拟变量的引入就采取了加法方式, 在该模型中,如仍假定
例如:
1)表示性别的虚拟变量可取为
D1=
1 0
男性 女性
4)表示消费心理的虚拟变量可取为
2)表示文化程度的虚拟变量可取为 D2= 1 本科及以上学历
D4=
1 0
喜欢某种商品 不喜欢某种商品
0
本科以下学历
5)表示天气变化的虚拟变量可取为
3)表示地区的虚拟变量可取为 D3=
1
0
城市
农村
D5=
1 0
晴天 雨天
图7-1 男女职工平均薪金示意图
a。
可以通过传统的回归检验,对 a 的统计显著性进行检验, 以判断男女职工的平均薪金水平是否显著差异。
例7.1.4 居民家庭的教育费用支出除了受收入水平的影 响之外,还与子女的年龄结构密切相关。如果家庭中 有适龄子女(6-21岁),教育费用支出就多。因此,为了 反映“子女年龄结构”这一定性因素,设置虚拟变量:
E(Yt | X t , D1 = 1, D2 = 0) = ( b 0 b 2 ) b 1 X t
大学及其以上:E(Yt | X t , D1 = 0, D2 = 1) = ( b 0 b 3 ) b1 X t
假定b3>b2,其几何意义:
大学教育 保健 支出
β3
高中教育 低于中学教育
第7章 虚拟变量回归模型
§7.1 虚拟变量的基本含义 §7.2 虚拟变量的引入 §7.3 案例分析
第7章 单方程回归模型的几个专门问题
7.1 虚拟变量
7.1.1 虚拟变量的概念及作用
1.虚拟变量的内涵 在计量经济学中,我们把反映定性(或属性)因素变化,取值为0和1的人工 变量称为虚拟变量(Dummy Variable),或称为哑变量、虚设变量、属性变量、
图7.1.1表明,在相同的收入水平情况下,有适龄子女家庭的教育费用平均要 比无适龄子女家庭的教育费用多支a出个单位。
图7.1.1 虚拟变量对截距的影响
又例:在横截面数据基础上,考虑个人保健支出对 个人收入和教育水平的回归。 教育水平考虑三个层次:高中以下, 高中, 大学及其以上 这时需要引入两个虚拟变量:
•男职工本科以上学历的平均薪金: E(Yt | X t , D1 = 1, D2 = 1) = ( b 0 b 2 b 3 ) b1 X t
2、乘法方式
在所设定的计量经济模型中,将虚拟解释变量与其他解释变
量相乘作为新的解释变量出现在模型中,以达到其调整设定 模型斜率系数的目的。
乘法形式引入虚拟解释变量的主要作用:①两个回归模型之间的比较; ②因素之间的交互影响分析;③提高模型对现实经济现象的描述精度。
建立企业年薪模型:yt=b0+b1xt+aD+ut
企业女职工的薪金模型:yt=b0+b1xt+ut 企业男职工的薪金模型:yt=(b0+a)+b1xt+ut
几何意义:
yt=b0+b1xt+aD+ut
男女职工的年薪对工龄的函数具有相同 斜率b1,表明随着工龄的增长,男女职工 工资的增长幅度相同;截距不同,说明男 女职工的初始年薪不同。这种虚拟变量只 影响截距不影响斜率的模型为加法模型。
例如,反映文程度的虚拟变量可取为: 1, 本科学历 D= 0, 非本科学历 一般地,在虚拟变量的设置中: