3.6 虚拟变量模型 计量经济学PPT课件
合集下载
第七章 虚拟变量 虚拟变量回归模型ppt汇总 计量经济学
第七章 虚拟变量
• 在回归分析中,被解释变量的影响因素 除了量(或定量)的因素还有质(或定 性)的因素,这些质的因素可能 会使回 归模型中的参数发生变化,为了估计质 的因素产生的影响,在模型中就需要引 入一种特殊的变量—虚拟变量。
2020/6/16
(二)作用
• 1、可以描述和测量定性(或属性)因素 的影响;
2、多个因素各两种属性
• 如果有m个定性因素,且每个因素各有两个不同的 属性类型,则引入m个虚拟变量。
• 例2
• 研究居民住房消费函数时,考虑到城乡差异和不同 收入层次的影响将消费函数设定为:
Yt=b0+b1Xt+a1D1t+ a2D2t+ μt
Yt=居民住房消费支出
Xt=居民可支配收入
1城镇居民
2020/6/16
虚拟变量对截距的影响
y
有适龄子女
b0
o
图1 虚拟变量对截距的影响
x
2020/6/16
2、乘法方式引入虚拟变量
• 基本思想:以乘法方式引入虚拟解释变量
,是在所设定的计量经济模型中,将虚拟 解释变量与其他解释变量相乘作为新 的解释变量,以达到其调整模型斜率的
目的。 • 该方式引入虚拟变量主要作用:
D=
0 无适龄子女
将家庭教育费用支出函数写成:Yt=b0+b1Xt+aDt+μt 即以加法形式引入虚拟变量。
2020/6/16
子女年龄结构不同的家庭教育 费用支出函数为:
• 无适龄子女家庭的教育费用支出函数(D=0 ):Yt=b0+b1Xt+μt
• 有适龄子女家庭的教育费用支出函数(D=1 ):Yt=(b0+a)+b1Xt+μt
• 在回归分析中,被解释变量的影响因素 除了量(或定量)的因素还有质(或定 性)的因素,这些质的因素可能 会使回 归模型中的参数发生变化,为了估计质 的因素产生的影响,在模型中就需要引 入一种特殊的变量—虚拟变量。
2020/6/16
(二)作用
• 1、可以描述和测量定性(或属性)因素 的影响;
2、多个因素各两种属性
• 如果有m个定性因素,且每个因素各有两个不同的 属性类型,则引入m个虚拟变量。
• 例2
• 研究居民住房消费函数时,考虑到城乡差异和不同 收入层次的影响将消费函数设定为:
Yt=b0+b1Xt+a1D1t+ a2D2t+ μt
Yt=居民住房消费支出
Xt=居民可支配收入
1城镇居民
2020/6/16
虚拟变量对截距的影响
y
有适龄子女
b0
o
图1 虚拟变量对截距的影响
x
2020/6/16
2、乘法方式引入虚拟变量
• 基本思想:以乘法方式引入虚拟解释变量
,是在所设定的计量经济模型中,将虚拟 解释变量与其他解释变量相乘作为新 的解释变量,以达到其调整模型斜率的
目的。 • 该方式引入虚拟变量主要作用:
D=
0 无适龄子女
将家庭教育费用支出函数写成:Yt=b0+b1Xt+aDt+μt 即以加法形式引入虚拟变量。
2020/6/16
子女年龄结构不同的家庭教育 费用支出函数为:
• 无适龄子女家庭的教育费用支出函数(D=0 ):Yt=b0+b1Xt+μt
• 有适龄子女家庭的教育费用支出函数(D=1 ):Yt=(b0+a)+b1Xt+μt
第四讲 虚拟变量ppt课件
① 若定性变量含有 m 个类别,则模型中最多只能引入 m-1 个虚拟变量,例如对于季 据(有 4 个季节) ,最多只能引入 3 个虚拟变量。当引入 4 个虚拟变量时,就会导致多 注意: (1) 当定性变量含有 m 个类别时,模型不能引入 m个虚 线性。看表 8-1 数据,4 个虚拟变量定义为, 拟变量。最多只能引入 m -1个虚拟变量,否则当模型中存在
2. 测量斜率变动
以上介绍了用虚拟变量测量回归函数的截距变化。实际上,也可以用虚拟 变量考察回归函数的斜率是否发生变化。方法是在模型中加入定量变量与
虚拟变量的乘积项。设模型如下,
Yi = 0 + 1 Xi + 2 Di + 3 (Xi Di) + ui
100 Y 80
按2,3 是否为零,回归函数可有如下四种形式。
表 8-1 xt 和虚拟变量 D1、D2、D3、D4 截距项时就会产生完全多重共线性,无法估计回归参数。比 t xt D1 D2 D3 D4 如,对于季节数据引入 4个虚拟变量,数据如下表, 1995.2 1995.1 x1 1995.3 1995.2 x2 1995.4 1995.3 x3 1996.1 1995.4 x4 1996.2 1996.1 x5 1996.3 1996.2 x6 1996.4 1996.3 x7 1997.1 1996.4 x8 1997.1 … x9
Yˆ i = - 0.5667 + 0.0963 Xi
(-3.5) (11.6) R2 = 0.88, DW = 1.85
比较回归方程,前者的确定系数为0.99,后者的确定系数仅为0.88。说 明该回归模型中引入虚拟变量非常必要。
把“季节”因素引入模型
“季节”是在研究经济问题中常常遇到的定性因素。比如,酒,肉的销量 在冬季要超过其它季节,而饮料的销量又以夏季为最大。当建立这类问 题的计量模型时,就要考虑把“季节”因素引入模型。由于一年有四个 季节,所以这是一个含有四个类别的定性变量。应该向模型引入三个虚 拟变量。
虚拟变量模型.最全优质PPT
E ( Y i|X i,D 2 i 0 ,D 3 i 1 ) (1 3 ) X i
设 Y i 为消费支出;X i 为收入;D i 为虚拟变量, 即
1,城镇居民
Di 0,农村居民 i1,2,3, ,n
上述表达式的意义在于,在收入不变的条件下,研 究城镇居民和农村居民对消Y i 费的不同影响,即判断 城乡居民在消费上是否存在显著性差异。 农村居民年平均消费:
E (Y i,|X i,D i0)12X i
1.2 二态变量的作用
引入虚拟变量的作用,在于将定性因素或属性因素 对因变量的影响数量化。 1.可以描述和测量定性(或属性)因素的影响。 2.能够正确反映经济变量之间的相互关系,提高模 型的精度;例如在分段回归中的应用。 3.便于处理异常数据。由于某些突发事件的存在, 如战争、自然灾害,使原本比较稳定的经济关系发 生一段时间的混乱,此时可以利用虚拟变量。
设变量D表示某种属性,该属性有两种类型,即当 属性存在时D取值为1;当属性不存在时D取值为0。 记为
1 具有某种属性 D0 不具有该属性
该变量D即为二态变量。二态变量又称虚拟变量、 名义变量或哑变量,是用以反映质的属性的一个人 工变量,是量化了的质变量,通常取值为0或1, 一般“1”代表某一属性存在,“0”代表某一属 性不存在, 即“是”或“否”,“男”或“女”等。
对上述模型进行回归,利用样本统计量对假 设作出判断(t检验)。只有一个定性解释变 量往往可用于检验一个属性因素对被解释变 量的影响是否显著性存在。
2.1.2 模型中有一个定量解释变量和一
个定性解释变量
设模型形式为
Y i12Xi3D iui
式中,X i 为定量变量,D i 为具有两个属性类型 的定性变量。
设模型形式为
设 Y i 为消费支出;X i 为收入;D i 为虚拟变量, 即
1,城镇居民
Di 0,农村居民 i1,2,3, ,n
上述表达式的意义在于,在收入不变的条件下,研 究城镇居民和农村居民对消Y i 费的不同影响,即判断 城乡居民在消费上是否存在显著性差异。 农村居民年平均消费:
E (Y i,|X i,D i0)12X i
1.2 二态变量的作用
引入虚拟变量的作用,在于将定性因素或属性因素 对因变量的影响数量化。 1.可以描述和测量定性(或属性)因素的影响。 2.能够正确反映经济变量之间的相互关系,提高模 型的精度;例如在分段回归中的应用。 3.便于处理异常数据。由于某些突发事件的存在, 如战争、自然灾害,使原本比较稳定的经济关系发 生一段时间的混乱,此时可以利用虚拟变量。
设变量D表示某种属性,该属性有两种类型,即当 属性存在时D取值为1;当属性不存在时D取值为0。 记为
1 具有某种属性 D0 不具有该属性
该变量D即为二态变量。二态变量又称虚拟变量、 名义变量或哑变量,是用以反映质的属性的一个人 工变量,是量化了的质变量,通常取值为0或1, 一般“1”代表某一属性存在,“0”代表某一属 性不存在, 即“是”或“否”,“男”或“女”等。
对上述模型进行回归,利用样本统计量对假 设作出判断(t检验)。只有一个定性解释变 量往往可用于检验一个属性因素对被解释变 量的影响是否显著性存在。
2.1.2 模型中有一个定量解释变量和一
个定性解释变量
设模型形式为
Y i12Xi3D iui
式中,X i 为定量变量,D i 为具有两个属性类型 的定性变量。
设模型形式为
计量经济学(第四版)3.6 虚拟变量模型
– 设置多个虚拟变量,理论上正确,带来自由度损失。 – 以定性变量为研究对象,构造多元排序离散选择模型,然后
以模型结果对定性变量的各种状态赋值。但需要更多的信息 支持。
• 赋值的方法等于是对虚变量方法中的各个虚变量的参 数施加了约束,而这种约束经常被检验为错误的。
– 模型含常数项
– 模型不含常数项
讨论:定序定性变量可否按照状态赋值?
• 例如:表示居民对某种服务的满意程度,分5种状态: 非常不满意、一般不满意、无所谓、一般满意、非常 满意。在模型中按照状态分别赋值0、1、2、3、4或 者-2、-1、0、1、2。
• 被经常采用,尤其在管理学、社会学研究领域。
• 正确的方法:
三、虚拟变量的设置原则
• 每一定性变量(qualitative variable)所需的虚 拟变量个数要比该定性变量的状态类别数 (categories)少1。即如果有m种状态,只在模 型中引入m-1个虚拟变量。
• 例如,季节定性变量有春、夏、秋、冬4种状 态,只需要设置3个虚变量:
1 春季
1 夏季
• 对于一元模型,有两组样本,则有可能出现下 述四种情况中的一种:
– 1=1 ,且2=2 ,即两个回归相同,称为重合回 归(Coincident Regressions);
– 11 ,但2=2 ,即两个回归的差异仅在其截距, 称为平行回归(Parallel Regressions);
– 称1=为汇1 合,回但归2(Co2n,cu即rre两nt个R回eg归re的ss差ion异s)仅;在其斜率,
年薪 Y
2 0
男职工 女职工
工龄 X
• 将上例中的性别换成教育水平,教育水平考虑 三个层次:高中以下、高中、大学及其以上。
以模型结果对定性变量的各种状态赋值。但需要更多的信息 支持。
• 赋值的方法等于是对虚变量方法中的各个虚变量的参 数施加了约束,而这种约束经常被检验为错误的。
– 模型含常数项
– 模型不含常数项
讨论:定序定性变量可否按照状态赋值?
• 例如:表示居民对某种服务的满意程度,分5种状态: 非常不满意、一般不满意、无所谓、一般满意、非常 满意。在模型中按照状态分别赋值0、1、2、3、4或 者-2、-1、0、1、2。
• 被经常采用,尤其在管理学、社会学研究领域。
• 正确的方法:
三、虚拟变量的设置原则
• 每一定性变量(qualitative variable)所需的虚 拟变量个数要比该定性变量的状态类别数 (categories)少1。即如果有m种状态,只在模 型中引入m-1个虚拟变量。
• 例如,季节定性变量有春、夏、秋、冬4种状 态,只需要设置3个虚变量:
1 春季
1 夏季
• 对于一元模型,有两组样本,则有可能出现下 述四种情况中的一种:
– 1=1 ,且2=2 ,即两个回归相同,称为重合回 归(Coincident Regressions);
– 11 ,但2=2 ,即两个回归的差异仅在其截距, 称为平行回归(Parallel Regressions);
– 称1=为汇1 合,回但归2(Co2n,cu即rre两nt个R回eg归re的ss差ion异s)仅;在其斜率,
年薪 Y
2 0
男职工 女职工
工龄 X
• 将上例中的性别换成教育水平,教育水平考虑 三个层次:高中以下、高中、大学及其以上。
计量经济学课件虚拟变量
提高模型精度和预测能力
通过引入虚拟变量,可以更准确地刻画经济现象的非线性特征,从而提高计量经济学模型 的精度和预测能力。
拓展应用领域
虚拟变量的引入使得计量经济学模型能够应用于更多的领域,如金融、环境、社会等,进 一步拓展了计量经济学的应用范围。
未来研究方向和趋势
深入研究虚拟变量的理论 和方法
未来研究将进一步深入探讨虚 拟变量的理论和方法,包括虚 拟变量的选择、设定和估计方 法等,以更准确地刻画经济现 象。
https://
未来研究将积极推动虚拟变量 在交叉学科领域的应用,如环 境经济学、金融经济学等,以 促进不同学科之间的交流和合 作。
WENKU DESIGN
WENKU DESIGN
2023-2026
END
THANKS
感谢观看
KEEP VIEW
WENKU DESIGN
WENKU DESIGN
WENKU
REPORTING
要点二
虚拟变量的设置原则
在设置虚拟变量时,需要遵循完备性 和互斥性的原则。完备性要求虚拟变 量的取值能够覆盖所有可能的情况, 而互斥性则要求不同虚拟变量之间不 能存在重叠或交叉的情况。
要点三
虚拟变量的回归系数 解释
在线性回归模型中,虚拟变量的回归 系数表示该定性因素对因变量的影响 程度。当虚拟变量取值为1时,其对 应的回归系数表示该水平与参照水平 相比对因变量的影响;当虚拟变量取 值为0时,则表示该水平对因变量没 有影响。
参数估计与假设检验
参数估计
采用最小二乘法等估计方法,对引入虚拟变量后的模型进行参数估计,得到各 解释变量的系数估计值。
假设检验
根据研究问题和假设,构建相应的原假设和备择假设,通过t检验、F检验等方 法对参数进行假设检验,判断虚拟变量对模型的影响是否显著。
通过引入虚拟变量,可以更准确地刻画经济现象的非线性特征,从而提高计量经济学模型 的精度和预测能力。
拓展应用领域
虚拟变量的引入使得计量经济学模型能够应用于更多的领域,如金融、环境、社会等,进 一步拓展了计量经济学的应用范围。
未来研究方向和趋势
深入研究虚拟变量的理论 和方法
未来研究将进一步深入探讨虚 拟变量的理论和方法,包括虚 拟变量的选择、设定和估计方 法等,以更准确地刻画经济现 象。
https://
未来研究将积极推动虚拟变量 在交叉学科领域的应用,如环 境经济学、金融经济学等,以 促进不同学科之间的交流和合 作。
WENKU DESIGN
WENKU DESIGN
2023-2026
END
THANKS
感谢观看
KEEP VIEW
WENKU DESIGN
WENKU DESIGN
WENKU
REPORTING
要点二
虚拟变量的设置原则
在设置虚拟变量时,需要遵循完备性 和互斥性的原则。完备性要求虚拟变 量的取值能够覆盖所有可能的情况, 而互斥性则要求不同虚拟变量之间不 能存在重叠或交叉的情况。
要点三
虚拟变量的回归系数 解释
在线性回归模型中,虚拟变量的回归 系数表示该定性因素对因变量的影响 程度。当虚拟变量取值为1时,其对 应的回归系数表示该水平与参照水平 相比对因变量的影响;当虚拟变量取 值为0时,则表示该水平对因变量没 有影响。
参数估计与假设检验
参数估计
采用最小二乘法等估计方法,对引入虚拟变量后的模型进行参数估计,得到各 解释变量的系数估计值。
假设检验
根据研究问题和假设,构建相应的原假设和备择假设,通过t检验、F检验等方 法对参数进行假设检验,判断虚拟变量对模型的影响是否显著。
计量经济学虚拟变量模型课件
计量经济学虚拟变量模型
21
1 正常年份 D1i 0 非正常年份
式(5.2)也可表示为
1 非正常年份 D2i 0 正常年份
Y i 0 X 1 i 1 X 2 i 2 X 3 i 3 X i u i (5.3)
其中,X 1i1 ,X 2iD 1i,X 3iD 2i,显然如下等式成立。
X1i X2i X3i
计量经济学虚拟变量模型
3
例如,性别可表现为男或女;人种可表 现为白种人和非白种人;宗教信仰可表 现为教徒和非教徒;政府的经济政策可 表现为改革开放前和改革开放后,如此 等等。
Hale Waihona Puke 计量经济学虚拟变量模型4
显然,这种不同的具体形式是无法直接引 入经济计量模型中去的。但由于这类变量 通常表现为品质、属性、种类的出现或者 未出现,所以我们可以根据质量变量的这 一特征将其数量化。
Y i1 D 1 i2 D 2 i3 X i u i (5.5)
显然模型(5.5)中,解释变量D1,D2和X之间 无完全的多重共线性。可以使用普通最小二乘 法估计式(5.5)的参数。
第五章 虚拟变量模型
在经济计量模型中除了有量的因素外 还有质的因素,质的因素包括被解释变量 为质的因素和解释变量为质的因素。如果 被解释变量为质的因素,主要是逻辑回归 要涉及的内容。
计量经济学虚拟变量模型
1
第一节 虚拟变量的概念与设定
一、虚拟变量的概念 在经济计量分析中, 经常会碰到所建模
型的被解释变量不仅受诸如收入、产量 、价格、 成本、需求、投资等数量变量
(5.4)
计量经济学虚拟变量模型
22
式(5.4)表明模型(5.3)即原模型(5.2)中有 完全的多重共线性,将导致最小二乘估计无 解。我们称该情景为掉入虚拟变量陷阱。所 以,在有截距项的情况下,如果一个质的因 素有多少个特征就引入多少个虚拟变量是行 不通的。
计量经济第七章虚拟变量模型课件
log
P2i P1i
21
21 X i ;
log
P3i P1i
31
31 X i ;
log
P3i P2i
32
32 X i .
其中 P1i、P2i、P3i 分别表示第 个决策者做出 第1、2、3个选择的概率。
23
Yi 0 1D1i ui ,
i 1,2, ,n.
其中 Yi
为个人月支出,
D1i
=
1,已婚 0,未婚
6
• 未婚者的月期望支出为:
E Yi | D1i 0 E 0 1 0 ui 0
• 已婚者的月期望支出为:
E Yi | D1i 1 E 0 1 1 ui 0 1
0 :未婚者的月平均支出 1 :未婚者与已婚者的月平均支出差距 0 1 :已婚者的月平均支出
Zi
f
1
Pi
ln
1
Pi Pi
ln
Pi 1 Pi
0
1
X1i
+
+k X ki
17
二、二元Logit模型估计
• 1.可重复观测数据的二元Logit模型 参数估计
• P144 【相关链接】
• 2.不可重复观测数据的二元Logit模 型参数估计
• P145 【相关链接】
18
三、模型检验与拟合优度
定义:以虚拟变量为因变量的线性回 归模型称为线性概率模型。
(linear probability model,LPM) 模型的基本形式为:
Yi 0 1X1i +2 X2i k Xki ui ,
E Yi | X 0 1X1i +2 X2i k Xki ,
i 1,2, ,n.
《虚拟变量模型 》课件
业类型的效应,可以使用虚拟变量模型。理分类变量对连续结果的影响,能够同时分析多个分类变量的效应,有助于更好地理解数据之 间的关系。
缺点
当分类变量类别过多时,会导致虚拟变量的数量增加,从而增加模型的复杂性和计算负担。此外,虚 拟变量模型对于非线性关系的处理能力有限,可能无法准确捕捉数据之间的关系。
虚拟变量模型
目录
• 虚拟变量模型概述 • 虚拟变量模型的建立 • 虚拟变量模型的参数估计与检验 • 虚拟变量模型的应用案例 • 虚拟变量模型的局限性及未来研究方向 • 结论
01
虚拟变量模型概述
定义与特点
定义
虚拟变量模型是一种统计学方法,用于处理分类变量对连续结果的影响。它通过引入一系列二进制(或多元)虚 拟变量来代表分类变量的不同类别。
详细描述
通过引入虚拟变量,研究者可以控制和比较不同类别消费者之间的差异,例如 不同年龄、性别、收入水平的消费者在产品选择、品牌忠诚度和价格敏感度等 方面的表现。
案例二:市场细分研究
总结词
虚拟变量模型在市场细分研究中起到关 键作用,帮助企业了解不同客户群体的 需求和行为特征,从而制定更精准的市 场策略。
确定虚拟变量的数量
根据分类变量的数量,确定需要创建的虚拟变量的数量。
命名虚拟变量
为每个虚拟变量选择一个有意义的名称,以便在模型中使用。
构建虚拟变量模型
确定模型的形式
根据研究假设和问题,选择适合的模型形式 ,如线性回归、逻辑回归等。
引入虚拟变量
将选定的虚拟变量引入到模型中,并根据模 型的要求设置相应的参数。
特点
虚拟变量模型能够揭示分类变量对连续结果的影响,同时能够处理多个分类变量对结果的影响。它通过引入虚拟 变量来控制分类变量的效应,从而更好地理解数据之间的关系。
计量经济学第二版第8章-虚拟变量ppt课件
表1 我国各地区城乡居民收入 单位:元、人
地区 城镇居民
农村居民
人均可支配收入
人均纯收入
北 京 26738.48
11668.59
天 津 21402.01
8687.56
河 北 14718.25
5149.67
山 西 13996.55
4244.10
内蒙古 15849.19
4937.80
辽 宁 15761.38
➢ 了解线性概率模型、Logit模型和Probit模型的基 本思想和估计方法。
精品课件
引例:男女大学生的消费差异
在校大学生的消费行为越来越受到社会的关 注,学生家长也很关心自己的子女上大学的 花费问题。由共青团、全国学联共同发布的 《2004中国大学生消费与生活形态研究报告》 显示,当代大学生在消费结构方面呈现多元 化趋势。大学生除了日常生活费开支以外, 还有人际交往、网络通信、书报、衣着类、 化妆品类、电脑类、旅游类、食品类、学习 用品类、各类考证类等多重消费。
Yi=(a+α2)+ bxi+εi 研究生(D1=0,D2=1)
三类年薪函数的差异情况如下图所示:
上图直观地描述了三类 年薪函数的差异情况, 通过检验、 α1 、α2的 显著性,可以判断学历 层次对职员的年薪是否 有显著影响。
年薪
α1
精品课件
α2 -α1
研究生 本科 大专以下
工龄
虚拟变量数量的设置规则
4478.35
四 川 13839.40
4462.05
贵 州 12862.53
3005.41
云 南 14423.93
3369.34
西 藏 13544.41
3531.72
计量经济学课件虚拟变量
2. 检验模型结构的稳定性
定义: 如果模型中参数的估计值与样本的选取无关, 则称该模型结构是稳定的。 用途: (1)检验多重共线性; (2)比较两个回归模型是否存在显著差异。 例:不同时期、不同地区、不同行业
模型:
样本1
样本2
y a1 b1 x
y a2 b2 x
组合:y a bx D XD
1 D 0 1 D 0
1 D 0 1 D 0
宽松政策 紧缩政策 发达地区 不发达地区
销售旺季 销售淡季
高收入家庭 低收入家庭
作用:
⑴描述和测量定性因素的影响; ⑵正确反映经济变量之间的关系,提高模型的精度 ⑶便于处理异常数据。
本节学习要求: 1958 年 1 D 其他年份 ⑴如何设置虚拟变量; 0 ⑵如何描述和测量定性因素的影响。
东 中 西
中部地区 其他地区
α2 -α1
(a 1 ) bX
东部地区 其他地区
α1
a bX
方式3:设置3个虚拟变量
1 D1 0
1 D3 0
中部地区 其他地区
西部地区 其他地区
1 D2 0
东部地区 其他地区
D1 D2 D3 1
虚拟变量的设置原则 1:
第四节
虚拟变量
一、虚拟变量及其作用
问题: 在计量经济模型中如何反映定性因素影响?例如:
金融计量分析中的政策因素、心理因素 经济增长分析中的地区差异因素 产品销售分析中的季节因素、消费习惯等因素
定义: 用以描述定性因素影响、只取数值0和1的人工变 量为“虚拟变量”,一般用符号D表示。 (Dummy variable—哑变量)
虚拟变量回归模型课件.ppt
第7章 单方程回归模型的几个专门问题
7.1 虚拟变量
7.1.1 虚拟变量的概念及作用
1.虚拟变量的内涵 在计量经济学中,我们把反映定性(或属性)因素变化,取值为0和1的人工变量称为 虚拟变量(Dummy Variable),或称为哑变量、虚设变量、属性变量、双值变量、类型变量、 定性变量、二元型变量、名义变量等,习惯上用字母D表示。例如
第2页,共32页。
虚拟变量
为什么要引入“虚拟变量” ?? 许多经济变量是可以定量度量的或者说是可以直接观测的
如商品需求量、价格、收入、产量等
但是也有一些影响经济变量的因素无法定量度量或者说无法直接观测
如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节 对某些产品(如冷饮)销售的影响等。
第3页,共32页。
第29页,共32页。
临界指标的虚拟变量的引入
在经济发生转折时期,可通过建立临界指 标的虚拟变量模型来反映。
第30页,共32页。
第31页,共32页。
当截距与斜率发生变化时,则需要同时引入加法与乘 法形式的虚拟变量。
OLS法得到该模型的回归方程为
则两时期进口消费品函数分别为:
当t<t*=1978年, Dt = 0
•女职工本科以上学历的平均薪金: E(Yt | Xt , D1 = 0, D2 = 1) = (b 0 + b3 ) + b1 Xt
•男职工本科以上学历的平均薪金:
E(Yt | Xt , D1 = 1, D2 = 1) = (b0 + b 2 + b3 ) + b1 Xt
第23页,共32页。
2、乘法方式
第8页,共32页。
这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些
7.1 虚拟变量
7.1.1 虚拟变量的概念及作用
1.虚拟变量的内涵 在计量经济学中,我们把反映定性(或属性)因素变化,取值为0和1的人工变量称为 虚拟变量(Dummy Variable),或称为哑变量、虚设变量、属性变量、双值变量、类型变量、 定性变量、二元型变量、名义变量等,习惯上用字母D表示。例如
第2页,共32页。
虚拟变量
为什么要引入“虚拟变量” ?? 许多经济变量是可以定量度量的或者说是可以直接观测的
如商品需求量、价格、收入、产量等
但是也有一些影响经济变量的因素无法定量度量或者说无法直接观测
如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节 对某些产品(如冷饮)销售的影响等。
第3页,共32页。
第29页,共32页。
临界指标的虚拟变量的引入
在经济发生转折时期,可通过建立临界指 标的虚拟变量模型来反映。
第30页,共32页。
第31页,共32页。
当截距与斜率发生变化时,则需要同时引入加法与乘 法形式的虚拟变量。
OLS法得到该模型的回归方程为
则两时期进口消费品函数分别为:
当t<t*=1978年, Dt = 0
•女职工本科以上学历的平均薪金: E(Yt | Xt , D1 = 0, D2 = 1) = (b 0 + b3 ) + b1 Xt
•男职工本科以上学历的平均薪金:
E(Yt | Xt , D1 = 1, D2 = 1) = (b0 + b 2 + b3 ) + b1 Xt
第23页,共32页。
2、乘法方式
第8页,共32页。
这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些
3.6虚拟变量模型
王中昭制作
• ③、混合方式:虚拟变量与各解释 变量之间同时存在相乘和相加关系。 • 特点:模型的截距和斜率均不相同。 • 例如: Yt=a1+a2Dt+b1Xt+b2Dt*Xt+μt • 当Dt=1时,截距=a1+a2,斜率= b1+b2; • 当Dt=0时,截距=a10 本科以上(含本科) , 其它 1 D2 0 本科以下 其它
C x D1 D2 0 1 1 0 0 1 0 0 1 1
建立方程: Y=a0+a1D1+a2D2+a3X+μ
职工工资 工龄
1 4 1 15 若有如下样本 : X 1 7 1 10 1 26 则D1+D2=1,导致
模型:加法模型, 乘法模型和混合模型.
王中昭制作
本节结束,See you next time!
• 作业:p106.10
由估计结果可知,这表明1989年、1990年物价的急剧变动使得 农村居民平均消费有所降低。思考:能用混合模型吗?
王中昭制作
实例3:判断中国农村居民与城镇居民的消费行为是否有显 著差异。 被解释变量:居民家庭人均生活消费支出Y 解释变量:居民家庭人均工资收入X1、其他收入X2
样本:2013年31个地区农村居民与城镇居民人均数据,虚拟变 量Di:农村居民取值1,城镇居民取值0 .
模型中引进虚拟变量的理由,在于考虑1989年、1990年物价的急 剧变动对农村居民平均消费水平的影响。D1989和D1990分别定义如下:
1 D1989 0 1989年 1 , D1990 其它 0
(-0.374) (2.47)
1990年 其它
, 样本区间为1981年至1997年, 估计结果如下 :
计量经济学第八章-虚拟变量回归PPT课件
.
15
从居民储蓄增量图(上页左图)可以看出,城乡居 民的储蓄行为表现出了明显的阶段特征:在1996 年和2000年有两个明显的转折点。再从城乡居民 储蓄存款增量与国民总收入之间关系的散布图看 (见上页右图),也呈现出了相同的阶段性特征。
.
16
为了分析居民储蓄行为在1996年前后和2000年前后三个阶段
的属性状态( m 2 ),故只设定一个虚拟变量。)
.
31
若对两个相互排斥的属性 “居民属性” ,仍然 引入 m 2 个虚拟变量,则有
(Y Y )
7759 7615.4 6253 4976.7 9457.6 13233.2 16631.9
.
13
为了研究1978—2003年期间城乡居民储蓄存款随收入的 变化规律是否有变化,考证城乡居民储蓄存款、国民总收 入随时间的变化情况,如下图所示:
.
14
从上图中,尚无法得到居民的储蓄行为发生明显改变 的详尽信息。若取居民储蓄的增量( Y Y ),并作时序 图(见左下图):
Y Y t -30790.05960.4133G N It3t t2000
这表明三个时期居民储蓄增加额的回归方程在统计
意义上确实是不相同的。1996年以前收入每增加1
亿元,居民储蓄存款的平均增加0.1445亿元;在
2000年以后,则为0.4133亿元,已发生了很大变化。
.
20
上述模型与城乡居民储蓄存款与国民总收入之间 的散布图是吻合的,与当时中国的实际经济运行 状况也是相符的。 需要指出的是,在上述建模过程中,主要是从教 学的目的出发运用虚拟变量法则,没有考虑通货 膨胀因素。而在实证分析中,储蓄函数还应当考
虑通货膨胀因素。
.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 例如,反映文程度的虚拟变量可取为:
– D=1,本科学历 – D=0,非本科学历
• 虚拟变量能否取1、0以外的数值?
2、虚拟变量模型
• 同时含有一般解释变量与虚拟变量的模型称为 虚拟变量模型或者方差分析(analysis-of variance: ANOVA)模型。
• 例如,一个以性别为虚拟变量考察企业职工薪 金的模型:
• 由变量显著性检验得到:在10%的显著性水平下,Di和 DiXi1是显著的,而DiXi2不显著。因此: – 2013年农村居民的平均消费支出要比城镇居民少 1573.9元;
– 在其他条件不变的情况下,农村居民与城镇居民的工 资收入都增加100元时,农村居民要比城镇居民多支出 19元用于生活消费;
– 农村居民与城镇居民在其他收入方面有相同的增加量 时,两者增加的消费支出没有显著差异。
错误模型
Y (X,D)α β μ
1 X11 X k1 1 0 0 0
1 X12 X k2 0 1 0 0
(X, D) 1 X13
X k3
0
0
1
0
1 X14 X k4 0 0 0 1
1 X16 X k6 1 0 0 0
解释变 量完全 共线性
• 如果在服装需求函数模型中必须包含3个定性 变量:季节(4种状态)、性别(2种状态)、 职业(5种状态),应该设置多少虚变量?
1 秋季
D1 0 其它 D2 0 其它 D3 0 其它
• 如果设置第4个虚变量,则出现“虚拟变量陷井” (Dummy Variable Trap)。为什么?
• 例如:包含季节变量的正确模型:
Yt 0 1 X 1t k X kt 1D1t 2 D2t 3 D3t t
Yt 0 1 X1t k X kt 1D1t 2 D2t 3 D3t 4 D4t t
男职工本科以上学历的平均薪金: E(Yi | X i , D1 1, D2 1) (0 2 3 ) 1 X i
2、乘法方式
• 加法方式引入虚拟变量,考察:截距的不同。 • 许多情况下,斜率发生变化,或斜率、截距同时
发生变化。
• 斜率的变化可通过以乘法的方式引入虚拟变量来 测度。
• 例如,根据消费理论,收入决定消费。但是, 农村居民和城镇居民的边际消费倾向往往是不 同的。这种消费倾向的不同可通过在消费函数 中引入虚拟变量来考察。
– 模型含常数项
– 模型不含常数项
讨论:定序定性变量可否按照状态赋值?
• 例如:表示居民对某种服务的满意程度,分5种状态: 非常不满意、一般不满意、无所谓、一般满意、非常 满意。在模型中按照状态分别赋值0、1、2、3、4或 者-2、-1、0、1、2。
• 被经常采用,尤其在管理学、社会学研究领域。
• 正确的方法:
高中以下
E(Yi | X i , D1 1, D2 0) (0 2 ) 1 X i E(Yi | X i , D1 0, D2 1) (0 3 ) 1 X i
高中 大学及以上
• 在上例中同时引入性别和教育水平:
1 男 D1 0 女
1 大学及以上 D2 0 大学以下
Yi 0 1 X i 2 D1 3 D2 i
–
回1归(1,D且issi2mila2r
,即两个回归完全不同,称为相异 Regressions)。
4、例题
• 判断中国农村居民与城镇居民的消费行为是否 有显著差异。
– 被解释变量:居民家庭人均生活消费支出Y – 解释变量:居民家庭人均工资收入X1、其他收入
X2 – 样本:2013年31个地区农村居民与城镇居民人均数
年薪 Y
2 0
男职工 女职工
工龄 X
• 将上例中的性别换成教育水平,教育水平考虑 三个层次:高中以下、高中、大学及其以上。
1 高中 D1 0 其他
1 D2 0
大学及其以上 其他
Yi 0 1 X i 2 D1 3 D2 i
E(Yi | X i , D1 0, D2 0) 0 1 X i
• 对于一元模型,有两组样本,则有可能出现下 述四种情况中的一种:
– 1=1 ,且2=2 ,即两个回归相同,称为重合回 归(Coincident Regressions);
– 11 ,但2=2 ,即两个回归的差异仅在其截距, 称为平行回归(Parallel Regressions);
– 称1=为汇1 合,回但归2(Co2n,cu即rre两nt个R回eg归re的ss差ion异s)仅;在其斜率,
模型的精度,需要将它们“量化”。 • 这种“量化”通常是通过引入“虚拟变量”来完
成的。根据这些因素的属性类型,构造只取“0” 或“1”的人工变量,通常称为虚拟变量,记为D。 • 虚拟变量只作为解释变量。
• 一般地,在虚拟变量的设置中:
– 基础类型、肯定类型取值为1; – 比较类型,否定类型取值为0。
女职工本科以下学历的平均薪金:
E(Yi | X i , D1 0, D2 0) 0 1 X i
男职工本科以下学历的平均薪金: E(Yi | X i , D1 1, D2 0) (0 2 ) 1 X i
女职工本科以上学历的平均薪金: E(Yi | X i , D1 0, D2 1) (0 3 ) 1 X i
E(Yi | X i , Di 1) ( 0 2 ) 1 X i E(Yi | X i , Di 0) 0 1 X i
– 假定2>0,则两个函数有相同的斜率,但有不同的截距。 意即,男女职工平均薪金对工龄的变化率是一样的,但 两者的平均薪金水平相差2。
– 可以通过对2的统计显著性进行检验,以判断企业男女 职工的平均薪金水平是否有显著差异。
1 Di 0
农村居民 城镇居民
Ci 0 1 X i 2 Di X i i
农村居民: 城镇居民:
E(Ci | X i , Di 1) 0 (1 2 )X i E(Ci | X i , Di 0) 0 1 X i
3、同时引入加法与乘法形式的虚拟变量
• 当截距与斜率发生变化时,则需要同时引入加 法与乘法形式的虚拟变量。
– 设置多个虚拟变量,理论上正确,带来自由度损失。 – 以定性变量为研究对象,构造多元排序离散选择模型,然后
以模型结果对定性变量的各种状态赋值。但需要更多的信息 支持。
• 赋值的方法等于是对虚变量方法中的各个虚变量的参 数施加了约束,而这种约束经常被检验为错误的。
Yi 0 1 X i 2 Di i
其中:Yi为企业职工的薪金;Xi为工龄; Di=1, 若是男性,Di=0,若是女性。
二、虚拟变量的引入
1、加法方式
• 虚拟变量作为解释变量引入模型有两种基本方 式:加法方式和乘法方式。
• 上述企业职工薪金模型中性别虚拟变量ቤተ መጻሕፍቲ ባይዱ引入 采取了加法方式。
– 在该模型中,如果仍假定E(i)=0,则企业男、女职 工的平均薪金为:
三、虚拟变量的设置原则
• 每一定性变量(qualitative variable)所需的虚 拟变量个数要比该定性变量的状态类别数 (categories)少1。即如果有m种状态,只在模 型中引入m-1个虚拟变量。
• 例如,季节定性变量有春、夏、秋、冬4种状 态,只需要设置3个虚变量:
1 春季
1 夏季
据
– 虚拟变量Di:农村居民取值1,城镇居民取值0
总体回归模型
样本回归函数
Yi 0 0 Di 1 X i1 1 (Di X i1 ) 2 X i2 2 (Di X i2 ) i
Yˆi 2599.11573.9Di 0.486Xi1 0.190Di Xi1 0.602Xi2 0.006Di Xi2
§3.6 含有虚拟变量的多元线性回归 模型
一、含有虚拟变量的模型 一、虚拟变量的引入 二、虚拟变量的设置原则
一、含有虚拟变量的模型
1、虚拟变量(dummy variables)
• 许多经济变量是可以定量度量。 • 一些影响经济变量的因素是无法定量度量。 • 为了在模型中能够反映这些因素的影响,并提高
– D=1,本科学历 – D=0,非本科学历
• 虚拟变量能否取1、0以外的数值?
2、虚拟变量模型
• 同时含有一般解释变量与虚拟变量的模型称为 虚拟变量模型或者方差分析(analysis-of variance: ANOVA)模型。
• 例如,一个以性别为虚拟变量考察企业职工薪 金的模型:
• 由变量显著性检验得到:在10%的显著性水平下,Di和 DiXi1是显著的,而DiXi2不显著。因此: – 2013年农村居民的平均消费支出要比城镇居民少 1573.9元;
– 在其他条件不变的情况下,农村居民与城镇居民的工 资收入都增加100元时,农村居民要比城镇居民多支出 19元用于生活消费;
– 农村居民与城镇居民在其他收入方面有相同的增加量 时,两者增加的消费支出没有显著差异。
错误模型
Y (X,D)α β μ
1 X11 X k1 1 0 0 0
1 X12 X k2 0 1 0 0
(X, D) 1 X13
X k3
0
0
1
0
1 X14 X k4 0 0 0 1
1 X16 X k6 1 0 0 0
解释变 量完全 共线性
• 如果在服装需求函数模型中必须包含3个定性 变量:季节(4种状态)、性别(2种状态)、 职业(5种状态),应该设置多少虚变量?
1 秋季
D1 0 其它 D2 0 其它 D3 0 其它
• 如果设置第4个虚变量,则出现“虚拟变量陷井” (Dummy Variable Trap)。为什么?
• 例如:包含季节变量的正确模型:
Yt 0 1 X 1t k X kt 1D1t 2 D2t 3 D3t t
Yt 0 1 X1t k X kt 1D1t 2 D2t 3 D3t 4 D4t t
男职工本科以上学历的平均薪金: E(Yi | X i , D1 1, D2 1) (0 2 3 ) 1 X i
2、乘法方式
• 加法方式引入虚拟变量,考察:截距的不同。 • 许多情况下,斜率发生变化,或斜率、截距同时
发生变化。
• 斜率的变化可通过以乘法的方式引入虚拟变量来 测度。
• 例如,根据消费理论,收入决定消费。但是, 农村居民和城镇居民的边际消费倾向往往是不 同的。这种消费倾向的不同可通过在消费函数 中引入虚拟变量来考察。
– 模型含常数项
– 模型不含常数项
讨论:定序定性变量可否按照状态赋值?
• 例如:表示居民对某种服务的满意程度,分5种状态: 非常不满意、一般不满意、无所谓、一般满意、非常 满意。在模型中按照状态分别赋值0、1、2、3、4或 者-2、-1、0、1、2。
• 被经常采用,尤其在管理学、社会学研究领域。
• 正确的方法:
高中以下
E(Yi | X i , D1 1, D2 0) (0 2 ) 1 X i E(Yi | X i , D1 0, D2 1) (0 3 ) 1 X i
高中 大学及以上
• 在上例中同时引入性别和教育水平:
1 男 D1 0 女
1 大学及以上 D2 0 大学以下
Yi 0 1 X i 2 D1 3 D2 i
–
回1归(1,D且issi2mila2r
,即两个回归完全不同,称为相异 Regressions)。
4、例题
• 判断中国农村居民与城镇居民的消费行为是否 有显著差异。
– 被解释变量:居民家庭人均生活消费支出Y – 解释变量:居民家庭人均工资收入X1、其他收入
X2 – 样本:2013年31个地区农村居民与城镇居民人均数
年薪 Y
2 0
男职工 女职工
工龄 X
• 将上例中的性别换成教育水平,教育水平考虑 三个层次:高中以下、高中、大学及其以上。
1 高中 D1 0 其他
1 D2 0
大学及其以上 其他
Yi 0 1 X i 2 D1 3 D2 i
E(Yi | X i , D1 0, D2 0) 0 1 X i
• 对于一元模型,有两组样本,则有可能出现下 述四种情况中的一种:
– 1=1 ,且2=2 ,即两个回归相同,称为重合回 归(Coincident Regressions);
– 11 ,但2=2 ,即两个回归的差异仅在其截距, 称为平行回归(Parallel Regressions);
– 称1=为汇1 合,回但归2(Co2n,cu即rre两nt个R回eg归re的ss差ion异s)仅;在其斜率,
模型的精度,需要将它们“量化”。 • 这种“量化”通常是通过引入“虚拟变量”来完
成的。根据这些因素的属性类型,构造只取“0” 或“1”的人工变量,通常称为虚拟变量,记为D。 • 虚拟变量只作为解释变量。
• 一般地,在虚拟变量的设置中:
– 基础类型、肯定类型取值为1; – 比较类型,否定类型取值为0。
女职工本科以下学历的平均薪金:
E(Yi | X i , D1 0, D2 0) 0 1 X i
男职工本科以下学历的平均薪金: E(Yi | X i , D1 1, D2 0) (0 2 ) 1 X i
女职工本科以上学历的平均薪金: E(Yi | X i , D1 0, D2 1) (0 3 ) 1 X i
E(Yi | X i , Di 1) ( 0 2 ) 1 X i E(Yi | X i , Di 0) 0 1 X i
– 假定2>0,则两个函数有相同的斜率,但有不同的截距。 意即,男女职工平均薪金对工龄的变化率是一样的,但 两者的平均薪金水平相差2。
– 可以通过对2的统计显著性进行检验,以判断企业男女 职工的平均薪金水平是否有显著差异。
1 Di 0
农村居民 城镇居民
Ci 0 1 X i 2 Di X i i
农村居民: 城镇居民:
E(Ci | X i , Di 1) 0 (1 2 )X i E(Ci | X i , Di 0) 0 1 X i
3、同时引入加法与乘法形式的虚拟变量
• 当截距与斜率发生变化时,则需要同时引入加 法与乘法形式的虚拟变量。
– 设置多个虚拟变量,理论上正确,带来自由度损失。 – 以定性变量为研究对象,构造多元排序离散选择模型,然后
以模型结果对定性变量的各种状态赋值。但需要更多的信息 支持。
• 赋值的方法等于是对虚变量方法中的各个虚变量的参 数施加了约束,而这种约束经常被检验为错误的。
Yi 0 1 X i 2 Di i
其中:Yi为企业职工的薪金;Xi为工龄; Di=1, 若是男性,Di=0,若是女性。
二、虚拟变量的引入
1、加法方式
• 虚拟变量作为解释变量引入模型有两种基本方 式:加法方式和乘法方式。
• 上述企业职工薪金模型中性别虚拟变量ቤተ መጻሕፍቲ ባይዱ引入 采取了加法方式。
– 在该模型中,如果仍假定E(i)=0,则企业男、女职 工的平均薪金为:
三、虚拟变量的设置原则
• 每一定性变量(qualitative variable)所需的虚 拟变量个数要比该定性变量的状态类别数 (categories)少1。即如果有m种状态,只在模 型中引入m-1个虚拟变量。
• 例如,季节定性变量有春、夏、秋、冬4种状 态,只需要设置3个虚变量:
1 春季
1 夏季
据
– 虚拟变量Di:农村居民取值1,城镇居民取值0
总体回归模型
样本回归函数
Yi 0 0 Di 1 X i1 1 (Di X i1 ) 2 X i2 2 (Di X i2 ) i
Yˆi 2599.11573.9Di 0.486Xi1 0.190Di Xi1 0.602Xi2 0.006Di Xi2
§3.6 含有虚拟变量的多元线性回归 模型
一、含有虚拟变量的模型 一、虚拟变量的引入 二、虚拟变量的设置原则
一、含有虚拟变量的模型
1、虚拟变量(dummy variables)
• 许多经济变量是可以定量度量。 • 一些影响经济变量的因素是无法定量度量。 • 为了在模型中能够反映这些因素的影响,并提高