7--虚拟变量和变参数模型
第七章 虚拟变量
第七章虚拟变量第一节虚拟变量的引入一、什么是虚拟变量前面几章介绍的解释变量都是可以直接度量的,称为定量变量。
如收入、支出、价格、资金等等。
但在现实经济生活中,影响应变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些无法定量的解释变量的影响,如性别、民族、国籍、职业、文化程度、政府经济政策变动等因素,他们只表示某种特征的存在与不存在,所以称为属性变量或定性变量。
属性变量:不能精确计量的说明某种属性或状态的定性变量。
在计量经济模型中,应当包含属性变量对应变量的影响作用。
那怎么才能把定性变量包括在模型中呢?属性变量通常是非数值变量,直接纳入回归方程中进行回归,显然是很困难的。
为此,人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与定量变量一样在回归模型中得以应用。
由于定性变量通常是表明某种特征或属性是否存在,如性别变量中以男性为分析基础的话,那就只有男性、非男性;政策变动变量中以政策不变为基准,则有政策不变,和政策变动;至于有两种以上的状态的话,比如学历分高中,本科,本科以上等等,我们又怎么办呢?把疑问留到后面去解决。
既然定性变量只有存在或不存在两种状态,所以量化的一般方法是取值为0或1。
称为虚拟变量。
虚拟变量:人工构造的取值为0或1的作为属性变量代表的变量。
一般常用D表示。
D=0,表示某种属性或状态不存在D=1,表示某种属性或状态存在比如前面说的性别变量,以男性为基准,则当样本为男性时,虚拟变量取0,当样本为女性时,则虚拟变量取1。
当虚拟变量作为解释变量引入计量经济模型时,对其回归系数的估计和统计检验方法都与定量解释变量相同。
二、虚拟变量的作用1、作为属性因素的代表,如,性别、种族等2、作为某些非精确计量的数量因素的代表,如:受教育程度、年龄段等;3、作为某些偶然因素或政策因素的代表,如战争、911等。
4、时间序列分析中作为季节(月份)的代表(比如对某些明显有淡季、旺季之分的产品)5、分段回归,研究斜率、截距的变动;6、比较两个回归模型;7、虚拟应变量概率模型,应变量本身是定性变量(比如你研究某产品的购买率,应变量本身就是买或不买)三、虚拟变量的设置规则1、虚拟变量D取值为0,还是取值为1,要根据研究的目的决定。
计量经济学第5章 虚拟变量模型
在经济计量模型中除了有量的因素外还有质的因 素,质的因素包括被解释变量为质的因素和解释变量 为质的因素。如果被解释变量为质的因素,主要是逻 辑回归要涉及的内容。本章就解释变量和被解释变量 为质的因素也就是存在虚拟解释变量和虚拟被解释变 量时如何进行参数估计等一系列问题进行讨论。
1
为基础类型截距项。
12
三、虚拟变量的作用 ⑴ 可以描述和测量定性因素的影响。
⑵ 能够正确反映经济变量之间的相互关系,提 高模型的精度。
⑶ 便于处理异常数据。
即将异常数据作为一个特殊的定性因素
1 , 异常时期
D
0
,
正常时期
13
第二节 虚拟解释变量模型
一 、截距变动模型(加法模型)
虚拟变量与其它变量相加,以加法形式引入模
Y i 0 1 D 1 i 2 D 2 i 3 X i u i
Y i ------年支出医疗保健费用支出 X i ------居民年可支配收入
18
1 , 高中
D 1i
0
,
其他
1 , 大学
D 2i
0
,
其他
于是:小学教育程度:
E (Y i X i,D 1 i 0 ,D 2 i 0 )03 X i
7
二、虚拟变量的设置规则
虚拟解释变量模型的设定因为质的因素的多少 和这些因素特征的多少而引入的虚拟变量也会不同。
以一个最简单的虚拟变量模型为例,如果只包 含一个质的因素,而且这个因素仅有两个特征,则 回归模型中只需引入一个虚拟变量。如果是含有多 个质的因素, 自然要引入多个虚拟变量。
8
如果只有一个质的因素,且该质的因素具有 m 个 相互排斥的特征(或类型、属性),那么在含有截距 项的模型中,只能引入 m-1 个虚拟变量,否则会陷入 所谓“虚拟变量陷阱”(dummy variable trap),产 生 完全的多重共线性,会使最小二乘法无解;在不含有 截距项的模型中, 引入 m 个虚拟变量不会导致完全 的多重共线性,不过这时虚拟变量参数的估计结果, 实际上是 D = 1 时的样本均值。
金融计量经济第五讲虚拟变量模型和Probit、Logit模型
二、虚拟变量的设置原则
• 引入虚拟变量一般取0和1。
• 对定性因素一般取级别数减1个虚拟变量。例 子1:性别因素,二个级别(男、女)取一个 虚拟变量,D=1表示男(女),D=0表示女 (男)。
• 例子2:季度因素,四个季度取3个变量。
1, 一季度 D1 0, 其它季度
1, 二季度
D2
0,
其它季度
• 同样可以写成二个模型:
y ˆi ˆ0(ˆˆ1)x1iˆkxki D1
y ˆi ˆ0ˆ1x1iˆkxki
D0
• 可考虑同时在截距和斜率引入虚拟变量:
y i 0 0 D i (1 D i 1 ) x 1 i k x k iu i (5.
.
.
• 3、虚拟变量用于季节性因素分析。
•取
1, 当样本 i季为 度第 的数据 Di 0,其它季度的, i数 2,3据 ,4
• 工资模型为:
• Ii01 [S 1 (1 D 1 i D 2 i)S ( i S 1 )] 2 [D 2 i(S 2 S 1 ) D 1 i(S i S 1 ) ]3 D 2 i(S i S 2 ) u i (5.7
.
D2=1
S0
D1=1
S1
S2
.
• 作OLS得到参数估计值后,三个阶段的 报酬回归模型为: Iˆi ˆ0ˆ1Si, Si S1 Iˆi ˆ0ˆ1S1ˆ2(Si S1), S2Si S1 Iˆi ˆ0ˆ1S1ˆ2(S2S1)ˆ3(Si S2), Si S2
0.503543 0.500354 1.13E+03 1.99E+09 -13241.74 1.648066
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)
虚拟变量
E(Yi | X i , D1 0, D2 1) ( 0 3 ) 1 X i
假定3>2,其几何意义:
大学教育 保健 支出 高中教育 低于中学教育
收入
自变量包含虚拟变量的回归模型
o 1999年中国人均GDP的地区差异
(1) GDPi 1513 3154easti p
1 正常年份 Dt 消费模型可建立如下: 0 反常年份
如,设
Ct 0 1 X t 2 Dt X t t
这里,虚拟变量D以与X相乘的方式引入了模型中,从而可 用来考察消费倾向的变化。 假定E(i)= 0,| X t , Dt 1) 0 ( 1 2 ) X t
为了在模型中能够反映这些因素的影响,并提 高模型的精度,需要将它们“量化”。
这种“量化”通常是通过引入“虚拟 变量”来完成的。根据这些因素的属性类 型,构造只取“0”或“1”的人工变量,通 常称为虚拟变量(dummy variables),记 为D。 例如,反映文程度的虚拟变量可取为:
1,
本科学历
虚拟变量
虚拟变量
1. 什么是虚拟变量
二分、多分变量 2. 自变量包含虚拟变量的回归模型 极差截距、极差斜率 3. 应用实例
一、虚拟变量的基本含义
许多经济变量是可以定量度量的,如:商品需
求量、价格、收入、产量等。
但也有一些影响经济变量的因素无法定量度量 ,如:职业、性别对收入的影响,战争、自然 灾害对GDP的影响,季节对某些产品(如冷饮 )销售的影响等等。
由3与4的t检验可知:参数显著地不等于0, R2 强烈示出两个时期的回归是相异的,储蓄函数 分别为:
1990年前: 1990年后:
金融计量经济第五讲虚拟变量模型和Probit、Logit模型
原始模型:
YX (5.8)
• 其中Y为观测值取1和0的虚拟被解释变量,X为 解释变量。
• 模型的样本形式: yi Xii
(5.9)
• 因为E(i)0
,E所(y以i)Xi
• 令: p i P ( y i 1 ) 1 p i P ( y i 0 )
• 于是有: E ( y i) 1 P ( y i 1 ) 0 P ( y i 0 ) p i
其它季度
1, 三季度
D3
0,
其它季度
• 小心“虚拟变量陷阱”!
精品课件
三、虚拟变量的应用
• 1、在常数项引入虚拟变量,改变截距。
y i0D 1 x 1 i kx k iu i (5.1)
• 对上式作OLS,得到参数估计值和回归模型:
y ˆiˆ0ˆD ˆ1 x 1 i ˆkx ki(5.2)
金融计量经济第五讲
虚拟变量模型和Probit、Logit模 型
精品课件
第一节 虚拟变量的一般应用
一、虚拟变量及其作用 1.定义:取值为0和1的人工变量,表示非量化
(定性)因素对模型的影响,一般用符号D表 示。例如:政策因素、地区因素、心理因素、 季节因素等。 2.作用: ⑴描述和测量定性因素的影响; ⑵正确反映经济变量之间的相互关系,提高模型 的精度; ⑶便于处理异常数据。
yˆt ˆ ˆxt yˆt ˆ ˆxt ˆ2 yˆt ˆ ˆxt ˆ3 yˆt ˆ ˆxt ˆ4
精品课件
一季度 二季度 三季度 四季度
例题:美国制造业的利润—销售额行为
• 模型:利 t 1 润 2 D 2 t 3 D 3 t 4 D 4 t ( 销 ) t u t售
0.503543 0.500354 1.13E+03 1.99E+09 -13241.74 1.648066
虚拟变量
则进口消费品的回归模型可建立如下:
Yi 0 1 Xt 2 Dt ( Xt Xt * ) t
虚拟变量模型—分段线形回归
Yi 0 1 Xt 2 Dt ( Xt Xt * ) t
1978年前的进口消费品函数为:E (Yi | Dt 0) 0 1 Xt 1978年后的进口消费品函数为:E (Yi | Dt 1) 0 2 Xt * (1 2)Xt
虚拟变量模型
• 一个以性别为虚拟变量考察工资的模型:
Yi 0 1Di Xi i
其中:Yi为工人的工资水平,Xi为教育年限, Di=1,男性,Di=0,女性。
如何检验是否存在对不同性别员工的歧视?:
通过OLS估计对模型进行估计,并检验 1 的统计显著性。
虚拟变量模型—两个种类的定性变量
Yi 0 1D1i 2 D2i X i i
其中:Yi为工人的工资水平,Xi为教育年限, D1i=1,男性,D1i=0,女性; D2i=1,女性,D2i=0,男性。
解释变量构成的矩阵(1, D1,D2,X)非满秩,参数无法求出。 这就是所谓的虚拟变量陷阱(Dummy Variable Traps)
Yi 0 1Di Xi i
其中:Yi为工人的工资水平,Xi为教育年限, Di=1,男性,Di=0,女性。
如何解释1 ?:
女员工的平均工资: E (Yi | Di 0) 0 Xi 男员工的平均工资: E (Yi | Di 1 ) 0 1 Xi 教育水平相同的情况下,男性员工的平均工资水平与女 性员工的平均工资的差距。
1,男性 D3 0,女性
计量经济第七章虚拟变量模型课件
log
P2i P1i
21
21 X i ;
log
P3i P1i
31
31 X i ;
log
P3i P2i
32
32 X i .
其中 P1i、P2i、P3i 分别表示第 个决策者做出 第1、2、3个选择的概率。
23
Yi 0 1D1i ui ,
i 1,2, ,n.
其中 Yi
为个人月支出,
D1i
=
1,已婚 0,未婚
6
• 未婚者的月期望支出为:
E Yi | D1i 0 E 0 1 0 ui 0
• 已婚者的月期望支出为:
E Yi | D1i 1 E 0 1 1 ui 0 1
0 :未婚者的月平均支出 1 :未婚者与已婚者的月平均支出差距 0 1 :已婚者的月平均支出
Zi
f
1
Pi
ln
1
Pi Pi
ln
Pi 1 Pi
0
1
X1i
+
+k X ki
17
二、二元Logit模型估计
• 1.可重复观测数据的二元Logit模型 参数估计
• P144 【相关链接】
• 2.不可重复观测数据的二元Logit模 型参数估计
• P145 【相关链接】
18
三、模型检验与拟合优度
定义:以虚拟变量为因变量的线性回 归模型称为线性概率模型。
(linear probability model,LPM) 模型的基本形式为:
Yi 0 1X1i +2 X2i k Xki ui ,
E Yi | X 0 1X1i +2 X2i k Xki ,
i 1,2, ,n.
虚拟变量模型
建立如下模型:
注意:参照组是什么?
第14页/共30页
假定E(i)=0,则: 对于女职工(D=0),其平均薪金为:
对于男职工(D=1),其平均薪金为:
可以看出,虚拟变量对应的回归系数β2表示:虚拟变量取值为1所代表的类别(男)相对于参照类别(取值为0,女)在因变量上的平均差异,反映出定性变量取值的变化对因变量的影响 从回归模型上看,两个组上的回归模型的差异主要在于截距的不同
§5.1 虚拟变量模型
第1页/共30页
一、虚拟变量的含义
一种人为构造的、取值仅为“1”或“0”的变量
第2页/共30页
1. 定量变量和定性变量
定量变量:测度等级为间距(interval)或比率(ratio)尺度的变量,如需求量、价格、收入、产量等其取值为具有实际含义的数据可以在建模过程中直接使用这些变量及其数据定性变量:测度等级名义(nominal)或顺序(ordinal)尺度的变量,如性别、教育程度等其取值为类别或顺序,可用数值表示,但数值不具有实际含义,仅是表示类别或序次的代码性别(1-男;0-女)、教育程度(1-小学、2-初中、3-高中、4-大学)实际建模中,考虑定性变量的影响是必要的,但直接使用定性变量的取值则具有不合理性
由3与4的t检验可知:参数显著地不等于0,强烈显示出两个时期的回归是相异的,
1990年前:
1990年后:
储蓄函数分别为:
第27页/共30页
(三)临界指标的虚拟变量的引入
在经济发生转折时期,可通过建立临界指标的虚拟变量模型来反映。
则进口消费品的回归模型可建立如下:
例:进口消费品数量Y主要取决于国民收入X的多少,中国在改革开放前后,Y对X的回归关系明显不同。 这时,可以t*=1979年为转折期,以1979年的国民收入Xt*为临界值,设如下虚拟变量:
第七章虚拟变量
如何刻画我国居民在不同时段的消费行为?
基本思路:采用乘法方式引入虚拟变量的手段。显然, 1979年是一个转折点,可考虑在这个转折点作为虚拟 变量设定的依据。若设X* =1979,当 t<X* 时可引 入虚拟变量。(为什么选择1979作为转折点?)
实质:加法方式引入虚拟变量改变的是截距;乘法方式 引入虚拟变量改变的是斜率。
一、加法类型 (1)一个两种属性定性解释变量而无定量变量的情形
例:按性别划分的教授薪金
(2)包含一个定量变量,一个定性变量模型
, 设有模型,yt = 0 + 1 xt + 2D + ut
其中yt,xt为定量变量;D为定性变量。当D = 0 或1时,上述模型可表达为,
令Y代表年薪, X代表教龄,建立模型:
Yi B0 B1Xi B2D2i B3D3i B4D4i ui
可以看出基准类是本科女教师,B0为刚参加工作的本 科女教师的工资;B1为参加工作时间对工资的影响;B2 是性别差异系数;B3和B4为学历差异系数,B3是硕士学 历与本科学历的收入差异,B4是博士学历与本科学历的 收入差异;通过上述分析,我们可以确定Bi的符号。
问题:如何刻画同时发展油菜籽生产和养蜂生产的交互 作用?
基本思想:在模型中引入相关的两个变量的乘积。
区别之处在于,上页定义中的交互效应是针对数量变量, 而现在是定性变量,又应当如何处理?
(3)分段回归分析
作用: 提高模型的描述精度。
虚拟变量也可以用来代表数量因素的不同阶段。分段线性 回归就是类似情形中常见的一种。
计量知识要点
第一章计量经济学的任务是以经济学、统计学、数学之间的统一为工具,分析经济中的数量关系。
时序数据:同一统计指标按时间顺序记录的数据列,同一数列中的各个数据必须是同口径的,要求具有可比性。
时序数据可以是时期数,也可以是时点数。
横截面数据:同一时间,不同统计单位的相同统计指标组成的数据列。
要求统计的时间相同,但不要求统计对象及范围相同。
也要求数据的统计口紧和计算方法具有可比性。
内生变量:内生变量是具有一定概率分布的随机变量,它的数值是由模型本身决定的。
外生变量:是指非随机变量,它的取值是在模型之外决定的,是求解模型时的已知数。
解释变量:列于模型方程右边的作为影响因素的变量,即自变量。
被解释变量:是指列于模型中方程的左边作为分析对象的变量,即因变量。
滞后变量:是指内生变量和外生变量的时间滞后量(前期量)。
控制变量:是模型中决策者可以控制的变量。
政策变量:是模型中由政府操纵且反映政府政策的变量。
内生参数:是指依据样本观察值,运用统计方法估计得到的参数。
外生参数:一般是依据经济法规人为设定的参数,入资产折旧率、税率、利息率。
经济计量模型:是对现实经济系统的数学抽象,用于经济预测、结构分析、政策评价。
原则:以理论为先导,大小要适度。
行为方程:随机方程式根据经济行为建立的经济函数关系,又被称为“行为方程”。
总体设计是指选择模型中各系统模块以及各模块之间衔接关系的设计。
个体设计是变量的选择及变量间关系的描述。
模型建立步骤:设定模型,估计参数,检验模型,使用模型第二章函数关系:如果给定解释变量X的值,被杰斯变量(或称因变量)Y的值就唯一地确定了,Y与X的关系就是函数关系,即Y=f(X)。
相关关系:如果给定了解释变量X的值,被解释变量Y的值不是唯一的,Y与X的关系就是相关关系。
总体回归模型:是根据总体的全部资料建立的回归模型。
样本回归模型:是指根据样本资料建立的回归模型。
回归分析研:究被解释变量对于一个或多个解释变量的依存关系。
第五章虚拟变量-第八章虚拟变量
29
第5章习题
一、单项选择题 1、如果一个回归模型中不包含截距项,对一个具
有m个特征的质的因素需要引入的虚拟变量的个 数为: A、m B、m-1 C、m-2 D、m+1
30
2、设个人消费函数Yi=c0+c1Xi+ui中,消费支出Y不仅与收 入X有关,而且与消费者的性别、年龄构成有关,年龄构 成可分为青年、中年和老年三个层次,假设边际消费倾向 不变,则考虑上述因素的影响,该函数引入虚拟变量的个 数为:
山米与白鹤
贝特西.贝尔斯
第五章虚拟变量-第八章虚拟变量
问题的提出
1、计量经济学模型,需要经常考虑属性因素 的影响。例如,职业、战争与和平、繁荣与 萧条、文化程度、灾害、季节 2、属性因素往往很难直接度量它们的大小。 只能给出它们的“Yes—D=1”或”No—D=0”、 或者它们的程度或等级。 3、为了反映属性因素和提高模型的精度, 必须将属性因素“量化”。通过构造0-1型 的人工变量来量化属性因素。
Y= b0 + b1 x +e
17
三、截距与斜率同时变动 模型
D=1 异常时期 D=0 正常时期 设定模型 Y=b0+ b1x+ b2D + b3Dx +e 异常时期模型:(截距与斜率均不同) Y= (b0 + b2) + (b1 +b3) x +e 反常时期模型:(截距与斜率均不同) Y= b0 + b1 x +e
Yt 0 1Xt t
以t* 1979年为转折期,并设1979年的国民收入为 X*t ,并引入虚拟变量:
Dt
1,t t* 0,t t*
《虚拟变量模型 》课件
业类型的效应,可以使用虚拟变量模型。理分类变量对连续结果的影响,能够同时分析多个分类变量的效应,有助于更好地理解数据之 间的关系。
缺点
当分类变量类别过多时,会导致虚拟变量的数量增加,从而增加模型的复杂性和计算负担。此外,虚 拟变量模型对于非线性关系的处理能力有限,可能无法准确捕捉数据之间的关系。
虚拟变量模型
目录
• 虚拟变量模型概述 • 虚拟变量模型的建立 • 虚拟变量模型的参数估计与检验 • 虚拟变量模型的应用案例 • 虚拟变量模型的局限性及未来研究方向 • 结论
01
虚拟变量模型概述
定义与特点
定义
虚拟变量模型是一种统计学方法,用于处理分类变量对连续结果的影响。它通过引入一系列二进制(或多元)虚 拟变量来代表分类变量的不同类别。
详细描述
通过引入虚拟变量,研究者可以控制和比较不同类别消费者之间的差异,例如 不同年龄、性别、收入水平的消费者在产品选择、品牌忠诚度和价格敏感度等 方面的表现。
案例二:市场细分研究
总结词
虚拟变量模型在市场细分研究中起到关 键作用,帮助企业了解不同客户群体的 需求和行为特征,从而制定更精准的市 场策略。
确定虚拟变量的数量
根据分类变量的数量,确定需要创建的虚拟变量的数量。
命名虚拟变量
为每个虚拟变量选择一个有意义的名称,以便在模型中使用。
构建虚拟变量模型
确定模型的形式
根据研究假设和问题,选择适合的模型形式 ,如线性回归、逻辑回归等。
引入虚拟变量
将选定的虚拟变量引入到模型中,并根据模 型的要求设置相应的参数。
特点
虚拟变量模型能够揭示分类变量对连续结果的影响,同时能够处理多个分类变量对结果的影响。它通过引入虚拟 变量来控制分类变量的效应,从而更好地理解数据之间的关系。
计量经济学之虚拟变量
例如:
1)表示性别的虚拟变量可取为 D1=
1 男性 0 女性
2)表示文化程度的虚拟变量可取为 D2=
1 本科及以上学历 0 本科以下学历
3)表示地区的虚拟变量可取为
D3=
1 城市 0 农村
二、虚拟变量模型
同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型。
冷饮的销售额与季节因素的关系
如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则其中
1 X11 L 1 X12 L
1 ( X D) 1
X 13 X 14
L L
1
X 15
L
1 X16 L
X k1 1 0 0 0 X k 2 0 1 0 0
X k3 Xk4
的估计量 Yˆi 并不一定在0和1之间, 这是用LPM的OLS法估计存在的实际问题。
解决这一问题的二类方法是:
1) 当 Yˆi >1时,就认定 Yˆi =1;当 Yˆi<0时,就认定 Yˆi =0。
2) 选择对数单位模型或Probit模型等能够保证满足0≤E(Yi|Xi)≤1约束的非线性模型。
二、Logit模型
1.什么是线性概率模型(前面所述的是否购买小汽车的模型就属于一个LPM) 2.线性概率模型的估计:由于直接采用OLS法对模型进行估计,将会遇到一 些特殊的问题,使得估计结果失去了合理的经济解释,因而需要寻求相应的处理方法。
(1) 随机扰动项μi的非正态性 μi=Yi-β0-β1 Xi =
1-β0-β1 Xi 当Yi=1时 -β0-β1 Xi 当Yi=0时
3.临界指标的虚拟变量的引入
Eviews:虚拟变量模型
分段回归
要判断1991年是否为一个分界点,我们可以通过分别对1991 年前的数据和1991年后的数据进行回归,分析两个回归结果中的 参数估计量,来对是否发生了结构变化进行判断。令1991年前模 型为
令1991年后模型为
Y=α1+α2X+μi1
Y=β1+β2X+μi2
可能出现回归结果
按照上述方法进行回归有可能产生下列四种情况之一:
0 1 B ; k
0 1 a k
案例分析
• 我们以中国1908-2001年城乡储蓄存款 新增额代表的居民当年储蓄Y及以GNP 代表的居民当年收入X为例。我们先以 1991年为界,判断1991年前后两个时 期中国居民的储蓄-收入关系是否已经 发生变化。
虚拟变量模型
虚拟变量及虚拟变量方程的定义
• 在经济变量的讨论中,经常要考虑属性因素的影响, 例如职业、地区、季节、战争、文化程度、自然灾害 等,它们的特点不能直接度量。为了在模型中反映这 些属性因素的影响,必须将它们“量化”。根据其属 性类型,构造只取“0”或“1”的人工变量,这就是虚 拟变量,通常记为变量D。 • 一般地,在虚拟变量的设置中,基础类型,肯定类型 取值为1,否定类型取值为0。引入虚拟变量之后,回 归方程中同时含有一般解释变量和虚拟变量,这种结 构的回归方程称为虚拟变量模型。
说 明
在引入虚拟变量时,往往容易对虚拟变量 值应该取1还是取0产生混淆。对于是非、发生 或未发生,是或者发生了就取1,非或者没有 发生即取0. 比如我们分析二战是否对1930年 到1945年间经济有影响,那么1930到1938二 战未发生时期我们取虚拟变量值为0,1939到 1945二战发生时期我们取1. 即是,肯定时为1, 否定时为0.
计量经济学习题第7章单方程回归模型的几个专题
计量经济学习题第7章单方程回归模型的几个专题第7章单方程回归模型的几个专题一、名词解释1、虚拟变量2、模型设定误差3、工具变量4、工具变量法5、变参数模型6、分段线性回归模型7、虚拟变量模型二、简答题1、模型中引入虚拟变量的作用是什么?2、虚拟变量引入的原则是什么?3、虚拟变量引入的方式及每种方式的作用是什么?4、判断计量经济模型优劣的基本原则是什么?5、模型设定误差的类型有那些?6、工具变量选择必须满足的条件是什么?7、滞后变量模型包括哪几种类型?写出各自的模型形式。
8、设定误差产生的主要原因是什么?9、在建立计量经济学模型时,什么时候,为什么要引入虚拟变量?三、单项选择题1、设某地区消费函数i i i x c c y μ++=10中,消费支出不仅与收入x 有关,而且与消费者的年龄构成有关,若将年龄构成分为小孩、青年人、成年人和老年人4个层次。
假设边际消费倾向不变,则考虑上述构成因素的影响时,该消费函数引入虚拟变量的个数为()A.1个B.2个C.3个D.4个2、当质的因素引进经济计量模型时,需要使用()A. 外生变量B. 前定变量C. 内生变量D. 虚拟变量3、.由于引进虚拟变量,回归模型的截距或斜率随样本观测值的改变而系统地改变,这种模型称为()A. 系统变参数模型B.系统模型C. 变参数模型D. 分段线性回归模型4、.假设回归模型为i i i x y μβα++=,其中Xi 为随机变量,Xi 与Ui 相关则β的普通最小二乘估计量( )A.无偏且一致B.无偏但不一致C.有偏但一致D.有偏且不一致5、假定正确回归模型为i i i i x x y μββα+++=2211,若遗漏了解释变量X2,且X1、X2线性相关则1β的普通最小二乘法估计量( )A.无偏且一致B.无偏但不一致C.有偏但一致D.有偏且不一致6、对于误差变量模型,模型参数的普通最小二乘法估计量是( )A.无偏且一致的B.无偏但不一致C.有偏但一致D.有偏且不一致7、系统变参数模型分为( )A.截距变动模型和斜率变动模型B.季节变动模型和斜率变动模型C.季节变动模型和截距变动模型D.截距变动模型和截距、斜率同时变动模型8、虚拟变量( )A.主要来代表质的因素,但在有些情况下可以用来代表数量因素B.只能代表质的因素C.只能代表数量因素D.只能代表季节影响因素9、. 分段线性回归模型的几何图形是( )A.平行线B.垂直线C.光滑曲线D.折线10、如果一个回归模型中不包含截距项,对一个具有m 个特征的质的因素要引入虚拟变量数目为( )A.mB.m-1C.m-2D.m+111、设某商品需求模型为Yt=β0+β1Xt+Ut ,其中Y 是商品的需求量,X 是商品的价格,为了考虑全年12个月份季节变动的影响,假设模型中引入了12个虚拟变量,则会产生的问题为()A .异方差性B .序列相关C .不完全的多重共线性D .完全的多重共线性四、多项选择题1、系统变参数模型中,参数变化是( )A.随机的B.离散的C.非随机的D.连续的E.系统的2、在包含有随机解释变量的回归模型中,可用作随机解释变量的工具变量必须具备的条件有,此工具变量( )A.与该解释变量高度相关B.与其它解释变量高度相关C.与随机误差项高度相关D.与该解释变量不相关E.与随机误差项不相关3、关于虚拟变量,下列表述正确的有()A .是质的因素的数量化B .取值为l 和0C .代表质的因素D .在有些情况下可代表数量因素E .代表数量因素4、虚拟变量的取值为0和1,分别代表某种属性的存在与否,其中()A 、0表示存在某种属性B 、0表示不存在某种属性C 、1表示存在某种属性D 、1表示不存在某种属性E 、0和1代表的内容可以随意设定5、在截距变动模型i i i x D y μβαα+++=10中,模型系数()A 、0α是基础类型截距项B 、1α是基础类型截距项C 、0α称为公共截距系数D 、1α称为公共截距系数E 、01αα-为差别截距系数6、对于线性回归模型i i i i Dx x D y μββαα++++=)(2110,其中D 为虚拟变量,有()A 、其图形是两条平行线B 、基础类型的截距项是0αC 、基础类型的截距为1βD 、差别截距系数为1αE 、差别斜率系数为12ββ-7、对于分段线性回归模型t t t t D x x x y μβββ+-++=)(*210,其中()A 、虚拟变量D 代表品质因素B 、虚拟变量D 代表数量因素C 、以*x x t =为界,前后两段回归直线的斜率不同D 、以*x x t =为界,前后两段回归直线的截距不同E 、该模型是系统变参数模型的一种特殊形式五、计算题1、家庭消费C ,除依赖于收入Y 之外,还同下列因素有关:(1)民族:汉、蒙、满、回、藏(2)家庭小孩数:没有孩子、1-2个孩子、3个及以上孩子(3)户主的文化程度:高中以下、高中、大专以上试设定该家庭消费函数的回归模型。
第07章-第三节-变参数模型
第三节 变参数模型前面几章讨论的回归问题都是在模型中的参数不变的前提下进行的,但是通过本章的讨论,可以看出引入了虚拟变量后,回归模型中的参数不在是固定不变的,而是二是可以变化的,但是模型中参数的变化又不是连续的额,而是离散的,下面我们介绍的变参数模型就是虚拟变量模型的推广,它认为回归模型的截距或斜率会随着样本观察值的改变而改变。
变参数模型可以分为截距变参数模型和截距、斜率同时变动的模型。
一、 截距变动模型设线性回归方程为122t t t t k kt t Y X X u βββ=++++Y t=1,2,,T (7.40) 式中, X 为解释变量,Y 为被解释变量。
观察到截距项1t β和前边的虚拟变量模型的截距项有所不同,下边多了一个下标t 。
这也就是说,虽然回归模型斜率在整个样本时期保持不变,但是截距项 1t β是随着时间的变化而变化的。
如果1t β的变化是非随机的,而且这种变化完全由外生变量决定的,那么式(7.40)就是一个非随机变量参数模型。
为了讨论方便,把(7.40) 定义为下面的式子:101t t Z βαα=+ (7.41)式中,0α和1α为要求的参数,也可以称为“超参数”,t Z 只用来解释变动情况的外生变量。
将式(7.41)代入式(7.40)中,整理得到0122t t t k kt t Y Z X X u ααββ=+++++ (7.42) 可用最小二乘法对式(7.42)中的超参数和其他参数一并进行估计。
如果Z 为虚拟变量,那么式中(7.42)就是一个虚拟变量模型,而且是一个截距项变动斜率不变的模型。
因此,虚拟变量模型是参数模型的一种特殊形式。
二、 截距和斜率同时变动模型如果模型中的斜率和截距同时变动,只需在式(7.42)的基础上进行改进,将2β换2t β为,且假定有如下关系式:201t t b bW β=+ (7.43) 将式(7.43)代入式(7.42)则有01021233t t t t t t k k t t Y a a Z b X b W X X X u ββ=+++++++ (7.44)以上模型知识假定1t β和2t β存在系统变化,实际上还有很多参数都可能存在这种变化,甚至可能存在1t β和2t β等系数有可能不是线性的,也就是超参数本身可能不为常数。
计量经济学-名词解释
什么是计量经济学:计量经济学是经济学的一个分支学科,是以揭示经济活动中客观存在的数量关系为内容的分支学科,是由经济学、统计学和数学三者结合而成的交叉学科。
数理经济学:主要关心的是用数学公式或数学模型来描述经济理论,而不考虑对经济理论的度量和经验解释。
而经济计量学主要是对经济理论的经验确认。
计量经济学方法与一般经济数学方法有什么区别:计量经济学方法揭示经济活动中各个因素之间的定量关系,用随机性的数学方程加以描述;一般经济数学方法揭示经济活动中各个因素之间的理论关系,用确定性的数学方程加以描述计量经济学的研究的对象和内容是什么:计量经济学的研究对象是经济现象,是研究经济现象中的具体数量规律(或者说,计量经济学是利用数学方法,根据统计测定的经济数据,对反映经济现象本质的经济数量关系进行研究)。
计量经济模型包括一个或一个以上的随机方程式,它简洁有效地描述、概括某个真实经济系统的数量特征,更深刻地揭示出该经济系统的数量变化规律。
是由系统或方程组成,方程由变量和系数组成。
其中,系统也是由方程组成。
计量经济模型揭示经济活动中各个因素之间的定量关系,用随机性的数学方程加以描述。
广义地说,一切包括经济、数学、统计三者的模型;狭义地说,仅只用参数估计和假设检验的数理统计方法研究经验数据的模型。
简述建立计量经济学模型的步骤:第一步:设计理论模型,包括确定模型所包含的变量、确定模型的数学形式、拟定模型中的待估参数的符号和大小的理论期望值。
第二步:收集数据样本,要考虑数据的完整性、准确性、可比性和一致性;第三步:估计模型参数;第四步:模型检验,包括经济意义检验、统计检验、计量经济学检验和模型预测检验。
几种常用的样本数据有哪些:(1) 时间序列数据;(2) 横截面数据;(3) 虚拟变量数据(1)时间序列数据:在不同时间点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度。
(2)横截面数据:横截面数据是在同一时间,不同统计单位相同统计指标组成的数据列。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8
例子:包含一个虚拟变量的截距变动模 型 假设有一个包括城乡居民家庭收支状 况的样本,并试图利用这一数据估计 消费函数。由于城乡居民在消费水平 上存在明显差异,所以,“地区”这 一质的因素可以作为重要的解释变量。 模型可表示为:
Yi 0 1D X i ui
9
其中,Yi表示第i个家庭的消费水平, Xi为第i个家庭的收入水平,D为虚拟 变量。“1”表示城镇居民家庭这一特 征,“0”表示农村居民家庭这一特征, 并假定随机误差项满足经典假设。上 式消费函数可以写成: D 1 EYi 0 1 X i D 0 EYi 0 X i 用最小二乘法估计参数,若α1显著地 不为0,可以认为城乡居民在消费行为上 的差异是显著的。
* 1 *
E(Yi ) 0 3 X 2 1 3 X i
其中,β1为18岁以下年龄段的斜率, (β1+β2)为18-22岁年龄段斜率,(β1 +β3)为22岁以上年龄段的斜率
27
第三节 系统变参数模型
虚拟变量的引入,使得回归模型的截 距或斜率不再是固定不变的。但并不 是每年都发生变化。如果将其推广, 就可以描述回归模型的截距和斜率随 样本观测值的改变而系统地改变。这 类模型也包括截距变动模型和截距与 斜率同时变动模型。
1, 第一季度 D1t 其他 0, 1, 第二季度 D2 t 其他 0, 1, 第三季度 D3t 其他 0,
15
季节哑变量
第四季度为基础类型,其截距项为 α0, 其他三个季度的截距项分别为: α0+α1, α0+α2, α0+α3。当然,也可以以 其他季节为基础类型。
20
用最小二乘法得到以下估计结果:
ˆ 61.7 0.256X 55.7 D 0.252DX S t t t (-2.8) (8.1) (3.9) (-9.2) R 2 0.967 DW 1.67
括号内为t值,模型表明储蓄模型的截 距和斜率在1979年前后有显著差异。 可进一步写成: ˆ 6.0 0.004X 1979年以前: S t t ˆ S 1979年以后: t 61.7 0.256X t 引入虚拟变量后的模型的拟合优度也 得以提高,DW值得到改善。 21
Yt 0 1t 2 t X D t
1 , t X D 0 , t X
24
居民消费例子
可以得到两个不同时期的居民消费趋 势: Yt 0 1t t 1979年以前: Y X 1979年以后: t 0 2 (1 2 )t t 如果统计检验β2不为0,表明消费趋势在 1979年后有明显改变。 如果出现多个转折点的情形,就需要 引入多个虚拟变量。
四、包含多个质的因素的虚 拟变量模型
如果一个模型中包含多个质的因素的 影响时,就需要引入多个虚拟变量。 例如,性别(男、女)、年龄( 25 以 下、 25-50 岁、 50 以上)、受教育程度 (初中、高中、大学)是影响食品需 求的重要因素,这时可引入以下几个 虚拟变量:
22
D1 D2 D3 D4 D5
18
例子:截距和斜率同时变动
中国城镇居民家庭的储蓄函数,数据 为1955-1985年城镇居民家庭人均收入 和人均储蓄的资料。设定模型为:
St 0 1 1955年的物价水平为100,从储蓄和收入 中扣除了价格的影响。
19
采用最小二乘法得到的估计结果为:
当现象受到质的因素的影响时,回归 模型的参数就不再是固定常数。参数 的变化主要表现为:截距变动、截距 和斜率同时变动。
7
(一)包含一个虚拟变量的截距变动模型
如果回归模型中只包含一个质的因素,且这 个因素仅具有两种特征,总回归模型中只需 引入一个虚拟变量。设虚拟变量为D,其取值 为1:表示具有这一特征;0:表示不具有这 一特征。采用最小二乘法估计,得到变量 D 的回归系数,对其进行t检验,如果回归系数 显著地不为 0,认为虚拟变量表示的特征之间 的差异是显著的。
16
三、截距和斜率同时变动模型
如果质的因素既影响截距,又影响斜 率时,就需要在模型中引入这一双重 的变化。模型的一般形式为:
Yi 0 1 D 1 X i 2 (DX i ) i
D 1, Yi ( 0 1 ) 1 2 X i i D 0, Yi 0 1 X i i
10
虚拟变量模型的特点
1.以0、1取值的虚拟变量所反映的内容 可以随意设定,如,城乡居民“D”可 以反过来取值,只是在具体含义上有变 化:这时α1为负数。 2.虚拟变量D=0代表的特征或状态,通 常用于说明基础类型。基础类型是对 比的基础。如农民或城镇居民。
11
3.基础类型的截距系数称为公共截距系 数,D=1所对应的特征的截距系数称为 差别截距系数。 4.如果一个回归模型有截距项,对于具 有两种特征的质的因素,只需要引入 一个虚拟变量。因为引入多个虚拟变 量时,易出现多重共线性。如果回归 模型中没有截距项,具有两种特征的 质的因素,就需要引入两个虚拟变量。
采用通常的显著性检验方法可以对各种可 能的情况进行检验。
23
第二节 数量因素与变参数模型
用虚拟变量代表数量因素,建立分段 线性回归模型。 例 如 , 建 立 1955-1999 年 间 消 费 支 出 ( Y) 的 时 间 趋 势 变 化 模 型 , 假 设 以 1979年(X*)为转折点,即1979年以后, 改变趋势。这时可用的模型形式为:
29
二、截距和斜率同时变动模型
它是在上述截距变动模型的基础上, 使得参数β也发生系统地变化,例如, 如果让β2变化,则有
2t b1 b2Wt
将其带入模型有
Yt 1 2 Z t b1 X 2t b2Wt X 2t 3 X 3t k X kt t
① 当模型含有截距项时,如果一个质 变量有m种特征或状态,只需引入m-1 个虚拟变量。 ②当回归模型不含截距项时,则m种特 征需要引入m个虚拟变量。 例子:战争时期与和平时期的消费函数 美国1940-1950
14
(二)包含多个虚拟变量的截距 变动模型
当一个质的因素具有m种特征时,就需要引 入m-1个虚拟变量。例如季节这个质的因素 具有4个特征,对于具有截距项的回归模型, 我们引入3个虚拟变量:
31
例子:系统变参数模型
利用变参数模型对我国城镇居民家庭 居民消费行为的变化进行研究。 没有理由认为1979年以后居民消费行 为是固定不变的。 利用1979-1997城镇居民家庭收支调查 数据,建立一个简单的系统变参数模 型
第15章 虚拟变量和变参数模型
在回归分析中,影响被解释变量的因 素除了量的因素外还有质的因素。为 了估计质的因素产生的影响,我们需 要引入一种特殊的变量 :虚拟变量。本 章讨论回归分析中虚拟解释变量的作 用及使用方法。
1
主要内容
第一节 质的因素与变参数模型 第二节 数量因素与变参数模型 第三节 系统变参数模型
ˆ ˆ y ˆ c 0 1
收入Y前的回归系数是不变的,而改革 开放前与改革开放后(如1978年为分 界)模型的回归系数应该是变化的。 这时 “改革开放”这一质的因素就是 一个不应忽略的解释变量。
4
什么是虚拟变量
将具有某种品质或属性量化的方法, 构造成取值为0或1 的变量,一般而 言: 1 表示具有某种特征;而 0 表示 不具有某种特征,这类变量被称为 虚 拟 变 量 或 哑 变 量 ( Dummy Variable)。
30
用OLSE对模型中的参数进行估计,然后 对参数进行检验,就可以知道模型中参 数是否存在系统性变化。如果 α2 、 b2 在 统计上显著,则认为 β1 和 β2 存在系统变 化,反之,可看作常数。 如果错误地将 β1 和 β2 当作常数,就等于 错误地解释了经济变量之间的关系,还 可能因为省略了重要的解释变量Z和W而 产生自相关。 特别注意:如果存在严重的异方差性, 虚拟变量就是不适用的。
α1,β2,分别表示因为质的特征不同而在截距和斜 率上呈现的差异。
17
如果统计检验表明: ① 1 0, 2 0 , α1,β2 在统计上显著,表明 这一特征具有显著的影响。 ② 1 0, 2 0 ,是一个截距变量模型; ③ 1 0, 2 0 ,表明城乡居民的消费行为没 有显著差异; ④ 1 0, 2 0 ,这是一个斜率变量模型,在 实际中较少见。
25
多个转折点模型: 研究不同年龄段收入与年龄的关系 假设考虑三个年龄段:18岁以下、1822岁、22岁以上。 设Y 为收入,X为年龄,X1*=18,X2*=22 模型为:
Yi 0 1 X i 2 D1 X i X 1 3 D2 X i X 2 u
28
一、截距变动模型
设线性回归模型为
Yt 1t 2 X 2t k X kt t 其中, 1t 1 2 Z t
这里, β1t 的变化是系统的,且这种变化完全 由外生变量决定,是一个系统变参数模型。 α 被称为超参数。将 β1t 带入模型后,可采用 OLSE对上述模型中的α和β一并进行估计。如 果Z为虚拟变量,上式就是一个虚拟变量模型, 虚拟变量模型是系统变参数模型的一种特例。
2
第一节 质的因素与变参数模型
一、虚拟变量的实质
有一类定类数据也是重要的解释变量。 如职业、民族、文化程度、地区、季节等。 如果这些质的因素的影响是显著的,回归 模型的参数就会因此而变化。如果我们忽 略质的因素,仍把模型中的参数看作是固 定不变的,估计结果就不能正确描述经济 变量之间的关系。
3
当我们以1953-2001年的数据建立消费 函数模型时:
男性 1, 0,女性 , 25 以下 1 0, 其他 , 2 5 - 5 0岁 1 0, 其他 ,初中 1 0,其他 , 高中 1 0,其他