第7章 Dummy Variables 虚拟变量

合集下载

什么是哑变量

什么是哑变量

哑变量(Dummy V ariable):也叫虚拟变量,引入哑变量的目的是,将不能够定量处理的变量量化,如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。

这种“量化”通常是通过引入“哑变量”来完成的。

根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为哑变量(dummy variables),记为D。

举一个例子,假设变量“职业”的取值分别为:工人、农民、学生、企业职员、其他,5种选项,我们可以增加4个哑变量来代替“职业”这个变量,分别为D1(1=工人/0=非工人)、D2(1=农民/0=非农民)、D3(1=学生/0=非学生)、D4(1=企业职员/0=非企业职员),最后一个选项“其他”的信息已经包含在这4个变量中了,所以不需要再增加一个D5(1=其他/0=非其他)了。

这个过程就是引入哑变量的过程,其实在结合分析(conjoint analysis)中,就是利用哑变量来分析各个属性的效用值的。

在线性回归分析中引入哑变量的目的是,可以考察定性因素对因变量的影响,引入哑变量有两种方式:加法方式与乘法方式。

所谓加法方式是指,哑变量作为单独的自变量,有独立的系数,从几何意义上来讲,就是只改变回归直线的截距(constant),不改变斜率(B);而乘法方式则正好相反,不改变截距,只改变斜率,因为哑变量在回归方程中不是作为一个独立的自变量,而是与其中某一个自变量相乘后作为一个自变量。

当然,也可以同时使用加法和乘法来引入哑变量,即同时改变截距和斜率。

由于哑变量的取值只有0和1,它起到的作用像是一个“开关”的作用,它可以屏蔽掉D=0的case,使之不进入分析,在spss软件中就是filter的作用。

我试验了一下,确实如此。

虚拟变量虚拟变量又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的质变量,通常取值为0或1。

引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到俩个方程的作用,而且接近现实。

计量课后习题第七章答案

计量课后习题第七章答案

习题解释概念(1)分类变量 (2)定量变量 (3)虚拟变量 ( 4)虚拟变量陷阱 (5)交互项(6)结构不稳定 (7)经季节调整后的时间序列答:(1)分类变量:在回归模型中,我们对具有某种特征或条件的情形赋值1,不具有某种特征或条件的情形赋值0,这样便定义了一个变量D :1,0,D ⎧=⎨⎩具有某种特征不具有某种特征我们称这样的变量为分类变量。

(2)具有数值特征的变量,如工资、工作年数、受教育年数等,这些变量就称为定量变量。

(3)在回归模型中,我们对具有某种特征或条件的情形赋值1,不具有某种特征或条件的情形赋值0,这样便定义了一个变量D :1,0,D ⎧=⎨⎩具有某种特征不具有某种特征我们称这样的变量为虚拟变量(dummy variable )。

(4)虚拟变量陷阱是指回归方程包含了所有类别(特征)对应的虚拟变量以及截距项,从而导致了完全共线性问题。

(5)交互项是指虚拟变量与定量变量相乘,或者两个定量变量相乘或是两个虚拟变量相乘,甚至更复杂的形式。

比如模型:12345i i i i i i i household lwage female married female married u βββββ=++++⋅+female married ⋅就是交互项。

(6)如果利用不同的样本数据估计同一形式的计量模型,可能会得到1β、2β不同的估计结果。

如果估计的参数之间存在着显著性差异,就称为模型结构不稳定。

(7)一些重要的经济时间序列,如果是受到季节性因素影响的数据,利用季节虚拟变量或者其他方法将其中的季节成分去除,这一过程被称为经季节调整的时间序列。

如果你有连续几年的月度数据,为检验以下假设,需要引入多少个虚拟变量如何设定这些虚拟变量(1)一年中的每一个月份都表现出受季节因素影响;(2)只有2、7、8月表现出受季节因素影响。

答:(1)对于一年中的每个月份都受季节因素影响这一假设,需要引入三个虚拟变量。

分别定义2D 、3D 、4D 如下:21,0,D ⎧=⎨⎩如果为夏季如果不为夏季 31,0,D ⎧=⎨⎩如果为秋季如果不为秋季 41,0,D ⎧=⎨⎩如果为冬季如果不为冬季(2)如果只有2、7、8月表现出受季节因素影响,则只需要引入一个虚拟变量。

什么是哑变量(虚拟变量),应用中应注意什么问题?

什么是哑变量(虚拟变量),应用中应注意什么问题?

什么是哑变量(虚拟变量),应用中应注意什么问题?虚拟变量(dummy variable)也叫哑变量,翻译不同而已。

因为dummy的含义有假的、虚拟的、哑的等各种含义,所以国内翻译也不一样。

但是他们俩是一回事。

虚拟变量其实算不上一种变量类型(比如连续变量、分类变量等),确切地说,是一种将多分类变量转换为二分变量的一种形式。

Dummy这个词意思是虚拟的、假的,所以dummy variable意思就是假的变量,不是真实的变量。

那它到底虚拟在什么地方呢?我们通过一个例子来详细解释一下。

例:某研究者检测了四种不同类型社区(分别用0、1、2、3表示)的SO2情况。

研究者欲分析社区类型是否与SO2水平有关系,或者说,不同社区类型的SO2水平是否不同。

该例子中,因变量SO2水平是一个定量资料,自变量社区类型是一个分类资料,分析方法可以考虑一般线性模型。

首先要强调一点,不管是一般线性模型还是广义线性模型,它们都是“线性”的,也就是说,只要你采用了这些模型,就已经默认了自变量与因变量之间的关系是线性的。

所以,对于例中的数据,如果用一般线性模型,其结果如下图所示。

图中的意思是,随着社区类型从0到3之间的改变,SO2水平是线性增加的,增加的幅度(斜率)是207.8。

也就是说,社区类型从0变为1,SO2增加207.8;社区类型从1变为2,SO2增加207.8;社区类型从2变为3,SO2增加207.8。

但我们会发现,事实并非如此。

从0到1时,似乎增加的幅度更大;而从1到2时,似乎增加的幅度没有这么大。

也就是说,207.8这个幅度,只是一个平均幅度,是从0到3增加的平均幅度。

如果我们想具体了解从0到1、从1到2、从2到3真实的增加值,就需要用到虚拟变量了。

所谓虚拟变量,就是把原来的一个多分类变量转化为多个二分变量,总的来说就是,如果多分类变量有k个类别,则可以转化为k-1个二分变量。

如变量x为赋值1、2、3、4的四分类变量,就可以转换为3个赋值为0和1的二分类变量。

计量经济学课件虚拟变量

计量经济学课件虚拟变量
提高模型精度和预测能力
通过引入虚拟变量,可以更准确地刻画经济现象的非线性特征,从而提高计量经济学模型 的精度和预测能力。
拓展应用领域
虚拟变量的引入使得计量经济学模型能够应用于更多的领域,如金融、环境、社会等,进 一步拓展了计量经济学的应用范围。
未来研究方向和趋势
深入研究虚拟变量的理论 和方法
未来研究将进一步深入探讨虚 拟变量的理论和方法,包括虚 拟变量的选择、设定和估计方 法等,以更准确地刻画经济现 象。
https://
未来研究将积极推动虚拟变量 在交叉学科领域的应用,如环 境经济学、金融经济学等,以 促进不同学科之间的交流和合 作。
WENKU DESIGN
WENKU DESIGN
2023-2026
END
THANKS
感谢观看
KEEP VIEW
WENKU DESIGN
WENKU DESIGN
WENKU
REPORTING
要点二
虚拟变量的设置原则
在设置虚拟变量时,需要遵循完备性 和互斥性的原则。完备性要求虚拟变 量的取值能够覆盖所有可能的情况, 而互斥性则要求不同虚拟变量之间不 能存在重叠或交叉的情况。
要点三
虚拟变量的回归系数 解释
在线性回归模型中,虚拟变量的回归 系数表示该定性因素对因变量的影响 程度。当虚拟变量取值为1时,其对 应的回归系数表示该水平与参照水平 相比对因变量的影响;当虚拟变量取 值为0时,则表示该水平对因变量没 有影响。
参数估计与假设检验
参数估计
采用最小二乘法等估计方法,对引入虚拟变量后的模型进行参数估计,得到各 解释变量的系数估计值。
假设检验
根据研究问题和假设,构建相应的原假设和备择假设,通过t检验、F检验等方 法对参数进行假设检验,判断虚拟变量对模型的影响是否显著。

什么是哑变量

什么是哑变量

哑变量(Dummy Variable):也叫虚拟变量,引入哑变量的目的是,将不能够定量处理的变量量化,如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。

这种“量化”通常是通过引入“哑变量”来完成的。

根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为哑变量(dummy variables),记为D。

举一个例子,假设变量“职业”的取值分别为:工人、农民、学生、企业职员、其他,5种选项,我们可以增加4个哑变量来代替“职业”这个变量,分别为D1(1=工人/0=非工人)、D2(1=农民/0=非农民)、D3(1=学生/0=非学生)、D4(1=企业职员/0=非企业职员),最后一个选项“其他”的信息已经包含在这4个变量中了,所以不需要再增加一个D5(1=其他/0=非其他)了。

这个过程就是引入哑变量的过程,其实在结合分析(conjoint analysis)中,就是利用哑变量来分析各个属性的效用值的。

在线性回归分析中引入哑变量的目的是,可以考察定性因素对因变量的影响,引入哑变量有两种方式:加法方式与乘法方式。

所谓加法方式是指,哑变量作为单独的自变量,有独立的系数,从几何意义上来讲,就是只改变回归直线的截距(constant),不改变斜率(B);而乘法方式则正好相反,不改变截距,只改变斜率,因为哑变量在回归方程中不是作为一个独立的自变量,而是与其中某一个自变量相乘后作为一个自变量。

当然,也可以同时使用加法和乘法来引入哑变量,即同时改变截距和斜率。

由于哑变量的取值只有0和1,它起到的作用像是一个“开关”的作用,它可以屏蔽掉D=0的case,使之不进入分析,在spss软件中就是filter的作用。

我试验了一下,确实如此。

虚拟变量虚拟变量又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的质变量,通常取值为0或1。

引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到俩个方程的作用,而且接近现实。

dummy variable的系数解释

dummy variable的系数解释

dummy variable的系数解释
在统计学中,虚拟变量(dummy variable)也称为指示变量或分类变量,通常用于表示分类数据。

虚拟变量的系数解释依赖于其使用的回归模型和解释变量的设定。

对于二元虚拟变量,其系数解释通常表示当自变量增加一个单位时,因变量相对于参考类别的变化量。

例如,如果一个二元虚拟变量用于表示某个人是否为男性(男性为1,女性为0),则该变量的系数可以解释为相对于女性,男性在因变量上的平均变化量。

对于多元虚拟变量,情况会变得更加复杂。

每个虚拟变量的系数都表示该变量相对于参考类别的变化量。

为了解释多元虚拟变量的系数,可以使用冗余分析(redundancy analysis)或主成分分析(principal component analysis)等方法来了解各个自变量对因变量的贡献程度。

需要注意的是,虚拟变量的系数解释并不是固定不变的,它可能受到模型设定、数据特征和样本大小等因素的影响。

因此,在解释虚拟变量的系数时,需要仔细考虑其背景和上下文,并谨慎评估其意义和可靠性。

虚拟变量(dummy variable)

虚拟变量(dummy variable)
19
0
0
1
2000:4
2.7280
20
0
0
0
数据来源:《中国统计年鉴》1998-2001
2.斜率变化
以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。当需要考虑时,可建立如下模型:
yt=0+1xt+2D+3xtD+ut,
其中xt为定量变量;D为定性变量。当D= 0或1时,上述模型可表达为,
若不采用虚拟变量,得回归结果如下,
GDP = 1.5427 + 0.0405 T
(11.0) (3.5) R2= 0.3991, DW = 2.6,s.e.=0.3
定义
1(1季度)1(2季度)1(3季度)
D1=D2=D3=
0(2, 3,4季度)0(1,3, 4季度)0(1,2, 4季度)
第4季度为基础类别。
15
0
0
1982
7.713
384
16
0
0
1983
8.601
34
1
34
1966
1.271
17
0
0
1984
12.010
35
1
35
1967
1.122
18
0
0
以时间T=time为解释变量,进出口贸易总额用trade表示,估计结果如下:
trade= 0.37 + 0.066time- 33.96D+ 1.20timeD
虚拟变量(dummy variable)
在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。

stata虚拟变量解释

stata虚拟变量解释

在 Stata 中,虚拟变量(Dummy Variable)通常用于表示一个分类变量的不同水平(categories)或组。

虚拟变量是二进制的,通常被用来在回归等分析中引入分类变量的效应。

下面是关于 Stata 中虚拟变量的解释:创建虚拟变量:在 Stata 中,可以使用tabulate命令创建虚拟变量。

假设有一个名为category的分类变量,可以使用以下命令创建虚拟变量:这将为category变量的每个水平生成一个虚拟变量,变量名为dummy后加上水平的标签。

虚拟变量的解释:虚拟变量通常用于回归分析中,以表示分类变量的不同水平对因变量的影响。

例如,在一个回归模型中:其中,i.category表示将category变量转换为虚拟变量。

回归模型会为category中的每个水平引入一个虚拟变量,并拟合模型。

虚拟变量的效应:1.截距项:虚拟变量的一个水平通常被视为截距项。

其他虚拟变量的系数表示相对于这个水平的效应。

2.系数解释:虚拟变量的系数表示相对于参考水平的平均因变量的变化。

例如,如果有一个名为dummy_category的虚拟变量,其系数为 0.5,则表示相对于参考水平,该分类变量的这个水平平均因变量增加了 0.5。

注意事项:1.多重共线性:当引入虚拟变量时,需要注意多重共线性问题。

由于虚拟变量之间存在线性相关性,可能导致方差膨胀因子(VIF)较高。

2.虚拟变量陷阱:在使用虚拟变量时,要避免虚拟变量陷阱,即变量之间存在完全的线性相关性。

通常,可以通过将虚拟变量中的一个去掉来避免陷阱。

总体来说,虚拟变量是 Stata 中用于表示分类变量的一种常见方式,通过在回归分析中引入虚拟变量,可以更好地理解分类变量的效应。

python最小二乘虚拟变量法

python最小二乘虚拟变量法

python最小二乘虚拟变量法最小二乘法(Least Squares Method)是一种常用的回归分析方法,用于估计自变量和因变量之间的线性关系。

虚拟变量法(Dummy Variable Method)是最小二乘法的一种应用,它用于处理离散型特征变量(如性别、国籍等)的影响。

虚拟变量是指在回归模型中引入的二元变量,用于表示某一分类特征的不同取值。

例如,在研究房屋价格时,我们可能会考虑到房屋的位置,而位置通常是以城市、乡村等离散的分类特征来表示的。

在这种情况下,我们可以引入虚拟变量来表示城市和乡村,然后将其作为自变量来探究位置对房屋价格的影响。

在使用虚拟变量法时,首先需要将一个分类特征变量拆分成多个二元虚拟变量。

例如,在一个二分类变量(如性别)中,我们可以引入一个虚拟变量,以0表示男性,以1表示女性。

同样,对于一个多分类变量(如城市、乡村),我们可以引入多个虚拟变量,以0表示某个特定的分类,以1表示其他分类。

在回归模型中,引入虚拟变量后,我们需要将其作为自变量来拟合模型。

通常,当分类变量有m个不同的取值时,我们需要引入m-1个虚拟变量,以避免“虚拟变量陷阱”(Dummy Variable Trap),即变量之间存在多重共线性。

多重共线性会导致模型的预测能力较差,同时使得解释变量的系数解释不明确。

使用最小二乘法估计回归模型时,我们通过最小化残差平方和来寻找最优解。

虚拟变量法的目标是通过引入虚拟变量来改进模型的拟合效果。

相比于只使用连续型自变量进行回归分析,引入离散型变量的虚拟变量能够更准确地描述原始数据的特征。

虚拟变量法除了能够增加模型的解释力和预测能力外,还能够帮助解释不同分类变量对因变量的影响。

通过在模型中引入虚拟变量,并对其系数进行解释,我们可以得知在不同分类中因变量的均值差异,从而了解不同变量对结果的影响程度。

总结来说,虚拟变量法是一种常见的最小二乘法的应用。

它适用于处理离散型变量对回归模型的影响,通过引入虚拟变量来更准确地描述数据的特征。

7.虚拟变量

7.虚拟变量

在下降(仅为0.72)。
变参数线性回归模型
如果模型参数取值呈连续变化的,称为连续型确定性变参
数线性回归模型。
(1)截距系统变动模型。即在回归模型中仅截距项发生系统 性变化,而斜率在整个样本期内不发生变化的变参数线性回归
模型。
(2)斜率系统变动模型。即在回归模型中仅有斜率项发生系 统性变化,而截距在整个样本期内不发生变化变参数线性回归
0
0 0 0 0 0 0 0 0
0
0 0 0 0 0 0 0 0
1964
1965 1966 1967 1968
0.975
1.184 1.271 1.122 1.085
15
16 17 18 19
0
0 0 0 0
0
0 0 0 0
年份 1969 1970 1971 1972 1973 1974
进出口总额y 1.069 1.129 1.209 1.469 2.205 2.923
(单位:千美元)
y 0.3 0.0 1.0 2.0 0.4 0.7 1.5 1.6 0.6 0.6 x 9.0 6.0 18.0 20.0 12.0 14.0 15.0 16.0 15.0 14.0 D 0 0 0 1 0 0 1 1 0 0
图4
家庭年储蓄额yt与收入额xt散点图
通过散点图分析,可以给模型加入一个定性变量“住房状况”,用D表 示。虚拟变量D定义如下:
图1表明,在相同的收入水平情况下,有适龄子女家庭的教育费用平均要比无 适龄子女家庭的教育费用多支a出个单位。
图1 虚拟变量对截距的影响
(2)乘法类型 在所设定的计量经济模型中,将虚拟解释变量与其他解释变
量相乘作为新的解释变量出现在模型中,以达到其调整设定模型

计量之虚拟变量.

计量之虚拟变量.

35
经过校正的R2 =0.98263 比较石油冲击前后模型的不同,你可以得 出什么结论?
36
第五节 虚拟变量使截距和斜率 均发生改变
仍旧是通货膨胀率I和工业增长率G之间的 关系,可以假设模型为:
I=α 1 + α 2 D+β 1 G+β2GD+ μ (α 1 + α 2 )+(β 1+β2)G+ μ D=1(1988) I= α 1 +β 1 G+ μ D=0 (其他)
27
1 如果年龄小于25 D2 = 0 其他 1 年龄在25到50之间 D3 =
0 其他 1 教育在高中以下
D4=
0 其他
28
1 学历在高中以上但大学以下 D5 =
0 其他 这是一个典型的截距发生改变的例子。例 如: (1) 男性,年龄在25岁以下,大学毕业 (2)女性,年龄在50以上,大学学历
3
一般情况下,一个定性变量所需要的虚拟变量的 个数取决于该定性的变量的类别,如果有n个 类别,所引进的虚拟变量的个数是n-1,比总体 类别的数量少1。例如性别变量,分为两类男 性或女性,需要一个虚拟变量就可以了;如果 地区发展问题,考虑地区差异,假设把全国分 为东部,中部和西部,就需要2个虚拟变量, 令 1 东部 D1= 0 其他
饮食消费 Y 10.0 11.0 12.2 13.3 10.2 11.0 12.3 13.2 10.5 11.1 12.3 13.4 10.4 11.2 12.2 13.4 10.4
国内最终消费支出X 53.5 54.4 56.4 60.6 54.7 55.4 57.6 62.4 56.5 56.4 58.3 62.6 56.7 56.8 58.9 63.7 58.2

设计虚拟变量方法

设计虚拟变量方法

设计虚拟变量方法
虚拟变量方法(Dummy Variable Method)是一种在统计分析中常用的方法,用于将类别变量转换为可供回归模型使用的二进制虚拟变量。

它将每个类别变量的取值拆分成多个二进制变量,每个变量代表一个类别,其取值为1或0。

以下是设计虚拟变量方法的步骤:
1. 确定需要转换为虚拟变量的类别变量。

在回归分析中,通常将影响因素为类别的变量转换为虚拟变量。

2. 为每个类别变量的取值创建一个虚拟变量。

对于一个类别变量,如果它有k 个不同的取值,那么就需要创建k-1个虚拟变量。

例如,如果一个类别变量的取值为A、B、C,那么需要创建两个虚拟变量D1和D2。

其中,D1表示取值为B,D2表示取值为C。

取值为A的情况可以通过所有虚拟变量都为0来表示。

3. 分配虚拟变量的取值。

对于每个样本,根据类别变量的取值,为对应的虚拟变量赋值1,其余虚拟变量赋值0。

4. 回归分析。

将转换后的虚拟变量和其他变量一起用于回归模型中进行分析。

需要注意以下几点:
- 虚拟变量方法的基础是虚拟变量陷阱(Dummy Variable Trap)。

为了避免共
线性问题,应该始终忽略转换后的一个虚拟变量。

- 在创建虚拟变量时,可以使用软件工具自动完成。

许多统计软件如Python的pandas库、R的caret包和SPSS等都提供了创建虚拟变量的函数或方法。

- 虚拟变量方法一般适用于线性回归模型,对于其他模型,如逻辑回归等,也可以使用相应的方法将类别变量进行转换。

计量经济学第7讲 虚拟变量

计量经济学第7讲 虚拟变量

• 为了在模型中能够反映这些因素的影响,并提高 模型的精度,需要将它们“量化”,
这种“量化”通常是通过引入“虚拟变量”来 完成的。根据这些因素的属性类型,构造只取“0” 或“1”的人工变量,通常称为虚拟变量(dummy variables),记为D。
• 例如,反映文程度的虚拟变量可取为: 1, 本科学历 D= 0, 非本科学历
1 Dt 0
t t* t t
*
则进口消费品的回归模型可建立如下:
Yt 0 1 X t 2 ( X t X t* ) Dt t
OLS法得到该模型的回归方程为
ˆ ˆ ˆ ˆ Yt 0 1 X t 2 ( X t X t* ) Dt
Hale Waihona Puke ,设1 Dt 0正常年份 反常年份
消费模型可建立如下:
Ct 0 1 X t 2 Dt X t t
• 这里,虚拟变量D以与X相乘的方式引入了模型中, 从而可用来考察消费倾向的变化。 • 假定E(i)= 0,上述模型所表示的函数可化为:
正常年份:
E (Ct | X t , Dt 1) 0 ( 1 2 ) X t
反常年份:
E (Ct | X t , Dt 0) 0 1 X t
当截距与斜率发生变化时,则需要同时引入加 法与乘法形式的虚拟变量。 • 例5.1.1,考察1990年前后的中国居民的总储蓄-收 入关系是否已发生变化。
表5.1.1中给出了中国1979~2001年以城乡储蓄存 款余额代表的居民储蓄以及以GNP代表的居民收入 的数据。
E (Yi | X i , Di 0) 0 1 X i
企业男职工的平均薪金为:

第七章虚拟变量回归

第七章虚拟变量回归

第七章虚拟变量回归第七章虚拟变量回归第⼀节虚拟变量的性质在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。

例如需要考虑性别、民族、不同历史时期、季节差异、政府的更迭(⼯党-保守党)、经济体制的改⾰、固定汇率变为浮动汇率、从战时经济转为和平时期经济等。

这些因素也应该包括在模型中。

⼀、基本概念由于定性变量通常表⽰的是某种特征的有和⽆,所以量化⽅法可采⽤取值为1或0。

这种变量称作虚拟变量(dummy variable )。

虚拟变量也称:哑元变量、定性变量等等。

通常⽤字母D 或DUM 加以表⽰(英⽂中虚拟或者哑元Dummy 的缩写)。

⽤1表⽰具有某⼀“品质”或属性,⽤0表⽰不具有该“品质”或属性。

虚拟变量使得我们可以将那些⽆法定量化的变量引⼊回归模型中。

虚拟变量应⽤于模型中,对其回归系数的估计与检验⽅法和定量变量相同。

虚拟变量表⽰两分性质,即“是”或“否”,“男”或“⼥”等。

下⾯给出⼏个可以引⼊虚拟变量的例⼦。

例1:你在研究学历和收⼊之间的关系,在你的样本中,既有⼥性⼜有男性,你打算研究在此关系中,性别是否会导致差别。

例2:你在研究某省家庭收⼊和⽀出的关系,采集的样本中既包括农村家庭,⼜包括城镇家庭,你打算研究⼆者的差别。

例3:你在研究通货膨胀的决定因素,在你的观测期中,有些年份政府实⾏了⼀项收⼊政策。

你想检验该政策是否对通货膨胀产⽣影响。

上述各例都可以⽤两种⽅法来解决,⼀种解决⽅法是分别进⾏两类情况的回归,然后看参数是否不同。

另⼀种⽅法是⽤全部观测值作单⼀回归,将定性因素的影响⽤虚拟变量引⼊模型。

⼆、虚拟变量设置规则虚拟变量的设置规则涉及三个⽅⾯: 1.“0”和“1”选取原则虚拟变量取“1”或“0”的原则,应从分析问题的⽬的出发予以界定。

从理论上讲,虚拟变量取“0”值通常代表⽐较的基础类型;⽽虚拟变量取“1”值通常代表被⽐较的类型。

“0”代表基期(⽐较的基础,参照物);“1”代表报告期(被⽐较的效应)。

第7讲虚拟变量

第7讲虚拟变量
根据回归的结果,平均来说,女性每小时比男性少挣 2.156美元。但我们的回归中控制了edu和exper,所以这2.156美 元的工资差距不能由男女在受教育水平和工作经历上的平均差 距来解释。
虚拟变量可用于政策分析,虚拟变量取值为0的一组称为控制 组或对照组(control group),取值为1的一组称为实验组
别、出生的月份(是否九月一号之前)、抽烟与否等。
定性信息一般通过定义一个二值变量(binary variable)或 0-1变量刻画。在计量经济学中,它们被称为虚拟变量
(dummy variable)
此类变量的数值只能表示样本中不同个体的特征及它们所
属的分组,数值大小本身并没有实际的意义。
虚拟变量的分类 a.定类/类别变量(nominal/categorical variable) b.定序/有序变量(ordinal variable) c.定距/定量变量(interval variable) 对于只有两种取值的定类变量,可以用0和1表示这两种 取值。这样的变量称为虚拟变量(dummy variable)或二分变 量(binary variable)。 其中,赋值为0的一组称为对照组(reference group)或基 准组(benchmark group)
下面是以单身男性为对照组的回归结果:
lwage mm sf mf …

Coef.
Std. Err.
t
P>t
[95% Conf. 0.1039 -0.2199 -0.3119 …
Interval] 0.3214 -0.0008 -0.0846 …
0.2127 0.0554 3.8400 0.0000 -0.1104 0.0557 -1.9800 0.0480 -0.1983 0.0578 -3.4300 0.0010 … … … …
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• d: dummy variable虚拟变量
Case 1: y = b0 + d0d + b1x + u
• 考虑一个简单工资方程:
wage = b0 + d0 female + b1 educ + u
• If female =0, then wage = b0 + b1educ + u • If female =1, then wage = (b0 + d0) + b1educ + u
• d0 = E(wage| female=1, educ) - E(wage| female=0, educ)
• d0 (an intercept shift): 给定教育年限educ,女性平 均工资比男性平均工资高d0元。
Example of d0 > 0
E(wage|female,educ) = b0 + d0 female + b1 educ
扩展:多个虚拟变量回归模型
• female(1 female; 0 male); married(1 married; 0 single) • marrfem( 1 female married; 0 others) • marrmale (1 male married; 0 others) • singlefem (1 female single; 0 others) • singlemale (1 male single; 0 others)
• A dummy variable 是一种只取1或0两个数值的变量. • Examples: (1) sex: 1: male 2: female
male (= 1 if male, 0 otherwise); female (= 1 if female, 0 otherwise) (2) region: 1. eastern; 2. central ; 3. western) eastern (=1 if eastern, 0 otherwise); central (=1 if central, 0 otherwise) western (=1 if western, 0 otherwise) • Dummy variables are also called: 二值变量(binary variables), 0-1变量(zero-one variables)
Interaction between dummy variables
• 在表示多种性别-婚姻分组时,工资方程又可以表示为:
• wage =b0+d1 female+d2married+d3female*married+b1educ+u • = b0 + d1 female+ (d2+ d3female) married + b1educ+u • = b0 + (d1 + d3married) female + d2married + b1educ+u
Example of d0 < 0
E(wage|female,educ) = b0 + d0 female + b1 educ
回归结果
wage = b0 + d0 female + b1 educ + u
特例:仅有虚拟变量的回归模型
• wage = b0 + d0 female+ u • E(wage| female) = b0 + d0 female • E(wage| female=1) = b0 + d0 • E(wage| female=0) = b0 • d0 = E(wage| female=1) - E(wage| female=0) • d0 含义:女性平均工资比男性平均工资高d0元
education attainment (1: primary; 2: junior 3. high; 4: college)
training (1. trainees; 2. nontrainees); insurance(1. participating; 2. not participating); industry (1.agriculture; 2: manufacture; 3: service;4. others)
• base group: male*single
• E(wage|female=1,married=1, educ) = b0+d1 female+d2married+d3female*married+b1educ
? wage =b0+d1estern+d2 central+b1educ+ u ? wage =b0+d1estern+d2 central+d3western+b1educ+u
• 2. 对于log model, 如何解释虚拟变量系数d0 ?
log(wage) = b0 + d0 female+ b1 educ + u
Multiple Regression Analysis
y = b0 + b1x1 + b2x2 + . . . bkxk + u
5. Dummy Variables
Chapter Outline
• 1. 描述定性信息 Describing Qualitative Information • 2. 一个虚拟变量作解释变量 A Single Dummy Independent Variable • 3. 用多个虚拟变量表示多种分类数据 Using Dummy Variables For Multiple Categories • 4. 与虚拟变量有关的交互项 Interactions Involving Dummy Variables • 5. 虚拟变量作因变量:线性概率模型 A Binary Dependent Variable: The Linear Probability Model • 6. 关于政策分析与项目评价的进一步讨论 More On Policy Analysis And Program Evaluation
• E(wage|female,married, educ)= b0 + d1 female+ d2 married + b1educ • E(wage|female=1,married=1, educ)= b0 + d1 + d2 + b1educ • E(wage|female=1,married=0, educ)= b0 + d1 + b1educ • E(wage|female=0,married=1, educ)= b0 + d2 + b1educ • E(wage|female=0,married=0, educ)= b0 + b1educ • d1 =E(wage|female=1,married=1, educ)- E(wage|female=0,married=1, educ)
2. 虚拟变量作为解释变量(截距项) Dummy Independent Variables
2. 虚拟变量作为解释变量
• Case 1: y = b0 + d0d + b1x + u • Case 2: y = b0 + d1d1 + d1d2 + b1x + u • Case 3: y = b0 + d1d1 + d1d2 + d1d1d2 + b1x + u • Case 4: y = b0 + d0d + d1d·x+b1x + u
Lecture Outline
• 1. 定性信息与虚拟变量 Qualitative information & Dummy
Variables • 2. 虚拟变量作为解释变量(截距项) Dummy Independent Variables • 3. 与虚拟变量有关的交互项 Interactions Involving Dummy Variables:
log(ˆwage) bˆ0 dˆ0 female bˆ1educ
• 在相同教育年限下,女性平均工资比男性平均工
资高(相差)的比率(百分比)。
dˆ0
log(ˆwagef
)
log(ˆwagem )
wagˆef wagˆem wagˆem
wagˆef wagˆem wagˆem
exp(dˆ0 ) 1 dˆ0
• d0 can be interpreted as an intercept shift
(截距项变动)
wage = b0 + d0 female + b1 educ + u
• 在零值条件期望假定( zero conditional mean)下:
E(wage| female, educ) = b0 + d0 female + b1 educ • (1) E(wage| female=1, educ) = (b0 + d0 ) + b1 educ • (2) E(wage| female=0, educ) = b0 + b1 educ
Income groups (1. <1000; 2. 1000-5000; 3. >5000); age group (1. <16; 2. 16-60; 3. >60);
Ordinal variables: Credit rating (low to high: 1 2 3 4 5);
相关文档
最新文档