第7章 Dummy Variables 虚拟变量

合集下载

计量经济学导论:ch07 多元回归分析:虚拟变量

计量经济学导论:ch07 多元回归分析:虚拟变量

colˆGPA 1.26 0.157 PC 0.447hsGPA 0.008ACT
(0.33) (0.057)
(0.094) (0.0105)
n 141, R2 0.219 tPC 0.157 / 0.57 2.75
7
例7.3 培训津贴对培训小时数的影响
hrseˆmp 46.67 26.25grant 0.98 log sales 6.071log employ
(0.72) (0.26)
(0.049) (0.012)
(0.021)
n 526, R2 0.364 是否存在性别歧视?
waˆge 7.10 2.51 female (0.21) (0.30)
n 526, R2 0.116
均值比较检验
6
例7.2 拥有计算机 与大学GPA
colGPA b0 d0PC b1hsGPA b2 ACT u
如何检验这一虚拟假设?
29
估计去掉female和所有交互项后的受约束模型,R2 0.352
F
Ru2r 1 Ru2r
Rr2 / q / n k 1
0.406 0.352 / 4 1 0.406 / 366 7 1
8
30
如何解释男女运动员GPA的差异? 如果只看变量female,结论是:保持其他因素不变, 女性的GPA将比男性少约0.353.但这只是假设sat, hsperc,tothrs都等于零时所得到的估计差异,这 种情况并不是很有意义。

stata中如何生成虚拟变量

stata中如何生成虚拟变量

Stata入门——如何生成虚拟变量

虚拟变量:dummy variable,也叫哑变量,例如在对变量进行量化时,如性别,则可以生成虚拟变量,男为1,女为0;或者对受教育程度的量化。存在N个变量的时候,只允许使用N-1个虚拟变量,这是因为共线性的问题。

方法一:

gen dummy1 = 0 if !missing(变量X) //后面的!missing变量(X)的含义为对数据进行判断,如果该数据没有缺失,则继续进行,如果缺失则丢掉该组数据。

replace dummy1 = 1 if 变量X == 1 if !missing(变量X)

方法二:

gen dummy2 = cond(变量X == 1,1,0) //后面的cond为对变量X进行判断,若

为1,则赋值为1,否则赋值为0

replace dummy2 = . if 变量X == . //此处时对缺失数据进行删除处理

如何生成批量虚拟变量?

tab 变量列名称,gen(前缀名)

此处注意,在回归分析时,有着相同前缀名的虚拟变量可以键入公式:

reg 变量1 变量2 变量3 ...... 前缀名* //系统会自动加入相同前缀的变量进行回归

第七章虚拟变量

第七章虚拟变量

这时,可以t*=1979年为转折期,以1979 年的国民收入Xt*为临界值,设如下虚拟变量:
1 t t* Dt 0 t t *
则进口消费品的回归模型可建立如下:
Yt
0
1X t
2(Xt
X
* t
)Dt
t
OLS法得到该模型的回归方程为:
Yˆt
ˆ0
ˆ1 X t
ˆ2 (X t
X
* t
)Dt
0 1 0 0 1 0
0 0 1 0 0 0
0 0
0
1
0 0
0
β
ቤተ መጻሕፍቲ ባይዱ
1
k
1
α
2 3 4
显然,(X,D)中的第1列可表示成后4列的线性组 合,从而(X,D)不满秩,参数无法唯一求出。
这就是所谓的“虚拟变量陷阱”,应避免。
四、虚拟因变量模型---二值选择 的线性概率模型
高中 其他
1 D2 0
大学及其以上 其他
模型可设定如下: Yi 0 1 X i 2 D1 3 D2 i
在E(i)=0 的初始假定下,高中以下、高中、大学及 其以上教育水平下个人保健支出的函数:
高中以下: E(Yi | X i , D1 0, D2 0) 0 1 X i
• 高中: E(Yi | X i , D1 1, D2 0) (0 2 ) 1 X i

第七章 虚拟变量

第七章 虚拟变量

子女年龄结构不同的家庭教育 费用支出函数为:
无适龄子女家庭的教育费用支出函数 (D=0):Yt=b0+b1Xt+μt
有适龄子女家庭的教育费用支出函数 (D=1):Yt=(b0+a)+b1Xt+μt
虚拟变量对截距的影响
y
有适龄子女
b0+a
无适龄子女
a
b0
o
图1 虚拟变量对截距的影响
x
2、乘法方式引入虚拟变量
一、虚拟变量的概念和作用
(一)概念
在计量经济学中,把反映定性(或属性)因 素变化,取值为0和1的人工变量称为虚拟变 量(dummy variable) ,或称为亚变量、虚 设变量、定性变量、属性变量、双值变量、 类型变量、二元变量和名义变量等。习惯上 用字母D表示。例如:
1城镇居民
1男性
1就业
D= 0农村居民 D= 0女性 D= 0失业
加法形式引入虚拟解释变量,其作用是改 变了设定模型的截距水平。
例4
居民家庭的教育费用支出除了受收入水平的影响外,还 与子女的年龄结构密切相关。如果一个家庭中有适龄子 女(6—21岁),教育费用支出就多。为了反映“子女 年龄结构”这一定性因素,可设置虚拟变量:
1 有适龄子女
D=
0 无适龄子女
将家庭教育费用支出函数写成:Yt=b0+b1Xt+aDt+μt 即以加法形式引入虚拟变量。

计量经济学虚拟变量

计量经济学虚拟变量
Yi a 1X i 2D ui
1 异常时期 D=
0 平时
Yi a 1Xi 2D1 3D2 ui
1
D1= 0
发生地震的年份 其他年份
1
D2= 0
发生水灾的年份 其他年份
2,定性数据的虚拟处理
学历,性别,人种等定性的差异
3,季度虚拟
(1),定义:季度虚拟是通过回归模型的常 数项的变化(斜率回归系数一定)来掌握 季度和月度等季节变化,因此,从技术角 度成为“常数项虚拟”。
这种“量化”通常是通过引入“虚拟变量” 来完成。根据这些因素的属性类型,构造只取 “0”或“1”的人工变量,通常称为虚拟变量 (dummy variables),记为D。
• 例如,反映文程度的虚拟变量可取为:
1, 本科学历 D=
0, 非本科学历
★虚拟变量用于一下场合
1,需要排除数据中的异常值,季节性因素 等。
4,系数虚拟
所谓系数虚拟,是为了结构变化之前与之后的 回归系数(斜率)的差异(而不是常数项)而采 取的虚拟变量处理方法。
Yi a 1Xi 2DX i ui
1 结构变化之后 D=
0 结构变化以前
1 2
1
a
• 系数虚拟变量和常数项虚拟变量
如果结构变化引起回归系数和常数
项双Leabharlann BaiduYi 变 a化,1可Xi以用2下DX面i 的 模3D型引u入i 系

dummy variable的系数解释

dummy variable的系数解释

dummy variable的系数解释

在统计学中,虚拟变量(dummy variable)也称为指示变量或分类变量,通常用于表示分类数据。虚拟变量的系数解释依赖于其使用的回归模型和解释变量的设定。

对于二元虚拟变量,其系数解释通常表示当自变量增加一个单位时,因变量相对于参考类别的变化量。例如,如果一个二元虚拟变量用于表示某个人是否为男性(男性为1,女性为0),则该变量的系数可以解释为相对于女性,男性在因变量上的平均变化量。

对于多元虚拟变量,情况会变得更加复杂。每个虚拟变量的系数都表示该变量相对于参考类别的变化量。为了解释多元虚拟变量的系数,可以使用冗余分析(redundancy analysis)或主成分分析(principal component analysis)等方法来了解各个自变量对因变量的贡献程度。

需要注意的是,虚拟变量的系数解释并不是固定不变的,它可能受到模型设定、数据特征和样本大小等因素的影响。因此,在解释虚拟变量的系数时,需要仔细考虑其背景和上下文,并谨慎评估其意义和可靠性。

虚拟变量(dummy variable)

虚拟变量(dummy variable)
1
0
0
1968
1.085
19
0
0
1951
0.595
2
0
0
1969
1.069
20
0
0
1952
0.646
3
0
0
1970
1.129
21
0
0
1953
0.809
4
0
0
1971
1.209
22
0
0
1954
0.847
5
0
0
1972
1.469
23
0
0
1955
1.
.205
24
0
0
1956
1.
.923
25
0
0
1957
1.
中国进出口贸易总额数据(1950-1984)见上表。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D如下
0(1950 - 1977)
D=
1(1978 - 1984)
中国进出口贸易总额数据(1950-1984)(单位:百亿元人民币)

tห้องสมุดไป่ตู้ade
T
D
T*D

trade
T
D
T*D
1950
0.415

stata虚拟变量解释

stata虚拟变量解释

在 Stata 中,虚拟变量(Dummy Variable)通常用于表示一个分类变量的不同水平(categories)或组。虚拟变量是二进制的,通常被用来在回归等分析中引入分类

变量的效应。下面是关于 Stata 中虚拟变量的解释:

创建虚拟变量:

在 Stata 中,可以使用tabulate命令创建虚拟变量。假设有一个名为category的分类

变量,可以使用以下命令创建虚拟变量:

这将为category变量的每个水平生成一个虚拟变量,变量名为dummy后加上水平的

标签。

虚拟变量的解释:

虚拟变量通常用于回归分析中,以表示分类变量的不同水平对因变量的影响。例如,在一个回归模型中:

其中,i.category表示将category变量转换为虚拟变量。回归模型会为category中的每个水平引入一个虚拟变量,并拟合模型。

虚拟变量的效应:

1.截距项:虚拟变量的一个水平通常被视为截距项。其他虚拟变量的系数表

示相对于这个水平的效应。

2.系数解释:虚拟变量的系数表示相对于参考水平的平均因变量的变化。例

如,如果有一个名为dummy_category的虚拟变量,其系数为 0.5,则表示相

对于参考水平,该分类变量的这个水平平均因变量增加了 0.5。

注意事项:

1.多重共线性:当引入虚拟变量时,需要注意多重共线性问题。由于虚拟变

量之间存在线性相关性,可能导致方差膨胀因子(VIF)较高。

2.虚拟变量陷阱:在使用虚拟变量时,要避免虚拟变量陷阱,即变量之间存

在完全的线性相关性。通常,可以通过将虚拟变量中的一个去掉来避免陷阱。

计量之虚拟变量.

计量之虚拟变量.
6
例题 下表是日本1985-1995年水稻产量Y和耕种面积的数据X: 年份 产量(10万吨)Y 耕种面积(万公顷)X 1985 116 232 1986 116 228 1987 106 212 1988 99 209 1989 103 208 1990 105 206 1991 96 203 1992 105 209 1993 78 213 1994 120 220 1995 107 211
17
ΣX=983.10 ΣY=198.10 ΣXY=11505.46 ΣX2=56993.83 ΣY2=2331.77 Y=-8.5246+0.34891X R2 =0.73985
18
季度虚拟变量数据表
年、季度 1990年1-3月 4-6月 7-9月 10-12月 1991年1-3月 4-6月 7-9月 10-12月 1992年 1-3月 4-6月 7-9月 10-12月 1993年1-3月 4-6月 7-9月 10-12月 1994年1-3月 D1 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 D2 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 D3 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0
12
1 第一季度
D1 ={ 0 其他 1 第二季度 D2 ={ 0 其他 1 第三季度 D3={ 0 其他

第7讲虚拟变量

第7讲虚拟变量
是稍微显著的,在以南部地区为对照组时,西部地区的系数显 著性提高,说明西部地区的工资水平要显著高于南部地区。
3.若干虚拟变量代表同一分类,且这种分类是定序的 例题7.8:法学院排名对起薪的影响(P233)
排名前10 排名11-25 排名26-40 top10=1 r11_25=1 r26_40=1

2.若干虚拟变量代表同一分类,且这种分类是定类的
例:工资的地区差异 northcen=1表示中北部地区; west=1表示西部地区 south=1表示南部地区; other_region=1表示其他地区
同样地,如果有n种分类,回归时只能引入n-1个虚拟变量! 以其他地区为对照组
lwage northcen south Coef. -0.0783 -0.1048 Std. Err. 0.0563 0.0527 t -1.39 -1.99 P>t 0.1650 0.0470
年收入(定距变量,但通过划分收入区间转换为虚拟变量)
1,1万元以下 1,1 5万元 1,5 10万元 1,10万元以上 i1 ;i 2 ;i 3 ;i 4 0, 其他 0, 其他 0, 其他 0, 其他
第二节
自变量中包含虚拟变量
一、自变量中包含一个虚拟变量
(experimental group)或处理组(treatment group)。

虚变量概念

虚变量概念

虚变量概念

虚变量(Dummy variable)是一种用来表示分类或定性变量的

数值化方法。在统计和经济学研究中常常使用虚变量来表示某种特定情况或属性是否存在。

虚变量通常用0和1来表示,其中1表示某一类别的情况存在,0表示该情况不存在。虚变量被用来创建二进制的指示变量,

用于模拟某一变量的特定取值。例如,针对一个课程是否合格的变量,可以设置一个虚变量,其中1表示该学生通过了该课程,0表示未通过。

通过引入虚拟变量,在统计分析中可以考虑到分类变量对于因变量的影响。通过将分类变量进行虚拟变量编码,可以将其纳入回归模型中,从而对不同类别之间的差异进行比较和分析,以便提取有关类别之间对结果的影响程度。

虚拟变量在经济学、社会科学、市场研究等领域广泛应用,可以用于分析不同群体、地域、时间等因素对变量的影响,并帮助解释影响因素之间的关系。虚拟变量的引入使得研究者可以更好地理解分类变量的作用,从而提高模型的精确度和解释力。

第七章虚拟变量回归

第七章虚拟变量回归

第七章虚拟变量回归

第七章虚拟变量回归

第⼀节虚拟变量的性质

在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、政府的更迭(⼯党-保守党)、经济体制的改⾰、固定汇率变为浮动汇率、从战时经济转为和平时期经济等。这些因素也应该包括在模型中。

⼀、基本概念

由于定性变量通常表⽰的是某种特征的有和⽆,所以量化⽅法可采⽤取值为1或0。这种变量称作虚拟变量(dummy variable )。虚拟变量也称:哑元变量、定性变量等等。通常⽤字母D 或DUM 加以表⽰(英⽂中虚拟或者哑元Dummy 的缩写)。

⽤1表⽰具有某⼀“品质”或属性,⽤0表⽰不具有该“品质”或属性。虚拟变量使得我们可以将那些⽆法定量化的变量引⼊回归模型中。

虚拟变量应⽤于模型中,对其回归系数的估计与检验⽅法和定量变量相同。虚拟变量表⽰两分性质,

即“是”或“否”,“男”或“⼥”等。下⾯给出⼏个可以引⼊虚拟变量的例⼦。

例1:你在研究学历和收⼊之间的关系,在你的样本中,既有⼥性⼜有男性,你打算研究在此关系中,性别是否会导致差别。

例2:你在研究某省家庭收⼊和⽀出的关系,采集的样本中既包括农村家庭,⼜包括城镇家庭,你打算研究⼆者的差别。

例3:你在研究通货膨胀的决定因素,在你的观测期中,有些年份政府实⾏了⼀项收⼊政策。你想检验该政策是否对通货膨胀产⽣影响。

上述各例都可以⽤两种⽅法来解决,⼀种解决⽅法是分别进⾏两类情况的回归,然后看参数是否不同。另⼀种⽅法是⽤全部观测值作单⼀回归,将定性因素的影响⽤虚拟变量引⼊模型。

虚拟变量

虚拟变量
(1 4 7 )X l Ul
(三§)虚7拟.1解释变含量模有型虚示例拟解释变量的线性回归模型
例7.3 (城乡居民消费模型)
Di
1 0
i N1 {1, ,30}(城市) i N2 {31, ,60}(乡村)
XFXZC 0 1KZPSR 2D 3(D KZPSR) U
XFXˆZC 115.38 0.71KZPSR 110.89D 0.10(D KZPSR)
(1.230)(18.199) (-0.655) (2.182)
R 2 0.9854 R 2 0.9846 SE 194.26
D W 1.791 F 1256.35
城镇: XFXˆZC 4.49 0.81KZPSR
乡村: XFXˆZC 115.38 0.71KZPSR
§7.1 含有虚拟解释变量的线性回归模型
(11.761)(-5.136) (3.422) (-2.360)
e~i2 1.1783
D W 2.152
政策颁布前后失业率函数:
SY~L 2.534 1.271ZWKQL
SY~L (2.534 1.595) (1.271 1.449)ZWKQL
利用虚拟变量模型处理异常数据
一、异常数据 异常数据——这里所谓异常数据是指那些个别的、 其表现与样本中其余绝大部分数据所呈现的规律或趋 势明显不协调的数据。 异常数据的直观表现是“离群点”。 异常数据形成原因——造成异常数据的原因常常 是一些偶然因素的作用,如战争、自然灾害等突发因 素常常会导致有关经济数据异常。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
= E(wage|female=1,married=0, educ)- E(wage|female=0,married=0, educ)
• d2 =E(wage|female=1,married=1, educ)- E(wage|female=1,married=0, educ)
= E(wage|female=0,married=1, educ)- E(wage|female=0,married=0, educ)
Chow test
1. 定性信息与虚拟变量 Qualitative information & Dummy Variables
数量信息与定性信息 Quantitative & Qualitative information
• 连续变量(Continuous Variables): Quantitative information:
• A dummy variable 是一种只取1或0两个数值的变量. • Examples: (1) sex: 1: male 2: female
male (= 1 if male, 0 otherwise); female (= 1 if female, 0 otherwise) (2) region: 1. eastern; 2. central ; 3. western) eastern (=1 if eastern, 0 otherwise); central (=1 if central, 0 otherwise) western (=1 if western, 0 otherwise) • Dummy variables are also called: 二值变量(binary variables), 0-1变量(zero-one variables)
• d0 can be interpreted as an intercept shift
(截距项变动)
wage = b0 + d0 female + b1 educ + u
• 在零值条件期望假定( zero conditional mean)下:
E(wage| female, educ) = b0 + d0 female + b1 educ • (1) E(wage| female=1, educ) = (b0 + d0 ) + b1 educ • (2) E(wage| female=0, educ) = b0 + b1 educ
Lecture Outline
• 1. 定性信息与虚拟变量 Qualitative information & Dummy
Variables • 2. 虚拟变量作为解释变量(截距项) Dummy Independent Variables • 3. 与虚拟变量有关的交互项 Interactions Involving Dummy Variables:
2. 虚拟变量作为解释变量(截距项) Dummy Independent Variables
2. 虚拟变量作为解释变量
• Case 1: y = b0 + d0d + b1x + u • Case 2: y = b0 + d1d1 + d1d2 + b1x + u • Case 3: y = b0 + d1d1 + d1d2 + d1d1d2 + b1x + u • Case 4: y = b0 + d0d + d1d·x+b1x + u
Example of d0 < 0
E(wage|female,educ) = b0 + d0 female + b1 educ
回归结果
wage = b0 + d0 female + b1 educ + u
特例:仅有虚拟变量的回归模型
• wage = b0 + d0 female+ u • E(wage| female) = b0 + d0 female • E(wage| female=1) = b0 + d0 • E(wage| female=0) = b0 • d0 = E(wage| female=1) - E(wage| female=0) • d0 含义:女性平均工资比男性平均工资高d0元
log(ˆwage) bˆ0 dˆ0 female bˆ1educ
• 在相同教育年限下,女性平均工资比男性平均工
资高(相差)的比率(百分比)。
dˆ0
log(ˆwagef
)Leabharlann Baidu
log(ˆwagem )
wagˆef wagˆem wagˆem
wagˆef wagˆem wagˆem
exp(dˆ0 ) 1 dˆ0
• d0 = E(wage| female=1, educ) - E(wage| female=0, educ)
• d0 (an intercept shift): 给定教育年限educ,女性平 均工资比男性平均工资高d0元。
Example of d0 > 0
E(wage|female,educ) = b0 + d0 female + b1 educ
Multiple Regression Analysis
y = b0 + b1x1 + b2x2 + . . . bkxk + u
5. Dummy Variables
Chapter Outline
• 1. 描述定性信息 Describing Qualitative Information • 2. 一个虚拟变量作解释变量 A Single Dummy Independent Variable • 3. 用多个虚拟变量表示多种分类数据 Using Dummy Variables For Multiple Categories • 4. 与虚拟变量有关的交互项 Interactions Involving Dummy Variables • 5. 虚拟变量作因变量:线性概率模型 A Binary Dependent Variable: The Linear Probability Model • 6. 关于政策分析与项目评价的进一步讨论 More On Policy Analysis And Program Evaluation
• d: dummy variable虚拟变量
Case 1: y = b0 + d0d + b1x + u
• 考虑一个简单工资方程:
wage = b0 + d0 female + b1 educ + u
• If female =0, then wage = b0 + b1educ + u • If female =1, then wage = (b0 + d0) + b1educ + u
• base group: male*single
• E(wage|female=1,married=1, educ) = b0+d1 female+d2married+d3female*married+b1educ
• E(wage|female,married, educ)= b0 + d1 female+ d2 married + b1educ • E(wage|female=1,married=1, educ)= b0 + d1 + d2 + b1educ • E(wage|female=1,married=0, educ)= b0 + d1 + b1educ • E(wage|female=0,married=1, educ)= b0 + d2 + b1educ • E(wage|female=0,married=0, educ)= b0 + b1educ • d1 =E(wage|female=1,married=1, educ)- E(wage|female=0,married=1, educ)
Case 2: y = b0 + d1d1 + d1d2 + b1x + u
扩展:多个虚拟变量回归模型
• female (1 female; 0 male); married (1 married; 0 single)
• wage = b0 + d1 female+ d2 married + b1educ + u
扩展:多个虚拟变量回归模型
• female(1 female; 0 male); married(1 married; 0 single) • marrfem( 1 female married; 0 others) • marrmale (1 male married; 0 others) • singlefem (1 female single; 0 others) • singlemale (1 male single; 0 others)
Income groups (1. <1000; 2. 1000-5000; 3. >5000); age group (1. <16; 2. 16-60; 3. >60);
Ordinal variables: Credit rating (low to high: 1 2 3 4 5);
Dummy Variables & Qualitative information
education attainment (1: primary; 2: junior 3. high; 4: college)
training (1. trainees; 2. nontrainees); insurance(1. participating; 2. not participating); industry (1.agriculture; 2: manufacture; 3: service;4. others)
• wage = b0 + d1 marrfem+ d2 marrmale + d3 singlefem + b1 educ + u
• base group: singlemale
3. 与虚拟变量有关的交互项
Interactions Involving Dummy Variables
Case 3: y = b0 + d1d1 + d1d2 + d1d1d2 + b1x + u
Interaction between dummy variables
• 在表示多种性别-婚姻分组时,工资方程又可以表示为:
• wage =b0+d1 female+d2married+d3female*married+b1educ+u • = b0 + d1 female+ (d2+ d3female) married + b1educ+u • = b0 + (d1 + d3married) female + d2married + b1educ+u
• 可用于均值比较检验(comparison-of-means test)
两个简单问题
• 1. 能否加入全部性别虚拟变量?
wage = b0 + d1 female+ d2 male + b1 educ + u
虚拟变量陷阱(dummy variable trap) 对照组/基组 (base group / benchmark group) • 地区虚拟变量
? wage =b0+d1estern+d2 central+b1educ+ u ? wage =b0+d1estern+d2 central+d3western+b1educ+u
• 2. 对于log model, 如何解释虚拟变量系数d0 ?
log(wage) = b0 + d0 female+ b1 educ + u
wage, years of education, experience, weight, sales, price, pop
• 离散变量(Discrete Variables): Qualitative information:
gender (1: male 2: female); race(1.black; 2. white; 3. others); marital status (1: single; 2: married); region(1. eastern; 2. central ; 3. western);
相关文档
最新文档