虚拟变量案例

合集下载

虚拟变量名词解释

虚拟变量名词解释

虚拟变量名词解释

是数学中的一种变量,它是通过把参数取为整数或零来实现的。

1、变量:现实世界中的变量称为真实变量,而在数学中,将把

带有“变量”字样的函数和过程称为虚拟变量。

变量是指处于可测空间的连续函数。这些函数既可以是实变量,也可以是虚拟变量,两者在数学中统称为变量,如x(t)=t,就是一

个虚拟变量。对于复合函数,即复合变量,我们用“复合变量”表示之。(2)

虚拟变量:处于可测空间中的离散函数。例如,从f(x)图像上

任意一点出发的所有射线的集合称为变量空间中的某一变量(在这里,我们假定不同点对应不同的变量),其中每条射线称为变量x的虚拟

变量。由此可见,变量空间与可测空间是两个不同的概念,但它们之间有一个“中间地带”,即X与Y之间的变量范围。它们的关系是: X 空间是Y空间的一部分; X空间内的任何一个点都是Y空间内的点;

除去虚拟变量之外的变量称为复变量。

3、微分变量:处于可测空间上的离散变量,亦称微商变量。它

是一个复数,其元素是一个实数或复数。这个复数的所有实部与虚部之和构成一个实部与虚部互异的复数,这就是复数的虚部,记作,称为复数的微分。对于实数域上的函数g,其自变量称为变量(x, a,b)及,函数(g, x, a, b),称为微分变量,记作,写为,其中g

称为g的微分。 4、导数变量:导数是连续可测空间上的可导函数。导数和微分是不同的,导数的含义是隐函数在自变量的变化下,在函

数图象上所描绘出的切线的斜率。

4、导数变量:导数是连续可测空间上的可导函数。导数和微分是不同的,导数的含义是隐函数在自变量的变化下,在函数图象上所描绘出的切线的斜率。处理任意阶导数时,只须取自变量的实部与虚部,即实部为一阶导数,虚部为二阶导数。而三阶导数则须先取自变量的虚部,再取虚部的逆变换。所以三阶导数为四阶导数的逆变换,四阶导数为五阶导数的逆变换,依次类推。

计量经济学 第2章 虚拟变量

计量经济学  第2章 虚拟变量

表示季节虚拟变量
时序图
估计结果(一)
ˆ 74.99 1.68t 16.19d 3.82d 3.56d Y t 1 2 3
24.97 9.21
5.46
1.30
1.22
估计结果(二)
ˆ 77.77 1.65t 16.68d Y t 1
33.46 9.09
案例分析(二)
案例2.2 研究1970~1995年间美国个人可支配收入与个人储蓄的关系。在1982年,美国遭 受到和平时期最严重的经济衰退,当年的城市失业率高达9.7%,是自1948年以来失业率最 高的一年。现就所获取的数据来分析这种事件会否扰乱收入和储蓄之间的关系。数据: data22.xls
构造虚拟变量
5.67
估计结果(三)
ˆ 76.56 1.76t 17.93d 0.45d t Y t 1 1
29.70 8.46
3.86
1.07
结论
• 第二三季度可以归并入基础类别第四季度之中 • 新变量d1t前系数估计的P值为0.3003,这说明季节对斜率没有显著的影响。 • 综上,酒类商品受季节变化的影响最大的为一季度,因此商家需要根据自己经营的商品的 季节性变化,做好商品营销和库存的合理安排。
程序(EViews)
• • • • • • • • • wfopen E:\data\data21.xls @freq Q @id @date(date) y.line equation eq1.ls y c t d1 d2 d3 freeze eq1.results equation eq2.ls y c t d1 freeze eq2.results genr d1t=d1*t equation eq3.ls y c t d1 d1t freeze eq3.results

计量经济学实验报告虚拟变量

计量经济学实验报告虚拟变量

实验三:虚拟变量模型

一、研究的目的与要求

根据下表2009年我国城镇居民人均收入与住房方面消费性支出的统计资料建立我国城镇居民住房方面消费性支出函数。 二、模型设立

1、问题描述:2009年我国城镇居民人均收入对住房方面消费性支出的影响。

2、数据:

我国城镇居民家庭抽样调查资料

项 目 住房 平均每人全部年

收入 (元)

D 困难户 60.83 4935.81 0 最低收入户 84.73 5950.68 0 低收入户 123.92 8956.81 0 中等偏下户 178.48 12345.17 0 中等收入户 261.37 16858.36 0 中等偏上户 526.36 23050.76 1 高收入户 659.61 31171.69 1 最高收入户

1482.11

51349.57

1

三、相关图分析;

1. 键入命令:SCAT X Y ,则人均收入与住房方面消费性支出的相关散点图如下图所示。

从相关图可以看出,前5个样本点(即中低收入家庭)与后3个样本点(中、高收入)的消费性支出存在较大差异,因此,为了反映“收入层次”这一定性因素的影响,设置虚拟变量如下:

10

D ⎧=⎨⎩ 中等偏高及高收入家庭 中、低收入家庭

2. 构造虚拟变量。

使用SMPL和GENR命令直接定义。

DATA D1

GENR XD=X*D1

3. 估计虚拟变量模型:

再由t检验值判断虚拟变量的引入方式,并写出各类家庭的消费性支出函数。虚拟变量模型的估计结果如下:

Dependent Variable: Y

Method: Least Squares

Date: 01/03/12 Time: 15:25

虚拟变量(dummy variable)

虚拟变量(dummy variable)
1
0
0
1968
1.085
19
0
0
1951
0.595
2
0
0
1969
1.069
20
0
0
1952
0.646
3
0
0
1970
1.129
21
0
0
1953
0.809
4
0
0
1971
1.209
22
0
0
1954
0.847
5
0
0
1972
1.469
23
0
0
1955
1.
.205
24
0
0
1956
1.
.923
25
0
0
1957
1.
中国进出口贸易总额数据(1950-1984)见上表。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D如下
0(1950 - 1977)
D=
1(1978 - 1984)
中国进出口贸易总额数据(1950-1984)(单位:百亿元人民币)

tห้องสมุดไป่ตู้ade
T
D
T*D

trade
T
D
T*D
1950
0.415

《虚拟变量模型 》课件

《虚拟变量模型 》课件
独立性假设
模型假设所有解释变量之间相互独立,但在现实 中,变量间可能存在交互效应或遗漏变量偏误。
3
同方差性假设
模型假设误差项的方差恒定,但在实际应用中, 方差可能会随着解释变量的变化而变化。
数据质量的挑战
数据来源与收集
虚拟变量模型对数据质量要求较 高,数据来源和收集方法可能影 响模型结果的准确性。
间的差异。
交互效应与高阶效应研究
探索解释变量之间的交互效应以及高 阶效应,以更全面地揭示变量之间的 关系。
跨领域应用研究
将虚拟变量模型应用于其他领域,如 生物医学、社会科学等,以拓展其应 用范围和价值。
06
结论
总结虚拟变量模型的主要观点
虚拟变量模型是一种用于处理分类变量的统计方 法,通过引入虚拟变量(也称为指示变量或分类 变量),可以将分类变量转换为一系列二元离散 变量,从而在回归分析中进行分析。
业类型的效应,可以使用虚拟变量模型。
虚拟变量模型的优缺点
优点
能够处理分类变量对连续结果的影响,能够同时分析多个分类变量的效应,有助于更好地理解数据之 间的关系。
缺点
当分类变量类别过多时,会导致虚拟变量的数量增加,从而增加模型的复杂性和计算负担。此外,虚 拟变量模型对于非线性关系的处理能力有限,可能无法准确捕捉数据之间的关系。
02
虚拟变量模型的建立
确定研究问题与假设

虚拟变量 熵权法 -回复

虚拟变量 熵权法 -回复

虚拟变量熵权法-回复

什么是虚拟变量?

虚拟变量,又称为二值变量、哑变量或者指示变量,是一种用来表示分类或分组变量的一种编码方式。在统计分析中,虚拟变量通常被用来代表无法直接测量的变量,如性别、地区、学历等。通过将这些变量转换成虚拟变量,就可以在统计模型中进行处理和分析。

为什么需要使用虚拟变量?

在实际生活和工作中,我们常常遇到需要分析分类变量对某个因变量的影响的情况。例如,我们想知道性别对某个产品的购买行为是否有影响。这时候,我们就可以使用虚拟变量来表示性别,将男性和女性分别编码为1和0,用于后续的分析。

如何构造虚拟变量?

构造虚拟变量需要根据实际情况确定哪些分类变量需要转换成虚拟变量,并对这些变量进行编码。通常情况下,我们可以先对分类变量进行编码,然后将编码结果转换成虚拟变量。

以性别为例,假设我们有一个包含性别的数据集,其中性别有两个分类:

男性和女性。我们可以将性别编码为0和1,其中0代表男性,1代表女性。然后,我们可以将这个编码结果转换成虚拟变量。

虚拟变量的取值通常是二值的,即0或1。这是因为虚拟变量用来表示是否属于某个分类。对于有多个分类的变量,我们可以通过引入多个虚拟变量来表示不同的类别。

虚拟变量在实际应用中的案例

虚拟变量的应用非常广泛,下面以一个实际案例来说明。

假设我们想研究教育水平对人们的收入水平的影响。我们可以收集一组数据,包括受教育程度和收入水平。受教育程度可以分为初中、高中、大学和研究生四个等级。我们可以使用虚拟变量来表示受教育程度,将其编码为四个虚拟变量。

例如,对于初中学历,我们可以设置一个虚拟变量X1,当某个人的受教育程度为初中时,X1为1,否则为0。同样地,我们可以设置X2、X3和X4分别表示高中、大学和研究生学历。

计量经济学实验7虚拟变量模型

计量经济学实验7虚拟变量模型

实验七虚拟变量

【实验目的】

掌握虚拟变量的设置方法。

【实验内容】

一、试根据表7-1的1998年我国城镇居民人均收入与彩电每百户拥有量的统计资料建立我国城镇居民彩电需求函数;

资料来源:据《中国统计年鉴1999》整理计算得到

二、试建立我国税收预测模型(数据见实验一);

三、试根据表7-2的资料用混合样本数据建立我国城镇居民消费函数。

最低收入户 2397.6 2476.75 0 2523.1 2617.8 1 低收入户 2979.27 3303.17 0 3137.34 3492.27 1 中等偏下户 3503.24 4107.26 0 3694.46 4363.78 1 中等收入户 4179.64 5118.99 0 4432.48 5512.12 1 中等偏上户 4980.88 6370.59 0 5347.09 6904.96 1 高收入户 6003.21 7877.69 0 6443.33 8631.94 1 最高收入户

7593.95

10962.16

8262.42

12083.79

1

资料来源:据《中国统计年鉴》1999-2000整理计算得到

【实验步骤】

一、我国城镇居民彩电需求函数 ⒈相关图分析;

键入命令:SCAT X Y ,则人均收入与彩电拥有量的相关图如7-1所示。 从相关图可以看出,前3个样本点(即低收入家庭)与后5个样本点(中、高收入)的拥有量存在较大差异,因此,为了反映“收入层次”这一定性因素的影响,设置虚拟变量如下:

⎩⎨

⎧=低收入家庭

中、高收入家庭

1D

图7-1 我国城镇居民人均收入与彩电拥有量相关图

虚拟变量的引入

虚拟变量的引入

优点
简化模型
01
在回归分析中,引入虚拟变量可以简化模型,使得解释变量与
因变量之间的关系更加直观。
分类变量处理
02
对于分类变量,虚拟变量可以将其转化为可度量的数值形式,
便于进行数学建模和统计分析。
提高模型的拟合度
03
在某些情况下,引入虚拟变量可以提高模型的拟合度,使得模
型更好地拟合实际数据。
缺点
增加模型复杂度
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
05
虚拟变量的使用案例
案例一:市场细分研究
目的
识别不同消费者群体之间的差异,以便更好地满足他们的需求。
方法
通过调查问卷或市场调研收集数据,然后使用虚拟变量对消费者 特征进行编码,例如性别、年龄、收入等。
结果
了解不同消费者群体对产品或服务的偏好和需求,为企业制定更 精准的市场策略提供依据。
案例二:用户行为分析
目的
了解用户在网站或应用程序上的行为模式,以提高用户体验和转 化率。
方法
通过分析用户日志数据,使用虚拟变量对用户行为进行分类,例如 浏览、搜索、购买等。
结果
识别用户行为模式,发现用户偏好和痛点,优化产品设计和功能。
案例三:产品差异化研究
目的
了解不同产品版本之间的差异, 以便更好地满足消费者需求和提 高市场份额。

一套万能的虚拟变量公式

一套万能的虚拟变量公式

一套万能的虚拟变量公式

虚拟变量(也称为指示变量或二进制变量)通常用于表示分类变量的状态,例如性别(男性=1,女性=0)或国籍(国内=1,国外=0)。虚拟变量经常在统计模型中使用,例如线性回归或逻辑回归。

假设你有一个分类变量 `C`,它有 `k` 个不同的类别。对于这个变量,你可以创建 `k-1` 个虚拟变量。每个虚拟变量对应于 `C` 的一个类别,并且当观察值属于该类别时,该虚拟变量为 1,否则为 0。

例如,假设你有一个分类变量 `C`,其值可以为 "A","B" 或 "C"。你可以创建以下三个虚拟变量:

D1: 当 C = "A" 时为 1,否则为 0

D2: 当 C = "B" 时为 1,否则为 0

D3: 当 C = "C" 时为 1,否则为 0

对于包含多个观察值的表格数据,这些虚拟变量的形式如下:

```css

C D1 D2 D3

----

A 1 0 0

B 0 1 0

C 0 0 1

```

如果你想为每个类别创建一个虚拟变量,并且类别名称包含在数据中(例如,C = "Male","Female"),你可以使用如下公式(在Excel或其他电子表

格软件中):

假设你的数据在A列(从A2开始),并且你的类别名称在B列(从B1开始),那么对于每个类别 `i` 的虚拟变量 `Di`,你可以使用以下公式:

`Di = IF(A2 = B1, 1, 0)`

然后将这个公式拖动到整列以自动应用到所有的观察值。

第七章 多元回归分析-虚拟变量

第七章 多元回归分析-虚拟变量

δ0 > 0 的例子
y
y = (β0 + δ0) + β1x
d=1 slope = β1 d=0
δ0
{
} β0
y = β0 + β1x
x
从多个数值的类型变量到虚拟变量
• 我们可以用虚拟变量来控制有多种类型因素 • 假设样本中的个人是中学辍学或者仅仅中学毕业 或者大学毕业 • 现在要拿仅仅中学毕业和大学毕业的人和中学辍 学的人比较 • 定义hsgrad = 1 如果仅仅是中学毕业, 0 其它情 况; colgrad = 1 如果大学毕业, 0 其它情况
线性概率模型(续)
• 即使概率的预测值在 [0,1] 范围内, 我们也可能估 计出x 的变化对成功概率的影响大于+1 或者小于 –1, 因此最好用x 均值附近的变化 • 此外,该模型的扰动项不满足同方差的假设,因 此会对检验产生影响 • 虽然有以上不足,线性概率模型还是可以在y 为 二元变量的情况下作为初步的模型来使用
SSR1 + SSR2 k +1
Chow 检验(续)
• Chow 检验其实就是一个对排除性限制条 件的F 检验, 我们注意到 SSRur = SSR1 + SSR2 • 注,我们一共有k + 1 限制条件 (针对每 一个斜率和一个截距) • 注, 无限制条件的模型估计了两个截距项 和两组不同的系数,因此自由度(df)为 n – 2k – 2

6.虚拟变量(fixed)

6.虚拟变量(fixed)
1 硕 , 士 , 性 1 女 1 博 , 士 M= , D2 = ,D = 3 0 其 , 他 0 男 , 性 , 他 0 其
• 回归模型建立如下:
Y = β1 + β 2 D2 + β 3 D3 + β 4 M + β 5 X + u
1 硕 , 士 , 性 1 女 1 博 , 士 M= , D2 = ,D = 3 , 他 , 性 , 他 0 其 0 男 0 其
虚拟变量的设定原则
当需要纳入某个定性变量时,如果模型包含截距项, 那么引入的虚拟变量个数应该比该定性变量的分类总 数少1。否则,会造成多重共线性,使得模型无法估 计。这种情形亦称为“虚拟变量陷阱”。 虚拟变量设定规则:n分定性变量需要引入n-1 个虚 拟变量。 比如:性别的种类有两种,则只需要引入一个虚拟变 量D。学历若只考虑大学、硕士、博士三种,则只需 要引入两个虚拟变量,D1和D2。季节变量有四种类 型,则只需纳入三个虚变量,D1、D2和D3。
虚拟变量回归模型 估计与假设检验
由于虚拟变量的取值也遵循解释变量非 随机的假定,因此,用OLS法估计包含 一个或多个虚拟变量的回归模型,不会 带来新的估计问题。一句话,OLS法同 样适用于虚拟变量回归。 假设检验的一般方法也同样适用于虚拟 变量回归。
思 考
回 模 : = β1 + β2D+u 归 型 Y

第十二讲关于虚拟变量的回归讲解

第十二讲关于虚拟变量的回归讲解
Hale Waihona Puke Baidu
二、 一个定量变量和一个两分定性变量
仍然用上面的例子,只是引入教龄作为解释变量。有 如下模型:
Yi a1 a2Di X i ui
X表i 示教龄,其他定义如前。这个模型的系数估计
用ols即可完成。
女教授平均薪金:E(Yi | X i , Di 0) 1 X i 男教授平均薪金:E(Yi | X i , Di 1) (1 2) X i
大汉堵在门口,后面的人上不来,而车厢里的 乘客急着发车,大家七嘴八舌地嚷起来了: “啰唆什么呢!快给钱!”
大汉很快瘪了下去。 只见他从口袋里掏出
一个钱包 递过来, 哭丧着脸说: “老大, 身上就这点钱, 你们人多, 我服了!”
关于虚拟变量的回归
1、虚拟变量的性质 2、对一个定量变量和一个两分定性变量的回归 3、对一个定量变量和一个多分定性变量的回归 4、对一个定量变量和两个定性变量的回归 5、一个例子:“兼职”经济学 6、检验回归模型的结构稳定性 7、比较两个回归:虚拟变量法 8、比较两个回归:进一步说明 9、交互作用效应 10、虚拟变量在季节分析中的应用 11、分段线性回归 12、在时间序列和横截面数据的合并中使用虚拟变量 13、虚拟变量方法的一些技术问题
三、 一个定量变量和一个多分定性变量
假设在横截面数据的基础上,分析个人保健支出对个人 收入和教育水平的回归。教育水平是定性变量,分为 三类:低于中学、中学和大学。模型中引入两个虚拟 变量。模型如下:

虚拟变量(哑变量)回归

虚拟变量(哑变量)回归

由式(1)到式(2),截距项增加了b2,因此b2就是大二男生比大一男生月支出高的部 分;由式(1)到式(3),截距项增加了b4,因此b4就是大一女生比大一男生月支出高 的部分。
差别截距:所有表示各类别虚拟变量的回归系数(bj)表示的是该类与参照类的均值之 差。(对于序次变量还可计算相邻分类的边际效应,任意两类的边际效应)
~ tnk1
3、检验其显著性
其中 S(bibj)viivjj2vij
补充问题
参照类的选择
根据研究者的选择偏好,无实质性影响
其他编码方法
效应编码(effect coding)、正交编码(orthogonal coding)、非正交编码 (nonorthogonal coding)
➢ 效应编码 虚拟编码:定义参照类,回归系数表示各类与参照类均值的差
例:分析妇女的年龄(AGE)、文化程度(EDU)及居住地(AREA)
状况对妇女曾生子女数(CEB)的影响。
其中,文化程度分为文盲或半文盲(1)、小学(2)、初中(3)、 高中(4)和大学(5)共五类 居住地分为城市(1)和农村(2)共两类。
Di = 1 ,是女性
= 0 ,不是女性
例2:大学生年级变量具有四个类别,如何构造?
Y i b 0 b 1 D 1 i b 2 D 2 i b 3 D 3 i b 4 D 4 i u i“虚陷拟阱变”量

虚拟变量案例

虚拟变量案例

虚拟变量(dummy variable )

在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。

由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D 表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。

1. 截距移动 设有模型,

y t = β0 + β1 x t + β2D + u t ,

其中y t ,x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为,

β0 + β1x t + u t , (D = 0) y t = (β0 + β2) + β1x t + u t , (D = 1)

020

40

60

20

40

60

X Y

图8.1 测量截距不同

D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。

例:中国成年人体重y (kg )与身高x (cm )的回归关系如下: –105 + x D = 1 (男)

y = - 100 + x - 5D =

– 100 + x D = 0 (女) 注意:

① 若定性变量含有m 个类别,应引入m -1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap )。

② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。 ③ 定性变量中取值为0所对应的类别称作基础类别(base category )。

虚拟变量案例stata

虚拟变量案例stata

虚拟变量案例stata

1.定义

引入“虚拟变量(哑变量,dummy variable)”对定性数据或者分类数据,赋值0或者1。

例如,对东部、中部、西部产生虚拟变量,则需要2个。

因为east=1,表示东部;east=0,表示其他地区。

同样middle=1,表示中部;middle=0,表示其他地区。

那么east=0,且middle=0时,则表示west(西部)。

但是值得注意的是,(east=1的个数)+(middle=1的个数)+(表示west的数值)=全体分析样本数。

否则,在stata回归时不会自动检测到多重共线性,自动omit 其中一个变量。

2.设置参照组

下面例子中:east=1,表示东部;middle=1,表示中部;west= 1,表示西部。目的是为了选择参照组。

"note:west omitted because of collinearity":我把三个变量都放进去,所以stata检测到多重共线性,把west的变量忽略了,作为参照组(对比组)。

如果想把参照组设定为middle:

reg ln_min edu east west

如果想把参照组设定为east:

reg ln_min edu middle west

或者在回归中指定omit variable:

虚拟变量模型 例题

虚拟变量模型 例题

表8.1 国民总收入与居民储蓄存款单位:亿元

鉴数值,与用年底余额计算的数值有差异。

对于两个转折点1996年和2000年,引入两个虚拟变量1t D 和2t D ,

10 t=1996 1 t=1996t D ⎧=⎨⎩年及以前年以后

20 t=2000 1 t=2000t D ⎧=⎨⎩年及以前年以后

那么,当 t=1996年及以前: 12D 0,D 0t t ==

当 t=1997-2000年: 12D 1,D 0t t == 当 t=2000年以后: 12D 1,D 1t t ==

并建立以下模型:

123142(66850.5)(88254)t t t t t t t

YY GNI GNI D GNI D ββββμ=++-+-+

1. t=1996年及以前:120,0t t D D ==

12()t t E YY GNI ββ=+

2. t=1996年以后,2000年及以前:121,0t t D D ==

1323()(66850.5)()t t E YY GNI ββββ=-++

3. t=2000年以后:121,1t t D D ==

134234()(66850.588254)()t t

E YY GNI ββββββ=--+++

回归结果:

830.400.14 t 199618556.240.15 1996<t 2000308660.41 t>2000

t t t t t t YY GNI YY GNI YY GNI =-+≤=-≤=-+

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

虚拟变量(dummy variable)

在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。

由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。

1.截距移动

设有模型,

y t = 0 + 1 x t + 2D + u t ,

其中y t,x t为定量变量;D为定性变量。当D= 0 或1时,上述模型可表达为,

+ 1x t + u t , (D = 0)

y t =

(0 + 2) + 1x t + u t , (D = 1)

D =0

D = 1

+2

图8.1 测量截距不同

D= 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若2显著不为零,说明截距不同;若2为零,说明这种分类无显著性差异。

例:中国成年人体重y(kg)与身高x(cm)的回归关系如下:

–105 + x D = 1 (男)

y = - 100 + x - 5D =

– 100 + x D = 0 (女)

注意:

①若定性变量含有m个类别,应引入m-1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap)。

②关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。

③定性变量中取值为0所对应的类别称作基础类别(base category)。

④对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如:

1 (大学)

D =0 (中学)

-1 (小学)。

【案例1】中国季节GDP数据的拟合(虚拟变量应用,file:case1及case1-solve)

GDP序列图不用虚拟变量的情形若不采用虚拟变量,得回归结果如下,

GDP = 1.5427 + 0.0405 T

(11.0) (3.5) R2 = 0.3991, DW = 2.6,s.e. = 0.3

定义

1 (1季度) 1 (2季度) 1 (3季度)

D1 = D2 = D3 =

0 (2, 3,4季度) 0 (1, 3, 4季度) 0 (1, 2, 4季度)

第4季度为基础类别。

GDP = 2.0922 + 0.0315 T – 0.8013 D1 – 0.5137 D2– 0.5014 D3

(64.2) (15.9) (-24.9) (-16.1) (-15.8)

R2 = 0.9863, DW = 1.96,s.e. = 0.05

附数据如下:

年GDP t D1D2D3

1996:11.31561100

1996:21.66002010

1996:31.59193001

1996:42.220964000

1997:11.468565100

1997:21.849486010

1997:31.79727001

1997:42.36208000

1998:11.589949100

1998:21.8831610010

1998:31.9704411001

1998:42.5117612000

1999:11.678413100

1999:21.940514010

1999:32.061115001

1999:42.525416000

2000:11.817317100

2000:22.131818010

2000:32.263319001

2000:42.728020000

2.斜率变化

以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。当需要考虑时,可建立如下模型:

y t = 0 + 1 x t + 2 D+ 3 x t D + u t ,

其中x t为定量变量;D为定性变量。当D= 0 或1时,上述模型可表达为,

(0 + 2 ) + (1 + 3)x t + u t , (D = 1)

y t =

+ 1 x t + u t , (D = 0)

通过检验3是否为零,可判断模型斜率是否发生变化。

图8.5 情形1(不同类别数据的截距和斜率不同)图8.6 情形2(不同类别数据的截距和斜率

不同)

例2:用虚拟变量区别不同历史时期(file: case2及case2-solve)

中国进出口贸易总额数据(1950-1984)见上表。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D如下

0 (1950 - 1977)

D =

1 (1978 - 1984)

中国进出口贸易总额数据(1950-1984)(单位:百亿元人民币)年trade T D T *D年trade T D T*D 19500.4151001968 1.0851900 19510.5952001969 1.0692000 19520.6463001970 1.1292100 19530.8094001971 1.2092200 19540.8475001972 1.4692300 1955 1.0986001973 2.2052400 1956 1.0877001974 2.9232500 1957 1.0458001975 2.9042600 1958 1.2879001976 2.6412700 1959 1.49310001977 2.7252800 1960 1.28411001978 3.55029129 19610.90812001979 4.54630130 19620.80913001980 5.63831131

相关文档
最新文档