第八章 虚拟变量模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
E Yi | X 0 1 X1i +2 X 2i L k X ki ,
i 1,2,L , n. (8.1.2)
记 X 为所有自变量
X1 , X 2 , L , X k
接下来,记 Pi 为事件“ Yi 1”发生的概率;则 1 P i为事件 “ Yi 0”发生的概率。那么变量 Yi 的概率分布有:
上式可以解释为:在给定所有自变量 X 的条件下,条件期 望 E Y | X 等于事件“ Yi 1”发生的条件概率。截距项 0 表示 每个自变量 X 0 j 1,2,L k 时,事件“ Yi 1 ”发生的概率。斜 率系数 j 表明在其他因素不变的情况下,自变量 X j 每增 加一个单位,事件“ Yi 1”发生的概率将增加。
那么对于某些具有大于两个可能值的定性变量,又该如何量 化呢?如职业变量的可能取值为教师、工程师或其他职业。 这样的多分类定性变量在加入计量模型前,同样需要量化成 虚拟变量。但不同的是一个多分类定性变量需要引入多个虚 拟变量,引入的虚拟变量个数要比多分类定性变量的分类个 数少一。即一个具有个属性的定性变量,需要引入个虚拟变 量。如果引入个虚拟变量,这些虚拟变量之间将会产生完全 多重共线性。如票选结果有三种分类:赞同、不赞同、弃权, 此时需量化成两个虚拟变量,分别为:
1.线性概率模型(LPM模型) 以虚拟变量为因变量的线性回归模型称为线性概率模型 (linear probability model,LPM)。模型的基本形式为: Yi 0 1 X1i +2 X 2i L k X ki i , i 1,2,L , n. (8.1.1) i E i =0 。于是有, 其中Yi 为虚拟变量,为模型随机误差项且
2.协方差模型(ANCOVA模型)
方差分析模型在心理学、社会行为学、市 场研究等领域较常见,但在实际经济学模型 中,自变量往往既含有定量变量,也包含定 性变量。我们将自变量中同时包含定性变量 和定量变量的回归模型称为协方差模型 (analysis of covariance,ANCOVA)。
下面给出含有一个定量变量和一个定性 变量的协方差模型,含有多个定量和定 性变量的协方差模型原理相似不再赘述。
E Yi | D1i 0 E 0 1 g 0+1 X1i i 0 1 X1i 独生大学生月话费支出期望值为: E Yi | D1i 1 E 0 1 g 1+1 X1i i 0 1 1 X1i
模型表明,大学生中独生子女与非独生子女 的月平均话费支出不同,但是月平均话费对 月生活费支出的变化率相同( 1 )。
1,赞同 D1 = 0,其他
1,不赞同 D2 = 0,其他
变量以弃权为基准类。
【相关链接】 构造虚拟变量 Eviews6.0软件操作步骤(附图): 1、输入变量名和样本数据如下图,其中包括性别变量 “sex”和月收入变量“income”。
2、根据sex变量构造虚拟变量d1,用1表示男 性“male”,0表示女性“female”。在命令窗口中输入: series d1=(sex="male"),点击回车键,得到虚拟变量d1。
0 1
个人月支出Yi /千元
婚姻状况 D1i (1=已婚者, 0= 未婚者
2.3 4.5 2.0 6.7 5.0 3.6 7.1 1.6 4.8 5.6 6.9
0 1 0 1 0 0 1 0 0 1 1
根据表格数据建立模型,结果为:
Yi 3.2167 3.2000D1i ,
t (5.9499) (4.1854),
◆某旅行社为了提高旅游业务 收入,希望通过建立个人旅游 支出模型,找出影响个人旅游 支出的关键因素,从而作出针 对性的旅游宣传。 根据实际经济理论,个人的旅 游支出往往与个人的收入、职 业、受教育程度、性别等有密 切关系,其中职业、教育、性 别因素不是我们前面章节常用 的定量变量,而是定性变量。 职业有教师、工程师、银行职 员等,教育程度可以分为大学 教育和非大学教育,同样性别 因素可以考虑是男是女。将这 样的定性变量作为自变量考虑 进旅游支出模型,模型如何建 立?有怎样的结果和意义?
R2 =0.6366
F 17.5176
由回归结果可知,未婚者的月平均支出估计值 为3.2167千元,已婚者的月平均支出估计值为 6.4167千元。 另外,我们从表格数据中能够得出,未婚者的 实际月平均支出为3.1267千元,已婚者的实际月平 均支出为6.4167千元。 可见模型估计出的个人月平均支出与实际相同。 接下来考察检验结果,系数是统计显著的,说 明婚姻变量对个人月支出水平有显著影响,已婚者 与未婚者的个月支出水平有较显著的差距。而实际 上也确实如此,已婚者要承担起自己及家庭的开支, 月支出较大;而大部分未婚者只需担负自己的开支, 月支出相对较少。
如图8.1所示,大学生中独生子女和非独生子女的月 平均话费支出对月生活费支出的函数具有相同的斜 率,即大学生的月平均话费支出对生活费支出的变 化率相同。同时,根据模型的回归结果可知,当大 学生独生情况变量为常量时,月生活费每增加100 元,月平均话费将增加6.0391元。另外,当月生活 费支出变量保持不变时,独生大学生月平均话费比 非独生大学生多16.7937元。模型检验结果显示参 数估计量是统计显著的,说明独生大学生与非独生 大学生的月平均话费支出不同。
下面我们建立含有虚拟变量为自变量的回归模型。
1.方差分析模型(ANOVA模型) 在回归分析中,虚拟变量与定量变量一样 可以作为模型的回归元。一个回归模型的自 变量只有虚拟变量,这样的模型称为方差分 析模型(analysis of variance,ANOVA)。为 说明方差分析模型,我们看下面一个只含有 一个虚拟变量的ANOVA模型,含有多个虚拟 变量的ANOVA模型原理相似不再赘述。
表8.3 的概率分布
Biblioteka Baidu
Yi
概率 1 0
Pi
1 Pi
根据期望的定义有,
E Yi 1gP 1 P i 0g i P i
(8.1.3)
由式(8.1.2)和(8.1.3)可得,
E Yi | X 0 1 X1i +2 X 2i L k X ki P i
Yi 0 1D1i +1 X1i i ,
i 1,2,L , n.
X 1i 表示月生活 其中 Yi 表示大学生月话费支出, 1,独生子女 i 表示模型随机误差项 D = 费支出; ; 0 ,非独生子女 且 E =0 。
1i
i
则根据模型有: 非独生大学生月话费支出期望值为:
在运输经济学中,我们想要预 测某人在上下班时是否选择坐 公交,这个结果与个人的收入、 职业、上班地点与居住处之间 的距离、公交费用等诸多因素 有关。那么此时我们建立的模 型因变量是只有两个可能值的 定性变量,即选择坐公交和其 他交通工具。对于这样的模型 又该如何建立?
第一节:虚拟变量模型概述
前面我们研究的计量模型无论是因变量还是自变量均为定量 变量,是可以被度量的变量,例如收益率、面积、收入、成 本、价格等。但是实际运用中所研究的问题往往涉及很多不 可被度量的定性变量,比如性别、职业、国籍、受教育程度、 健康情况等。这些定性变量可能是某些问题的影响因素,如 工薪族的收入常与职业、教育等有关。另外,一些定性变量 也可能是需要预测研究的问题,如高中生是否继续接受高等 教育;贷款人的贷款申请能否被允许;大学毕业生是否回家 乡工作;一项科学研究能否成功等。这些定性变量同定量变 量一样可以作为模型的因变量与自变量,本章我们将考虑这 种类型模型的建立与参数估计问题。
3、根据income变量构造虚拟变量d2,用1表示月收入 大于等于10000元的高收入者,0表示月收入小于10000 元的中低收入者。在命令窗口中输入:series d2=(sex="male"),点击回车键,得到虚拟变量d1。
二、虚拟变量作为自变量
在实际经济模型中,因变量不仅会受到定量变 量的影响,同时也会受到定性变量的影响。如个人 的月支出水平往往受到月收入、性别、职业、婚姻 状况等因素的影响,其中月收入为定量变量,性别、 职业、婚姻状况为定性变量。可见这些定性变量也 是影响因变量的重要因素,所以我们有必要将其量 化成虚拟变量后加入到模型中。在回归分析模型中, 我们假设模型自变量为非随机变量。而虚拟变量的 取值为0、1,说明虚拟变量是非随机变量。因此, 对于自变量中含有一个或多个虚拟变量的回归模型, 回归系数的普通最小二乘估计法以及模型检验方法 同样适用。
E Yi | D1i 1 E 0 1 g 1 i 0 1
从上述的结果可以得知,模型截距 0 表示未
婚者的月平均支出,斜率系数 1表示未婚者 表示已婚 与已婚者的月平均支出差距, 者的月平均支出。并可用t检验法检验的 1 显 著性。
Yi 0 1D1i i ,
i 1, 2,L , n.
0,未婚
,已婚 1 Y D1i = 其中 i为个人月支出;
误差项且 E i =0 未婚者的月期望支出为:
已婚者的月期望支出为:
; i 为随机
E Yi | D1i 0 E 0 1 g0 i 0
项目8
虚拟变量模型
【学习目标】
1.知识目标:虚拟变量的含义;虚拟变
量作为自变量的方差分析模型、协方差模 型;虚拟变量作为因变量的离散选择模型 包括线性概率模型;二元概率模型及其参 数估计;二元逻辑模型及其参数估计。 2.能力目标:理解虚拟变量的含义;了 解虚拟变量分别作为自变量、因变量的模 型建立,包括方差分析模型、协方差模型、 线性概率模型;掌握二元概率模型及其参 数估计;掌握二元逻辑模型及其参数估计。
三、虚拟变量作为因变量
到目前为止,我们主要讨论了以定量变量为自变量的计量模型。但是在 实际应用中经常会遇到很多决策问题,比如人们上下班的交通工具是选 择步行、坐公交、自驾还是其他工具;某天的天气是晴朗、阴天、雨天 还是其他;某项医学研究能否成功;人们对某一项建议是持赞成、不赞 成还是中立的态度;大学生毕业是否会选择自主创业等。这些情况下, 如果想要做出决策,就需要以定性变量作为因变量来建立计量模型,才 能判断出最终结果。我们称这样的模型为离散选择模型。定性变量作为 因变量可以是只有二值的虚拟变量也可以是多分类的定性变量。以虚拟 变量为因变量的模型称为二元选择模型。以多分类定性变量为因变量的 模型称为多元选择模型。本章我们主要讨论二元选择模型。二元选择模 型的建立可以由三种方法解决,分别为线性概率模型(LPM模型)、二 元概率模型(Probit模型)和二元逻辑模型(Logit模型)。下面我们先 介绍下较为简单的线性概率模型。
一、虚拟变量的含义
一个定性变量,它的可能值只有两个,也就是说出现或 不出现某种属性。 如性别是男性或女性;受过高等教育或没有接受高等教 育;职业是教师或非教师;已婚或未婚;健康或不健康等。 如果要将这样的变量加入到计量模型中,首先需要人为地量 化定性变量。一般地,用1表示出现某种属性,用0表示没有 出现该属性。如对于性别变量,用1表示男性,用0表示女性; 或者用1表示受过高等教育,用0表示没有接受高等教育。 那么,像这样取值只为0、1的变量称为虚拟变量或哑变 量,并用符号表示,从而与常用符号区别开。我们把赋值为 0的一类称为基准类。需要注意的是虚拟变量的赋值是人为 的、任意的,根据人们的习惯而定。如前所提到的性别变量, 也可以用1表示女性,用0表示男性。
i
j
运用普通最小二乘估计法,得到线性概率模型 的估计方程写成: ˆ ˆ X + ˆ X L ˆX , ˆ Y i 1, 2,L , n . i 0 1 1i 2 2i k ki 那么利用上述估计方程得到的预测值 Yˆi 就是 ˆ 度 “ Yi 1 ”发生的概率预测值。估计量 j 量了由 X j 的单位变化而引起的“ Yi 1 ”发 生的概率变化预测值。
i 1,2,L , n. (8.1.2)
记 X 为所有自变量
X1 , X 2 , L , X k
接下来,记 Pi 为事件“ Yi 1”发生的概率;则 1 P i为事件 “ Yi 0”发生的概率。那么变量 Yi 的概率分布有:
上式可以解释为:在给定所有自变量 X 的条件下,条件期 望 E Y | X 等于事件“ Yi 1”发生的条件概率。截距项 0 表示 每个自变量 X 0 j 1,2,L k 时,事件“ Yi 1 ”发生的概率。斜 率系数 j 表明在其他因素不变的情况下,自变量 X j 每增 加一个单位,事件“ Yi 1”发生的概率将增加。
那么对于某些具有大于两个可能值的定性变量,又该如何量 化呢?如职业变量的可能取值为教师、工程师或其他职业。 这样的多分类定性变量在加入计量模型前,同样需要量化成 虚拟变量。但不同的是一个多分类定性变量需要引入多个虚 拟变量,引入的虚拟变量个数要比多分类定性变量的分类个 数少一。即一个具有个属性的定性变量,需要引入个虚拟变 量。如果引入个虚拟变量,这些虚拟变量之间将会产生完全 多重共线性。如票选结果有三种分类:赞同、不赞同、弃权, 此时需量化成两个虚拟变量,分别为:
1.线性概率模型(LPM模型) 以虚拟变量为因变量的线性回归模型称为线性概率模型 (linear probability model,LPM)。模型的基本形式为: Yi 0 1 X1i +2 X 2i L k X ki i , i 1,2,L , n. (8.1.1) i E i =0 。于是有, 其中Yi 为虚拟变量,为模型随机误差项且
2.协方差模型(ANCOVA模型)
方差分析模型在心理学、社会行为学、市 场研究等领域较常见,但在实际经济学模型 中,自变量往往既含有定量变量,也包含定 性变量。我们将自变量中同时包含定性变量 和定量变量的回归模型称为协方差模型 (analysis of covariance,ANCOVA)。
下面给出含有一个定量变量和一个定性 变量的协方差模型,含有多个定量和定 性变量的协方差模型原理相似不再赘述。
E Yi | D1i 0 E 0 1 g 0+1 X1i i 0 1 X1i 独生大学生月话费支出期望值为: E Yi | D1i 1 E 0 1 g 1+1 X1i i 0 1 1 X1i
模型表明,大学生中独生子女与非独生子女 的月平均话费支出不同,但是月平均话费对 月生活费支出的变化率相同( 1 )。
1,赞同 D1 = 0,其他
1,不赞同 D2 = 0,其他
变量以弃权为基准类。
【相关链接】 构造虚拟变量 Eviews6.0软件操作步骤(附图): 1、输入变量名和样本数据如下图,其中包括性别变量 “sex”和月收入变量“income”。
2、根据sex变量构造虚拟变量d1,用1表示男 性“male”,0表示女性“female”。在命令窗口中输入: series d1=(sex="male"),点击回车键,得到虚拟变量d1。
0 1
个人月支出Yi /千元
婚姻状况 D1i (1=已婚者, 0= 未婚者
2.3 4.5 2.0 6.7 5.0 3.6 7.1 1.6 4.8 5.6 6.9
0 1 0 1 0 0 1 0 0 1 1
根据表格数据建立模型,结果为:
Yi 3.2167 3.2000D1i ,
t (5.9499) (4.1854),
◆某旅行社为了提高旅游业务 收入,希望通过建立个人旅游 支出模型,找出影响个人旅游 支出的关键因素,从而作出针 对性的旅游宣传。 根据实际经济理论,个人的旅 游支出往往与个人的收入、职 业、受教育程度、性别等有密 切关系,其中职业、教育、性 别因素不是我们前面章节常用 的定量变量,而是定性变量。 职业有教师、工程师、银行职 员等,教育程度可以分为大学 教育和非大学教育,同样性别 因素可以考虑是男是女。将这 样的定性变量作为自变量考虑 进旅游支出模型,模型如何建 立?有怎样的结果和意义?
R2 =0.6366
F 17.5176
由回归结果可知,未婚者的月平均支出估计值 为3.2167千元,已婚者的月平均支出估计值为 6.4167千元。 另外,我们从表格数据中能够得出,未婚者的 实际月平均支出为3.1267千元,已婚者的实际月平 均支出为6.4167千元。 可见模型估计出的个人月平均支出与实际相同。 接下来考察检验结果,系数是统计显著的,说 明婚姻变量对个人月支出水平有显著影响,已婚者 与未婚者的个月支出水平有较显著的差距。而实际 上也确实如此,已婚者要承担起自己及家庭的开支, 月支出较大;而大部分未婚者只需担负自己的开支, 月支出相对较少。
如图8.1所示,大学生中独生子女和非独生子女的月 平均话费支出对月生活费支出的函数具有相同的斜 率,即大学生的月平均话费支出对生活费支出的变 化率相同。同时,根据模型的回归结果可知,当大 学生独生情况变量为常量时,月生活费每增加100 元,月平均话费将增加6.0391元。另外,当月生活 费支出变量保持不变时,独生大学生月平均话费比 非独生大学生多16.7937元。模型检验结果显示参 数估计量是统计显著的,说明独生大学生与非独生 大学生的月平均话费支出不同。
下面我们建立含有虚拟变量为自变量的回归模型。
1.方差分析模型(ANOVA模型) 在回归分析中,虚拟变量与定量变量一样 可以作为模型的回归元。一个回归模型的自 变量只有虚拟变量,这样的模型称为方差分 析模型(analysis of variance,ANOVA)。为 说明方差分析模型,我们看下面一个只含有 一个虚拟变量的ANOVA模型,含有多个虚拟 变量的ANOVA模型原理相似不再赘述。
表8.3 的概率分布
Biblioteka Baidu
Yi
概率 1 0
Pi
1 Pi
根据期望的定义有,
E Yi 1gP 1 P i 0g i P i
(8.1.3)
由式(8.1.2)和(8.1.3)可得,
E Yi | X 0 1 X1i +2 X 2i L k X ki P i
Yi 0 1D1i +1 X1i i ,
i 1,2,L , n.
X 1i 表示月生活 其中 Yi 表示大学生月话费支出, 1,独生子女 i 表示模型随机误差项 D = 费支出; ; 0 ,非独生子女 且 E =0 。
1i
i
则根据模型有: 非独生大学生月话费支出期望值为:
在运输经济学中,我们想要预 测某人在上下班时是否选择坐 公交,这个结果与个人的收入、 职业、上班地点与居住处之间 的距离、公交费用等诸多因素 有关。那么此时我们建立的模 型因变量是只有两个可能值的 定性变量,即选择坐公交和其 他交通工具。对于这样的模型 又该如何建立?
第一节:虚拟变量模型概述
前面我们研究的计量模型无论是因变量还是自变量均为定量 变量,是可以被度量的变量,例如收益率、面积、收入、成 本、价格等。但是实际运用中所研究的问题往往涉及很多不 可被度量的定性变量,比如性别、职业、国籍、受教育程度、 健康情况等。这些定性变量可能是某些问题的影响因素,如 工薪族的收入常与职业、教育等有关。另外,一些定性变量 也可能是需要预测研究的问题,如高中生是否继续接受高等 教育;贷款人的贷款申请能否被允许;大学毕业生是否回家 乡工作;一项科学研究能否成功等。这些定性变量同定量变 量一样可以作为模型的因变量与自变量,本章我们将考虑这 种类型模型的建立与参数估计问题。
3、根据income变量构造虚拟变量d2,用1表示月收入 大于等于10000元的高收入者,0表示月收入小于10000 元的中低收入者。在命令窗口中输入:series d2=(sex="male"),点击回车键,得到虚拟变量d1。
二、虚拟变量作为自变量
在实际经济模型中,因变量不仅会受到定量变 量的影响,同时也会受到定性变量的影响。如个人 的月支出水平往往受到月收入、性别、职业、婚姻 状况等因素的影响,其中月收入为定量变量,性别、 职业、婚姻状况为定性变量。可见这些定性变量也 是影响因变量的重要因素,所以我们有必要将其量 化成虚拟变量后加入到模型中。在回归分析模型中, 我们假设模型自变量为非随机变量。而虚拟变量的 取值为0、1,说明虚拟变量是非随机变量。因此, 对于自变量中含有一个或多个虚拟变量的回归模型, 回归系数的普通最小二乘估计法以及模型检验方法 同样适用。
E Yi | D1i 1 E 0 1 g 1 i 0 1
从上述的结果可以得知,模型截距 0 表示未
婚者的月平均支出,斜率系数 1表示未婚者 表示已婚 与已婚者的月平均支出差距, 者的月平均支出。并可用t检验法检验的 1 显 著性。
Yi 0 1D1i i ,
i 1, 2,L , n.
0,未婚
,已婚 1 Y D1i = 其中 i为个人月支出;
误差项且 E i =0 未婚者的月期望支出为:
已婚者的月期望支出为:
; i 为随机
E Yi | D1i 0 E 0 1 g0 i 0
项目8
虚拟变量模型
【学习目标】
1.知识目标:虚拟变量的含义;虚拟变
量作为自变量的方差分析模型、协方差模 型;虚拟变量作为因变量的离散选择模型 包括线性概率模型;二元概率模型及其参 数估计;二元逻辑模型及其参数估计。 2.能力目标:理解虚拟变量的含义;了 解虚拟变量分别作为自变量、因变量的模 型建立,包括方差分析模型、协方差模型、 线性概率模型;掌握二元概率模型及其参 数估计;掌握二元逻辑模型及其参数估计。
三、虚拟变量作为因变量
到目前为止,我们主要讨论了以定量变量为自变量的计量模型。但是在 实际应用中经常会遇到很多决策问题,比如人们上下班的交通工具是选 择步行、坐公交、自驾还是其他工具;某天的天气是晴朗、阴天、雨天 还是其他;某项医学研究能否成功;人们对某一项建议是持赞成、不赞 成还是中立的态度;大学生毕业是否会选择自主创业等。这些情况下, 如果想要做出决策,就需要以定性变量作为因变量来建立计量模型,才 能判断出最终结果。我们称这样的模型为离散选择模型。定性变量作为 因变量可以是只有二值的虚拟变量也可以是多分类的定性变量。以虚拟 变量为因变量的模型称为二元选择模型。以多分类定性变量为因变量的 模型称为多元选择模型。本章我们主要讨论二元选择模型。二元选择模 型的建立可以由三种方法解决,分别为线性概率模型(LPM模型)、二 元概率模型(Probit模型)和二元逻辑模型(Logit模型)。下面我们先 介绍下较为简单的线性概率模型。
一、虚拟变量的含义
一个定性变量,它的可能值只有两个,也就是说出现或 不出现某种属性。 如性别是男性或女性;受过高等教育或没有接受高等教 育;职业是教师或非教师;已婚或未婚;健康或不健康等。 如果要将这样的变量加入到计量模型中,首先需要人为地量 化定性变量。一般地,用1表示出现某种属性,用0表示没有 出现该属性。如对于性别变量,用1表示男性,用0表示女性; 或者用1表示受过高等教育,用0表示没有接受高等教育。 那么,像这样取值只为0、1的变量称为虚拟变量或哑变 量,并用符号表示,从而与常用符号区别开。我们把赋值为 0的一类称为基准类。需要注意的是虚拟变量的赋值是人为 的、任意的,根据人们的习惯而定。如前所提到的性别变量, 也可以用1表示女性,用0表示男性。
i
j
运用普通最小二乘估计法,得到线性概率模型 的估计方程写成: ˆ ˆ X + ˆ X L ˆX , ˆ Y i 1, 2,L , n . i 0 1 1i 2 2i k ki 那么利用上述估计方程得到的预测值 Yˆi 就是 ˆ 度 “ Yi 1 ”发生的概率预测值。估计量 j 量了由 X j 的单位变化而引起的“ Yi 1 ”发 生的概率变化预测值。