第十八章-离散选择模型和受限因变量模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第18章离散选择模型和受限因变量模型
18.1概述
在经典计量经济学模型中,被解释变量通常被假定为连续变量,但在现实的经济决策中经常面临许多选择问题。在这样的决策问题中,或者选择问题中,人们必须对可供选择的方案作出选择。通常被解释变量是连续的变量,但此时的因变量只取有限多个离散的值。例如:人们对交通工具的选择,是选择坐轻轨、地铁还是公共汽车;某大型企业是否合并另一企业;对某一方案的建议持强烈反对、反对、中立、支持和强烈支持5种态度,可以分别用0,1,2,3和4表示。以这样的选择结果作为被解释变量建立的计量经济学模型,称为离散被解释变量数据计量经济学模型(models with discrete dependent variables),或称为离散选择模型(DCM,discrete choice model)。如果被解释变量只能有两种选择,称为二元选择模型(binary choice model);如果被解释变量有多种选择,称为多元选择模型(multiple choice model)。20世纪70和80年代,离散选择模型普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策等经济决策领域的研究。
在实际中,还会经常遇到因变量受到某种限制的情况,这种情况下,取得样本数据来自总体的一个子集,可能不能完全反映总体。例如,小时工资、住房价格和名义利率都必须大于零。这时需要建立的经济计量模型称为受限因变量模型(limited dependent variable model)。这两类模型经常用于调查数据的分析中。
本章将讨论三类模型及其估计方法和软件操作。一是定性(观测值为离散的或者表示排序);二是截取或者截断问题;三是观测值为整数值的计数模型。
18.2二元因变量模型
在这个模型中,被解释变量只取两个值,可以是代表某件事发生与否的虚拟变量,也可以是两个决策中选一个,称为二元因变量模型。例如:对样本个体是否就业的研究,个体的
年龄、教育背景、种族、婚姻状况以及其他可观测的特征,作为解释变量,目的是研究个体这些特征对个体就业概率的研究。或者对某商品的购买与否,取决于两类因素:一类是该商品具有的属性,诸如用途、价格等;一类是决策个体所具有的属性,诸如职业、年龄、收入水平、健康状况等。从大量的统计中,可以发现选择的结果与影响因素之间具有一定的因果关系。揭示这一因果关系并用于预测研究,对于制定商品销售方案无疑是十分重要的,这就需要建立计量经济学模型来研究这些变量之间的关系。
18.2.1二元选择模型形式
假设中二元因变量y 取0和1两个值,,对y 和x 间不能建一个简单的线性回归模型,因为模型的条件均值对残差设了一个不合理的约束条件。而且简单回归模型中的y 的拟合值没有被限制在0和1之间。
为了处理二元因变量模型的特别要求,我们必须设定专门的模型。假设观测值取1的
概率为:
P(1,)1()i i i y x F x ββ=∣=-- (18.2.1)
其中F 是连续的、严格递增的函数,其取值在0和1之间。本章讨论时采用最简单的
线性函数形式i x β,而在Eviews 中也可以处理非线性的函数形式。F 函数的类型决定了二元因变量模型的类别,即有:
P(0,)()i i i y x F x ββ=∣=- (18.2.2)
给定这样的设定后,可以用极大似然法对模型的参数进行估计。对数似然函数如下:
0()[log(1())(1)log(())]n
i i i i i l y F x y F x βββ==--+--∑ (18.2.3)
由于极大似然函数的条件就是非线性的,因此需要进行迭代运算才能得到参数的估计
值。首先对二元变量模型设定一个潜在解释变量,假设这有一个不可观测的潜在变量*
i y 与i x 的线性关系如下:
*i i i y x u β=+ (18.2.4)
其中:i u 是随机干扰项,由*i y 是否超过临界值来决定因变量的观测值取值。则i y 和*
i
y 关系有: **1000
i i i y y y ⎧>=⎨≤⎩ (18.2.5) 这里临界值设为0,但是只要x 包含常数项,临界值的选择就是不相关的。然后:
*(1,)(0)(0)1()i i i i i u i P y x P y P x u F x βββ+=∣=>=>=-- (18.2.6)
其中:u F 是u 的累积分布函数。根据F 分布函数类型,常见模型有Probit 模型(标准
正态分布)、Logit 模型(逻辑分布)和Gompit 模型(极值分布)。
一般地,由于二元因变量模型仅仅是一件事发生与否,那么y 的两个数值便不重要了。不过,Eviews 需要对y 的两个值进行编码。这个约束条件产生很多优点。第一,变量按这种方式进行编码暗示了y 的期望值简单就是y=1的概率:
(,)1*P(1,)0*P(0,)P(1,)i i i i i i i i E y x y x y x y x ββββ∣==∣+=∣==∣ (18.2.7)
这也为二元因变量模型提供了另一种解释,即条件均值的设定。接下来我们可以将二元
因变量模型写为如下的回归模型:
(1())i i i y F x βε=--+ (18.2.8)
其中:i ε是残差项,代表二元变量y 对条件均值的分离,然后有:
(,)0i i E x εβ∣= (18.2.9)
var(,)()(1())i i i i x F x F x βεββ∣=--- (18.2.10)
根据残差分布函数不同,常见模型有Probit 模型(标准正态分布)、Logit 模型(逻辑
分布)和Gompit 模型(极值分布)。则有:
Probit 模型:(1,)1()()i i i i P y x x βx ββ=∣=-Φ-=Φ,其中Φ是标准正态分布累积分
布函数。