第十章 定性选择模型与受限因变量模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

正确预测观测值的百分比
正确预测的观测值数 观测值总数
100
需要指出的是,这个测度也不是很理想,但预测结
果的好坏,并非定性选择模型唯一关心的事,这类模 型常被用于研究影响人们进行某个决策的因素。让我 们来看一个竞选的例子。假设候选人甲和乙二人竞选 某市市长,我们可以用一个二元选择模型来研究影响 选民决策的因素,模型为:
CAND1i 0 1INCOMEi 2 AGEi 3MALEi ui
其中:
1 如果第i个选民投候选人甲的票
CAND1i 0 如果第i个选民不投候选人甲的票
INCOMEi 第i个选民的家庭收入(单位:千美元)
AGEi 第i个选民的年龄
1 男性 MALEi 0 女性
表10.2 两候选人选举线性概率模型回归结果 Dependent variable:CAND1
1
Probit模型
线性概率模型
0
Z
图10-1 线性概率模型和Probit模型
二、Probit模型和Logit模型的极大 似然估计和假设检验
估计LPM,我们可以采用OLS或WLS。在Probit 模型和Logit模型中,由于的非线性性质,OLS或 WLS都不再适用。估计Probit模型和Logit模型, 通常采用极大似然法。
第二个问题是扰动项不是正态分布的。事实上, 线性概率模型的扰动项服从二项分布。
第三个问题,它假定自变量与Y=1的概率之间存 在线性关系,而此关系往往不是线性的。
第四个问题是,拟合值可能小于0或大于1,而概 率值必须位于0和1的闭区间内。
回到有关读研的例子。假设学生乙的为4.0,家庭 收入为20万美元,则代入(10.3)式,Y的拟合值为
模型(或normit模型),在这种情况下,累积分布
函数为:
F(zi )
zi/
1
t2
exp( )dt
2
2
无论是probit模型还是logit模型,极大似然函数都 伴随着非线性估计方法,目前很多计量经济分析软 件已可用于probit和logit分析,用起来很方便。 由于累积正态分布和累积logistic分布很接近,只
Variable
Coefficient
Standard error
Constant
-0.51
0.19
INCOME
0.0098
0.003
AGE
0.016
0.0053
MALE
0.0031
0.13
Observations:30
R 2 = 0.58
Adjusted R2 = 0.53
Residual Sum of Squares =3.15
由于此最大化问题的非线性性质,我们很难写出 Probit模型和Logit模型的参数的极大似然估计量 的具体表达式。可以证明,在很一般的条件下, MLE是一致的、渐近正态和渐近有效的(一般性讨 论参见Woodridge(2002))。
伴随每一个极大似然估计值,有一个与之对应的 标准误差。支持Probit和Logit的软件包在给出系 数估计值的同时会给出与之对应的标准误差。一 旦我们从软件包的报告中得到了标准误差,就可 以构造(渐近的)t检验和置信区间,与应用OLS、 2SLS估计量做检验时一样。例如要检验,我们做 法是,构造t统计量,然后按通常的检验程序进行 检验。
k
Yi* 0 j Xij ui
这里 不可观测,通j常1 称为潜变量(latent
variable)Yi* 。我们能观测到的是虚拟变量:
1 Yi 0
若Yi* 0 其它
这就是Probit和Logit方法的思路。Probit模型和 Logit模型的区别在于对中扰动项u的分布的设定,前 者设定为正态分布,后者设定为logistic分布。
Yˆ 0.7 0.44.0 0.002200 1.3
从而得到一个不可能的结果(概率值大于1)。假设 另有一个学生丙的为1.0,家庭收入为5万元,则其Y 的拟合值为 -0.2,表明读研的概率为负数,这也是一 个不可能的结果。
解决此问题的一种方法是,令所有负拟合值都等 于0,所有大于1的拟合值都等于1。但也无法令人十 分满意,因为在现实中很少会有决策前某人读研的 概率就等于1的情况,同样,尽管某些人成绩不是很 好,但他去读研的机会仍会大于0。线性概率模型倾 向于给出过多的极端结果:估计的概率等于0或1。
第二节 Probit模型和Logit模型
虽然估计和使用线性概率模型很简单,但存在上 面讨论的几个问题,其中最严重的两个问题是拟 合值小于0或大于1的问题和假定自变量和的概率 之间存在线性关系的假设不现实的问题。使用更 为复杂的二元响应模型可以克服这些缺陷
一.Probit和Logit模型的设定 估计二元选择模型的另一类方法假定回归模型为
f (Yi xi;β) [G(xiβ)]Yi [1 G(xiβ)]1Yi ,Yi 0,1
ln li (β) Yi ln[G(xiβ)] (1Yi ) ln[1 G(xiβ)]
n
ln L(β) ln li (β) i 1
极大似然估计量(MLE)即由极大化此对数似然 函数得到。对于logit模型,G是标准logistic cdf, 是logit估计量;对于probit模型,G是标准正态 cdf,是probit估计量。
AGE的斜率估计值也在1%的水平上显著。在收入 和性别不变的情况下,年龄增加1岁,选择候选人甲的 概率增加0.016。的斜率系数统计上不显著,因而没有 证据表明样本中男人和女人的选票不同。
我们可以得出如下结论:年老一些、富裕一些的 选民更喜欢投票给候选人甲。
表中给出CAND1的拟合值,每个大于等于0.5的 拟合值计入CAND1为1的预测,而小于0.5的拟合值则 计入CAND1为0的预测。
我们可写出似然函数:
L Pi (1 Pi ) Yi 1 Yi 0
上式中F的函数形式取决于有关扰动项u的假设,如
果 ui 的累积分布是logistic分布,则我们得到的是
logit模型。在这种情况下,累积分布函数为:
F
(
zi
)
1
exp(zi ) exp(zi
)
因此
log F (zi ) 1 F (zi )
INCOME的系数估计值0.002表明,一个学生的 成绩不变,而家庭收入增加1000美元(单位为千美 元),该生决定去读研的概率的估计值增加0.002。
LPM模型中,解释变量的变动与虚拟因变量值为 1的概率线性相关,因而称为线性概率模型。
二、线性概率模型的估计和问题
第一个问题是线性概率模型存在异方差性。扰动 项的方差是 p(1 p) ,这里 p 是因变量等于1的 概率,此概率对于每个观测值不同,因而扰动项 方差将不是常数,导致异方差性。可以使用WLS 法,但不是很有效,并且将改变结果的含义。
两类模型样本数据一般是横截面数据。两类模型被 广泛应用于消费者行为、劳动经济学、农业经济学等 领域,大多属于微观计量经济学的研究范畴。
本章介绍几种常见的定性选择模型与受限因变量模 型。
第一节 线性概率模型
因变量为虚拟变量的模型被称为定性选择模型或定 性响应模型。
如果只有两个选择,我们可用0和1分别表示它们, 如乘公交为0,自驾车为1,这样的模型称为二元选择 模型(binary choice Models),多于两个选择(如 上班方式加上一种骑自行车)的定性选择模型称为多 项选择模型(Multinomial choice models)。
zi
请注意,对于logit模型:
log pi
1 pi
0
k
ij xij
j 1
上式的左端是机会(odds)的对数,称为对数 机会比率(log-odds ratio),因而上式表明对数机
会比率是各解释变量的线性函数,而对于线性概率
模型,pi 为各解释变量的线性函数。
如果 ui 服从正态分布,我们得到的是probit
是尾部有点区别,因此,我们无论logit法还是probit
法,得到的结果都不会有很大不同。可是,两种方
法得到的参数估计值不是直接可比的。由于logistic
分布的方差为
2
3
,因此,logit模型得到的的估计
值必须乘以 3,才能与probit模型得到的估计值相
比较(正态分布标准差为1)。
概率=F(Z)
第五个问题是在线性概率模型中R,2 以及R 2 不再是
合适的拟合优度测度。事实上,此问题不仅是线性概
率模型的问题,而是所有定性选择模型的问题。较好
一点的测度是模型正确预测的观测值的百分比。首先, 我们将每一预测归类为1或0。如果拟合值大于等于0.5, 则认为因变量的预测值为1。若小于0.5,则认为因变 量的预测值为0。然后,将这些预测值与实际发生的情 况相比较,计算出正确预测的百分比:
我们先从基础的二元选择模型入手,介绍定性选择 模型的设定和估计。最简单的二元选择模型是线性概 率模型(Linear Probability Models ,LPM)。
一、线性概率模型的概念 下面用一个关于是否读研究生的例子来说明如何
解释线性概率模型的结果。模型为:
其中: Yi 0 1GPAi 2INCOMEi ui
与线性概率模型的区别是,这里假设潜变量的存 在。例如,若被观测的虚拟变量是某人买车还是不买
车的,提Y法i*将是被“定欲义望为”“和买“车能的力欲”望,或因能此力解”释,变注量意是这解里释
这些元素的。
可以看出,Yi* 乘上任何正数都不会改变,因此这
里习惯上假设 们有
Var(ui) = 1,从而固定
F-statistic = 11.87
t-Statistic -2.65 3.25 3.08 0.02
p-Value 0.01 0.00 0.00 0.98
如表所示,INCOME的斜率估计值为正,且在 1%的水平上显著。年龄和性别不变的情况下,收入增 加1000元,选择候选人甲的概率增加0.0098。
第十章 定性选择模型和 受限因变量模型
对于被解释变量而言,很多情况也会对其取值有所 限制。有时,因变量描述的是微观个体的某种选择、 特征或所属等,即因变量为定性变量,相应的模型称 为定性选择模型或定性响应模型;
另一些情况是,因变量的取值被限定在某个特殊范 围,一般我们称这类取值范围受到限制的因变量为受 限因变量,相应的模型称为受限因变量模型。
对斜率系数的解释也不同了。在常规回归中, 斜率系数代表的是其他解释变量不变的情况下,该解 释变量的单位变动引起的因变量的变动。而在线性概 率模型中,斜率系数表示其他解释变量不变的情况下, 该解释变量的单位变动引起的因变量等于1的概率的 变动。
CPA的系数估计值0.4意味着家庭收入不变的情 况下,一个学生的增加一个点(如从3.0到4.0),该 生决定去读研的概率的估计值增加0.4。
从表可看出,30个观测值中,27个(或90%)预 测正确。选甲的14人中,12人(或85.7%)预测正确。 选乙的16人中,15人(或93.8%)预测正确。
R 2是0.58,表明模型解释了因变量的58%的变动, 这与90%的正确预测比例相比,低了不少。注意表10 -3中有一些拟合值大于1或小于0。这是我们前面指 出的这类模型的缺点之一,这些拟合值是概率的估计 值,而概率永远不可能大于1或小于0。
1 第i个学生拿到学士学位后三年内去读研
Yi 0
该生三年内未去读研
GPAi 第i个学生本科平均成绩
INCOMEi 第i个学生家庭年收入(单位:千美元)
设回归结果如下(所有系数值均在10%水平统计 上显著):
Yˆi 0.7 0.4GPAi 0.002INCOMEi
对每个观测值,我们可根据(10.3)式计算因变量 的拟合值或预测值。在常规OLS回归中,因变量的拟 合值或预测值的含义是,平均而言,我们可以预期的 因变量的值。但在本例的情况下,这种解释就不适用 了。假设学生甲的平均分为3.5,家庭年收入为5万美 元,Y的拟合值为
Yˆ 0.7 0.43.5 0.00250 0或1,可是该学生的的拟合值或预测值为0.8。 我们将该拟合值解释为该生决定读研的概率的估计值。 因此,该生决定读研的可能性或概率的估计值为0.8。 需要注意的是,这种概率不是我们能观测到的数字, 能观测的是读研还是不读研的决定。
Yi*
的规模。我
k
Pi Pr ob(Yi 1) Pr ob[ui (0 j Xij )] j 1 k 1 F[(0 j Xij )] j 1
其中F是u的累积分布函数。
如果u的分布是对称的,则 1 F(z) F(z) ,我们
可以将上式写成
k
Pi F (0 j X ij ) j 1
相关文档
最新文档