第十章_定性选择模型与受限因变量模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
j 1 这里 不可观测,通常称为潜变量( latent * 。我们能观测到的是虚拟变量: variable) Y
Yi 0 j X ij ui
*
k
i
1 Yi 0
若Yi* 0 其它
这就是Probit和Logit方法的思路。Probit模型和 Logit模型的区别在于对中扰动项u的分布的设定,前 者设定为正态分布,后者设定为logistic分布。 与线性概率模型的区别是,这里假设潜变量的存 在。例如,若被观测的虚拟变量是某人买车还是不买 车,Yi * 将被定义为“买车的欲望或能力”,注意这里 的提法是“欲望”和“能力”,因此解释变量是解释 这些元素的。
ˆ 0.7 0.4 3.5 0.002 50 0.8 Y
尽管因变量在这个二元选择模型中只能取两个 值:0或1,可是该学生的的拟合值或预测值为0.8。 我们将该拟合值解释为该生决定读研的概率的估计值。 因此,该生决定读研的可能性或概率的估计值为0.8。 需要注意的是,这种概率不是我们能观测到的数字, 能观测的是读研还是不读研的决定。 对斜率系数的解释也不同了。在常规回归中, 斜率系数代表的是其他解释变量不变的情况下,该解 释变量的单位变动引起的因变量的变动。而在线性概 率模型中,斜率系数表示其他解释变量不变的情况下, 该解释变量的单位变动引起的因变量等于1的概率的 变动。
j 1
k
其中F是u的累积分布函数。 如果u的分布是对称的,则 1 F ( z ) F ( z ) ,我们 可以将上式写成
P i F ( 0 j X ij )
j 1 k
我们可写出似然函数:
L P i (1 P i)
Yi 1 Yi 0
上式中F的函数形式取决于有关扰动项u的假设,如 果 ui 的累积分布是logistic分布,则我们得到的是 logit模型。在这种情况下,累积分布函数为:
Yi 乘上任何正数都不会改变,因此这 可以看出, 里习惯上假设 Var(ui) = 1,从而固定 Yi * 的规模。我 们有
*
Pi Pr ob(Yi 1) Pr ob[ui ( 0 j X ij )]
j 1
k
1 F [( 0 j X ij )]
表10.2 两候选人选举线性概率模型回归结果 Dependent variable:CAND1
Variable
Constant INCOME AGE MALE
Coefficient
-0.51 0.0098 0.016 0.0031
Standard error
0.19 0.003 0.0053 0.13
解决此问题的一种方法是,令所有负拟合值都等 于0,所有大于1的拟合值都等于1。但也无法令人十 分满意,因为在现实中很少会有决策前某人读研的 概率就等于1的情况,同样,尽管某些人成绩不是很 好,但他去读研的机会仍会大于0。线性概率模型倾 向于给出过多的极端结果:估计的概率等于0或1。
2 2 第五个问题是在线性概率模型中, 以及 R 不再是 R 合适的拟合优度测度。事实上,此问题不仅是线性概 率模型的问题,而是所有定性选择模型的问题。较好 一点的测度是模型正确预测的观测值的百分比。首先, 我们将每一预测归类为1或0。如果拟合值大于等于0.5, 则认为因变量的预测值为1。若小于0.5,则认为因变 量的预测值为0。然后,将这些预测值与实际发生的情 况相比较,计算出正确预测的百分比:
一、线性概率模型的概念 下面用一个关于是否读研究生的例子来说明如何 解释线性概率模型的结果。模型为: 其中:
Yi 0 1GPAi 2 INCOMEi ui
1 Yi 0
第i个学生拿到学士学位后三年内去读研 该生三年内未去读研
GPAi 第i个学生本科平均成绩
INCOMEi 第i个学生家庭年收入(单位:千美元)
第四个问题是,拟合值可能小于0或大于1,而概 率值必须位于0和1的闭区间内。 回到有关读研的例子。假设学生乙的为4.0,家庭 收入为20万美元,则代入(10.3)式,Y的拟合值为
ˆ 0.7 0.4 4.0 0.002 200 1.3 Y
从而得到一个不可能的结果(概率值大于1)。假设 另有一个学生丙的为1.0,家庭收入为5万元,则其Y 的拟合值为 -0.2,表明读研的概率为负数,这也是一 个不可能的结果。
概率=F(Z)
1
Probit模型
线性概率模型
0
Z
图10-1 线性概率模型和Probit模型
二、Probit模型和Logit模型的极大 似然估计和假设检验
估计LPM,我们可以采用OLS或WLS。在Probit 模型和Logit模型中,由于的非线性性质,OLS或 WLS都不再适用。估计Probit模型和Logit模型, 通常采用极大似然法。
CPA的系数估计值0.4意味着家庭收入不变的情 况下,一个学生的增加一个点(如从3.0到4.0),该 生决定去读研的概率的估计值增加0.4。 INCOME的系数估计值0.002表明,一个学生的 成绩不变,而家庭收入增加1000美元(单位为千美 元),该生决定去读研的概率的估计值增加0.002。 LPM模型中,解释变量的变动与虚拟因变量值为 1的概率线性相关,因而称为线性概率模型。
CAND1i 0 1INCOMEi 2 AGEi 3MALEi ui 其中: 1 如果第i个选民投候选人甲的票
CAND1i 0 如果第i个选民不投候选人甲的票
INCOME i 第i个选民的家庭收入(单位:千美元)
AGEi 第i个选民的年龄
1 男性 MALEi 0 女性
t-Statistic
-2.65 3.25 3.08 0.02
p-Value
0.01 0.00 0.00 0.98
Observations:30 R 2 = 0.58 2 Adjusted R = 0.53 Residual Sum of Squares =3.15 F-statistic = 11.87
第十章 定性选择模型和 受限因变量模型
wk.baidu.com
对于被解释变量而言,很多情况也会对其取值有所 限制。有时,因变量描述的是微观个体的某种选择、 特征或所属等,即因变量为定性变量,相应的模型称 为定性选择模型或定性响应模型;
另一些情况是,因变量的取值被限定在某个特殊范 围,一般我们称这类取值范围受到限制的因变量为受 限因变量,相应的模型称为受限因变量模型。
exp( zi ) F ( zi ) 1 exp( zi )
因此
F ( zi ) log zi 1 F ( zi )
请注意,对于logit模型: k pi log 0 ij xij 1 pi j 1 上式的左端是机会(odds)的对数,称为对数 机会比率(log-odds ratio),因而上式表明对数机 会比率是各解释变量的线性函数,而对于线性概率 pi 为各解释变量的线性函数。 模型, 如果 ui 服从正态分布,我们得到的是probit 模型(或normit模型),在这种情况下,累积分布 函数为: zi / 1 t2 F ( zi ) exp( )dt 2 2
设回归结果如下(所有系数值均在10%水平统计 上显著):
ˆ 0.7 0.4GPA 0.002INCOME Y i i i
对每个观测值,我们可根据(10.3)式计算因变量 的拟合值或预测值。在常规OLS回归中,因变量的拟 合值或预测值的含义是,平均而言,我们可以预期的 因变量的值。但在本例的情况下,这种解释就不适用 了。假设学生甲的平均分为3.5,家庭年收入为5万美 元,Y的拟合值为
从表可看出,30个观测值中,27个(或90%)预 测正确。选甲的14人中,12人(或85.7%)预测正确。 选乙的16人中,15人(或93.8%)预测正确。
R 2是0.58,表明模型解释了因变量的58%的变动, 这与90%的正确预测比例相比,低了不少。注意表10 -3中有一些拟合值大于1或小于0。这是我们前面指 出的这类模型的缺点之一,这些拟合值是概率的估计 值,而概率永远不可能大于1或小于0。
二、线性概率模型的估计和问题
第一个问题是线性概率模型存在异方差性。扰动 项的方差是 p(1 p) ,这里 p 是因变量等于1的 概率,此概率对于每个观测值不同,因而扰动项 方差将不是常数,导致异方差性。可以使用WLS 法,但不是很有效,并且将改变结果的含义。 第二个问题是扰动项不是正态分布的。事实上, 线性概率模型的扰动项服从二项分布。 第三个问题,它假定自变量与Y=1的概率之间存 在线性关系,而此关系往往不是线性的。
正确预测的观测值数 正确预测观测值的百分比 100 观测值总数
需要指出的是,这个测度也不是很理想,但预测结 果的好坏,并非定性选择模型唯一关心的事,这类模 型常被用于研究影响人们进行某个决策的因素。让我 们来看一个竞选的例子。假设候选人甲和乙二人竞选 某市市长,我们可以用一个二元选择模型来研究影响 选民决策的因素,模型为:
两类模型样本数据一般是横截面数据。两类模型被 广泛应用于消费者行为、劳动经济学、农业经济学等 领域,大多属于微观计量经济学的研究范畴。
本章介绍几种常见的定性选择模型与受限因变量模 型。
第一节 线性概率模型
因变量为虚拟变量的模型被称为定性选择模型或定 性响应模型。 如果只有两个选择,我们可用0和1分别表示它们, 如乘公交为0,自驾车为1,这样的模型称为二元选择 模型(binary choice Models),多于两个选择(如 上班方式加上一种骑自行车)的定性选择模型称为多 项选择模型(Multinomial choice models)。 我们先从基础的二元选择模型入手,介绍定性选择 模型的设定和估计。最简单的二元选择模型是线性概 率模型(Linear Probability Models ,LPM)。
无论是probit模型还是logit模型,极大似然函数都 伴随着非线性估计方法,目前很多计量经济分析软 件已可用于probit和logit分析,用起来很方便。 由于累积正态分布和累积logistic分布很接近,只 是尾部有点区别,因此,我们无论logit法还是probit 法,得到的结果都不会有很大不同。可是,两种方 法得到的参数估计值不是直接可比的。由于logistic 2 分布的方差为 3 ,因此,logit模型得到的的估计 值必须乘以 3,才能与probit模型得到的估计值相 比较(正态分布标准差为1)。
Yi 1Yi f (Yi xi ; β) [G(x β )] [1 G ( x β )] ,Yi 0,1 i i
ln li (β) Yi ln[G (xiβ )] (1 Yi ) ln[1 G (xiβ )]
如表所示,INCOME的斜率估计值为正,且在 1%的水平上显著。年龄和性别不变的情况下,收入增 加1000元,选择候选人甲的概率增加0.0098。 AGE的斜率估计值也在1%的水平上显著。在收入 和性别不变的情况下,年龄增加1岁,选择候选人甲的 概率增加0.016。的斜率系数统计上不显著,因而没有 证据表明样本中男人和女人的选票不同。 我们可以得出如下结论:年老一些、富裕一些的 选民更喜欢投票给候选人甲。 表中给出CAND1的拟合值,每个大于等于0.5的 拟合值计入CAND1为1的预测,而小于0.5的拟合值则 计入CAND1为0的预测。
第二节 Probit模型和Logit模型
虽然估计和使用线性概率模型很简单,但存在上 面讨论的几个问题,其中最严重的两个问题是拟 合值小于0或大于1的问题和假定自变量和的概率 之间存在线性关系的假设不现实的问题。使用更 为复杂的二元响应模型可以克服这些缺陷
一.Probit和Logit模型的设定 估计二元选择模型的另一类方法假定回归模型为