二元选择模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对每个观测值,我们可根据(15.3)式计算因变量 的拟合值或预测值。在常规OLS回归中,因变量的拟 合值或预测值的含义是,平均而言,我们可以预期的 因变量的值。但在本例的情况下,这种解释就不适用 了。假设学生甲的平均分为3.5,家庭年收入为5万美 元,Y的拟合值为
Yˆ 0.7 0.43.5 0.00250 0.8 (15.4)
的是logit模型。在这种情况下,累积分布函数为:
F
(
zi
)
1
exp(zi ) exp(zi
)
因此
(15.11)
log F (zi ) 1 F (zi )
zi
上一页 下一页
这是因为,由(15.11)式,有:
log F (zi ) 1 F (zi )
exp(zi )
exp(zi )
log 1 exp(zi ) log
1 exp(zi )
1 exp(zi )
1 exp(zi ) exp(zi )
1 exp(zi )
1 exp(zi )
exp(zi )
log 1 exp(zi ) 1
log exp(zi )
zi
1 exp(zi )
上一页 下一页
结合(15.9)式,对于logit模型,有:
上一页 下一页
(5)最后一个问题是在线性概率模型中,R 2以及 R 2
不再是合适的拟合优度测度。事实上,此问题不仅是
线性概率模型的问题,而是所有定性选择模型的问题。
较好一点的测度是模型正确预测的观测值的百分比。 首先,我们将每一预测归类为1或0。如果拟合值大于 等于0.5,则认为因变量的预测值为1。若小于0.5,则 认为因变量的预测值为0。然后,将这些预测值与实际 发生的情况相比较,计算出正确预测的百分比:
k
Yi* 0 j Xij ui j 1
(15.7)
var这iab里le)Yi*。不我可们观能测观,测通到常的称是为虚潜拟变变量量(:latent
1 Yi 0
若Yi* 0 其它
(15.8)
上一页 下一页
这就是Probit和Logit方法的思路。Probit模型和 Logit模型的区别在于对(15.7)式中扰动项u的分布 的设定,前者设定为正态分布,后者设定为logistic分 布。
(3) 另一个问题是扰动项不是正态分布的。事实 上,线性概率模型的扰动项服从二项分布。
(4)此外,线性概率模型存在异方差性。扰动项 的方差是 p (1-p) ,这里 p是因变量等于1的概率,此 概率对于每个观测值不同,因而扰动项方差将不是 常数,导致异方差性。可以使用WLS法,但不是很 有效,并且将改变结果的含义。
我们可以得出如下结论:年老一些、富裕一些的选 民更喜欢投票给候选人甲。
表15-3给出CAND1的拟合值,每个大于等于0.5的 拟合值计入CAND1为1的预测,而小于0.5的拟合值则 计入CAND1为0的预测。
上一页 下一页
从表15-3可看出,30个观测值中,27个(或90%) 预测正确。选甲的14人中,12人(或85.7%)预测正 确。选乙的16人中,15人(或93.8%)预测正确。
CAND1i 0 1INCOMEi 2 AGEi 3MALEi ui
其中:
1 如果第i个选民投候选人甲的票
CAND1i 0 如果第i个选民不投候选人甲的票
(15.6)
INCOMEi 第i个选民的家庭收入(单位:千美元)
AGEi 第i个选民的年龄
1 男性 MALEi 0 女性
上一页 下一页
表15-2 两候选人选举线性概率模型回归结果 Dependent variable:CAND1
Variable
Coefficient
Standard error
Constant
-0.51
0.19
INCOME
0.0098
0.003
AGE
0.016
0.0053
MALE
0.0031
0.13
上一页 下一页
GPA的系数估计值0.4意味着家庭收入不变的情况 下,一个学生的GPA增加一个点(如从3.0到4.0), 该生决定去读研的概率的估计值增加0.4。
INCOME的系数估计值0.002表明,一个学生的成 绩不变,而家庭收入增加1000美元,该生决定去读研 的概率的估计值增加0.002。
LPM模型中,解释变量的变动与虚拟因变量值为1 的概率线性相关,因而称为线性概率模型。
Yˆ 0.7 0.4 4.0 0.002 200 1.3 (15.5)
从而得到一个不可能的结果(概率值大于1)。假设
另有一个学生丙的GPA为1.0,家庭收入为5万元,则
Hale Waihona Puke Baidu
其Y的拟合值为 -0.2,表明读研的概率为负数,这也
是一个不可能的结果。
上一页 下一页
解决此问题的一种方法是,令所有负拟合值都等 于0,所有大于1的拟合值都等于1。但也无法令人十 分满意,因为在现实中很少会有决策前某人读研的 概率就等于1的情况,同样,尽管某些人成绩不是很 好,但他去读研的机会仍会大于0。线性概率模型倾 向于给出过多的极端结果:估计的概率等于0或1。
这看上去与典型的OLS回归模型并无两样,但区 别是这里Y只取0和1两个值,观测值可以是个人、公 司、国家或任何其他横截面个体所作的决定。解释变 量中可以包括正常变量和虚拟变量。
上一页 下一页
下面用一个关于是否读研究生的例子来说明如何 解释线性概率模型的结果。模型为:
Yi 0 1GPAi 2INCOMEi ui (15.2)
是probit模型(或normit模型),在这种情况下,累
积分布函数为:
F(zi )
zi /
1 exp( t2 )dt
2
2
(15.12)
上一页 下一页
无论是probit模型还是logit模型,极大似然函数 (15.10)都伴随着非线性估计方法,目前很多计量 经济分析软件已可用于probit和logit分析,用起来很 方便。
(15.7)式与线性概率模型的区别是,这里假设潜 变量的存在。例如,若被观测的虚拟变量是某人买车
还注是意不这买里车的,提Y法i* 将是被“定欲义望为”“和买“车能的力欲”望,或因能此力(”15,.7)
式中的解释变量是解释这些元素的。
从(15.8)式可看出,Yi*乘上任何正数都不会改 变Yi,因此这里习惯上假设 Var(ui) = 1,从而固定 Yi*
上一页 下一页
线性概率模型存在的问题
(1)线性概率模型假定自变量与Y=1的概率之间存 在线性关系,而此关系往往不是线性的。
(2)拟合值可能小于0或大于1,而概率值必须位于 0和1的闭区间内。
回到有关读研的例子。假设学生乙的GPA为4.0, 家庭收入为20万美元,则代入(15.3)式,Y的拟合 值为
Observations:30
R 2 = 0.58
Adjusted R2 = 0.53
Residual Sum of Squares =3.15
F-statistic = 11.87
t-Statistic -2.65 3.25 3.08 0.02
p-Value 0.01 0.00 0.00 0.98
可以将上式写成
k
Pi F (0 j X ij ) j 1
(15.9)
我们可写出似然函数:
上一页 下一页
L Pi (1 Pi ) Yi 1 Yi 0
(15.10)
(15.9)式中F的函数形式取决于有关扰动项u的假
设,如果 ui的累积分布是logistic分布,则我们得到
正确预测观测值的百分比
正确预测的观测值数 观测值总数
100
上一页 下一页
需要指出的是,这个测度也不是很理想,但预测结
果的好坏,并非定性选择模型唯一关心的事,这类模 型常被用于研究影响人们进行某个决策的因素。
一个竞选的例子。假设候选人甲和乙二人竞选某市
市长,我们可以用一个二元选择模型来研究影响选民 决策的因素,设模型为:
二元选择模型如何估计呢?由于它看上去象是一 个典型的OLS回归模型,因而一个简单的想法是采用 OLS法估计。当然,对结果的解释与常规线性回归模 型不同,因为二元选择模型中因变量只能取两个预定 的值。线性概率模型(LPM)一般形式如下:
Yi 0 1X1i 2 X2i L k Xki ui (15.1)
如果只有两个选择,我们可用0和1 分别表示它 们,如乘公交为0,自驾车为1,这样的模型称为二元 选择模型(binary choice Models),多于两个选择 (如上班方式加上一种骑自行车)的定性选择模型称 为多项选择模型(Multinomial choice models)。
上一页 下一页
第一节 线性概率模型
的规模。由(15.7)和(15.8)式,我们有
上一页 下一页
k
Pi Pr ob(Yi 1) Pr ob[ui (0 j Xij )] j 1
k
1 F[(0 j Xij )] j 1
其中F是u的累积分布函数。
如果u的分布是对称的,则 1 F(z) F(z) ,我们
上一页 下一页
如表15-2所示,INCOME的斜率估计值为正,且 在1%的水平上显著。年龄和性别不变的情况下,收入 增加1000元,选择候选人甲的概率增加0.0098。
AGE的斜率估计值也在1%的水平上显著。在收入 和性别不变的情况下,年龄增加1岁,选择候选人甲的 概率增加0.016。MALE的斜率系数统计上不显著,因 而没有证据表明样本中男人和女人的选票不同。
由于累积正态分布和累积logistic分布很接近,
只是尾部有点区别,因此,我们无论用(15.11)还
是(15.12),也就是无论用logit法还是probit法,
得到的结果都不会有很大不同。可是,两种方法得
到的参数估计值不是直接可比的。由于logistic分布
上一页 下一页
尽管因变量在这个二元选择模型中只能取两个值: 0或1,可是该学生的的拟合值或预测值为0.8。我们 将该拟合值解释为该生决定读研的概率的估计值。因 此,该生决定读研的可能性或概率的估计值为0.8。 需要注意的是,这种概率不是我们能观测到的数字, 能观测的是读研还是不读研的决定。
对斜率系数的解释也不同了。在常规回归中,斜 率系数代表的是其他解释变量不变的情况下,该解释 变量的单位变动引起的因变量的变动。而在线性概率 模型中,斜率系数表示其他解释变量不变的情况下, 该解释变量的单位变动引起的因变量等于1的概率的 变动。
是0.58,表明模型解释了因变量的58%的变动, 这与R 290%的正确预测比例相比,低了不少。注意表15 -3中有一些拟合值大于1或小于0。这是我们前面指 出的这类模型的缺点之一,这些拟合值是概率的估计 值,而概率永远不可能大于1或小于0。
上一页 下一页
第二节 Probit模型和Logit模型
一.Probit和Logit方法概要 估计二元选择模型的另一类方法假定回归模型为
其中:
1 第i个学生拿到学士学位后三年内去读研
Yi 0
该生三年内未去读研
GPAi 第i个学生本科平均成绩
INCOMEi 第i个学生家庭年收入(单位:千美元)
上一页 下一页
设回归结果如下(所有系数值均在10%水平统计 上显著):
Yˆi 0.7 0.4GPAi 0.002INCOMEi (15.3)
第十五讲
定性选择模型
上一页 下一页
在教材第八章中曾介绍解释变量为虚拟变量的模 型,本章要讨论的是因变量为虚拟变量的情形。在这 种模型中,因变量描述的是特征、选择或者种类等不 能定量化的东西,如乘公交还是自己开车去上班、考 不考研究生等。在这些情况下,因变量是定性变量, 我们可以用定义虚拟变量的方法来刻画它们。这种因 变量为虚拟变量的模型被称为定性选择模型 (Qualitative choice models)或定性响应模型 (Qualitative response models)。
log pi
1 pi
0
k
ij X ij
j 1
上式的左端是机会(odds)的对数,称为对数机
会比率(log-odds ratio),因而上式表明对数机会
比率是各解释变量的线性函数,而对于线性概率模
型, pi为各解释变量的线性函数。
如果(15.9)式中 ui 服从正态分布,我们得到的
Yˆ 0.7 0.43.5 0.00250 0.8 (15.4)
的是logit模型。在这种情况下,累积分布函数为:
F
(
zi
)
1
exp(zi ) exp(zi
)
因此
(15.11)
log F (zi ) 1 F (zi )
zi
上一页 下一页
这是因为,由(15.11)式,有:
log F (zi ) 1 F (zi )
exp(zi )
exp(zi )
log 1 exp(zi ) log
1 exp(zi )
1 exp(zi )
1 exp(zi ) exp(zi )
1 exp(zi )
1 exp(zi )
exp(zi )
log 1 exp(zi ) 1
log exp(zi )
zi
1 exp(zi )
上一页 下一页
结合(15.9)式,对于logit模型,有:
上一页 下一页
(5)最后一个问题是在线性概率模型中,R 2以及 R 2
不再是合适的拟合优度测度。事实上,此问题不仅是
线性概率模型的问题,而是所有定性选择模型的问题。
较好一点的测度是模型正确预测的观测值的百分比。 首先,我们将每一预测归类为1或0。如果拟合值大于 等于0.5,则认为因变量的预测值为1。若小于0.5,则 认为因变量的预测值为0。然后,将这些预测值与实际 发生的情况相比较,计算出正确预测的百分比:
k
Yi* 0 j Xij ui j 1
(15.7)
var这iab里le)Yi*。不我可们观能测观,测通到常的称是为虚潜拟变变量量(:latent
1 Yi 0
若Yi* 0 其它
(15.8)
上一页 下一页
这就是Probit和Logit方法的思路。Probit模型和 Logit模型的区别在于对(15.7)式中扰动项u的分布 的设定,前者设定为正态分布,后者设定为logistic分 布。
(3) 另一个问题是扰动项不是正态分布的。事实 上,线性概率模型的扰动项服从二项分布。
(4)此外,线性概率模型存在异方差性。扰动项 的方差是 p (1-p) ,这里 p是因变量等于1的概率,此 概率对于每个观测值不同,因而扰动项方差将不是 常数,导致异方差性。可以使用WLS法,但不是很 有效,并且将改变结果的含义。
我们可以得出如下结论:年老一些、富裕一些的选 民更喜欢投票给候选人甲。
表15-3给出CAND1的拟合值,每个大于等于0.5的 拟合值计入CAND1为1的预测,而小于0.5的拟合值则 计入CAND1为0的预测。
上一页 下一页
从表15-3可看出,30个观测值中,27个(或90%) 预测正确。选甲的14人中,12人(或85.7%)预测正 确。选乙的16人中,15人(或93.8%)预测正确。
CAND1i 0 1INCOMEi 2 AGEi 3MALEi ui
其中:
1 如果第i个选民投候选人甲的票
CAND1i 0 如果第i个选民不投候选人甲的票
(15.6)
INCOMEi 第i个选民的家庭收入(单位:千美元)
AGEi 第i个选民的年龄
1 男性 MALEi 0 女性
上一页 下一页
表15-2 两候选人选举线性概率模型回归结果 Dependent variable:CAND1
Variable
Coefficient
Standard error
Constant
-0.51
0.19
INCOME
0.0098
0.003
AGE
0.016
0.0053
MALE
0.0031
0.13
上一页 下一页
GPA的系数估计值0.4意味着家庭收入不变的情况 下,一个学生的GPA增加一个点(如从3.0到4.0), 该生决定去读研的概率的估计值增加0.4。
INCOME的系数估计值0.002表明,一个学生的成 绩不变,而家庭收入增加1000美元,该生决定去读研 的概率的估计值增加0.002。
LPM模型中,解释变量的变动与虚拟因变量值为1 的概率线性相关,因而称为线性概率模型。
Yˆ 0.7 0.4 4.0 0.002 200 1.3 (15.5)
从而得到一个不可能的结果(概率值大于1)。假设
另有一个学生丙的GPA为1.0,家庭收入为5万元,则
Hale Waihona Puke Baidu
其Y的拟合值为 -0.2,表明读研的概率为负数,这也
是一个不可能的结果。
上一页 下一页
解决此问题的一种方法是,令所有负拟合值都等 于0,所有大于1的拟合值都等于1。但也无法令人十 分满意,因为在现实中很少会有决策前某人读研的 概率就等于1的情况,同样,尽管某些人成绩不是很 好,但他去读研的机会仍会大于0。线性概率模型倾 向于给出过多的极端结果:估计的概率等于0或1。
这看上去与典型的OLS回归模型并无两样,但区 别是这里Y只取0和1两个值,观测值可以是个人、公 司、国家或任何其他横截面个体所作的决定。解释变 量中可以包括正常变量和虚拟变量。
上一页 下一页
下面用一个关于是否读研究生的例子来说明如何 解释线性概率模型的结果。模型为:
Yi 0 1GPAi 2INCOMEi ui (15.2)
是probit模型(或normit模型),在这种情况下,累
积分布函数为:
F(zi )
zi /
1 exp( t2 )dt
2
2
(15.12)
上一页 下一页
无论是probit模型还是logit模型,极大似然函数 (15.10)都伴随着非线性估计方法,目前很多计量 经济分析软件已可用于probit和logit分析,用起来很 方便。
(15.7)式与线性概率模型的区别是,这里假设潜 变量的存在。例如,若被观测的虚拟变量是某人买车
还注是意不这买里车的,提Y法i* 将是被“定欲义望为”“和买“车能的力欲”望,或因能此力(”15,.7)
式中的解释变量是解释这些元素的。
从(15.8)式可看出,Yi*乘上任何正数都不会改 变Yi,因此这里习惯上假设 Var(ui) = 1,从而固定 Yi*
上一页 下一页
线性概率模型存在的问题
(1)线性概率模型假定自变量与Y=1的概率之间存 在线性关系,而此关系往往不是线性的。
(2)拟合值可能小于0或大于1,而概率值必须位于 0和1的闭区间内。
回到有关读研的例子。假设学生乙的GPA为4.0, 家庭收入为20万美元,则代入(15.3)式,Y的拟合 值为
Observations:30
R 2 = 0.58
Adjusted R2 = 0.53
Residual Sum of Squares =3.15
F-statistic = 11.87
t-Statistic -2.65 3.25 3.08 0.02
p-Value 0.01 0.00 0.00 0.98
可以将上式写成
k
Pi F (0 j X ij ) j 1
(15.9)
我们可写出似然函数:
上一页 下一页
L Pi (1 Pi ) Yi 1 Yi 0
(15.10)
(15.9)式中F的函数形式取决于有关扰动项u的假
设,如果 ui的累积分布是logistic分布,则我们得到
正确预测观测值的百分比
正确预测的观测值数 观测值总数
100
上一页 下一页
需要指出的是,这个测度也不是很理想,但预测结
果的好坏,并非定性选择模型唯一关心的事,这类模 型常被用于研究影响人们进行某个决策的因素。
一个竞选的例子。假设候选人甲和乙二人竞选某市
市长,我们可以用一个二元选择模型来研究影响选民 决策的因素,设模型为:
二元选择模型如何估计呢?由于它看上去象是一 个典型的OLS回归模型,因而一个简单的想法是采用 OLS法估计。当然,对结果的解释与常规线性回归模 型不同,因为二元选择模型中因变量只能取两个预定 的值。线性概率模型(LPM)一般形式如下:
Yi 0 1X1i 2 X2i L k Xki ui (15.1)
如果只有两个选择,我们可用0和1 分别表示它 们,如乘公交为0,自驾车为1,这样的模型称为二元 选择模型(binary choice Models),多于两个选择 (如上班方式加上一种骑自行车)的定性选择模型称 为多项选择模型(Multinomial choice models)。
上一页 下一页
第一节 线性概率模型
的规模。由(15.7)和(15.8)式,我们有
上一页 下一页
k
Pi Pr ob(Yi 1) Pr ob[ui (0 j Xij )] j 1
k
1 F[(0 j Xij )] j 1
其中F是u的累积分布函数。
如果u的分布是对称的,则 1 F(z) F(z) ,我们
上一页 下一页
如表15-2所示,INCOME的斜率估计值为正,且 在1%的水平上显著。年龄和性别不变的情况下,收入 增加1000元,选择候选人甲的概率增加0.0098。
AGE的斜率估计值也在1%的水平上显著。在收入 和性别不变的情况下,年龄增加1岁,选择候选人甲的 概率增加0.016。MALE的斜率系数统计上不显著,因 而没有证据表明样本中男人和女人的选票不同。
由于累积正态分布和累积logistic分布很接近,
只是尾部有点区别,因此,我们无论用(15.11)还
是(15.12),也就是无论用logit法还是probit法,
得到的结果都不会有很大不同。可是,两种方法得
到的参数估计值不是直接可比的。由于logistic分布
上一页 下一页
尽管因变量在这个二元选择模型中只能取两个值: 0或1,可是该学生的的拟合值或预测值为0.8。我们 将该拟合值解释为该生决定读研的概率的估计值。因 此,该生决定读研的可能性或概率的估计值为0.8。 需要注意的是,这种概率不是我们能观测到的数字, 能观测的是读研还是不读研的决定。
对斜率系数的解释也不同了。在常规回归中,斜 率系数代表的是其他解释变量不变的情况下,该解释 变量的单位变动引起的因变量的变动。而在线性概率 模型中,斜率系数表示其他解释变量不变的情况下, 该解释变量的单位变动引起的因变量等于1的概率的 变动。
是0.58,表明模型解释了因变量的58%的变动, 这与R 290%的正确预测比例相比,低了不少。注意表15 -3中有一些拟合值大于1或小于0。这是我们前面指 出的这类模型的缺点之一,这些拟合值是概率的估计 值,而概率永远不可能大于1或小于0。
上一页 下一页
第二节 Probit模型和Logit模型
一.Probit和Logit方法概要 估计二元选择模型的另一类方法假定回归模型为
其中:
1 第i个学生拿到学士学位后三年内去读研
Yi 0
该生三年内未去读研
GPAi 第i个学生本科平均成绩
INCOMEi 第i个学生家庭年收入(单位:千美元)
上一页 下一页
设回归结果如下(所有系数值均在10%水平统计 上显著):
Yˆi 0.7 0.4GPAi 0.002INCOMEi (15.3)
第十五讲
定性选择模型
上一页 下一页
在教材第八章中曾介绍解释变量为虚拟变量的模 型,本章要讨论的是因变量为虚拟变量的情形。在这 种模型中,因变量描述的是特征、选择或者种类等不 能定量化的东西,如乘公交还是自己开车去上班、考 不考研究生等。在这些情况下,因变量是定性变量, 我们可以用定义虚拟变量的方法来刻画它们。这种因 变量为虚拟变量的模型被称为定性选择模型 (Qualitative choice models)或定性响应模型 (Qualitative response models)。
log pi
1 pi
0
k
ij X ij
j 1
上式的左端是机会(odds)的对数,称为对数机
会比率(log-odds ratio),因而上式表明对数机会
比率是各解释变量的线性函数,而对于线性概率模
型, pi为各解释变量的线性函数。
如果(15.9)式中 ui 服从正态分布,我们得到的