第十四讲二元因变量回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
现在约定备择对象的0和1两项选择模型中, 下标i表示各不同的经济主体,取值0或1的因 变量表示经济主体的具体选择结果,而影响 经济主体进行选择的自变量。如果选择响应 Yes的概率为:
p( yi 1)
经济主体选择响应No的概率为,
p( yi 0) 1 p( yi 1)
E( yi ) 1 p( yi 1) 0 p( yi 0) p( yi 1)
在离散选择模型中,影响是否购车的因素有 哪些?
汽车本身所具有的属性,如价格、型号等;
决策者的收入水平
决策者对车的偏好程度等。
如果我们要研究是否买车与收入之间的关系, 即研究具有某一收入水平的个体买车的可能 性。因此,二元选择模型的目的是研究具有 给定特征的个体作某种而不作另一种选择的 概率。
为了深刻地理解二元选择模型,首先从最简单 的线性概率模型开始讨论。线性概率模型的回 归形式为:
例如,当P/I ratio=0.3时,deny的预测值 大约为0.2。可以理解为P/I ratio=0.3时, 被拒的概率为0.2,即如果有许多申请者的 P/I ratio=0.3 ,则其中有20%的申请会被 拒。
二元选择模型的三种主要类型:
线性概率模型(LPM) Probit模型 Logit模型
二元选择模型
在离散选择模型中,最简单的情形是在两个 可供选择的方案中选择其一,此时被解释变 量只取两个值,称为二元选择模型(binary choice model)。 例如:在讨论家庭是否购车的问题中,可将 家庭购车的决策用数字1 表示,而将家庭不 购车的决策用数字0表示。
1 yes x 0 no
yi 1x1i 2x2i L k xki ui i 1, 2 ,L , N
其中:N是样本容量;k是解释变量个数;xj 为第j个个体特征的取值。例如,x1表示收入; x2表示汽车的价格;x3表示消费者的偏好等。 设 yi 表示取值为0和1的离散型随机变量。ui 为相互独立且均值为0的随机扰动项。
线性概率模型的优点
线性概率模型的优点是,计算方便,且容易 得到边际效应(即回归系数)。
直接使用reg命令即可。
线性概率模型的缺点
被解释变量常常超出0-1范围。
当P/I ratio 小于 0.132 时 deny<0 当P/I ratio 大于 1.788 时 deny>1 处理方式:发现被解释变量大于1,则取1; 被解释变量小于0,则取0。
下画出了数据集中2380个观测值中127个 deny对P/I ratio的数据散点图。
通过散点图可以看出deny和P/I ratio的关 系:即还款/收入比小于0. 3的申请者的申请 很少被拒,但还款/收入比超过0. 4的申请者 的大部分申请都被拒了。
由这127个观测值估计出的OLS回归线。同 前,这条直线画出了用回归变量还款/收入比 表示的deny预测值的函数图。
Probit 回归
Probit模型假定误差项的分布形式为标准正 态分布:
p( yi 1| x) E( yi | x) (xiβ)
(0 1xi1 L k xik )
1
xi
β
e
x2 2
dx
2
1
0.8
0.6
0.4
0.2
0
-4
-2
0
2
4
累积正态概率分布曲线
Probit模型为
yi ( X i B) i
二元因变量回归
通常的经济计量模型都假定因变量是连续的, 但是在现实的经济决策中经常面临许多选择 问题。人们需要在可供选择的有限多个方案 中作出选择,与通常被解释变量是连续变量 的假设相反,此时因变量只取有限多个离散 的值作为被解释变量建立的计量经济模型, 称为离散选择模型(discrete choice model, DCM)。
Probit和Logit回归
Probit和Logit回归是特别为二元因变量设 计的非线性回归模型。
由于二元因变量Y的回归建立了Y=1的概率 模型,因此采用使预测值落在0到1之间的 非线性形式才有意义。
由于累积概率分布函数产生的概率位于0到 1之间,因此我们把它们应用到Probit和 Logit回归中。其中Logit回归也称为 logistic回归。
y
1 0
yes no
如果解释变量是离散的(比如,虚拟变量), 这并不影响回归。但有时被解释变量是离散 的,而非连续的。比如,个体的如下选择行 为(人生充满了选择):
二值选择(binary choices):考研或不考研; 就业或待业;买房或不买房;买保险或不买 保险;贷款申请被批准或拒绝;出国或不出 国;回国或不回国。
如果x作为说明某种具体经济问题的自变量,则应 用以前介绍虚拟变量知识就足够了。如果现在考 虑某个家庭在一定的条件下是否购车问题时,则 表示状态的虚拟变量就不再是自变量,而是作为 一个被说明对象的因变量出现在经济模型中。因 此,需要对以前讨论虚拟变量的分析方法进行扩 展,以便使其能够适应分析类似家庭是否购车的 问题。
线性概率模型
p( yi 1) E( yi ) xiβ
0 1xi1 L k xik
被拒概率的计算: 假设某人的P/I ratio为0.3,计算他的被拒 概率:
被拒概率= -0.08+0.604*0.3=0.1012=10.12%
上述方程再增加一个是否为黑人的虚拟变量, 则方程变为:
在实践中,Probit与Logit都很常用,二 者的估计结果(比如边际效应)也通常很接近。
根据经典线性回归,我们知道其总体回归方 程是条件期望建立的,这使我们可以构造线 性概率模型:
p( yi 1) E( yi ) xiβ
0 1xi1 L k xik
一个例子
被解释变量: 房屋抵押贷款申请是否被拒deny。 1:被拒 0:不被拒
解释变量:种族(是否黑人)black 还款收入比 P/I ratio
Logit 模型
Logit模型假定模型的误差项服从Logistic分
来自百度文库
布
exiβ
1
p( yi
1| x)
E( yi
| x)
(xiβ)
1 exiβ
1 exiβ
1
0.8
0.6
0.4
0.2
0
0
5
10
15
20
25
30
Logistic分布函数
逻辑分布的密度函数关于原点对称,期望为 0,方差为 2 (大于标准正3态的方差),具有厚尾(fat tails)。