离散因变量模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

y LnF ( X ) (1 y ) Ln (1 F ( X )) i i i i
7.3 Probit 和 logit 模型的估计 对于二元离散模型,依据(4)式,pi = + xi。对于多个解释变量情形, pi = P(yi=1Xi)=F(Xi ) 其中为保证 pi 的取值范围是[0,1],F(∙)表示一个特定的累积分布函数。 给出样本(yi, Xi) ,i=1, …, N。其中,yi 是离散变量观测值,只取 0,1 两种 结果。Xi 是解释变量列向量。N 表示样本容量。并假定对于不同的 i, i, Xi)相 (y 互独立。yi,的结果是一次 Bernoulli 试验。服从两点分布。yi,的概率密度函数是 f(yiXi)= pi yi(1- pi )1- yi, yi = 0, 1 当 yi=1 时, f(1)= p1(1- p ) 1-1 = p 当 yi=0 时, f(0)= p0(1- p ) 1-0 = 1- p 其中 pi 是 Xi的函数,即 pi =F(Xi )。 由 f(yiXi)= pi yi(1- pi )1- yi,yi 对数的概率密度函数是 Lnf(yi)= yi Lnpi + (1- yi ) Ln (1- pi )
1.0
0.3775 0.5000 0.6225 0.7311
0.4 0.8
CNORM1 CLOGISTIC1
0.6
0.8176 0.8808 0.9526
0.2 X 0.0 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
Probit 曲线和 logit 曲线很相似。两条曲线都是在 pi = 0.5 处有拐点,但 logit 曲线在两个尾部要比 Probit 曲线厚。概率值见表。
中级计量经济学 4
第 17 章 离散因变量模型
张晓峒
(2012-9) 南开大学数量经济学专业博士生导师 中国数量经济学会副理事长 天津市数量经济学会理事长 nkeviews@yahoo.com.cn
第17章 离散因变量模型
1. 线性概率模型 2. Probit、logit 模型定义 3. Probit、logit 模型估计 4. Probit、logit 模型中求偏导数 5. Probit、logit 模型预测 6. 有序因变量模型定义 7. 有序因变量模型估计 8. 有序因变量模型中求偏导数 9. 有序因变量模型建模与预测
y 0.25 0.2 0.15 0.1 0.05 x
0.2
0.4
ቤተ መጻሕፍቲ ባይዱ
0.6
0.8
1
Var(ui2) = pi - pi2当pi = 0.5时最大
假设用模型(4) i = - 0.2 + 0.05 xi,进行预测,当预测值落在 [0,1] 区间之 ,p 内(即 xi 取值在[4, 24] 之内)时,则没有什么问题;但当预测值落在[0,1] 区 间之外时,则会暴露出该模型的严重缺点。因为概率的取值范围是 [0,1],所 以此时必须强令预测值(概率值)相应等于 0 或 1(见图 1) 。线性概率模型常 1.2 写成如下形式,1.4 Y Y
7.1 线性概率模型 线性概率模型的形式如下, yi = + xi + ui (1)
其中 ui 为随机误差项,xi 为定量解释变量。yi 为二元选择变量。如利息税、机动车 的费改税(燃油税)问题等。设
1, yi 0, 若是第一种选择 若是第二种选择
1.2 Y 1.0 0.8 0.6 0.4 0.2 0.0 X -0.2 280 300 320 340 360 380 400 420
累积 logistic 概率分布函数 pi =
1 1 e
yi
.3
e
dt
.2
0.0013 0.0228 0.0668 0.1587 0.3085 0.5000 0.6915 0.8413 0.9332 0.9772 0.9987
0.0474
.1
0.1192
X
0.1824 0.2689
.0 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
若概率由 pi = P(yi=1Xi)=F(Xi ) 定义,对于不同的 i,pi 相互独立,则似然函数是
L( )

i 1
N
F ( X ) y i (1 F ( X ) (1 y i ) i i
对数似然函数是
LnL () =
N
i 1
1 2
0.4 0.2 0 -4
2 2
-2
0
2
4
e
yi

t
dt
(6)
其中 pi 表示概率,F(yi)表示正态分布的累积概率密度函数。yi 称作隐变量或潜变量 (latent variable) i 的取值范围是(-,) i 通过累积概率密度函数被转换为 ,y ,y 概率。 累积概率分布函数曲线在 pi = 0.5 附近的斜率最大。对应 yi 在横轴上的值,相 应概率值永远大于 0、小于 1。Probit 模型需要假定 yi 服从正态分布。
e
yi
)=1
i
(8)
1 pi
对上式除以 pi ,并减 1 得 e y = 所以 log (
pi 1 pi
-1 =
1 pi pi
。取倒数后,再取对数,yi = log ( (9)
pi 1 pi
)
) = yi = + xi
由上式知回归方程的因变量是对数的某个具体选择的机会比。logit 模型的一个重要优 点是把在 [0, 区间上预测概率的问题转化为在实数轴上预测一个事件发生的机会比问题。 1] logit 累积概率分布函数的斜率在 pi = 0.5 时最大,在累积分布两个尾端的斜率逐渐减小。说 明相对于 pi = 0.5 附近的解释变量 xi 的变化对概率的变化影响较大,而相对于 pi 接近 0 和 1 附近的 xi 值的变化对概率的变化影响较小。
1.2 1.0 0.8 0.6
0.4 1.0 0.8 0.6
0.4
0.2
0.2 0.0 -0.2 0 5 10 15 20 25 X 30
0.0 -0.2 0 5 10 15 20 25 X 30
1, p i x i , 0,
xi 1 0 xi 1 xi 0
file:logit1 file:logitzhou file:7order_model-1
七、 离散因变量模型 如果回归模型的解释变量中含有定性变量, 则可以用虚拟变量处理之。 在实 际经济问题中,被解释变量也可能是定性变量。如通过一系列解释变量的观测 值研究人们对某项动议的态度,某件事情的成功和失败等。这种二元选择模型 或多元选择模型,统称离散(分类)选择模型。这里主要介绍线性概率模型, Probit(概率单位)模型和 Logit 模型。此外还包括有序因变量模型(ordered dependent variable model) 、计数模型(count model) 。 受限因变量摸型主要包括删失模型(censored regression model)和断尾模 型(truncated regression model) 。删失模型是把小于或大于某一点的数值用该 点数值替代的模型。Tobit 模型也是一种删失模型,被解释变量在删改点 1 之上 或 0 之下的值分别被赋值 1 或 0。 断尾模型是某个删截点之上或之下的观测值数 据得不到或故意舍弃的一种回归模型。例如某种产品,见到的只是分等级的合 格品,不合格品已经看不到,被舍弃。
第17章 离散因变量模型
表1 Probit 模型和 logit 模型概率值 累积正态分布函数 yi pi = -3.0 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 3.0
1 2
yi t 2 2
(7curve-line)
.4 DNORM1 DLOGISTIC1
(5)
此模型由 James Tobin 1958 年提出,因此称作 Tobit 模型(James Tobin 1981 年获诺贝尔经济学奖) 。
然而这样做是有问题的。假设预测某个事件发生的概率等于 1,但是实际中 该事件可能根本不会发生。反之,预测某个事件发生的概率等于 0,但是实 际中该事件却可能发生了。虽然估计过程是无偏的,但是由估计过程得出的 预测结果却是有偏的。 由于线性概率模型的上述缺点,希望能找到一种变换方法, (1)使解释 变量 xi 所对应的所有预测值(概率值)都落在(0,1)之间。 (2)同时对于 所有的 xi,当 xi 增加时,希望 yi 也单调增加或单调减少。显然累积概率分布 函数 F(zi) 能满足这样的要求。 采用累积正态概率分布函数的模型称作 Probit 模型。用正态分布的累积概率作为 Probit 模型的预测概率。另外 logistic 函 数也能满足这样的要求。采用 logistic 函数的模型称作 logit 模型。

E(yi) = 1 (pi) + 0 (1 - pi) = pi
(3)
由(2)和(3)式有 pi = + xi (yi 的样本值是 0 或 1,而预测值是概率。 ) (4)
以 pi = - 0.2 + 0.05 xi 为例,说明 xi 每增加一个单位,则采用第一种选择的概 率增加 0.05。
第17章 离散因变量模型
对 yi = + xi + ui 取期望, E(yi) = + xi (2)
下面研究 yi 的分布。因为 yi 只能取两个值,0 和 1,所以 yi 服从两点分布。 把 yi 的分布记为,
P ( y i 1) p i P ( yi 0) 1 pi
7.2.2 logit 模型 该模型是 McFadden 于 1973 年首次提出。其采用的是 logistic 概率分布函数。其形式是 pi = F(yi) = F(+ xi) =
1 1 e
yi
=
1 1 e
( x i )
(7)
其中 pi 表示概率,F(yi)表示 logistic 累积概率密度函数。对于给定的 xi,pi 表示相应个体做 出某种选择的概率。yi 称作隐(潜)变量,yi 的取值范围是(-,) i 通过 logistic 函数 ,y 被转换为概率。 对 logit 曲线作如下变换, pi (1+
现在分析线性概率模型误差的分布。由(1)式有, ui = yi - - xi =
1 x i , xi , yi 1 yi 0
(5)
E(ui) = (1- - xi) pi + (- - xi) (1 - pi) = pi - - xi 由(4)式 pi = + xi,有 E(ui) = pi - - xi = 0 因为 yi 只能取 0, 1 两个值,所以, Var (ui) = E(ui2) – (E(ui))2 = [(1- - xi)2 pi + (- - xi)2 (1 - pi)] – 0 (利用(5)式和上式) = (1- - xi)2 ( + xi) + ( + xi)2 (1 - - xi), (依据(4)式) = (1- - xi) ( + xi) = (1 - pi) pi = pi - pi2, (抛物线,依据(4)式) 上两式说明,误差项的期望为零,方差具有异方差。当 pi 接近 0 或 1 时,ui 具有较 小的方差,当 pi 接近 0.5 时,ui 具有最大方差(如图) 。所以线性概率模型(1)回 归系数的 OLS 估计量具有无偏性和一致性,但不具有有效性。
1 0.8 0.6 1 0.8 0.6 0.4 0.2
yi
1 1 e
xi
xi xi 2
0.4 0.2 0 -4 -2 0 2 4
dy i
Pobit模型
0 0 5 10
Logit模型
15 20 25

e (1 e
dx i
30
)
1 0.8 0.6
7.2 Pobit 和 Logit 模型 7.2.1 Probit(概率单位)模型 仍假定 yi = + xi , 而 pi = F(yi) =
相关文档
最新文档