logit模型的原理与应用

合集下载

相关主题

基于logit模型

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

模型为： log it P( y i x) i 0.6373x
18
3.Logit 模型----多分类（有序）
这里： i 1, 2,3 ， 1 1.4578 ， 2 1.2254 ， 3 3.5630 。
OR e0.6373 1.89 ，解释为：当母亲的文化程度提高一个等级时，儿童智力提高一个或一个以上等级的可能性将增加 0.89 倍。常数项又称为分割系数，因为它们将 logit 分布进行了分割，以对应于不同类的概率： 1 1 P( y i x) h h 1 exp i i xi 1 exp i 1 i xi i 1 i 1 在此， 0 ， k 。例如，当 x 1 时： 1 0.1096 y 1的概率为： P( y 1 x) 1 e1.4578 0.6373 1 1 0.5333 y 2 的概率为： P( y 2 x) 1.2254 0.6373 1.4578 0.6373 1 e 1 e 1 1 0.3062 y 3 的概率为： P( y 3 x) 3.5630 0.6373 1.2254 0.6373 1 e 1 e 1 0.0509 y 4 的概率为： P( y 4 x) 1 1 e 3.5630 0.6373 实际上， x 1 时， y 1, 2,3, 4 的观察频率为： 57 454 0.1256 ， 236 454 0.5198 ， 135 454 0.2974 ， 26 454 0.0573 。理论概率与实际频率很接近。

2
2.线性概率模型（Tobit）
5.1 线性概率模型线性概率模型的形式如下， yi = + xi + ui (1)
其中 ui 为随机误差项，xi 为定量解释变量。yi 为二元选择变量。如利息税、机动车的费改税（燃油税）问题等。设
1, 若是第一种选择 yi 0, 若是第二种选择
5
2.线性概率模型（Tobit）
然而这样做是有问题的。假设预测某个事件发生的概率等于 1，但是实际中该事件可能根本不会发生。反之，预测某个事件发生的概率等于 0，但是实际中该事件却可能发生了。虽然估计过程是无偏的，但是由估计过程得出的预测结果却是有偏的。由于线性概率模型的上述缺点，希望能找到一种变换方法，（1）使解释变量 xi 所对应的所有预测值（概率值）都落在（0，1）之间。（2）同时对于所有的 xi，当 xi 增加时，希望 yi 也单调增加或单调减少。显然累积概率分布函数 F(zi) 能满足这样的要求。采用累积正态概率分布函数的模型称作 Probit 模型。用正态分布的累积概率作为 Probit 模型的预测概率。另外 logistic 函数也能满足这样的要求。采用 logistic 函数的模型称作 logit 模型。
则 E(yi) = 1 (pi) + 0 (1 - pi) = pi 由（2）和（3）式有 pi = + xi （yi 的样本值是 0 或 1，而预测值是概率。） (4) (3)
以 pi = - 0.2 + 0.05 xi 为例，说明 xi 每增加一个单位，则采用第一种选择的概 4 率增加 0.05。
3
2.线性概率模型（Tobit）
对 yi = + xi + ui 取期望， E(yi) = + xi (2)
下面研究 yi 的分布。因为 yi 只能取两个值，0 和 1，所以 yi 服从两点分布。把 yi 的分布记为，
P( yi 1) pi P( yi 0) 1 pi
1.2 Y 1.0 0.8 0.6
1, pi xi , 0,
xi 1 0 xi 1 xi 0
0.4 0.2 0.0 -0.2 0 5 10 15 20 25 X 30
(5)
此模型由 James Tobin 1958 年提出，因此称作 Tobit 模型（James Tobin 1981 年获诺贝尔经济学奖）。
3.Logit 模型----分类
9
3.Logit 模型----二分类
p 如果影响 ln 的因素有 x1, x2 , , xp ，则多元 logit 线性回归方程为 1 p p ln 0 1 x1 2 x2 p x p 1 p 多元 logit 线性回归方程还有以下等价形式
Logit模型的原理及应用
2017年3月3日
1
1.问题的提出
如果回归模型的解释变量中含有定性变量，则可以用虚拟变量来处理。在实际经济问题中，被解释变量也可能是定性变量。因变量取值是离散的，这类回归模型称为离散选择模型或“定性反应模型” 。例如通过一系列解释变量的观测值观察人们对某项提议的态度，某件事情的成功和失败等。这类模型被称为“离散选择模型” ：二值选择模型、多值选择模型、计数模型。
e0 1x1 2 x2 k xk p 1 e0 1x1 2 x2 k xk
10
3.Logit 模型----二分类
若将看成是因变量，则logit线性回归模型与多元线性回归模型的形式是一致的，且有很多共性。不同的是： 1、logistic回归模型中因变量是二分类的，而且非连续，其误差的分布不再是正态分布，而是二项分布，且所有的分析均建立在二项分布的基础上。 2、由于上述原因，logit回归系数的估计不能再用最小二乘法，而要用极大似然估计法。回归模型和回归系数的检验也不是F检验和t检验，而要用Wald检验、似然比检验等。
13
3.Logit 模型----多分类
有些协变量为定量数据，logistic回归模型的协变量可以是定性名义数据。这就需要对名义数据进行赋值。通常某个名义数据有k个状态，则定义变量 M1 , , M k 1 代表前面的k-1状态，最后令k-1变量均为0或-1来代表第k个状态。

如婚姻状况有四种状态：未婚、有配偶、丧偶和离婚，则可以定义三个指示变量M1、M2、M3，用 (1,0,0)、 (0,1,0) 、(0,0,1) 、(0,0,0)或(-1,1,-1)来对以上四种状态赋值。

这里，儿童智商是多分类定性有序变量，宜建立累积比数 logistic 回归。影响因素母亲文化程度亦是多分类定性有序变量，可直接进入方程。回归模型见表。
变量 x 常数项回归系数
0.6373
标准误差
0.0934 0.1454 0.1358 0.1935
Z
6.824
P
0.00
1 2 3
1.4578 1.2254 3.5630
2.线性概率模型（Tobit）
假设用模型（4），pi = - 0.2 + 0.05 xi，进行预测，当预测值落在 [0，1] 区间之内（即 xi 取值在[4, 24] 之内）时，则没有什么问题；但当预测值落在[0，1] 区间之外时，则会暴露出该模型的严重缺点。因为概率的取值范围是 [0，1]，所以此时必须强令预测值（概率值）相应等于 0 或 1（见图 1）。线性概率模型常写成如下形式，
14
3.Logit 模型----多分类
15
3.Logit 模型----多分类（名义）
【例】研究三个学校、两个课程计划对学生偏好何种学习方式的影响。调查数据见表:

其中，三个学校对应两个哑变量x1和x2（学校一（1.0）学校二（0.1）学校三（0.0）），两个课程计划为常规(M=1)和附加(M=0)，学习方式分为：自修(y=1)、小组(y=2)、上课(y=3)
11
3.Logit 模型----二分类

例：讨论某特定人群（例如糖尿病患者）中患动脉硬化的概率与年龄、婚姻状况的关系。试建立死亡率关于年龄和婚姻状况的logit模型。
p ln A 1M 1 2 M 2 3 M 3 1 p

其中，A表示年龄(取中值)，M1、M2、M3表示婚姻状况 p 其中就是患病概率与不患病概率之比，称
7
3.Logit 模型---提出
对 logit 曲线作如下变换， pi (1+ e yi ) = 1 对上式除以 pi ，并减 1 得
e yi =
1 pi 1 -1 = pi pi pi ) 1 pi
(8)
取倒数后，再取对数， yi = log ln ( 所以 log (
pi ) = yi = + xi 1 pi

从题目可以看出，响应变量是学习方式有三类，属于多项逻辑斯蒂回归问题。于是，建模为：
ln ln p1 10 11 x1 12 x2 13 x3 p3 p2 20 21 x1 22 x2 23 x3 p3
16
3.Logit 模型----多分类（有序）
1
1
0.8 0.6
0.8 0.6
0.4 0.2 0 -4 -2 0
Pobit模型
0.4 0.2 0
Logit模型 6
2
4ห้องสมุดไป่ตู้
3.Logit 模型---提出
5.2.2 logit 模型该模型是 McFadden 于 1973 年首次提出。其采用的是 logistic 概率分布函数。其形式是 pi = F(yi) = F(+ xi) =
P( y i x)
1
表示：属于后 k 1个等级的累积概率与前 i 个等级的累积概率的比数之对数，故该模型称为累积比数模型。．．．．．．（ cumulative odds model ）
17
3.Logit 模型----多分类（有序）

在探讨影响智力因素的研究中，调查了 875 名小学一年级学生的智商与母亲的文化程度，结果见下表。试分析两者间的关系。
1 p p 1 p
为优势（ odds ），记为．．
p 1 p 因此，优势 OD 的统计意义是： “患病概率”相对于“不患病概率”的倍数。当 OD 1 时， “患病概率”大于“不患病概率” ；当 OD 1 时， “患病概率”小于“不患病概率” ；当 OD 1 时， “患病概率”等于“不患病概率” 。 OD odds
12
3.Logit 模型----多分类
前面讨论的logit模型为二分数据的情况，有时候响应变量有可能取三个或更多值，即多类别的属性变量。根据响应变量类型的不同，分两种情况：

响应变量为定性名义变量；响应变量为定性有序变量；

当名义响应变量有多个类别（即名义、无序）时，多项logit模型应采取把每个类别与一个基线类别配成对，通常取最后一类为参照，称为基线-类别 logit.

对有序数据的赋值可以按顺序用数0,1,2,3,4分别表示
有序变量的 logistic 回归模型定义为
log it P( y i x) i i xi ， i 1,2, , k 1
i 1 h

等价于
h 1 exp i i xi i 1 实际上是将 k 个等级人为地分为两类： 1,2, , i 和 i 1, , k ，在这两类定义的 logit
1 1 e
yi
=
1 1 e
( xi )
(7)
其中 pi 表示概率，F(yi)表示 logistic 累积概率密度函数。对于给定的 xi，pi 表示相应个体做出某种选择的概率。yi 称作隐（潜）变量，yi 的取值范围是（-，），yi 通过 logistic 函数被转换为概率。 Probit 曲线和 logit 曲线很相似。两条曲线都是在 pi = 0.5 处有拐点，但 logit 曲线在两个尾部要比 Probit 曲线厚。利用（6）和（7）式得到的概率值见表 1。
(9)
由上式知回归方程的因变量是对数的某个具体选择的机会比。logit 模型的一个重要优点是把在 [0，1] 区间上预测概率的问题转化为在实数轴上预测一个事件发生的机会比问题。 logit 累积概率分布函数的斜率在 pi = 0.5 时最大，在累积分布两个尾端的斜率逐渐减小。说明相对于 pi = 0.5 附近的解释变量 xi 的变化对概率的变化影响较大，而相对于 pi 接近 0 和 1 附近的 xi 值的变 8 化对概率的变化影响较小。