logit模型的原理与应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
模型为: log it P( y i x) i 0.6373x
18
3.Logit 模型----多分类(有序)
这里: i 1, 2,3 , 1 1.4578 , 2 1.2254 , 3 3.5630 。
OR e0.6373 1.89 ,解释为:当母亲的文化程度提高一个等级时,儿童智力提高一个 或一个以上等级的可能性将增加 0.89 倍。 常数项又称为分割系数,因为它们将 logit 分布进行了分割,以对应于不同类的概 率: 1 1 P( y i x) h h 1 exp i i xi 1 exp i 1 i xi i 1 i 1 在此, 0 , k 。例如,当 x 1 时: 1 0.1096 y 1的概率为: P( y 1 x) 1 e1.4578 0.6373 1 1 0.5333 y 2 的概率为: P( y 2 x) 1.2254 0.6373 1.4578 0.6373 1 e 1 e 1 1 0.3062 y 3 的概率为: P( y 3 x) 3.5630 0.6373 1.2254 0.6373 1 e 1 e 1 0.0509 y 4 的概率为: P( y 4 x) 1 1 e 3.5630 0.6373 实际上, x 1 时, y 1, 2,3, 4 的观察频率为: 57 454 0.1256 , 236 454 0.5198 , 135 454 0.2974 , 26 454 0.0573 。理论概率与实际频率很接近。
2
2.线性概率模型(Tobit)
5.1 线性概率模型 线性概率模型的形式如下, yi = + xi + ui (1)
其中 ui 为随机误差项,xi 为定量解释变量。yi 为二元选择变量。如利息税、 机动车的费改税(燃油税)问题等。设
1, 若 是 第 一 种 选 择 yi 0, 若 是 第 二 种 选 择
5
2.线性概率模型(Tobit)
然而这样做是有问题的。假设预测某个事件发生的概率等于 1,但是实际中 该事件可能根本不会发生。反之,预测某个事件发生的概率等于 0,但是实 际中该事件却可能发生了。虽然估计过程是无偏的,但是由估计过程得出的 预测结果却是有偏的。 由于线性概率模型的上述缺点,希望能找到一种变换方法, (1)使解释 变量 xi 所对应的所有预测值(概率值)都落在(0,1)之间。 (2)同时对于 所有的 xi,当 xi 增加时,希望 yi 也单调增加或单调减少。显然累积概率分布 函数 F(zi) 能满足这样的要求。 采用累积正态概率分布函数的模型称作 Probit 模型。用正态分布的累积概率作为 Probit 模型的预测概率。另外 logistic 函 数也能满足这样的要求。采用 logistic 函数的模型称作 logit 模型。
则 E(yi) = 1 (pi) + 0 (1 - pi) = pi 由(2)和(3)式有 pi = + xi (yi 的样本值是 0 或 1,而预测值是概率。 ) (4) (3)
以 pi = - 0.2 + 0.05 xi 为例,说明 xi 每增加一个单位,则采用第一种选择的概 4 率增加 0.05。
3
2.线性概率模型(Tobit)
对 yi = + xi + ui 取期望, E(yi) = + xi (2)
下面研究 yi 的分布。因为 yi 只能取两个值,0 和 1,所以 yi 服从两点分布。 把 yi 的分布记为,
P( yi 1) pi P( yi 0) 1 pi
1.2 Y 1.0 0.8 0.6
1, pi xi , 0,
xi 1 0 xi 1 xi 0
0.4 0.2 0.0 -0.2 0 5 10 15 20 25 X 30
(5)
此模型由 James Tobin 1958 年提出,因此称作 Tobit 模型(James Tobin 1981 年获诺贝尔经济学奖) 。
3.Logit 模型----分类
9
3.Logit 模型----二分类
p 如果影响 ln 的因素有 x1, x2 , , xp ,则多元 logit 线性回归方程为 1 p p ln 0 1 x1 2 x2 p x p 1 p 多元 logit 线性回归方程还有以下等价形式
Logit模型的原理及应用
2017年3月3日
1
1.问题的提出
如果回归模型的解释变量中含有定性变量,则可 以用虚拟变量来处理。 在实际经济问题中,被解释变量也可能是定性变 量。 因变量取值是离散的,这类回归模型称为离散选 择模型或“定性反应模型” 。 例如通过一系列解释变量的观测值观察人们对某 项提议的态度,某件事情的成功和失败等。 这类模型被称为“离散选择模型” :二值选择模 型、多值选择模型、计数模型。
e0 1x1 2 x2 k xk p 1 e0 1x1 2 x2 k xk
10
3.Logit 模型----二分类
若将 看成是因变量,则logit线性回归模型与多元线性 回归模型的形式是一致的,且有很多共性。不同的是: 1、logistic回归模型中因变量是二分类的,而且非连续, 其误差的分布不再是正态分布,而是二项分布,且所有的 分析均建立在二项分布的基础上。 2、由于上述原因,logit回归系数的估计不能再用最小二 乘法,而要用极大似然估计法。回归模型和回归系数的检 验也不是F检验和t检验,而要用Wald检验、似然比检验 等。
13
3.Logit 模型----多分类
有些协变量为定量数据,logistic回归模型的协变 量可以是定性名义数据。这就需要对名义数据进行 赋值。 通常某个名义数据有k个状态,则定义变量 M1 , , M k 1 代表前面的k-1状态,最后令k-1变量均为0或-1来 代表第k个状态。
如婚姻状况有四种状态:未婚、有配偶、丧偶和离 婚,则可以定义三个指示变量M1、M2、M3,用 (1,0,0)、 (0,1,0) 、(0,0,1) 、(0,0,0)或(-1,1,-1)来对以上四种状态赋值。
这里,儿童智商是多分类定性有序变量,宜建立累积比数 logistic 回归。影响因素母 亲文化程度亦是多分类定性有序变量,可直接进入方程。 回归模型见表。
变量 x 常数项 回归系数
0.6373
标准误差
0.0934 0.1454 0.1358 0.1935
Z
6.824
P
0.00
1 2 3
1.4578 1.2254 3.5630
2.线性概率模型(Tobit)
假设用模型(4) ,pi = - 0.2 + 0.05 xi,进行预测,当预测值落在 [0,1] 区间之 内(即 xi 取值在[4, 24] 之内)时,则没有什么问题;但当预测值落在[0,1] 区 间之外时,则会暴露出该模型的严重缺点。因为概率的取值范围是 [0,1],所 以此时必须强令预测值(概率值)相应等于 0 或 1(见图 1) 。线性概率模型常 写成如下形式,
14
3.Logit 模型----多分类
15
3.Logit 模型----多分类(名义)
【例】研究三个学校、两个课程计划对学生偏好何种 学习方式的影响。调查数据见表:
其中,三个学校对应两个哑变量x1和x2(学校一 (1.0)学校二(0.1)学校三(0.0)),两个课 程计划为常规(M=1)和附加(M=0),学习方式分 为:自修(y=1)、小组(y=2)、上课(y=3)
11
3.Logit 模型----二分类
例:讨论某特定人群(例如糖尿病患者)中患动脉硬化的概率与年龄、 婚姻状况的关系。试建立死亡率关于年龄和婚姻状况的logit模型。
p ln A 1M 1 2 M 2 3 M 3 1 p
其中,A表示年龄(取中值),M1、M2、M3表示婚姻状况 p 其中 就是患病概率与不患病概率之比,称
7
3.Logit 模型---提出
对 logit 曲线作如下变换, pi (1+ e yi ) = 1 对上式除以 pi ,并减 1 得
e yi =
1 pi 1 -1 = pi pi pi ) 1 pi
(8)
取倒数后,再取对数, yi = log ln ( 所以 log (
pi ) = yi = + xi 1 pi
从题目可以看出,响应变量是学习方式有三类,属 于多项逻辑斯蒂回归问题。于是,建模为:
ln ln p1 10 11 x1 12 x2 13 x3 p3 p2 20 21 x1 22 x2 23 x3 p3
16
3.Logit 模型----多分类(有序)
1
1
0.8 0.6
0.8 0.6
0.4 0.2 0 -4 -2 0
Pobit模型
0.4 0.2 0
Logit模型 6
2
4ห้องสมุดไป่ตู้
3.Logit 模型---提出
5.2.2 logit 模型 该模型是 McFadden 于 1973 年首次提出。其采用的是 logistic 概率分布函数。 其形式是 pi = F(yi) = F(+ xi) =
P( y i x)
1
表示:属于后 k 1个等级的累积概率与前 i 个等级的累积概率的比数之对数,故该模型称 为累积比数模型 。 ......( cumulative odds model )
17
3.Logit 模型----多分类(有序)
在探讨影响智力因素的研究中,调查了 875 名小学一年级学生的智商与母亲的文化 程度,结果见下表。试分析两者间的关系。
1 p p 1 p
为优势 ( odds ) ,记为 ..
p 1 p 因此,优势 OD 的统计意义是: “患病概率”相对于“不患病概率”的倍数。 当 OD 1 时, “患病概率”大于“不患病概率” ; 当 OD 1 时, “患病概率”小于“不患病概率” ; 当 OD 1 时, “患病概率”等于“不患病概率” 。 OD odds
12
3.Logit 模型----多分类
前面讨论的logit模型为二分数据的情况,有时候 响应变量有可能取三个或更多值,即多类别的属性 变量。 根据响应变量类型的不同,分两种情况:
响应变量为定性名义变量; 响应变量为定性有序变量;
当名义响应变量有多个类别(即名义、无序)时, 多项logit模型应采取把每个类别与一个基线类别 配成对,通常取最后一类为参照,称为基线-类别 logit.
对有序数据的赋值可以按顺序用数0,1,2,3,4分别表示
有序变量的 logistic 回归模型定义为
log it P( y i x) i i xi , i 1,2, , k 1
i 1 h
等价于
h 1 exp i i xi i 1 实际上是将 k 个等级人为地分为两类: 1,2, , i 和 i 1, , k ,在这两类定义的 logit
1 1 e
yi
=
1 1 e
( xi )
(7)
其中 pi 表示概率,F(yi)表示 logistic 累积概率密度函数。对于给定的 xi,pi 表示 相应个体做出某种选择的概率。yi 称作隐(潜)变量,yi 的取值范围是(-, ) ,yi 通过 logistic 函数被转换为概率。 Probit 曲线和 logit 曲线很相似。 两条曲线都是在 pi = 0.5 处有拐点, 但 logit 曲线在两个尾部要比 Probit 曲线厚。 利用 (6) 和 (7) 式得到的概率值见表 1。
(9)
由上式知回归方程的因变量是对数的某个具体选择的机会比。logit 模型 的一个重要优点是把在 [0,1] 区间上预测概率的问题转化为在实数轴上预 测一个事件发生的机会比问题。 logit 累积概率分布函数的斜率在 pi = 0.5 时最 大,在累积分布两个尾端的斜率逐渐减小。说明相对于 pi = 0.5 附近的解释变 量 xi 的变化对概率的变化影响较大,而相对于 pi 接近 0 和 1 附近的 xi 值的变 8 化对概率的变化影响较小。