Logistic回归模型基本知识
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Logistic 回归模型
1 Logistic 回归模型的基本知识 1.1 Logistic 模型简介
主要应用在研究某些现象发生的概率p ,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率
p 与那些因素有关。显然作为概率值,一定有10≤≤p ,因此很难用线性模型描述概率p 与自变量的关
系,另外如果p 接近两个极端值,此时一般方法难以较好地反映p 的微小变化。为此在构建p 与自变量关系的模型时,变换一下思路,不直接研究p ,而是研究p 的一个严格单调函数)(p G ,并要求)(p G 在p 接近两端值时对其微小变化很敏感。于是Logit 变换被提出来:
p
p
p Logit -=1ln
)( (1)
其中当p 从10→时,)(p Logit 从+∞→∞-,这个变化范围在模型数据处理上带来很大的方便,
解决了上述面临的难题。另外从函数的变形可得如下等价的公式:
X
T X
T T e
e p X
p
p
p Logit ββ
β+=
⇒=-=11ln )( (2)
模型(2)的基本要求是,因变量(y )是个二元变量,仅取0或1两个值,而因变量取1的概率)
|1(X y P =就是模型要研究的对象。而T
k x x x X ),,,,1(21 =,其中i x 表示影响y 的第i 个因素,它可以是定性变量也可以是定量变量,T
k ),,,(10ββββ =。为此模型(2)可以表述成:
k
x k x k x k x k
k e
e
p x x p
p βββββββββ+++++++=
⇒+++=- 11011011011ln (3)
显然p y E =)(,故上述模型表明)
(1)
(ln
y E y E -是k x x x ,,,21 的线性函数。此时我们称满足上面条件
的回归方程为Logistic 线性回归。
Logistic 线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。不同于多元线性回归的最小二乘估计法则(残差平方和最小),Logistic 变换的非线性特征采用极大似然估计的方法寻求最佳的回归系数。因此评价模型的拟合度的标准变为似然值而非离差平方和。
定义1 称事件发生与不发生的概率比为 优势比(比数比 odds ratio 简称OR),形式上表示为
OR=
k
x k x e p
p βββ+++=- 1101 (4) 定义2 Logistic 回归模型是通过极大似然估计法得到的,故模型好坏的评价准则有似然值来表征,称
-2ˆln ()L β
为估计值βˆ的拟合似然度,该值越小越好,如果模型完全拟合,则似然值ˆ()L β为1,而拟合似然度达到最小,值为0。其中ˆ()lnL β
表示βˆ的对数似然函数值。
定义3 记)ˆ(β
Var 为估计值βˆ的方差-协方差矩阵,2
1
)]ˆ([)ˆ(ββVar S =为βˆ的标准差矩阵,则称 k i S w ii
i i ,,2,1,]ˆ[
2 ==β (5)
为i
βˆ的Wald 统计量,在大样本时,i w 近似服从)1(2
χ分布,通过它实现对系数的显著性检验。 定义4 假定方程中只有常数项0β,即各变量的系数均为0,此时称
20
ˆˆ2[ln ()ln ()]L L χββ=-- (6) 为方程的显著性似然统计量,在大样本时,2
χ近似服从)(2
k χ分布。
1.2 Logistic 模型的分类及主要问题
根据研究设计的不同,Logistic 回归通常分为成组资料的非条件Logistic 回归和配对资料的条件Logistic 回归两种大类。还兼具两分类和多分类之分,分组与未分组之分,有序与无序变量之分。具体如下: 两分类非条件Logistic 回归:分组数据的Logistic 回归,未分组数据的Logistic 回归; 多分类非条件Logistic 回归:无序变量Logistic 回归,无序变量Logistic 回归; 条件Logistic 回归:1:1型、1:M 型和M:N 型Logistic 回归。
关于Logistic 回归,主要研究的内容包括:
1. 模型参数的估计及检验 2. 变量模型化及自变量的选择 3. 模型评价和预测问题 4. 模型应用
2 Logistic 模型的参数估计及算法实现
2.1 两分类分组数据非条件Logistic 回归
因变量(反应变量)分为两类,取值有两种,设事件发生记为y=1,不发生记为 y=0,设自变量
T k x x x X ),,,(21 =是分组数据,取有限的几个值;研究事件发生的概率)|1(X y P =与自变量X 的关
系,其Logistic 回归方程为:
k k x x X y P X y P βββ+++=== 110)|0()|1(ln 或 k
x k x k
x
k x e
e X y P ββββββ+++++++== 1101101)|1( 例2.1.1 分组数据[1]
在一次住房展销会上,与房地产商签订初步购房意向书的有n=325人,在随后的3个月时间内,只有一部分顾客购买了房屋。购买房屋的顾客记为1,否则记为0。以顾客的年家庭收入(万元)作为自变量X ,对数据统计后如表2.1.1所示,建立Logistic 回归模型。