logistic回归分析82972

合集下载

logistic回归分析精选PPT课件

logistic回归分析精选PPT课件

Number of obs =
LR chi2(1)
=
Prob > chi2
=
Pseudo R2
=
152 30.67 0.0000 0.1455
------------------------------------------------------------------------------
case |
Coef. Std. Err.
z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exposure | 2.112829 .4228578 5.00 0.000 1.284043 2.941615
2
二分类资料的分析
非条件logistic模型:成组病例对照研究资料 条件logistic模型:配比病例对照研究资料3源自非条件logistic回归模型
lo ( p ) g 0 + i 1 X 1 + t = 2 X 2 k X k
01X1+ 2X2+ + kXk
p1ee01X12X2 kXk 1
|------------------------+----------------------
Odds ratio |
8.271605
| 3.4193 21.33091 (exact)
Attr. frac. ex. |
.8791045
| .7075425 .9531197 (exact)
Attr. frac. pop |
.4626866

第8章:Logistic回归分析

第8章:Logistic回归分析

3、Logistic 回归模型的参数估计 对 Logistic 回归模型的参数估计可以采用极大似然法或者迭 代法。 极大似然法的基本思想是先建立似然函数,然后求使得似然 函数达到最大的参数估计值。 对于已有样本,可建立样本的似然函数为:
L piyi (1 pi )1 yi
i 1 n
样本的对数似然函数为:
ln L [ yi ln pi (1 yi ) ln(1 pi )]
n
将 pi 代入得:
i 1
ln L [ yi ( 0 1 xi1 2 xi 2 k xik )
i 1
n
ln(1 exp(0 1xi1 2 xi 2 k xik ))]
根据极大似然原理,对 lnL 求一阶导数并令其为0,再用 Newton-Raphson 迭代方法求解,得到参数估计值及其标准误。
4、 Logistic 回归的评价及统计检验 ⑴对于整体模型的检验 logistic回归方程求解参数是采用极大似然估计方法,因此 其回归方程的整体检验通过似然函数值( Likelihood )。 所谓似然函数值表达的是一种概率,即在假设拟合模型为真 实情况时能够观察到这一特定样本数据的概率,因此这个函数 值处于[0,1]之间。
e pi 1 e 0 1x1 2 x2 k xk e 0 1x1 2 x2 k xk 1 pi 1 1 e 0 1x1 2 x2 k xk
其中:pi 表示第 i 个观测中事件发生的概率,1-pi 表示第 i 个观 测中事件不发生的概率。
Logistic 回归分析根据因变量取值类别不同,又可以分为二 元 Logistic 回归分析和多元 Logistic 回归分析。

统计学中的Logistic回归分析

统计学中的Logistic回归分析

统计学中的Logistic回归分析Logistic回归是一种常用的统计学方法,用于建立并探索自变量与二分类因变量之间的关系。

它在医学、社会科学、市场营销等领域得到广泛应用,能够帮助研究者理解和预测特定事件发生的概率。

本文将介绍Logistic回归的基本原理、应用领域以及模型评估方法。

一、Logistic回归的基本原理Logistic回归是一种广义线性回归模型,通过对数据的处理,将线性回归模型的预测结果转化为概率值。

其基本原理在于将一个线性函数与一个非线性函数进行组合,以适应因变量概率为S形曲线的特性。

该非线性函数被称为logit函数,可以将概率转化为对数几率。

Logistic回归模型的表达式如下:\[P(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_pX_p)}}\]其中,P(Y=1|X)表示在给定自变量X的条件下,因变量为1的概率。

而\(\beta_0\)、\(\beta_1\)、...\(\beta_p\)则是待估计的参数。

二、Logistic回归的应用领域1. 医学领域Logistic回归在医学领域中具有重要的应用。

例如,研究者可以使用Logistic回归分析,探索某种疾病与一系列潜在风险因素之间的关系。

通过对患病和非患病个体的数据进行回归分析,可以估计各个风险因素对疾病患病的影响程度,进而预测某个个体患病的概率。

2. 社会科学领域在社会科学研究中,研究者常常使用Logistic回归来探索特定变量对于某种行为、态度或事件发生的影响程度。

例如,研究者可能想要了解不同性别、教育程度、收入水平对于选民投票行为的影响。

通过Logistic回归分析,可以对不同自变量对于投票行为的作用进行量化,进而预测某个选民投票候选人的概率。

3. 市场营销领域在市场营销中,Logistic回归也被广泛应用于客户分类、市场细分以及产品销量预测等方面。

通过分析客户的个人特征、购买习惯和消费行为等因素,可以建立Logistic回归模型,预测不同客户购买某一产品的概率,以便制定个性化的市场营销策略。

logistic回归

logistic回归

概念
logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同 之处。它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多 重线性回归直接将w‘x+b作为因变量,即y =w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p, p =L(w‘x+b),然后根据p与1-p的大小决定因变量的值。如果L是logistic函数,就是logistic回归,如果L是 多项式函数就是多项式回归。
感谢观看
logistic回归
一种广义的线性回归分析模型
01 概念
目录
02 主要用途
logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断, 经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为 例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量 就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。 自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致 了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。
实际上跟预测有些类似,也是根据logistic模型,判断某人属于某病或属于某种情况的概率有多大,也就是 看一下这个人有多大的可能性是属于某病。
这是logistic回归最常用的三个用途,实际中的logistic回归用途是极为广泛的,logistic回归几乎已经 成了流行病学和医学中最常用的分析方法,因为它与多重线性回归相比有很多的优势,以后会对该方法进行详细 的阐述。实际上有很多其他分类方法,只不过Logistic回归是最成功也是应用最广的。

logistic回归分析PPT优秀课件

logistic回归分析PPT优秀课件
(2)线性回归分析:由于因变量是分类变量,不能满足 其正态性要求;有些自变量对因变量的影响并非线性。
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;

第十二章Logistic回归分析

第十二章Logistic回归分析

第十二章Logistic 回归分析一、Logistic 回归概述:Logistic 回归主要用于筛选疾病的危险因素、预后因素或评价治疗措施; 通常以疾病的死亡、痊愈等结果发生的概率为因变量,以影响疾病发生和预后的 因素为自变量建立模型。

、Logistic 回归的分类及资料类型:第一节非条件Logistic 回归分析、Logistic 回归模型:Logistic 回归模型:exp ( • :i X i ——亠」p X p )p 二1 +exp ( B o + B i X i i + Pp X p ) 1二、回归系数的估计(参数估计):回归模型的参数估计:Logistic 计法。

二、假设检验: 1. Logistic 回归方程的检验:•检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性 关系,也即方程是否成立。

检验的方法有似然比检验、比分检验(score test )和Wald 检验(wald test )。

上述三种方法中,似然比检验最可靠。

•似然比检验(likehood ratio test ):通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为 G=-2l n(L)(又称Devia nee )。

无效假设H O : B =0。

当H 0成立时,检验统计量 G 近似服从自由度为N-P-1的X 2分布。

当G 大于临界值时,接受H,拒绝无效假设, 认为从整体上看适合作Logistic 回归分析,回归方程成立。

2. Logistic 回归系数的检验:•为了确定哪些自变量能进入方程,还需要对每个自变量的回归系数进行假 设检验,判断其对模型是否有贡献。

•检验方法常用 WaldX 检验,无效假设H0 B =0。

当X 2大于临界值时,拒 绝无效假设,自变量能进入方程。

1亠elogit (P )= ln (±)=B o +B * 1 x 1 + , + B n x n回归模型的参数估计通常利用最大似然估3.Logistic 回归模型的拟合优度检验:•Logistic 回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进行检验。

Logistic回归分析资料

Logistic回归分析资料

• 分析因素xi为等级变量时,如果每个等级的 作用相同,可按计量资料处理:如以最小或 最大等级作参考组,并按等级顺序依次取为 0,1,2,…。此时, e(bi) 表示xi增加一个等 级时的优势比, e(k* bi)表示xi增加k个等级时 的优势比。如果每个等级的作用不相同,则 应按多分类资料处理。 • 分析因素xi为连续性变量时, e(bi)表示xi增加 一个计量单位时的优势比。
多因素Logistic回归分析时,对回 归系数的解释都是指在其它所有自变量 固定的情况下的优势比。存在因素间交 互作用时, Logistic回归系数的解释变 得更为复杂,应特别小心。
根据Wald检验,可知Logistic回归 系数bi服从u分布。因此其可信区间为
bi u Sbi
进而,优势比e(bi)的可信区间为
likehoodratiotest通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行其统计量为又称deviance近似服从自由度为待检验因素个数的scoretest以未包含某个或几个变量的模型为基础保留模型中参数的估计值并假设新增加的参数为零计算似然函数的一价偏导数又称有效比分及信息距阵两者相乘便得比分检验的统计量waldtest服从正态分布即为标准正态离差
( 1 x1 2 x2 n xn )
二、参数估计Βιβλιοθήκη • 建立Logistic回归方程就是求和i • 意义 常数项是当各种暴露因素为0时,个体发 病与不发病概率之比的自然对数值。
• i意义 • 偏回归系数表示在其它自变量固定的条件下, • 第n个自变量每改变一个单位时logit的改变量。 它与比数比(优势比)(odds ratio)有对应关 系。
Forward: LR ( 向前逐步法:似然 比法 likelihood ratio,LR)→ 再 击下方的 Save 钮,将 Predicted values、 Influence 与 Residuls 窗 口中的预选项全勾选 → Continue → 再击下方的 Options 钮,将 Statistics and Plot 小窗口中的选 项全勾选 → Continue → OK 。

logistic回归分析及其应用-41页文档资料

logistic回归分析及其应用-41页文档资料
多元直线回归模型 y = a + b1x1 + b2x2 + … + bkxk + e
21.03.2020
2
F(y) :因变量的logit值
1.00
0.75
0.50
0.25
0.00 -4.00 -2.00 0.00 2.00 4.00
X:自变量
21.03.2020
如果一定要进 行直线回归也 可以做出结果, 但此时效果不 佳。当自变量 取一定值时, 因变量的预测 值可能为负数。
21.03.2020
14
2.哑变量的设置和引入
哑变量,又称指示变量或设计矩阵。 有利于检验等级变量各个等级间的变 化是否相同,但主要适合于无序分类变 量。 一个k分类的分类变量,可以用k-1个 哑变量来表示。
21.03.2020
15
哑变量的设置
教育程度:文盲,小学,初中,高中以上
教育程度 X1
X2
X3
文盲:0 0
0
0
小学:1 1
0
0
初中:2 0
1
0
高中:3 0
0
1
以文盲作为参考组
21.03.2020
16
以高中作为参照
教育程度
X1
X2
X3
文盲:010 Nhomakorabea0
小学:1
0
1
0
初中:2
0
0
1
高中:3
0
0
0
21.03.2020
17
SPSS提供的方法
Indicator: 默认。以第1 或最后1类作对照,其他每类 与对照比较; Sample: 以第1 或最后1类作对照,其他每类与对照比 较,但反映平均效应。 Difference: 除第1类外各分类与其前各类平均效应比较; Helmert: 除最后1类外各分类与其前各类平均效应比较; Repeated: 除第1类外各分类与其前一类比较; Polynomial: 假设类间距相等,用于数值型变量。 Deviation: 以第1 或最后1类作对照,其余每类与总效 应比较。

logistic回归分析

logistic回归分析

表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步 常数项
回归系数 标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间 下限 上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数 标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果,如发病与不 发病、死亡与生存、有效与无效、复发与未复发等, 当需要研究二分类应变量的影响因素时,适合采用 logistic回归分析。
logistic回归属于概率型非线性回归,它是研究二 分类(可以扩展到多分类)反应变量与多个影响 因素之间关系的一种多变量分析方法。logistic回 归模型参数具有明确的实际意义。
OR值的可信区间:
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟(X1)、饮酒(X2)与食道癌 (Y)关系的病例-对照资料,试作logistic回归 分析。

《logistic回归分析》PPT课件

《logistic回归分析》PPT课件
3
第一节 非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1

p( y
1|
(2)多分类资料Logistic回归: 因变量为多项分类的资料,可 用多项分类Logistic回归模型或有序分类Logistic回归模型进 行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 无序分类反应变量Logistic回归分析 有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
21
对所拟合模型的假设检验:
概率p值均小 于0.05,说明 方程有意义。

logistic回归分析

logistic回归分析

hdl
-.914
.432
4.484
1
.034
.401
.172
.934
ldl
.017
.416
.002
1
.967
1.017
.450
2.300
Constant -20.207
4.652 18.866
1
.000
.000
a. Vari able(s) ente red o n step 1: 性 别 , 年 龄 , 学 历 , 体 重 指 数 , 家 族 史 , 吸 烟 , 血 压 , 总 胆 固 醇 , 甘 油 三 脂 , hd l, ldl.
1 p
1
1 exp( 0 1 X 1 p X p )
模 型
ln

1
P P

=0

1
X1

2
X
2

m X m log itP
参 数
常数项 0
表示暴露剂量为0时个体

发病与不发病概率之比的自然对数。
意 义
回归系数 j ( j 1,2,, m) 表示自变量 X j 改变一个单位时
t j
t j
j (c1 c0 )
即 ORj exp[ j (c1 c0 )]
若X
j

1 0
暴露 非暴露 , c1 c0 1,
0,
OR j
1
无作用
则有 ORj exp j , j >0, ORj 1 危险因子

0, ORj 1 保护因子
开始变量都在方程中,然后 按自变量因变量的贡献(P值的大 小)由大到小依次剔除,变量剔 除的条件是其P值大于规定的剔除 标准Remove, 缺省值 p(0.10)。

Logistic回归分析

Logistic回归分析

能否用发病的概率P来直接代替 y呢? p=β0+β1X1+β2X2+…+βpXp
等式左边
变化范围
P 1-P p/1-p
发病概率 不发病概率 比数 (ratio)
0≤ P≤1 0≤ P≤1 0 ≤ p/1-p<+∞
ln(p/1-p) 对数比 (ratio) -∞< ln(p/1-p) <+∞
2、 Logistic 回归模型
例11-1 某研究者调查了15名正常病人和 15名肺癌患者,记录了同肺癌发病有关 的危险因素情况, 数据如下表。试分析各 因素与肺癌间的关系。
七、Logistic回归方程的应用 -----------预测与估计
求出logistic回归方程后,可求出每个观 测点发病概率。
上机实习题
<CHISS统计软件操作指南> P79 例11-1 P127 54
CHISS软件要求,对分类变量Y数量化,而 且赋值为:
1 发病 (阳性, 死亡 , 治愈等) y = 0未发病 (阴性, 生存, 未治愈等). 注意 :P=P(y=1), 即发病设只有一个自变量X,Logistic方程为 ln P/(1-P)= β 0 + β X 设,X= 1 表示暴露, 0 表示非暴露。 X=1时,发病概率为 P1; X=0时,发病概率为 P0。 P1/(1-P1) 则优势比 OR= ────── P0/(1-P0)
ln(OR)=ln[P1/(1-P1)]-ln[P0/(1-P0)]
=(β0+β×1)-(β0+β×0) =β
logistic 回归系数的意义
lnOR= β
OR=e β
β表示自变量每增加一个单位,其优势 比的对数值的改变量, 亦即自变量每增加一个单位,其相对危 险度为e β。

logistic回归分析python_【Python算法】分类与预测——logistic回归分析

logistic回归分析python_【Python算法】分类与预测——logistic回归分析

logistic回归分析python_【Python算法】分类与预测——logistic回归分析1.logistic回归定义logistic回归是⼀种⼴义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。

它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y =w‘x+b,⽽logistic回归则通过函数L将w‘x+b对应⼀个隐状态p,p =L(w‘x+b),然后根据p 与1-p的⼤⼩决定因变量的值。

如果L是logistic函数,就是logistic回归,如果L是多项式函数就是多项式回归。

logistic回归的因变量可以是⼆分类的,也可以是多分类的,但是⼆分类的更为常⽤,也更加容易解释,多类可以使⽤softmax⽅法进⾏处理。

实际中最为常⽤的就是⼆分类的logistic回归。

2.操作系统操作机:Linux_Ubuntu操作机默认⽤户:root3.实验⼯具Python是⼀种计算机程序设计语⾔。

是⼀种动态的、⾯向对象的脚本语⾔,最初被设计⽤于编写⾃动化脚本(shell),随着版本的不断更新和语⾔新功能的添加,越来越多被⽤于独⽴的、⼤型项⽬的开发。

Python已经成为最受欢迎的程序设计语⾔之⼀。

⾃从2004年以后,python的使⽤率呈线性增长。

2011年1⽉,它被TIOBE编程语⾔排⾏榜评为2010年度语⾔。

由于Python语⾔的简洁性、易读性以及可扩展性,在国外⽤Python做科学计算的研究机构⽇益增多,⼀些知名⼤学已经采⽤Python来教授程序设计课程。

例如卡耐基梅隆⼤学的编程基础、⿇省理⼯学院的计算机科学及编程导论就使⽤Python语⾔讲授。

众多开源的科学计算软件包都提供了Python的调⽤接⼝,例如著名的计算机视觉库OpenCV、三维可视化库VTK、医学图像处理库ITK。

Logistic回归分析简介

Logistic回归分析简介

Logistic回归分析简介Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。

1.应用范围:①适用于流行病学资料的危险因素分析②实验室中药物的剂量-反应关系③临床试验评价④疾病的预后因素分析2.Logistic回归的分类:①按因变量的资料类型分:二分类多分类其中二分较为常用②按研究方法分:条件Logistic回归非条件Logistic回归两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。

3.Logistic回归的应用条件是:①独立性。

各观测对象间是相互独立的;②LogitP与自变量是线性关系;③样本量。

经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用Poisson回归)。

4.拟和logistic回归方程的步骤:①对每一个变量进行量化,并进行单因素分析;②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。

可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量。

③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换;④在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量。

可以采用双向筛选技术:a进入变量的筛选用score统计量或G 统计量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔除。

logistic回归分析LogisticRegression课件

logistic回归分析LogisticRegression课件
logistic回归是经典的统计学分类方法,主要用于数据分析和机器学习领域。它可以将输入值 映射到一个概率范围内,实现二分类问题的解决。
基础
logistic回归基于概率论、统计学、最优化理论等学科领域的知识。它是广泛使用的分类方法 之一,也是深度学习模型中的核心组成之一。
logistic回归的应用场景
logistic回归分析 LogisticRegressionppt课件
欢迎来到本次PPT,我们将会介绍logistic回归分析,它在解决分类问题方面具 有广泛的应用。我们将从简介、原理与方法、模型评估、Python实现、实例 分析以及总结展望几方面来深入剖析该模型。
什么是logistic回归?
概念
logistic回归实例分析:应用于信用评估领域
模型名称
准确率
AUC

LR模型
0.74
0.79
GBDT模型
0.78
0.81
logistic回归分析-总结与展望
1 总结
2 展望
logistic回归模型可以实现二分类的预测问题, 具有广泛的应用场景。通过最大似然估计和 梯度下降等方法,可以对模型进行训练和评 估。
ROC曲线与AUC值
ROC曲线
ROC曲线是根据一系列不同的分类阈值绘制出的,可 以评估模型的分类能力。曲线下面积越大,表明模 型分类性能越好。
AUC值
AUC值是ROC曲线下的面积,该值越大,模型的分类 能力越强。
数据预处理
1
数据探索
通过boxplot,heatmap等图形并进行离群值处理和缺失值处理
未来,logistic回归模型将以更加自适应化、 多样化的方式应用于各个领域,比如基于深 度学习的模型等。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr 似然比 68.5457 2 <.0001 计分检验 67.0712 2 <.0001 Wald检验 64.2784 2 <.0001
2.检验二:
检验模型中某β是否对Y有作用。
检验假设: H 0 : j 0 H1 : j 0
1 Y
0
食管癌患者 对照:非食管癌
1 X1 0
吸烟 不吸烟
1 X 2 0
饮酒 不饮酒
❖ 经logistic回归计算后得 ❖ b0 =-0.9099, b1 =0.8856, b2 =0.5261,
方程表达:
ln( p ) 0.9099 0.8856x1 0.5261x2 1 p
exp( ) OR
ln L1
包括p个自变量的对 数似然函数
ln L0
包括 l 个自变量的 对数似然函数
G服从自由度(d)=p-l的χ2分布
似然比检验对β做检验
例:X1为吸烟,X2为饮酒,检验饮酒与食管癌 关系,H0:β2=0,H1:β2≠0
ln L1( X1, X 2 ) 579.711
ln L0 ( X1) 585.326
exp(0.8856) OR 2.4244
控制饮酒因素后, 吸烟与不吸烟相比 患食管癌的优势比 为2.4倍
exp(0.5261) OR 1.6923
OR的可信区间估计
吸烟与不吸烟患食管癌OR的95%可信区间:
exp(b1 u /2Sb1 ) exp(0.8856 1.960.15) (1.81,3.25)
饮酒与不饮酒OR的95%可信区间:
exp(b2 u /2Sb2 ) exp(0.52611.96 0.1572) (1.24, 2.30)
三、Logistic 回归模型的假设检验
1.检验一:对建立的整个模型做检验。 说明自变量对Y的作用是否有统计意义。
H0 : 1 2 m 0
H1 : 各(j j 1,2,,m)不全为0
第十六章 logistic回归分析
logistic回归为概率型非线性回归模型,是研究分类观察结 果(y)与一些影响因素(x)之间关系的一种多变量分析方法
问题提出:
医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何?
因素(X)
疾病结果(Y)
x1,x2,x3…XK
发生
Y=1
不发生 Y=0
2.模型中参数的意义
ln P 1 P
=
0
1 X 1
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
ln
P(y 1/ x 1 P(y 0 /
x
0) 0)
=
0
与Xii=0的相含比义,:发某生危某险结因果素(,如暴发露病水)平优变势化比时的,对即数X值i=。1
标准回归系数(b’) 比较各自变量对Y 的相对贡献
bj ' bj sj /( / 3)
第二节 条件Logistic回归
概念: 用配对设计获得病例对照研究资料,计算的
Logistic回归模型为条件Logistic回归。
成组(未配对)设计的病例对照研究资料,计算的 Logistic回归模型为非条件Logistic回归。
第一节 logistic回归
1.变量的取值
一、基本概念
logistic回归要求应变量(Y)取值为分类变量( 两分类或多个分类)
1 Y 0
出现阳性结果 (发病、有效、死亡等) 出现阴性结果 (未发病、无效、存活等)
自变量(Xi)称为危险因素或暴露因素,可为连续变 量、等级变量、分类变量。 可有m个自变量X1, X2,… Xm
❖变量筛选算法有:前进法、后退法和 逐步法(stepwise)。
例:讲义例16-2,用逐步法 选入变量的显著水准为0.10,变量保留在方程的水
准为0.15 例:16-2讲义261-263页
表16-4 进入方程的自变量及参数估计
变量 常数 年龄 X5 X6 X8
β
Sb Waldχ2
-4.705 1.54 9.30
P( y
0/ x
1)
1
1
e0 x e0
x
1
p1
e0 p0 P( y 1/ x 0) 1 e0
e0 P( y 0 / x 0) 1 1 e0 1 p0
logistic回归模型方程的线性表达
对logistic回归模型的概率(p)做logit变换,
log it( p) ln( p ) 1 p
log it( p) 0 1x1 2x2
log it( p) 0 1x1
G 2[ln L(X1, X2 ) ln L(X1) 2(579.711 (585.326)] 11.23
G >3.84,p<0.05,说明调整吸烟因素后, 饮酒与食管癌有关系。
四、变量筛选
目的;将回归系数有显著意义的自变量选入模型中 ,作用不显著的自变量则排除在外。
ln
OR
ln
P1 P0
/(1 /(1
P1 ) P0 )
log itP1 log itP0
P1(y=1/x=1)的概率 P0(y=1/x=0)的概率
(0 1x1) (0 x0 ) 1x1
OR e
OR P1 /(1 P1) odds1 P0 /(1 P0 ) odds0
Y 发病=1 不发病=0
检验统计量:主要为Wald检验(SAS软件)
2 ( bj )2
❖例;
Sbj
ν=1的χ2
公式16-13
❖在大样本时,2三方(法0.0结8.81果55一6)致2 。 33.86
例表16-1资料,对各x的β做检验(wald检验)
参数 β估计值 标准误 Chi-Squa Pr 常数-0.9099 0.1358 44.8699 .0001 吸烟 0.8856 0.1500 34.8625 .0001 饮酒 0.5261 0.1572 11.2069 .0008
2. 优势比(OR)及可信区间的估计
OR e
❖ 如X=1,0两分类,则OR的1-α可信区间估计公式
e(bj u / 2Sbj )
S 为回归系数 bj 的标准误
(公式16-10)
例:讲义表16-1资料
一个研究吸烟、饮酒与食道癌关系的病例-对照资料 (886例),试作logistic回归分析。
❖ 变量的赋值
p( y 1)
1
P概率
1
1 exp[(0 x)]
z 0 1x
0.5
Β为正值,x越 大,结果y=1发 生的可能性(p) 越大。
-3 -2 -1 0 1
Z值 23
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
e0 x p1 P( y 1/ x 1) 1 e0 x
Y 发病=1 不发病=0
危险因素
x= 1 x= 0 30(a) 10( b)
70(c) 90(d)
a+c
b+d
危险因素
x= 1 x= 0
p1 1-p1
p0 1-p0
a p1 a c
有暴露因素人群中发病的比例
多元回归模型的的
概念
i
logit(p)
ln
1
P P
=
0
Байду номын сангаас
1
X1
L
mXm
i 反映了在其他变量固定后,X=1与x=0相比发生Y事
3lo.多gis元ti线c回性归回方归法结补果充多元不Yˆ 线能性回回答归“的发不生足与否”
Logistic回归方法
该法研究是 当 y 取某值(如y=1)发生的概率(p)与某暴露因
素(x)的关系。
p(y 1/ x) f (x),即p f (x)
P(概率)的取值波动0~1范围。 基本原理:用一组观察数据拟合Logistic模型,揭示若 干个x与一个因变量取值的关系,反映y 对x的依存关系 。
例:见265页 区别: 条件Logistic回归的参数估计无常数项(β0),主
要用于危险因素的分析。
第三节 logistic回归的应用及注意事 项
一、logistic回归的应用
1.疾病(某结果)的危险因素分析和筛选 用回归模型中的回归系数(βi)和OR说明危险因
素与疾病的关系。例:讲义例16-1,16-2,16-3 适用的资料:
P甲'
Ni Pi Ni
380 800
47.5%
P乙'
427 800
53.4%
X1疗法(甲=0,乙=1)X2病情(轻=1,重=0 )
Y疗效(Y=1有效,Y=0无效)
❖ LOGISTIC回归计算
Standard Wald Estimate Error Chi-Squa Pr
Parameter
Intercept -0.6453 0.1653 15.24 <.0001
件的对数优势比。
回归系数β与OR i X与Y的关联

β=0,OR=1,
无关
β>1,OR>1 , 有关,危险因素
β<1,OR<1, 有关,保护因子
事件发生率很小,OR≈RR。
二、logistic回归模型的参数估计
1. 模型中的参数(βi)估计

ln P 1 P
=
0
1X1
2X2
mXm
通常用最大似然函数 (maximum likelihood estimate, MLE)估计β, 由统计软件包完成。(讲义259页)
0.924 0.477 3.76
相关文档
最新文档