做logistic回归ppt课件

合集下载

logistic回归分析精选PPT课件

Number of obs =
LR chi2(1)
=
Prob > chi2
=
Pseudo R2
=
152 30.67 0.0000 0.1455
------------------------------------------------------------------------------
case |
Coef. Std. Err.
z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exposure | 2.112829 .4228578 5.00 0.000 1.284043 2.941615
2
二分类资料的分析
非条件logistic模型：成组病例对照研究资料条件logistic模型：配比病例对照研究资料3源自非条件logistic回归模型
lo （ p ） g 0 ＋ i 1 X 1 ＋ t ＝ 2 X 2 k X k
01X1＋ 2X2＋＋ kXk
p1ee01X12X2 kXk 1
|------------------------+----------------------
Odds ratio |
8.271605
| 3.4193 21.33091 (exact)
Attr. frac. ex. |
.8791045
| .7075425 .9531197 (exact)
Attr. frac. pop |
.4626866

《Logistic回归》课件

公式
f(x)=1/(1+e^-x)其中，x是一个实数，源自表示自然对数的底数。特点
• 输出范围在0-1之间，代表了一个概率值；
• 函数有单峰性，中心对称，可以确定最大值和
• 最在小输值入；接近0时函数近似于线性函数。
应用场景：二元Logistic回归
乳腺癌预测
贷款审核
二元Logistic回归被广泛应用于医学界用于识别患有乳腺癌的女性。
数据预处理
4
的潜在关系和规律。
对需要进行缩放、归一化、标准化等处
理的变量进行预处理。
5
模型拟合
将数据划分训练集和测试集，通过模型对训练集进行拟合，并评估模型预测能力。
模型评估方法
混淆矩阵
将预测结果与真实结果进行比对，计算假正率、假负率、真正率和真负率等指标。
ROC曲线
通过绘制真正率与假正率的曲线，评估模型的预测能力。
AUC指标
ROC曲线下的面积就是AUC，AUC越大说明模型预测结果越准确。
常见模型优化方法
1 数据增强
通过合成数据或者样本扩增等方法，增加数据量，提高模型泛化性能。
2 特征选择
选择对于问题最重要的变量，避免过拟合。
3 模型集成
通过结合多个模型的结果，提高整体预测能力。
应用探索：Logistic回归的扩展
2 作用
通过逻辑函数将线性变量转化为概率值，从而进行二元分类。
3 优点
简单易懂、易于解释和使用，对于大规模数据集有效率。
4 缺点
只适用于二元分类问题，并且在分类较为复杂的非线性问题上表现较差。
sigmoid函数
介绍
sigmoid函数是Logistic回归模型中核心的激活函数，将输入值映射到0-1的概率分布区间内。

logistic回归 ppt课件

比值比
OR=[P１/(1-P１)]/[P２/(1-P２)]
比值比 Odds Ratio
Odds=P/(1-P) 暴露组： P=a/(a+b) 1-P= b/(a+b) Odds=a/b 非暴露组：P=c/(c+d) 1-P= d/(c+d) Odds=c/d
病例对照
暴露组
非暴露组
a c
b d
P ad 1 /(1 P 1) OR P0 /(1 P0 ) bc
相同，如下表： X1 暴露（X2=1）非暴露（X2=0） X1 X1 X2 X2+1 X2 X3 X3 X3
Logistic回归系数与OR的关系：
P * ) exp b0 b1 x1 b2 ( x2 1) b3 x3 暴露： ( 1 P expb0 b1x1 b2 x 2 b3x3 b2
当年龄为a时， odds(Y=1|age=a) = exp(-4.353 + 0.038 a) 当年龄为a+1， odds(Y=1|age=a+1) = exp(-4.353 + 0.038 (a+1))
P ) exp b 0 b1x1 b 2 x 2 b 3 x 3 非暴露：( 1 P
p * ( ) 1 p exp(b 2 ) OR p 1 p
例：log odds (Y=1) = - 4.353 + 0.038 age
Ｙ：妇女是否患有骨质疏松，Y=1为是，Y=0为否
1 ， 2 ….. m分别为m个自变量的回归系数。 P ln( ) 取值：-∞ ~ +∞ 1 P
Logistic回归模型的函数
1.00

《logistic回归》课件

03
易于理解和实现：由于基于逻辑函数，模型输出结果易于解释，且实现简单。
Logistic回归的优势与不足
• 稳定性好：在数据量较小或特征维度较高时，Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足：
02
对数据预处理要求高：需要对输入数据进行标准化或归一化处理，以避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系。
无自相关
因变量与自变量之间不存在自相关。
03
02
无多重共线性
自变量之间不存在多重共线性，即自变量之间相互独立。
随机误差项
误差项是独立的，且服从二项分布。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时，特征选择和降维是提高模型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法，可以自动选择对模型贡献最大的特征，从而减少特征数量并提高模型的泛化能力。
降维技术如主成分分析（PCA）可以将高维特征转换为低维特征，简化数据结构并揭示数据中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例。
精度
预测为正例的样本中实际为正例的比例。
召回率
实际为正例的样本中被预测为正例的比例。
F1分数
精度和召回率的调和平均数，用于综合评估模型性能。

Logisic回归分析PPT课件

0
吸烟不吸烟
各变量
X2
1
0
饮酒不饮酒
编
码
Y
1
病例
0
对照
39
17
表16-1 吸烟与食道癌关系的病例－对照调查资料
分层吸烟饮酒观察例数阳性数阴性数
g
X1
X2
ng
dg
ng dg
1
0
0
199
63 136
2
0
1
170
63 107
3
1
0
101
44
57
4
1
1
416
265 151
39
18
经 logistic 回归计算后得
计算公式为：
OR j
P1 P0
/(1 /(1
P1 ) P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时的发病概率， ORj 称作多变量调整后的优势比，表示扣除了其他自变量影响后危险因素的作用。
39
12
与 logisticP 的关系：
对比某一危险因素两个不同暴露水平X j c1 与X j c0 的发病情况（假定其它因素的水平相同），其优势比的自然对数为:
.
51
2
0
1
1
0
1
2
1
1
52
2
1
1
1
0
0
2
1
1
53
2
1
0
1
0
0
1
1
1
54
3
1
1
0
1

Logistic回归分析(共53张PPT)

数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率之比称为比值（odds),即odds=p/1-p。两个
比值之比称为比值比（Odds Ratio),简称 OR。
• Logistic回归中的常数项（b0）表示，在不
接触任何潜在危险／保护因素条件下，效应指标发生与不发生事件的概率之比的对数值。

Forward: LR （向前逐步法：似然比法 likelihood ratio，LR）→ 再击下方的 Save 钮，将 Predicted values 、 Influence 与 Residuls 窗口中的预选项全勾选 → Continue → 再击下方的 Options 钮，将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验（likehood ratio test）
通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行，其统计量为G （又称Deviance）。
G=-2(ln Lp-ln Lk) 样本量较大时， G近似服从自由度
为待检验因素个数的２分布。
• 比分检验（score test）
， Logistic回归系数的解释变得更为复杂，应特别小心。
根据Wald检验，可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归其中，为常数项，为偏回归系数。应变量水平数大于2，且水平之间不存在等级递减或递增的关系时，对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布，即为标准正态离差。

[医学]Logistic回归.ppt

/*模型的拟合优度检验*/ run;
结果1：拟合优度检验结果
两种拟合优度检验的结果均显示：P值 =0.64>>0.05，因此可以认为当前模型与拟合最好的模型比较，差别无统计意义。因此没有必要对模型作进一步改进。
结果2：模型检验
似然比的卡方＝(无协变量的－2LOGL值)－(有两个协变量的－ 2LOGL值)＝107.669-95.9=11.769，自由度df=2(模型中的协变量个数)，相应的P值=0.0028，因此可以认为两个协变量的回归系数至少有一个不为0。即：认为模型有统计学意义。
常用统计软件
Logistic回归
Logistic回归分析的分类
按数据的类型： o 非条件logistic回归分析（成组数据） o 条件logistic回归分析（配对病例-对照数据）
按因变量取值个数： o 二分类logistic回归分析 o 多分类logistic回归分析
按自变量个数： o 一元logistic回归分析 o 多元logistic回归分析
实例1
假设我们有一个数据，45个观测值，四个变量，包括： age（年龄，数值型）； vision（视力状况，二分类：1表示差，0表示好）； drive（驾车教育，二分类：1表示参加过驾车教育，0表示没有）； Accident（去年是否发生事故，二分类：1 表示出过事故，0表示没有）。
(取值范围0～1)
考虑使用概率的logit变换函数
0.8
0.6 pP
0.4
0.2
-4
-2
0
2
4
Logiyt（P)
非条件logistic回归的数学模型
因此，我们使用P与（1-P）的比值的对数，来建立logit（P）与X的多重线性回归模型：

logistic回归(共36张PPT)

二分类自变量系数为比数比的对数值，由此比数比=eb
多分类自变量以第i类作参照，比较相邻或相隔的两个类别。
连续型自变量当自变量改变一个单位时，比数比为eb
2022/11/3
27
输出结果的解释
模型拟合的优劣
自变量与结果变量（因变量）有无关系
确认因变量与自变量的编码模型包含的各个自变量的临床意义由模型回归系数计算得到的各个自变量的比数比的临床意义
3
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危险因素有关
疾病转归的影响因素也可能多种多样临床治疗结局的综合性
2022/11/3
4
简单的解决方法
固定其他因素，研究有影响的一两个因素；分层分析：按1~2个因素组成的层进行层内分析和综合。统计模型
2022/11/3
28
输出结果的解释
模型的预测结果的评价
敏感度、特异度和阳性预测值
正确选择预测概率界值，简单地以0.5为界值，但并不是最好的。
C指数
预测结果与观察结果的一致性的度量。 C值越大（最大为1），模型预测结果的
能力越强。
2022/11/3
29
非条件logistic回归
研究对象之间是否发生某事件是独立的。适用于：
放入所有变量，再逐个筛选
理论上看，前进法选择变量的经验公式缺乏总体概念，当用于因
素分析时，建议用后退法。当变量间有完全相关性时，后退法无法使用，可用前进法。
2022/11/3
21
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量的变化而改变时，则存在交互作用

《Logistic回归》PPT课件

常量 -20.207 4.652 18.866
1 .000
.000
a. 在步骤 1 中输入的变量: 性别, 年龄, 学历, 体重指数, 家族史, 吸烟, 血压, 总胆固醇, 甘油三脂, 高密度脂蛋白, 低密度脂蛋白.
七、变量筛选
从所用的方法看，有强迫法、前进法、后退法和逐步法。在这些方法中，筛选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是线性回归分析中的F统计量，而是以上介绍的参数检验方法中的三种统计量之一。
八、logistic 回归模型拟合优度检验和预测准确度检验
（一）拟合优度检验：
Logistic回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进行检验。如果预测的值与实际观测的值越接近，说明模型的拟合效果越好。
·模型的拟合优度检验方法有偏差检验（Deviance）、皮尔逊（pearson）检验、统计量(Homser-Lemeshow), 分别计算统计量X2D、X2 P、X2HL值。统计量值越小，对应的概率越大。无效假设H0：模型的拟合效果好。
第九章 Logistic回归
（非条件Logistic回归）
第一节 Logistic回归概述
一、Logistic回归目的： Logistic回归通常以离散型的分类变量（疾病的死亡、痊愈等）发生结果的概率为因变量，以影响疾病发生和预后的因素为自变量建立模型。研究分类变量（因变量）与影响因素（自变量）之间关系的研究方法。属于概率型非线性回归方法。
本例模型的似然比检验结果：
X2=-2(ln Lp-ln Lk)=95.497
模型系数的综合检验
步骤 1
步骤块模型

统计学-logistic回归分析ppt课件

最新版整理ppt
38
九、logistic回归的应用举例
• 输精管切除术与动脉粥样硬化疾病的研究
• 1．问题的描述
（1）输精管切除术是否与动脉粥样硬化疾病有关？
（2）如果存在联系，与其他已知的危险因素相比，输精管切除术的相对重要性有多大？
（3）哪些男性亚群在输精管切除术以后发生动脉粥样硬化疾病的可能性特别大？
• 条件Logistic回归的回归系数检验与分析，和非条件Logistic回归完全相同。
最新版整理ppt
36
八、logistic回归的应用
1.疾病（某结果）的危险因素分析和筛选
用回归模型中的回归系数（βi）和OR说明危险因素与疾病的关系。
适用的资料：
前瞻性研究设计、病例对照研究设计、横断面研究设计的资料。
或
p (y 1 /x 1 ,x 2 x k) 1 e (0 1 1 x k ....kx k)
最新版整理ppt
10
2.模型中参数的意义
ln1PP=01X1
Β0（常数项）：暴露因素Xi=0时，个体发病概率与不发病概率之比的自然对数比值。
ln1PP (y(y 1/0x/x 0)0)=0
最新版整理ppt
调查员审阅每日住院病人情况如果诊断适合研究的范围将病例转给心脏病主任医师作评估由他做出病例诊断是否合格的决定调查人员核对病人背景资料是否合格如果病人满足诊断标椎和背景资料合格调查人员开始询问并填写调查表每完成5个病例和10个配对对照以后请研究中心的工作人员对调查表进行评估重复以上步骤
第十六章 logistic回归分析
最新版整理ppt
28
• 分析因素xi为等级变量时，如果每个等级的作用相同，可按计量资料处理：如以最小或

《logistic回归分析》课件

信用卡欺诈检测
应用逻辑回归模型检测信用卡交易中的欺诈行为，保护用户利益和减少风险。
电影推荐
利用逻辑回归模型根据用户的历史行为和偏好进行电影推荐，提供个性化的影片推荐。
总结与展望
Logistic回归分析的优点和不足
总结逻辑回归分析的优点和限制，讨论其适用范围和局限性。
发展前景
展望逻辑回归分析在未来的发展趋势和应用领域。
探讨Logistic回归分析在实际问题中的广泛应用。
Logistic回归与线性回归的区别
比较Logistic回归和线性回归之间的差异和适用情况。
逻辑回归模型及其基本假设
1 Sigmoid函数
2 逻辑回归的数学模
型
介绍Sigmoid函数及其在
3 基本假设
描述逻辑回归模型中的
逻辑回归中的作用。
解释逻辑回归的数学模
《logistic回归分析》PPT 课件
介绍logistic回归分析的PPT课件，涵盖课程内容、逻辑回归模型、参数估计与模型拟合、分类结果与型诊断、实战案例、总结与展望以及参考文献。
课程介绍
什么是Logistic回归分析
介绍Logistic回归分析的基本概念和原理。
Logistic回归分析的应用
• [3]C. Bishop (2006) Pattern recognition and machine learning. Springer.
讨论如何评估逻辑回归模型的分类结果，确定哪些样本属于正类和负类。
ROC曲线
解释ROC曲线在逻辑回归模型中的作用，用于评估模型的分类性能。
混淆矩阵
介绍混淆矩阵，用于评估逻辑回归模型的分类准确性和误判情况。
模型的诊断

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

19
条件logistic 回归
非条件logistic 回归适用于平行组设计的病例对照研究，队列研究，而不适用于配比设计的病例-对照研究。对于配比的病例-对照研究资料需要用条件logistic 回归。其命令为：
clogit 因变量 [自变量] , group(配比变量) [ level(#) or ]
命令： logit 因变量 [自变量] [,选择项]
在进行logistic 回归时要注意资料的形式。通常，用于logistic 回归的资料有三种形式： (1) 分水平频数资料，一般自变量较少，且均为分类变量，常以各变量(包括因变量、自变量)各水平的组合的频数表形式出现。如例1。拟合时仍用上述命令，只是命令中增加[fw=频数变量]选择项。
5
(2) 分组频数资料，一般自变量较少，且均为分类变量，常以各自变量(不包括因变量) 各水平的组合的频数表形式出现，因变量常表达为分子与分母。如例2。用下列命令：
blogit 阳性数变量总观察数变量 [，logit 命令选择项]
或 glogit 阳性数变量总观察数变量 [， level(#) or]
其中group()是必选项，它是用来区分各配比组的。level(#)及or 的意义同logit。
20
的研究中，运用了1:4 的病例-对照研究，配比因素为年龄，共调查了20 对，100 例。
各变量定义如下：
1: match 配比组
2: y y=1：病例， y=0：对照
3: ht ht=0：无高血压， ht=1：有高血压
归方程，并说明回归系数与OR 的关
系。
789源自 10111213
也可以用logit命令
14
15
16
可以利用例3做逐步回归
Stata 用于逐步回归分析的命令是在要执行的命令前增加sw 。
sw 回归命令 [因变量[自变量]], 筛选变量的P 值 [选择项]
其中，筛选变量的P 值有3 种组合
25
用于多类结果的logistic 回归的命令是mlogit。
mlogit [因变量 [自变量]] [, base (#) constraints(clist) level(#) rrr ]
26
例5 产后大出血分为两大类：即宫缩乏力性 (称为子宫因素)及胎盘因素。在产后大出
血与有无妊高症x1及有无人流史x2的关
系研究中，将产后出血量<400ml的产妇作为对照，出血量>400ml的作为病例，并分为上述两类，共调查了933人，其中子宫因素出血的155人，胎盘因素出血的 33人，对照745人。结果见表5。
(3) 个体水平资料，即一个观察对象一条记录。如例3，直接使用logit 命令估计即可。
拟合模型后可以用指令predict 得到预测概率，然后进行模型诊断、应用等。
6
例1 本例是探讨妇女使用雌激素与患子宫内膜癌之间关系的病例-对照研究资料，见表1
，请计算OR 及其95％可信区间。再
用logistic 回归估计参数，写出回
4: est est=0 未使用过雌激素， est=1：使用过雌激素
5: dose 剂量：dose=0：未使用过， dose=1：0.1-0.299(mg/day)
6: drug drug=0：未使用其他药物， 21
22
首先，使用ht、est、drug 三个变量作条件logistic 回归。 . clogit y ht est drug, group(match)
18
1. 用逐步后退法，剔选变量的概率为：pe(0.05)，pr(0.06)，结果如下：
sw logit y x1 x2 x3, pe(0.05) pr(0.06)
2. 用逐步前进法，剔选变量的概率不变,结果如下：
sw logit y x1 x2 x3, pr(0.06) pe(0.05) forward
结果显示，患高血压(ht)及使用其他药物 (drug)与子宫内膜癌无关，而使用过雌激素者患子宫内膜癌的可能性比未使用过雌激素者大。因此，可以进一步考虑剂量-反应关系。变量剂量(dose)可以按两种方法处理，先按线性形式进入模型，再以哑变量形式进入模型，并比较两者的结果。
clogit y ht dose drug, group(match） 23
2
分类
按因变量性质，可分为二分类、无序多分类、有序多分类。
按是否匹配可分为非条件和条件 logistic回归。
3
Stata软件专门有一组命令用于做不同类型的logistic回归，例如：logit、 blogit、glogit、clogit、mlogit、 ologit。
4
1.Logistic 回归
应用Stata做logistic回归
1
实际生活中经常会遇到因变量只有0和1的二分类变量，不能满足正态性和方差齐性，故不能直接使用线性模型来拟合方程。
Logistic回归正是处理因变量是二分类或多分类变量的一种方法。现已广泛应用于队列研究，病例对照研究和试验性研究，成为分类因变量的首选多变量分析模型。
pr(#) /* 后退法
pe(#) /* 向前法
pr(#) pe(#) /* 逐步后退法
pr(#) pe(#) forward /* 逐步向前法
17
pr(#)是剔除变量的P 值，pe(#)是选入变量的P 值，如果只选pr(#)，则表示用
后退法，如果同时选用pr(#)和pe(#)表示逐步法。应用时，为防止计算进入死循环，pr(#)须略大于pe(#)。例如， pe(0.05)，pr(0.051)。
结果显示，随着剂量的上升，服用雌激素与患内膜癌间的联系也明显上升，呈现出明显的剂量－反应关系。这种关系是否为线性的？ dose 用哑变量形式是否更好？
xi : clogit y ht i.dose drug, group(match)
24
多类结果的logistic回归
在医学研究中，常常会遇到结果变量是多分类的情况，如同一种肿瘤的不同亚型；病例-对照研究中的一个对照组，两个或多个病例组；或一个病例组，两个或多个对照组，如医院对照和健康人群对照等。