logistic回归分析课件

合集下载

logistic回归分析精选PPT课件

Number of obs =
LR chi2(1)
=
Prob > chi2
=
Pseudo R2
=
152 30.67 0.0000 0.1455
------------------------------------------------------------------------------
case |
Coef. Std. Err.
z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exposure | 2.112829 .4228578 5.00 0.000 1.284043 2.941615
2
二分类资料的分析
非条件logistic模型：成组病例对照研究资料条件logistic模型：配比病例对照研究资料3源自非条件logistic回归模型
lo （ p ） g 0 ＋ i 1 X 1 ＋ t ＝ 2 X 2 k X k
01X1＋ 2X2＋＋ kXk
p1ee01X12X2 kXk 1
|------------------------+----------------------
Odds ratio |
8.271605
| 3.4193 21.33091 (exact)
Attr. frac. ex. |
.8791045
| .7075425 .9531197 (exact)
Attr. frac. pop |
.4626866

logistic回归 ppt课件

比值比
OR=[P１/(1-P１)]/[P２/(1-P２)]
比值比 Odds Ratio
Odds=P/(1-P) 暴露组： P=a/(a+b) 1-P= b/(a+b) Odds=a/b 非暴露组：P=c/(c+d) 1-P= d/(c+d) Odds=c/d
病例对照
暴露组
非暴露组
a c
b d
P ad 1 /(1 P 1) OR P0 /(1 P0 ) bc
相同，如下表： X1 暴露（X2=1）非暴露（X2=0） X1 X1 X2 X2+1 X2 X3 X3 X3
Logistic回归系数与OR的关系：
P * ) exp b0 b1 x1 b2 ( x2 1) b3 x3 暴露： ( 1 P expb0 b1x1 b2 x 2 b3x3 b2
当年龄为a时， odds(Y=1|age=a) = exp(-4.353 + 0.038 a) 当年龄为a+1， odds(Y=1|age=a+1) = exp(-4.353 + 0.038 (a+1))
P ) exp b 0 b1x1 b 2 x 2 b 3 x 3 非暴露：( 1 P
p * ( ) 1 p exp(b 2 ) OR p 1 p
例：log odds (Y=1) = - 4.353 + 0.038 age
Ｙ：妇女是否患有骨质疏松，Y=1为是，Y=0为否
1 ， 2 ….. m分别为m个自变量的回归系数。 P ln( ) 取值：-∞ ~ +∞ 1 P
Logistic回归模型的函数
1.00

logistic回归分析PPT优秀课件

（2）线性回归分析：由于因变量是分类变量，不能满足其正态性要求；有些自变量对因变量的影响并非线性。
2
logistic回归:不仅适用于病因学分析，也可用于其他方面的研究，研究某个二分类（或无序及有序多分类）目标变量与有关因素的关系。
logistic回归的分类：（1）二分类资料logistic回归：因变量为两分类变量的资料，可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料，条件logistic回归多用于配对或配比资料。（2）多分类资料logistic回归：因变量为多项分类的资料，可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向：收集回顾性资料
人数暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露暴露组未暴露组合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比（odds ratio、OR）：病例对照研究中表示疾病与暴露间
联系强度的指标，也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率之比。但病例对照研究不能计算发病率，只能计算比值比OR值。 OR与RR的含义是相同的，也是指暴露组的疾病危险性为非暴露组的多少倍。当疾病发病率小于5%时，OR是RR的极好近似值。
OR>1,说明该因素使疾病的危险性增加，为危险因素；
OR<1,说明该因素使疾病的危险性减小，为保护因素；

13.Logistic回归分析(09) PPT课件

0
1
0
45
1.7
0
1
0
46
5.1
0
1
0
47
1.1
0
1
0
48
32.0
0
1
0
49
12.8
0
1
0
50
1.4
0
1
0
全回归方程：
Variables in the Equation
S1atep
X1 X2
B
S.E. Wald
df
-.002 .006 .167
1
.792 .487 2.643
1
X3
-2.830 .793 12.726
0
1
0
45
1.7
0
1
0
46
5.1
0
1
0
47
1.1
0
1
0
48
32.0
0
1
0
49
12.8
0
1
0
50
1.4
0
1
0
观察号
因素
i
X1
X2
X3
1
2.5
0
0
2
1.2
2
0
3
173.0
2
0
4
3.5
0
0
5
119.0
2
0
6
39.7
0
0
7
10.0
2
0
8
62.4
0
0
9
502.2
2
0
10
2.4

logistic回归分析PPT精品课程课件讲义

问题的提出（续）
• 但在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等；
• 分析“母亲怀孕期间体重增加”对“新生儿出生低体重”的影响
二、概念的引入
• 如按线性回归思想建立模型： P=α +βX • P的意义是发生出生低体重的概率
• 在线性回归模型中,X的取值是任意的,P值可能大于1或小于0,无法从医学意义进行解释, 显然不适宜用线性回归建立预测模型。
表明ECG异常者CHD发病是正常者的2.056倍。 (3) 比较各变量对方程贡献的大小: 根据标化的值大小，确定各因素对CHD发病影响的大小。在此项研究中，危险因素中吸烟对方程贡献最大，其他依次为相对体重、年龄、胆固醇、ECG和BP。
4) 用于预测发病率: 可根据该公式预测某人在不同因素暴露条件下 CHD的发病率。如某受试者A暴露于因素xi的情况为： X＝(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者A在暴露上述各种研究因素的条件下，12年间CHD的发病率为： PA1 = 1/{1+exp[-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.7206 x 0)]} = 1/[1+exp(-2.9813)] = 0.048
小结
• (1)logistic回归分析要求因变量是二分变量，或任何取值
为0或1的属性数据。
• (2)logistic回归分析中对自变量的正态性、方差齐性不作
要求，对自变量类型也不作要求;
• (3)自变量与因变量(y)之间是非线性关系,但是与logit y之
间应符合线性关系。
1. 定群研究资料分析…弗明汉心脏研究 742 名居住在弗明汉年龄为 40-49 岁的男性，在各自暴露不同水平的影响因素(详见下表中的7种因素)，经 12年追踪观察 CHD发病情况。根据此742名受试者每人暴露各项因素的水平和 CHD 发病与否的资料，采用多因素 LOGISTIC 回归模型进

《logistic回归》课件

03
易于理解和实现：由于基于逻辑函数，模型输出结果易于解释，且实现简单。
Logistic回归的优势与不足
• 稳定性好：在数据量较小或特征维度较高时，Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足：
02
对数据预处理要求高：需要对输入数据进行标准化或归一化处理，以避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系。
无自相关
因变量与自变量之间不存在自相关。
03
02
无多重共线性
自变量之间不存在多重共线性，即自变量之间相互独立。
随机误差项
误差项是独立的，且服从二项分布。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时，特征选择和降维是提高模型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法，可以自动选择对模型贡献最大的特征，从而减少特征数量并提高模型的泛化能力。
降维技术如主成分分析（PCA）可以将高维特征转换为低维特征，简化数据结构并揭示数据中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例。
精度
预测为正例的样本中实际为正例的比例。
召回率
实际为正例的样本中被预测为正例的比例。
F1分数
精度和召回率的调和平均数，用于综合评估模型性能。

Logisic回归分析PPT课件

0
吸烟不吸烟
各变量
X2
1
0
饮酒不饮酒
编
码
Y
1
病例
0
对照
39
17
表16-1 吸烟与食道癌关系的病例－对照调查资料
分层吸烟饮酒观察例数阳性数阴性数
g
X1
X2
ng
dg
ng dg
1
0
0
199
63 136
2
0
1
170
63 107
3
1
0
101
44
57
4
1
1
416
265 151
39
18
经 logistic 回归计算后得
计算公式为：
OR j
P1 P0
/(1 /(1
P1 ) P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时的发病概率， ORj 称作多变量调整后的优势比，表示扣除了其他自变量影响后危险因素的作用。
39
12
与 logisticP 的关系：
对比某一危险因素两个不同暴露水平X j c1 与X j c0 的发病情况（假定其它因素的水平相同），其优势比的自然对数为:
.
51
2
0
1
1
0
1
2
1
1
52
2
1
1
1
0
0
2
1
1
53
2
1
0
1
0
0
1
1
1
54
3
1
1
0
1

Logistic回归分析(共53张PPT)

数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率之比称为比值（odds),即odds=p/1-p。两个
比值之比称为比值比（Odds Ratio),简称 OR。
• Logistic回归中的常数项（b0）表示，在不
接触任何潜在危险／保护因素条件下，效应指标发生与不发生事件的概率之比的对数值。

Forward: LR （向前逐步法：似然比法 likelihood ratio，LR）→ 再击下方的 Save 钮，将 Predicted values 、 Influence 与 Residuls 窗口中的预选项全勾选 → Continue → 再击下方的 Options 钮，将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验（likehood ratio test）
通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行，其统计量为G （又称Deviance）。
G=-2(ln Lp-ln Lk) 样本量较大时， G近似服从自由度
为待检验因素个数的２分布。
• 比分检验（score test）
， Logistic回归系数的解释变得更为复杂，应特别小心。
根据Wald检验，可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归其中，为常数项，为偏回归系数。应变量水平数大于2，且水平之间不存在等级递减或递增的关系时，对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布，即为标准正态离差。

logistic回归(共36张PPT)

二分类自变量系数为比数比的对数值，由此比数比=eb
多分类自变量以第i类作参照，比较相邻或相隔的两个类别。
连续型自变量当自变量改变一个单位时，比数比为eb
2022/11/3
27
输出结果的解释
模型拟合的优劣
自变量与结果变量（因变量）有无关系
确认因变量与自变量的编码模型包含的各个自变量的临床意义由模型回归系数计算得到的各个自变量的比数比的临床意义
3
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危险因素有关
疾病转归的影响因素也可能多种多样临床治疗结局的综合性
2022/11/3
4
简单的解决方法
固定其他因素，研究有影响的一两个因素；分层分析：按1~2个因素组成的层进行层内分析和综合。统计模型
2022/11/3
28
输出结果的解释
模型的预测结果的评价
敏感度、特异度和阳性预测值
正确选择预测概率界值，简单地以0.5为界值，但并不是最好的。
C指数
预测结果与观察结果的一致性的度量。 C值越大（最大为1），模型预测结果的
能力越强。
2022/11/3
29
非条件logistic回归
研究对象之间是否发生某事件是独立的。适用于：
放入所有变量，再逐个筛选
理论上看，前进法选择变量的经验公式缺乏总体概念，当用于因
素分析时，建议用后退法。当变量间有完全相关性时，后退法无法使用，可用前进法。
2022/11/3
21
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量的变化而改变时，则存在交互作用

《Logistic回归》PPT课件

常量 -20.207 4.652 18.866
1 .000
.000
a. 在步骤 1 中输入的变量: 性别, 年龄, 学历, 体重指数, 家族史, 吸烟, 血压, 总胆固醇, 甘油三脂, 高密度脂蛋白, 低密度脂蛋白.
七、变量筛选
从所用的方法看，有强迫法、前进法、后退法和逐步法。在这些方法中，筛选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是线性回归分析中的F统计量，而是以上介绍的参数检验方法中的三种统计量之一。
八、logistic 回归模型拟合优度检验和预测准确度检验
（一）拟合优度检验：
Logistic回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进行检验。如果预测的值与实际观测的值越接近，说明模型的拟合效果越好。
·模型的拟合优度检验方法有偏差检验（Deviance）、皮尔逊（pearson）检验、统计量(Homser-Lemeshow), 分别计算统计量X2D、X2 P、X2HL值。统计量值越小，对应的概率越大。无效假设H0：模型的拟合效果好。
第九章 Logistic回归
（非条件Logistic回归）
第一节 Logistic回归概述
一、Logistic回归目的： Logistic回归通常以离散型的分类变量（疾病的死亡、痊愈等）发生结果的概率为因变量，以影响疾病发生和预后的因素为自变量建立模型。研究分类变量（因变量）与影响因素（自变量）之间关系的研究方法。属于概率型非线性回归方法。
本例模型的似然比检验结果：
X2=-2(ln Lp-ln Lk)=95.497
模型系数的综合检验
步骤 1
步骤块模型

【精品】Logistic 回归模型及回归分析PPT课件

3
数据分析的背景
• 单因素的分类资料统计分析，一般采用 Pearson 2进行统计检验，用Odds Ratio 及其95%可信区间评价关联程度。
• 考虑多因素的影响，对于反应变量为分类变量时，用线性回归模型P=a+bx就不合适了，应选用Logistic回归模型进行统计分析。
4
Logistic回归模型
Logistic 回归模型及回归分析
1
Logistic 回归模型
2
数据分析的背景
• 计量资料单因素统计分析 – 对于两组计量资料的比较，一般采用t检验或秩和检验。
– 对于两个变量的相关分析采用Pearson 相关分析或Spearman相关分析
• 考虑多因素的影响，对于应变量(反应变量)为计量资料，一般可以考虑应用多重线性回归模型进行多因素分析。
ln(Odds)
ln( P 1 P
)
0
1x1
mxm
10
Logistic回归模型
• 记： log it(P) ln( P ) 1 P
• 故可以写为
log it(P) 0 1x1 m xm
• 也可以写为
P exp(0 1x1 m xm ) 1 exp(0 1x1 m xm )
准正态分布，即：|z|>1.96，P<0.05,拒绝H0
19
实例1:用Logistic模型进行统计分析
• 实例1的回归系数估计为
ˆ1 0.4117232 ˆ0 -7.962891
• se(b)=0.1780719, z=b/se=2.31 ,P=0.021<0.05 拒绝H0，差异有统计学意义，可认为0。
e0
P 1 e0
1 P 1 e0

精品PPT课件----Logistic 回归20页PPT

精品PPT课件----Logistic 回归
•
26、我们像鹰一样，生来就是自由的，但是为了生存，我们不得不为自己编织一个笼子，然后把自己关在里面。 ——博莱索
•
27、法律如果不讲道理，即使延续时间再长，也还是没有制约力的。— —爱·科克
•
28、好法律是由坏风俗创造出来的。 ——马克罗律支配的人类的状态中，哪里没有法律，那里就没有自由。— —洛克
•
30、风俗可以造就法律，也可以废除法律。 ——塞·约翰逊
31、只有永远躺在泥坑里的人，才不会再掉进坑里。——黑格尔 32、希望的灯一旦熄灭，生活刹那间变成了一片黑暗。——普列姆昌德 33、希望是人生的乳母。——科策布 34、形成天才的决定因素应该是勤奋。——郭沫若 35、学到很多东西的诀窍，就是一下子不要学很多。——洛克

《logistic回归分析》课件

信用卡欺诈检测
应用逻辑回归模型检测信用卡交易中的欺诈行为，保护用户利益和减少风险。
电影推荐
利用逻辑回归模型根据用户的历史行为和偏好进行电影推荐，提供个性化的影片推荐。
总结与展望
Logistic回归分析的优点和不足
总结逻辑回归分析的优点和限制，讨论其适用范围和局限性。
发展前景
展望逻辑回归分析在未来的发展趋势和应用领域。
探讨Logistic回归分析在实际问题中的广泛应用。
Logistic回归与线性回归的区别
比较Logistic回归和线性回归之间的差异和适用情况。
逻辑回归模型及其基本假设
1 Sigmoid函数
2 逻辑回归的数学模
型
介绍Sigmoid函数及其在
3 基本假设
描述逻辑回归模型中的
逻辑回归中的作用。
解释逻辑回归的数学模
《logistic回归分析》PPT 课件
介绍logistic回归分析的PPT课件，涵盖课程内容、逻辑回归模型、参数估计与模型拟合、分类结果与型诊断、实战案例、总结与展望以及参考文献。
课程介绍
什么是Logistic回归分析
介绍Logistic回归分析的基本概念和原理。
Logistic回归分析的应用
• [3]C. Bishop (2006) Pattern recognition and machine learning. Springer.
讨论如何评估逻辑回归模型的分类结果，确定哪些样本属于正类和负类。
ROC曲线
解释ROC曲线在逻辑回归模型中的作用，用于评估模型的分类性能。
混淆矩阵
介绍混淆矩阵，用于评估逻辑回归模型的分类准确性和误判情况。
模型的诊断

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

模型常数项 0 表示暴露剂量为0时个体发病参与不发病概率之比的自然对数。数的回归系数 j ( j 1,2,, m) 表示自变量意改变一个单位时logitP 的改变量。 Xj 义
取值范围概率P：0～1，logitP：－∞～∞。
优势比OR(odds ratio)
流行病学衡量危险因素作用大小的比数比例指标。计算公式为：
研究问题可否用多元线性回归方法？
ˆ y a b x b x b x 1 1 2 2 m m 1.多元线性回归方法要求 Y 的取值为计量
的连续性随机变量。 2.多元线性回归方程要求Y与X间关系为线性关系。 ˆ 不能回答“发生与 3.多元线性回归结果 Y 否” logistic回归方法补充多元线性回归的不足
资料：1. 应变量为反映某现象发生与不发生的二值变量；2. 自变量宜全部或大部分为分类变量，可有少数数值变量。分类变量要数量
化。
用途：研究某种疾病或现象发生和多个危险因素（或保护因子）的数量关系素； 2.只能得出定性结论。
2
种类: 1. 成组（非条件）logistic回归方程。
一、基本概念
logistic回归要求应变量（Y）取值为分类变量（两分类或多个分类）
1 Y 0
出现阳性结果 (发病、有效、死亡等）出现阴性结果 (未发病、无效、存活等）
自变量（Xi）称为危险因素或暴露因素，可为连续变量、等级变量、分类变量。可有m个自变量X1， X2，… Xm
目的：作出以多个自变量（危险因素）估计应变量（结果因素）的logistic回归方程。属于概率型非线性回归。
表16-1 吸烟与食道癌关系的病例－对照调查资料
分层吸烟饮酒观察例数阳性数阴性数
g 1 2 3 4
X1 0 0 1 1
X2 0 1 0 1
ng 199 170 101 416
及其注意事项
39
3
问题提出：
医学研究中常研究某因素存在条件下某结果是否发生？以及之间的关系如何？因素（X）疾病结果（Y） x1，x2，x3…XK 发生 Y=1 不发生 Y=0 例：暴露因素冠心病结果高血压史(x1)：有或无有或无高血脂史(x2)：有或无吸烟(x3)：有或无
第十六章 logistic回归分析
(Logistic Regression)
39
1
Content
Logistic
regression Conditional logistic regression Application
39
2
讲述内容:
第一节 logistic回归
第二节条件logistic回归第三节 logistic回归的应用
t j t j m m
即 OR j exp[ j ( c1 c 0 )]
1 若X j 0 暴露 , c1 c0 1, 非暴露
0, OR j 1 无作用则有 OR j exp j , j >0, OR j 1 危险因子 0, OR j 1 保护因子
2. 配对（条件）logistic回归方程。
第一节
logistic回归
（非条件logistic回归）
一、基本概念
1 发生应变量Y ，自变量 X 1, X 2 , 0 未发生
,Xm
在m个自变量的作用下阳性结果发生的概率记作:
P P (Y 1 | X 1 , X 2 , , X m )
i 1 n
ln L
[Y
i 1
n
i
ln Pi (1 Yi ) ln(1 Pi )]
b0 , b1 , b2 , , bm
2. 优势比估计可反映某一因素两个不同水平（c1，c0）的优势比。
ˆ exp[ b ( c c )] OR j j 1 0
若自变量 X j 只有暴露和非暴露两个水平，则优势比 OR j 的1 可信区间估计公式为
exp( b j u / 2 S b )
j
例16-1 表16-1是一个研究吸烟、饮酒与食道癌关系的病例－对照资料，试作logistic回归分析。
确定各变量编码
1 X1 0 1 X2 0 1 Y 0
吸烟不吸烟饮酒不饮酒病例对照
0 P 1
1
P
0.5 0.5
Z : , 0, P : 0, 0.5, 1
Z
0 1 2 3 4
0 -4 -3 -2 -1
图16-1 logistic函数的图形
P ln = 0 1 X 1 2 X 2 1 P
m X m log itP
P 1 /(1 P 1) ln OR j ln 1 logitP 0 logitP P /(1 P ) 0 0 ( 0 j c1 t X t ) ( 0 j c0 t X t ) j (c1 c0 )
P1 /(1 P1 ) 当 P 1, 则有 OR RR P0 /(1 P0 )
由于 OR j 值与模型中的常数项 0 无关， 0 在危险因素分析中通常视其为无效参数。
二、logistic回归模型的参数估计
1. 参数估计
原理：最大似然( likelihood )估计
L Pi Yi (1 Pi )1Yi
P1 /(1 P1 ) OR j P0 /(1 P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时的发病概率， OR j 称作多变量调整后的优势比，表示扣除了其他自变量影响后危险因素的作用。
与 logisticP 的关系：
对比某一危险因素两个不同暴露水平 X j c1 与 X j c 0 的发病情况（假定其它因素的水平相同），其优势比的自然对数为 :