logistic回归ppt课件
合集下载
logistic回归分析精选PPT课件

Number of obs =
LR chi2(1)
=
Prob > chi2
=
Pseudo R2
=
152 30.67 0.0000 0.1455
------------------------------------------------------------------------------
case |
Coef. Std. Err.
z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exposure | 2.112829 .4228578 5.00 0.000 1.284043 2.941615
2
二分类资料的分析
非条件logistic模型:成组病例对照研究资料 条件logistic模型:配比病例对照研究资料3源自非条件logistic回归模型
lo ( p ) g 0 + i 1 X 1 + t = 2 X 2 k X k
01X1+ 2X2+ + kXk
p1ee01X12X2 kXk 1
|------------------------+----------------------
Odds ratio |
8.271605
| 3.4193 21.33091 (exact)
Attr. frac. ex. |
.8791045
| .7075425 .9531197 (exact)
Attr. frac. pop |
.4626866
logistic回归 ppt课件

比值比
OR=[P1/(1-P1)]/[P2/(1-P2)]
比值比 Odds Ratio
Odds=P/(1-P) 暴露组: P=a/(a+b) 1-P= b/(a+b) Odds=a/b 非暴露组:P=c/(c+d) 1-P= d/(c+d) Odds=c/d
病例 对照
暴露组
非暴露组
a c
b d
P ad 1 /(1 P 1) OR P0 /(1 P0 ) bc
相同,如下表: X1 暴露(X2=1) 非暴露(X2=0) X1 X1 X2 X2+1 X2 X3 X3 X3
Logistic回归系数与OR的关系:
P * ) exp b0 b1 x1 b2 ( x2 1) b3 x3 暴露: ( 1 P expb0 b1x1 b2 x 2 b3x3 b2
当年龄为a时, odds(Y=1|age=a) = exp(-4.353 + 0.038 a) 当年龄为a+1, odds(Y=1|age=a+1) = exp(-4.353 + 0.038 (a+1))
P ) exp b 0 b1x1 b 2 x 2 b 3 x 3 非暴露:( 1 P
p * ( ) 1 p exp(b 2 ) OR p 1 p
例:log odds (Y=1) = - 4.353 + 0.038 age
Y:妇女是否患有骨质疏松,Y=1为是,Y=0为否
1 , 2 ….. m分别为m个自变量的回归系数。 P ln( ) 取值:-∞ ~ +∞ 1 P
Logistic回归模型的函数
1.00
Logistic回归模型1PPT课件

利用logistic分布函数的特征来表示在自变量X 的作用下出现阳性结果或阴性性结果的概率。
出现阳性结果的概率记为: P( y=1|x),
出现阴性结果的概率为: Q( y=0|x), 注意:P+Q=1。
当只有一个自变量时,logistic回归模型:
exp(X) P(y1|x)1ex0 p(X)
(1)
(10)
P(1)─X取1时,为暴露组 ; P(0)─X取0时,为非暴露组。
loig (tP )0x
lO n ) li [ o ( P R ( 1 t ) l g ] i [ o P ( 0 t ) ( g ] 0 1 ) ( 0 0 )
lnO ( R ) ORe
(五) 的统计学意义
-
1
Logistic 回归模型
主讲:黄志碧
回归分析概述
1、根据自变量多少分
(1)简单回归(一个自变量)
(2)多元回归(多个自变量) 2、根据Y的取值分
(1)确定型回归(多元线性回归) (2)概率型回归(Logistic回归) 3、根据回归图形分 线性回归(多元线性回归) 非线性回归(Logistic回归)
模型拟合优度检验: H0设实际频数分布和理 论频数分布相符合,即模型的拟合优度较好。
-
38
第二节 二项分类变量资料 非条件logistic 回归
二项分类反应变量是最常见的变量类型, 又称0、1变量。可用于病例-对照研究,队列 研究和横断面研究,其中成组设计的非条件 Logistic回归最常见。
-
0
Q (y0|x)1ex 1p 0(X) (2)
式中, 0 为回归线的截距, 是与X有关的
参数,也称回归系数。
Q P((yy 1 0||x x))exp 0(X) (3)
出现阳性结果的概率记为: P( y=1|x),
出现阴性结果的概率为: Q( y=0|x), 注意:P+Q=1。
当只有一个自变量时,logistic回归模型:
exp(X) P(y1|x)1ex0 p(X)
(1)
(10)
P(1)─X取1时,为暴露组 ; P(0)─X取0时,为非暴露组。
loig (tP )0x
lO n ) li [ o ( P R ( 1 t ) l g ] i [ o P ( 0 t ) ( g ] 0 1 ) ( 0 0 )
lnO ( R ) ORe
(五) 的统计学意义
-
1
Logistic 回归模型
主讲:黄志碧
回归分析概述
1、根据自变量多少分
(1)简单回归(一个自变量)
(2)多元回归(多个自变量) 2、根据Y的取值分
(1)确定型回归(多元线性回归) (2)概率型回归(Logistic回归) 3、根据回归图形分 线性回归(多元线性回归) 非线性回归(Logistic回归)
模型拟合优度检验: H0设实际频数分布和理 论频数分布相符合,即模型的拟合优度较好。
-
38
第二节 二项分类变量资料 非条件logistic 回归
二项分类反应变量是最常见的变量类型, 又称0、1变量。可用于病例-对照研究,队列 研究和横断面研究,其中成组设计的非条件 Logistic回归最常见。
-
0
Q (y0|x)1ex 1p 0(X) (2)
式中, 0 为回归线的截距, 是与X有关的
参数,也称回归系数。
Q P((yy 1 0||x x))exp 0(X) (3)
《logistic回归》课件

03
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
Logisic回归分析PPT课件

0
吸烟 不吸烟
各 变 量
X2
1
0
饮酒 不饮酒
编
码
Y
1
病例
0
对照
39
17
表16-1 吸烟与食道癌关系的病例-对照调查资料
分层 吸烟 饮酒 观察例数 阳性数 阴性数
g
X1
X2
ng
dg
ng dg
1
0
0
199
63 136
2
0
1
170
63 107
3
1
0
101
44
57
4
1
1
416
265 151
39
18
经 logistic 回归计算后得
计算公式为:
OR j
P1 P0
/(1 /(1
P1 ) P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时 的发病概率, ORj 称作多变量调整后的优势比, 表示扣除了其他自变量影响后危险因素的作用。
39
12
与 logisticP 的关系:
对比某一危险因素两个不同暴露水平X j c1 与X j c0 的发病 情况(假定其它因素的水平相同),其优势比的自然对数为:
.
51
2
0
1
1
0
1
2
1
1
52
2
1
1
1
0
0
2
1
1
53
2
1
0
1
0
0
1
1
1
54
3
1
1
0
1
Logistic回归分析(共53张PPT)

数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
《logistic回归分析》PPT课件

3
第一节 非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1
p( y
1|
(2)多分类资料Logistic回归: 因变量为多项分类的资料,可 用多项分类Logistic回归模型或有序分类Logistic回归模型进 行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 无序分类反应变量Logistic回归分析 有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
21
对所拟合模型的假设检验:
概率p值均小 于0.05,说明 方程有意义。
第一节 非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1
p( y
1|
(2)多分类资料Logistic回归: 因变量为多项分类的资料,可 用多项分类Logistic回归模型或有序分类Logistic回归模型进 行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 无序分类反应变量Logistic回归分析 有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
21
对所拟合模型的假设检验:
概率p值均小 于0.05,说明 方程有意义。
[医学]Logistic回归.ppt
![[医学]Logistic回归.ppt](https://img.taocdn.com/s3/m/5d84d0e926fff705cc170adb.png)
/*模型的拟合优度检验*/ run;
结果1:拟合优度检验结果
两种拟合优度检验的结果均显示:P值 =0.64>>0.05,因此可以认为当前模型与拟 合最好的模型比较,差别无统计意义。因此没 有必要对模型作进一步改进。
结果2:模型检验
似然比的卡方=(无协变量的-2LOGL值)-(有两个协变量的- 2LOGL值)=107.669-95.9=11.769,自由度df=2(模型 中的协变量个数),相应的P值=0.0028,因此可以认为两个协 变量的回归系数至少有一个不为0。即:认为模型有统计学意义。
常用统计软件
Logistic回归
Logistic回归分析的分类
按数据的类型: o 非条件logistic回归分析(成组数据) o 条件logistic回归分析(配对病例-对照数据)
按因变量取值个数: o 二分类logistic回归分析 o 多分类logistic回归分析
按自变量个数: o 一元logistic回归分析 o 多元logistic回归分析
实例1
假设我们有一个数据,45个观测值,四个变 量,包括: age(年龄,数值型); vision(视力状况,二分类:1表示差,0表 示好); drive(驾车教育,二分类:1表示参加过驾 车教育,0表示没有); Accident(去年是否发生事故,二分类:1 表示出过事故,0表示没有)。
(取值范围0~1)
考虑使用概率的logit变换函数
0.8
0.6 pP
0.4
0.2
-4
-2
0
2
4
Logiyt(P)
非条件logistic回归的数学模型
因此,我们使用P与(1-P)的比值的对数, 来建立logit(P)与X的多重线性回归模型:
结果1:拟合优度检验结果
两种拟合优度检验的结果均显示:P值 =0.64>>0.05,因此可以认为当前模型与拟 合最好的模型比较,差别无统计意义。因此没 有必要对模型作进一步改进。
结果2:模型检验
似然比的卡方=(无协变量的-2LOGL值)-(有两个协变量的- 2LOGL值)=107.669-95.9=11.769,自由度df=2(模型 中的协变量个数),相应的P值=0.0028,因此可以认为两个协 变量的回归系数至少有一个不为0。即:认为模型有统计学意义。
常用统计软件
Logistic回归
Logistic回归分析的分类
按数据的类型: o 非条件logistic回归分析(成组数据) o 条件logistic回归分析(配对病例-对照数据)
按因变量取值个数: o 二分类logistic回归分析 o 多分类logistic回归分析
按自变量个数: o 一元logistic回归分析 o 多元logistic回归分析
实例1
假设我们有一个数据,45个观测值,四个变 量,包括: age(年龄,数值型); vision(视力状况,二分类:1表示差,0表 示好); drive(驾车教育,二分类:1表示参加过驾 车教育,0表示没有); Accident(去年是否发生事故,二分类:1 表示出过事故,0表示没有)。
(取值范围0~1)
考虑使用概率的logit变换函数
0.8
0.6 pP
0.4
0.2
-4
-2
0
2
4
Logiyt(P)
非条件logistic回归的数学模型
因此,我们使用P与(1-P)的比值的对数, 来建立logit(P)与X的多重线性回归模型:
logistic回归分析副本(共53张PPT)

ln OR j
ln
P1 P0
(1 (1
P1 ) P0 )
=
ln( P1 ) ln( P0 )
1 P1
1 P0
= j (c1 c0 )
则该因素的优势比: OR j exp[ j (c1 c0 )]
式中 P1 和 P0 分别表示在 X j 取值为 c1 和 c0 时的发病 概率, OR j 为调整后优势比(adjusted odds ratio), 表示扣除了其它自变量影响后危险因素 X j 的作用。
(2)多分类资料logistic回归: 因变量为多项分类的资料,可用多项分类 logistic回归模型或有序分类logistic回归模型进行分析。
队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研究,在
研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一 定时期内,随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡 率差别有统计学意义,则认为暴露和疾病间存在联系。队列研究验证的暴露因素在研 究开始前已存在,研究者知道每个研究对象的暴露情况。
或率比(rate ratio)。 RR Ie a /n1 、 I e a / n1 、 I 0 c / n2
I0 c / n0
RR(相对危险度relative risk):表示暴露组与非暴露组发病 率(或死亡率)的比值。也称为危险比(risk ratio)。反映了 暴露与疾病发生的关联强度。
病例组暴露的比值 、对照组暴露的比值 a /(a b) c /(c d ) 1、成组匹配(category matching):匹配的因素所占的比例,在对照组和在病例组一致。
匹配或称配比(matching),即要求对照在某些因素或特征上与病例保持一致,目的是对两组比较时排除混杂因素的干扰。
logistic回归(共36张PPT)

二分类自变量 系数为比数比的对数值,由此比数比=eb
多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。
连续型自变量 当自变量改变一个单位时,比数比为eb
2022/11/3
27
输出结果的解释
模型拟合的优劣
自变量与结果变量(因变量)有无关系
确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自变 量的比数比的临床意义
3
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关
疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
2022/11/3
4
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
2022/11/3
28
输出结果的解释
模型的预测结果的评价
敏感度、特异度和阳性预测值
正确选择预测概率界值,简单地以0.5为 界值,但并不是最好的。
C指数
预测结果与观察结果的一致性的度量。 C值越大(最大为1),模型预测结果的
能力越强。
2022/11/3
29
非条件logistic回归
研究对象之间是否发生某事件是 独立的。 适用于:
放入所有变量,再逐个筛选
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因
素分析时,建议用后退法。当变量间有完全相关性时,后退法无 法使用,可用前进法。
2022/11/3
21
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量 的变化而改变时,则存在交互作用
多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。
连续型自变量 当自变量改变一个单位时,比数比为eb
2022/11/3
27
输出结果的解释
模型拟合的优劣
自变量与结果变量(因变量)有无关系
确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自变 量的比数比的临床意义
3
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关
疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
2022/11/3
4
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
2022/11/3
28
输出结果的解释
模型的预测结果的评价
敏感度、特异度和阳性预测值
正确选择预测概率界值,简单地以0.5为 界值,但并不是最好的。
C指数
预测结果与观察结果的一致性的度量。 C值越大(最大为1),模型预测结果的
能力越强。
2022/11/3
29
非条件logistic回归
研究对象之间是否发生某事件是 独立的。 适用于:
放入所有变量,再逐个筛选
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因
素分析时,建议用后退法。当变量间有完全相关性时,后退法无 法使用,可用前进法。
2022/11/3
21
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量 的变化而改变时,则存在交互作用
《Logistic回归》PPT课件

常量 -20.207 4.652 18.866
1 .000
.000
a. 在步骤 1 中输入的变量: 性别, 年龄, 学历, 体重指数, 家族史, 吸烟, 血压, 总胆 固醇, 甘油三脂, 高密度脂蛋白, 低密度脂蛋白.
七、变量筛选
从所用的方法看,有强迫法、前进法、后退 法和逐步法。在这些方法中,筛选变量的过 程与线性回归过程的完全一样。但其中所用 的统计量不再是线性回归分析中的F统计量, 而是以上介绍的参数检验方法中的三种统计 量之一。
八、logistic 回归模型拟合优度检验和预 测准确度检验
(一)拟合优度检验:
Logistic回归模型的拟合优度检验是通过比较模型 预测的与实际观测的事件发生与不发生的频数有无差 别来进行检验。如果预测的值与实际观测的值越接近, 说明模型的拟合效果越好。
·模型的拟合优度检验方法有偏差检验(Deviance)、 皮尔逊(pearson)检验、统计量(Homser-Lemeshow), 分别计算统计量X2D、X2 P、X2HL值。统计量值越小, 对应的概率越大。无效假设H0:模型的拟合效果好。
第九章 Logistic回归
(非条件Logistic回归)
第一节 Logistic回归概述
一、Logistic回归目的: Logistic回归通常以离散 型的分类变量(疾病的死亡、痊愈等)发生结果的 概率为因变量,以影响疾病发生和预后的因素为自 变量建立模型。研究分类变量(因变量)与影响因 素(自变量)之间关系的研究方法。属于概率型非 线性回归方法。
本例模型的似然比检验结果:
X2=-2(ln Lp-ln Lk)=95.497
模 型 系数 的 综 合检 验
步骤 1
步骤 块 模型
统计学-logistic回归分析ppt课件

最新版整理ppt
38
九、logistic回归的应用举例
• 输精管切除术与动脉粥样硬化疾病的研究
• 1.问题的描述
(1)输精管切除术是否与动脉粥样硬化疾病 有关?
(2)如果存在联系,与其他已知的危险因素 相比,输精管切除术的相对重要性有多大?
(3)哪些男性亚群在输精管切除术以后发生 动脉粥样硬化疾病的可能性特别大?
• 条件Logistic回归的回归系数检验与分 析,和非条件Logistic回归完全相同。
最新版整理ppt
36
八、logistic回归的应用
1.疾病(某结果)的危险因素分析和筛选
用回归模型中的回归系数(βi)和OR说明 危险因素与疾病的关系。
适用的资料:
前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。
或
p (y 1 /x 1 ,x 2 x k) 1 e (0 1 1 x k ....kx k)
最新版整理ppt
10
2.模型中参数的意义
ln1PP=01X1
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
ln1PP (y(y 1/0x/x 0)0)=0
最新版整理ppt
调查员审阅每日住院病人情况如果诊断适合研究的范围将病例转给心脏病主任医师作评估由他做出病例诊断是否合格的决定调查人员核对病人背景资料是否合格如果病人满足诊断标椎和背景资料合格调查人员开始询问并填写调查表每完成5个病例和10个配对对照以后请研究中心的工作人员对调查表进行评估重复以上步骤
第十六章 logistic回归分析
最新版整理ppt
28
• 分析因素xi为等级变量时,如果每个等级的 作用相同,可按计量资料处理:如以最小或
《logistic回归分析》课件

信用卡欺诈检测
应用逻辑回归模型检测信用 卡交易中的欺诈行为,保护 用户利益和减少风险。
电影推荐
利用逻辑回归模型根据用户 的历史行为和偏好进行电影 推荐,提供个性化的影片推 荐。
总结与展望
Logistic回归分析的优点和不足
总结逻辑回归分析的优点和限制,讨论其适用范围和局限性。
发展前景
展望逻辑回归分析在未来的发展趋势和应用领域。
探讨Logistic回归分析在实际问题中的广泛应用。
Logistic回归与线性回归的区别
比较Logistic回归和线性回归之间的差异和适用情况。
逻辑回归模型及其基本假设
1 Sigmoid函数
2 逻辑回归的数学模
型
介绍Sigmoid函数及其在
3 基本假设
描述逻辑回归模型中的
逻辑回归中的作用。
解释逻辑回归的数学模
《logistic回归分析》PPT 课件
介绍logistic回归分析的PPT课件,涵盖课程内容、逻辑回归模型、参数估计与 模型拟合、分类结果与型诊断、实战案例、总结与展望以及参考文献。
课程介绍
什么是Logistic回归分析
介绍Logistic回归分析的基本概念和原理。
Logistic回归分析的应用
• [3]C. Bishop (2006) Pattern recognition and machine learning. Springer.
讨论如何评估逻辑回归模型的分类结果,确定 哪些样本属于正类和负类。
ROC曲线
解释ROC曲线在逻辑回归模型中的作用,用于评 估模型的分类性能。
混淆矩阵
介绍混淆矩阵,用于评估逻辑回归模型的分类 准确性和误判情况。
模型的诊断
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2019年12月5日
预报模型
exp(5.88960.644X311.916X98)
1exp(5.88960.644X311.916X98)
1exp(5.88960.6144X311.916X98)
1 1e(5.8 8 960.6 4 4X311.9 1 6X98)
1
1 exp[(0 1X1 p X p )]
1
e(0
1
1X1
p
X
p
)
2019年12月5日
二、模型的参数估计
Logistic回归参数的估计通常采用 最大似然法(maximum likelihood, ML)。最大似然法的基本思想是先建 立似然函数与对数似然函数,再通过 使对数似然函数最大求解相应的参数 值,所得到的估计值称为参数的最大 似然估计值。
SE(bj )
P值
2值
bj
OR j 值
OR j 的 9 5 % C I
下限 上限
0.0618 3.4599 0.0003 0.9857
2.0453 0.8072 6.4208 0.0113 0.5128 7.732 1.589 37.614
0.7614 0.7708 0.9759 0.3232 0.2054 2.141 0.473 9.700
2019年12月5日
(一)53例接受手术的前列腺癌患者情况
2019年12月5日
(二)26例冠心病病人和28例对照进行 病例对照研究
2019年12月5日
2019年12月5日
2019年12月5日
概率预报模型
exp(0 1X1 p X p ) 1 exp(0 1X1 p X p )
2019年12月5日
参数估计的公式
2019年12月5日
三、回归参数的假设检验
2019年12月5日
优势比及其可信区间
2019年12月5日
标准化回归参数
用于评价各自变量对模型的贡献大小
2019年12月5日
SAS程序
2019年12月5日
The LOGISTIC Procedure
Analysis of Maximum Likelihood Estimates
2019年12月5日
The LOGISTIC Procedure
Analysis of Maximum Likelihood Estimates
变量名
常数项 X _ R AY GRADE S TA G E AGE ACID
表 1 6 - 2 参 数 估 计 值 与 优 势 比 OR 值
Wald
bj
1
1 e x p [ (0 .0 6 1 8 2 .0 4 5 3 X 1 0 .7 6 1 4 X 2 1 .5 6 4 1 X 3 0 .0 6 9 3 X 4 0 .0 2 4 3 X 5 )]
2019年12月5日
四、回归参数的意义
当只有一个自变量时,以相应的预报
概率 为纵轴,自变量 X为横轴,可绘
2019年12月5日
实例
Brown(1980)在术前检查了53例前列腺 癌患者,拟用年龄(AGE)、酸性磷酸酯酶 (ACID)两个连续型的变量,X射线(X_RAY)、 术前探针活检病理分级(GRADE)、直肠指检 肿瘤的大小与位置(STAGE)三个分类变量与 手术探查结果变量NODES(1、0分别表示癌 症淋巴结转移与未转移 )建立淋巴结转移 的预报模型。
1 Pr(Y 0) log it ( ) 0 1 X 1 p X p
优势=
Pr( Y Pr( Y
1) 0)
exp(
0
1 X 1
p
X
p
)
如果 Pr(Y 1)=0.7,那么 Pr(Y 0)=0.3, 那么,事件发生 Pr(Y 1)是事件不发生 Pr(Y 0)比较 的0.7 / 0.3=2.33倍。
1.5641 0.7740 4.0835 0.0433 0.4352 4.778 1.048 21.783
-0.0693 0.0579 1.4320 0.2314 -0.2355 0.933 0.833 1.045
0.0243 0.0132 3.4230 0.0643 0.3517 1.025 0.999 1.051
Logistic回归
Logistic regression
第一节.非条件logistic回归 第二节.条件logistic回归 第三节. 应用及其注意事项
2019年12月5日
什么情况下采用Logistic回归
医学研究中常碰到应变量的可能取值 仅有两个(即二分类变量),如发病与未 发病、阳性与阴性、死亡与生存、治愈与 未治愈、暴露与未暴露等,显然这类资料 不满足多元(重)回归的条件
制出一条S形曲线。回归参数的正负符号与
绝对值大小,分别决定了S形曲线的方向与
形状
1
0.8
Ô¤¨±Å¸ ÊÂ
0.6
0.4
Logistic»Ø ¹é Çú Ïß
0.2
ÖÐ ÐÄ Ïß
0
-2.5 -1.5 -0.5 0.5 1.5 2.52031.95 年12月5日 X
ln ln Pr(Y 1) =ln 优势 =ln(odds)
2019年12月5日
优势比改变exp(j)个单位
2019年12月5日
(odds)
优势
Байду номын сангаас
1
Pr(Y Pr(Y
1) 0)
exp(5.8896 0.6443X1 1.9169X8 )
令X 2~X8保持不变,年龄X1改变1个单位(10岁), 如年龄从50岁提高到60岁(X1分别为2,3),患冠心病的 概率增加了exp(0.6443 (3 2)) 1.9047 2倍
2019年12月5日
预报模型
ˆi 1 e x e p x ( p 0 (.0 0 .6 0 1 6 8 1 8 2 .2 0 .4 0 5 4 3 5 X 3 X 1 1 0 .0 7 .6 7 1 6 4 1 4 X X 2 2 1 .1 5 .6 5 4 6 1 4 X 1 X 3 3 0 .0 0 .6 0 9 6 3 9 X 3 X 4 4 0 .0 0 .2 0 4 2 3 4 X 3 X 5 )5 )
预报模型
exp(5.88960.644X311.916X98)
1exp(5.88960.644X311.916X98)
1exp(5.88960.6144X311.916X98)
1 1e(5.8 8 960.6 4 4X311.9 1 6X98)
1
1 exp[(0 1X1 p X p )]
1
e(0
1
1X1
p
X
p
)
2019年12月5日
二、模型的参数估计
Logistic回归参数的估计通常采用 最大似然法(maximum likelihood, ML)。最大似然法的基本思想是先建 立似然函数与对数似然函数,再通过 使对数似然函数最大求解相应的参数 值,所得到的估计值称为参数的最大 似然估计值。
SE(bj )
P值
2值
bj
OR j 值
OR j 的 9 5 % C I
下限 上限
0.0618 3.4599 0.0003 0.9857
2.0453 0.8072 6.4208 0.0113 0.5128 7.732 1.589 37.614
0.7614 0.7708 0.9759 0.3232 0.2054 2.141 0.473 9.700
2019年12月5日
(一)53例接受手术的前列腺癌患者情况
2019年12月5日
(二)26例冠心病病人和28例对照进行 病例对照研究
2019年12月5日
2019年12月5日
2019年12月5日
概率预报模型
exp(0 1X1 p X p ) 1 exp(0 1X1 p X p )
2019年12月5日
参数估计的公式
2019年12月5日
三、回归参数的假设检验
2019年12月5日
优势比及其可信区间
2019年12月5日
标准化回归参数
用于评价各自变量对模型的贡献大小
2019年12月5日
SAS程序
2019年12月5日
The LOGISTIC Procedure
Analysis of Maximum Likelihood Estimates
2019年12月5日
The LOGISTIC Procedure
Analysis of Maximum Likelihood Estimates
变量名
常数项 X _ R AY GRADE S TA G E AGE ACID
表 1 6 - 2 参 数 估 计 值 与 优 势 比 OR 值
Wald
bj
1
1 e x p [ (0 .0 6 1 8 2 .0 4 5 3 X 1 0 .7 6 1 4 X 2 1 .5 6 4 1 X 3 0 .0 6 9 3 X 4 0 .0 2 4 3 X 5 )]
2019年12月5日
四、回归参数的意义
当只有一个自变量时,以相应的预报
概率 为纵轴,自变量 X为横轴,可绘
2019年12月5日
实例
Brown(1980)在术前检查了53例前列腺 癌患者,拟用年龄(AGE)、酸性磷酸酯酶 (ACID)两个连续型的变量,X射线(X_RAY)、 术前探针活检病理分级(GRADE)、直肠指检 肿瘤的大小与位置(STAGE)三个分类变量与 手术探查结果变量NODES(1、0分别表示癌 症淋巴结转移与未转移 )建立淋巴结转移 的预报模型。
1 Pr(Y 0) log it ( ) 0 1 X 1 p X p
优势=
Pr( Y Pr( Y
1) 0)
exp(
0
1 X 1
p
X
p
)
如果 Pr(Y 1)=0.7,那么 Pr(Y 0)=0.3, 那么,事件发生 Pr(Y 1)是事件不发生 Pr(Y 0)比较 的0.7 / 0.3=2.33倍。
1.5641 0.7740 4.0835 0.0433 0.4352 4.778 1.048 21.783
-0.0693 0.0579 1.4320 0.2314 -0.2355 0.933 0.833 1.045
0.0243 0.0132 3.4230 0.0643 0.3517 1.025 0.999 1.051
Logistic回归
Logistic regression
第一节.非条件logistic回归 第二节.条件logistic回归 第三节. 应用及其注意事项
2019年12月5日
什么情况下采用Logistic回归
医学研究中常碰到应变量的可能取值 仅有两个(即二分类变量),如发病与未 发病、阳性与阴性、死亡与生存、治愈与 未治愈、暴露与未暴露等,显然这类资料 不满足多元(重)回归的条件
制出一条S形曲线。回归参数的正负符号与
绝对值大小,分别决定了S形曲线的方向与
形状
1
0.8
Ô¤¨±Å¸ ÊÂ
0.6
0.4
Logistic»Ø ¹é Çú Ïß
0.2
ÖÐ ÐÄ Ïß
0
-2.5 -1.5 -0.5 0.5 1.5 2.52031.95 年12月5日 X
ln ln Pr(Y 1) =ln 优势 =ln(odds)
2019年12月5日
优势比改变exp(j)个单位
2019年12月5日
(odds)
优势
Байду номын сангаас
1
Pr(Y Pr(Y
1) 0)
exp(5.8896 0.6443X1 1.9169X8 )
令X 2~X8保持不变,年龄X1改变1个单位(10岁), 如年龄从50岁提高到60岁(X1分别为2,3),患冠心病的 概率增加了exp(0.6443 (3 2)) 1.9047 2倍
2019年12月5日
预报模型
ˆi 1 e x e p x ( p 0 (.0 0 .6 0 1 6 8 1 8 2 .2 0 .4 0 5 4 3 5 X 3 X 1 1 0 .0 7 .6 7 1 6 4 1 4 X X 2 2 1 .1 5 .6 5 4 6 1 4 X 1 X 3 3 0 .0 0 .6 0 9 6 3 9 X 3 X 4 4 0 .0 0 .2 0 4 2 3 4 X 3 X 5 )5 )