logistic回归分析课件
合集下载
logistic回归分析精选PPT课件
Number of obs =
LR chi2(1)
=
Prob > chi2
=
Pseudo R2
=
152 30.67 0.0000 0.1455
------------------------------------------------------------------------------
case |
Coef. Std. Err.
z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exposure | 2.112829 .4228578 5.00 0.000 1.284043 2.941615
2
二分类资料的分析
非条件logistic模型:成组病例对照研究资料 条件logistic模型:配比病例对照研究资料3源自非条件logistic回归模型
lo ( p ) g 0 + i 1 X 1 + t = 2 X 2 k X k
01X1+ 2X2+ + kXk
p1ee01X12X2 kXk 1
|------------------------+----------------------
Odds ratio |
8.271605
| 3.4193 21.33091 (exact)
Attr. frac. ex. |
.8791045
| .7075425 .9531197 (exact)
Attr. frac. pop |
.4626866
logistic回归 ppt课件
比值比
OR=[P1/(1-P1)]/[P2/(1-P2)]
比值比 Odds Ratio
Odds=P/(1-P) 暴露组: P=a/(a+b) 1-P= b/(a+b) Odds=a/b 非暴露组:P=c/(c+d) 1-P= d/(c+d) Odds=c/d
病例 对照
暴露组
非暴露组
a c
b d
P ad 1 /(1 P 1) OR P0 /(1 P0 ) bc
相同,如下表: X1 暴露(X2=1) 非暴露(X2=0) X1 X1 X2 X2+1 X2 X3 X3 X3
Logistic回归系数与OR的关系:
P * ) exp b0 b1 x1 b2 ( x2 1) b3 x3 暴露: ( 1 P expb0 b1x1 b2 x 2 b3x3 b2
当年龄为a时, odds(Y=1|age=a) = exp(-4.353 + 0.038 a) 当年龄为a+1, odds(Y=1|age=a+1) = exp(-4.353 + 0.038 (a+1))
P ) exp b 0 b1x1 b 2 x 2 b 3 x 3 非暴露:( 1 P
p * ( ) 1 p exp(b 2 ) OR p 1 p
例:log odds (Y=1) = - 4.353 + 0.038 age
Y:妇女是否患有骨质疏松,Y=1为是,Y=0为否
1 , 2 ….. m分别为m个自变量的回归系数。 P ln( ) 取值:-∞ ~ +∞ 1 P
Logistic回归模型的函数
1.00
logistic回归分析PPT优秀课件
(2)线性回归分析:由于因变量是分类变量,不能满足 其正态性要求;有些自变量对因变量的影响并非线性。
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;
13.Logistic回归分析(09) PPT课件
0
1
0
45
1.7
0
1
0
46
5.1
0
1
0
47
1.1
0
1
0
48
32.0
0
1
0
49
12.8
0
1
0
50
1.4
0
1
0
全回归方程:
Variables in the Equation
S1atep
X1 X2
B
S.E. Wald
df
-.002 .006 .167
1
.792 .487 2.643
1
X3
-2.830 .793 12.726
0
1
0
45
1.7
0
1
0
46
5.1
0
1
0
47
1.1
0
1
0
48
32.0
0
1
0
49
12.8
0
1
0
50
1.4
0
1
0
观察号
因素
i
X1
X2
X3
1
2.5
0
0
2
1.2
2
0
3
173.0
2
0
4
3.5
0
0
5
119.0
2
0
6
39.7
0
0
7
10.0
2
0
8
62.4
0
0
9
502.2
2
0
10
2.4
logistic回归分析PPT精品课程课件讲义
问题的提出(续)
• 但在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等;
• 分析“母亲怀孕期间体重增加”对“新生儿出 生低体重”的影响
二、概念的引入
• 如按线性回归思想建立模型: P=α +βX • P的意义是发生出生低体重的概率
• 在线性回归模型中,X的取值是任意的,P值可能大 于1或小于0,无法从医学意义进行解释, 显然不适 宜用线性回归建立预测模型。
表明ECG异常者CHD发病是正常者的2.056倍。 (3) 比较各变量对方程贡献的大小: 根据标化的值大小,确定各因素对CHD发病影响的 大小。在此项研究中,危险因素中吸烟对方程贡献最大 ,其他依次为相对体重、年龄、 胆固醇、ECG和BP。
4) 用于预测发病率: 可根据该公式预测某人在不同因素暴露条件下 CHD的发病率。如某受试者A暴露于因素xi的情况 为: X=(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者A在暴露上述各种研究因 素的条件下,12年间CHD的发病率为: PA1 = 1/{1+exp[-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.7206 x 0)]} = 1/[1+exp(-2.9813)] = 0.048
小 结
• (1)logistic回归分析要求因变量是二分变量,或任何取值
为0或1的属性数据。
• (2)logistic回归分析中对自变量的正态性、方差齐性不作
要求,对自变量类型也不作要求;
• (3)自变量与因变量(y)之间是非线性关系,但是与logit y之
间应符合线性关系。
1. 定群研究资料分析…弗明汉心脏研究 742 名居住在弗明汉年龄为 40-49 岁的男性,在各自暴露不 同水平的影响因素(详见下表中的7种因素),经 12年追踪观察 CHD发病情况。根据此742名受试者每人暴露各项因素的水平 和 CHD 发病与否的资料,采用多因素 LOGISTIC 回归模型进
《logistic回归》课件
03
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
Logisic回归分析PPT课件
0
吸烟 不吸烟
各 变 量
X2
1
0
饮酒 不饮酒
编
码
Y
1
病例
0
对照
39
17
表16-1 吸烟与食道癌关系的病例-对照调查资料
分层 吸烟 饮酒 观察例数 阳性数 阴性数
g
X1
X2
ng
dg
ng dg
1
0
0
199
63 136
2
0
1
170
63 107
3
1
0
101
44
57
4
1
1
416
265 151
39
18
经 logistic 回归计算后得
计算公式为:
OR j
P1 P0
/(1 /(1
P1 ) P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时 的发病概率, ORj 称作多变量调整后的优势比, 表示扣除了其他自变量影响后危险因素的作用。
39
12
与 logisticP 的关系:
对比某一危险因素两个不同暴露水平X j c1 与X j c0 的发病 情况(假定其它因素的水平相同),其优势比的自然对数为:
.
51
2
0
1
1
0
1
2
1
1
52
2
1
1
1
0
0
2
1
1
53
2
1
0
1
0
0
1
1
1
54
3
1
1
0
1
Logistic回归分析(共53张PPT)
数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
logistic回归(共36张PPT)
二分类自变量 系数为比数比的对数值,由此比数比=eb
多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。
连续型自变量 当自变量改变一个单位时,比数比为eb
2022/11/3
27
输出结果的解释
模型拟合的优劣
自变量与结果变量(因变量)有无关系
确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自变 量的比数比的临床意义
3
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关
疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
2022/11/3
4
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
2022/11/3
28
输出结果的解释
模型的预测结果的评价
敏感度、特异度和阳性预测值
正确选择预测概率界值,简单地以0.5为 界值,但并不是最好的。
C指数
预测结果与观察结果的一致性的度量。 C值越大(最大为1),模型预测结果的
能力越强。
2022/11/3
29
非条件logistic回归
研究对象之间是否发生某事件是 独立的。 适用于:
放入所有变量,再逐个筛选
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因
素分析时,建议用后退法。当变量间有完全相关性时,后退法无 法使用,可用前进法。
2022/11/3
21
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量 的变化而改变时,则存在交互作用
多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。
连续型自变量 当自变量改变一个单位时,比数比为eb
2022/11/3
27
输出结果的解释
模型拟合的优劣
自变量与结果变量(因变量)有无关系
确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自变 量的比数比的临床意义
3
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关
疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
2022/11/3
4
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
2022/11/3
28
输出结果的解释
模型的预测结果的评价
敏感度、特异度和阳性预测值
正确选择预测概率界值,简单地以0.5为 界值,但并不是最好的。
C指数
预测结果与观察结果的一致性的度量。 C值越大(最大为1),模型预测结果的
能力越强。
2022/11/3
29
非条件logistic回归
研究对象之间是否发生某事件是 独立的。 适用于:
放入所有变量,再逐个筛选
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因
素分析时,建议用后退法。当变量间有完全相关性时,后退法无 法使用,可用前进法。
2022/11/3
21
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量 的变化而改变时,则存在交互作用
《Logistic回归》PPT课件
常量 -20.207 4.652 18.866
1 .000
.000
a. 在步骤 1 中输入的变量: 性别, 年龄, 学历, 体重指数, 家族史, 吸烟, 血压, 总胆 固醇, 甘油三脂, 高密度脂蛋白, 低密度脂蛋白.
七、变量筛选
从所用的方法看,有强迫法、前进法、后退 法和逐步法。在这些方法中,筛选变量的过 程与线性回归过程的完全一样。但其中所用 的统计量不再是线性回归分析中的F统计量, 而是以上介绍的参数检验方法中的三种统计 量之一。
八、logistic 回归模型拟合优度检验和预 测准确度检验
(一)拟合优度检验:
Logistic回归模型的拟合优度检验是通过比较模型 预测的与实际观测的事件发生与不发生的频数有无差 别来进行检验。如果预测的值与实际观测的值越接近, 说明模型的拟合效果越好。
·模型的拟合优度检验方法有偏差检验(Deviance)、 皮尔逊(pearson)检验、统计量(Homser-Lemeshow), 分别计算统计量X2D、X2 P、X2HL值。统计量值越小, 对应的概率越大。无效假设H0:模型的拟合效果好。
第九章 Logistic回归
(非条件Logistic回归)
第一节 Logistic回归概述
一、Logistic回归目的: Logistic回归通常以离散 型的分类变量(疾病的死亡、痊愈等)发生结果的 概率为因变量,以影响疾病发生和预后的因素为自 变量建立模型。研究分类变量(因变量)与影响因 素(自变量)之间关系的研究方法。属于概率型非 线性回归方法。
本例模型的似然比检验结果:
X2=-2(ln Lp-ln Lk)=95.497
模 型 系数 的 综 合检 验
步骤 1
步骤 块 模型
【精品】Logistic 回归模型及回归分析PPT课件
3
数据分析的背景
• 单因素的分类资料统计分析,一般采用 Pearson 2进行统计检验,用Odds Ratio 及其95%可信区间评价关联程度。
• 考虑多因素的影响,对于反应变量为分 类变量时,用线性回归模型P=a+bx就不 合适了,应选用Logistic回归模型进行统 计分析。
4
Logistic回归模型
Logistic 回归模型及回归分析
1
Logistic 回归模型
2
数据分析的背景
• 计量资料单因素统计分析 – 对于两组计量资料的比较,一般采用t检 验或秩和检验。
– 对于两个变量的相关分析采用Pearson 相关分析或Spearman相关分析
• 考虑多因素的影响,对于应变量(反应变 量)为计量资料,一般可以考虑应用多重 线性回归模型进行多因素分析。
ln(Odds)
ln( P 1 P
)
0
1x1
mxm
10
Logistic回归模型
• 记: log it(P) ln( P ) 1 P
• 故可以写为
log it(P) 0 1x1 m xm
• 也可以写为
P exp(0 1x1 m xm ) 1 exp(0 1x1 m xm )
准正态分布,即:|z|>1.96,P<0.05,拒绝H0
19
实例1:用Logistic模型进行统计分析
• 实例1的回归系数估计为
ˆ1 0.4117232 ˆ0 -7.962891
• se(b)=0.1780719, z=b/se=2.31 ,P=0.021<0.05 拒绝H0,差异有统计学意义,可认为0。
e0
P 1 e0
1 P 1 e0
数据分析的背景
• 单因素的分类资料统计分析,一般采用 Pearson 2进行统计检验,用Odds Ratio 及其95%可信区间评价关联程度。
• 考虑多因素的影响,对于反应变量为分 类变量时,用线性回归模型P=a+bx就不 合适了,应选用Logistic回归模型进行统 计分析。
4
Logistic回归模型
Logistic 回归模型及回归分析
1
Logistic 回归模型
2
数据分析的背景
• 计量资料单因素统计分析 – 对于两组计量资料的比较,一般采用t检 验或秩和检验。
– 对于两个变量的相关分析采用Pearson 相关分析或Spearman相关分析
• 考虑多因素的影响,对于应变量(反应变 量)为计量资料,一般可以考虑应用多重 线性回归模型进行多因素分析。
ln(Odds)
ln( P 1 P
)
0
1x1
mxm
10
Logistic回归模型
• 记: log it(P) ln( P ) 1 P
• 故可以写为
log it(P) 0 1x1 m xm
• 也可以写为
P exp(0 1x1 m xm ) 1 exp(0 1x1 m xm )
准正态分布,即:|z|>1.96,P<0.05,拒绝H0
19
实例1:用Logistic模型进行统计分析
• 实例1的回归系数估计为
ˆ1 0.4117232 ˆ0 -7.962891
• se(b)=0.1780719, z=b/se=2.31 ,P=0.021<0.05 拒绝H0,差异有统计学意义,可认为0。
e0
P 1 e0
1 P 1 e0
精品PPT课件----Logistic 回归20页PPT
精品PPT课件----Logistic 回归
•
26、我们像鹰一样,生来就是自由的 ,但是 为了生 存,我 们不得 不为自 己编织 一个笼 子,然 后把自 己关在 里面。 ——博 莱索
•
27、法律如果不讲道理,即使延续时 间再长 ,也还 是没有 制约力 的。— —爱·科 克
•
28、好法律是由坏风俗创造出来的。 ——马 克罗律支配的人类 的状态 中,哪 里没有 法律, 那里就 没有自 由。— —洛克
•
30、风俗可以造就法律,也可以废除 法律。 ——塞·约翰逊
31、只有永远躺在泥坑里的人,才不会再掉进坑里。——黑格尔 32、希望的灯一旦熄灭,生活刹那间变成了一片黑暗。——普列姆昌德 33、希望是人生的乳母。——科策布 34、形成天才的决定因素应该是勤奋。——郭沫若 35、学到很多东西的诀窍,就是一下子不要学很多。——洛克
《logistic回归分析》课件
信用卡欺诈检测
应用逻辑回归模型检测信用 卡交易中的欺诈行为,保护 用户利益和减少风险。
电影推荐
利用逻辑回归模型根据用户 的历史行为和偏好进行电影 推荐,提供个性化的影片推 荐。
总结与展望
Logistic回归分析的优点和不足
总结逻辑回归分析的优点和限制,讨论其适用范围和局限性。
发展前景
展望逻辑回归分析在未来的发展趋势和应用领域。
探讨Logistic回归分析在实际问题中的广泛应用。
Logistic回归与线性回归的区别
比较Logistic回归和线性回归之间的差异和适用情况。
逻辑回归模型及其基本假设
1 Sigmoid函数
2 逻辑回归的数学模
型
介绍Sigmoid函数及其在
3 基本假设
描述逻辑回归模型中的
逻辑回归中的作用。
解释逻辑回归的数学模
《logistic回归分析》PPT 课件
介绍logistic回归分析的PPT课件,涵盖课程内容、逻辑回归模型、参数估计与 模型拟合、分类结果与型诊断、实战案例、总结与展望以及参考文献。
课程介绍
什么是Logistic回归分析
介绍Logistic回归分析的基本概念和原理。
Logistic回归分析的应用
• [3]C. Bishop (2006) Pattern recognition and machine learning. Springer.
讨论如何评估逻辑回归模型的分类结果,确定 哪些样本属于正类和负类。
ROC曲线
解释ROC曲线在逻辑回归模型中的作用,用于评 估模型的分类性能。
混淆矩阵
介绍混淆矩阵,用于评估逻辑回归模型的分类 准确性和误判情况。
模型的诊断
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
模 型 常数项 0 表示暴露剂量为0时个体发病 参 与不发病概率之比的自然对数。 数 的 回归系数 j ( j 1,2,, m) 表示自变量 意 改变一个单位时logitP 的改变量。 Xj 义
取值范围 概率P:0~1,logitP:-∞~∞。
优势比OR(odds ratio)
流行病学衡量危险因素作用大小的比数比例指标。 计算公式为:
研究问题可否用多元线性回归方法?
ˆ y a b x b x b x 1 1 2 2 m m 1.多元线性回归方法要求 Y 的取值为计量
的连续性随机变量。 2.多元线性回归方程要求Y与X间关系为线 性关系。 ˆ 不能回答“发生与 3.多元线性回归结果 Y 否” logistic回归方法补充多元线性回归的不足
资料:1. 应变量为反映某现象发生与不发生的 二值变量;2. 自变量宜全部或大部分为分类 变量,可有少数数值变量。分类变量要数量
化。
用途:研究某种疾病或现象发生和多个危 险因素(或保护因子)的数量关系素; 2.只能得出定性结论。
2
种类: 1. 成组(非条件)logistic回归方程。
一、基本概念
logistic回归要求应变量(Y)取值为分类变量 (两分类或多个分类)
1 Y 0
出现阳性结果 (发病、有效、死亡等) 出现阴性结果 (未发病、无效、存活等 )
自变量(Xi)称为危险因素或暴露因素,可为连续 变量、等级变量、分类变量。 可有m个自变量X1, X2,… Xm
目的:作出以多个自变量(危险因素)估计 应变量(结果因素)的logistic回归方程。 属于概率型非线性回归。
表16-1 吸烟与食道癌关系的病例-对照调查资料
分层 吸烟 饮酒 观察例数 阳性数 阴性数
g 1 2 3 4
X1 0 0 1 1
X2 0 1 0 1
ng 199 170 101 416
及其注意事项
39
3
问题提出:
医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何? 因素(X) 疾病结果(Y) x1,x2,x3…XK 发生 Y=1 不发生 Y=0 例:暴露因素 冠心病结果 高血压史(x1):有 或无 有 或 无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无
第十六章 logistic回归分析
(Logistic Regression)
39
1
Content
Logistic
regression Conditional logistic regression Application
39
2
讲述内容:
第一节 logistic回归
第二节 条件logistic回归 第三节 logistic回归的应用
t j t j m m
即 OR j exp[ j ( c1 c 0 )]
1 若X j 0 暴露 , c1 c0 1, 非 暴露
0, OR j 1 无作用 则有 OR j exp j , j >0, OR j 1 危险因子 0, OR j 1 保护因子
2. 配对(条件)logistic回归方程。
第一节
logistic回归
(非条件logistic回归 )
一、基本概念
1 发生 应变量Y , 自 变 量 X 1, X 2 , 0 未发生
,Xm
在m个自变量的作用下阳性结果发生的概率记作:
P P (Y 1 | X 1 , X 2 , , X m )
i 1 n
ln L
[Y
i 1
n
i
ln Pi (1 Yi ) ln(1 Pi )]
b0 , b1 , b2 , , bm
2. 优势比估计 可反映某一因素两个不 同水平(c1,c0)的优势比。
ˆ exp[ b ( c c )] OR j j 1 0
若自变量 X j 只有暴露和非暴露两个水 平, 则优势比 OR j 的1 可信区间估计公式为
exp( b j u / 2 S b )
j
例16-1 表16-1是一个研究吸烟、饮酒与食道癌关 系的病例-对照资料,试作logistic回归分析。
确 定 各 变 量 编 码
1 X1 0 1 X2 0 1 Y 0
吸烟 不吸烟 饮酒 不饮酒 病例 对照
0 P 1
1
P
0.5 0.5
Z : , 0, P : 0, 0.5, 1
Z
0 1 2 3 4
0 -4 -3 -2 -1
图16-1 logistic函数的图形
P ln = 0 1 X 1 2 X 2 1 P
m X m log itP
P 1 /(1 P 1) ln OR j ln 1 logitP 0 logitP P /(1 P ) 0 0 ( 0 j c1 t X t ) ( 0 j c0 t X t ) j (c1 c0 )
P1 /(1 P1 ) 当 P 1, 则有 OR RR P0 /(1 P0 )
由于 OR j 值与模型中的常数项 0 无关, 0 在危险因素分析中通常视其为无效参数。
二、logistic回归模型的参数估计
1. 参数估计
原理:最大似然( likelihood )估计
L Pi Yi (1 Pi )1Yi
P1 /(1 P1 ) OR j P0 /(1 P0 )
式 中 P1 和 P0 分 别 表 示 在 X j 取 值 为 c1 及 c0 时 的发病概率, OR j 称作多变量调整后的优势比, 表示扣除了其他自变量影响后危险因素的作用。
与 logisticP 的关系:
对比某一危险因素两个不同暴露水平 X j c1 与 X j c 0 的发病 情况(假定其它因素的水平相同) ,其优势比的自然对数为 :