Logistic回归分析46392ppt课件
合集下载
最新医学统计学第十六篇--Logistic回归分析教学讲义PPT
12.02.2021
医学统计学
14
二、logistic回归模型的参数估计
1. 参数估计
2. 原理:最大似然( likelihood )估计
n
L
P Yi i
(1
Pi )1 Yi
i 1
n
ln L [Y i ln Pi (1 Y i ) ln (1 Pi ) ]
i 1
b0 , b1 , b2 , , bm
ORj
P1 P0
/(1 P1) /(1 P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时 的发病概率, OR j 称作多变量调整后的优势比, 表示扣除了其他自变量影响后危险因素的作用。
12.02.2021
医学统计学
12
与 logisticP 的关系:
对 比 某 一 危 险 因 素 两 个 不 同 暴 露 水 平 Xj c1与 Xj c0的 发 病 情 况 ( 假 定 其 它 因 素 的 水 平 相 同 ) , 其 优 势 比 的 自 然 对 数 为 :
取值范围 概率P:0~1,logitP:-∞~∞。
12.02.2021
医学统计学
9
1P
00..55
Z : , 0,
P: 0, 0.5, 1
0
Z
-4 -3 -2 -1 0 1 2 3 4
图16-1 logistic函数的图形
12.02.2021
医学统计学
10
模 型
ln 1 P P =01 X 12X 2m X m lo g itP
参 数
常数项 0 表示暴露剂量为0时个体发病
的
与不发病概率之比的自然对数。
logistic回归分析PPT优秀课件
(2)线性回归分析:由于因变量是分类变量,不能满足 其正态性要求;有些自变量对因变量的影响并非线性。
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;
logistic回归分析PPT精品课程课件讲义
问题的提出(续)
• 但在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等;
• 分析“母亲怀孕期间体重增加”对“新生儿出 生低体重”的影响
二、概念的引入
• 如按线性回归思想建立模型: P=α +βX • P的意义是发生出生低体重的概率
• 在线性回归模型中,X的取值是任意的,P值可能大 于1或小于0,无法从医学意义进行解释, 显然不适 宜用线性回归建立预测模型。
表明ECG异常者CHD发病是正常者的2.056倍。 (3) 比较各变量对方程贡献的大小: 根据标化的值大小,确定各因素对CHD发病影响的 大小。在此项研究中,危险因素中吸烟对方程贡献最大 ,其他依次为相对体重、年龄、 胆固醇、ECG和BP。
4) 用于预测发病率: 可根据该公式预测某人在不同因素暴露条件下 CHD的发病率。如某受试者A暴露于因素xi的情况 为: X=(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者A在暴露上述各种研究因 素的条件下,12年间CHD的发病率为: PA1 = 1/{1+exp[-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.7206 x 0)]} = 1/[1+exp(-2.9813)] = 0.048
小 结
• (1)logistic回归分析要求因变量是二分变量,或任何取值
为0或1的属性数据。
• (2)logistic回归分析中对自变量的正态性、方差齐性不作
要求,对自变量类型也不作要求;
• (3)自变量与因变量(y)之间是非线性关系,但是与logit y之
间应符合线性关系。
1. 定群研究资料分析…弗明汉心脏研究 742 名居住在弗明汉年龄为 40-49 岁的男性,在各自暴露不 同水平的影响因素(详见下表中的7种因素),经 12年追踪观察 CHD发病情况。根据此742名受试者每人暴露各项因素的水平 和 CHD 发病与否的资料,采用多因素 LOGISTIC 回归模型进
《logistic回归》课件
03
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
精品课程医学统计学教学课件-logistic回归分析
前瞻性研究方法,将人群按照是否暴露于某因素进行分组,追踪 各组的结局并比较其差异。
详细描述
队列研究在医学中常用于评估危险因素对疾病发生和发展的影响,以及评估预防 措施的效果。通过长期追踪和研究对象的定期随访,收集各组人群的结局数据, 分析暴露因素与结局之间的关联。
随机对照试验
随着大数据和人工智能技术的不断发 展,Logistic回归分析在医学领域的 应用越来越广泛。未来的研究将更加 注重Logistic回归分析与其他先进技 术的结合,如深度学习、机器学习等 ,以提高模型的预测精度和稳定性。
未来的研究将更加关注Logistic回归 分析在临床实践中的应用,如疾病预 测、诊断和治疗方案的制定等。同时 ,如何将Logistic回归分析与其他统 计方法结合,以更好地解决医学实际 问题,也是值得探讨的方向。
课件采用了多种教学方法,如理论讲解、案例分析、软件操作等,使学生能够全面了解和 掌握Logistic回归分析的技能。
教学效果
通过本课件的学习,学生能够熟练掌握Logistic回归分析的基本原理和应用,提高解决实 际问题的能力,为后续的医学研究和临床实践打下坚实的基础。
研究展望
研究前沿
研究方向
教学改进
03
Logistic回归分析在医学 中的应用
病例对照研究
总结词
病例对照研究是一种回顾性研究方法,通过比较病例组和对 照组的暴露情况,探讨疾病与暴露因素之间的关联。
详细描述
在医学领域,病例对照研究常用于探讨病因、预测风险和评 估干预措施的效果。通过收集病例组和对照组的相关信息, 分析暴露因素与疾病发生之间的关系,为病因推断提供依据 。
利用样本数据,建立Logistic回归模 型,描述自变量与因变量之间的关系。
详细描述
队列研究在医学中常用于评估危险因素对疾病发生和发展的影响,以及评估预防 措施的效果。通过长期追踪和研究对象的定期随访,收集各组人群的结局数据, 分析暴露因素与结局之间的关联。
随机对照试验
随着大数据和人工智能技术的不断发 展,Logistic回归分析在医学领域的 应用越来越广泛。未来的研究将更加 注重Logistic回归分析与其他先进技 术的结合,如深度学习、机器学习等 ,以提高模型的预测精度和稳定性。
未来的研究将更加关注Logistic回归 分析在临床实践中的应用,如疾病预 测、诊断和治疗方案的制定等。同时 ,如何将Logistic回归分析与其他统 计方法结合,以更好地解决医学实际 问题,也是值得探讨的方向。
课件采用了多种教学方法,如理论讲解、案例分析、软件操作等,使学生能够全面了解和 掌握Logistic回归分析的技能。
教学效果
通过本课件的学习,学生能够熟练掌握Logistic回归分析的基本原理和应用,提高解决实 际问题的能力,为后续的医学研究和临床实践打下坚实的基础。
研究展望
研究前沿
研究方向
教学改进
03
Logistic回归分析在医学 中的应用
病例对照研究
总结词
病例对照研究是一种回顾性研究方法,通过比较病例组和对 照组的暴露情况,探讨疾病与暴露因素之间的关联。
详细描述
在医学领域,病例对照研究常用于探讨病因、预测风险和评 估干预措施的效果。通过收集病例组和对照组的相关信息, 分析暴露因素与疾病发生之间的关系,为病因推断提供依据 。
利用样本数据,建立Logistic回归模 型,描述自变量与因变量之间的关系。
Logistic回归分析(共53张PPT)
数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
论文经典方法Logistic回归分析及其应用课堂PPT课件PPT40页
概述
1967年Truelt J,Connifield J和Kannel W在《Journal of Chronic Disease》上发表了冠心病危险因素的研究,较早将Logistic回归用于医学研究。一般概念一元直线回归多元直线回归
.
第2页,共40页。
一元直线回归模型 y = a + b x + e多元直线回归模型 y = a + b1x1 + b2x2 + … + bkxk + e
.
第39页,共40页。
其他问题
logistic回归的局限性理论上的不足:自变量对疾病的影响是独立的,但实际情况及推导结果不同。模型有不合理性:“乘法模型”与一般希望的“相加模型”相矛盾。最大似然法估计参数的局限样本含量不宜太少:例数大于200例时才可不考虑参数估计的偏性。
.
第40页,共40页。
.
第30页,共40页。
非条件logistic回归
研究对象之间是否发生某事件是独立的。适用于:成组的病例-对照研究无分层的队列研究或横断面调查诊断性试验
.
第31页,共40页。
条件logistic回归
研究中有N个配比组,每组中n个病例配m个对照者。这时,各个研究对象发生某事件的概率即为条件概率。适用于配比设计的病例-对照研究精细分层设计的队列研究
value labelssex 1 '男' 2 '女'/hisc 1 '是' 0 '否' 9 '无法判断'/nsex 1 '正常' 0 '异常' 9 '未检'/demdx 1 '有' 0 '无'/addx 0 '无' 1 '危险性' 2 '可能' 3 '很可能'/edu 0 ‘文盲’ 1 ‘小学程度’ 2 ‘初中及以上'
1967年Truelt J,Connifield J和Kannel W在《Journal of Chronic Disease》上发表了冠心病危险因素的研究,较早将Logistic回归用于医学研究。一般概念一元直线回归多元直线回归
.
第2页,共40页。
一元直线回归模型 y = a + b x + e多元直线回归模型 y = a + b1x1 + b2x2 + … + bkxk + e
.
第39页,共40页。
其他问题
logistic回归的局限性理论上的不足:自变量对疾病的影响是独立的,但实际情况及推导结果不同。模型有不合理性:“乘法模型”与一般希望的“相加模型”相矛盾。最大似然法估计参数的局限样本含量不宜太少:例数大于200例时才可不考虑参数估计的偏性。
.
第40页,共40页。
.
第30页,共40页。
非条件logistic回归
研究对象之间是否发生某事件是独立的。适用于:成组的病例-对照研究无分层的队列研究或横断面调查诊断性试验
.
第31页,共40页。
条件logistic回归
研究中有N个配比组,每组中n个病例配m个对照者。这时,各个研究对象发生某事件的概率即为条件概率。适用于配比设计的病例-对照研究精细分层设计的队列研究
value labelssex 1 '男' 2 '女'/hisc 1 '是' 0 '否' 9 '无法判断'/nsex 1 '正常' 0 '异常' 9 '未检'/demdx 1 '有' 0 '无'/addx 0 '无' 1 '危险性' 2 '可能' 3 '很可能'/edu 0 ‘文盲’ 1 ‘小学程度’ 2 ‘初中及以上'
《logistic回归分析》PPT课件
3
第一节 非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1
p( y
1|
(2)多分类资料Logistic回归: 因变量为多项分类的资料,可 用多项分类Logistic回归模型或有序分类Logistic回归模型进 行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 无序分类反应变量Logistic回归分析 有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
21
对所拟合模型的假设检验:
概率p值均小 于0.05,说明 方程有意义。
第一节 非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1
p( y
1|
(2)多分类资料Logistic回归: 因变量为多项分类的资料,可 用多项分类Logistic回归模型或有序分类Logistic回归模型进 行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 无序分类反应变量Logistic回归分析 有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
21
对所拟合模型的假设检验:
概率p值均小 于0.05,说明 方程有意义。
[医学]Logistic回归.ppt
/*模型的拟合优度检验*/ run;
结果1:拟合优度检验结果
两种拟合优度检验的结果均显示:P值 =0.64>>0.05,因此可以认为当前模型与拟 合最好的模型比较,差别无统计意义。因此没 有必要对模型作进一步改进。
结果2:模型检验
似然比的卡方=(无协变量的-2LOGL值)-(有两个协变量的- 2LOGL值)=107.669-95.9=11.769,自由度df=2(模型 中的协变量个数),相应的P值=0.0028,因此可以认为两个协 变量的回归系数至少有一个不为0。即:认为模型有统计学意义。
常用统计软件
Logistic回归
Logistic回归分析的分类
按数据的类型: o 非条件logistic回归分析(成组数据) o 条件logistic回归分析(配对病例-对照数据)
按因变量取值个数: o 二分类logistic回归分析 o 多分类logistic回归分析
按自变量个数: o 一元logistic回归分析 o 多元logistic回归分析
实例1
假设我们有一个数据,45个观测值,四个变 量,包括: age(年龄,数值型); vision(视力状况,二分类:1表示差,0表 示好); drive(驾车教育,二分类:1表示参加过驾 车教育,0表示没有); Accident(去年是否发生事故,二分类:1 表示出过事故,0表示没有)。
(取值范围0~1)
考虑使用概率的logit变换函数
0.8
0.6 pP
0.4
0.2
-4
-2
0
2
4
Logiyt(P)
非条件logistic回归的数学模型
因此,我们使用P与(1-P)的比值的对数, 来建立logit(P)与X的多重线性回归模型:
结果1:拟合优度检验结果
两种拟合优度检验的结果均显示:P值 =0.64>>0.05,因此可以认为当前模型与拟 合最好的模型比较,差别无统计意义。因此没 有必要对模型作进一步改进。
结果2:模型检验
似然比的卡方=(无协变量的-2LOGL值)-(有两个协变量的- 2LOGL值)=107.669-95.9=11.769,自由度df=2(模型 中的协变量个数),相应的P值=0.0028,因此可以认为两个协 变量的回归系数至少有一个不为0。即:认为模型有统计学意义。
常用统计软件
Logistic回归
Logistic回归分析的分类
按数据的类型: o 非条件logistic回归分析(成组数据) o 条件logistic回归分析(配对病例-对照数据)
按因变量取值个数: o 二分类logistic回归分析 o 多分类logistic回归分析
按自变量个数: o 一元logistic回归分析 o 多元logistic回归分析
实例1
假设我们有一个数据,45个观测值,四个变 量,包括: age(年龄,数值型); vision(视力状况,二分类:1表示差,0表 示好); drive(驾车教育,二分类:1表示参加过驾 车教育,0表示没有); Accident(去年是否发生事故,二分类:1 表示出过事故,0表示没有)。
(取值范围0~1)
考虑使用概率的logit变换函数
0.8
0.6 pP
0.4
0.2
-4
-2
0
2
4
Logiyt(P)
非条件logistic回归的数学模型
因此,我们使用P与(1-P)的比值的对数, 来建立logit(P)与X的多重线性回归模型:
《Logistic回归》PPT课件
常量 -20.207 4.652 18.866
1 .000
.000
a. 在步骤 1 中输入的变量: 性别, 年龄, 学历, 体重指数, 家族史, 吸烟, 血压, 总胆 固醇, 甘油三脂, 高密度脂蛋白, 低密度脂蛋白.
七、变量筛选
从所用的方法看,有强迫法、前进法、后退 法和逐步法。在这些方法中,筛选变量的过 程与线性回归过程的完全一样。但其中所用 的统计量不再是线性回归分析中的F统计量, 而是以上介绍的参数检验方法中的三种统计 量之一。
八、logistic 回归模型拟合优度检验和预 测准确度检验
(一)拟合优度检验:
Logistic回归模型的拟合优度检验是通过比较模型 预测的与实际观测的事件发生与不发生的频数有无差 别来进行检验。如果预测的值与实际观测的值越接近, 说明模型的拟合效果越好。
·模型的拟合优度检验方法有偏差检验(Deviance)、 皮尔逊(pearson)检验、统计量(Homser-Lemeshow), 分别计算统计量X2D、X2 P、X2HL值。统计量值越小, 对应的概率越大。无效假设H0:模型的拟合效果好。
第九章 Logistic回归
(非条件Logistic回归)
第一节 Logistic回归概述
一、Logistic回归目的: Logistic回归通常以离散 型的分类变量(疾病的死亡、痊愈等)发生结果的 概率为因变量,以影响疾病发生和预后的因素为自 变量建立模型。研究分类变量(因变量)与影响因 素(自变量)之间关系的研究方法。属于概率型非 线性回归方法。
本例模型的似然比检验结果:
X2=-2(ln Lp-ln Lk)=95.497
模 型 系数 的 综 合检 验
步骤 1
步骤 块 模型
Logisic回归分析PPT课件
OORˆ2Rˆ2OOeeRRxx2eˆpp2x(bp的b2bO2e29xRO5pe21Rxˆbe的 .2p2x9可p06.e09S5信ex.5b2x5p26p区2)b1260可 1.间5e1e2x信 :x.616pp1.O9(6区 009.R5.15间 22.266的169: 1
1.69
951.96可 0信.15区72间) :
例冠心病病人和28例对照者进行病例对照研究,各
因素的说明及资料见表16-2和表16-3。试用logistic 逐
步回归分析方法筛选危险因素。
(入 0.10,出 0.15)
39
21
表16-2 冠心病8个可能的危险因素与赋值
因素
变量名
赋值说明
年龄(岁)
X1 <45=1, 4554=2, 5564=3, 65=4
及其注意事项
39
3
目的:作出以多个自变量(危险因素)估计
应变量(结果因素)的logistic回归方程。
属于概率型非线性回归。
资料:1. 应变量为反映某现象发生与不发生的
二值变量;2. 自变量宜全部或大部分为分类
变量,可有少数数值变量。分类变量要数量
化。
39
4
用途:研究某种疾病或现象发生和多个危 险因素(或保护因子)的数量关系。
(1.24,
2.30)
OOR2R的 2 O的R92 59的5可9可 5ex信 p信(可 b区2区信 间1间 .9区 :6:S间 b2 ) : eexxpp((0b.52 2611.961.S9b62 )0.1e5x7p2()0.5(216.214, 21..3906) 0
exepx(pb(2ebx2 p1(.1b9.269S61bS2.b)92 6) Sebx2ep)x(p0(e.05x.25p62(106.1512.6191.6936910..9016.5175207).21)57(12(.1)2.42,4(21,.2.32.034)0, 2).30) 19
【精品】Logistic 回归模型及回归分析PPT课件
3
数据分析的背景
• 单因素的分类资料统计分析,一般采用 Pearson 2进行统计检验,用Odds Ratio 及其95%可信区间评价关联程度。
• 考虑多因素的影响,对于反应变量为分 类变量时,用线性回归模型P=a+bx就不 合适了,应选用Logistic回归模型进行统 计分析。
4
Logistic回归模型
Logistic 回归模型及回归分析
1
Logistic 回归模型
2
数据分析的背景
• 计量资料单因素统计分析 – 对于两组计量资料的比较,一般采用t检 验或秩和检验。
– 对于两个变量的相关分析采用Pearson 相关分析或Spearman相关分析
• 考虑多因素的影响,对于应变量(反应变 量)为计量资料,一般可以考虑应用多重 线性回归模型进行多因素分析。
ln(Odds)
ln( P 1 P
)
0
1x1
mxm
10
Logistic回归模型
• 记: log it(P) ln( P ) 1 P
• 故可以写为
log it(P) 0 1x1 m xm
• 也可以写为
P exp(0 1x1 m xm ) 1 exp(0 1x1 m xm )
准正态分布,即:|z|>1.96,P<0.05,拒绝H0
19
实例1:用Logistic模型进行统计分析
• 实例1的回归系数估计为
ˆ1 0.4117232 ˆ0 -7.962891
• se(b)=0.1780719, z=b/se=2.31 ,P=0.021<0.05 拒绝H0,差异有统计学意义,可认为0。
e0
P 1 e0
1 P 1 e0
数据分析的背景
• 单因素的分类资料统计分析,一般采用 Pearson 2进行统计检验,用Odds Ratio 及其95%可信区间评价关联程度。
• 考虑多因素的影响,对于反应变量为分 类变量时,用线性回归模型P=a+bx就不 合适了,应选用Logistic回归模型进行统 计分析。
4
Logistic回归模型
Logistic 回归模型及回归分析
1
Logistic 回归模型
2
数据分析的背景
• 计量资料单因素统计分析 – 对于两组计量资料的比较,一般采用t检 验或秩和检验。
– 对于两个变量的相关分析采用Pearson 相关分析或Spearman相关分析
• 考虑多因素的影响,对于应变量(反应变 量)为计量资料,一般可以考虑应用多重 线性回归模型进行多因素分析。
ln(Odds)
ln( P 1 P
)
0
1x1
mxm
10
Logistic回归模型
• 记: log it(P) ln( P ) 1 P
• 故可以写为
log it(P) 0 1x1 m xm
• 也可以写为
P exp(0 1x1 m xm ) 1 exp(0 1x1 m xm )
准正态分布,即:|z|>1.96,P<0.05,拒绝H0
19
实例1:用Logistic模型进行统计分析
• 实例1的回归系数估计为
ˆ1 0.4117232 ˆ0 -7.962891
• se(b)=0.1780719, z=b/se=2.31 ,P=0.021<0.05 拒绝H0,差异有统计学意义,可认为0。
e0
P 1 e0
1 P 1 e0
统计学-logistic回归分析ppt课件
最新版整理ppt
38
九、logistic回归的应用举例
• 输精管切除术与动脉粥样硬化疾病的研究
• 1.问题的描述
(1)输精管切除术是否与动脉粥样硬化疾病 有关?
(2)如果存在联系,与其他已知的危险因素 相比,输精管切除术的相对重要性有多大?
(3)哪些男性亚群在输精管切除术以后发生 动脉粥样硬化疾病的可能性特别大?
• 条件Logistic回归的回归系数检验与分 析,和非条件Logistic回归完全相同。
最新版整理ppt
36
八、logistic回归的应用
1.疾病(某结果)的危险因素分析和筛选
用回归模型中的回归系数(βi)和OR说明 危险因素与疾病的关系。
适用的资料:
前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。
或
p (y 1 /x 1 ,x 2 x k) 1 e (0 1 1 x k ....kx k)
最新版整理ppt
10
2.模型中参数的意义
ln1PP=01X1
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
ln1PP (y(y 1/0x/x 0)0)=0
最新版整理ppt
调查员审阅每日住院病人情况如果诊断适合研究的范围将病例转给心脏病主任医师作评估由他做出病例诊断是否合格的决定调查人员核对病人背景资料是否合格如果病人满足诊断标椎和背景资料合格调查人员开始询问并填写调查表每完成5个病例和10个配对对照以后请研究中心的工作人员对调查表进行评估重复以上步骤
第十六章 logistic回归分析
最新版整理ppt
28
• 分析因素xi为等级变量时,如果每个等级的 作用相同,可按计量资料处理:如以最小或
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ 估计就是使Ln(L)达到最大的 。
12
二项Logistic回归方程的检验
回归方程的显著性检验 ✓ 目的:检验解释变量全体与LogitP (定 义 LogitP=ln )
的线性关系是否显著,是否可以用线性模型拟合。 ✓ 检验思想:设没有引入任何解释变量的回归方程的
似然函数为 L 0 ,引入解释变量之后回归方程的似然 函数值为 L 1 ,则似然比为 L 0 / L 1 。显然,0L0/L11 ,且 0L0/L11越接近于1,则表明模型中的解释 变量对模型总体没有显著贡献;反之,越接近于0 ,则表明引入变量对模型具有显著贡献。
第九章 Logistic回归分析
9.1Logistic回归分析概述
问题1:研究消费者的不同特征如何影响是否购买 小轿车时,消费者的年龄、年收入、职业、性别等 因素将作为解释变量,是否购买作为被解释变量, 此时的被解释变量是一个二分类变量。
问题2:在研究消费者特征对某种商品的品牌选择 取向时,品牌作为被解释变量,由于候选品牌多样 ,因此是一个多分类问题。
以比较(两个胜算的比值),称为胜算比。 例如:大公司成功经营的概率为10/11,小公司成功
经营的概率为2/13, 则大公司成功经营的胜算为(10/11)/(1/11)=10 小公司成功经营的胜算为(2/13)/(11/13)=0.182 即Odds ratio=10/0.182=55, 即可以解释为大公司的成功胜算为小公司成功胜算的
即当被解释变量出现分类变量时,如果建立普通的回 归模型会违背回归模型的前提析。
Logistic回归分析
二项Logistic回归分析: Y为二分类
多项Logistic回归分析: Y为多分类
5
1967年Truelt J,Connifield J和Kannel W在 《Journal of Chronic Disease》上发表了冠心病危险
2
问题3:在流行病学的研究中,有一类常见问题是 探索某疾病的危险因素,同时根据危险因素预测某 疾病发生的概率。例如,想探讨胃癌发生的危险因 素,选择两组人群,一组胃癌患者,另一组非胃癌 患者,这形成了因变量。两组人群肯定有不同的体 征和生活方式,自变量可以包括很多,例如:年龄 、性别、饮食习惯、幽门螺杆菌感染等。
注:以上问题的共同点是因变量不是连续型变量, 而是分类变量。
3
若因变量是被解释变量,则一般线性模型会出现以 下问题:
✓ 对于任意给定的 x i 值,残差 i 也变成了离散型变 量,不是正态分布,因此导致无法进行相应的统计 推断。
✓ 对于任意给定的 x i 值,残差 i 也不再满足
E(i)0,D (i)2
✓ 检验思想:通过构造Wald统计量进行检验,Wald统 计量和似然比统计量都是极大似然估计方法中常用 的检验统计量。
✓ 方法: H0 : j 0
Waldi
( ˆj
Sˆj
)2
~
2(1)
15
模型拟合优度的评价与检验 ✓ 目的:第一,回归方程能够解释被解释变量变差的
程度,即线性回归的部分能解释LogitP的程度,这 一点与一般线性回归分析是相同的;第二,由回归 方程得到的概率进行分别判别的准确率。 ✓ 方法: 第一目的:Cox&Snell R2 统计量和 NagelkerkeR2统计量 第二目的:混淆矩阵(错判矩阵)和
55倍。
10
二项Logistic回归方程系数的含义:
p
因为 exp(0 ixi),
当自变量 x i 增加一i1 个单位时,则有
p
*exp(10 ixi)
i1
于是:
*
exp( i )
即表明:当其它解释条件不变时,x i 增加一个单位时
所导致的相对风险是原来相对风险的exp( i ) 倍。即
13
✓ 方法:似然比卡方检验
H 0:12 p0
ln(L0)22ln(L0)~2(p)
L1
L1
统计量的观测值越大越好,或观测值对应的概率p值
,p<a,拒绝原假设,认为回归方程整体显著;
p>a,接受原假设,认为回归方程整体不显著。
14
回归系数的显著性检验
✓ 目的:需要对每个回归系数的显著性进行检验。
因素的研究,较早将Logistic回归用于医学研究。
6
9.2二项Logistic回归分析
二项Logistic回归方程: 设 P(Y1)P,称 P 为发生比(Odds)或
相对风险,则定义 1 P
P
ln( ) 1 P
0
p i1
i xi
P
1
p
1 exp[( 0 i xi )]
i1
7
模型的评价: ✓ 二项Logistic回归模型很好的体现了概率P值和解释
例如:考上大学的概率为0.25, 则考上大学的odds为0.25/0.75=0.3333:1=1:3,可
以解释为考上与考不上之比为1:3 同理,可以计算考不上大学的odds为0.75/0.25=3:1
,可以解释为考不上与考上之比为1:3
9
相对风险比(胜算比,odds ratio)的意义 0dds ratio:在自变量处于不同的水平时的胜算,加
控制其它变量不变时,x增加一个单位的相对风e险xp( i )
比
exp( i )
即x在不同水平时的,二者的Odds radio是
。 11
二项Logistic回归方程的参数估计: 一般的线性回归模型适合于使用最小二乘法进行估计
,但是,由于Logistic回归模型中随机扰动项并不满 足经典假设,所以需要使用极大似然法估计。
Hosmer-Lemeshow检验
16
Cox&Snell R2统计量=
1
(
L0 L1
)
2 N
,N为样本容量。
该统计量类似于一般线性模型中的R方,统计量的值
越大表明模型的拟合优度越高。不足之处在于其取
值范围无法确定,不利于模型之间的比较。
Cox & Snell R 2
该N统ag计el量ker的ke取R2值统范计围量为=0~11, (值L0 )越N2 大表明模型拟合程 度越高,越接近于0说明模型拟合优度越低。
变量之间的非线性关系。 ✓ 二项Logistic回归模型本质是一个二分类的线性概率
模型。 ✓ 通过模型计算P(Y=1)和P(Y=0)的概率,经过比较两
个概率的大小,可以对样本进行类别预测。
8
发生比(相对风险,胜算,odds)的意义: Odds: P 某事件发生概率与不发生概率之 1 P 比。
12
二项Logistic回归方程的检验
回归方程的显著性检验 ✓ 目的:检验解释变量全体与LogitP (定 义 LogitP=ln )
的线性关系是否显著,是否可以用线性模型拟合。 ✓ 检验思想:设没有引入任何解释变量的回归方程的
似然函数为 L 0 ,引入解释变量之后回归方程的似然 函数值为 L 1 ,则似然比为 L 0 / L 1 。显然,0L0/L11 ,且 0L0/L11越接近于1,则表明模型中的解释 变量对模型总体没有显著贡献;反之,越接近于0 ,则表明引入变量对模型具有显著贡献。
第九章 Logistic回归分析
9.1Logistic回归分析概述
问题1:研究消费者的不同特征如何影响是否购买 小轿车时,消费者的年龄、年收入、职业、性别等 因素将作为解释变量,是否购买作为被解释变量, 此时的被解释变量是一个二分类变量。
问题2:在研究消费者特征对某种商品的品牌选择 取向时,品牌作为被解释变量,由于候选品牌多样 ,因此是一个多分类问题。
以比较(两个胜算的比值),称为胜算比。 例如:大公司成功经营的概率为10/11,小公司成功
经营的概率为2/13, 则大公司成功经营的胜算为(10/11)/(1/11)=10 小公司成功经营的胜算为(2/13)/(11/13)=0.182 即Odds ratio=10/0.182=55, 即可以解释为大公司的成功胜算为小公司成功胜算的
即当被解释变量出现分类变量时,如果建立普通的回 归模型会违背回归模型的前提析。
Logistic回归分析
二项Logistic回归分析: Y为二分类
多项Logistic回归分析: Y为多分类
5
1967年Truelt J,Connifield J和Kannel W在 《Journal of Chronic Disease》上发表了冠心病危险
2
问题3:在流行病学的研究中,有一类常见问题是 探索某疾病的危险因素,同时根据危险因素预测某 疾病发生的概率。例如,想探讨胃癌发生的危险因 素,选择两组人群,一组胃癌患者,另一组非胃癌 患者,这形成了因变量。两组人群肯定有不同的体 征和生活方式,自变量可以包括很多,例如:年龄 、性别、饮食习惯、幽门螺杆菌感染等。
注:以上问题的共同点是因变量不是连续型变量, 而是分类变量。
3
若因变量是被解释变量,则一般线性模型会出现以 下问题:
✓ 对于任意给定的 x i 值,残差 i 也变成了离散型变 量,不是正态分布,因此导致无法进行相应的统计 推断。
✓ 对于任意给定的 x i 值,残差 i 也不再满足
E(i)0,D (i)2
✓ 检验思想:通过构造Wald统计量进行检验,Wald统 计量和似然比统计量都是极大似然估计方法中常用 的检验统计量。
✓ 方法: H0 : j 0
Waldi
( ˆj
Sˆj
)2
~
2(1)
15
模型拟合优度的评价与检验 ✓ 目的:第一,回归方程能够解释被解释变量变差的
程度,即线性回归的部分能解释LogitP的程度,这 一点与一般线性回归分析是相同的;第二,由回归 方程得到的概率进行分别判别的准确率。 ✓ 方法: 第一目的:Cox&Snell R2 统计量和 NagelkerkeR2统计量 第二目的:混淆矩阵(错判矩阵)和
55倍。
10
二项Logistic回归方程系数的含义:
p
因为 exp(0 ixi),
当自变量 x i 增加一i1 个单位时,则有
p
*exp(10 ixi)
i1
于是:
*
exp( i )
即表明:当其它解释条件不变时,x i 增加一个单位时
所导致的相对风险是原来相对风险的exp( i ) 倍。即
13
✓ 方法:似然比卡方检验
H 0:12 p0
ln(L0)22ln(L0)~2(p)
L1
L1
统计量的观测值越大越好,或观测值对应的概率p值
,p<a,拒绝原假设,认为回归方程整体显著;
p>a,接受原假设,认为回归方程整体不显著。
14
回归系数的显著性检验
✓ 目的:需要对每个回归系数的显著性进行检验。
因素的研究,较早将Logistic回归用于医学研究。
6
9.2二项Logistic回归分析
二项Logistic回归方程: 设 P(Y1)P,称 P 为发生比(Odds)或
相对风险,则定义 1 P
P
ln( ) 1 P
0
p i1
i xi
P
1
p
1 exp[( 0 i xi )]
i1
7
模型的评价: ✓ 二项Logistic回归模型很好的体现了概率P值和解释
例如:考上大学的概率为0.25, 则考上大学的odds为0.25/0.75=0.3333:1=1:3,可
以解释为考上与考不上之比为1:3 同理,可以计算考不上大学的odds为0.75/0.25=3:1
,可以解释为考不上与考上之比为1:3
9
相对风险比(胜算比,odds ratio)的意义 0dds ratio:在自变量处于不同的水平时的胜算,加
控制其它变量不变时,x增加一个单位的相对风e险xp( i )
比
exp( i )
即x在不同水平时的,二者的Odds radio是
。 11
二项Logistic回归方程的参数估计: 一般的线性回归模型适合于使用最小二乘法进行估计
,但是,由于Logistic回归模型中随机扰动项并不满 足经典假设,所以需要使用极大似然法估计。
Hosmer-Lemeshow检验
16
Cox&Snell R2统计量=
1
(
L0 L1
)
2 N
,N为样本容量。
该统计量类似于一般线性模型中的R方,统计量的值
越大表明模型的拟合优度越高。不足之处在于其取
值范围无法确定,不利于模型之间的比较。
Cox & Snell R 2
该N统ag计el量ker的ke取R2值统范计围量为=0~11, (值L0 )越N2 大表明模型拟合程 度越高,越接近于0说明模型拟合优度越低。
变量之间的非线性关系。 ✓ 二项Logistic回归模型本质是一个二分类的线性概率
模型。 ✓ 通过模型计算P(Y=1)和P(Y=0)的概率,经过比较两
个概率的大小,可以对样本进行类别预测。
8
发生比(相对风险,胜算,odds)的意义: Odds: P 某事件发生概率与不发生概率之 1 P 比。