统计学-logistic回归ppt

合集下载

统计学-logistic回归分析61页PPT

统计学-logistic回归分析61页PPT
统计学-logistic回归分析

26、我们像鹰一样,生来就是自由的 ,但是 为了生 存,我 们不得 不为自 己编织 一个笼 子,然 后把自 己关在 里面。 ——博 莱索
•பைடு நூலகம்
27、法律如果不讲道理,即使延续时 间再长 ,也还 是没有 制约力 的。— —爱·科 克

28、好法律是由坏风俗创造出来的。 ——马 克罗维 乌斯
23、一切节省,归根到底都归结为时间的节省。——马克思 24、意志命运往往背道而驰,决心到最后会全部推倒。——莎士比亚
25、学习是劳动,是充满思想的劳动。——乌申斯基
谢谢!

29、在一切能够接受法律支配的人类 的状态 中,哪 里没有 法律, 那里就 没有自 由。— —洛克

30、风俗可以造就法律,也可以废除 法律。 ——塞·约翰逊
21、要知道对好事的称颂过于夸大,也会招来人们的反感轻蔑和嫉妒。——培根 22、业精于勤,荒于嬉;行成于思,毁于随。——韩愈

logistic回归 ppt课件

logistic回归  ppt课件

比值比
OR=[P1/(1-P1)]/[P2/(1-P2)]
比值比 Odds Ratio
Odds=P/(1-P) 暴露组: P=a/(a+b) 1-P= b/(a+b) Odds=a/b 非暴露组:P=c/(c+d) 1-P= d/(c+d) Odds=c/d
病例 对照
暴露组
非暴露组
a c
b d
P ad 1 /(1 P 1) OR P0 /(1 P0 ) bc
相同,如下表: X1 暴露(X2=1) 非暴露(X2=0) X1 X1 X2 X2+1 X2 X3 X3 X3
Logistic回归系数与OR的关系:
P * ) exp b0 b1 x1 b2 ( x2 1) b3 x3 暴露: ( 1 P expb0 b1x1 b2 x 2 b3x3 b2
当年龄为a时, odds(Y=1|age=a) = exp(-4.353 + 0.038 a) 当年龄为a+1, odds(Y=1|age=a+1) = exp(-4.353 + 0.038 (a+1))
P ) exp b 0 b1x1 b 2 x 2 b 3 x 3 非暴露:( 1 P
p * ( ) 1 p exp(b 2 ) OR p 1 p
例:log odds (Y=1) = - 4.353 + 0.038 age
Y:妇女是否患有骨质疏松,Y=1为是,Y=0为否
1 , 2 ….. m分别为m个自变量的回归系数。 P ln( ) 取值:-∞ ~ +∞ 1 P
Logistic回归模型的函数
1.00

统计学-logistic回归分析61页PPT

统计学-logistic回归分析61页PPT

39、勿问成功的秘诀为何,且尽全力做你应该做的事吧。——美华纳
40、学而不思则罔,思而不学则殆。——孔子
60、人民的幸福是至高无个的法。— —西塞 罗
谢谢!
ቤተ መጻሕፍቲ ባይዱ
36、自己的鞋子,自己知道紧在哪里。——西班牙
37、我们唯一不会改正的缺点是软弱。——拉罗什福科
xiexie! 38、我这个人走得很慢,但是我从不后退。——亚伯拉罕·林肯
统计学-logistic回归分析
56、极端的法规,就是极端的不公。 ——西 塞罗 57、法律一旦成为人们的需要,人们 就不再 配享受 自由了 。—— 毕达哥 拉斯 58、法律规定的惩罚不是为了私人的 利益, 而是为 了公共 的利益 ;一部 分靠有 害的强 制,一 部分靠 榜样的 效力。 ——格 老秀斯 59、假如没有法律他们会更快乐的话 ,那么 法律作 为一件 无用之 物自己 就会消 灭。— —洛克

《Logistic回归》PPT课件

《Logistic回归》PPT课件
计概率。其中,P为概率;β0为常数项;β1、2、m为偏 回归系数。Exp为指数函数。(曲线关系)
二、回归方程(线性函数表达式 )
反应变量阳性结果的概率P与自变量X的关系通常
不是直线关系,呈曲线关系;而自变量X与P和(1-
P)比值的对数呈线性关系,因此Logistic回归模
型P与X线性函数表达式为:
·检验模型中所有自变量整体来看是否与所研究事 件的对数优势比存在线性关系,也即方程是否成 立。
·检验的方法有似然比检验( likehood ratio test )、 比分检验(score test)和Wald检验(wald test)。 上述三种方法中,似然比检验最可靠,比分检验 一般与它相一致,但两者均要求较大的计算量; 而Wald检验未考虑各因素间的综合作用,在因素 间有共线性时结果不如其它两者可靠。
logit(P)= ln(
p 1 p
)
= β0+β1χ1 + … +βm χm
P为事件发生的概率,1-P为事件不发生的概率。

优势(比值)odds=
p 1 p

三、模型参数的意义
三、模型参数的意义
三、模型参数的意义
四、优势比估计(及可信区间)
即ORj=exp(bj)。优势比的意义:利用参数和优势比 探讨影响因素。
p exp(0 1X1 m X m ) 1 exp(0 1X1 m X m )

1
1 exp[(0 1X1 m X m )]
1 e 1 ( 0 1X1 m Xm )
此形式为概率预测模型,给定自变量的取值时,可估
五、模型参数的估计
根据样本数据,可以通过统计软件求出Logistic 回归模型的常数项β0和各项回归系数β,建立回 归方程,描述和分析反应变量与自变量的关系。

精品课程医学统计学教学课件-logistic回归分析

精品课程医学统计学教学课件-logistic回归分析
前瞻性研究方法,将人群按照是否暴露于某因素进行分组,追踪 各组的结局并比较其差异。
详细描述
队列研究在医学中常用于评估危险因素对疾病发生和发展的影响,以及评估预防 措施的效果。通过长期追踪和研究对象的定期随访,收集各组人群的结局数据, 分析暴露因素与结局之间的关联。
随机对照试验
随着大数据和人工智能技术的不断发 展,Logistic回归分析在医学领域的 应用越来越广泛。未来的研究将更加 注重Logistic回归分析与其他先进技 术的结合,如深度学习、机器学习等 ,以提高模型的预测精度和稳定性。
未来的研究将更加关注Logistic回归 分析在临床实践中的应用,如疾病预 测、诊断和治疗方案的制定等。同时 ,如何将Logistic回归分析与其他统 计方法结合,以更好地解决医学实际 问题,也是值得探讨的方向。
课件采用了多种教学方法,如理论讲解、案例分析、软件操作等,使学生能够全面了解和 掌握Logistic回归分析的技能。
教学效果
通过本课件的学习,学生能够熟练掌握Logistic回归分析的基本原理和应用,提高解决实 际问题的能力,为后续的医学研究和临床实践打下坚实的基础。
研究展望
研究前沿
研究方向
教学改进
03
Logistic回归分析在医学 中的应用
病例对照研究
总结词
病例对照研究是一种回顾性研究方法,通过比较病例组和对 照组的暴露情况,探讨疾病与暴露因素之间的关联。
详细描述
在医学领域,病例对照研究常用于探讨病因、预测风险和评 估干预措施的效果。通过收集病例组和对照组的相关信息, 分析暴露因素与疾病发生之间的关系,为病因推断提供依据 。
利用样本数据,建立Logistic回归模 型,描述自变量与因变量之间的关系。

logistic回归分析副本(共53张PPT)

logistic回归分析副本(共53张PPT)

ln OR j
ln
P1 P0
(1 (1
P1 ) P0 )
=
ln( P1 ) ln( P0 )
1 P1
1 P0
= j (c1 c0 )
则该因素的优势比: OR j exp[ j (c1 c0 )]
式中 P1 和 P0 分别表示在 X j 取值为 c1 和 c0 时的发病 概率, OR j 为调整后优势比(adjusted odds ratio), 表示扣除了其它自变量影响后危险因素 X j 的作用。
(2)多分类资料logistic回归: 因变量为多项分类的资料,可用多项分类 logistic回归模型或有序分类logistic回归模型进行分析。
队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研究,在
研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一 定时期内,随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡 率差别有统计学意义,则认为暴露和疾病间存在联系。队列研究验证的暴露因素在研 究开始前已存在,研究者知道每个研究对象的暴露情况。
或率比(rate ratio)。 RR Ie a /n1 、 I e a / n1 、 I 0 c / n2
I0 c / n0
RR(相对危险度relative risk):表示暴露组与非暴露组发病 率(或死亡率)的比值。也称为危险比(risk ratio)。反映了 暴露与疾病发生的关联强度。
病例组暴露的比值 、对照组暴露的比值 a /(a b) c /(c d ) 1、成组匹配(category matching):匹配的因素所占的比例,在对照组和在病例组一致。
匹配或称配比(matching),即要求对照在某些因素或特征上与病例保持一致,目的是对两组比较时排除混杂因素的干扰。

logistic回归(共36张PPT)

logistic回归(共36张PPT)
二分类自变量 系数为比数比的对数值,由此比数比=eb
多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。
连续型自变量 当自变量改变一个单位时,比数比为eb
2022/11/3
27
输出结果的解释
模型拟合的优劣
自变量与结果变量(因变量)有无关系
确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自变 量的比数比的临床意义
3
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关
疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
2022/11/3
4
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
2022/11/3
28
输出结果的解释
模型的预测结果的评价
敏感度、特异度和阳性预测值
正确选择预测概率界值,简单地以0.5为 界值,但并不是最好的。
C指数
预测结果与观察结果的一致性的度量。 C值越大(最大为1),模型预测结果的
能力越强。
2022/11/3
29
非条件logistic回归
研究对象之间是否发生某事件是 独立的。 适用于:
放入所有变量,再逐个筛选
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因
素分析时,建议用后退法。当变量间有完全相关性时,后退法无 法使用,可用前进法。
2022/11/3
21
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量 的变化而改变时,则存在交互作用

统计学-logistic回归分析ppt课件

统计学-logistic回归分析ppt课件

最新版整理ppt
38
九、logistic回归的应用举例
• 输精管切除术与动脉粥样硬化疾病的研究
• 1.问题的描述
(1)输精管切除术是否与动脉粥样硬化疾病 有关?
(2)如果存在联系,与其他已知的危险因素 相比,输精管切除术的相对重要性有多大?
(3)哪些男性亚群在输精管切除术以后发生 动脉粥样硬化疾病的可能性特别大?
• 条件Logistic回归的回归系数检验与分 析,和非条件Logistic回归完全相同。
最新版整理ppt
36
八、logistic回归的应用
1.疾病(某结果)的危险因素分析和筛选
用回归模型中的回归系数(βi)和OR说明 危险因素与疾病的关系。
适用的资料:
前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。

p (y 1 /x 1 ,x 2 x k) 1 e (0 1 1 x k ....kx k)
最新版整理ppt
10
2.模型中参数的意义
ln1PP=01X1
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
ln1PP (y(y 1/0x/x 0)0)=0
最新版整理ppt
调查员审阅每日住院病人情况如果诊断适合研究的范围将病例转给心脏病主任医师作评估由他做出病例诊断是否合格的决定调查人员核对病人背景资料是否合格如果病人满足诊断标椎和背景资料合格调查人员开始询问并填写调查表每完成5个病例和10个配对对照以后请研究中心的工作人员对调查表进行评估重复以上步骤
第十六章 logistic回归分析
最新版整理ppt
28
• 分析因素xi为等级变量时,如果每个等级的 作用相同,可按计量资料处理:如以最小或
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二分类变量:0、1(连续性变量或哑变量) 多分类无序变量:哑变量 多分类有序(等级)变量:连续性变量或哑变量 连续性变量:转换为分类变量较易解释OR值的意义。
样本量:一般不小于200例,配对资料对子数n大 于等于变量的20倍,否则回归系数的估计是有偏 性的。
不应单纯依赖程序筛选变量,要注意变量的医学 意义。
分析因素xi为多分类无序变量时,为方便起见, 常用1,2,…,k分别表示k个不同的类别。进行 Logistic回归分析前需将该变量转换成k-1个指示 变量或哑变量(design/dummy variable),这样 指示变量都是一个二分变量,每一个指示变量均
有一个估计系数,即回归系数,其解释同前。
分析因素xi为多分类有序(等级)变量时: 如果每个等级的作用相同,可按计量资料处理:如 以最小或最大等级作参考组,并按等级顺序依次取 为0,1,2,…。此时, eβi 表示xi增加一个等级时 的优势比, e(k*βi)表示xi增加k个等级时的优势比。 如果每个等级的作用不相同,则按多分类无序资料 处理。
八、 Logistic回归的应用
危险/保护因素的筛选,并确定其作用 大小。
预测:预测某种情况下或者某个病例, 某特定事件发生的概率。
九、注意事项
应用条件
1. 各观察对象间相互独立; 2. logit P与自变量呈线性关系。
变量的取值形式:变量采取不同的取值形式,参 数的含义、量值及符号都可能发生变化。
P=P(y=1|x),为发病概率;
0为常数项, 1 , 2 ….. m分别为m个自变量的
回归系数。
Logistic function
ez f (z) 1 ez
Z = α + 1X1 + β2X2+ β3X3 + … +βmXm
Logistic回归模型特点
Logistic function f(z) 取值 0-1,可描述/预 测概率,Logistic 模型是概率模型
分析因素xi为二分类变量时,
暴露xi =1,非暴露xi =0, ln( OR) ln( P1 /(1 P1) ) i
P0 /(1 P0 )
则Logistic回归中xi的系数β i就是暴露与非暴露优势比的对 数值. 即,OR=exp(β i)=e βi
β i = 0时,OR=1,Xi对疾病不起作用; β i > 0时,OR>1,Xi是疾病的危险因素; β i < 0时,OR<1,Xi是疾病的保护因素。
暴露组 a
b
非暴露 c
d

Odds Ratio (OR)
OR P1 /(1 P1) ad P0 /(1 P0 ) bc
相对危险度(relative risk): RR=P1/P0
当一种病的死亡率(或发病率)较小,近似于 零时,1-P≈1,则有: OR≈RR=P1/P0
logit P 0 1X 1 2 X 2 mXm
对模型的检验
Model Summary
Step 1
2
-2 Log Cox & Snell
likelihood R Square
40.597a
.294
41.819a
.273
Na ge l ke rke R Square
.396
.366
a. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.
Logistic function f(z) 呈S-形曲线,符合流 行病学对危险因素与疾病风险关系的认识
Logit变换(也称对数单位转换)
logit P=
ln

1
P P

= 0 1X 1 2 X 2 mXm
P=P(y=1|x),为发病概率; 1-P=P(y=0|x),为不发病概率。
Logistic回归分析
Logistic Regression
北京大学公共卫生学院 王海俊 副教授
什么是适宜的统计方法?
1、与研究目的有关 2、与资料类型有关
当研究目的为建立某病发生概率与 自变量关系的统计模型时,是否可 用线性回归模型?为什么?
P 某事件发生的概率 X 可能与该事件发生有关的因素
比值
Odds=P/(1-P)
比值比
OR=[P1/(1-P1)]/[P0/(1-P0)]
比值比 Odds Ratio
Odds=P/(1-P) 暴露组: P1=a/(a+b),
1-P1= b/(a+b) Odds=a/b 非暴露组: P0=c/(c+d),
1-P0= d/(c+d) Odds=c/d
患病人 未患病 数 人数
为计算方便,通常向前选取变量用似然比检验, 而向后剔除变量常用Wald检验。
六、条件Logistic回归
对配对调查资料,应该用条件Logistic回 归分析。
假设自变量在各配对组中对结果变量的作 用是相同的。
配对设计的Logistic回归模型
logit P=b1x1 b2 x2 bk xk
变量说明:Y:治愈情况,1=治愈;0=未治愈;;X1: 病情严重程度,0=不严重,1=严重;X2:年龄。X3: 治疗方法,0=新疗法,1=旧疗法。
二值 Logistic回归
因变量 协变量(自变量)
后退法筛选变量
拟合分类表 OR的95%置信区间
Omnibus Tests of Model Coefficients
G=-2(ln Lp-ln Lk)
样本量较大时, G近似服从自由度为待检验 因素个数的2分布。
Wald检验( wald test)
即广义的t检验,统计量为u
u= bi s bi
u服从正态分布,Sbi即为标准误。
同理,Logistic回归系数的区间估计
bi u Sbi
似然比检验:卡方检验 Wald检验:只能对单个b检验;未考虑各因 素间的综合作用,在因素间有共线性时结果 不如前者可靠。
大样本时两种方法结果一致。
对模型拟合的优良性评价:
(1)拟合分类表(Classification Table) 根据Logistic回归模型,对样本重新判别分类,
符合率越高,模型拟合越好。注意:Logistic回归 用于判别分类很粗劣,此法仅作参考。
(2)最大似然函数值L
SPSS报告:“-2LogLikelihood” 报告值越大,意味着回归方程的似然值越小
其中不含常数项。
此回归模型与非条件Logistic回归模型十分相似, 只不过这里的参数估计是根据条件概率得到的, 因此称为条件Logistic回归模型。
条件Logistic回归的回归系数检验与分析,和非条 件Logistic回归完全相同。
七、其他Logistic 回归模型
1、无序多分类应变量 2、有序多分类应变量
二、参数估计
最大似然估计法(Maximum likehood estimate)
似然函数:L= P(y=1|x) P(y=0|x)
对数似然函数:
lnL=∑(ln P)=ln P1+ln P2+…+ln Pn 非线性迭代方法——Newton-Raphson法
通过迭代法估计一组参数(0, 1 , 2 ….. m) 使L达到最大。
对于自变量(X1,X2),OR12=EXP(1+2)=OR1×OR2
例:某研究调查胃癌发病的危险因素,得到“有不良饮食习 惯”相对于“无不良饮食习惯”的OR=2.6, “喜吃卤食和 盐渍食物”相对于“不吃卤食和盐渍食物”的OR=2.4。那么 根据Logistic回归,“有不良饮食习惯且喜吃卤食和盐渍食 物”相对于“无不良饮食习惯且不吃卤食和盐渍食物”的 OR=2.6×2.4=6.24,得出此结论时需要考虑:从专业知识上 是否合理?
OR的可信区间
样本量较大时,Logistic回归系数 bi服从u分布。因此其可信区间为
bi u Sbi
进而,优势比OR(ebi )的可信区间为
e (bi u Sbi )
四、模型检验和评价
似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几个待检验 观察因素的两个模型的对数似然函数的变化来进 行,其统计量为G (又称Deviance)。
对模型拟合的优良性评价:-2Log likelihood 有小幅上升,但差异不大。两种决定系数差异也 不大。说明第二步结果的拟合程度没有改善,反 而稍有下降。
P= α + 1X1 + β2X2+ β3X3 + … +βmXm
一、 Logistic回归模型
Logistic回归是描述一些自变量X和一个分 类变量之间关系的数学模型。
应变量:二分类变量,若令应变量为y,则常 用y=1表示“发病”,y=0表示“不发病”(在 病例对照研究中,分别表示病例组和对照组)。
三、回归系数的意义
logit P 0 1X 1 2 X 2 mXm
单纯从数学上讲,与多元线性回归分析 中回归系数的解释并无不同,亦即β i表示xi 改变一个单位时, logit P的平均变化量。
流行病学一些概念:
设P表示暴露因素X时个体发病的概率,则发病 的概率P与未发病的概率1-P 之比为优势或比值 (odds), logit P就是odds的对数值。
多元线性回归分析与Logistic回归分析都是实际工 作中常用的方法,用于影响因素分析时,多元线 性回归的因变量是连续变量,而Logistic回归的因 变量是分类变量;两种方法的自变量均可为连续
相关文档
最新文档