Logistic回归分析方法精品PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多因素Logistic回归分析时, 对回归系数的解释都是指在其它 所有自变量固定的情况下的优势 比。存在因素间交互作用时, Logistic回归系数的解释变得更 为复杂,应特别小心。
根据Wald检验,可知Logistic回归 系数bi服从u分布。因此其可信区间为
bi u Sbi
进而,优势比e(bi)的可信区间为
Logistic回归系数的意义
• 分析因素xi为二分类变量时,存在(暴 露)xi =1,不存在(未暴露)xi =0, 则Logistic回归中xi的系数bi就是暴露与 非暴露优势比的对数值.即 OR=exp(bi)=e (bi)
• 分析因素xi为多分类变量时,为方便起 见,常用1,2,…,k分别表示k个不 同的类别。进行Logistic回归分析前需 将该变量转换成k-1个指示变量或哑变 量(design/dummy variable),这样指 示变量都是一个二分变量,每一个指 示变量均有一个估计系数,即回归系 数,其解释同前。
七、条件Logistic回归
• 对配对/比调查资料,应该用条件 Logistic回归分析。 对于配比资料,第i个配比组 可以建立一个Logistic回归:
logit P=bi b1x1 b2 x2 bk xk
• 假设自变量在各配比组中对结果变量 的作用是相同的,即自变量的回归系 数与配比组无关。
• 分析因素xi为等级变量时,如果每个等级的 作用相同,可按计量资料处理:如以最小或
最大等级作参考组,并按等级顺序依次取为
0,1,2,…。此时, e(bi) 表示xi增加一个等 级时的优势比, e(k* bi)表示xi增加k个等级时 的优势比。如果每个等级的作用不相同,则
应按多分类资料处理。
• 分析因素xi为连续性变量时, e(bi)表示xi增加 一个计量单位时的优势比。
Logistic回归分析
一、前言
• 应变量为分类指标的资料 • 线性回归分析:
应变量为连续计量资料
二、 Logistic回归模型
• Logistic回归的分类
二分类 多分类
条件Logistic回归 非条件Logistic回归
• Logit变换
也称对数单位转换
logit P=
ln
P 1 P
流行病学概念:
五、回归系数的意义
单纯从数学上讲,与多元线性 回归分析中回归系数的解释并无不 同,亦即bi表示xi改变一个单位时, logit P的平均变化量。
流行病学中的一些基本概念:
相对危险度(relative risk): RR=P1/P2
Байду номын сангаас
比数
Odds=P/(1-P)
比数比
OR=[P1/(1-P1)]/[P2/(1-P2)]
e (bi u Sbi )
六、 Logistic回归分析方法
基本思想同线性回归分析。
从所用的方法看,有强迫法、前进法、 后退法和逐步法。在这些方法中,筛选变量 的过程与线性回归过程的完全一样。但其中 所用的统计量不再是线性回归分析中的F统计 量,而是以上介绍的参数检验方法中的三种 统计量之一。
为计算方便,通常向前选取 变量用似然比或比分检验,而向 后剔除变量常用Wald检验。
便得比分检验的统计量S 。样本量较大时, S近似服从自由度为待检验因素个数的 2分布。
• Wald检验( wald test)
即广义的t检验,统计量为u
u= bi s bi
u服从正态分布,即为标准正态离差。
Logistic回归系数的区间估计
bi u S bi
上述三种方法中,似然比检验 最可靠,比分检验一般与它相一致, 但两者均要求较大的计算量;而 Wald检验未考虑各因素间的综合 作用,在因素间有共线性时结果不 如其它两者可靠。
三、参数估计
• 最大似然估计法 (Maximum likehood estimate)
似然函数:L=∏Pi 对数似然函数: lnL=∑(ln P)=ln P1+ln P2+…+ln Pn 非线性迭代方法——
Newton-Raphson法
四、参数检验
• 似然比检验(likehood ratio test)
• 配比设计的Logistic回归模型
logit P=b1x1 b2 x2 bk xk
其中不含常数项。
• 可以看出此回归模型与非条件Logistic 回归模型十分相似,只不过这里的参 数估计是根据条件概率得到的,因此 称为条件Logistic回归模型。
• 条件Logistic回归的回归系数检验与分 析,和非条件Logistic回归完全相同。
八、 Logistic回归的应用
• 危险/保健因素的筛选,并确定其作用 大小。
• 预测:预测某种情况下或者某个病例, 某特定事件发生的概率。
九、 Logistic回归应用实例
十、注意事项
• 应用条件
1. 各观察对象间相互独立; 2. logit P与自变量呈线性关系。
通过比较包含与不包含某一个或 几个待检验观察因素的两个模型的对 数似然函数变化来进行,其统计量为G (又称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由
度为待检验因素个数的2分布。
• 比分检验(score test)
以未包含某个或几个变量的模型为基础, 保留模型中参数的估计值,并假设新增加 的参数为零,计算似然函数的一价偏导数 (又称有效比分)及信息距阵,两者相乘
在患病率较小情况下,OR≈RR
• Logistic回归中的常数项(b0)表示, 在不接触任何潜在危险/保护因素条 件下,效应指标发生与不发生事件的 概率之比的对数值。
• Logistic回归中的回归系数( bi )表示, 某一因素改变一个单位时,效应指标 发生与不发生事件的概率之比的对数 变化值,即OR的对数值。
设P表示暴露因素X时个体发病的概率, 则发病的概率P与未发病的概率1-P 之 比为优势(odds), logit P就是odds 的对数值。
• Logistic回归模型 Logistic回归的logit模型
logit P=b0 b1x1 b2 x2 bk xk
Logistic回归模型
e(b0 b1x1 b2 x2 bk xk ) P 1 e(b0 b1x1 b2 x2 bk xk )