14logistic回归2020(北大卫生统计学)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
变量说明:Y:治愈情况,1=治愈;0=未治愈;;X1: 病情严重程度,0=不严重,1=严重;X2:年龄。X3: 治疗方法,0=新疗法,1=旧疗法。
二值 Logistic回归
因变量 协变量(自变量)
后退法筛选变量
拟合分类表 OR的95%置信区间
Omnibus Tests of Model Coefficients
Step 1 Step
Chi-square 13.951
df 3
Si g. .003
Bl ock
13.951
3
.003
M od e l Step 2a Step
13.951 -1.222
3
.003
1
.269
Bl ock
12.729
2
.002
M od e l
12.729
2
.002
a. A negative Chi-squares value indicates that the Chi-squares value has decreased from the previous step.
二、参数估计
最大似然估计法(Maximum likehood estimate)
似然函数:L= P(y=1|x) P(y=0|x)
对数似然函数:
lnL=∑(ln P)=ln P1+ln P2+…+ln Pn 非线性迭代方法——Newton-Raphson法
通过迭代法估计一组参数(0, 1 , 2 ….. m) 使L达到最大。
三、回归系数的意义
logit P 0 1X 1 2 X 2 mXm
单纯从数学上讲,与多元线性回归分析 中回归系数的解释并无不同,亦即βi表示xi 改变一个单位时, logit P的平均变化量。
流行病学一些概念:
设P表示暴露因素X时个体发病的概率,则发病 的概率P与未发病的概率1-P 之比为优势或比值 (odds), logit P就是odds的对数值。
G=-2(ln Lp-ln Lk)
样本量较大时, G近似服从自由度为待检验 因素个数的2分布。
Wald检验( wald test)
即广义的t检验,统计量为u
u= bi s bi
u服从正态分布,Sbi即为标准误。
同理,Logistic回归系数的区间估计
bi u Sbi
似然比检验:卡方检验 Wald检验:只能对单个b检验;未考虑各因 素间的综合作用,在因素间有共线性时结果 不如前者可靠。
分析因素xi为多分类无序变量时,为方便起见, 常用1,2,…,k分别表示k个不同的类别。进行 Logistic回归分析前需将该变量转换成k-1个指示 变量或哑变量(design/dummy variable),这样 指示变量都是一个二分变量,每一个指示变量均
有一个估计系数,即回归系数,其解释同前。
Logistic function f(z) 呈S-形曲线,符合流 行病学对危险因素与疾病风险关系的认识
Logit变换(也称对数单位转换)
logit P=
ln
1
P P
=
0 1X 1 2 X 2 mXm
P=P(y=1|x),为发病概率; 1-P=P(y=0|x),为不发病概率。
分析因素xi为多分类有序(等级)变量时: 如果每个等级的作用相同,可按计量资料处理:如 以最小或最大等级作参考组,并按等级顺序依次取 为0,1,2,…。此时, eβi 表示xi增加一个等级时 的优势比, e(k*βi)表示xi增加k个等级时的优势比。 如果每个等级的作用不相同,则按多分类无序资料 处理。
大样本时两种方法结果一致。
对模型拟合的优良性评价:
(1)拟合分类表(Classification Table) 根据Logistic回归模型,对样本重新判别分类,
符合率越高,模型拟合越好。注意:Logistic回归 用于判别分类很粗劣,此法仅作参考。
(2)最大似然函数值L
SPSS报告:“-2LogLikelihood” 报告值越大,意味着回归方程的似然值越小
对于自变量(X1,X2),OR12=EXP(1+2)=OR1×OR2
例:某研究调查胃癌发病的危险因素,得到“有不良饮食习 惯”相对于“无不良饮食习惯”的OR=2.6, “喜吃卤食和 盐渍食物”相对于“不吃卤食和盐渍食物”的OR=2.4。那么 根据Logistic回归,“有不良饮食习惯且喜吃卤食和盐渍食 物”相对于“无不良饮食习惯且不吃卤食和盐渍食物”的 OR=2.6×2.4=6.24,得出此结论时需要考虑:从专业知识上 是否合理?
二分类变量:0、1(连续性变量或哑变量) 多分类无序变量:哑变量 多分类有序(等级)变量:连续性变量或哑变量 连续性变量:转换为分类变量较易解释OR值的意义。
样本量:一般不小于200例,配对资料对子数n大 于等于变量的20倍,否则回归系数的估计是有偏 性的。
不应单纯依赖程序筛选变量,要注意变量的医学 意义。
对模型的检验
Model Summary
Step 1
2
-2 Log Cox & Snell
likelihood R Square
40.597a
.294
41.819a
.273
Na ge l ke rke R Square
.396
.366
a. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.
其中不含常数项。
此回归模型与非条件Logistic回归模型十分相似, 只不过这里的参数估计是根据条件概率得到的, 因此称为条件Logistic回归模型。
条件Logistic回归的回归系数检验与分析,和非条 件Logistic回归完全相同。
七、其他Logistic 回归模型
1、无序多分类应变量 2、有序多分类应变量
OR的可信区间
样本量较大时,Logistic回归系数 bi服从u分布。因此其可信区间为
bi u Sbi
进而,优势比OR(ebi )的可信区间为
e (bi u Sbi )
四、模型检验和评价
似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几个待检验 观察因素的两个模型的对数似然函数的变化来进 行,其统计量为G (又称Deviance)。
第20章 Logistic回归分 析
Logistic Regression
什么是适宜的统计方法?
1、与研究目的有关 2、与资料类型有关
当研究目的为建立某病发生概率与 自变量关系的统计模型时,是否可 用线性回归模型?为什么?
P 某事件发生的概率 X 可能与该事件发生有关的因素
比值
Odds=P/(1-P)
比值比
OR=[P1/(1-P1)]/[P0/(1-P0)]
比值比 Odds Ratio
Odds=P/(1-P) 暴露组: P1=a/(a+b),
1-P1= b/(a+b) Odds=a/b 非暴露组: P0=c/(c+d),
1-P0= d/(c+d) Odds=c/d
患病人 未患病 数 人数
自变量:可以为分类变量,也可以为连续变量。
与线性回归分析的主要区别: 应变量为连续计量资料
Logistic回归的分类
二分类 多分类
条件Logistic回归 非条件Logistic回归
Logistic回归模型
e( 0 1 X 1 2 X 2mXm) P 1 e( 0 1X 1 2 X 2mXm)
八、 Logistic回归的应用
危险/保护因素的筛选,并确定其作用 大小。
预测:预测某种情况下或者某个病例, 某特定事件发生的概率。
九、注意事项
应用条件
1. 各观察对象间相互独立; 2. logit P与自变量呈线性关系。
变量的取值形式:变量采取不同的取值形式,参 数的含义、量值及符号都可能发生变化。
多元线性回归分析与Logistic回归分析都是实际工 作中常用的方法,用于影响因素分析时,多元线 性回归的因变量是连续变量,而Logistic回归的因 变量是分类变量;两种方法的自变量均可为连续
变量或分类变量,当为多分类变量时,均需设相 应的哑变量。
十、 实例
例:比较新疗法与旧疗法治疗某种疾病的疗效。现对40 例患者随机分组,分别接受新疗法和旧疗法治疗。根据 专业知识,患者的病情严重程度、年龄对疗效也有影响。 如何评价新旧疗法的疗效(见数据文件logistic.sav)? (注:作为举例,本例样本量仅为40例,由于样本量太 小,Logistic回归的结论仅作为参考)
分析因素xi为二分类变量时,
暴露xi =1,非暴露xi =0, ln( OR) ln( P1 /(1 P1) ) i
P0 /(1 P0 )
则Logistic回归中xi的系数βi就是暴露与非暴露优势比的对 数值. 即,OR=exp(βi)=e βi
βi = 0时,OR=1,Xi对疾病不起作用; βi > 0时,OR>1,Xi是疾病的危险因素; βi < 0时,OR<1,Xi是疾病的保护因素。
(L 1) ,标志模型的拟合程度越差;
很高的-2L值说明: 1)可能Logistic回归不合适; 2)可能影响因变量的主要因素未被考虑在内。
五、 变量筛选
基本思想同线性回归分析。
从所用的方法看,有强迫法、前进法、后退法 和逐步法。在这些方法中,筛选变量的过程与线性 回归过程的完全一样。但其中所用的统计量不再是 线性回归分析中的F统计量,而是以上介绍的参数 检验方法中的统计量之一。
P=P(y=1|x),为发病概率;
0为常数项, 1 , 2 ….. m分别为m个自变量的
回归系数。
Logistic function
ez f (z) 1 ez
Z = α + 1X1 + β2X2+ β3X3 + … +βmXm
Logistic回归模型特点
Logistic function f(z) 取值 0-1,可描述/预 测概率,Logistic 模型是概率模型
P= α + 1X1 + β2X2+ β3X3 + … +βmXm
一、 Logistic回归模型
Logistic回归是描述一些自变量X和一个分 类变量之间关系的数学模型。
应变量:二分类变量,若令应变量为y,则常 用y=1表示“发病”,y=0表示“不发病”(在 病例对照研究中,分别表示病例组和对照组)。
暴露组 a
b
非暴露 c
d
组
Odds Ratio (OR)
OR P1 /(1 P1) ad P0 /(1 P0 ) bc
相对危险度(relative risk): RR=P1/P0
当一种病的死亡率(或发病率)较小,近似于 零时,1-P≈1,则有: OR≈RR=P1/P0
logit P 0 1X 1 2 X 2 mXm
Logistic回归中的常数项(β0)表示,在不接触 任何潜在危险/保护因素条件下,效应指标发生 与不发生事件的概率之比的对数值。
Logistic回归中的回归系数(βi )表示,某一因 素改变一个单位时,效应指标发生与不发生事件 的概率之比的对数变化值,即OR的对数值。
Logistic回归系数的意义
对模型拟合的优良性评价:-2Log likelihood 有小幅上升,但差异不大。两种决定系数差异也不 大。说明第二步结果的拟合程度没有改善,反而稍 有下降。
Classification Tablea
拟合分类表
Pred i cte d
Observed Step 1 治 愈 情 况
未治 愈 治愈
Step 2
OverallБайду номын сангаасPercentage
治愈 情况
未治 愈
治愈
Overall Percentage
分析因素xi为连续性变量时, eβi表示xi增加一个计 量单位时的优势比。
多因素Logistic回归分析时,对回归系数的解释都 是指在其它所有自变量固定的情况下的优势比。
存在因素间交互作用时, Logistic 回归模型中各 自变量与疾病关系的联合作用为乘法模型,回归系
数的解释变得更为复杂,应特别慎重。
为计算方便,通常向前选取变量用似然比检验, 而向后剔除变量常用Wald检验。
六、条件Logistic回归
对配对调查资料,应该用条件Logistic回 归分析。
假设自变量在各配对组中对结果变量的作 用是相同的。
配对设计的Logistic回归模型
logit P=b1x1 b2 x2 bk xk