logistic回归2(刘新教材)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
似然比检验(likehood 似然比检验(likehood ratio test) test)
一、概述
多重线性回归适用于: 多重线性回归适用于: 应变量Y——数值变量(如血糖、血压等) 数值变量( 应变量 数值变量 如血糖、血压等) 自变量X——数值变量(如年龄) 数值变量( 自变量 数值变量 如年龄) 分类变量(如性别) 分类变量(如性别) 等级变量(如疾病分期) 等级变量(如疾病分期)
应用举例4
每周步行10公里,远离老年痴呆症 美国研究人员2010年10月发表在《神经病学》 杂志的一项研究追踪观察了299名志愿者, 这些志愿者在研究之初没有痴呆症,记录下 自己每周步行多少路。 13年后的检测表明,每周步行大约6-9英里 (约9.6-14.4公里)的志愿者在记忆力方面 出现问题的风险降低了一半。
卫生统计学
logistic回归 回归
logistic Regression
余红梅
Department of Health Statistics School of Public Health, Shanxi Medical University
应用举例1
英国《每日邮报》网站2011.2.15文章题目: 听力衰退可能是患痴呆的早期预警信号 美国一项研究对年龄在30-90岁的600多名男 女进行了平均12年的追踪调查。结果显示, 同听力正常的人相比,轻微听力衰退的人患 痴呆的几率增大了1倍;对中等听力衰退的 人来说,这种风险会扩大2倍;而严重听力 衰退的人患痴呆的几率要增加4倍。
重要提示
解释回归系数时: 解释回归系数时: 其它变量固定条件下(平衡或调整其它变量) 其它变量固定条件下(平衡或调整其它变量) 自变量X每增加一个单位 自变量 每增加一个单位 二分类变量: = 与 = 相比 二分类变量:X=1与X=0相比 等级变量: 等级变量:每增加一个等级 数值变量:每增加一个数量单位, 数值变量:每增加一个数量单位,容易产生 歧义,一般需转化为二分类变量或等级变量。 歧义,一般需转化为二分类变量或等级变量。 P(Y=1) ( = )
———————————— X -4 -3 -2 -1 0 1 2 3 4
取何值, 的取值均在 的取值均在[0,1]之内 !无论X取何值,P的取值均在 无论 取何值 之内
logistic回归模型
P ln = b0 + b1 X 1 + b2 X 2 + L + bm X m 1− P
优势比OR估计 优势比OR估计
OR=eb=exp(b) ( ) b:样本回归系数 :
OR的置信区间估计 OR的置信区间估计
exp(b±za/2Sb) ( ± Sb:b的标准误 的标准误
参数(回归系数) 参数(回归系数)的假设检验
似然比检验(likelihood ratio test) 似然比检验( ) Wald 检验(Wald chi-square test) 检验( ) 比分检验(score test) 比分检验( )
( (
) )
=ln[ ] − ln[ ] 1 − π 肺癌 吸烟 1 − π 肺癌 不吸烟 π ln = β 0 + βX 1− π
ln OR = (β 0 + β ×1) − (β 0 + β × 0) = β
π 肺癌 吸烟
π 肺癌 不吸烟
OR与回归系数的关系
ln OR = β β OR = e = exp(β )
喝碳酸饮料增加患糖尿病风险 新加坡国立大学和美国研究人员进行的一项 研究发现,多喝含糖饮料,即便没有导致体 重增加太多,患糖尿病的几率也会增加。 该研究的基本数据来源于1993—1998年进行 的新加坡华人健康调查。随后,研究员对他 们进行了几年的追踪调查,研究者发现,5 年内体重增加3公斤以上的人群中,每周至 少喝两次含糖碳酸饮料的人患糖尿病的几率 比不喝的人高70%;而那些体重变化不大甚 至减少的人,爱喝甜饮料的人患糖尿病的几 率也比不喝的人高20%。
β>0→OR(RR)> :危险因素 > )>1: ( )> β<0→OR(RR)< :保护因素 )<1: < ( )< β=0→OR(RR)= :无关因素 )=1: = ( )=
例1
某病患者经治疗后一定时间内的康复情况影响 因素分析 应变量Y:未康复= ;康复= 应变量 :未康复=1;康复=0 自变量X1: 自变量 :≥50岁=1;< 50岁=0 岁 ;< 岁 自变量X2:传统疗法= ;新疗法= 自变量 :传统疗法=1;新疗法=0 b 0.107 1.957 OR 1.11 7.07
π = P(Y = 1 X 1 , X 2 ,L, X m )
0≤π≤1
logistic回归模型
按多重线性回归建模: 按多重线性回归建模: π = β 0 + β1 X 1 + β 2 X 2 + L + β m X m
成立 吗?
后果: 回代 回代, 的取值会超出 范围。 的取值会超出0-1范围 后果:X回代, π的取值会超出 范围。
应用举例2
刷牙频率低于每天2次可增患心脏病风险 英国伦敦大学学院传染病与公共健康系研究 人员8年前开始随访调查11869名苏格兰居民, 要求这些平均年龄50岁的调查对象定期上报 每天刷牙次数和牙科就诊频率。研究人员发 现,调查对象从不或很少刷牙者与每天刷牙 两次者相比,患心脏病的几率高70%。
应用举例3
µY X ,X ,L,X = β0 + β1X1 +L+ βmXm
1 2 m
ˆ Y = b0 +b X1 +b2 X2 +L+bmXm 1
1. logistic回归模型
应变量Y为二分类变量 应变量 为二分类变量 (binary response variable): ) 如发病/未发病 治愈/未治愈 缓解/未缓解 未发病; 未治愈; 未缓解; 如发病 未发病;治愈 未治愈;缓解 未缓解; 复发/未复发 生存/死亡等 未复发; 死亡等。 复发 未复发;生存 死亡等。 Y的取值为: 的取值为: 的取值为 Y=1 出现阳性结果(发病、无效、死亡等) 出现阳性结果(发病、无效、死亡等) Y=0 出现阴性结果(未发病、有效、生存等) 出现阴性结果(未发病、有效、生存等) m个自变量作用下阳性结果发生的概率记作 个自变量作用下阳性结果发生的概率记作
X1 X2
例2
冠心病发病的影响因素分析 应变量Y:发生冠心病= ;未发生= 应变量 :发生冠心病=1;未发生=0 自变量X1:年龄( 自变量 :年龄(岁) 自变量X2:性别:女性= ;男性= 自变量 :性别:女性=1;男性=0 自变量X3:冠心病家族史 自变量 : 有家族史= ;无家族史= 有家族史=1;无家族史=0 b OR X1 0.02 1.02 X2 –1 0.37 X3 0.9 2.46
π log it (π ) = ln 1− π
取值范围
π: 0~ 0 ~1 π/(1-π): π/(1-π): 0 ~+ ∞ logit(π) : -∞~+∞ ~ 因此建立以下模型
π ln = β 0 + β1 X 1 + β 2 X 2 + L + β m X m 1− π
肺癌 不吸烟
)
优势比OR(odds ratio)
当疾病的发病率很低时,优势比OR可作为 相对危险度RR的估计值。
OR =
π 肺癌 吸烟 1 − π 肺癌 吸烟 π 肺癌 不吸烟
≈
( (1 − π
)
肺癌 不吸烟
)
π 肺癌 吸烟 π 肺癌 不吸烟
= RR
OR与回归系数β的关系
π 肺癌 吸烟 1 − π 肺癌 吸烟 ln OR = ln π 肺癌 不吸烟 1 − π 肺癌 不吸烟
exp(b0 + b1 X1 + b2 X 2 + L + bm X m ) P= 1 + exp(b0 + b1 X1 + b2 X 2 + L+ bm X m )
1 P= 1+ exp[− (b0 + b1 X1 + b2 X 2 +L+ bm X m )]
2. 参数(回归系数)的解释
P ln = b0 + b1 X 1 + b2 X 2 + L + bm X m 1− P
1 π= 1+ exp[− (β0 + β1 X1 + β2 X 2 +L+ βm X m )]
S型曲线变化趋势
令
Z = β 0 + β1 X 1 + β 2 X 2 + L + β m X m
Z与P的关系 Z与P的关系
1 P
单变量X与P的关系 单变量X与P的关系
1 P
0.5
0.5
———————————— Z -4 -3 -2 -1 0 1 2 3 4
优势比OR(odds ratio)
病例对照研究可获得 可以证明,病例组与对照组暴露事件的优势 比等于暴露组与非暴露组发病事件的优势比。
OR =
=
π 吸烟 肺癌 1 − π 吸烟 肺癌 π 吸烟 对照
π 肺癌 吸烟
吸烟 对照
肺癌 吸烟
π 肺癌 不吸烟
( (1 − π (1 − π (1 − π
) ) )
π 0.001 0.0001 0.999 0.9999
logit(π)
-6.907 -9.210 6.907 9.210
logistic回归模型
π ln 1− π = β 0 + β1 X 1 + β 2 X 2 + L + β m X m
exp(β0 + β1 X1 + β2 X 2 + L+ βm X m ) π= 1 + exp(β0 + β1 X1 + β2 X 2 + L+ βm X m )
b称为偏回归系数 称为偏回归系数 单纯从模型表达式上讲, 单纯从模型表达式上讲,与多重线性回归中偏回归 系数的解释相同, 表示其它自变量固定条件下, 系数的解释相同,即bi表示其它自变量固定条件下, 表示其它自变量固定条件下 xi改变一个单位时,logit(P)的平均变化量。 改变一个单位时, 改变一个单位时 ( )的平均变化量。
π ≠ β 0 + β1 X 1 + β 2 X 2 + L + β m X m
【0,1】 (-∞,+∞)
不成立பைடு நூலகம் 不成立!
须对π作变换, 须对 作变换,将π 的取值范围由 作变换 【0,1】变为(-∞,+∞)。 , 】变为( , )。
logistic回归模型
logit变换: logit变换:也称对数单位变换 变换
参数(回归系数)的解释
RR = π 肺癌 吸烟 / π 肺癌 不吸烟
RR>1:该因素增加发病的概率 > :该因素增加发病的概率—— 危险因素 RR<1:该因素降低发病的概率 < :该因素降低发病的概率—— 保护因素 RR=1:该因素不增加 降低发病的概率 降低发病的概率—— = :该因素不增加/降低发病的概率 无关因素
任意两个个体相比OR的计算
OR = exp[( X 1i − X 1 j )b1 + ( X 2i − X 2 j )b2 + ... + ( X mi − X mj )bm ]
3. 分类
非条件logistic回归: 回归: 非条件 回归 适用于队列研究; 适用于队列研究; 横断面研究; 横断面研究; 成组病例-对照研究。 成组病例-对照研究。 条件logistic回归: 回归: 条件 回归 适用于配比病例-对照研究。 适用于配比病例-对照研究。
参数(回归系数)的解释
流行病学反映暴露与疾病联系强度的指标 相对危险度( 相对危险度(relative risk,RR): RR=π1/π2 , ) 表示暴露在某危险因素下的发病率与不暴露在 某危险因素下的发病率之比。 某危险因素下的发病率之比。 队列研究可直接获得RR的估计值 队列研究可直接获得 的估计值 例如研究吸烟与肺癌的关系: 例如研究吸烟与肺癌的关系: 应变量Y:发生肺癌= 应变量 :发生肺癌=1 未发生肺癌= 未发生肺癌=0 自变量X:吸烟= 自变量 :吸烟=1 不吸烟= 不吸烟=0
二、非条件logistic回归 二、非条件logistic回归
参数(回归系数)估计
最大似然估计(maximum likelihood estimation,MLE)
在一次抽样中获得现有样本的概率应该最大, 也即使似然函数 L 达到最大。
借助统计软件(SAS、SPSS等)实现
非条件logistic回归 非条件logistic回归