logistic回归分析 PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Odds Ratio Estimates Point 95% Wald
Effect Estimate Confidence Limits 吸烟x1 2.424 1.807 3.253 饮酒x2 1.692 1.244 2.303
源自文库
似然比检验(讲义)
对某个β做检验,检验统计量(G)
G 2(ln L1 ln L0 )
LOGISTIC回归计算
Standard Wald Parameter Estimate Error Chi-Squa Pr
Intercept -0.6453 0.1653 15.24 <.0001
疗法
0.2482 0.1699 2.13 0.1442
病情
0.9900 0.1699 33.93 <.0001
exp(b2 u /2Sb2 ) exp(0.52611.96 0.1572) (1.24, 2.30)
三、Logistic 回归模型的假设检验
1.检验一:对建立的整个模型做检验。
说明自变量对Y的作用是否有统计意义。
H0 : 1 2 m 0
H1 : 各(j j 1,2,,m)不全为0
比发生Y事件的对数优势比。
回归系数β与ORi
X与Y的关联
β=0,OR=1,
无关
β>1,OR>1 , 有关,危险因素
β<1,OR<1, 有关,保护因子
事件发生率很小,OR≈RR。
二、logistic回归模型的参数估计
1. 模型中的参数(βi)估计
,
ln P 1 P
=
0
1 X1
2
X
2
m
X
m
通常用最大似然函数 (maximum likelihood estimate, MLE)估计β, 由统计软件包完成。(讲义259页)
1 X1 0
吸烟 不吸烟
1 X 2 0
饮酒 不饮酒
经logistic回归计算后得 b0 =-0.9099, b1 =0.8856, b2
方程=表0.5达2:61,
ln( p ) 0.9099 0.8856x1 0.5261x2 1 p
exp( ) OR
exp(0.8856) OR 2.4244
ln P 1 P
=
0
1 X1
2
X
2
m
X
m
检验方法(讲义260-261页) 1)似然比检验 (likelihood ratio test) 2)Wald检验
例表16-1吸烟、饮酒与食管癌资料 (SAS软件计算)
1.对建立的整个模型做检验。 ln( p ) 0.9099 0.8856x1 0.5261x2 1 p
X5 1.496 0.744 4.04 4.46
0.0443 0.406
X6 3.136 1.249 6.30 0.0121 0.703 23.06
X8 1.947 0.847 5.29 0.0215 0.523
7.01
bj ' bj sj /( / 3)
标准回归系数(b’) 比较各自变量对Y 的相对贡献
OR e
如X=1,0两分类,则OR的1-α可信区间 估计公式
e(bj u / 2Sbj )
S 为回归系数 bj 的标准误
(公式16-10)
例:讲义表16-1资料
一个研究吸烟、饮酒与食道癌关系的病例-对 照资料(886例),试作logistic回归分析。
变量的赋值
1 Y
0
食管癌患者 对照:非食管癌
ln L0 ( X1) 585.326
log it( p) 0 1x1
G 2[ln L(X1, X2 ) ln L(X1) 2(579.711 (585.326)] 11.23
G >3.84,p<0.05,说明调整吸烟因素 后,饮酒与食管癌有关系。
四、变量筛选
目的;将回归系数有显著意义的自变量选入 模型中,作用不显著的自变量则排除在外。 变量筛选算法有:前进法、后退法和 逐步法(stepwise)。
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr 似然比 68.5457 2 <.0001 计分检验 67.0712 2 <.0001 Wald检验 64.2784 2 <.0001
2.检验二:
检验模型中某β是否对Y有作用。
检验假设: H 0 : j 0 H1 : j 0
例:讲义例16-2,用逐步法 选入变量的显著水准为0.10,变量保留在方
程的水准为0.15 例:16-2讲义261-263页
表16-4 进入方程的自变量及参数估计
变量 β
Sb Waldχ2 P 标准β’ OR
常数 -4.705 1.54 9.30 0.0023
年龄 0.924 0.477 3.76 0.0525 0.401 2.52
Y 发病=1 不发病=0
危险因素
x= 1 x= 0
30(a) 10( b)
70(c) 90(d)
a+c
b+d
危险因素
x= 1 x= 0
p1 1-p1
p0 1-p0
a p1 a c
有暴露因素人群中发病的比例
多元回归模型的的 i概念
logit(p)
ln
1
P P
=
0
1
X1
mXm
i 反映了在其他变量固定后,X=1与x=0相
愈
率 普通型
65.0 重型
41.7 合计
47.5
病人 数
300 100 400
甲疗法 治愈 治愈
数
率
180 60.0
35 35.0
215 53.8
乙疗法 病人 治愈 治
数
数
100
65
300
125
400
190
表5-5直接法计算标准化治愈率
病型 标准
甲疗法
乙疗法
治疗 原治 预期
原治 预期
人数 愈率 治愈数 愈率 治愈数
2.两值因变量的logistic回归模型方 程
一个自变量与Y关系的回归模型 如:y:发生=1,未发生=0 x : 有=1,
无=0, 记为p(y=1/x)表示某暴露因素状态下,
或 结果y=P1(的y 概1率/ (x)P)1模e型e0。0xx
1 p(y 1/ x)
1 exp[(0 x)]
模型描述了应变量p与x的关系
ln
OR
ln
P1 P0
/(1 /(1
P1 ) P0 )
log itP1 log itP0
P1(y=1/x=1)的概率 P0(y=1/x=0)的概率
(0 1x1) (0 x0 ) 1x1
OR e
OR P1 /(1 P1) odds1 P0 /(1 P0 ) odds0
Y 发病=1 不发病=0
( 0 1xk ....k xk )
2.模型中参数的意义
ln P 1 P
=
0
1 X 1
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
ln
P(y 1/ x 1 P(y 0 /
x
0) 0)
=
0
i 的含义:某危险因素,暴露水平变化时,即
Xi=1与Xi=0相比,发生某结果(如发病)优势 比的对数值。
第二节 条件Logistic回归
概念: 用配对设计获得病例对照研究资料,计算的
Logistic回归模型为条件Logistic回归。
成组(未配对)设计的病例对照研究资料,计算的 Logistic回归模型为非条件Logistic回归。
例:见265页 区别: 条件Logistic回归的参数估计无常数项(β0),主
第十六章 logistic回归分析
logistic回归为概率型非线性 回归模型,是研究分类观察 结果(y)与一些影响因素(x) 之间关系的一种多变量分析 方法
问题提出:
医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何?
因素(X)
疾病结果(Y)
x1,x2,x3…XK
发生
Y=1
不发生 Y=0
Logistic回归的应用
2.校正混杂因素,对疗效做评价 在临床研究和疗效的评价,组间某些因素构
成不一致干扰疗效分析,通过该法可控制 非处理因素,正确评价疗效。
3.预测与判别 预测个体在某因素存在条件下,发生某事件
(发病)的概率,为进一步治疗提供依据。
例1
例:
表5-4甲乙两疗法某病治愈率%比较
病型
控制饮酒因素后, 吸烟与不吸烟相比 患食管癌的优势比 为2.4倍
exp(0.5261) OR 1.6923
OR的可信区间估计
吸烟与不吸烟患食管癌OR的95%可信区间:
exp(b1 u /2Sb1 ) exp(0.8856 1.960.15) (1.81,3.25)
饮酒与不饮酒OR的95%可信区间:
第一节 logistic回归 一、基本概念
1.变量的取值 logistic回归要求应变量(Y)取值为分类变量
(两分类或多个分类)
1 Y 0
出现阳性结果 (发病、有效、死亡等) 出现阴性结果 (未发病、无效、存活等)
自变量(Xi)称为危险因素或暴露因素,可为连续变 量、等级变量、分类变量。 可有m个自变量X1, X2,… Xm
检验统计量:主要为Wald检验(SAS软件)
2 ( bj )2
例;
Sbj
ν=1的χ2
公式16-13
在大样本时,2三方(法0.0结8.81果55一6)致2 。 33.86
例表16-1资料,对各x的β做检验(wald检验) 参数 β估计值 标准误 Chi-Squa Pr 常数-0.9099 0.1358 44.8699 .0001 吸烟 0.8856 0.1500 34.8625 .0001 饮酒 0.5261 0.1572 11.2069 .0008
Odds Ratio Estimate
方程如下:
线形 关系
y log it( p) 0 1x1 Y~(-∞至+∞)
截距(常数)
回归系数
在有多个危险因素(Xi)时
多个变量的logistic回归模型方程的线性表达:
公式16-2
logit(p)
ln
1
P P
=
0
1
X1
2
X
2
m
X
m
或
p( y 1/ x1, x2
x ) 1 e 1 k
普通型 400 60.0 240
65.0 260
重型 400 35.0 140
41.7 167
合计 800
380
427
调整率(标准化率):
P甲'
Ni Pi Ni
380 800
47.5%
P乙'
427 800
53.4%
X1疗法(甲=0,乙=1)X2病情(轻=1,重 =0) Y疗效(Y=1有效,Y=0无效)
例:暴露因素 高血压史(x1):有 或无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无
冠心病结果 有 或无
研究问题可否用多元线性回归方法?
yˆ a b1x1 b2x2 bmxm
1.多元线性回归方法要求 Y 的取值为计量 的连续性随机变量。
2.多元线性回归方程要求Y与X间关系为线 性关系。
3.多元线性回归结果 Yˆ 不能回答“发生
与否” logistic回归方法补充多元线性回归的不足
Logistic回归方法
该法研究是 当 y 取某值(如y=1)发生的概率(p)与
某暴露因素(x)的关系。
p(y 1/ x) f (x),即p f (x)
P(概率)的取值波动0~1范围。 基本原理:用一组观察数据拟合Logistic模型, 揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。
要用于危险因素的分析。
项
一、logistic回归的应用
1.疾病(某结果)的危险因素分析和筛选 用回归模型中的回归系数(βi)和OR说明
危险因素与疾病的关系。例:讲义例16-1, 16-2,16-3
适用的资料:
前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。
三类研究计算的logistic 回归模型的β意义是一致。仅常 数项不同。(证明略)
P( y
0/ x
1)
1
1
e0 x e0
x
1
p1
e0 p0 P( y 1/ x 0) 1 e0
e0 P( y 0 / x 0) 1 1 e0 1 p0
logistic回归模型方程的线性表达
对logistic回归模型的概率(p)做logit变
换, log it( p) ln( p ) 1 p
p( y 1)
1
P概率
1
1 exp[(0 x)]
z 0 1x
0.5
Β为正值,x越 大,结果y=1发 生的可能性(p) 越大。
-3 -2 -1 0 1
Z值 23
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
e0 x p1 P( y 1/ x 1) 1 e0 x
ln L1
包括p个自变量的对 数似然函数
ln L0
包括 l 个自变量的 对数似然函数
G服从自由度(d)=p-l的χ2分布
似然比检验对β做检验
例:X1为吸烟,X2为饮酒,检验饮酒与食 管癌关系,H0:β2=0,H1:β2≠0
ln L1( X1, X 2 ) 579.711 log it( p) 0 1x1 2x2
Effect Estimate Confidence Limits 吸烟x1 2.424 1.807 3.253 饮酒x2 1.692 1.244 2.303
源自文库
似然比检验(讲义)
对某个β做检验,检验统计量(G)
G 2(ln L1 ln L0 )
LOGISTIC回归计算
Standard Wald Parameter Estimate Error Chi-Squa Pr
Intercept -0.6453 0.1653 15.24 <.0001
疗法
0.2482 0.1699 2.13 0.1442
病情
0.9900 0.1699 33.93 <.0001
exp(b2 u /2Sb2 ) exp(0.52611.96 0.1572) (1.24, 2.30)
三、Logistic 回归模型的假设检验
1.检验一:对建立的整个模型做检验。
说明自变量对Y的作用是否有统计意义。
H0 : 1 2 m 0
H1 : 各(j j 1,2,,m)不全为0
比发生Y事件的对数优势比。
回归系数β与ORi
X与Y的关联
β=0,OR=1,
无关
β>1,OR>1 , 有关,危险因素
β<1,OR<1, 有关,保护因子
事件发生率很小,OR≈RR。
二、logistic回归模型的参数估计
1. 模型中的参数(βi)估计
,
ln P 1 P
=
0
1 X1
2
X
2
m
X
m
通常用最大似然函数 (maximum likelihood estimate, MLE)估计β, 由统计软件包完成。(讲义259页)
1 X1 0
吸烟 不吸烟
1 X 2 0
饮酒 不饮酒
经logistic回归计算后得 b0 =-0.9099, b1 =0.8856, b2
方程=表0.5达2:61,
ln( p ) 0.9099 0.8856x1 0.5261x2 1 p
exp( ) OR
exp(0.8856) OR 2.4244
ln P 1 P
=
0
1 X1
2
X
2
m
X
m
检验方法(讲义260-261页) 1)似然比检验 (likelihood ratio test) 2)Wald检验
例表16-1吸烟、饮酒与食管癌资料 (SAS软件计算)
1.对建立的整个模型做检验。 ln( p ) 0.9099 0.8856x1 0.5261x2 1 p
X5 1.496 0.744 4.04 4.46
0.0443 0.406
X6 3.136 1.249 6.30 0.0121 0.703 23.06
X8 1.947 0.847 5.29 0.0215 0.523
7.01
bj ' bj sj /( / 3)
标准回归系数(b’) 比较各自变量对Y 的相对贡献
OR e
如X=1,0两分类,则OR的1-α可信区间 估计公式
e(bj u / 2Sbj )
S 为回归系数 bj 的标准误
(公式16-10)
例:讲义表16-1资料
一个研究吸烟、饮酒与食道癌关系的病例-对 照资料(886例),试作logistic回归分析。
变量的赋值
1 Y
0
食管癌患者 对照:非食管癌
ln L0 ( X1) 585.326
log it( p) 0 1x1
G 2[ln L(X1, X2 ) ln L(X1) 2(579.711 (585.326)] 11.23
G >3.84,p<0.05,说明调整吸烟因素 后,饮酒与食管癌有关系。
四、变量筛选
目的;将回归系数有显著意义的自变量选入 模型中,作用不显著的自变量则排除在外。 变量筛选算法有:前进法、后退法和 逐步法(stepwise)。
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr 似然比 68.5457 2 <.0001 计分检验 67.0712 2 <.0001 Wald检验 64.2784 2 <.0001
2.检验二:
检验模型中某β是否对Y有作用。
检验假设: H 0 : j 0 H1 : j 0
例:讲义例16-2,用逐步法 选入变量的显著水准为0.10,变量保留在方
程的水准为0.15 例:16-2讲义261-263页
表16-4 进入方程的自变量及参数估计
变量 β
Sb Waldχ2 P 标准β’ OR
常数 -4.705 1.54 9.30 0.0023
年龄 0.924 0.477 3.76 0.0525 0.401 2.52
Y 发病=1 不发病=0
危险因素
x= 1 x= 0
30(a) 10( b)
70(c) 90(d)
a+c
b+d
危险因素
x= 1 x= 0
p1 1-p1
p0 1-p0
a p1 a c
有暴露因素人群中发病的比例
多元回归模型的的 i概念
logit(p)
ln
1
P P
=
0
1
X1
mXm
i 反映了在其他变量固定后,X=1与x=0相
愈
率 普通型
65.0 重型
41.7 合计
47.5
病人 数
300 100 400
甲疗法 治愈 治愈
数
率
180 60.0
35 35.0
215 53.8
乙疗法 病人 治愈 治
数
数
100
65
300
125
400
190
表5-5直接法计算标准化治愈率
病型 标准
甲疗法
乙疗法
治疗 原治 预期
原治 预期
人数 愈率 治愈数 愈率 治愈数
2.两值因变量的logistic回归模型方 程
一个自变量与Y关系的回归模型 如:y:发生=1,未发生=0 x : 有=1,
无=0, 记为p(y=1/x)表示某暴露因素状态下,
或 结果y=P1(的y 概1率/ (x)P)1模e型e0。0xx
1 p(y 1/ x)
1 exp[(0 x)]
模型描述了应变量p与x的关系
ln
OR
ln
P1 P0
/(1 /(1
P1 ) P0 )
log itP1 log itP0
P1(y=1/x=1)的概率 P0(y=1/x=0)的概率
(0 1x1) (0 x0 ) 1x1
OR e
OR P1 /(1 P1) odds1 P0 /(1 P0 ) odds0
Y 发病=1 不发病=0
( 0 1xk ....k xk )
2.模型中参数的意义
ln P 1 P
=
0
1 X 1
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
ln
P(y 1/ x 1 P(y 0 /
x
0) 0)
=
0
i 的含义:某危险因素,暴露水平变化时,即
Xi=1与Xi=0相比,发生某结果(如发病)优势 比的对数值。
第二节 条件Logistic回归
概念: 用配对设计获得病例对照研究资料,计算的
Logistic回归模型为条件Logistic回归。
成组(未配对)设计的病例对照研究资料,计算的 Logistic回归模型为非条件Logistic回归。
例:见265页 区别: 条件Logistic回归的参数估计无常数项(β0),主
第十六章 logistic回归分析
logistic回归为概率型非线性 回归模型,是研究分类观察 结果(y)与一些影响因素(x) 之间关系的一种多变量分析 方法
问题提出:
医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何?
因素(X)
疾病结果(Y)
x1,x2,x3…XK
发生
Y=1
不发生 Y=0
Logistic回归的应用
2.校正混杂因素,对疗效做评价 在临床研究和疗效的评价,组间某些因素构
成不一致干扰疗效分析,通过该法可控制 非处理因素,正确评价疗效。
3.预测与判别 预测个体在某因素存在条件下,发生某事件
(发病)的概率,为进一步治疗提供依据。
例1
例:
表5-4甲乙两疗法某病治愈率%比较
病型
控制饮酒因素后, 吸烟与不吸烟相比 患食管癌的优势比 为2.4倍
exp(0.5261) OR 1.6923
OR的可信区间估计
吸烟与不吸烟患食管癌OR的95%可信区间:
exp(b1 u /2Sb1 ) exp(0.8856 1.960.15) (1.81,3.25)
饮酒与不饮酒OR的95%可信区间:
第一节 logistic回归 一、基本概念
1.变量的取值 logistic回归要求应变量(Y)取值为分类变量
(两分类或多个分类)
1 Y 0
出现阳性结果 (发病、有效、死亡等) 出现阴性结果 (未发病、无效、存活等)
自变量(Xi)称为危险因素或暴露因素,可为连续变 量、等级变量、分类变量。 可有m个自变量X1, X2,… Xm
检验统计量:主要为Wald检验(SAS软件)
2 ( bj )2
例;
Sbj
ν=1的χ2
公式16-13
在大样本时,2三方(法0.0结8.81果55一6)致2 。 33.86
例表16-1资料,对各x的β做检验(wald检验) 参数 β估计值 标准误 Chi-Squa Pr 常数-0.9099 0.1358 44.8699 .0001 吸烟 0.8856 0.1500 34.8625 .0001 饮酒 0.5261 0.1572 11.2069 .0008
Odds Ratio Estimate
方程如下:
线形 关系
y log it( p) 0 1x1 Y~(-∞至+∞)
截距(常数)
回归系数
在有多个危险因素(Xi)时
多个变量的logistic回归模型方程的线性表达:
公式16-2
logit(p)
ln
1
P P
=
0
1
X1
2
X
2
m
X
m
或
p( y 1/ x1, x2
x ) 1 e 1 k
普通型 400 60.0 240
65.0 260
重型 400 35.0 140
41.7 167
合计 800
380
427
调整率(标准化率):
P甲'
Ni Pi Ni
380 800
47.5%
P乙'
427 800
53.4%
X1疗法(甲=0,乙=1)X2病情(轻=1,重 =0) Y疗效(Y=1有效,Y=0无效)
例:暴露因素 高血压史(x1):有 或无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无
冠心病结果 有 或无
研究问题可否用多元线性回归方法?
yˆ a b1x1 b2x2 bmxm
1.多元线性回归方法要求 Y 的取值为计量 的连续性随机变量。
2.多元线性回归方程要求Y与X间关系为线 性关系。
3.多元线性回归结果 Yˆ 不能回答“发生
与否” logistic回归方法补充多元线性回归的不足
Logistic回归方法
该法研究是 当 y 取某值(如y=1)发生的概率(p)与
某暴露因素(x)的关系。
p(y 1/ x) f (x),即p f (x)
P(概率)的取值波动0~1范围。 基本原理:用一组观察数据拟合Logistic模型, 揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。
要用于危险因素的分析。
项
一、logistic回归的应用
1.疾病(某结果)的危险因素分析和筛选 用回归模型中的回归系数(βi)和OR说明
危险因素与疾病的关系。例:讲义例16-1, 16-2,16-3
适用的资料:
前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。
三类研究计算的logistic 回归模型的β意义是一致。仅常 数项不同。(证明略)
P( y
0/ x
1)
1
1
e0 x e0
x
1
p1
e0 p0 P( y 1/ x 0) 1 e0
e0 P( y 0 / x 0) 1 1 e0 1 p0
logistic回归模型方程的线性表达
对logistic回归模型的概率(p)做logit变
换, log it( p) ln( p ) 1 p
p( y 1)
1
P概率
1
1 exp[(0 x)]
z 0 1x
0.5
Β为正值,x越 大,结果y=1发 生的可能性(p) 越大。
-3 -2 -1 0 1
Z值 23
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
e0 x p1 P( y 1/ x 1) 1 e0 x
ln L1
包括p个自变量的对 数似然函数
ln L0
包括 l 个自变量的 对数似然函数
G服从自由度(d)=p-l的χ2分布
似然比检验对β做检验
例:X1为吸烟,X2为饮酒,检验饮酒与食 管癌关系,H0:β2=0,H1:β2≠0
ln L1( X1, X 2 ) 579.711 log it( p) 0 1x1 2x2