logistic回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.对建立的整个模型做检验。 p ln( ) 0.9099 0.8856x1 0.5261x 2 1 p
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF 似然比 68.5457 2 计分检验 67.0712 2 Wald检验 64.2784 2
G服从自由度(d)=p-l的χ2分布
例:X1为吸烟,X2为饮酒,检验饮酒与食
似然比检验对β做检验
管癌关系,H0:β2=0,H1:β2≠0
ln L1 ( X1 , X 2 ) 579.711
log it ( p) 0 1 x1 2 x2
ln L0 ( X1 ) 585.326
Point
Effect 吸烟x1 饮酒x2 Estimate 2.424 1.692
95% Wald
Confidence Limits 1.807 1.244 3.253 2.303
似然比检验(讲义)
对某个β做检验,检验统计量(G)
G 2(ln L1 ln L0 )
ln L1 ln L0
包括p个自变量的对 数似然函数 包括 l 个自变量的 对数似然函数
OR e
如X=1,0两分类,则OR的1-α可信区间 估计公式
e
(b j u / 2 Sb j )
Sb j
为回归系数 的标准误
(公式16-10)
例:讲义表16-1资料
一个研究吸烟、饮酒与食道癌关系的病例-对 照资料( 886 例),试作 logistic 回归分析。 变量的赋值
1 Y 0
表16-4 进入方程的自变量及参数估计
变量 β Sb Waldχ2 P 标准β’ OR 常数 -4.705 1.54 9.30 0.0023 年龄 0.924 0.477 3.76 0.0525 0.401 2.52 X5 1.496 0.744 4.04 0.0443 0.406 4.46 X6 3.136 1.249 6.30 0.0121 0.703 23.06 X8 1.947 0.847 5.29 0.0215 0.523 7.01 标准回归系数(b’) 比较各自变量对Y 的相对贡献
e p1 P( y 1/ x 1) 0 x 1 e
0 x
e P( y 0 / x 1) 1 1 p 1 0 x 1 e e p0 P( y 1/ x 0) 0 1 e 0 e P( y 0 / x 0) 1 1 p0 0 1 e
项 一、logistic回归的应用
1.疾病(某结果)的危险因素分析和筛选
用回归模型中的回归系数(β i)和OR说明 危险因素与疾病的关系。例:讲义例16-1, 16-2,16-3
适用的资料:
前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。
三类研究计算的logistic 回归模型的β意义是一致。仅常 数项不同。(证明略)
1 X1 0
食管癌患者 对照:非食管癌
吸烟 不吸烟
1 X2 0 饮酒 不饮酒
经logistic回归计算后得 b0 =-0.9099, b1 =0.8856, b2 =0.5261 方程表达 : ,
p ln( ) 0.9099 0.8856 x1 0.5261x 2 1 p
Logistic回归方法
该法研究是 当 y 取某值(如y=1)发生的概率(p)与 某暴露因素(x)的关系。
p( y 1/ x) f ( x),即p f ( x)
P(概率)的取值波动0~1范围。 基本原理:用一组观察数据拟合Logistic模型, 揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。
b j ' b j s j /( / 3)
概念: 用配对设计获得病例对照研究资料,计算的 Logistic回归模型为条件Logistic回归。
第二节 条件Logistic回归
成组(未配对)设计的病例对照研究资料,计算的 Logistic回归模型为非条件Logistic回归。 例:见265页 区别: 条件Logistic回归的参数估计无常数项(β0),主 要用于危险因素的分析。
2.两值因变量的logistic回归模型方 程
一个自变量与Y关系的回归模型 如:y:发生=1,未发生=0 x : 有=1, 无=0, 记为p(y=1/x)表示某暴露因素状态下, 结果y=1的概率(P)模型。 0 x
或
e P( y 1 / x) 0 x 1 e
1 p( y 1 / x) 1 exp[ ( 0 x)]
例表16-1资料,对各x的β做检验(wald检验)
参数 β估计值 标准误 Chi-Squa Pr 常数-0.9099 0.1358 44.8699 .0001 吸烟 0.8856 0.1500 34.8625 .0001 饮酒 0.5261 0.1572 11.2069 .0008
Odds Ratio Estimates
多个变量的logistic回归模型方程的线性表达: 公式16-2
P logit(p) ln = 0 1 X 1 2 X 2 m X m 1 P
或
p( y 1/ x1 , x2 xk )
1 1 e
( 0 1 xk .... k xk )
Y 发病=1 不发病=0
a p1 ac
有暴露因素人群中发病的比例
多元回归模型的的
i
概念
P logit(p) ln = 0 1 X 1 m X m 1 P
i 反映了在其他变量固定后,X=1与x=0相
比发生Y事件的对数优势比。 回归系数β与OR X与Y的关联 β=0,OR=1, 无关 β>1,OR>1 , 有关,危险因素 β<1,OR<1, 有关,保护因子
Pr <.0001 <.0001 <.0001
2.检验二:
检验模型中某β是否对Y有作用。 检验假设:
H0 : j 0
bj Sb j
2
H1 : j 0
检验统计量:主要为Wald检验(SAS软件)
(
2
)
2
ν=1的χ2
公式16-13
例;
0.8856 2 ( ) 33.86 在大样本时,三方法结果一致。 0.15
Xi=1与Xi=0相比,发生某结果(如发病)优势 比的对数值。
i
的含义:某危险因素,暴露水平变化时,即
P 1 /(1 P 1) ln OR ln P0 /(1 P0 ) log itP 1 log itP 0
P1(y=1/x=1)的概率 P0(y=1/x=0)的概率
Logistic回归的应用
2.校正混杂因素,对疗效做评价 在临床研究和疗效的评价,组间某些因素构 成不一致干扰疗效分析,通过该法可控制 非处理因素,正确评价疗效。 3.预测与判别 预测个体在某因素存在条件下,发生某事件 (发病)的概率,为进一步治疗提供依据。
exp( ) OR
exp( 0.8856) OR 2.4244
控制饮酒因素后, 吸烟与不吸烟相比 患食管癌的优势比 为2.4倍
exp( 0.5261) OR 1.6923
OR的可信区间估计
吸烟与不吸烟患食管癌OR的95%可信区间:
exp(b1 u / 2 Sb1 ) exp(0.8856 1.96 0.15) (1.81,3.25)
2.模型中参数的意义
P ln = 0 1 X 1 1 P
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
P( y 1 / x 0) ln 1 P( y 0 / x 0) = 0
log it ( p) 0 1 x1
G 2[ln L( X1 , X 2 ) ln L ( X1 ) 2(579.711 ( 585.326)] 11.23
G >3.84,p<0.05,说明调整吸烟因素 后,饮酒与食管癌有关系。
四、变量筛选
目的;将回归系数有显著意义的自变量选入 模型中,作用不显著的自变量则排除在外。 变量筛选算法有:前进法、后退法和 逐步法(stepwise)。 例:讲义例16-2,用逐步法 选入变量的显著水准为0.10,变量保留在方 程的水准为0.15 例:16-2讲义261-263页
研究问题可否用多元线性回归方法?
ˆ a b1x1 b2 x2 bm xm y
1.多元线性回归方法要求 Y 的取值为计量 的连续性随机变量。 2.多元线性回归方程要求Y与X间关系为线 性关系。 ˆ 不能回答“发生 3.多元线性回归结果 Y 与否” logistic回归方法补充多元线性回归的不足
第十六章 logistic回归分析
logistic回归为概率型非线性 回归模型,是研究分类观察 结果(y)与一些影响因素(x) 之间关系的一种多变量分析 方法
问题提出: 医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何? 因素(X) 疾病结果(Y) x1,x2,x3…XK 发生 Y=1 不发生 Y=0 例:暴露因素 高血压史(x1):有 或无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无 冠心病结果 有 或 无
( 0 1 x1 ) ( 0 x0 ) 1 x1
OR e
Leabharlann Baidu
P odds1 1 /(1 P 1) OR P0 /(1 P0 ) odds0
Y 发病=1 不发病=0
危险因素 x= 1 x= 0 30(a) 10( b) 70(c) 90(d) a+c b+d 危险因素 x= 1 x= 0 p1 p0 1-p1 1-p0
P ln = 0 1 X 1 2 X 2 m X m 1 P
检验方法(讲义260-261页) 1)似然比检验 (likelihood ratio test) 2)Wald检验
H 0 : 1 2 m 0
例表16-1吸烟、饮酒与食管癌资料 (SAS软件计算)
第一节 logistic回归 一、基本概念
1.变量的取值 logistic回归要求应变量(Y)取值为分类变量 (两分类或多个分类)
1 Y 0 出现阳性结果 (发病、有效、死亡等) 出现阴性结果 (未发病、无效、存活等)
自变量(Xi)称为危险因素或暴露因素,可为连续变 量、等级变量、分类变量。 可有m个自变量X1, X2,… Xm
饮酒与不饮酒OR的95%可信区间:
exp(b2 u / 2 Sb2 ) exp(0.5261 1.96 0.1572) (1.24, 2.30)
1.检验一:对建立的整个模型做检验。
说明自变量对Y的作用是否有统计意义。
三、Logistic 回归模型的假设检验
H1 : 各( , 2, ,m)不全为0 j j 1
i
事件发生率很小,OR≈RR。
二、logistic回归模型的参数估计
1. 模型中的参数(βi)估计
,
P ln = 0 1 X 1 2 X 2 m X m 1 P
通常用最大似然函数 (maximum likelihood estimate, MLE)估计β, 由统计软件包完成。(讲义259页)
模型描述了应变量p与x的关系
P概率 1 p( y 1) 1 1 exp[ ( 0 x)]
z 0 1 x
0.5
Β为正值,x越 大,结果y=1发 生的可能性(p) 越大。
-3
-2
-1
0
1
2
3
Z值
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
0
0 x
logistic回归模型方程的线性表达
对logistic回归模型的概率(p)做logit变 换,
p log it ( p) ln( ) 1 p
方程如下:
线形 关系
y log it ( p) 0 1 x1
Y~(-∞至+∞)
截距(常数)
回归系数
在有多个危险因素(Xi)时
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF 似然比 68.5457 2 计分检验 67.0712 2 Wald检验 64.2784 2
G服从自由度(d)=p-l的χ2分布
例:X1为吸烟,X2为饮酒,检验饮酒与食
似然比检验对β做检验
管癌关系,H0:β2=0,H1:β2≠0
ln L1 ( X1 , X 2 ) 579.711
log it ( p) 0 1 x1 2 x2
ln L0 ( X1 ) 585.326
Point
Effect 吸烟x1 饮酒x2 Estimate 2.424 1.692
95% Wald
Confidence Limits 1.807 1.244 3.253 2.303
似然比检验(讲义)
对某个β做检验,检验统计量(G)
G 2(ln L1 ln L0 )
ln L1 ln L0
包括p个自变量的对 数似然函数 包括 l 个自变量的 对数似然函数
OR e
如X=1,0两分类,则OR的1-α可信区间 估计公式
e
(b j u / 2 Sb j )
Sb j
为回归系数 的标准误
(公式16-10)
例:讲义表16-1资料
一个研究吸烟、饮酒与食道癌关系的病例-对 照资料( 886 例),试作 logistic 回归分析。 变量的赋值
1 Y 0
表16-4 进入方程的自变量及参数估计
变量 β Sb Waldχ2 P 标准β’ OR 常数 -4.705 1.54 9.30 0.0023 年龄 0.924 0.477 3.76 0.0525 0.401 2.52 X5 1.496 0.744 4.04 0.0443 0.406 4.46 X6 3.136 1.249 6.30 0.0121 0.703 23.06 X8 1.947 0.847 5.29 0.0215 0.523 7.01 标准回归系数(b’) 比较各自变量对Y 的相对贡献
e p1 P( y 1/ x 1) 0 x 1 e
0 x
e P( y 0 / x 1) 1 1 p 1 0 x 1 e e p0 P( y 1/ x 0) 0 1 e 0 e P( y 0 / x 0) 1 1 p0 0 1 e
项 一、logistic回归的应用
1.疾病(某结果)的危险因素分析和筛选
用回归模型中的回归系数(β i)和OR说明 危险因素与疾病的关系。例:讲义例16-1, 16-2,16-3
适用的资料:
前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。
三类研究计算的logistic 回归模型的β意义是一致。仅常 数项不同。(证明略)
1 X1 0
食管癌患者 对照:非食管癌
吸烟 不吸烟
1 X2 0 饮酒 不饮酒
经logistic回归计算后得 b0 =-0.9099, b1 =0.8856, b2 =0.5261 方程表达 : ,
p ln( ) 0.9099 0.8856 x1 0.5261x 2 1 p
Logistic回归方法
该法研究是 当 y 取某值(如y=1)发生的概率(p)与 某暴露因素(x)的关系。
p( y 1/ x) f ( x),即p f ( x)
P(概率)的取值波动0~1范围。 基本原理:用一组观察数据拟合Logistic模型, 揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。
b j ' b j s j /( / 3)
概念: 用配对设计获得病例对照研究资料,计算的 Logistic回归模型为条件Logistic回归。
第二节 条件Logistic回归
成组(未配对)设计的病例对照研究资料,计算的 Logistic回归模型为非条件Logistic回归。 例:见265页 区别: 条件Logistic回归的参数估计无常数项(β0),主 要用于危险因素的分析。
2.两值因变量的logistic回归模型方 程
一个自变量与Y关系的回归模型 如:y:发生=1,未发生=0 x : 有=1, 无=0, 记为p(y=1/x)表示某暴露因素状态下, 结果y=1的概率(P)模型。 0 x
或
e P( y 1 / x) 0 x 1 e
1 p( y 1 / x) 1 exp[ ( 0 x)]
例表16-1资料,对各x的β做检验(wald检验)
参数 β估计值 标准误 Chi-Squa Pr 常数-0.9099 0.1358 44.8699 .0001 吸烟 0.8856 0.1500 34.8625 .0001 饮酒 0.5261 0.1572 11.2069 .0008
Odds Ratio Estimates
多个变量的logistic回归模型方程的线性表达: 公式16-2
P logit(p) ln = 0 1 X 1 2 X 2 m X m 1 P
或
p( y 1/ x1 , x2 xk )
1 1 e
( 0 1 xk .... k xk )
Y 发病=1 不发病=0
a p1 ac
有暴露因素人群中发病的比例
多元回归模型的的
i
概念
P logit(p) ln = 0 1 X 1 m X m 1 P
i 反映了在其他变量固定后,X=1与x=0相
比发生Y事件的对数优势比。 回归系数β与OR X与Y的关联 β=0,OR=1, 无关 β>1,OR>1 , 有关,危险因素 β<1,OR<1, 有关,保护因子
Pr <.0001 <.0001 <.0001
2.检验二:
检验模型中某β是否对Y有作用。 检验假设:
H0 : j 0
bj Sb j
2
H1 : j 0
检验统计量:主要为Wald检验(SAS软件)
(
2
)
2
ν=1的χ2
公式16-13
例;
0.8856 2 ( ) 33.86 在大样本时,三方法结果一致。 0.15
Xi=1与Xi=0相比,发生某结果(如发病)优势 比的对数值。
i
的含义:某危险因素,暴露水平变化时,即
P 1 /(1 P 1) ln OR ln P0 /(1 P0 ) log itP 1 log itP 0
P1(y=1/x=1)的概率 P0(y=1/x=0)的概率
Logistic回归的应用
2.校正混杂因素,对疗效做评价 在临床研究和疗效的评价,组间某些因素构 成不一致干扰疗效分析,通过该法可控制 非处理因素,正确评价疗效。 3.预测与判别 预测个体在某因素存在条件下,发生某事件 (发病)的概率,为进一步治疗提供依据。
exp( ) OR
exp( 0.8856) OR 2.4244
控制饮酒因素后, 吸烟与不吸烟相比 患食管癌的优势比 为2.4倍
exp( 0.5261) OR 1.6923
OR的可信区间估计
吸烟与不吸烟患食管癌OR的95%可信区间:
exp(b1 u / 2 Sb1 ) exp(0.8856 1.96 0.15) (1.81,3.25)
2.模型中参数的意义
P ln = 0 1 X 1 1 P
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
P( y 1 / x 0) ln 1 P( y 0 / x 0) = 0
log it ( p) 0 1 x1
G 2[ln L( X1 , X 2 ) ln L ( X1 ) 2(579.711 ( 585.326)] 11.23
G >3.84,p<0.05,说明调整吸烟因素 后,饮酒与食管癌有关系。
四、变量筛选
目的;将回归系数有显著意义的自变量选入 模型中,作用不显著的自变量则排除在外。 变量筛选算法有:前进法、后退法和 逐步法(stepwise)。 例:讲义例16-2,用逐步法 选入变量的显著水准为0.10,变量保留在方 程的水准为0.15 例:16-2讲义261-263页
研究问题可否用多元线性回归方法?
ˆ a b1x1 b2 x2 bm xm y
1.多元线性回归方法要求 Y 的取值为计量 的连续性随机变量。 2.多元线性回归方程要求Y与X间关系为线 性关系。 ˆ 不能回答“发生 3.多元线性回归结果 Y 与否” logistic回归方法补充多元线性回归的不足
第十六章 logistic回归分析
logistic回归为概率型非线性 回归模型,是研究分类观察 结果(y)与一些影响因素(x) 之间关系的一种多变量分析 方法
问题提出: 医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何? 因素(X) 疾病结果(Y) x1,x2,x3…XK 发生 Y=1 不发生 Y=0 例:暴露因素 高血压史(x1):有 或无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无 冠心病结果 有 或 无
( 0 1 x1 ) ( 0 x0 ) 1 x1
OR e
Leabharlann Baidu
P odds1 1 /(1 P 1) OR P0 /(1 P0 ) odds0
Y 发病=1 不发病=0
危险因素 x= 1 x= 0 30(a) 10( b) 70(c) 90(d) a+c b+d 危险因素 x= 1 x= 0 p1 p0 1-p1 1-p0
P ln = 0 1 X 1 2 X 2 m X m 1 P
检验方法(讲义260-261页) 1)似然比检验 (likelihood ratio test) 2)Wald检验
H 0 : 1 2 m 0
例表16-1吸烟、饮酒与食管癌资料 (SAS软件计算)
第一节 logistic回归 一、基本概念
1.变量的取值 logistic回归要求应变量(Y)取值为分类变量 (两分类或多个分类)
1 Y 0 出现阳性结果 (发病、有效、死亡等) 出现阴性结果 (未发病、无效、存活等)
自变量(Xi)称为危险因素或暴露因素,可为连续变 量、等级变量、分类变量。 可有m个自变量X1, X2,… Xm
饮酒与不饮酒OR的95%可信区间:
exp(b2 u / 2 Sb2 ) exp(0.5261 1.96 0.1572) (1.24, 2.30)
1.检验一:对建立的整个模型做检验。
说明自变量对Y的作用是否有统计意义。
三、Logistic 回归模型的假设检验
H1 : 各( , 2, ,m)不全为0 j j 1
i
事件发生率很小,OR≈RR。
二、logistic回归模型的参数估计
1. 模型中的参数(βi)估计
,
P ln = 0 1 X 1 2 X 2 m X m 1 P
通常用最大似然函数 (maximum likelihood estimate, MLE)估计β, 由统计软件包完成。(讲义259页)
模型描述了应变量p与x的关系
P概率 1 p( y 1) 1 1 exp[ ( 0 x)]
z 0 1 x
0.5
Β为正值,x越 大,结果y=1发 生的可能性(p) 越大。
-3
-2
-1
0
1
2
3
Z值
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
0
0 x
logistic回归模型方程的线性表达
对logistic回归模型的概率(p)做logit变 换,
p log it ( p) ln( ) 1 p
方程如下:
线形 关系
y log it ( p) 0 1 x1
Y~(-∞至+∞)
截距(常数)
回归系数
在有多个危险因素(Xi)时