logistic回归分析82972
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0.924 0.477 3.76
1.496 0.744 4.04
3.136 1.249 6.30
1.947 0.847 5.29
P 标准β’ OR 0.0023 0.0525 0.401 2.52 0.0443 0.406 4.46 0.0121 0.703 23.06 0.0215 0.523 7.01
Odds Ratio Estimates
Point 95% Wald
Effect Estimate 吸烟x1 2.424 饮酒x2 1.692
Confidence Limits 1.807 3.253 1.244 2.303
似然比检验(讲义)
❖ 对某个β做检验,检验统计量(G)
G 2(ln L1 ln L0 )
Y 发病=1 不发病=0
危险因素
x= 1 x= 0 30(a) 10( b)
70(c) 90(d)
a+c
b+d
危险因素
x= 1 x= 0
p1 1-p1
p0 1-p0
a p1 a c
有暴露因素人群中发病的比例
多元回归模型的的
概念
i
logit(p)
ln
1
P P
=
0
1
X1
L
mXm
i 反映了在其他变量固定后,X=1与x=0相比发生Y事
2.模型中参数的意义
ln P 1 P
=
0
1 X 1
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
ln
P(y 1/ x 1 P(y 0 /
x
0) 0)
=
0
与Xii=0的相含比义,:发某生危某险结因果素(,如暴发露病水)平优变势化比时的,对即数X值i=。1
2.两值因变量的logistic回归模型方程
❖ 一个自变量与Y关系的回归模型 如:y:发生=1,未发生=0 x : 有=1,无=0, 记为p(y=1/x)表示某暴露因素状态下,结果y=1
的概率(P)模型。
或
P(
y
1/
x)
e0 x 1 e0 x
1
p(y 1/ x)
1 exp[(0 x)]
模型描述了应变量p与x的关系
p( y 1)
1
P概率
1
1 exp[(0 x)]
z 0 1x
0.5
Β为正值,x越 大,结果y=1发 生的可能性(p) 越大。
-3 -2 -1 0 1
Z值 23
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
e0 x p1 P( y 1/ x 1) 1 e0 x
3.预测与判别 预测个体在某因素存在条件下,发生某事件(发病
)的概率,为进一步治疗提供依据。
例1
例表: 5-4甲乙两疗法某病治愈率%比较
病型
病人
数
普通型 300 65.0
重型 100 41.7
合计 400 47.5
甲疗法 治愈 治愈
数率 180 60.0
35 35.0
215 53.8
乙疗法
病人 治愈
例:见265页 区别: 条件Logistic回归的参数估计无常数项(β0),主
要用于危险因素的分析。
第三节 logistic回归的应用及注意事 项
一、logistic回归的应用
1.疾病(某结果)的危险因素分析和筛选 用回归模型中的回归系数(βi)和OR说明危险因
素与疾病的关系。例:讲义例16-1,16-2,16-3 适用的资料:
log it( p) 0 1x1 2x2
log it( p) 0 1x1
G 2[ln L(X1, X2 ) ln L(X1) 2(579.711 (585.326)] 11.23
G >3.84,p<0.05,说明调整吸烟因素后, 饮酒与食管癌有关系。
四、变量筛选
目的;将回归系数有显著意义的自变量选入模型中 ,作用不显著的自变量则排除在外。
数数
100
65
治愈 率
300 125
400 190
表5-5直接法计算标准化治愈率
病型
普通型 重型 合计
标准 治疗 人数 400 400 800
甲疗法 原治 预期 愈率 治愈数 60.0 240 35.0 140
380
乙疗法 原治 预期 愈率 治愈数 65.0 260 41.7 167
427
调整率(标准化率):
ln P = 1 P
0
1X1
2X2
mXm
检验方法(讲义260-261页) 1)似然比检验 (likelihood ratio test) 2)Wald检验 3)计分检验(score test)
例表16-1吸烟、饮酒与食管癌资料 (SAS软件计算)
1.对建立的整个模型做检验。
ln( p ) 0.9099 0.8856x1 0.5261x2 1 p
1 Y
0
食管癌患者 对照:非食管癌
1 X1 0
吸烟 不吸烟
1 X 2 0
饮酒 不饮酒
❖ 经logistic回归计算后得 ❖ b0 =-0.9099, b1 =0.8856, b2 =0.5261,
方程表达:
ln( p ) 0.9099 0.8856x1 0.5261x2 1 p
exp( ) OR
例:暴露因素 高血压史(x1):有 或无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无
冠心病结果 有 或无
研究问题可否用多元线性回归方法 ?
yˆ a b1x1 b2x2 K bmxm
1.多元线性回归方法要求 Y 的取值为计量的连续 性随机变量。
2.多元线性回归方程要求Y与X间关系为线性关系 。
饮酒与不饮酒OR的95%可信区间:
exp(b2 u /2Sb2 ) exp(0.52611.96 0.1572) (1.24, 2.30)
三、Logistic 回归模型的假设检验
1.检验一:对建立的整个模型做检验。 说明自变量对Y的作用是否有统计意义。
H0 : 1 2 m 0
H1 : 各(j j 1,2,,m)不全为0
ln
OR
ln
P1 P0
/(1 /(1
P1 ) P0 )
log itP1 log itP0
P1(y=1/x=1)的概率 P0(y=1/x=0)的概率
(0 1x1) (0 x0 ) 1x1
OR e
OR P1 /(1 P1) odds1 P0 /(1 P0 ) odds0
Y 发病=1 不发病=0
第十六章 logistic回归分析
logistic回归为概率型非线性回归模型,是研究分类观察结 果(y)与一些影响因素(x)之间关系的一种多变量分析方法
问题提出:
医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何?
因素(X)
疾病结果(Y)
x1,x2,x3…XK
发生
Y=1
不发生 Y=0
❖变量筛选算法有:前进法、后退法和 逐步法(stepwise)。
例:讲义例16-2,用逐步法 选入变量的显著水准为0.10,变量保留在方程的水
准为0.15 例:16-2讲义261-263页
表16-4 进入方程的自变量及参数估计
变量 常数 年龄 X5 X6 X8
β
Sb Waldχ2
-4.705 1.54 9.30
ln L1
包括p个自变量的对 数似然函数
ln L0
包括 l 个自变量的 对数似然函数
G服从自由度(d)=p-l的χ2分布
似然比检验对β做检验
例:X1为吸烟,X2为饮酒,检验饮酒与食管癌 关系,H0:β2=0,H1:β2≠0
ln L1( X1, X 2 ) 579.711
ln L0 ( X1) 585.326
方程如下:
线形 关系
y log it( p) 0 1x1 Y~(-∞至+∞)
截距(常数)
回归系数
在有多个危险因素(Xi)时
❖ 多个变量的logistic回归模型方程的线性表达:
公式16-2
logit(p)
lnFra Baidu bibliotek
1
P P
=
0
1
X1
2
X
2
mXm
或
p( y 1/ x1, x2 K xk ) 1 e 1 (0 1xk ....k xk )
第一节 logistic回归
1.变量的取值
一、基本概念
logistic回归要求应变量(Y)取值为分类变量( 两分类或多个分类)
1 Y 0
出现阳性结果 (发病、有效、死亡等) 出现阴性结果 (未发病、无效、存活等)
自变量(Xi)称为危险因素或暴露因素,可为连续变 量、等级变量、分类变量。 可有m个自变量X1, X2,… Xm
3lo.多gis元ti线c回性归回方归法结补果充多元不Yˆ 线能性回回答归“的发不生足与否”
Logistic回归方法
该法研究是 当 y 取某值(如y=1)发生的概率(p)与某暴露因
素(x)的关系。
p(y 1/ x) f (x),即p f (x)
P(概率)的取值波动0~1范围。 基本原理:用一组观察数据拟合Logistic模型,揭示若 干个x与一个因变量取值的关系,反映y 对x的依存关系 。
件的对数优势比。
回归系数β与OR i X与Y的关联
❖
β=0,OR=1,
无关
β>1,OR>1 , 有关,危险因素
β<1,OR<1, 有关,保护因子
事件发生率很小,OR≈RR。
二、logistic回归模型的参数估计
1. 模型中的参数(βi)估计
,
ln P 1 P
=
0
1X1
2X2
mXm
通常用最大似然函数 (maximum likelihood estimate, MLE)估计β, 由统计软件包完成。(讲义259页)
exp(0.8856) OR 2.4244
控制饮酒因素后, 吸烟与不吸烟相比 患食管癌的优势比 为2.4倍
exp(0.5261) OR 1.6923
OR的可信区间估计
吸烟与不吸烟患食管癌OR的95%可信区间:
exp(b1 u /2Sb1 ) exp(0.8856 1.960.15) (1.81,3.25)
P甲'
Ni Pi Ni
380 800
47.5%
P乙'
427 800
53.4%
X1疗法(甲=0,乙=1)X2病情(轻=1,重=0 )
Y疗效(Y=1有效,Y=0无效)
❖ LOGISTIC回归计算
Standard Wald Estimate Error Chi-Squa Pr
Parameter
Intercept -0.6453 0.1653 15.24 <.0001
标准回归系数(b’) 比较各自变量对Y 的相对贡献
bj ' bj sj /( / 3)
第二节 条件Logistic回归
概念: 用配对设计获得病例对照研究资料,计算的
Logistic回归模型为条件Logistic回归。
成组(未配对)设计的病例对照研究资料,计算的 Logistic回归模型为非条件Logistic回归。
Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr 似然比 68.5457 2 <.0001 计分检验 67.0712 2 <.0001 Wald检验 64.2784 2 <.0001
2.检验二:
检验模型中某β是否对Y有作用。
检验假设: H 0 : j 0 H1 : j 0
检验统计量:主要为Wald检验(SAS软件)
2 ( bj )2
❖例;
Sbj
ν=1的χ2
公式16-13
❖在大样本时,2三方(法0.0结8.81果55一6)致2 。 33.86
例表16-1资料,对各x的β做检验(wald检验)
参数 β估计值 标准误 Chi-Squa Pr 常数-0.9099 0.1358 44.8699 .0001 吸烟 0.8856 0.1500 34.8625 .0001 饮酒 0.5261 0.1572 11.2069 .0008
2. 优势比(OR)及可信区间的估计
OR e
❖ 如X=1,0两分类,则OR的1-α可信区间估计公式
e(bj u / 2Sbj )
S 为回归系数 bj 的标准误
(公式16-10)
例:讲义表16-1资料
一个研究吸烟、饮酒与食道癌关系的病例-对照资料 (886例),试作logistic回归分析。
❖ 变量的赋值
P( y
0/ x
1)
1
1
e0 x e0
x
1
p1
e0 p0 P( y 1/ x 0) 1 e0
e0 P( y 0 / x 0) 1 1 e0 1 p0
logistic回归模型方程的线性表达
对logistic回归模型的概率(p)做logit变换,
log it( p) ln( p ) 1 p
前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。
三类研究计算的logistic 回归模型的β意义是一致。仅常 数项不同。(证明略)
Logistic回归的应用
2.校正混杂因素,对疗效做评价 在临床研究和疗效的评价,组间某些因素构成不一
致干扰疗效分析,通过该法可控制非处理因素, 正确评价疗效。