第八课 SPSS logistic回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

用回归模型中的回归系数(βi)和OR说明危险因素与疾病的关系。例:讲义例16-1,16-2,16-3 适用的资料:
前瞻性研究设计、病例对照研究设计、
横断面研究设计的资料。
三类研究计算的logistic 回归模型的β意义是一致。仅常数项不同。(证明略)
Logistic回归的应用 2.校正混杂因素,对疗效做评价 在临床研究和疗效的评价,组间某些因素构成不一致干扰疗效分析,通过该法可控制非处理因素,
例:讲义例16-2,用逐步法 选入变量的显著水准为0.10,变量保留在方程的水准为0.15 例:16-2讲义261-263页
表16-4 进入方程的自变量及参数估计
变量 β
Sb Waldχ2 P
标准β’ OR
常数 年龄 X5 X6 X8
-4.705 1.54 0.924 0.477 1.496 0.744 3.136 1.249 1.947 0.847
2. 优势比(OR)及可信区间的估计
OR e 如X=1,0两分类,则OR的1-α可信区间估计公式
e(bj u / 2Sbj )
S bj
为回归系数的标准 误
例:
一个研究吸烟、饮酒与食道癌关系的病例-对照资料(886例),试作logistic回归分析。 变量的赋值
1 Y0
食管癌患者 对照:非食管癌
1
X1
0
吸烟
1
不吸烟 X2 0
饮酒 不饮酒
经logistic回归计算后得 b0 =-0.9099, b1 =0.8856, b2 =0.5261,
ln ( p) 0 .9 0 9 90 .8 8 5 6x10 .5 2 6 1 x2 1p 方程表达:
exp()OR
控制饮酒因素后,吸烟与不吸烟相 比患食管癌的优势比为2.4倍
e0x p1P(y1/x1)1e0x
P (y0/x1)11 ee 0 0 xx1p1 e0
p0P(y1/x0)1e0 e0
P(y0/x0)11e0 1p0
logistic回归模型方程的线性表达 对logistic回归模型的概率(p)做logit变换,
logit(p) ln( p ) 1 p
方程如下:
Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits 吸烟x1 2.424 1.807 3.253 饮酒x2 1.692 1.244 2.303
似然比检验(讲义) 对某个β做检验,检验统计量(G)
G2(lnL1lnL0)
疗法 1.282
0.919 1.788
病情 2.691
1.929 3.755
例2 性别、两种药物对某病疗效的研究
第八课 SPSS logistic回归分析
问题提出:
医学研究中常研究某因素存在条件下某结果是否发生?以及之间的关系如何?
因素(X)
疾病结果(Y)
x1,x2,x3…XK
发生
Y=1
不发生 Y=0
例:暴露因素 高血压史(x1):有 或无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无
冠心病结果 有 或无
正确评价疗效。
3.预测与判别 预测个体在某因素存在条件下,发生某事件(发病)的概率,为进一步治疗提供依据。
例1 例:
表5-4甲乙两疗法某病治愈率%比较
病型
甲疗法
病人 治愈 治愈



普通型 重型 合计
300 100 400
180 35 215
60.0 35.0 53.8
乙疗法
病人 治愈


治愈 率
成组(未配对)设计的病例对照研究资料,计算的Logistic回归模型为非条件Logistic回归。 例:见265页 区别: 条件Logistic回归的参数估计无常数项(β0),主要用于危险因素的分析。
第三节一、logloisgtiisct回ic归回的归应的用应及用注意事项
1.疾病(某结果)的危险因素分析和筛选
研究问题可否用多元线性回归方法?
y ˆab 1x1b 2x2 b m xm
1.多元线性回归方法要求 Y 的取值为计量的连续性随机变量。 2.多元线性回归方程要求Y与X间关系为线性关系。 3.多元线性回归结果 不能回答“发生与否” logistic回归方法补充多元线性回归的不足

Logistic回归方法 该法研究是
似然比 68.5457 2 <.0001 计分检验 67.0712 2 <.0001 Wald检验 64.2784 2 <.0001
2.检验二: 检验模型中某β是否对Y有作用。 检验假设:
H : 0 检验统计量:主要为Wald检验(SAS软件) 0j
H1 : j 0
例;
( b ) 在大样本时,2三方法结果一致j。 2
自变量(Xi)称为危险因素或暴露因素,可为连续变量、等级变量、分类变量。
1 可有m个自变量X1, X2,出 … Xm现阳性(结 发果 病、有效、死亡
Y0
出现阴性(结 未果 发病、无效) 、存
2. logistic回归模型方程 一个自变量与Y关系的回归模型 如:y:发生=1,未发生=0 x : 有=1,无=0, 记为p(y=1/x)表示某暴露因素状态下,结果y=1的概率(P)模型。
P甲' N N iP ii 8 30 80 047 .5%
427 P乙'80053.4%
X1疗法(甲=0,乙=1)X2病情(轻=1,重=0) Y疗效(Y=1有效,Y=0无效)
LOGISTIC回归计算
Standard Wald Parameter Estimate Error Chi-Squa Pr
i 回归系数β与OR
X与Y的关联
β=0,OR=1,
无关
β>1,OR>1 , 有关,危险因素
β<1,OR<1, 有关,保护因子 i
事件发生率很小,OR≈RR。
二、logistic回归模型的参数估计 1. 模型中的参数(βi)估计
ln 1 P P =XX X , 通常用最大似然函数 (maximum0likelihoo1 d est1 imate, M2LE)估2计β, 由统计软件包m 完成。m
100 300 400
65 65.0 125 41.7 190 47.5
病型
普通型 重型 合计
表5-5直接法计算标准化治愈率
标准
甲疗法
乙疗法
治疗 原治 预期
原治 预期
人数 愈率 治愈数 愈率 治愈数
400 60.0 240
65.0 260
400 35.0 140
41.7 167
800
380
427
调整率(标准化率):
Intercept -0.6453 0.1653 15.24 <.0001
疗法
0.1442
病情
0.9900 0.1699 33.93 <.0001
0.2482 0.1699 2.13
Odds Ratio Estimate
Point 95% Wald
Effect Estimate Confidence Limits
当 y 取某值(如y=1)发生的概率(p)与某暴露因素(x)的关系。
P(概率)的取值波动0~1范围。 基本原理:用一组观察数据拟合Logistic模型,揭示若干个x与一个因变量取值的关系,反映y 对x的依
存关p 系。(y 1 /x ) f(x ),即 p f(x )
1.基本第概一念节 logistic回归 logistic回归要求应变量(Y)取值为分类变量(两分类或多个分类)
30(a) 10( b)
70(c) 90(d)
a+c
b+d
危险因素
x= 1 x= 0
p1 1-p1
p0 1-p0
p1
a
a
c
有暴露因素人群中发病的比例
i
多元回归模型的的 概念
logit(p)ln 1 P P = 01X 1m X m
反映了在其他变量固定后,X=1与x=0相比发生Y事件的对数优势比。
线形关系
ylo i(tg p )01x1 Y~(-∞至+∞)
截距(常数)
回归系数
在有多个危险因素(Xi)时 多个变量的logistic回归模型方程的线性表达:
log li n 1 t P P ( p =0 )1 X 12 X 2 m X m

1 p (y 1 /x 1 ,x 2 x k) 1 e (0 1 x k ....kx k)
9.30 3.76 4.04 6.30 5.29
0.0023 0.0525 0.401 0.0443 0.406 0.0121 0.703 0.0215 0.523
2.52 4.46 23.06 7.01
标准回归系数(b’) 比较各自变量对Y 的相对贡献
bj 'bj sj /(/ 3)
第二节 条件Logistic回归 概念: 用配对设计获得病例对照研究资料,计算的Logistic回归模型为条件Logistic回归。
2.模型中参数的意义
ln1PP=0 1X1
Β0(常数项):暴露因素Xi=0时,个体发病概率与不发病概率之比的自然对数比值。
ln1PP (y(y1/0x/x 0)0)=0
的含义:某危险因素,暴露水平变化时,即Xi=1与Xi=0相比,发生某结果(如发病)优势比的对
数值。i
ln
OR
wenku.baidu.com
ln
P1 P0
/(1 /(1
ex0.p 8(8) 5O 6 R 2.4244
ex0.p 5(2) 6O 1 R 1.6923
OR的可信区间估计 吸烟与不吸烟患食管癌OR的95%可信区间:
ex p (b 1u /2Sb 1)ex p (0 .8 8 5 6 1 .9 60 .1 5 ) (1 .8 1 ,3 .2 5 )
饮酒与不饮酒OR的95%可信区间:
ln L1
包括p个自变量的对数似然函数
ln L 0
包括 l 个自变量的对数似然函数
G服从自由度(d)=p-l的χ2分布
例:似X然1为比吸检烟验,对Xβ2做为检饮验酒,检验饮酒与食管癌关系,H0:β2=0,H1:β2≠0
lnL 1(X 1,X 2) 5 7 9 .7 1 1 lo g it(p )01 x 12 x 2
P1) P0 )
log itP1 log itP0
P1(y=1/x=1)的概率 P0(y=1/x=0)的概率
(0 1x1) (0 x0 ) 1x1
ORe
ORP1/(1P1) od1d P0/(1P0) od0d
Y 发病=1 不发病=0
Y 发病=1 不发病=0
危险因素
x= 1 x= 0
1)似然比检验1(likelihojod ratio test)
2)Wald检验
3l)计n 分1 检 验P (sP cor e t= est) 01X 12X 2 m X m
例表16-1吸烟、饮酒与食管癌资料 (SAS软件计算)
1.对建立的整个模型做检验。
TTeessttilngn CGh(il-oS1 bqau laNp reulp l DHFy)po tPhres is:0 BE.TA9 =00 9 90 .8 8 5 6x10 .5 2 6 1 x2
ν=1的χ2
S2bj (0.8856)2 33.86
0.15
例表16-1资料,对各x的β做检验(wald检验) 参数 β估计值 标准误 Chi-Squa Pr 常数-0.9099 0.1358 44.8699 .0001 吸烟 0.8856 0.1500 34.8625 .0001 饮酒 0.5261 0.1572 11.2069 .0008
ex p (b 2u /2S b2)ex p (0 .5 2 6 1 1 .9 60 .1 5 7 2 ) (1 .2 4 ,2 .3 0 )
1.检验三一、:L对og建is立tic的回整归个模模型型的做假检设验检。验 说明自变量对Y的作用是否有统计意义。
H 0:1 2 m 0
H :各 ( j 1 , 2 , , m )不 全 为 0 检验方法(讲义260-261页)
lnL 0(X 1)585.326
logit(p)01x1
G2[lnL(X1,X2)lnL(X1) 2(579.711(585.326)]11.23
G >3.84,p<0.05,说明调整吸烟因素后,饮酒与食管癌有关系。
四、变量筛选
目的;将回归系数有显著意义的自变量选入模型中,作用不显著的自变量则排除在外。 变量筛选算法有:前进法、后退法和 逐步法(stepwise)。
e0x

P(y1/x)1e0x
p(y1/x)1exp 1 (0 [x)]
模型描述了应变量p与x的关系
p(y1)1exp1 ([0x)]P概率1
z01x
0.5
Β为正值,x越大,结果 y=1发生的可能性(p) 越大。
-3
-2
-1
0
1
Z值
2
3
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
相关文档
最新文档