Spss软件之logistic回归分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
…
n
0
1
Xn01
X n02
…
1
0
X n11
X n12
…
2
0
Xn21
X n22
…
Xk X 10k X 11 k X 12k
X iMk
X n0k X n1 k X n2k
M
0
XnM1
XnM2
…
X nMk
Conditional logistic regression
用Pi表示第i层在一组危险因素作用下发病的概率, 条 件 logistic 模型可表示为
n
L
1
i1 1
M
k exp
j (X itj X i0 j )
t 1
j1
可以看出,条件logistic 回归分析只估计了表示危 险因素作用的βj值,表示匹配组效应的常数项βi0 则被自动地消去了。
Conditional logistic regression
对上述条件似然函数L取自然对数后,用非线性 迭代法求出参数的估计值bi及其标准误Sbi。回归 系数的假设检验及分析方法与非条件logistic回归 完全相同。
c1 1, c0 0,
Xj
1, 暴露
0,非暴露
ORj exp( j )
Logistic regression analysis
0,
ORj
1
无作用
ORj exp( j ), j >0, ORj 1 危险因子
0, ORj 1 保护因子
二、模型的参数估计
在logistic回归模型中,回归系数的估计通常用最大 似然法(MLE)。其基本思想是先建立一个样本 的似然函数,求似然函数达到最大值时参数的取 值,即为参数的极大似然估计值。
Pi
1
exp ( 0i
1
1X1
2 X 2
...
k
Xk
)
i= 1,2,…,n
与非条件logistic 回归模型不同之处在常数项上,不同
匹配组的β0i 可以各不相同,但内在假定了每个危险因 素的致病能力在不同匹配组中相同。
Conditional logistic regression
考虑第i个匹配组中的 个观察对象有1名病例的条
G 2(ln L1 ln L0)
当样本含量较大时,在零假设下得到的G统计量
近似服从自由度为d(d=p-l)的
2
分布。
由例13-1可以算得
lnL(X1 ) 585.326
•对于 H0:β1=0和 H0:β2=0
lnL(X1 , X2 ) 579.711
Hypothesis test
lnL(X2 ) 597.436
因素 X 常数项
回归系数 标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
治疗21周
4.761 0.444 114.981 <0.001 116.863 48.949 279.006
第二节 条件logistic回归
一、条件logistic回归的原理
条件logistic回归(conditional logistic regression) 是针对配对或分层资料的一种分析方法。在这类 资料中,每一个病例配以条件相似的一个(1:1) 或几个(1:M,通常M ≤3)对照,形成一个匹配 组(层),称为1:1配对或1:M配对。
件下,恰好第一个观察对象属于病例组的条件概
率为
M
P( Xi0 | Y 1 ) P( X it | Y 0 )
Li M
t 1 M
P( Xit | Y t0
1)
P( X
it
t 0 t t
|Y
0 )
Conditional logistic regression
综合n个匹配组的条件似然函数为
治疗21周
3.299 0.323 104.602 <0.001 27.073 14.388 50.940
第2步 常数项
-4.647 0.422 121.502 <0.001 0.010
服药情况
2.309 0.355 42.174 <0.001 10.060 5.012 20.192
治疗11周
2.684 0.310 74.842 <0.001 14.638 7.970 26.887
0 1 1 2 2 0.00 1 1
OR值的可信区间:
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
例13-1 研究吸烟(X1)、饮酒(X2)与食道 癌(Y)关系的病例-对照资料,试作logistic 回归分析。
表13-2 吸烟与食道癌关系的病例-对照调查资料
吸烟 X1
0 0 1 1 0 0 1 1
表13-4 骨折治疗效果的4个可能影响因素与编码说明
因素 骨折类型 治疗方法 服药情况 治疗周数 疗效评价
变量名
X1 X2 X3 X4 Y
编码说明 闭合=0, 开放=1 非手术=0, 手术=1 未服药=0, 服药=1 1~=1,11~=2,21~=3 差=0,好=1
表13-5 治疗周数的哑变量赋值
水平 1
哑变量
X4-1
X4-2
0
0
2
1
0
3
0
1
分层 1 2 3 4 ┇ 24
表13-6 骨折治疗效果评价研究资料
X1 X2 X3 X4 阳性数 阴性数 观察例数
0001
0
18
18
0002
2
15
17
0003
7
3
10
0011
10
68
78
┇┇┇┇ ┇
┇
┇
1113
6
0
6
SPSS向前选择法筛选自变量结果
Βj 与比数比(OR)的对应关系
如果
即
ln OR ln 则暴露组与非暴露组发病的比数比为 j
P1 P0
/ /
(1 (1
P1 P0
) )
logitP1
logitP0
m
m
( 0 jc1 t X t ) ( 0 jc0 t X t )
t j
t j
j (c1 c0 )
二、应用实例
例13-3 上海某大学研究人员做了胃癌1:1配对设 计的病例-对照研究,本例节录了其中40对资料, 见表13-9和表13-10,试筛选胃癌发病的危险因素。
表13-9 胃癌可能危险因素编码表
因素 接触有害物质 蛋白质摄入量分级 新鲜蔬菜及水果摄入 喜盐渍食物及重盐饮食 不良饮食习惯 吸烟 精神因素 胃癌
logistic回归的变量筛选的方法有向前选择、向后 选择和逐步选择三种方法。所用的检验统计量 logistic回归参数检验中的似然比统计量、Wald统 计量或计分统计量之一。
例13-2 某医院在研究某种药物治疗骨折效果时, 收集了516例病例资料,对每一患者采用相同的标 准按照“好、差”做疗效评价。在评价时需要同 时考虑骨折的类型、是否手术、是否服药和治疗 时间4个因素对结果的影响。数据资料见表13-4和 表13-6,试作logistic逐步回归分析。
有n个病例,每个病例配以条件相似的M个对设照,共
形成n个匹配组,数据格式如表13-8所示。
表13-8 1:M 条件logistic回归数据的格式
匹配组号
组内编号* 反应变量
危险因素
i
t
Y
X1
X2
…
1
0
1
X101
X 102
…
1
0
X 111
X 112
…
2
0
X 121
X 122
…
M
0
X iM1
X iM2
Hypothesis test
2.Wald检验
z bj , Sbj
2
bj Sbj
2
对于大样本资料,在零假设下z 近似
服从标准正态分布,而 则近似服从
自由度=1的 分布。
2
2
Abraham Wald
Hypothesis test
似然比检验可以对自变量增减时所得到的不同回 归模型进行比较,既适合单个自变量的假设检验, 又适合多个自变量的同时检验。Wald检验比较适 合单个自变量的检验,但结果略为保守。
表13-10 胃癌危险因素研究1:1病例-对照研究数据表
序号 1 2 3 4 ┇ 79 80
配对编号 1 1 2 2 ┇ 40 40
X1 X2 X3 X4 X5
X6
X7 Y
1 2 2 0 0 3.00 2 1
0 1 1 1 2 0.50 0 0
1 2 2 1 3 0.25 2 1
0 3 2 0 1 0.25 0 0 ┇ ┇ ┇ ┇ ┇ ┇ ┇┇
2.303
三、logistic回归系数的假设检验
对模型整体的检验 H0:β1=β2=…=βk=0, H1:β1,β2,…,βk不全为0
对单个偏回归系数的检验
H0:βj=0, H1:βj≠0
1.似然比检验
Hypothesis test
似然比检验的基本思想是比较在两种不同假设条 件下的对数似然函数值,看其差别大小。
G1 2[lnL(X1 , X2 ) lnL(X2 )]=35.45>3.84 G2 2[lnL(X1 , X2 ) lnL(X1 )]=11.23>3.84
Hypothesis test
上面计算结果说明:在α=0.05检验水准上拒绝H0, 接受H1,说明平衡了饮酒因素的影响后,食管癌 与吸烟有显著性关系;同理,平衡了吸烟因素的 影响后,食管癌与饮酒有显著性关系。
表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步 常数项
回归系数 标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间 下限 上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
从表13-3中可以看出,吸烟和饮酒Wald 值分别为 34.862和11.207,与似然比检验的结果一致。
四、变量筛选
当对多个自变量建立logistic回归模型时,并不是 每一个自变量对模型都有贡献。需要通过变量筛 选将具有统计学意义的自变量都包含在模型内, 而将没有统计学意义的自变量排除在外。
变量名
编码说明
X1 无=0, 有=1 X2 0,1,2,3,4,5(无=0,摄入量逐级升高) X3 无=0,少=1,多=2 X4 0,1,2,3,4,5(不吃=0,喜好程度逐级升高) X5 0,1,2,3,4(无=0,数量逐级升高) X6 吸烟量分×吸烟年数分级 X7 0,1,2,3(分值越高负面精神因素越多) Y 对照=0,胃癌=1
logistic回归分析
Logistic regression analysis
医学研究中应变量有时是二分类结果,如发病与 不发病、死亡与生存、有效与无效、复发与未复 发等,当需要研究二分类应变量的影响因素时, 适合采用logistic回归分析。
logistic回归属于概率型非线性回归,它是研究二 分类(可以扩展到多分类)反应变量与多个影响 因素之间关系的一种多变量分析方法。logistic回 归模型参数具有明确的实际意义。
饮酒 X2
0 1 0 1 0 1 0 1
疾病状态 Y
1 1 1 1 0 0 0 0
观察例数 n
63 63 44 265 136 107 57 151
各变量赋值情况如下:
X1
1, 吸烟 0,不吸烟
X2
1, 0,
饮酒 不饮酒
Y
1, 病例 0, 对照
用SPSS统计软件logistic回归过程可得到如下主要结果
第一节 logistic回归
一.logistic回归模型 (一) logistic回归模型 设有一个二值应变量Y,取值为
1, 出现阳性结果 Y 0, 出现阴性结果 有m个影响Y 取值的自变量X1, X2, X3 , … , Xm 。
Logistic regression analysis
记在这m个自变量作用下阳性结果发生的概率为 P =P (Y =1|X1, X2, X3, ... , Xm),logistic回归模型可表示为
logit(P)=0 1X1 2 X 2 m X m
Logistic regression analysis
(二) 模型参数的意义 如果把logistic模型中的 P看作是在某一暴露状态下发
病的概率,则 β0:表示所有暴露剂量为0时发病与不发病概率之比的 自然对数,反映了疾病的基准状态。 βj :表示当因素 Xj 改变一个单位时logit(P)的改变量。
P
1
exp
(0
1
X1
1
2
X2
m
X
m
)
0 常数项或截距, 1, 2 , , m 为回归系数。
Logistic regression analysis
logistic回归模型还可以表示成如下线性形式
ln
P 1 P
=0
1 X1
2
X
2
mXm
等号左端为阳性结果与阴性结果发生概率之比的自 然对数,称为P 的logit变换,记为logit(P ),即