多元logistic回归分析2017
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5
logit 变换:logit P = ln P 为 P 的 logit 变换, 1 P
通过 logit 变换之后,就可将 0 P 1 的资料转换为
log it(P) 的资料。 作 logit 变换后,logistic 回归模型可以表示成如下 的线性形式:
ln
1
P P
0
1x1
2
x2
②再拟合包含待检验因素的 logistic 模型,求另一
个对数似然函数值 ln L1 ;③比较两个对数似然函数
值差别的大小 21
若 2 个模型分别包含 l 个自变量和 p 个自变量,似然比统计
量 G 的计算公式为: G 2(ln Lp ln Ll )
当样本含量 n 较大时,在 H 0 成立的条件下, G 统计量近似 服从自由度 d p l 的 2 分布。
(2)多分类资料Logistic回归: 因变量为多项分类的资料, 可用多项分类Logistic回归模型或有序分类Logistic回归 模型进行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 Logistic回归分析应用及注意事项
3
第一节 非条件logistic回归
一、logistic 回归模型:
对 Q 分别求关于 和 的一阶偏导数,得到关于 和 的线性方程组,
解方程组得: b0 ln( b / d )
b1
ln(
a
/
c)
ln( b /
d)
ln(
ad bc
)
11
对于更一般的情况,建立样本似然函数:
n
L
i1
PYi i
(1
Pi
)1Yi
( i 1, 2, , n ) (15.6)
其中, Pi 表示第 i 例观察对象处于暴露条件下时阳性结果
1
]c [
1
]d
1 exp( ) 1 exp( ) 1 exp( ) 1 exp( )
10
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
为使似然函数值最大,首先对函数两边取对数:
Q ln( L) a ( ) a ln[1 exp( )] b b ln[1 exp()] c ln[1 exp( )] d ln[1 exp( )]
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1
p( y
1|
15
例、口服避孕药(OC)与心肌梗死(MI)关系的病例对照研究结果
病例(MI) 对照
合计
服用 OC
39
24
63
未服 OC
114
154
268
合计
153
178
331
Logistic 回归分 析结果
16
表 15-1 为吸烟、饮酒与食管癌关系的病例-对照研究调查 资料,试进行 logistic 回归分析。
14
例、口服避孕药(OC)与心肌梗死(MI)关系的病例对照研究结果
病例(MI) 对照
合计
服用 OC
39
24
63
未服 OC
114
154
268
合计
153
178
331
在logistic过程步中 加“descending”选 项的目的是使SAS 过程按阳性率(y=1) 拟合模型,得到阳 性病例对应于阴性
病例的优势比。
b1
ln( a
/
c)
ln( b /
d)
ln(
ad bc
)
= ln
39 154 24 114
0.78626
Logistic
模型为:
p1
exp( x) 1 exp( x)
exp(0.3008 0.7863x) 1 exp(0.3008 0.7863x)
或者: log it( p) ln( p ) 0.3008 0.7863x 1 p
19
吸烟与不吸烟的优势比: ORˆ1 expb1 exp0.8856 2.42 ,其OR1 的 95%可信区间: exp[b1 u0.05 2Sb1 ] exp(0.8856 1.96 0.1500) (1.81, 3.25) 饮酒与不饮酒的优势比: ORˆ2 expb2 exp0.5261 1.69 ,其OR2 的 95%可信区间: exp[b2 u0.05 S2 b2 ] exp(0.52611.96 0.1572) (1.24, 2.30) 由结果可看出,吸烟和饮酒均为食管癌发病的危险因素, 吸烟人群发生食管癌的可能性是不吸烟人群的 2.42 倍, 饮酒人群发生食管癌的可能性是不饮酒人群的 1.69 倍。
用 Newton-Raphson 迭代方法解方程组,得出参数 j 的估计
值 bj 和 bj 的渐进标准误 Sbj 。
12
优势比估计 自变量 X j 不同水平 c1 和 c0 优势比的估计值: ORˆ j exp[bj (c1 c0 )]
当样本含量 n 较大时, bj 的抽样分布近似服从
正态分布,若 X j 只有暴露和非暴露 2 个水平,
logistic回归模型的参数估计常采用最大似然估计。其基本 思想是先建立似然函数与对数似然函数,求使对数似然函 数最大时的参数值,其估计值即为最大似然估计值。
在病例-对照研究中,假设变量 y 取值 1 和 0 分别表示对象患
病和不患病;变量 x 取值 1 和 0 表示具有和不具有某种危险因 素;具体调查数据见下表:
符号
X 1
X 2
X 3
X4
X 5
Y
表 15-4 与肾细胞癌转移有关的因素及说明 说明
确诊时患者年龄(岁) 肾细胞癌血管内皮生长因子(VEGF),阳性表述由 低到高共 3 级
肾细胞癌组织内微血管数(MVC)
肾癌细胞核组织学分级,由低到高共 4 级
肾细胞癌分期,由低到高共 4 期
肾细胞癌转移情况(有转移 Y =1; 无转移 Y =0)
则优势比 OR j 的 100(1 )%可信区间为:
exp(bj u S2 bj )
13
例、口服避孕药(OC)与心肌梗死(MI)关系的病例对照研究结果
服用 OC 未服 OC 合计
病例(MI) 39 a 114 b 153
对照 24 c 154 d 178
合计 63 268 331
参数估计为:
b0 ln( b / d) = ln(114 /154) 0.30075
Logistic回归分析
1
Logistic回归(Logistic Regression)是研究因变量为二分类 或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析 方法,属概率型非线性回归。
Logistic回归的分类:
(1)二分类资料Logistic回归: 因变量为两分类变量的资料, 可用非条件Logistic回归和条件Logistic回归进行分析。 非条件Logistic回归多用于非配比病例-对照研究或队列研究 资料,条件Logistic回归多用于配对或配比资料。
20
三、logistic回归模型的假设检验
常用的检验方法有似然比检验(likelihood ratio test)
和Wald 检验。
1. 似然比检验
基本思想是比较 2 种不同假设条件下的对数似然函 数值差别的大小。具体方法是:①先拟合不包含待
检验因素的 logistic 模型,求对数似然函数值ln L0 ;
发生的概率。阳性结果时, Yi 1;阴性结果时,Yi 0 。
根据最大似然原理,似然函数 L 应取最大值。
对似然函数取对数形式:
n
ln L i1[Yi ln Pi (1 Yi ) ln(1 Pi )]
(15.7)
式中为对数似然函数,对其取一阶导数求解参数。对于参数 j
( j 1, 2, , m ),令 ln L 的一阶导数为 0,即 ln L 0 , j
则该因素的优势比: ORj exp[ j (c1 c0 )]
式中 P1 和 P0 分别表示在 X j 取值为 c1 和 c0 时的发病 概率, OR j 为调整后优势比(adjusted odds ratio), 表示扣除了其它自变量影响后危险因素 X j 的作用。
8
二、 logistic回归模型的参数估计
表 15-1 吸烟、饮酒与食管癌关系的病例-对照研究资料
分层 g 吸烟 X1 饮酒 X 2
总例数 ng
阳性数 d g 阴性数ng dg
1
0
0
199
63
136
2
0
1
170
63
107
3
1
0
101
44
57
4
1
1
416
265
151
首先确定变量的赋值或编码:
1 吸烟 X1 0 不吸烟
1 饮酒 X 2 0 不饮酒
否引入模型。
与多元线性回归类似,标准化偏回归系数可以
比较各因素作用的相对重要性。
24
例 某工作者在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一 批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例。试用 logistic回归分析筛选出与癌细胞转移有关的危险因素(变量选入和剔除 水平均为0.10)。
量。它与比数比(优势比) OR (odds ratio)有对应关系。
7
在其它影响因素相同的情况下,某危险因素 X j 两个
不同暴露水平 c1 和 c0 发病优势比的自然对数为:
ln OR j
ln
P1 P0
(1 (1
P1 ) P0 )
=
ln( P1 ) ln( P0 )
1 P1
1 P0
= j (c1 c0 )
其中, 0 为常数项, 1, 2 ,, m 为偏回归系数。
(15.1)
4
设 Z 0 1 X1 2 X 2 m X m ,则 Z 与 P 之间关系的
logistic 曲线如下图所示 。
可看出:当 Z 趋于 时, P 值渐进于 1;当 Z 趋于 时, P 值渐近于 0; P 值的变化在 0~1 之间,并且随 Z 值的变 化以点(0,0.5)为中心成对称 S 形变化。
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
型可表示为:
P exp( 0 1 X1 2 X 2 m X m ) 1 exp( 0 1 X1 2 X 2 m X m )
23
四、变量筛选
Logistic 逐步回归变量筛选的过程与线性逐步回 归变量筛选的过程极为相似,但其中所用的检
验统计量不再是 F 统计量,而是似然比统计量、 Wald 统计量等。例如使用似然比统计量,
即利用
G
2[ln
L(l ) 1
ln
L(l ) 0
]
,在进行到第 l
步时,
通过比较含有 X j 和不含 X j 的模型,决定 X j 是
如果只对一个回归系数(或一个自变量)进行检验,则 1。
2.Wald 检验
用 u 检验或 2 检验来检验各参数 j 是否为 0。
u bj Sbj
2
2 bj Sbj
Sbj 为偏回归系数的标准误,其估计是以似然函数的一阶和二
阶导数建立估计公式,用递推方法计算。
22
对所拟合模型的假设检验:
概率p值均小 于0.05,说明 方程有意义。
x)
exp( x) 1 exp( x)
则四个格子所对应的概率分别是:
p1
p( y
1|
x
1)
exp( ) 1 exp( )
;
p2
p( y
1|
x
0)
exp( ) 1 exp( )
1
p1
p( y
0|
x
1)
1
1
exp(
)
;1
p2
p( y
0|
x
0)
1
1
exp( )
则似然函数为:
L [ exp( ) ]a[ exp( ) ]b[
m
xm
6
模型参数的流行病学含义
当各种暴露因素为 0 时:
lnLeabharlann Baidu 1
P P
)
0
1
X1
2
X
2
mXm
0 1 0 m 0 0
可看出:常数项 0 是当各种暴露因素为 0 时,个体发病 与不发病概率之比的自然对数值。
偏回归系数 j ( j 1,2,, m )表示在其它自变量固定的
条件下,第 j 个自变量每改变一个单位时 logit (P) 的改变
1 病例 Y 0 对照
logistic 回归分析过程可通过 SAS 统计软件包中 logistic 过程步实现
17
观
在logistic过程步
察
中加“descending”
例 数
选项的目的是使 SAS过程按阳性
率(y=1)拟合模
型,得到阳性病
例对应于阴性病
例的优势比。
18
OR值
OR的95%CI
对偏回归系数 的假设检验
logit 变换:logit P = ln P 为 P 的 logit 变换, 1 P
通过 logit 变换之后,就可将 0 P 1 的资料转换为
log it(P) 的资料。 作 logit 变换后,logistic 回归模型可以表示成如下 的线性形式:
ln
1
P P
0
1x1
2
x2
②再拟合包含待检验因素的 logistic 模型,求另一
个对数似然函数值 ln L1 ;③比较两个对数似然函数
值差别的大小 21
若 2 个模型分别包含 l 个自变量和 p 个自变量,似然比统计
量 G 的计算公式为: G 2(ln Lp ln Ll )
当样本含量 n 较大时,在 H 0 成立的条件下, G 统计量近似 服从自由度 d p l 的 2 分布。
(2)多分类资料Logistic回归: 因变量为多项分类的资料, 可用多项分类Logistic回归模型或有序分类Logistic回归 模型进行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 Logistic回归分析应用及注意事项
3
第一节 非条件logistic回归
一、logistic 回归模型:
对 Q 分别求关于 和 的一阶偏导数,得到关于 和 的线性方程组,
解方程组得: b0 ln( b / d )
b1
ln(
a
/
c)
ln( b /
d)
ln(
ad bc
)
11
对于更一般的情况,建立样本似然函数:
n
L
i1
PYi i
(1
Pi
)1Yi
( i 1, 2, , n ) (15.6)
其中, Pi 表示第 i 例观察对象处于暴露条件下时阳性结果
1
]c [
1
]d
1 exp( ) 1 exp( ) 1 exp( ) 1 exp( )
10
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
为使似然函数值最大,首先对函数两边取对数:
Q ln( L) a ( ) a ln[1 exp( )] b b ln[1 exp()] c ln[1 exp( )] d ln[1 exp( )]
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1
p( y
1|
15
例、口服避孕药(OC)与心肌梗死(MI)关系的病例对照研究结果
病例(MI) 对照
合计
服用 OC
39
24
63
未服 OC
114
154
268
合计
153
178
331
Logistic 回归分 析结果
16
表 15-1 为吸烟、饮酒与食管癌关系的病例-对照研究调查 资料,试进行 logistic 回归分析。
14
例、口服避孕药(OC)与心肌梗死(MI)关系的病例对照研究结果
病例(MI) 对照
合计
服用 OC
39
24
63
未服 OC
114
154
268
合计
153
178
331
在logistic过程步中 加“descending”选 项的目的是使SAS 过程按阳性率(y=1) 拟合模型,得到阳 性病例对应于阴性
病例的优势比。
b1
ln( a
/
c)
ln( b /
d)
ln(
ad bc
)
= ln
39 154 24 114
0.78626
Logistic
模型为:
p1
exp( x) 1 exp( x)
exp(0.3008 0.7863x) 1 exp(0.3008 0.7863x)
或者: log it( p) ln( p ) 0.3008 0.7863x 1 p
19
吸烟与不吸烟的优势比: ORˆ1 expb1 exp0.8856 2.42 ,其OR1 的 95%可信区间: exp[b1 u0.05 2Sb1 ] exp(0.8856 1.96 0.1500) (1.81, 3.25) 饮酒与不饮酒的优势比: ORˆ2 expb2 exp0.5261 1.69 ,其OR2 的 95%可信区间: exp[b2 u0.05 S2 b2 ] exp(0.52611.96 0.1572) (1.24, 2.30) 由结果可看出,吸烟和饮酒均为食管癌发病的危险因素, 吸烟人群发生食管癌的可能性是不吸烟人群的 2.42 倍, 饮酒人群发生食管癌的可能性是不饮酒人群的 1.69 倍。
用 Newton-Raphson 迭代方法解方程组,得出参数 j 的估计
值 bj 和 bj 的渐进标准误 Sbj 。
12
优势比估计 自变量 X j 不同水平 c1 和 c0 优势比的估计值: ORˆ j exp[bj (c1 c0 )]
当样本含量 n 较大时, bj 的抽样分布近似服从
正态分布,若 X j 只有暴露和非暴露 2 个水平,
logistic回归模型的参数估计常采用最大似然估计。其基本 思想是先建立似然函数与对数似然函数,求使对数似然函 数最大时的参数值,其估计值即为最大似然估计值。
在病例-对照研究中,假设变量 y 取值 1 和 0 分别表示对象患
病和不患病;变量 x 取值 1 和 0 表示具有和不具有某种危险因 素;具体调查数据见下表:
符号
X 1
X 2
X 3
X4
X 5
Y
表 15-4 与肾细胞癌转移有关的因素及说明 说明
确诊时患者年龄(岁) 肾细胞癌血管内皮生长因子(VEGF),阳性表述由 低到高共 3 级
肾细胞癌组织内微血管数(MVC)
肾癌细胞核组织学分级,由低到高共 4 级
肾细胞癌分期,由低到高共 4 期
肾细胞癌转移情况(有转移 Y =1; 无转移 Y =0)
则优势比 OR j 的 100(1 )%可信区间为:
exp(bj u S2 bj )
13
例、口服避孕药(OC)与心肌梗死(MI)关系的病例对照研究结果
服用 OC 未服 OC 合计
病例(MI) 39 a 114 b 153
对照 24 c 154 d 178
合计 63 268 331
参数估计为:
b0 ln( b / d) = ln(114 /154) 0.30075
Logistic回归分析
1
Logistic回归(Logistic Regression)是研究因变量为二分类 或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析 方法,属概率型非线性回归。
Logistic回归的分类:
(1)二分类资料Logistic回归: 因变量为两分类变量的资料, 可用非条件Logistic回归和条件Logistic回归进行分析。 非条件Logistic回归多用于非配比病例-对照研究或队列研究 资料,条件Logistic回归多用于配对或配比资料。
20
三、logistic回归模型的假设检验
常用的检验方法有似然比检验(likelihood ratio test)
和Wald 检验。
1. 似然比检验
基本思想是比较 2 种不同假设条件下的对数似然函 数值差别的大小。具体方法是:①先拟合不包含待
检验因素的 logistic 模型,求对数似然函数值ln L0 ;
发生的概率。阳性结果时, Yi 1;阴性结果时,Yi 0 。
根据最大似然原理,似然函数 L 应取最大值。
对似然函数取对数形式:
n
ln L i1[Yi ln Pi (1 Yi ) ln(1 Pi )]
(15.7)
式中为对数似然函数,对其取一阶导数求解参数。对于参数 j
( j 1, 2, , m ),令 ln L 的一阶导数为 0,即 ln L 0 , j
则该因素的优势比: ORj exp[ j (c1 c0 )]
式中 P1 和 P0 分别表示在 X j 取值为 c1 和 c0 时的发病 概率, OR j 为调整后优势比(adjusted odds ratio), 表示扣除了其它自变量影响后危险因素 X j 的作用。
8
二、 logistic回归模型的参数估计
表 15-1 吸烟、饮酒与食管癌关系的病例-对照研究资料
分层 g 吸烟 X1 饮酒 X 2
总例数 ng
阳性数 d g 阴性数ng dg
1
0
0
199
63
136
2
0
1
170
63
107
3
1
0
101
44
57
4
1
1
416
265
151
首先确定变量的赋值或编码:
1 吸烟 X1 0 不吸烟
1 饮酒 X 2 0 不饮酒
否引入模型。
与多元线性回归类似,标准化偏回归系数可以
比较各因素作用的相对重要性。
24
例 某工作者在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一 批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例。试用 logistic回归分析筛选出与癌细胞转移有关的危险因素(变量选入和剔除 水平均为0.10)。
量。它与比数比(优势比) OR (odds ratio)有对应关系。
7
在其它影响因素相同的情况下,某危险因素 X j 两个
不同暴露水平 c1 和 c0 发病优势比的自然对数为:
ln OR j
ln
P1 P0
(1 (1
P1 ) P0 )
=
ln( P1 ) ln( P0 )
1 P1
1 P0
= j (c1 c0 )
其中, 0 为常数项, 1, 2 ,, m 为偏回归系数。
(15.1)
4
设 Z 0 1 X1 2 X 2 m X m ,则 Z 与 P 之间关系的
logistic 曲线如下图所示 。
可看出:当 Z 趋于 时, P 值渐进于 1;当 Z 趋于 时, P 值渐近于 0; P 值的变化在 0~1 之间,并且随 Z 值的变 化以点(0,0.5)为中心成对称 S 形变化。
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
型可表示为:
P exp( 0 1 X1 2 X 2 m X m ) 1 exp( 0 1 X1 2 X 2 m X m )
23
四、变量筛选
Logistic 逐步回归变量筛选的过程与线性逐步回 归变量筛选的过程极为相似,但其中所用的检
验统计量不再是 F 统计量,而是似然比统计量、 Wald 统计量等。例如使用似然比统计量,
即利用
G
2[ln
L(l ) 1
ln
L(l ) 0
]
,在进行到第 l
步时,
通过比较含有 X j 和不含 X j 的模型,决定 X j 是
如果只对一个回归系数(或一个自变量)进行检验,则 1。
2.Wald 检验
用 u 检验或 2 检验来检验各参数 j 是否为 0。
u bj Sbj
2
2 bj Sbj
Sbj 为偏回归系数的标准误,其估计是以似然函数的一阶和二
阶导数建立估计公式,用递推方法计算。
22
对所拟合模型的假设检验:
概率p值均小 于0.05,说明 方程有意义。
x)
exp( x) 1 exp( x)
则四个格子所对应的概率分别是:
p1
p( y
1|
x
1)
exp( ) 1 exp( )
;
p2
p( y
1|
x
0)
exp( ) 1 exp( )
1
p1
p( y
0|
x
1)
1
1
exp(
)
;1
p2
p( y
0|
x
0)
1
1
exp( )
则似然函数为:
L [ exp( ) ]a[ exp( ) ]b[
m
xm
6
模型参数的流行病学含义
当各种暴露因素为 0 时:
lnLeabharlann Baidu 1
P P
)
0
1
X1
2
X
2
mXm
0 1 0 m 0 0
可看出:常数项 0 是当各种暴露因素为 0 时,个体发病 与不发病概率之比的自然对数值。
偏回归系数 j ( j 1,2,, m )表示在其它自变量固定的
条件下,第 j 个自变量每改变一个单位时 logit (P) 的改变
1 病例 Y 0 对照
logistic 回归分析过程可通过 SAS 统计软件包中 logistic 过程步实现
17
观
在logistic过程步
察
中加“descending”
例 数
选项的目的是使 SAS过程按阳性
率(y=1)拟合模
型,得到阳性病
例对应于阴性病
例的优势比。
18
OR值
OR的95%CI
对偏回归系数 的假设检验