logistic回归分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

即 OR P1 (1 P1) P1 RR P0 (1 P0 ) P0
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。
其基本思想是先建立似然函数与对数似然函数，
求使对数似然函数最大时的参数值，其估计值即
为最大似然估计值。建立样本似然函数：
n
L
i 1
（1）Mantel-Haenszel分层分析：适用于样本量大、分析因素较少的情况。当分层较多时，由于要求各格子中例数不能太少，所需样本较大，往往难以做到；当混杂因素较多时，分层数也呈几何倍数增长，这将导致部分层中某个格子的频数为零，无法利用其信息。
（2）线性回归分析：由于因变量是分类变量，不能满足其正态性要求；有些自变量对因变量的影响并非线性。
人数暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
c
+
d
-
病例对照原理示意图
病例对照
是否暴露暴露组未暴露组合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比（odds ratio、OR）：病例对照研究中表示疾病与暴露间
联系强度的指标，也称比值比。
比值（odds）：某事物发生的可能性与不发生的可能性之比。
第十五章 logistic回归分析
Logistic Regression Analysis
山东大学公共卫生学院
回归分析的分类
一个因变量y
连续型因变量 (y) --- 线性回归分析分类型因变量 (y) ---Logistic 回归分析生存时间因变量 (t) ---生存风险回归分析时间序列因变量 (t) ---时间序列分析
多个因变量 (y1,y2,…yk)
路径分析结构方程模型分析
• logistic回归（logistic regression）是研究因变量为二分类或多分类观察结果与影响因素（自变量）之间关系的一种多变量分析方法，属概率型非线性回归。
• 在流行病学研究中，常需要分析疾病与各种危险因素间的定量关系，同时为了能真实反映暴露因素与观察结果间的关系，需要控制混杂因素的影响。
ln( P 1 P
)
ln[ 1
1
exp(0 exp(0
1 X1 1 X1
2 2
X X
2 2
mXm) mXm)
]
1 exp(0 1X1 2 X 2 m X m )
ln[exp(0 1X1 2 X2 m Xm )]
0 1X1 2 X2 m Xm
（15.2）
模型参数的流行病学含义
观
在logistic过程步
察
中加“descending”
例数
选项的目的是使 SAS过程按阳性
率（y=1）拟合模
型，得到阳性病
例对应于阴性病
例的优势比。
OR值
OR的95%CI
对偏回归系数的假设检验
吸烟与不吸烟的优势比： ORˆ1 expb1 exp 0.8856 2.42 ，其OR1 的 95%可信区间： exp[b1 u0.05 2Sb1 ] exp(0.8856 1.96 0.1500) (1.81,3.25) 饮酒与不饮酒的优势比： ORˆ2 expb2 exp 0.5261 1.69 ，其OR2 的 95%可信区间： exp[b2 u0.05 S2 b2 ] exp(0.52611.96 0.1572) (1.24, 2.30) 由结果可看出，吸烟和饮酒均为食管癌发病的危险因素，
• 病例对照研究(case-control studies)：一种由果及因的回顾性
研究，先按疾病状态确定调查对象，分为病例(case)和对照 (control)两组，然后利用已有的记录、或采用询问、填写调查表等方式，了解其发病前的暴露情况，并进行比较，推测疾病与暴露间的关系。
比较
调查方向：收集回顾性资料
OR>1,说明该因素是疾病的危险性增加，为危险因素； OR<1,说明该因素是疾病的危险性减小，为保护因素；
病例对照研究的类型
（一）病例与对照不匹配---非条件logistic回归在设计所规定的病例和对照人群中，分别抽取一定量的研究对象，一般对照应等于或多于病例数，此外无其他任何限制。
（二）病例与对照匹配---条件logistic回归匹配或称配比（matching），即要求对照在某些因素或特征上与病例保持一致，目的是对两组比较时排除混杂因素的干扰。匹配分为成组匹配和个体匹配。
或率比（rate ratio）。 RR Ie a /n1 、 Ie a / n1 、 I0 c / n2
I0 c / n0
RR（相对危险度relative risk）：表示暴露组与非暴露组发病率(或死亡率)的比值。也称为危险比（risk ratio）。反映了暴露与疾病发生的关联强度。
RR表明暴露组发病或死亡的危险是非暴露组的多少倍。
logistic回归:不仅适用于病因学分析，也可用于其他方面的研究，研究某个二分类（或无序及有序多分类）目标变量与有关因素的关系。
logistic回归的分类：
（1）二分类资料logistic回归：因变量为两分类变量的资料，可用非条件logistic回归和条件logistic回归进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料，条件logistic回归多用于配对或配比资料。
则暴露组和非暴露组发病的优势比为： OR j exp j
当 j =0 时， OR j =1，表示因素 X j 对疾病的发生不起作用； j >0 时， OR j >1，表示 X j 是一个危险因素； j <0 时， OR j <1，表示 X j 是一个保护因素。由于 OR j 值与模型中的常数项 0 无关，因此 0 在危险因素分析中常常被视为无效参数。对于发病率很低的慢性疾病如心脑血管病、恶性肿瘤等，优势比可作为相对危险度（relative risk ,RR）的近似估计。
阳性数 dg 阴性数ng dg
1
0
0
199
63
136
2
0
1
170
63
107
3
1
0
101
44
57
4
1
1
416
265
151
首先确定变量的赋值或编码：
1 吸烟 X1 0 不吸烟
1 饮酒 X 2 0 不饮酒
Y
1 0
病例对照
logistic 回归分析过程可通过 SAS 统计软件包中 logistic 过程步实现
个自变量（即暴露因素）作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ，则 logistic 回归模
型可表示为：
P
1
exp(
exp(
0
1X1 0 1X
2 X 2 1 2X
m 2
Xm mX
)
m
)
其中， 0 为常数项， 1, 2 ,, m 为偏回归系数。
则优势比 ORj 的 100(1 )%可信区间为：
exp(bj u S2 bj )
例15-1
表 15-1 为吸烟、饮酒与食管癌关系的病例-对照研究调查资料，试进行 logistic 回归分析。
表 15-1 吸烟、饮酒与食管癌关系的病例-对照研究资料
分层 g 吸烟 X1 饮酒 X 2
总例数 ng
病例组暴露的比值 a /(a b) 、对照组暴露的比值 c /(c d)
b /(a b)
d /(c d )
该暴露因素的优势比： OR = a /(a b) c /(c d) ad
b /(a b) d /(c d) bc
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率之比。但病例对照研究不能计算发病率，只能计算比值比OR值。 OR与RR的含义是相同的，也是指暴露组的疾病危险性为非暴露组的多少倍。当疾病发病率小于5%时，OR是RR的极好近似值。
（15.1）
设 Z 0 1 X1 2 X 2 m X m ，则 Z 与 P 之间关系的
logistic 曲线如下图所示。
可看出：当 Z 趋于时， P 值渐进于 1；当 Z 趋于时， P 值渐进于 0； P 值的变化在 0~1 之间，并且随Z 值的变化以点（0,0.5）为中心成对称 S 形变化。
量。它与比数比（优势比） OR （odds ratio）有对应关系。
在其它影响因素相同的情况下，某危险因素 X j 两个
不同暴露水平 c1 和 c0 发病优势比的自然对数为：
ln1 (1
P1 ) P0 )
=
ln( P1 ) ln( P0 )
1 P1
1 P0
= j (c1 c0 )
（15.7）
式中为对数似然函数，对其取一阶导数求解参数。对
于参数 j （ j 1, 2, , m ），令 ln L 的一阶导数为 0，
即 ln L 0 ，用 Newton-Raphson 迭代方法解方程组，
j
得出参数 j 的估计值 bj 和 bj 的渐进标准误 Sbj 。
优势比估计
自变量 X j 不同水平 c1 和 c0 优势比的估计值： ORˆ j exp[bj (c1 c0 )] 当样本含量 n 较大时， bj 的抽样分布近似服从正态分布，若 X j 只有暴露和非暴露 2 个水平，
（2）多分类资料logistic回归：因变量为多项分类的资料，可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。
• 队列研究(cohort study)：也称前瞻性研究、随访研究等。是一种由因及果的研究，在研究开始时，根据以往有无暴露经历，将研究人群分为暴露人群和非暴露人群，在一定时期内，随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义，则认为暴露和疾病间存在联系。队列研究验证的暴露因素在研究开始前已存在，研究者知道每个研究对象的暴露情况。
（二）病例与对照匹配---条件logistic回归
1、成组匹配（category matching）：匹配的因素所占的比例，在对照组和在病例组一致。如病例组中男女各半，65岁以上者占1/3，则对照组也是如此。
2、个体匹配（individual matching）：以病例和对照的个体为单位进行匹配叫个体匹配。1:1匹配又叫配对（pair matching）， 1:2，┅ ，1:m 匹配时称为匹配。
PYi i
(1
Pi
)1Yi
（i 1, 2, , n ） (15.6)
其中， Pi 表示第 i 例观察对象处于暴露条件下时阳
性结果发生的概率。阳性结果时，Yi 1 ；阴性结
果时，Yi 0 。
根据最大似然原理，似然函数 L 应取最大值。
对似然函数取对数形式：
n
ln L i1[Yi ln Pi (1 Yi ) ln(1 Pi )]
则该因素的优势比： OR j exp[ j (c1 c0 )]
式中 P1 和 P0 分别表示在 X j 取值为 c1 和 c0 时的发病概率， OR j 为调整后优势比（adjusted odds ratio）, 表示扣除了其它自变量影响后危险因素 X j 的作用。
设 X j 为两分类变量： c1 =1 为暴露， c0 =0 为非暴露，
匹配的特征必须是已知的混杂因子，或者有充分的理由怀疑其为混杂因子，否则不应匹配。
（三）巢式病例对照研究
也称为队列内的病例对照研究，是将队列研究和病例对照研究相结合的方法。
第一节 logistic回归
logistic 回归模型:
设因变量Y 是一个二分类变量，其取值为Y =1 和Y =0。影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m
调查方向：追踪收集资料
暴露
疾病人数
比较
+
研究人群
-
+a -b
+c -d
a/(a+b) c/(c+d)
队列研究原理示意图
暴露组非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度（relative risk， RR）也称危险比（risk ratio）
当各种暴露因素为 0 时：
ln( P 1 P
)
0
1
X1
2
X
2
mXm
0 1 0 m 0 0
可看出：常数项 0 是当各种暴露因素为 0 时，个体发病
与不发病概率之比的自然对数值。偏回归系数 j （ j 1,2,, m ）表示在其它自变量固定的
条件下，第 j 个自变量每改变一个单位时 logit (P) 的改变
logit 变换：logit P = ln P 为 P 的 logit 变换， 1 P
通过 logit 变换之后，就可将 0 P 1 的资料转换为
log it(P) 的资料。
作 logit 变换后，logistic 回归模型可以表示成如下
的线性形式：
exp(0 1X1 2 X 2 m X m )