logistic回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
即 OR P1 (1 P1) P1 RR P0 (1 P0 ) P0
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。
其基本思想是先建立似然函数与对数似然函数,
求使对数似然函数最大时的参数值,其估计值即
为最大似然估计值。 建立样本似然函数:
n
L
i 1
(1)Mantel-Haenszel分层分析:适用于样本量大、分析因 素较少的情况。当分层较多时,由于要求各格子中例数不 能太少,所需样本较大,往往难以做到;当混杂因素较多 时,分层数也呈几何倍数增长,这将导致部分层中某个格 子的频数为零,无法利用其信息。
(2)线性回归分析:由于因变量是分类变量,不能满足 其正态性要求;有些自变量对因变量的影响并非线性。
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
c
+
d
-
病例对照原理示意图
病例 对照
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
比值(odds):某事物发生的可能性与不发生的可能性之比。
第十五章 logistic回归分析
Logistic Regression Analysis
山东大学公共卫生学院
回归分析的分类
一个 因变 量y
连续型因变量 (y) --- 线性回归分析 分类型因变量 (y) ---Logistic 回归分析 生存时间因变量 (t) ---生存风险回归分析 时间序列因变量 (t) ---时间序列分析
多个因变量 (y1,y2,…yk)
路径分析 结构方程模型分析
• logistic回归(logistic regression)是研究因变量为二分类或 多分类观察结果与影响因素(自变量)之间关系的一种多 变量分析方法,属概率型非线性回归。
• 在流行病学研究中,常需要分析疾病与各种危险因素间的 定量关系,同时为了能真实反映暴露因素与观察结果间的 关系,需要控制混杂因素的影响。
ln( P 1 P
)
ln[ 1
1
exp(0 exp(0
1 X1 1 X1
2 2
X X
2 2
mXm) mXm)
]
1 exp(0 1X1 2 X 2 m X m )
ln[exp(0 1X1 2 X2 m Xm )]
0 1X1 2 X2 m Xm
(15.2)
模型参数的流行病学含义

在logistic过程步

中加“descending”
例 数
选项的目的是使 SAS过程按阳性
率(y=1)拟合模
型,得到阳性病
例对应于阴性病
例的优势比。
OR值
OR的95%CI
对偏回归系数 的假设检验
吸烟与不吸烟的优势比: ORˆ1 expb1 exp 0.8856 2.42 ,其OR1 的 95%可信区间: exp[b1 u0.05 2Sb1 ] exp(0.8856 1.96 0.1500) (1.81,3.25) 饮酒与不饮酒的优势比: ORˆ2 expb2 exp 0.5261 1.69 ,其OR2 的 95%可信区间: exp[b2 u0.05 S2 b2 ] exp(0.52611.96 0.1572) (1.24, 2.30) 由结果可看出,吸烟和饮酒均为食管癌发病的危险因素,
• 病例对照研究(case-control studies):一种由果及因的回顾性
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
比较
调查方向:收集回顾性资料
OR>1,说明 该因素是疾病的危险性增加,为危险因素; OR<1,说明 该因素是疾病的危险性减小,为保护因素;
病例对照研究的类型
(一)病例与对照不匹配---非条件logistic回归 在设计所规定的病例和对照人群中,分别抽取一定量的研究 对象,一般对照应等于或多于病例数,此外无其他任何限制。
(二)病例与对照匹配---条件logistic回归 匹配或称配比(matching),即要求对照在某些因素或特征 上与病例保持一致,目的是对两组比较时排除混杂因素的 干扰。匹配分为成组匹配和个体匹配。
或率比(rate ratio)。 RR Ie a /n1 、 Ie a / n1 、 I0 c / n2
I0 c / n0
RR(相对危险度relative risk):表示暴露组与非暴露组 发病率(或死亡率)的比值。也称为危险比(risk ratio)。 反映了暴露与疾病发生的关联强度。
RR表明暴露组发病或死亡的危险是非暴露组的多少倍。
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类:
(1)二分类资料logistic回归: 因变量为两分类变量的资料,可用非 条件logistic回归和条件logistic回归进行分析。非条件logistic回归 多用于非配比病例-对照研究或队列研究资料,条件logistic回归多 用于配对或配比资料。
则暴露组和非暴露组发病的优势比为: OR j exp j
当 j =0 时, OR j =1,表示因素 X j 对疾病的发生不起 作用; j >0 时, OR j >1,表示 X j 是一个危险因素; j <0 时, OR j <1,表示 X j 是一个保护因素。 由于 OR j 值与模型中的常数项 0 无关,因此 0 在危 险因素分析中常常被视为无效参数。对于发病率很低 的慢性疾病如心脑血管病、恶性肿瘤等,优势比可作 为相对危险度(relative risk ,RR)的近似估计。
阳性数 dg 阴性数ng dg
1
0
0
199
63
136
2
0
1
170
63
107
3
1
0
101
44
57
4
1
1
416
265
151
首先确定变量的赋值或编码:
1 吸烟 X1 0 不吸烟
1 饮酒 X 2 0 不饮酒
Y
1 0
病例 对照
logistic 回归分析过程可通过 SAS 统计软件包中 logistic 过程步实现
个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
型可表示为:
P
1
exp(
exp(
0
1X1 0 1X
2 X 2 1 2X
m 2
Xm mX
)
m
)
其中, 0 为常数项, 1, 2 ,, m 为偏回归系数。
则优势比 ORj 的 100(1 )%可信区间为:
exp(bj u S2 bj )
例15-1
表 15-1 为吸烟、饮酒与食管癌关系的病例-对照研究调查 资料,试进行 logistic 回归分析。
表 15-1 吸烟、饮酒与食管癌关系的病例-对照研究资料
分层 g 吸烟 X1 饮酒 X 2
总例数 ng
病例组暴露的比值 a /(a b) 、对照组暴露的比值 c /(c d)
b /(a b)
d /(c d )
该暴露因素的优势比: OR = a /(a b) c /(c d) ad
b /(a b) d /(c d) bc
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
(15.1)
设 Z 0 1 X1 2 X 2 m X m ,则 Z 与 P 之间关系的
logistic 曲线如下图所示 。
可看出:当 Z 趋于 时, P 值渐进于 1;当 Z 趋于 时, P 值渐进于 0; P 值的变化在 0~1 之间,并且随Z 值的变 化以点(0,0.5)为中心成对称 S 形变化。
量。它与比数比(优势比) OR (odds ratio)有对应关系。
在其它影响因素相同的情况下,某危险因素 X j 两个
不同暴露水平 c1 和 c0 发病优势比的自然对数为:
ln1 (1
P1 ) P0 )
=
ln( P1 ) ln( P0 )
1 P1
1 P0
= j (c1 c0 )
(15.7)
式中为对数似然函数,对其取一阶导数求解参数。对
于参数 j ( j 1, 2, , m ),令 ln L 的一阶导数为 0,
即 ln L 0 ,用 Newton-Raphson 迭代方法解方程组,
j
得出参数 j 的估计值 bj 和 bj 的渐进标准误 Sbj 。
优势比估计
自变量 X j 不同水平 c1 和 c0 优势比的估计值: ORˆ j exp[bj (c1 c0 )] 当样本含量 n 较大时, bj 的抽样分布近似服从 正态分布,若 X j 只有暴露和非暴露 2 个水平,
(2)多分类资料logistic回归: 因变量为多项分类的资料,可用多项 分类logistic回归模型或有序分类logistic回归模型进行分析。
• 队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果 的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人 群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死 亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾 病间存在联系。队列研究验证的暴露因素在研究开始前已存在,研究者知 道每个研究对象的暴露情况。
(二)病例与对照匹配---条件logistic回归
1、成组匹配(category matching):匹配的因素所占的比例,在对照组 和在病例组一致。如病例组中男女各半,65岁以上者占1/3,则对照组 也是如此。
2、个体匹配(individual matching):以病例和对照的个体为单位进行 匹配叫个体匹配。1:1匹配又叫配对(pair matching), 1:2,┅ ,1:m 匹配时称为匹配。
PYi i
(1
Pi
)1Yi
(i 1, 2, , n ) (15.6)
其中, Pi 表示第 i 例观察对象处于暴露条件下时阳
性结果发生的概率。阳性结果时,Yi 1 ;阴性结
果时,Yi 0 。
根据最大似然原理,似然函数 L 应取最大值。
对似然函数取对数形式:
n
ln L i1[Yi ln Pi (1 Yi ) ln(1 Pi )]
则该因素的优势比: OR j exp[ j (c1 c0 )]
式中 P1 和 P0 分别表示在 X j 取值为 c1 和 c0 时的发病 概率, OR j 为调整后优势比(adjusted odds ratio), 表示扣除了其它自变量影响后危险因素 X j 的作用。
设 X j 为两分类变量: c1 =1 为暴露, c0 =0 为非暴露,
匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混 杂因子,否则不应匹配。
(三)巢式病例对照研究
也称为队列内的病例对照研究,是将队列研究和病例对照研究相结合的 方法。
第一节 logistic回归
logistic 回归模型:
设因变量Y 是一个二分类变量,其取值为Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m
调查方向:追踪收集资料
暴露
疾病 人数
比较
+
研究人群
-
+a -b
+c -d
a/(a+b) c/(c+d)
队列研究原理示意图
暴露组 非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度(relative risk, RR)也称危险比(risk ratio)
当各种暴露因素为 0 时:
ln( P 1 P
)
0
1
X1
2
X
2
mXm
0 1 0 m 0 0
可看出:常数项 0 是当各种暴露因素为 0 时,个体发病
与不发病概率之比的自然对数值。 偏回归系数 j ( j 1,2,, m )表示在其它自变量固定的
条件下,第 j 个自变量每改变一个单位时 logit (P) 的改变
logit 变换:logit P = ln P 为 P 的 logit 变换, 1 P
通过 logit 变换之后,就可将 0 P 1 的资料转换为
log it(P) 的资料。
作 logit 变换后,logistic 回归模型可以表示成如下
的线性形式:
exp(0 1X1 2 X 2 m X m )
相关文档
最新文档