稀有事件logistic回归在医学研究中的应用_赵晋芳

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

n
x珋± s
M in
M ax
年龄( 岁) CD4 / CD8 CD4( 个 / μl) 对数 CD4
316 41. 58 ± 11. 16
316
1. 55 ± 0. 74
316 317. 85 ± 183. 80
316
5. 50 ± 0. 94
7. 00 0. 12 1. 00 0. 00
76. 00 9. 00 1125. 00 7. 03
且稀有事件会进一步放大这种偏倚。在小样本稀有事
件中,先验校正和加权校正仍存在一定的偏差,尚需要
进行进一步的校正。小样本的稀有事件回归系数的偏
倚量( bias) : 〔4,11,12〕
bias( β^ ) = ( X'WX) -1 X'Wξ
( 4)
式中 ξi = 0. 5Q ii [( 1 + w1 ) π^ i - w1 ],Q ii 为矩阵 Q = X( X'WX) -1 X' 的对角元素,W = diag{ π^ i( 1 - π^ ) w i} 。 从式( 4) 可见,实际上偏倚量 bias( β^ ) 就是以 X 为自变
在一定的缺陷。下面介绍一种适合医学中稀有事件的
logistic 回归 ( rare event logistic,re-logistic) ,其基本思
想是在普通 logistic 回归结果基础上给予适当的校正。
( 1) 先验校正
先验校正( prior correction) 是在普通 logistic 回归
件 logistic 回归的非嵌套关系。
[ ] mi = ln
P^ relogit ( yi | xi ,w i ) P^ logit ( yi | xi )
( 9)
式中,P^ relogit ( yi | xi ,w i ) 和 P^ logit ( yi | xi ) 分别为稀有事件
logistic 回 归 和 普 通 logistic 回 归 预 测 概 率。 根 据
中国卫生统计 2011 年 12 月第 28 卷第 6 期
·641·
稀有事件 logistic 回归在医学研究中的应用*
赵晋芳1 罗天娥1 范月玲2 曾 平3 仇丽霞1 刘桂芬1△
【提 要】 目的 探讨稀有事件 logistic 回归模型的参数估计及概率估计方法。方法 在普通 logistic 回归结果的基 础上进行先验校正、加权校正和 MCN 校正,并根据 Vuong 检验原理编程实现非嵌套模型间的对比分析。结果 logistic 回 归 MCN 加权校正对实例数据拟合较好。结论 针对稀有事件数据的分析,在模型的参数估计和预测预报方面,稀有事件 logistic 回归结果优于普通 logistic 回归,是一种值得推广的应用统计模型。
【关键词】 稀有事件 logistic 回归 re-logistic MCN 校正 Vuong 检验
如果疾病的发生水平很低,极为不常见,病例在人 群中所占比重就非常小,那么称这个医学事件为稀有 事件。如果我们采用常见的现况流行病调查方法或队 列研究研究这种疾病,就会导致收集的数据中病例数 与非病例数很不均衡。比如要探索研究该疾病的影响 因素,通常的做法是对病例和非病例的两类人群建立 logistic 回归模型,然而由于资料中的病例所占的比例 远远低于非病例的比重,这就给稀有事件的统计分析 带来一系列问题,在这种情况下仍采用常规的 logistic 回归方法就不适合了。本文将主要探讨一种适用于解 决医学现象研究中稀有事件的 logistic 回归模型,它校 正了普通 logistic 回归在参数估计、统计推断和概率预 测方面都有可能存在的缺陷。
proximate Bayesian estimator) 〔4〕。有研究显示,除了某
些特殊情况,如多个小样本的 meta 分析中,近似无偏
估计值要好于 Bayes 估计值外,多数应用中,Bayes 估
计值要优于近似偏估计值。
2. 非嵌套模型 Vuong 检验
采用 Vuong( 1989) 提出的非嵌套模型检验( nonnested models test) 〔13 - 15〕来检验 logistic 回归和稀有事
( 1977) ,以及 Daniel McFadden 尚没有公开发表的一
篇文献〔5 - 7〕。先验校正需要已知总体率 τ,关于总体
中 Y = 1 的概率 τ 的先验信息可以从普查、大样本的随
机抽样研究或病例 - 队列研究中得到。
( 2) 加权校正
研究中可能存在由于样本选择的原因而导致总体 概率 τ 和样本概率 y珋之间有差异,而加权校正( weight correction) 正是要对样本观察单位给予合适的权重来 补偿因选择偏倚造成的影响。对样本中 Y = 1 的观察 单位给予权重 w1 = τ / y珋,Y = 0 的观察单位给予权重 w0 = ( 1 - τ) / ( 1 - y珋) 。则 logistic 回归有以下的加权对 数似然函数:
最大似然估计值的基础上,结合总体中 Y = 1 的概率
τ,以及样本中 Y = 1 的比例( 或叫抽样概率) y珋对回归
系数的最大似然估计值进行校正〔4〕。
[ ( ) ( ) ] α珘= α^ - ln
1 -τ τ
y珋 1 - y珋
( 2)
α珘为经过先验校正的截距项。先验校正的思想最初源
于 Prentice 和 Pyke ( 1979 ) ,Manski 和 Lerman
是无偏估计值,也并不能保证概率估计值就是最优的。
可以选择下面的公式估计稀有事件中 Y = 1 的概率:
P( Yi = 1) = ∫ P( Yi = 1 | β* ) P( β* ) dβ*
( 7)
β* 为结合哑变量( integration dummy ) 。式( 7) 可以看
做 珘β 抽样分布下 P珘( Y = 1 | 珘β) 的期望值,而 P珘( Y = 1 | 珘β)
= w1 ∑ ln( Pi) + w0 ∑ ln( 1 - Pi) =
{ Yi = 1}
{ Yi = 0}
N
- ∑ wiln{ 1 + exp[( 1 - 2yi) ( α + x'β) ]} ( 3) { Yi = 1}
式中,w i = w1 yi + w0 ( 1 - yi ) 。
最大化( 3) 式即可得到参数的最大似然估计值。
n+k
样本的稀有事件回归系数的校正不但得到了无偏的参
数估计量,而且还降低了方差,其统计性质优于前者。
这种校正方法又被 Gary King 和 Lang che Zeng 简称
为 M CN 校正( M cCullagh Nelder Correction) 。
( 4) 稀有事件概率估计 稀有事件回归系数的最大似然估计值 β^ 本身是有偏 估计值,因此个体 Y = 1 的概率估计也是有偏的; 即使 β^
是 Pi = P( Y = 1 | β) 的点估计值。式( 7) 亦可以近似表 示为: P( Yi = 1 ) ≈P珘i + C i 或 P ( Yi = 1 ) ≈P珘i - C i 。其
中,Ci 称为校正因子( correction factor) ,计算公式为:
C i = ( 0. 5 - P珘i ) P珘i ( 1 - P珘i ) x0 Var( 珘β) x'0
录,而 Y = 1 的例数却很少,这就会导致一般的 logistic
回归在参数估计、统计推断和概率预测方面都可能存
* : 国家 自 然 科 学 基 金 ( 30872183 ) ; 山 西 医 科 大 学 博 士 启 动 基 金 ( 03200912) ; 山西省自然科学基金( 2009011005-2) ; 山西医科大学学生 创新项目基金( 2010) 1. 山西医科大学公共卫生学院( 030001) 2. 山西省疾病预防控制中心( 030001) 3. 徐州医学院流行病与卫生统计学教研室( 221002) △通讯作者: 刘桂芬,E-mail: liufg66@ yahoo. com. cn
者的 66. 14% ( 209 /316) ; 患者的平均年龄为 41. 6 岁,
以壮 年 为 主; HIV / AIDS 患 者 CD4 计 数 的 均 值 为
317. 85 ( 个 / μl) ,低于正常人水平,其最大 值 为 1125
( 个 / μl) ,最小值为 1 ( 个 / μl) ,标准差为 183. 80 ( 个 /
研究表明,加权校正在大样本和模型指定有误时要优
于先验校 正〔8〕,而 在 小 样 本 时,先 验 校 正 要 优 于 加 权
校正,但这种差别不是很大〔9,10〕。
( 3) 稀有事件回归系数的 M CN 校正
α 和 β 的最大似然估计值在小样本时是有偏的,而
·642·
Chinese Journal of Health Statistics,Dec 2011,Vol. 28,No. 6
时表明 Vuong 检验不支持其中的任何一个模型,需要
借助其他的手段。
实例分析
通过与山西省疾病预防控制中心联合,对山西省
运城市五个项目防治县的 316 例 HIV / AIDS 患者进行
结核病的筛查。欲对 HIV / AIDS 患者是否患结核病进
行分析,结果如下。
表 1 HIV / AIDS 患者资料简单描述
先验校正先验校正priorcorrection是在普通logistic回归最大似然估计值的基础上结合总体中的比例或叫抽样概率对回归系数的最大似然估计值进行校正以及danielmcfadden尚没有公开发表的一篇文献的先验信息可以从普查大样本的随机抽样研究或病例加权校正研究中可能存在由于样本选择的原因而导致总体概率之间有差异而加权校正weightcorrection正是要对样本观察单位给予合适的权重来补偿因选择偏倚造成的影响
表 2 HIV / AIDS 患者资料变量编码及构成
Variable
分类编码及构成
文化 性别 是否感染结核
0 = 小学( 85) 1 = 男性( 176) 0 = 未感染( 305)
1 = 初中( 209) 2 = 女性( 140) 1 = 感染( 11)
2 = 高中( 22)
HIV / AIDS 患者中大多是初中文化程度,占总患
+ α
x'β) + x'β)
( 1)
x'为暴露因素,α,β 分别为截距项和回归参数向量。 logistic 回归系数的极大似然估计值 β^ 具有一致性、渐
近有效性和渐近正态性的性质,并且在结果变量 Y 两 类取值频率相等时的检验效率是最高的〔1 - 3〕。
但在稀有事件分析中,由于存在大量 Y = 0 的记
量,ξ 为应变量,W 为权重的回归方程的系数的加权最
小二乘估计值。校正的参数估计值为:
珘β = β^ - bias( 珘β)
( 5)
校正的参数方差矩阵为:
( ) Var( 珘β) =
n
2
Var( β^ )
n+k
( 6)
( ) 因为
n
2
< 1,因此 Var( 珘β) < Var( β^ ) ,这表明小
Vuong,模型 1 相对于模型 2 的非嵌套模型检验的统
计量为
V = 槡Nm珚 Sm
( 10)
m珚,Sm 分别为 mi 的均数和标准差,N 为总例数。当 V
≥1. 96,则可认为选择 re-logistic 回归更合适; 若 V ≤
- 1. 96,则认为选择 logistic 回归更好; 当 | V | < 1. 96
μl) ,变异较大,因此对 CD4 作自然对数转换,并在以
后的分析中代替 CD4 作为自变量,且仍用 CD4 作为
其变量名。
调查的 316 例 HIV / AIDS 患者中仅有 11 人是结
核感染者,感染率大约为 3. 48% 。因此我们认为分析
样本中 HIV / AIDS 患者感染结核是稀有事件。
表 3 普通 logistic 回归参数估计
β
Sb
Z
P
OR
截距 文化 性别 年龄 CD4 / CD8 CD4
6. 612524 0. 725622 - 1. 434443 - 0. 039940 - 0. 817271 - 1. 240412
2. 944548 0. 625993 0. 925897 0. 038092 0. 708930 0. 280326
原理和方法
1. 稀有事件 logistic 回归
医学研究中,当随机反应变量 Y 的结果表现为二
分类变量时,如发病( Y = 1) 和不发病( Y = 0) ,感染( Y
= 1) 和不感染( Y = 0) ,若感染( Y = 1) 的概率 P 受到
因素影响时,可表示为
Pi
=
1
exp( α + exp(
( 8)
在满足一定条件下,P珘i - C i 是近似无偏的,但是
模拟研究显示 P珘i + C i 有更小的均方误。P珘i - C i 称为
Pi = P( Y = 1 | β) 的近似无偏估计值( approximate unbi-
ased estimator) ,P珘i + Ci 称 为 近 似 Bayes 估 计 值 ( ap-
相关文档
最新文档