指标联合的ROC曲线分析

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

a
x
(4)
对应的灵敏度为 :
Ha ( c) = 1 -
Φ( a T (μx - μyቤተ መጻሕፍቲ ባይዱ + Φ- 1 ( p0)
∑ a T
a
y
∑ a T
a
x)
(5) 式 (3) 和 (5) 便构成了多指标线性组合后所得 ROC 曲 线上的点 。
结合前面的式 (2) , 由式 (5) 通过积分可以得到 ROC 曲线下的面积〔3〕:
本文介绍的方法是针对多个指标联合的诊断试 验 ,将多个自变量进行线性转换达到降维目的 ,应用 Fisher 的线性判别准则 ———即线性组合后两类间的均 数之差与它们方差的比值达到最大的准则 , 来确定线 性组合的系数向量 a ,从而获得多个自变量的 ROC 曲 线方程及面积计算公式 ,两总体的均数和协方差阵通 过样本的极大似然估计获得 。
Y ) ]/ ( n - 1)
(8)
将以上 μ和 ∑x 、∑y 的估计值代入公式 (6) , 就可以算
得 ROC 曲线下面积的估计值 A^ 。全部的计算过程用
SAS 即可实现 。
实例分析
越来越多的临床资料表明肿瘤发生与细胞增殖及 凋亡关系失调有关 。因此有关专业人员应用流式细胞
仪 ( FCM) 、免疫组化等方法对 13 例口腔颊囊粘膜癌 变患者和 45 例对照人群的 DNA 含量 (D I) 、增殖细胞 核抗原 ( PCNA) 、银染核仁形成区 (AgNOR) 进行了定 量检测 ,以便了解这些指标在口腔粘膜癌变监测中的 价值 ,资料如表 1 。
65
5157 13
321200 41616 Y l
141455 01827 Std ( y)
癌肿组 ( Y)
DI
1124 1100 1112 1127
… 1120 11113 01115
PCNA AgNOR
29
7150
60
5160
59
7190
44
5160


65
6120
581231 71491
111031 11359
01006 - 0141 - 0101

Σx = - 0141 20819 31335 ,

Σy =
- 0101 01013
- 0171
31335 - 0171
12117
01684 - 0102
31731
- 0102 31731 11846 由以上数据可得到 :
μ^ = Y - X = (01089 ,261031 ,21875) T
51Cox DR ,Snell EJ . Analysis of binary data. 12nd ed London : Chapman & Hall ,1989.
参 考 文 献
11 Wieand HS , Gail MH ,James BR ,et al. A family of nonparametric statis2 tics for comparing diagnostic markers wit h paired or unpaired data. Biometrika ,1989 ,76 :5852592.
a) ,
x
∑ V = a T Y ~ N ( a Tμy , a T
a)
y
(1)
a = ( a1 , …, ap) T 表示多个 指 标 的 线 性 组 合 系
数 ,也即是 Fisher 判别函数的系数 。要使得指标线性
组合后的 ROC 曲线下面积达最大 ,则 a 满足下式 :
∑ ∑ a ∝ (
+
x
∑ ∑ A = Φ( μT (
+
) - 1μ)
x
y
(6)
同样这里的 μ = μy - μx 。
均数向量和协方差阵的估计
总体分布的均数和协方差阵通常无法知道 , 只能
由样本来估计 。
依照前面的假设 ,有来自 (某病) 阴性总体的独立
∑ 同分布样本 X1 , …, X m ~ N (μx ,
)
x
, 来自
表 1 DI、PCNA 、A GNOR 检测口腔粘膜癌变资料及统计分析
编号
1 2 3 4
… 45 Xk Std ( x)
非癌肿组 ( X)
编号
DI PCNA AgNOR
1100 1100 1100 1100

48
4110 1
18
3160 2
19
3190 3
33
4130 4



1100 11024 01077
X p) T , Y = ( Y 1 , …, Y p) T 。 X 和 Y 均为服从正态分 布的二元随机变量 ,即 X~ N (μx , ∑x ) 和 Y ~ N (μy , ∑y) 。由于多维数据的处理通常是非常困难的 , 因此
我们通过有效地构建多个指标间的线性组合来实现降
维。
∑ U = a T X ~ N ( a Tμx , a T
41Bamber D. The area above t he ordinal dominance graph and t he area be2 low t he receiver operating characteristic graph . Journal of mat hematical psychology ,1975 ,12 :3872415.
21 李康 ,马葆华 ,李振山等. 具有协变量或干扰因素的诊断数据的 ROC 分析. 中国卫生统计 ,2002 ,19 (2 ) :67270.
31John QS ,J un SL . Linear combinations of multiple diagnostic markers. Journal of t he American statistical association , 1993 , 88 ( 424 ) : 13502 1355.
多变量线性组合的 ROC 曲线及面积计算
假定病例组和对照组的人数分别为 n 和 m , 各测
得 p 个指标值 。以 Xik ( k = 1 , …, p) 表示对照组中第 i 个个体的第 k 个指标值 , Y jl ( l = 1 , …, p) 表示病例 组中第 j 个个体的第 l 个指标值 , 这里 X = ( X1 , …,
64194 01215


(Σx + Σy) - 1 = 01215 01004
01219 - 0101
01219 - 0101 01421 将以上数据代入公式 (6) , 便得到指标综合后的 ROC
曲线下的面积为 : A^ = Φ(21556) = 01995
Chinese Journal of Healt h Statistics ,Oct 2003 ,Vol. 20 ,No . 5
中国卫生统计 2003 年 10 月第 20 卷第 5 期
·279 ·
指标联合的 ROC 曲线分析
邹莉玲1 沈其君2 陈启光2 王文梅3
临床上对于同一种疾病的诊断或筛检 , 往往有各 种不同的诊断方法或手段 , 涉及的诊断指标是非常多 的 。不同的指标对疾病各方面敏感性是不一样的 , 因 此在对疾病做出诊断时如何充分利用这些指标的诊断 信息 ,就显得非常重要 。
,
可用样本的均数来估
∑∑ ∧
计;

x
y 为 p ×p 矩阵 ,它们的 ML 估计值 Σx

和 Σy 分别为 :
∑ ∧
Σx = S x/ ( m - 1) = [
( Xi - X) T ( Xi -
X ) ]/ ( m - 1)
(7)
∑ ∧
Σy = S y/ ( n - 1) = [
( Yj - Y) T ( Yj -
(某病)
11 同济大学基础医学院预防医学教研究 (200092) 21 东南大学公共卫生学院卫生统计教研室 (210009) 31 南京市口腔医院内科 (210008)
·280 ·
阳性 总 体 的 独 立 同 分 布 样 本 Y 1 , …, Y n ~ N (μy ,
∑) y
。μx
和μy
均为
p
维向量
)
y
-

这里
μ
=
μy
-
μx
(2)
基于系数向量 a , 可得到指标线性组合后的灵敏
度和特异度 , 以及 ROC 曲线方程 。以 Fa (·) 表示 U
的累积分布函数 , Ga (·) 为 V 的累积分布函数 , Fa ( c)
表示特异度 , Ha ( c) = 1 - Ga ( c) 为相应的灵敏度 。显
logistic 回归是目前处理多指标的诊断试验评价问 题的另外一种常用统计方法。由于 logistic 回归模型中 解释变量和响应变量间的统计关系是早已固定的 ,因此 一旦给出一组自变量的取值 ,则该个体应属于哪一类的 概率也就确定了 ,也就是说计算结果与自变量的分布类 型无关。这一特点使得 logistic 回归要比常规的判别分 析更稳健 ,但是由于未充分利用自变量的分布信息的缘 故而具有相对低效性 。本文方法是常规判别分析方法 的演绎 ,因此上述的特点同样存在于 logistic 回归和多指 标联合的 ROC 曲线方法的比较中。
评价某个诊断试验或诊断指标时常用到的是灵敏 度和特异度 ,综合指标有 ROC 曲线下的面积 。对于两 种或多种诊断试验的评价和比较 ,已有的方法主要包 括比较各自 ROC 曲线下的面积 ,在特异度固定条件下 比较灵敏度的大小 ,以及 J ames 于 1989 年提出的以灵 敏度的 加 权 平 均 为 基 础 的 多 指 标 比 较 的 统 计 量〔1〕。 而将多个指标结合起来综合分析的方法仍以传统的多 元统计分析方法为主 ,包括多元线性回归 、参数和非参 数判别分析以及指标的聚类分析等 。多指标结合的 ROC 曲线分析方法目前仍处在探索阶段 ,已见诸报道 的有以 logistic 回归模型为基础的 ROC 曲线分析 ,可 用于协变量存在条件下的诊断数据的分析〔2〕。本文 基于 Fisher 的判别准则 ,给出多变量线性组合的 ROC 曲线分析方法 。
然任意一个给定的特异度 p0 ,必定有一常数 c 与之相
对应 ,这里 c 同样可以理解为诊断界值或切入点 (cut2
off2point) 。
c - a Tμx
∑ 特异度 : Fa ( c) = Φ a T
a = p0
x
(3)
对上式求反函数得到 :
∑ c = a Tμx + Φ- 1 ( p0)
aT
对三个指标分别计算各自的 ROC 曲线下面积 ,其 结果为 :01743 (D I) ,01924 ( PCNA) ,01965 (AgNOR) 。 由此提示将三个指标综合起来考虑对于口腔颊囊粘膜 癌变的诊断和监测可能具有更大的实际意义和应用价 值。
讨 论
外国学者 Bamber〔4〕于 1975 年提出 ROC 曲线下 的面积 (AUC) 等于病例组中指标测量值高于正常人 群测量值的百分数这一基本概念之后 ,相继有学者对 ROC 曲线下面积的计算方法作了种种研究和探讨 ,针 对资料是否连续 ,有无重复测量 ,以及有无缺失数据等 问题 ,提出了各种参数和非参数的计算方法 。但主要 都是用于单个诊断试验或指标的 ,对同一诊断或筛检 试验多个指标的 ROC 分析方法的报道却很少 ,只是 90 年代以后才有一些国外学者开始对多指标的 ROC 分析方法进行探索性研究 ,国内这方面的研究还未有 报道 。
相关文档
最新文档