ROC分析的基本原理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ROC分析的基本原理
宇传华徐勇勇
ROC是受试者工作特征或相对工作特征
的缩写后来应用于雷达信号观察能力的评价
Lusted首次提出了ROC分析可用于医学决策评价该方法广泛用于医学诊断性能的评价[]2ʵÑéÊÒҽѧÓÈÆäÊÇҽѧӰÏñÕï¶Ï׼ȷÐÔµÄÆÀ¼Û
Èç¶ÔÕÕÓ벡ÀýÕý³£ÓëÒì³£
Æä×ÊÁÏ¿ÉÁгɱí1的四格表形式[3]
ÁéÃô¶È¼ÆË㹫ʽ¼û±í1这几个指标均可不同程度反映诊断的准确性
它很大程度上依赖患病率完全无价值地诊断所有样本为阴性
其次相同的正确百分率可能有十分不同的假阴性和假阳性它也受诊断阈值的限制
它们的值越高灵敏度是病例被正确诊断为阳性的比例
true positive fraction/rate
Ò²½ÐÕæÒõÐÔÂÊ.1-特异度false positive fraction/rate
±È½ÏÁ½¸öÕï¶Ïϵͳʱ¶øÁíÒ»¸öÌØÒì¶È¸ß´Ëʱ¿É½«ÁéÃô¶ÈºÍÌØÒì¶È½áºÏ
»ñµÃ¶à¶ÔÁéÃô¶ÈºÍ»æÖÆROC曲线
×四格表
表1 诊断资料22
诊断结
果病例对照合计
a(真阳性) b a+b
c(假阴性真阴性
TPF
假阳性率]=1
第四军医大学卫生统计学教研室西安 710032
疾病 疾病 合计
Disease(+) Disease(-) Total
试验(+) 真阳性 假阳性 试验阳性数
Test(+) True positives False positives Test positives
试验(-) 假阴性 真阴性 试验阴性数
Test(-) False negatives True negatives Test negatives
合计 实际病人数 实际非病人数 所有受试者
Total Disease positives Disease negatives All subjects
2 ROC分析资料收集与整理
一个诊断系统获得的原始资料可记录成连续性和离散性两种形式
它是利用仪器为了叙述的方便
其检验结果为8.29, 6.24, 4.61, 1.77
Æä¼ìÑé½á¹ûΪ15.90, 13.35, 12.87, 10.22, 5.01ÒÔÇ°8个数据的每一个作为诊断阈值(或截断点)СÓÚ¸ÃãÐֵΪÒõÐÔ
¶¼¿ÉÕûÀí³ÉÀàËƱí1的四格表
FPF,TPF(0/4,2/5)(0/4,4/5)(2/4,4/5)(3/4,5/5)
Á½¸ö×éµÄÑù±¾Á¿ÍùÍùºÜ´óÒÔ×éÖÐֵΪÕï¶ÏãÐÖµ
×éÊý-1Ò²¿É¸ù¾ÝÁÙ´²ÐèҪȡÈô¸É¸öÕï¶ÏãÐÖµ
³£½«Õï¶Ï½á¹û»®·ÖΪÀà
Àà¿ÉÄÜÕý³£¿ÉÄÜÒì³£·Ö±ð¼ÇΪÀýÈçÆäÖÐÓÐ58份正常一影像工作者对这些CT影像进行分类
表2 109份CT影像分类
诊断分类
实际
情况
1,2,,肯定异常
对于可从分类高到低以前即分类为置信阈计算ROC 工作点该类以下例数的和为阴性
如以表2分类4为置信阈时+11=13
异常组阳性例数为33+11=44
同样3FPF,TPF
(0.3296,0.9020)
假设正常组和异常组均服从正态分布图中左边钟型曲线为正常组同时采用4个置信阈将实验结果分为5类
即分类越高置信阈越宽松阳性决策的置信度越低
也可类似理解
同时采用4个置信阈
分类1
234分类5
阳性决策置信度
低
高
图 1 5分类等级资料图解
3 ROC 曲线的构建
以假阳性率为横轴TPF ºáÖáÓë×ÝÖ᳤¶ÈÏàµÈÔÚͼÖн«ROC 工作点标出构建光滑曲线需要假设对照组和病例组服从某种分布直接用参数产生注意曲线一定通过(0,0)和(1,1)这两点而特异度为而特异度为理论上
FPF=0然后
水平到达右上角是一条从原点到右上角的对角线
表2资料对应的ROC 曲线见图2
FPF
T P F
ÃèÊöÁËÏà·´Á½ÖÖ״̬¼äÕï¶ÏϵͳµÄ
ÅбðÄÜÁ¦»òÖÃÐÅãÐ
ÑϸñµÄ±ê×¼²úÉú½ÏµÍµÄÁéÃô¶ÈºÍ½Ï¸ßµÄÌØÒì¶È¿íËɵıê×¼²úÉú½Ï¸ßµÄÁéÃô¶ÈºÍ½ÏµÍµÄÌØÒì¶ÈÈç¹û±È½ÏµÄÕï¶ÏϵͳÇúÏß²»½»²æÈç¹ûÇúÏß½»²æ
½áºÏͳ¼Æѧ¼ìÑéÅжÏÆäÕï¶ÏÐÔÄÜ
ROC 曲线下面积
理论上
完善的诊断为1
半参数和参数方法Wilcoxon非参数法和最大似然估计参数法
可根据二项分布标准误计算公式
n p
p S
p
) 1(−
=计算FPF和
TPF的标准误p=FPF对于TPF n=病例组总例数
的标准误为(0.0548,0.0023)
0.0548)0.0023)]
对于诊断系统的准确性评价,首先应知道受试者(人即哪些
是对照组划分它们的标准就是金标准跟踪随
访尸体解剖等金标准但是它们应比评价的诊断
系统更可靠
5.3 最佳工作点的选择
阳性似然比为真阳性率与假阳性率之比TPF/FPF约登指数为
真阳性率与假阳性率之差TPF-FPF一般选择阳性似然比[]4或约登指数[5]最大
者为最佳工作点
[(1-P)/P]计算最佳工作点的斜率B和P分别表示花费
在假定对病例组实施治疗这一表达式表示治
疗疾病的花费和收益之比与(1-患病率)和患病率之比的乘
积从(FPF,TPF)=(0,0)到(1,1)´Ó±í´ïʽ
¿ÉÒÔ¿´³öÊÕÒæÉÙÔòбÂÊ´ó
Èç¹û¼²²¡ÖÎÁÆ»¨·ÑÉÙ»ò»¼²¡Âʸß×î¼Ñ¹¤×÷µã
½Ó½ü(1,1确保了假阴性的减少
Metz CE, Herman BA, Shen JH. Maximum-likelihood estimation of receiver operating characteristic(ROC) curves from continously
-distributed data. Stat Med,1998, in press.
2 Metz CE. Some practical issues of experimental
design and data analysis in radiological ROC
studies. Invest Radiol 1989;24:234
-245.
3 章扬熙. 临床流行病学(第六讲):诊断试验研究(续) . 中华流行病学杂志1997,18(3):177.
4 Feinstein AR. Clinical epidemiology: architecture of clinical research. WB Saunders Company,
1985,601-632.
5 刘杰,林一帆,张沥等. 图象自动分析检测MG7抗原表达预测胃癌高危价值探讨. 中华预
防医学杂志1996;30(5):286.
6 Dwyer AJ. In pursuit of a piece of the ROC. Radiology 1997;202:621-625.。