诊断性试验评价原则及存在的问题

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

诊断性试验评价原则及存在的问题
发布时间04年07月13日 11时46分
秦晓光（煤炭总医院）
检验医学的发展，从宏观上必须考虑如下问题：
1. 新技术、新方法及自动化仪器的推广应用；
2. 根据基础医学研究的成果，新的检验领域的开拓；
3. 质量管理提出新的要求；
4. 众多检验项目的临床应用效果评价；
5. 效益分析。

实际工作中，一个项目的应用，至少还应回答下列问题：
1. 为什么必须采用这一试验？这一试验对临床诊断等方面起什么作用？
2. 对特定疾病的诊断、疗效及预后观察，选用哪些检验项目最为合适？不作某项检查将带来什么损失？
3. 某检验项目或检验方法比其他的检验项目及方法优越性在哪里？技术是否成熟？能否有效的在临床工作中应用？
众所周知，1992年淘汰35项检验项目及方法；近年来，用PT、APTT代替DUKE氏及玻片法作出、凝血时间测定是最好的例子。

研究这类问题必须从循证检验医学（Evidence-Based Laboratory medicin: EBLM）的基本原理来考察，而诊断性试验是循证检验医学的核心。

依作者看来,循证检验医学就是在大量可靠的临床应用资料和经验的基础上,研究检验项目临床应用的效果,为临床诊断及其他目的提供最有效、最实用、最经济的检验项目及其组合。

一、诊断性试验临床应用评价指标及其评价
评价检验项目的临床应用价值，首先必须考虑评价指标问题。

目前评价指标有敏感度、特异度、阳性及阴性预测值、准确性、诊断指数及诊断效率等。

近年来又有阳性似然比及阴性似然比等指标。

其计算方法许多文献中已有介绍，本文不再赘述，仅讨论这些指标的某些特点及应用中的价值。

敏感度、特异度是两个最重要的也是最基本的指标，如果科研设计正确，其值是相对稳定的，其它评价指标（如预测值等）都可用它们来推导，如果缺少这两个指标，则对该试验无法进行评价。

无论撰写论文、阅读和评价论文、引进或评价一项新试验，必须有这两个指标或有相应的可供分析的资料。

这一点十分重要，务必十分重视。

阳性及阴性预测值在指导临床诊断时比敏感度、特异度更直观、更容易理解和应用，因此也是十分重要、应用很广泛的指标。

但这两个指标与患病率或就诊率有关：在实验设计中，疾病组与对照组样本组成有所变化时，可以影响到预测值的大小，这一点许多检验工作者不清楚，而造成一些误解。

准确性、诊断指数及诊断效率只是综合敏感性、特异性而计算出来的。

以往认为这些指标对评价一个试验有很好的作用，实际上是很有限的，如甲、乙两个试验敏感度分别为80%、95%，而特异度分别为95%、80%，上述指标结果是相同或相近的，但这两个试验临床应用价值是不同的，甲试验可能在确诊时更有价值，乙试验于筛查时可能更好些。

上述分析可见这些指标对评价临床应用都有价值，但对临床诊断应用上也有一定限度。

现在一些文献应用了许多指标，其实关键并不在于评价指标应用的多少，而在于科研设计的严密和正确、资料齐全和分析的正确、评价指标应用的正确。

“似然比”表达的是在某种诊断性试验某个数值范围内患有或不患有某种疾病的概率。

似然比是将敏感度及特异度较好结合起来的指标，又分为阳性似然比及阴性似然比两种。

前者数值越大，当试验结果阳性时，诊断某病可能性越大；后者数值越小，当试验正常时，患某病可能性越小。

在临床工作中，临床医生希望回答某试验阳性时，诊断为某病的可能性有多大？阴性时排除某病的可能性有多大。

这就提出了“验后概率”的问题。

作者以为“验后概率”应有4个：
1、“诊断概率”：该试验异常时诊断为某病的概率是多少？
2、“误诊概率”：该试验异常，非某病而诊断为某病的概率是多少？
3、“漏诊概率”：该试验正常，患该病而未予诊断的概率是多少？
4、“排除概率”：该试验正常排除某病的概率是多少？现常用的是“诊断概率”，这方面的问题作者已有另文讨论，本文从略。

“验后概率”是从“验前概率”及“条件概率”通过一定公式计算得来的。

“验前概率”指的是根据病人情况及个人经验，怀疑患某病的初步印象。

目前文献上常以“患病率”表示，实际上不同情况“验前概率”所指是有区别的。

当人群筛查时，它与“患病率”或“发病率”有关；当用于医院门诊时与“就诊率”有关；当用于临床鉴别诊断和确诊时与“拟诊率”有关。

“条件概率”指的是在一定条件下发生某事件的概率，常用的是“敏感度”及“特异度”两个指标。

吴泰相氏等介绍了用似然比来计算“验后概率”的方法（“循证检验医学：诊断试验相关指标的概念、测量及应用”。

《临床检验信息导报》2001；1：6-8）本文不赘述。

作者根据概率论及Bayer
定理提出的一些计算方法，应用更方便，应用范围也更广，特别是几个试验联合应用时更是如此。

下面仅举二个例子说明似然比的应用。

（1）血清铁蛋白<15mmol/L时诊断IDA敏感度为59%，特异度为98.9%，测定值如为14mmol/L时，诊断IDA的概率多少？
诊断概率＝0.59/[0.59+(1-0.989)]=0.96
误诊概率＝１－0.96=0.04
(2) 评价不同方法的临床应用价值
今欲评价DIBA、CLIFA及ELISA三种方法对SLE的诊断价值，见表1
可见三种方法诊断概率都非常高，问题在于漏诊概率，其中尤以CLIFA最高，这也是提示临床应用于不同目的时，应选用何种方法。

以上仅举了2个例子，实际情况还有更多的问题要解决，如：某一试验在临床不同目的时（筛查、诊断、疗效观察、病情转归……等）中的价值；联合检查时如何选择项目；如何评价某项试验的得与失（效益分析）；多种试验联合应用结果出现不同组合时的评价等等，这些值得作进一步研究和探讨。

二、诊断性试验证据的评价原则
任何一个诊断性试验用于临床以前都必须经过科学的评价。

诊断性试验的评价分方法学评价及临床应用价值评价两个方面。

本文主要讨论后者，至于方法学评价将另文讨论。

2000年Dr. Sanckett氏等曾提出了评价原则，结合检验工作特点，作者以为重点应考虑以下几个方面的问题：
（一）真实性评价
即该试验临床应用价值的“证据”是否真实和可信，至少包括以下几点：
1、是否将该试验与标准诊断法（金标准）作过对比研究？对比研究是否采用了盲法？
2、被检查的病例是否包括各型病例（轻、重、治疗、未治疗）及个别易于混淆的病例？还是仅观察了病程中某一时期的病例？对照组只有正常人对照组而有无相关疾病组？
3、正常参考范围及临界值确定是否可靠、合理？
4、该试验临床应用价值在不同单位应用的再现性如何？
（二）有效性的评价
即该试验可否正确判断被检者患有何种疾病的证据。

1、是否提供了敏感度、特异度有阳性似然比的数据（或提供了运算的数据）？并考察这些数据的来源及可靠性？
2、是否进行了分组或作出分层的分析和计算？
（三）适用性的评价
1、该试验在本单位是否可以开展，并能正确进行检测？
2、该试验实用价值如何？其结果是否有助于我们对病人的处理？
三、现存主要问题
诊断性试验检测结果直接关系到病人正确诊断与治疗，因此必须严格进行评价，撰写和评价这方面的科研成果和论著也必须用上述标准进行评价。

目前存在的问题主要有：
1、与“金标准”对比问题
现有相当一部分论著仅谈到临床诊断或门诊诊断**病例多少例，用某一检查方法获得阳性结果多少例等等，没有交待临床诊断依据的是什么标准，如果总结的是多年、经过不同医生诊治的病例，汉有一个金标准，其结果的可靠性值得商榷。

所谓“金标准”指的是活体组织检查、病原学检查、细胞学检查、特殊影像检查、外科手术发现、尸检结果、长期随访结果、临床医学医学专家共同制定的公认的综合诊断标准（应依据最新版）等。

有无与“金标准”对比是个关键，证明是该病还非该病，如无此资料就无法进行评价，这样的论著就缺少了进一步评价的可能。

在检验工作中还有一个误区，即将一些传统检测方法、来自国外一些比较先进的检测方法当作“金标准”，计算敏感度、特异度等指标，这是不恰当的，提醒同道注意。

2、正常参考范围问题
这是判断检测结果是否正常的依据。

目前相当多的检验项目的正常参考范围还是若干年甚至几十年前的、国外文献上的，对检测结果的临床解释已产生一定负面影响，而制定适合各地区的正常参考范围是一项繁重的任务。

现在我们要讨论的问题是当引进一项新技术、新项目，进行一项科研工作或撰写论文时要注意正常参考范围的问题，要认真考察所提供的正常参考范围的来源及其可靠性。

众所周知，性别及年龄不同、各地区、各民族甚至不同职业的人群正常参考范围可能有差异，我们不能苛求提供适合全国各地不同人群的正常参考范围，但一项用于临床诊断的技术必须有正常参考范围，而且这正常参考范围是按严格科学设计和统计分析作出的。

目前报告有正常参考范围的文献存在的问题主要是：样本量小，代表性较差，往往仅用献血员或健康体检者及工作人员的检测资料；统计分析时不分析其是否属正态分布，大多以X±2S来确定，有一些明显是偏态分布，也以正态分布来处理显然是不妥的。

以ROC曲线确定临界值的还极少，有的干脆引用文献值而又未加以验证。

与此相关的还有定性试验或半定量试验“临界值”的问题，是否合理也要十分注意。

3、疾病组的设置
这似乎不应成为问题，事实上不尽然。

除上面提到金标准的问题外，还有下列问题：（1）不注明病程、治疗情况许多文献上疾病组往往观察的是住院病人，这些病人大部分是中、晚期病人，那么根据这些结果来判断该试验能否用于早期诊断就需考虑；
（2）不同病程、不同治疗或治疗前后的病人不分组放在一起分析，最终结果必然因混杂因素过多而减少其可信性；
（3）由于以上原因，敏感度往往估计偏高；
（4）一些有关病因学及危险因素的研究报告中，采用的很少是“前瞻性”的研究方法，而是“回顾性”的方法，观察的是住院病人又未进行随访，其结果的可信度就大打折扣。

4、对照组的设置
常见的问题是只设正常人对照组，而不设立相关疾病及易混淆的疾病组。

以肿瘤标志物而言，相关良性疾病组与正常人对照组相比，检测结果要高，阳性率也要高，如只有正常人对照组，该试验的特异性往往估计过高。

5、敏感性、特异性指标问题
上面已谈到的敏感度及特异度估计偏高的情况并非偶见。

问题还在于有相当一部分研究报告缺乏这两个指标，主要问题是用显著性检定代替了敏感性、特异性指标。

由于疾病组与正常对照组间测定值间的交叉重叠，同样的统计学分析结果，敏感度及特异度可以相差甚大大，因而只有统计学结果还不足以说明问题。

与此相关的是几项试验联合应用时，强调了敏感性，忽视了特异性。

其实采用平行试验进行分析时，提高了敏感度，降低了特异度；而采用序列试验进行分析时，提高了特异度，但降低了敏感度，这一问题不明确，可能误导读者。

6、方法学使用中，少数研究采用了不规范的方法；有的研究工作周期较长，缺乏质控措施，很明显这样的结果难以使人置信。

以上几点是使该试验临床应用评价难以进行，可以说是“硬伤”，不可不防。

在资料分析时经常遇到的是统计学使用中的错误；另外还有不考虑实用性的问题，这些都是我们应该重视的。

以上情况表明，对循证检验医学的概念及有关要求不清楚，必然影响对某项试验的正确评价，影响论文撰写和评价的水平，也影响了检验医学的发展。

摘自《检验诊断与实验室自动》2004年第4期。