诊断试验方法的评价

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

可靠性的测量指标
9 变异系数(计量数据) CV = 标准差/算术均数
9 符合率或一致性(计数数据) 符合率指试验结果与金标准结果一致性（真阳性+真阴性）的人数占受试者总人数的百分率，可以用符合率和Kappa值来表示
提高可靠性的方法
9 试验方法的标准化统一试验条件和观察方法,相同的判断标准,观察者的培训
如以a虚线处血糖水平为标准，则灵敏度高，即漏诊少，但是特异度低，误诊多。但以b虚线处的血糖水平为标准，则刚好相反，即特异度高，误诊少，而灵敏度低，漏诊多。下表说明不同诊断水平对灵敏度和特异度的影响，随着血糖诊断水平的提高，灵敏度下降，而特异度不断提高。
不同诊断水平对灵敏度、特异度的影响
同一试验方法的不同诊断标准有不同的灵敏度和特异度。某种指标在病人和非病人中的分布在大多数情况下并不是完全分离，例如血糖水平的分布
9 研究对象的同质性观察时间如饭前或饭后,是否空腹等以减少个人体变异
符合率即粗一致率调整符合率
4
Kappa值表示两种试验结果的一致性程度
观察一致率
Kappa值
机遇一致率
kappa值的取值范围为－l~+1，该分析考虑了机遇因素对一致性的影响：kappa值＝－1，表明两医生的判断完全不一致；kappa值＝0，表不观察一致率完全由机遇所致；kappa值>0，表示观察的一致程度大于因机遇一致的程度；kappa＝1，表明两医生的判断完全一致。
9 如根据调查发现，尿酸在7mg/dl或以下不会发生痛风，超过这一数值发生痛风的危险性上升，如超过9.0mg/dl，则无一幸免。因此最有意义的界限值应为8.0~9.0mg/dl（相当于99%位数）
9 危险度决定法在足够样本量的前瞻性队列研究基础上，能够较确切地反映该地区人群某种指标的参考值范围。
诊断试验包括病史、症状和体征资料；实验室检查（如生化、病原学、免疫学、血液学、病理学等）；仪器检查如X线检查、超声诊断、 CT、ECT和核磁共振等；疾病的诊断是一项比较复杂的过程，因为每个备检对象的基本特征均不相同。临床医师在进行疾病诊断的时候，都可能包含错误，如漏诊和误诊。用于临床疾病诊断的试验方法很多，而且随着科学技术，特别是医学、分子生物学、电子与计算机技术的发展，越来越多的新试验方法被应用于临床诊断。然而任何诊断试验都不是完美无缺的,都会受到各种条件的影响和限制，在临床实践应用中往往具有局限性和片面性。
¾ 确立金标准
金标准是指一种疾病标准诊断方法，是当前医学界公认的、诊断某病的可靠的诊断方法，应用该标准能较正确区分某种疾病的人和不具有该病的人。不同的疾病有不同的金标准，常见的金标准有：病理学检查（组织活检和尸体解剖）诊断肿瘤、外科手术发现结石诊断胆结石、特殊的影像学诊断如冠状动脉造影诊断冠心病。对于有些诊断困难的疾病可以采用现今公认的方法如综合诊断方法或长期随访病例观察所得到的结果。要评价一个试验方法，金标准的选择是非常重要的。一项诊断试验的准确程度只有在金标准诊断的病人组和非病人组中进行考核，才能得到正确地评价。
实例
可靠性指标计算
符合率 = 205 + 37 ×100% = 80.13% 302
调整符合率 = 1（ 205 + 37 + 205 + 37 ）×100% = 71.24% 4 234 68 236 66
观察一致率 = 205 + 37 ×100% = 80.13% 302
机遇一致率
=
⎡ 234 × 236 ⎢⎣ 302
法好坏。ROC曲线下面积越大，说明该方法越好
6
理想情况（A曲线）糖尿病病人和非病人血糖水平的分布如A曲线所示。在a→b 之间的任一点作为诊断标准，则不会发生漏诊和误诊。
实际情况（B曲线）糖尿病病人和非病人之间的血糖水平在a―b间有重叠，在此范围内，既可能是糖尿病病人，也可能是非病人。
理想和实际情况下正常人和糖尿病病人的血糖分布
因此，就同一诊断试验来说，灵敏度和特异度是矛盾的。要提高试验的灵敏度，必然要损失部分的特异度，反之亦然。
7
¾ 真实性评价结果的统计学推断
诊断试验研究为一个样本研究，所得灵敏度、特异度、 Youden指数均为样本值，因此存在抽样误差。从样本值来推断总体值，须进行统计推断。不同方法的比较应排除抽样误差，进行统计学检验。这些指标的统计学推断和统计学检验方法，见如下两表
同理，ZPP法的方差
实例 SF法灵敏度=(47／50)×100%=94%
特异度=(75／78)×100%=96% 约登指数=0.94+0.96－1=0.90
ZPP法灵敏度=(28／50)×100%=56%
特异度=(68／78)×100%=87% 约登指数=0.56+0.87－1=0.43
实例
查z 临界值表，z0.05=1.96，z＞z0.05，P＜0.05，按α＝0.05水准拒绝 H0，即SF法与ZPP法总体Youden指数不同，SF法较优。
诊断试验的评价指标
可靠性的评价试验方法的真实性评价真实性评价结果的统计学推断临床参考值的确定
¾ 根据试验检查的结果，评价其诊断价值诊断性试验方法评价
¾ 可靠性评价
可靠性也称为重复性或精确性，指一项试验在相同条件重复试验获得相同结果的稳定程度。
3
可靠性的影响因素
9 试验方法和仪器设备以及试验条件试验方法设计原理、仪器设备以及所用试剂的稳定性以及试验条件如温度、湿度等可使检查结果产生系统误差
+
66 × 68⎤ 302 ⎥⎦
302 = 65.47%
Kappa
=
观察一致率 − 机遇一致率 1 − 机遇一致率
=
0.8013 − 0.6547 1 − 0.6547
=
0.42
ROC曲线
受试者工作特征曲线（receive operator characteristic curve）是以灵敏度为纵坐标，假阳性率（1－特异度）为横坐标作图所得的曲线该曲线反映灵敏度与特异度之间相互关系的一种方法在对两种方法进行比较时，可用ROC曲线下面积的大小直观比较诊断方
预后界限
9 有些在统计学上或临床上都认为是正常值，但预后发现也有危险性 9 如50岁男性收缩压150mmHg是常见的，无临床症状不能认为是病
人。但这种人出现冠心病发作的危险性比同龄低血压者约高2倍左右 9 从预后角度出发，50岁男性正常血压值可能比150mmHg还要低。但
该法由于病人反应性不同，较难得到一个统一的标准。5
实例
评价甲胎蛋白诊断肝癌的价值，以肝穿刺作为金标准。试验结果如下表：
实例
真实性指标计算灵敏度 =（205 234）×100% = 87.61%
漏诊率 = 1 − 灵敏度 = 1 − 87.61% = 12.39% 特异度 =（37 68）×100% = 54.41%
诊断试验方法的评价
浙江大学流行病学教学组金明娟
作为临床医师，都必须考虑下列问题：一个试验方法用于某种疾病诊断的真实性和可靠性如何？如试验结果异常对疾病的诊断价值有多高？试验结果正常对排除疾病的判断价值又如何？有哪些因素能影响此试验的结果？这不仅对推广一个新的诊断试验十分必要，而且对快速、准确地诊治病人，提高临床医学科学水平都是非常重要的。
9 若取单侧，大于某限值为异常，则（1－α）×100%参考值范围
为：0~P1-α
x ±Uα S
9 x若取单侧，小于某限值为异常，则（１－α）×100%参考值范
围为：＞Pα
式中Pα为第α百分位数
10
危险度决定法（临床界限）
9 按疾病各种危险因素的危险度决定参考值范围。由于一项指标（如血清胆固醇水平）虽然在参考值范围内，但对于发生某种疾病的危险性仍有较大差别。因此可从预防角度，用危险度决定法确定参考值范围
¾ 样本大小
评价诊断试验的样本含量可用下列公式估计 N = Uα 2 P(1 − P) δ2
P为试验的预期特异性或灵敏度，δ为容许误差，α为第一类误差的概率，Uα值由U界值表可查得。
2
¾ 同步评价
用被评价的诊断试验方法对研究对象进行同步检查，采用盲法 (double blind)观察。目的在于消除由于研究对象心理情绪上的波动或异常影响试验结果，避免由于试验者主观意愿而影响试验结果在诊断试验评价时，研究者的愿望是新试验比旧试验好，如没有采用盲法观察，试验者就有可能自觉或不自觉地对病人或非病人的试验结果作出不同的判断例如对同样一个可疑阳性结果，对病人则易倾向于阳性，而对非病人则易判为阴性，从而导致对新试验评价过高
实例
应用血清铁蛋白（SF）和血清原卜啉（ZPP）试验法进行铁缺乏症的临床诊断。以骨髓涂片铁染色检查作为诊断缺铁的金标准，确诊为缺铁性贫血50例，非缺铁性贫血78例。结果如下表，试比较两试验的约登指数的优劣
8
实例
实例
仅从约登指数看，SF法要高于ZPP法。但这是两个样本值的差别，是由于两方法的总体约登指数不同，还是由于抽样误差所引起？需进行假设检验。 H0：SF法的总体约登指数与ZPP法相同 α=0.05，并根据公式计算如下： SF法的约登指数方差
9
¾ 临床参考值的确定
参考值（reference value）是指正常人体在解剖、生理、生化上的正常水平以及人体对各种试验的正常反应值。这里的正常人是指没有得所检查疾病的人。确定参考值的方法有很多，主要有以下几种。
统计学方法以一定样本量的正常人为研究对象，测定某项生理、生化指标，制
定频数分布表。若此分布符合或基本符合正态分布，则可按正态分布规律确定参考值范围。（1－α）×100%参考值范围：
真实性测量指标 9 灵敏度 Se 9 漏诊率 9 特异度 Sp 9 误诊率
¾ 真实性评价
真实性是指测量值与实际值的符合程度。任何检查结果与金标准相比，有四种情况：
正确结果：真正有病的人中试验结果阳性（真阳性a）无病的人中试验结果阴性（真阴性d）错误结果：真正有病的人中试验结果阴性（假阴性c）无病的人中试验结果阳性（假阳性b）
9 研究对象的生物学变异不同研究对象间由于性别、年龄等因素的差异，观察结果往往不一定相同；同一个体在不同时间与条件下的测量结果也存在变异。如一个人一天24小时血压值不完全相同。
9 观察者的测量变异观察者间变异不同观察者对同一批样品（或样本）进行检查，其测量结果可能有所差异，这种变异称为观察者间变异；观察者内变异同一观察者在不同时间测量相同的样品，其结果的差异称为观察者内变异。
误诊率 = 1 − 特异度 = 1 − 54.41% = 45.59%
阳性似然比
=
真阳性率假阳性率
=
1
灵敏度 − 特异度
=
0.8761 0.4559
=
1.92
阴性似然比
=
假阴性率真阴性率
=
1 − 灵敏度特异度
=
0.1239 0.5441
=
0.23
约登指数 = 灵敏度 + 特异度 − 1 = 0.8761 + 0.5441 − 1 = 0.4202
x ±Uα S x 为均数，S为标准差，zα为发生第一类错误α的z临界限值。若参考值范围采用
双侧，取zα值；若取单侧，则取z2α值。
统计学方法 9 灵敏度 Se 9 漏诊率 9 特异度 Sp 9 误诊率
统计学方法
9 若频数分布表呈明显偏态分布，则可用百分位数法确定参考值
范围。双侧时，（1－α）×100%参考值范围为：Pα/2~P1-α/2
诊断试验评价的基本程序诊断试验的评价指标预测值提高试验效率的方法疾病筛检
1
诊断试验评价的基本程序
确立金标准选择研究对象样本大小同步评价根据试验检查的结果，评价其诊断价值
¾ 选择研究对象
在诊断试验方法评价中，研究对象包括两组，一是被金标准确诊的病例组，另一组是金标准证实无该病的人群，即对照组。所有的研究对象都要有代表性病例应包括该病的各种临床类型（轻、中、重）、病期（早、中、晚）、典型和不典型病例以及并发症和肿瘤转移等病人。病例的代表性影响评价结果的普遍性以及临床推广的意义对照组人群应是确实无该病的人群，不仅包括正常人群，也应包括来自非研究疾病的其他病例，尤其是与该疾病易混淆而在临床上需要鉴别诊断的疾病。在年龄、性别等因素上与病例有可比性