GRADE指南__证据质量分级

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

© 2011 中国循证医学杂志编辑部
CJEBM • 451 •
Methodology
表 1 专家意见 vs. 证据
专家意见
证据
严格控制血糖 “在我临床实践的 20 年里，我开始治疗新诊断糖
பைடு நூலகம்
可以使病人感尿病患者多次。我几乎总能看到这些病人开始治
觉好多了（意疗约一周后复诊，其中绝大多数说感觉比以前好
现举一个实例来阐明证据与专家意见的区别：假设参加医学生及住院医生的小组讨论，某内分泌学家解释了糖尿病严格控制血糖的理由，他的两种断言及其所引用的支持证据见表 1。对意见 1，他引用的证据完全是他的个人临床经验。对意见 2，他引用了自己的经验并参考了临床研究证据（仅仅是一句概括性说明）。
似乎有理由认为意见 1 可能在一定程度上基于
GRADE 特别使用的术语“质量”与“偏倚风险”（ GRADE 之前版本称为“研究局限性”）要求作者们
论著 • 方法学研究
在系统评价或指南中描述其发现并进行推论时谨慎使用。实施良好的研究可能作为被定为低质量证据群的一部分，因为这些研究仅为所关心的问题提供了间接或不精确的证据。尽管临床流行病学家和其他人已经赋予了“质量”（通常是偏倚风险）一词其它意思，但我们相信此处更多地是指通常和非专业上对“质量”这个词的理解。
中国循证医学杂志 2011, 11(4): 451～455
的过程一样，系统评价员及指南制定者将有区别地使用这套标准。在本系列第五篇文章中我们将着重讨论这种标准运用上的不同，该文将涉及证据质量分级的精确性评估 [5]。
6 GRADE中的质量不仅意味着偏倚风险
临床流行病学文献中使用的“质量”通常是指对单个研究内在效度（如，偏倚风险）的判断。要作出分级，对对照试验而言，评价员考虑这样一些特征如随机、隐蔽分组、盲法及意向治疗分析的运用。对观察性研究，他们考虑恰当地测量暴露与结局及适当控制混杂。对对照试验和观察性研究他们都要考虑失访的问题，及设计、实施与分析中影响偏倚风险的其他因素。
5 什么是证据质量呢？
GRADE 将系统评价中的质量评价部分与指南制定过程中的质量评级区分开来。因此，我们提供了证据质量的两种定义。
GRADE 最佳的运用要求系统评价备选管理方案对所有病人重要结局的影响 [1]。系统评价中的证据质量分级反映的是我们认为效应估计值正确的把握程度。形成推荐时，质量分级反映的是我们对效应估计值足以支持某决策或推荐的把握程度。
GRADE 判断不是针对单个研究而是针对证据群，GRADE 中的“质量”不仅意味着偏倚风险。证据群（如许多设计与实施良好的试验）可能与低偏倚风险相联系，但我们对效应评估的信心可能会因其他因素而降低（不精确、不一致、间接性及发表偏倚）。尤其与观察性研究有关的另一些因素，包括效应量大小与量效关系的存在可能使我们提高质量评级。
另一方面，一个指南（或应用系统评价证据的临床医生）作出抗凝决策时必须评估证据质量。考虑到这方面的权衡，指南委员会必须决定是否推荐抗凝（及推荐强度），这种决策需基于对有症状的血栓栓塞风险的影响及其效应估计的可信程度，及相应严重出血风险估计及其可信程度。虽然质量评估
© 2011 Editorial Board of Chin J Evid-based Med
CJEBM • 452 •
Chin J Evid-based Med 2011, 11(4): 451-455
强推荐，但某特定质量等级的证据并不意味着特定强度的推荐。有时低或极低质量的证据仍可得出强推荐。
例如，考虑用阿司匹林或对乙酰氨基酚治疗患水痘儿童的决策。观察性研究已观察到使用阿司匹林与瑞氏综合症存在关联 [8-11]。由于阿司匹林与对乙酰氨基酚的镇痛和退热作用相似，有关阿司匹林潜在危害的低质量证据并未妨碍对对乙酰氨基酚作出强推荐。
1 引言
在本系列前两篇文章中我们介绍了 GRADE，概述了 GRADE 方法用于作出推荐的全过程及该过程的最终产出——证据概要表和结果总结表（SoFs 表），描述了构建问题和确定结果的过程 [1,2]。这是第三篇文章，我们将介绍证据质量分级的 GRADE 方法。目的是提供该方法的一个概念性介绍。更详细并附实例的说明将在那些有关可能导致降低或提
同样地，高质量证据并不一定意味着强推荐。例如，对首次出现没有明显刺激因素的深静脉血栓形成（DVT），在抗凝第一个月后患者必须决定是否继续长期服用华法林。高质量随机对照试验表明，继续服用华法林会减少血栓复发的风险，但将以增加出血风险和不便作为代价 [12-15]。由于不同价值观与偏好的患者可能作出不同的选择，指南委员会对患者是否应继续或终止使用华法林可能会提供弱推荐，尽管存在高质量证据。
神经疾病及失糖水平很高且坚持按医嘱服药。这些病人也很少
明的长期风险有并发症。另一方面，也有很多控制血糖很糟的
（意见 2）
病人早期就已出现并发症。另外，很多研究显示
严格控制血糖可降低并发症发生风险。”
仔细的观察。如果述说乏力、多尿或其他症状的病人几天后回来说他们好些了，则开始进行治疗是最可能的解释。而没有述说的病人几天后回来说她有多么好的现象特别令人难忘。遗憾的是，对这些观察存在很多其他可能的解释。该内分泌专家对病人报告有利情况的程度这一印象可能不准确，他可能会忘了病情没有得到好转的病人，或病人的明显好转是由于疾病的自然史或安慰剂效应，问题出在临床医生方面或病人想取悦医生的愿望。最起码地，如果没有用一个严格设计的结构化方法收集数据，我们可以认为该内分泌专家对自己临床经验的报告（而不是他自己对那一经验进行解释后而得出的意见）是来源于无对照病例系列的证据，并将其划归为极低质量。
7 GRADE将证据群的质量分为四类
尽管证据质量是连续的，GRADE 方法最终将证据群的质量分为高、中、低和极低四类。这四类质量各自的 GRADE 含义见表 2，并将当前定义与之前的定义作了比较 [16]。之前的定义侧重证据等级对将来研究的意义（质量越低，则将来的研究越有可能改变我们对效应估计的信心及效应估计值本身）。之前定义的特征受到批评，我们认为是合理的，因为很多情况下我们不可能期待将来会有较高质量的证据。但我们也认为，当有理由相信将可获得新的有力证据时，之前的质量分级特征不失为是一种替代的方法。
关键词质量评价；证据群；不精确性；间接性；不一致性；发表偏倚
要点 • GRADE 提供了一种评估质量的框架以鼓励对作出的判断给出透明而明确的解释。 • GRADE 将作为系统评价的一部分的质量评价与作为指南制定的一部分的质量评级区分开来。 • GRADE 最理想的运用要求系统评价备选策略对所有病人重要结果的影响。 • 决策者、临床医生和病人们有必要了解研究的局限性、不精确性、不一致性、间接性以及发表偏倚的相关信息，以理解并相信质量评估及效应量的估计值。
中国循证医学杂志 2011, 11(4): 451～455
论著 • 方法学研究
GRADE指南：Ⅲ. 证据质量分级△
GRADE Guidelines: 3. Rating the Quality of Evidence△
Howard Balshem*，Mark Helfanda，Holger J. Schunemann，Andrew D. Oxman，Regina Kunz，Jan Brozek，Gunn E. Vist，Yngve Falck-Ytter，Joerg Meerpohl，Susan Norris， Gordon H. Guyatt，代表GRADE工作组#
不同定义的原因在于制作系统评价不包括作出严格推荐所需的过程。特别是，除非系统评价小组中包括这样的成员，他们将使用该系统评价作为指南制定的一部分，否则系统评价员通常不会去权衡遵照推荐的有利或不利结果。利益相关者更适合去作出这些判断。如上述 DVT 的例子，系统评价可提供有症状的血栓栓塞及出血的可靠效应量估计值及其可信区间，及与这两个事件相关的病死率，但系统评价员不能提供关于华法林治疗的获益是否值得冒其风险的可靠判断。这样的判断还必须考虑价值观、费用及利益相关者的有关投入。
8 形成质量分级
当我们谈到质量评价时，指的是对所有研究每一重要结果的总体评价。正如本系列前一篇探讨构
表 2 证据四个等级的含义
质量等级高中
低
极低
当前定义
我们非常确信真实的效应值接近效应估计值
对效应估计值我们有中等程度的信心：真实值有可能接近估计值，但仍存在二者大不相同的可能性
我们对效应估计值的确信程度有限：真实值可能与估计值大不相同
摘要本文介绍证据质量分级的 GRADE 方法。GRADE 将证据质量分为高、中、低和极低四个级别。该分级应用于证据群，而非针对个别研究。系统评价中，质量反映了我们认为效应估计值正确的把握度。对推荐意见而言，质量反映了我们认为效应估计值足以支持某特定推荐的把握度。随机对照试验初定为高质量证据，观察性研究初定为低质量证据。GRADE 中所使用的质量一词不只是意味着偏倚风险，还可能受研究结果的不精确性、不一致性和间接性，及发表偏倚的影响。此外，若干因素可增加我们对效应估计值的把握度。GRADE 提供了一种系统方法来思考并报告各因素。GRADE 将评估证据质量的过程与给出推荐建议的过程分开。推荐强度的判断不仅依赖于证据质量。
我们对效应估计值几乎没有信心：真实值很可能与估计值大不相同
△ 原文见 J Clin Epidemiol, 2011, 64(4): 401-406.
# GRADE 系统由 GRADE 工作组开发。所列作者撰写并修订了该文章。在 Journal of Clinical Epidemiology 杂志的网站上有该系列文章所有贡献者的名录。
* 通讯作者，Email: balshemh@
4 某特定质量的证据并不一定意味着特定强度的推荐
第二个困惑是区分质量评级与作出推荐。本系列后面的文章将详细讨论 GRADE 方法用于确定推荐的方向与强度。在此，我们将强调把对证据群的质量评估过程从作出推荐的过程中明确地分离出来的重要性，而这些推荐部分是基于那些质量评估。虽然较之较低质量证据，较高质量证据更可能对应
高证据质量因素的后续文章中提到。 [3-7]
2 证据质量不包括什么
论及证据质量，证据与意见及证据质量与推荐强度常常引起困惑。因此，我们从解释证据质量不包括什么开始。
3 意见不是证据
缺乏高质量证据时，临床医生必须寻找较低质量证据以指导其决策。在这种情况下，当指南制定者将“专家意见”作为一类证据时，困惑就出现了。形成推荐总是需要专家们的意见，专家意见基于诊治病人的经验，对生物学及其机制的理解，以及对临床前期、早期临床研究及随机对照试验与观察性研究结果的知识与理解。指南制定者应该总是让专家参与来帮助理解证据，同时他们必须揭示并说明专家意见的证据基础，对该证据进行质量分级，而不是对来自于证据及其解释之后的专家意见进行分级。
意见 1 的证据中所蕴含的定义不清的研究设计是一个前后对照研究，意见 2 则为一个包含严重问题患者的平行对照研究。如果该医生的记忆是准确的（在他的临床实践中，严格控制血糖的病人确实获得了更好的结局），原因可能在于：病人成功控制血糖反映出其基础疾病的差异，而基础疾病与可能患的并发症高度相关。这种未经辨识的预后不平衡及内分泌专家对事件记忆不可靠、不精确而造成偏倚的可能性会使我们再次把他的观察结果判定为极低质量证据。
见 1）
多了。甚至有个病人，她没有任何需抱怨的，也无
相关症状，也回来说她的精力比以前好多了，尤
其是在下午，并对自己总体感觉好得多而感到惊
讶。”
严格控制血糖 “我严格控制每位病人血糖，我认为他们都应得到
可以减少进展最好的治疗，在这方面我有很多的经验。我有很
为肾脏疾病、多治疗了 10 年的病人，有的甚至几十年，他们血