GRADE指南__证据质量分级

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

© 2011 中国循证医学杂志编辑部
CJEBM • 451 •
Methodology
表 1 专家意见 vs. 证据
专家意见
证据
严格控制血糖 “在我临床实践的 20 年里,我开始治疗新诊断糖
பைடு நூலகம்
可以使病人感 尿病患者多次。我几乎总能看到这些病人开始治
觉好多了(意 疗约一周后复诊,其中绝大多数说感觉比以前好
现举一个实例来阐明证据与专家意见的区别: 假设参加医学生及住院医生的小组讨论,某内分泌 学家解释了糖尿病严格控制血糖的理由,他的两种 断言及其所引用的支持证据见表 1。对意见 1,他引 用的证据完全是他的个人临床经验。对意见 2,他 引用了自己的经验并参考了临床研究证据(仅仅是 一句概括性说明)。
似乎有理由认为意见 1 可能在一定程度上基于
GRADE 特别使用的术语“质量”与“偏倚风险”( GRADE 之前版本称为“研究局限性”)要求作者们
论 著 • 方法学研究
在系统评价或指南中描述其发现并进行推论时谨慎 使用。实施良好的研究可能作为被定为低质量证据 群的一部分,因为这些研究仅为所关心的问题提供 了间接或不精确的证据。尽管临床流行病学家和其 他人已经赋予了“质量”(通常是偏倚风险)一词其 它意思,但我们相信此处更多地是指通常和非专业 上对“质量”这个词的理解。
中国循证医学杂志 2011, 11(4): 451~455
的过程一样,系统评价员及指南制定者将有区别地 使用这套标准。在本系列第五篇文章中我们将着重 讨论这种标准运用上的不同,该文将涉及证据质量 分级的精确性评估 [5]。
6 GRADE中的质量不仅意味着偏倚风险
临床流行病学文献中使用的“质量”通常是指 对单个研究内在效度(如,偏倚风险)的判断。要作 出分级,对对照试验而言,评价员考虑这样一些特 征如随机、隐蔽分组、盲法及意向治疗分析的运用。 对观察性研究,他们考虑恰当地测量暴露与结局及 适当控制混杂。对对照试验和观察性研究他们都要 考虑失访的问题,及设计、实施与分析中影响偏倚 风险的其他因素。
5 什么是证据质量呢?
GRADE 将系统评价中的质量评价部分与指南 制定过程中的质量评级区分开来。因此,我们提供 了证据质量的两种定义。
GRADE 最佳的运用要求系统评价备选管理方 案对所有病人重要结局的影响 [1]。系统评价中的证 据质量分级反映的是我们认为效应估计值正确的把 握程度。形成推荐时,质量分级反映的是我们对效 应估计值足以支持某决策或推荐的把握程度。
GRADE 判断不是针对单个研究而是针对证据 群,GRADE 中的“质量”不仅意味着偏倚风险。证 据群(如许多设计与实施良好的试验)可能与低偏 倚风险相联系,但我们对效应评估的信心可能会因 其他因素而降低(不精确、不一致、间接性及发表 偏倚)。尤其与观察性研究有关的另一些因素,包 括效应量大小与量效关系的存在可能使我们提高质 量评级。
另一方面,一个指南(或应用系统评价证据的 临床医生)作出抗凝决策时必须评估证据质量。考 虑到这方面的权衡,指南委员会必须决定是否推荐 抗凝(及推荐强度),这种决策需基于对有症状的血 栓栓塞风险的影响及其效应估计的可信程度,及相 应严重出血风险估计及其可信程度。虽然质量评估
© 2011 Editorial Board of Chin J Evid-based Med
CJEBM • 452 •
Chin J Evid-based Med 2011, 11(4): 451-455
强推荐,但某特定质量等级的证据并不意味着特定 强度的推荐。有时低或极低质量的证据仍可得出强 推荐。
例如,考虑用阿司匹林或对乙酰氨基酚治疗患 水痘儿童的决策。观察性研究已观察到使用阿司匹 林与瑞氏综合症存在关联 [8-11]。由于阿司匹林与对 乙酰氨基酚的镇痛和退热作用相似,有关阿司匹林 潜在危害的低质量证据并未妨碍对对乙酰氨基酚作 出强推荐。
1 引言
在本系列前两篇文章中我们介绍了 GRADE, 概述了 GRADE 方法用于作出推荐的全过程及该过 程的最终产出——证据概要表和结果总结表(SoFs 表),描述了构建问题和确定结果的过程 [1,2]。这是 第三篇文章,我们将介绍证据质量分级的 GRADE 方法。目的是提供该方法的一个概念性介绍。更详 细并附实例的说明将在那些有关可能导致降低或提
同样地,高质量证据并不一定意味着强推荐。 例如,对首次出现没有明显刺激因素的深静脉血栓 形成(DVT),在抗凝第一个月后患者必须决定是否 继续长期服用华法林。高质量随机对照试验表明, 继续服用华法林会减少血栓复发的风险,但将以增 加出血风险和不便作为代价 [12-15]。由于不同价值观 与偏好的患者可能作出不同的选择,指南委员会对 患者是否应继续或终止使用华法林可能会提供弱推 荐,尽管存在高质量证据。
神经疾病及失 糖水平很高且坚持按医嘱服药。这些病人也很少
明的长期风险 有并发症。另一方面,也有很多控制血糖很糟的
(意见 2)
病人早期就已出现并发症。另外,很多研究显示
严格控制血糖可降低并发症发生风险。”
仔细的观察。如果述说乏力、多尿或其他症状的病 人几天后回来说他们好些了,则开始进行治疗是最 可能的解释。而没有述说的病人几天后回来说她有 多么好的现象特别令人难忘。遗憾的是,对这些观 察存在很多其他可能的解释。该内分泌专家对病人 报告有利情况的程度这一印象可能不准确,他可能 会忘了病情没有得到好转的病人,或病人的明显好 转是由于疾病的自然史或安慰剂效应,问题出在临 床医生方面或病人想取悦医生的愿望。最起码地, 如果没有用一个严格设计的结构化方法收集数据, 我们可以认为该内分泌专家对自己临床经验的报告 (而不是他自己对那一经验进行解释后而得出的意 见)是来源于无对照病例系列的证据,并将其划归 为极低质量。
7 GRADE将证据群的质量分为四类
尽管证据质量是连续的,GRADE 方法最终将 证据群的质量分为高、中、低和极低四类。这四类 质量各自的 GRADE 含义见表 2,并将当前定义与 之前的定义作了比较 [16]。之前的定义侧重证据等级 对将来研究的意义(质量越低,则将来的研究越有 可能改变我们对效应估计的信心及效应估计值本 身)。之前定义的特征受到批评,我们认为是合理 的,因为很多情况下我们不可能期待将来会有较高 质量的证据。但我们也认为,当有理由相信将可获 得新的有力证据时,之前的质量分级特征不失为是 一种替代的方法。
关键词 质量评价;证据群;不精确性;间接性;不一致性;发表偏倚
要点 • GRADE 提供了一种评估质量的框架以鼓励 对作出的判断给出透明而明确的解释。 • GRADE 将作为系统评价的一部分的质量评价 与作为指南制定的一部分的质量评级区分开 来。 • GRADE 最理想的运用要求系统评价备选策 略对所有病人重要结果的影响。 • 决策者、临床医生和病人们有必要了解研究 的局限性、不精确性、不一致性、间接性以 及发表偏倚的相关信息,以理解并相信质量 评估及效应量的估计值。
中国循证医学杂志 2011, 11(4): 451~455
论 著 • 方法学研究
GRADE指南:Ⅲ. 证据质量分级△
GRADE Guidelines: 3. Rating the Quality of Evidence△
Howard Balshem*,Mark Helfanda,Holger J. Schunemann,Andrew D. Oxman,Regina Kunz,Jan Brozek,Gunn E. Vist,Yngve Falck-Ytter,Joerg Meerpohl,Susan Norris, Gordon H. Guyatt,代表GRADE工作组#
不同定义的原因在于制作系统评价不包括作出 严格推荐所需的过程。特别是,除非系统评价小组 中包括这样的成员,他们将使用该系统评价作为指 南制定的一部分,否则系统评价员通常不会去权衡 遵照推荐的有利或不利结果。利益相关者更适合去 作出这些判断。如上述 DVT 的例子,系统评价可 提供有症状的血栓栓塞及出血的可靠效应量估计值 及其可信区间,及与这两个事件相关的病死率,但 系统评价员不能提供关于华法林治疗的获益是否值 得冒其风险的可靠判断。这样的判断还必须考虑价 值观、费用及利益相关者的有关投入。
8 形成质量分级
当我们谈到质量评价时,指的是对所有研究每 一重要结果的总体评价。正如本系列前一篇探讨构
表 2 证据四个等级的含义
质量等级 高 中

极低
当前定义
我们非常确信真实的效应值接近效应估计值
对效应估计值我们有中等程度的信心:真实值有可能接近 估计值,但仍存在二者大不相同的可能性
我们对效应估计值的确信程度有限:真实值可能与估计值 大不相同
摘要 本文介绍证据质量分级的 GRADE 方法。GRADE 将证据质量分为高、中、低和极低四个级别。该分级 应用于证据群,而非针对个别研究。系统评价中,质量反映了我们认为效应估计值正确的把握度。对推荐意见而 言,质量反映了我们认为效应估计值足以支持某特定推荐的把握度。随机对照试验初定为高质量证据,观察性研 究初定为低质量证据。GRADE 中所使用的质量一词不只是意味着偏倚风险,还可能受研究结果的不精确性、不 一致性和间接性,及发表偏倚的影响。此外,若干因素可增加我们对效应估计值的把握度。GRADE 提供了一种系 统方法来思考并报告各因素。GRADE 将评估证据质量的过程与给出推荐建议的过程分开。推荐强度的判断不仅 依赖于证据质量。
我们对效应估计值几乎没有信心:真实值很可能与估计值 大不相同
△ 原文见 J Clin Epidemiol, 2011, 64(4): 401-406.
# GRADE 系统由 GRADE 工作组开发。所列作者撰写并修订了该文 章。在 Journal of Clinical Epidemiology 杂志的网站上有该系列文章所 有贡献者的名录。
* 通讯作者,Email: balshemh@
4 某特定质量的证据并不一定意味着特定 强度的推荐
第二个困惑是区分质量评级与作出推荐。本系 列后面的文章将详细讨论 GRADE 方法用于确定推 荐的方向与强度。在此,我们将强调把对证据群的 质量评估过程从作出推荐的过程中明确地分离出来 的重要性,而这些推荐部分是基于那些质量评估。 虽然较之较低质量证据,较高质量证据更可能对应
高证据质量因素的后续文章中提到 。 [3-7]
2 证据质量不包括什么
论及证据质量,证据与意见及证据质量与推荐 强度常常引起困惑。因此,我们从解释证据质量不 包括什么开始。
3 意见不是证据
缺乏高质量证据时,临床医生必须寻找较低质 量证据以指导其决策。在这种情况下,当指南制定 者将“专家意见”作为一类证据时,困惑就出现了。 形成推荐总是需要专家们的意见,专家意见基于诊 治病人的经验,对生物学及其机制的理解,以及对 临床前期、早期临床研究及随机对照试验与观察性 研究结果的知识与理解。指南制定者应该总是让专 家参与来帮助理解证据,同时他们必须揭示并说明 专家意见的证据基础,对该证据进行质量分级,而 不是对来自于证据及其解释之后的专家意见进行 分级。
意见 1 的证据中所蕴含的定义不清的研究设计 是一个前后对照研究,意见 2 则为一个包含严重问 题患者的平行对照研究。如果该医生的记忆是准确 的(在他的临床实践中,严格控制血糖的病人确实 获得了更好的结局),原因可能在于:病人成功控 制血糖反映出其基础疾病的差异,而基础疾病与可 能患的并发症高度相关。这种未经辨识的预后不平 衡及内分泌专家对事件记忆不可靠、不精确而造成 偏倚的可能性会使我们再次把他的观察结果判定为 极低质量证据。
见 1)
多了。甚至有个病人,她没有任何需抱怨的,也无
相关症状,也回来说她的精力比以前好多了,尤
其是在下午,并对自己总体感觉好得多而感到惊
讶。”
严格控制血糖 “我严格控制每位病人血糖,我认为他们都应得到
可以减少进展 最好的治疗,在这方面我有很多的经验。我有很
为肾脏疾病、 多治疗了 10 年的病人,有的甚至几十年,他们血
相关文档
最新文档