GRADE指南__证据质量评价_发表偏倚

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 1430 •

GRADE指南：Ⅴ. 证据质量评价——发表偏倚△

GRADE guidelines: 5. Rating the quality of evidence—publication bias △

Gordon H. Guyatt *，Andrew D. Oxman ，Victor Montori ，Gunn Vist ，Regina Kunz ，Jan Brozek ，Pablo Alonso-Coello ，Ben Djulbegovic ，David Atkins ，

Yngve Falck-Ytter ，John W . Williams Jr.，Joerg Meerpohl ，Susan L. Norris ，Elie A. Akl ，Holger J. Schünemann ，代表GRADE 工作组#

摘要 GR A

DE 方法中，随机试验起评即为高质量证据，观察性研究起评即为低质量证据；但若证据本身存在高发表偏倚风险，则两者证据质量级别都应降低。即使最佳证据汇总表纳入的各项研究仅有低发表偏倚风险，发表偏倚仍会极大高估效应值。当可得证据来自小样本研究、且多数由厂商资助时，作者应怀疑存在发表偏倚。若干基于检验数据类型的方法可用于评价发表偏倚，其中最常用的为漏斗图，但这些方法都有较大局限。发表偏倚可能较常见，必须特别关注早期结果、对样本量与事件数都很小的早期试验结果尤需小心。

关键词 GR A

DE ；证据质量；发表偏倚；漏斗图；利益冲突；制药业

要点

• 经验证据表明，一般结果有统计学意义的研究比结果无统计学意义的研究（即阴性结果研究）

更易发表。

• 早期仅少量前导研究可得时，完成的系统评价会高估效应值，尤其当“阴性结果”研究滞后发表时更是如此。早期小样本阳性研究、尤其是小样本试验值得怀疑。

• 近年一些真相表明，厂商赞助研究的“阴性”结果隐瞒不报很常见。系统评价作者应特别关注发表偏倚，若当纳入的原始研究样本量都小，尤其当小样本研究受厂商资助时更需注意。• 检验结果类型的经典方法（如漏斗图）可能提示发表偏倚，但需谨慎解释。

△ 原文见J Clin Epidemiol, 2011, 64(12): 1277-1282.

# GRADE 系统由GRADE 工作组开发。所列作者撰写并修订了该文章。在Journal of Clinical Epidemiology 杂志的网站上有该系列文章所有贡献者的名录。

* 通讯作者，Email: guyatt@mcmaster.ca

1 引言

前4篇介绍GRADE 证据质量分级及推荐强度分级体系的系列文章中，我们描述了构建问题的步骤，介绍了GRADE 证据质量分级方法，也讨论了因研究局限性（偏倚风险）而降低证据质量的可能性。本文作为此系列文章第5篇，探讨5类使证据

质量降低原因中的第2类：发表偏倚。本文内容在一定程度上基于前期工作中提出的发表偏倚相关问题[1]，而非撰写与发表偏倚有关文献的系统评价。

即使单个研究设计和实施都很完美，但因系统评价作者或指南制定者未能正确鉴别纳入研究，合成研究结果仍可能带来有偏倚的估计。理论上，未找到的研究比纳入的研究会系统性高估/低估获益效应值。实际上，“阴性结果”研究问题更常见，缺失“阴性结果”研究会增大估计效应值的偏倚。未找到的研究一般是尚未发表、或不完整发表（如摘要或论文）的研究——方法学家称之为“发表偏倚”现象。

一篇信息量大的系统评价[2]评估已发表系列临床试验在多大程度上会受有/无统计学意义、重要性或研究结果方向的影响。该系统评价纳入5篇研究已注册临床试验与上述相关性的文章，结果显示：阳性结果试验比阴性结果试验或无效结果试验更易发表［OR=3.90，95%CI （2.68，5.68）］；即假设已发表41%（纳入研究的中位数，范围为

11%～85%）阴性结果试验，则相应的RR 值为1.78［95%CI （1.58，1.95）］。换成绝对值，表示若发表41%的阴性结果试验，预期会有73%的阳性结果试验见刊。2个研究评估了临床试验完成后至其发表所需的时间，结果显示：阳性结果试验需4至5年后发表，而阴性结果试验需6至8年后才见刊。3个研究发现样本量与发表间的联系无统计学意义。还有1个研究发现资助方式、研究者职称、研究者性别与发表间关系亦无统计学意义。

2发表偏倚与选择性结果报告偏倚

有些分级体系中，报告偏倚分为两亚类：选择性结果报告偏倚（本系列文章已有介绍）和发表偏倚。但我们在各种研究局限中考虑到的所有偏倚来源，包括选择性结果报告偏倚，都可能在单个研究中出现。相反，若单个完整的研究迟迟未发表，而报告又与效应值大小有关（即发表偏倚存在）时，只有通过去观察系列研究才能估计发表偏倚的可能性 [2-7]。目前，我们按Cochrane方法将选择性报告偏倚视为偏倚风险（研究局限）问题。Cochrane协作网正探讨这个问题，Cochrane与GRADE今后都可能对此进行修订。

3各种形式的发表偏倚

若纳入研究样本无代表性，无论未纳入的研究是否已发表，系统评价结果都会受偏倚影响。故漏检滞后发表研究的早期系统评价会得出受偏倚左右的结论——该现象有时称作“滞后偏倚”[8]。要么因为作者自认为知名期刊对研究结果不感兴趣而不投稿；要么因为被知名期刊多次拒稿，该研究最终发表在未被主要数据库收录的普通期刊上，因而会被未查全的检索漏检。非英语国家的作者可能将其阴性结果研究投给本国非英语期刊，这些研究必然会被任何一个只检索英语期刊的系统评价漏检[9,10]。阴性研究可能以其它形式发表（论文、图书章节、会议摘要——有时称作“灰色文献”），故而可能被未查全的系统评价漏检[11]。

正因为有上述各种形式的发表偏倚，故存在高估效应值的风险。而单个系统评价很难预测未发表研究、非英语发表的研究及灰色文献的重要性。

与常见发表偏倚呈镜像现象的是重复发表：一个研究可能不止发表一次，署名不同，表达方式不一，使重复发表难以鉴别，可能造成系统评价重复计算该结果[12-15]。

N-乙酰半胱氨酸预防造影剂所致肾病的系统评价展现了若干镜像现象[16]。在主要心脏病学杂志上以摘要形式发表的随机试验报道的效应值比全文发表的效应值低；早期发表的研究其效应值比之后发表研究的效应值高。发表阳性结果研究的期刊影响因子高于发表阴性结果研究的期刊。系统评价容易受这些因素影响，纳入已发表研究多于摘要，会给出夸大的疗效估计值。表1按发表过程不同阶段列举了选择性发表或不发表对最佳证据摘要结果产生偏倚的各种形式。

4小样本研究的系统评价发表偏倚风险更大

基于小样本随机对照试验（RCT）的系统评价其发表偏倚风险可能更大[17-19]。纳入病例数多的RCT不大可能一直不发表或被忽略；无论其结果是阳性或阴性（即干预组与对照组的差异有无统计学意义），这些RCT均可提供更精确的疗效估计。小样本研究Meta分析结果与之后的大样本试验结果间往往有20%的机会存在差异[20]，而发表偏倚可能是引起这些差异的主要原因[21]。

5大样本研究未能免受其害

尽管大样本研究更有可能发表，但对结果不悦的赞助方可能会推迟、甚至阻止该研究发表[14,22,23]，且可能将那些因其重要性可能在顶级医学刊物上发表的研究发表于受众有限的期刊。他们还可能通过不科学的策略成功将结果模糊处理。下例可佐证这些现象。

沙美特罗多中心哮喘研究试验（下简称SMART）是一个研究沙美特罗和安慰剂对呼吸系统相关死亡、致死事件综合结果的随机试验。2002年9月，一份数据监察委员会对25 858个经随机分配患者的评价显示：沙美特罗组的主要结局近乎显著

表 1 发表偏倚

研究发表阶段产生或导致偏倚的各种形式

初步试验、前导研究小样本研究更可能为“阴性结果”（如拒绝假设、或未满足阳性假设者）迟迟未发表，有厂商将部分研究归为专利信息

完成报告作者断定报告“阴性结果”研究无意义，不愿花时间、精力在这类结果投稿上

选投期刊作者决定把这种“阴性结果”报告投给未被索引收录的期刊、非英语类期刊或发行量有限的期刊

编辑（部）意见编辑认为“阴性结果”研究很难得到同行评审认可，故拒稿

同行评审同行评审认定“阴性结果”研究对该领域并无贡献，建议拒稿。作者要么放弃，要么转投影响力更低的期刊；

“阴性结果”研究发表因而延迟

作者修改、重新投稿遭拒稿的作者决定放弃“阴性结果”研究投稿，或过段时间投给另一家期刊（见上条“选投期刊”）

发表报告期刊推迟发表“阴性结果”研究

出于作者个人兴趣使研究报告向不同期刊投稿、并被接受

• 1431 •