同行评议的局限性和改进之策

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

IEWPOINT V 观点
科技中国 2019年11月
第11期34同行评议的局限性和改进之策
■文/杨正瓴（天津大学电气自动化与信息工程学院）
同行评议，是指在论文发表、基金资助等学术活动中，由一个或更多相关领域的专家进行评价，来决定论文发表、基金资助等结果的活动。

当前，同行评议在维持和提高科技工作的质量和进步方面，起到了重要的程序保证作用。

同行评议，在很大程度上保证了对科技劳动结果的价值确认、分配稀缺资源等方面的相对公正性和客观性。

1665年伦敦出版的《Philosophical Transactions》最先使用同行评议。

二战之后，特别是1970年代之后，同行评议才步入制度化、社会化的阶段。

同行评议的历史，大体归纳在2016年《Nature》的“Peer review: Troubled from the start（同行评审：从一开始就遇到麻烦）”一
文中。

与同行评议相关的另一个活动是历史检验。

二者都是对科技成果价值的评价。

差别在于：同行评议一般是少数人主观的、短时的评价，其时间范围常在天、月的尺度。

历史检验通常是人类的客观实践，其时间范围常在月、年、十年、百
年或更长的尺度。

显然，只有经过历史检验才能逐步确定科技成果或劳动的真实价值。

事物都是一分为二的。

同行评议的局限性，也是需要我们认真对
待的问题。

1962年1月毛泽东同志明确指出：“历史上常常有这样的事实，起初，真理不是在多数人手里，而是在少数人手里。

马克思、恩格斯
手里有真理，可是他们在开始的时候是少数。

列宁在很长一个时期内
也是少数。

”“历史上的自然科学家，例如哥白尼、伽利略、达尔文，他们的学说曾经在一个长时间内不被多数人承认，反而被看作错误的东西，当时他们是少数。

”
1978年华罗庚提出“早发表，晚评价。

”“努力在我，评价在人。

”强调科学工作要经过历史检验才能逐步确定其真实价值。

2014年丁肇中说，科学是多数服从少数，只有少数人把多数人的观念推翻以后，科学才能向前发展。

因此，专家评审并不是绝对有用的。

因为专家评审依靠现有的知识，而科学的进展是推翻现有的
知识。

在更早些的1948年，著名物理学界普朗克（Max Karl Ernst Ludwig Planck，1858—1947）死后留下定理：“一个新的科学真理
的胜利，不是通过说服其反对者让他们明白过来而实现的，而是由于其反对者最终死去，与此同时熟悉这个真理的新一代成长起来了。

”
简单地说：同行评议是依靠旧知识来评价新知识，本身就具有误判的可能性。

当代科技分工越来越细，还造成专家知识的主观性和有限性，进一步造成了同行评议局限性。

近年来国外一些基于大数据的实证定量研究，大体上证实了上面的看法。

一些代表性的研究结果有：
（1）2012年《N a t u r e》的“Conform and be funded”。

该文对本世纪美国国立卫生研究院（US National Institutes of Health，NIH）资助的项目研究表明，大多数NIH的项目评审人得到了NIH资助，却没有发表高引用论文。

反之，大部分高引用论文并没有得到NIH资助。

（2）2015年《P N A S》的“Measuring the effectiveness of scientific gatekeeping”。

该文对1,008份顶级期刊的稿件评审意见分析后发现，同行评审能够识别出良好的研究论文，但一般不能识别出高创新性的稿件。

高创新性稿件，往往被高影响因子期刊拒绝，之后发表在低影响因子期刊上。

（3）2016年《Management Science》的“Looking across and looking beyond the knowledge f r o n t i e r:i n t e l l e c t u a l distance, novelty, and resource allocation in science”。

该
文用“知识距离（intellectual
distance）”作为评审人和申请书
之间的“同行”量化指标，对随机
挑出的2,130对“评审人—申请书”
（evaluator–proposal pairs）
分析的结果表明：知识距离越近，
评审人给申请书的评分越差；新颖
性中等的申请书得分最高，高新颖
性申请书的得分远低于没有新颖性
的申请书得分。

（4）2016年《PNAS》的“Peer
review and competition in the
Art Exhibition Game”。

该文构
造了一个由23,627评审者参加的
the Art Exhibition Game试验。

结果表明：同行之间的竞争，使得
更多高质量的作品被故意拒绝。

这
个结果，有可能解释众多的突破
性的科技成果只能在低影响力期
刊发表。

（5）2016年《N a t u r e》
的“Interdisciplinary research
has consistently lower funding
success”。

该文以澳大利亚研
究理事会（Australian Research
Council Discovery Programme）
2010—2014年间受理的18,476
申请书为例，采用跨学科距离
（interdisciplinary distance，
IDD）作为“创新性”的量化指标，
发现创新性越高，获得资助的概率
越低。

（6）2017年《N a t u r e》的
“Blinkered by bibliometrics”。

该文认为，大家嘴上都鼓励高创新
的研究，而评审过程却是鼓励保守
的、安全的研究。

高创新性论文
也倾向于发表在影响因子较低的
期刊上。

（7）2017年《Research
Policy》的“Bias against
n o v e l t y i n s c i e n c e: A
cautionary tale for users of
bibliometric indicators”。

该
文以2001年Web of Science收录
的百万篇论文为例，以“组合新颖
性”作为创新性的量化指标，分析
后发现：在论文刊出的头三年里，
高新颖性和其他论文的引用量差别
不太明显。

在刊出后的第15年，
高新颖性论文在学科内和对其他学
科的影响力会明显高于其他论文。

主要结论：短期评价指标（如三年
以内）阻碍了科技创新。

（8）2018年《Science》在
“Science of science”一文中，
确认了上面第（3）（5）（7）项
的发现。

（9）2019年《Nature》
的“Large teams develop and
small teams disrupt science
and technology”。

该文对1954—
2014年间超过6,500万篇论文、
专利和软件产品，以颠覆性指标
（Disruption）作为科技成果的创
新性量化指标，分析后发现：3人
以下的小团队创新性明显比大团队
高，即提出新的想法、发现新的
机会；反之，大团队往往跟随在
小团队后面进行后续的研究。

进
一步对2004至2014年发表的论文
分析发现：小团队得到资助后，
其论文的创新性变得和大团队类
科技中国 2019年11月第11期35
IEWPOINT V 观点
科技中国 2019年11月
第11期36似。

这可能是保守的资助评审过程（conservative review process）扼杀了小团队的创新性。

简言之，同行评议的局限性在于：（1）是用旧知识来评价新知识，具有鼓励保守（而不是鼓励创新）的先天特性；（2）“评审—被评审”人之间潜在的利益冲突，会限制评审意见的科学性和客观性；（3）评审的时间太短，评审专家只能依据“不全面”的信息进行主观的推断或猜测。

回顾一下人类的科技史，不难发现：人类科技史上的3个“奇迹年Annus mirabilis”，作为现代科学诞生年的1543年（维萨里的《人体构造》和哥白尼《天体运行论》）、1666年（牛顿）和1905年（爱因斯坦），科学巨人们所创造的科学奇迹，以及构成现代科技体系的大多数重大科技成果，都不是在同行评议下完成的。

二战之后，人类的科技增长进入相对平缓的时期，明显表现出
重大创新减少但一般性创新活跃的特征（Dong J、Li W、Cao Y 等，
2016）。

能够基本上识别出良好科技成果的同行评议，在此条件下充分发出了积极的作用。

这也引出一
个问题：同行评议的制度化、社会化，
和此时科技增长的平缓期出现，有没有内在的因果关系？换言之，同行评议是否扼杀或阻碍了重大科技成果的出现？
为保障人类科技工作的可持续发展，应该充分利用同行评议的优点，竭尽全力避免同行评议的缺点。

上述实证研究提示我们，对高原创、高新颖的研究工作，弥补同行评议“守旧、不客观、短时”局限性的可能改进之策有以下几点。

（1）不使用通常的同行评议，或引入一定程度的“外行评议”。

将市场经济中的“反垄断法”、司法中的“民众陪审团”制度进行某种改造，都可能形成新的评审机制，以期绕过同行专家“旧知识”的局
限性，从而促进科技重大创新。

（2）采用公开性的数轮对话式评审。

如各种开放同行评议机制。

（3）引入历史检验的某些特征来提高同行评议的性能。

如2019年3月Richard N.Zare 提出的“同行评议责任制 peer-informed review”（Richard N.Zare，2019）。

正是认识到同行评议体系的无效和不公平，荷兰、美国、英国近年都进行了“经费平均分配”之类的新尝试（张章，2017；李江，2017）。

2011年《Nature》“Fund people not projects”一文里也建议了平均主义、随机资助、自动的影响指数、科学公民身份、业绩评估、宽松项目等研究经费分配的可能模式。

不存在完美无缺的科技评价方法。

正确地认识同行评议正反两方面的特性，更加合理地使用同行评议，是一个长期的历史任务（杨
正瓴，2019
）。