同行评议的局限性和改进之策

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

IEWPOINT V 观点
科技中国 2019年11月
第11期34同行评议的局限性和改进之策
■文/杨正瓴(天津大学电气自动化与信息工程学院)
同行评议,是指在论文发表、基金资助等学术活动中,由一个或更多相关领域的专家进行评价,来决定论文发表、基金资助等结果的活动。

当前,同行评议在维持和提高科技工作的质量和进步方面,起到了重要的程序保证作用。

同行评议,在很大程度上保证了对科技劳动结果的价值确认、分配稀缺资源等方面的相对公正性和客观性。

1665年伦敦出版的《Philosophical Transactions》最先使用同行评议。

二战之后,特别是1970年代之后,同行评议才步入制度化、社会化的阶段。

同行评议的历史,大体归纳在2016年《Nature》的“Peer review: Troubled from the start(同行评审:从一开始就遇到麻烦)”一
文中。

与同行评议相关的另一个活动是历史检验。

二者都是对科技成果价值的评价。

差别在于:同行评议一般是少数人主观的、短时的评价,其时间范围常在天、月的尺度。

历史检验通常是人类的客观实践,其时间范围常在月、年、十年、百
年或更长的尺度。

显然,只有经过历史检验才能逐步确定科技成果或劳动的真实价值。

事物都是一分为二的。

同行评议的局限性,也是需要我们认真对
待的问题。

1962年1月毛泽东同志明确指出:“历史上常常有这样的事实,起初,真理不是在多数人手里,而是在少数人手里。

马克思、恩格斯
手里有真理,可是他们在开始的时候是少数。

列宁在很长一个时期内
也是少数。

”“历史上的自然科学家,例如哥白尼、伽利略、达尔文,他们的学说曾经在一个长时间内不被多数人承认,反而被看作错误的东西,当时他们是少数。


1978年华罗庚提出“早发表,晚评价。

”“努力在我,评价在人。

”强调科学工作要经过历史检验才能逐步确定其真实价值。

2014年丁肇中说,科学是多数服从少数,只有少数人把多数人的观念推翻以后,科学才能向前发展。

因此,专家评审并不是绝对有用的。

因为专家评审依靠现有的知识,而科学的进展是推翻现有的
知识。

在更早些的1948年,著名物理学界普朗克(Max Karl Ernst Ludwig Planck,1858—1947)死后留下定理:“一个新的科学真理
的胜利,不是通过说服其反对者让他们明白过来而实现的,而是由于其反对者最终死去,与此同时熟悉这个真理的新一代成长起来了。


简单地说:同行评议是依靠旧知识来评价新知识,本身就具有误判的可能性。

当代科技分工越来越细,还造成专家知识的主观性和有限性,进一步造成了同行评议局限性。

近年来国外一些基于大数据的实证定量研究,大体上证实了上面的看法。

一些代表性的研究结果有:
(1)2012年《N a t u r e》的“Conform and be funded”。

该文对本世纪美国国立卫生研究院(US National Institutes of Health,NIH)资助的项目研究表明,大多数NIH的项目评审人得到了NIH资助,却没有发表高引用论文。

反之,大部分高引用论文并没有得到NIH资助。

(2)2015年《P N A S》的“Measuring the effectiveness of scientific gatekeeping”。

该文对1,008份顶级期刊的稿件评审意见分析后发现,同行评审能够识别出良好的研究论文,但一般不能识别出高创新性的稿件。

高创新性稿件,往往被高影响因子期刊拒绝,之后发表在低影响因子期刊上。

(3)2016年《Management Science》的“Looking across and looking beyond the knowledge f r o n t i e r:i n t e l l e c t u a l distance, novelty, and resource allocation in science”。


文用“知识距离(intellectual
distance)”作为评审人和申请书
之间的“同行”量化指标,对随机
挑出的2,130对“评审人—申请书”
(evaluator–proposal pairs)
分析的结果表明:知识距离越近,
评审人给申请书的评分越差;新颖
性中等的申请书得分最高,高新颖
性申请书的得分远低于没有新颖性
的申请书得分。

(4)2016年《PNAS》的“Peer
review and competition in the
Art Exhibition Game”。

该文构
造了一个由23,627评审者参加的
the Art Exhibition Game试验。

结果表明:同行之间的竞争,使得
更多高质量的作品被故意拒绝。


个结果,有可能解释众多的突破
性的科技成果只能在低影响力期
刊发表。

(5)2016年《N a t u r e》
的“Interdisciplinary research
has consistently lower funding
success”。

该文以澳大利亚研
究理事会(Australian Research
Council Discovery Programme)
2010—2014年间受理的18,476
申请书为例,采用跨学科距离
(interdisciplinary distance,
IDD)作为“创新性”的量化指标,
发现创新性越高,获得资助的概率
越低。

(6)2017年《N a t u r e》的
“Blinkered by bibliometrics”。

该文认为,大家嘴上都鼓励高创新
的研究,而评审过程却是鼓励保守
的、安全的研究。

高创新性论文
也倾向于发表在影响因子较低的
期刊上。

(7)2017年《Research
Policy》的“Bias against
n o v e l t y i n s c i e n c e: A
cautionary tale for users of
bibliometric indicators”。


文以2001年Web of Science收录
的百万篇论文为例,以“组合新颖
性”作为创新性的量化指标,分析
后发现:在论文刊出的头三年里,
高新颖性和其他论文的引用量差别
不太明显。

在刊出后的第15年,
高新颖性论文在学科内和对其他学
科的影响力会明显高于其他论文。

主要结论:短期评价指标(如三年
以内)阻碍了科技创新。

(8)2018年《Science》在
“Science of science”一文中,
确认了上面第(3)(5)(7)项
的发现。

(9)2019年《Nature》
的“Large teams develop and
small teams disrupt science
and technology”。

该文对1954—
2014年间超过6,500万篇论文、
专利和软件产品,以颠覆性指标
(Disruption)作为科技成果的创
新性量化指标,分析后发现:3人
以下的小团队创新性明显比大团队
高,即提出新的想法、发现新的
机会;反之,大团队往往跟随在
小团队后面进行后续的研究。


一步对2004至2014年发表的论文
分析发现:小团队得到资助后,
其论文的创新性变得和大团队类
科技中国 2019年11月 第11期35
IEWPOINT V 观点
科技中国 2019年11月
第11期36似。

这可能是保守的资助评审过程(conservative review process)扼杀了小团队的创新性。

简言之,同行评议的局限性在于:(1)是用旧知识来评价新知识,具有鼓励保守(而不是鼓励创新)的先天特性;(2)“评审—被评审”人之间潜在的利益冲突,会限制评审意见的科学性和客观性;(3)评审的时间太短,评审专家只能依据“不全面”的信息进行主观的推断或猜测。

回顾一下人类的科技史,不难发现:人类科技史上的3个“奇迹年Annus mirabilis”,作为现代科学诞生年的1543年(维萨里的《人体构造》和哥白尼《天体运行论》)、1666年(牛顿)和1905年(爱因斯坦),科学巨人们所创造的科学奇迹,以及构成现代科技体系的大多数重大科技成果,都不是在同行评议下完成的。

二战之后,人类的科技增长进入相对平缓的时期,明显表现出
重大创新减少但一般性创新活跃的特征(Dong J、Li W、Cao Y 等,
2016)。

能够基本上识别出良好科技成果的同行评议,在此条件下充分发出了积极的作用。

这也引出一
个问题:同行评议的制度化、社会化,
和此时科技增长的平缓期出现,有没有内在的因果关系?换言之,同行评议是否扼杀或阻碍了重大科技成果的出现?
为保障人类科技工作的可持续发展,应该充分利用同行评议的优点,竭尽全力避免同行评议的缺点。

上述实证研究提示我们,对高原创、高新颖的研究工作,弥补同行评议“守旧、不客观、短时”局限性的可能改进之策有以下几点。

(1)不使用通常的同行评议,或引入一定程度的“外行评议”。

将市场经济中的“反垄断法”、司法中的“民众陪审团”制度进行某种改造,都可能形成新的评审机制,以期绕过同行专家“旧知识”的局
限性,从而促进科技重大创新。

(2)采用公开性的数轮对话式评审。

如各种开放同行评议机制。

(3)引入历史检验的某些特征来提高同行评议的性能。

如2019年3月Richard N.Zare 提出的“同行评议责任制 peer-informed review”(Richard N.Zare,2019)。

正是认识到同行评议体系的无效和不公平,荷兰、美国、英国近年都进行了“经费平均分配”之类的新尝试(张章,2017;李江,2017)。

2011年《Nature》“Fund people not projects”一文里也建议了平均主义、随机资助、自动的影响指数、科学公民身份、业绩评估、宽松项目等研究经费分配的可能模式。

不存在完美无缺的科技评价方法。

正确地认识同行评议正反两方面的特性,更加合理地使用同行评议,是一个长期的历史任务(杨
正瓴,2019
)。

相关文档
最新文档