影响我国科研成果和学术论文质量的要因分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
影响我国科研成果和学术论文质量的要
因分析
影响我国科研成果和学术论文质量的要因分析
1引言
首先,让我们以"科学观察"的眼光来看一个非常经典的Simpson(1951)悖论。
这个悖论的大意是:假如有一组关于吸烟与肺癌关系的调查研究数据,对
其进行统计分析时,若考虑的影响因素的个数不同,将会得到自相矛盾的结论。
具体地说,在这个调查研究数据中,总调查人数N=400,若按是否吸烟划分,
其中吸烟者200人、不吸烟者200人;若按性别划分,其中男性200人、女性200人;若按年龄划分,其中£;40岁225人、40岁175人。
设P1代表
吸烟者患肺癌率、P2代表不吸烟者患肺癌率。
原作者所采用的分析策略和结果如下:分析策略(1):若仅考察吸烟与不吸烟者患肺癌率之间的差别时,发现吸烟者似乎更不易于患肺癌;分析策略(2):若分别在男性组与女性组中考察吸烟与不吸烟者患肺癌率之间的差别时,发现
吸烟者似乎更易于患肺癌;分析策略(3):若先将调查资料按受试者的年龄分为"£;40岁组"和"40岁组",再在每个年龄组内,采用前述第(2)种分析策
略进行计算,得到的结论为:吸烟者似乎更不易于患肺癌。
为什么会得出这种前后自相矛盾的分析结果呢?究竟哪一种分析策略计算的结果正确?出错的原因是什么?简单地说,上述三种分析策略都是错误的,但最
大的错误应该归咎于抽样设计不正确,因此,上述各种结论都是不可信的!这
些问题的详细论述需要较大的篇幅,本文将在后面部分再作解答。
前面的这个例子只是无数科研实例中的一个缩影,凡是与调查研究和实验(或临床试验)研究有关的科研课题(为方便起见,此类研究在本文中将被简称为RCT研究,即随机对照研究),很多在统计研究设计(通常包括调查设计、实验
设计和临床试验设计)阶段就出现了严重错误,有些在资料收集与加工、统计分析、结果解释、结论陈述和结果报告等后续环节上,都相继出现不同程度的错
误。
这些证据确凿的事实,就是对"为什么大多数已发表的研究成果是错误的"
一文最科学最全面的回答。
众所周知,学术论文是表达科研成果的最主要形式,所以,国际上普遍以
各国科技论文发表状况作为衡量科研活动的产出状况、科技实力和水平的标志
之一。
不难想象,科技文献的质量与水平是一个国家科研质量与水平的一面镜子,通过这面镜子,不仅能透视别国的科研质量,也可清楚地了解本国的科技
实力。
事实上,科技文献的质量主要取决于两个方面:其一,学术论文的创新
性与实用性;其二,学术论文的科学性与严谨性。
前者主要由特定领域里的专
业知识和人类所处的发展阶段所决定,而后者主要由统计学知识及其与专业知
识有机结合后发挥作用的程度所决定。
2国际科技文献质量的现状
2.1关注世界顶尖级学术期刊的三种令人担忧的苗头
全世界学术期刊不计其数,但著名的学术杂志却屈指可数。
即便是那些在
学术上令人仰慕的杂志,近十几年来,也出现了三种令人担忧的苗头。
其一,
时常刊登一些有统计学错误的学术论文。
其二,论文的结论经不起时间的考验。
希腊约阿尼纳大学的Ioannidis等人对1990~2003年间发表在New
Engl.J.Med.、JAMA和Lancet三大著名医学杂志上,而且引用次数在1 000次
以上的文献进行调查,结果显示:在49篇高引用率的原始文献中,45篇声称干
预方法有效;而报告结果被以后的研究所否定的有7篇(15.6%);最初报告的疗效被夸大的有7篇(15.6%)。
因此,接近1/3的研究结果没有经受住时间的考验。
其三,论文中出现了严重的学术造假问题。
在《科学》、《自然》等国际一流
学术期刊上,不时地会刊登一些造假的学术论文。
例如:在上世纪80年代到
90年代初,4名顶级的德国医学研究人员曾在国内烟草制造商的授意下发表了
多篇有关"吸烟无害健康"的文章;1999年6月,美国劳伦斯伯克利国家实验室15名研究人员在《物理评论快报》杂志上发表论文谎称,发现了元素周期表上
空缺的118号元素;美国麻省理工学院的副教授范?帕里耶斯,曾通过造假行为在《科学》等顶级刊物上发表了10多篇论文,并在申请科研基金时杜撰了合作者姓名以及研究数据;舍恩曾是美国贝尔实验室的知名科学家,据查发现舍恩
至少在16篇论文中造了假;韩国首尔大学调查委员会于2005年底和2006年初
就"黄禹锡造假事件"发表调查结果称,2005年刊载于《科学》杂志上的黄禹锡
论文数据全部属于故意伪造。
2.2 Simpson悖论的彻底破解
关于Simpson悖论,前面已简要介绍了其背景资料、三种分析策略以及由
此而得到的自相矛盾的结果。
下面,笔者将用通俗的语言对此例进行详细地分
析和解说,以便彻底破解Simpson悖论。
分析策略(1)的具体计算过程如下:若仅考察吸烟与不吸烟者患肺癌率
[P1=40.0%(=80/200)与P2=50.0%(=100/200)]之间的差别时,因P1小于P2,发现吸烟者似乎更不易于患肺癌;
分析策略(2)的具体计算过程如下:若分别在男性组与女性组考察吸烟与不吸烟者患肺癌率男性组:P1=70%(=35/50)与P2=60%(=90/150);女性组:
P1=30%(=45/150)与P2=20%(=10/50))之间的差别时,都因P1大于P2,发现吸
烟者似乎更易于患肺癌;
分析策略(3)的具体计算过程如下:若先将调查资料按受试者的年龄分为"£;40岁组"和"40岁组",再在每个年龄组内,采用前述第(2)种分析策
略的计算方法进行计算。
此时,得到的四个2´;2列联表资料分别为:A
类(£;40岁、男性):P1=50%(=5/10)与P2=52%(=60/115);B类(£;40岁、女性):P1=44.4%(=40/90)与P2=50.0%(=5/10);C类(40岁、男性):
P1=75.0%(=30/40)与P2=85.7%(=30/35);D类(40岁、女性):P1=8.3%(=5/60)
与P2=12.5%(=5/40),比较各组P1与P2的数值大小时,不难发现:都因P1小
于P2,得到的结论为:吸烟者似乎更不易于患肺癌。
让我们来仔细观察并认真分析一下,便可使看似"捉摸不定、高深莫测"的Simpson悖论问题真相大白。
在分析策略(1)中,只考察一个因素(即吸烟与否)对是否患肺癌的影响,并不能保证"性别构成"和"年龄构成"在吸烟组和不吸烟组之间分别是完全相同的。
若吸烟组和不吸烟组之间受到来自性别和年龄的影响相差悬殊,其结果(即两个
患肺癌率)自然就不能单纯由吸烟与不吸烟来解释了。
因此,据此得出的结论是不可信的。
在分析策略(2)中,从表面上看是同时考察了"吸烟与否"和"性别"两个影响因素对是否患肺癌的影响;而从本质上看,只是按"性别"简单分层后,来考察"吸烟与否"对是否患肺癌的影响。
若"年龄构成"在吸烟组和不吸烟组之间是不同的,则得出的结论很可能是不真实的。
因此,据此得出的结论也是不可信的。
在分析策略(3)中,从表面上看是同时考察了"吸烟与否"、"年龄"和"性别"三个影响因素对是否患肺癌的影响;而从本质上看,只是按"年龄"和"性别"的水平组合简单分成四层后,来考察"吸烟与否"对是否患肺癌的影响。
若各层中样本含量很小(事实上,有些组中样本量仅为10),样本的代表性很差,则得出的结论很可能是不真实的。
因此,据此得出的结论也是不可信的。
用统计学的语言来描述,该例调查研究资料的"原型"应称作"结果变量为二值变量的四维列联表资料",分析策略(1)是将它简单压缩成一个2´;2表资料,被压缩掉的变量为"年龄"和"性别",根据统计学理论可知,当被压缩掉的变量与被保留下来的变量(即"吸烟与否"和"患肺癌与否")之间不独立时,易得出错误的结论。
分析策略(2)是将原调查资料简单压缩成两个2´;2表资料,被压缩掉的变量为"年龄"。
根据统计学理论可知,当被压缩掉的变量与被保留下来的变量(即"吸烟与否"和"患肺癌与否")之间不独立时,易得出错误的结论。
分析策略(3)虽然对原调查资料没有进行压缩,但采取的是"化整为零"的做法,即进行简单分层,各层样本量均较小,样本代表性差,分析结果不稳定,还割裂了多个影响因素内在的联系,不能真实地揭示影响因素对观测结果的影响规律。
若将分析策略(3)所对应的四个2´;2表资料全部列出,见表1。
表1同时按年龄和性别分层后吸烟与否与是否患肺癌的调查结果
年龄(岁)
吸烟与否
例数
男性:
患
未患
女性:
患
未患
£;40 吸烟
5 5
40 50
不吸烟
60 55 5
5 40
吸烟
30 10 5
55
不吸烟
30 5
5 35
注:£;40岁组:男性组:相对危险度RR11=0.96、比数比
OR11=0.92、
风险差RD11=-0.02
女性组:相对危险度RR12=0.89、比数比OR12=0.80、
风险差RD12=-0.06 40岁组:男性组:相对危险度RR21=0.88、比数比
OR21=0.50、
风险差RD21=-0.11
女性组:相对危险度RR22=0.67、比数比OR22=0.64、
风险差RD22=-0.04
由表1可以清楚地看出,其中有两组数据是有严重问题的,即"£;40岁的男性吸烟者仅调查了10人,其中竟有5人患了肺癌"和"£;40岁的
女性不吸烟者仅调查了10人,其中也竟有5人患了肺癌"。
在如此小的样本中,竟然有如此高的患肺癌率!这说明,这份调查研究资料存在严重的抽样设计错误,即样本的代表性极差,某些层中样本量过小,调查结果存在严重的偏倚。
若此调查资料是真实调查的结果,则属于错误的调查设计的产物,未能反映被
调查总体的真实情况,因而,其调查资料是不值得进行统计分析的;若此调查
资料是原文作者为了说明如何合理运用统计分析方法而杜撰出来的样例,则说
明原作者犯了一个严重错误,即忽视了调查设计的科学性和严谨性。
正确的做
法是:应按可能导致受试者患肺癌的主要影响因素(如本例中的"年龄"、"性别"、"是否吸烟")进行分层随机抽样,各层应抽取多大样本量,应根据预调查获得的基本信息代入分层随机抽样样本含量计算公式进行计算,以保证各层有足够的
样本量,并应确保样本具有很好的代表性。
对受多因素影响的调查资料,应采
用相应的多因素或多元统计分析方法(如对数线性模型、多重logistic回归模型)进行处理,并结合专业知识和统计学知识对计算结果作出正确的解释,方可得出正确的结论;最好根据获得的结果,再进行大规模的前瞻性调查研究(采用队列研究设计,仍需进行分层随机抽样,并确保有足够的样本量),对已获得的初步结论进行验证,从而得出更加科学的结论。
3我国科技文献质量的现状
有关文献计量学研究表明,我国的科技论文与发达国家相比有较大差距,
主要表现在以下几个方面:(1)论文数量与先进国家相比差距较大;(2)论文质
量有待提高;(3)我国科技期刊的影响力较小;(4)我国高等院校论文数量与西
方发达国家高校论文数量之间的差距不小。
以RCT为主要研究类型的科研工作,其学术论文的质量主要体现在专业水
平和统计学应用质量两个方面。
如何界定一篇学术论文的专业水平的高低,不
是本文探讨的内容;而评价一篇学术论文的统计学质量的高低,则可从以下几
个方面予以考量:(1)统计研究设计的质量;(2)资料的收集、整理、表达与描
述的质量;(3)统计分析方法应用与实施的质量;(4)计算结果解释、结论陈述
和结果报告的质量。
很多人的学术论文在上述四个方面都或多或少暴露出一些
问题,导致论文结论的可信度大打折扣,学术价值大为降低。
更为严重的是,
由于相当多的科技工作者在科研课题的设计、实施和论文撰写过程中,犯了严
重的统计学错误,导致结论错误。
下面的三组数据,可以从数量上向人们展示我国科技期刊论文中统计学方
法误用的程度与现状。
(1)在笔者为我国某些知名医学期刊审稿中发现:经过两位以上医学专家审稿,认为值得发表的稿件中,其统计学方面的错误率平均约
为88.0%(315/358,单位为"篇")。
(2)国内外许多调查研究表明[4-7,12-17]:
科技期刊论著中统计学误用率相当高,科研设计方面的错误率约占30.0%。
(3)
就拿获得国家级科技期刊奖的某些医学杂志来说,据不完全统计[18],2000年
到2004年的五年间,发表国家级、军队级、省部级基金项目的论文分别为586、38和71篇,其中存在统计学错误的论文分别有212、14和32篇,其错误率分
别为36.18%、36.84%和45.07%;若按基金类别分,发表国家自然科学基金和国家重点基础研究发展规划项目的论文分别为394和36篇,其中存在统计学错误的论文分别有151和19篇,其错误率分别为38.32%和52.78%;若将非基金类
论文一起考察,其统计学误用率约为80.0%。
4我国科技论文中统计学错误的分类及典型案例精彩回放
我国科技论文中统计学错误主要包括以下五大类,即统计研究设计错误、
资料收集与加工错误、统计分析方法选择与实施错误、结果解释与报告错误和
结论陈述错误,现分述如下。
4.1统计研究设计错误及其实例
4.1.1设计类型概念模糊
例1很多科研工作者(特别是临床医生)经常对已做过的科研工作进行回顾
性总结,撰写科技论文时,却按前瞻性方式去描述,即把原本属于回顾性研究
范畴的"病例对照研究设计"错误地当成前瞻性研究范畴的"队列研究设计"了。
因此,写出来的论文,文不对题,前后矛盾,看似严谨,其实漏洞百出,其结
论的可信度可想而知。
例2很多实际工作者为了实现一个很复杂的研究目标,常考虑很多的影响
因素,由于他们奇缺实验设计知识,又受到研究条件(时间、人力、物力、财力等)的限制,会想当然地设置几个组,在这几个组决定的特定条件下进行实验研究,其结果是:很多组间缺乏可比性,虽然调查或实验研究在本质上涉及多个
影响因素,但它们之间的相互关系却没有完全表达出来(简称对照不全错误),
导致无法用正确的统计分析方法去处理所得的科研资料。
用一句形象的语言来
形容此类研究者的做法是非常恰当的,即"拍着脑袋定方案,随心所欲搞科研",其后果是:设计方案千窗百孔,实验资料残缺不全,统计方法胡乱套用,错误
结论害人不浅,科研经费人民血汗,肆意浪费令人心酸。
4.1.2科研设计严重违反伦理道德
例1据2002年5月23日《文摘报》转载2002年5月16日《城市晚报》
的一则消息:哈佛校长在北大演讲认错--承认在中国农村进行十五项人体研究
是极其错误的。
美国哈佛大学人体研究计划始于1995年,是以哈佛大学公共卫生学院和安徽医科大学合作的名义进行的,对象是安徽大别山区岳西县的农民。
这里数以万计农民全家参加了"体检",先后被抽了两次甚至多次血样,但他们
根本不知道自己和家人的血样被送到何处以及派了何种用途。
该研究在开展之前,并未向参与者报告接受X光及肺功能测试的危险及会产生不舒服症状等问题,而且合同中所使用的是中国农民难以理解的复杂语言,这些均侵犯了参与
者的知情权。
美国联邦政府"人类研究保护办公室"的报告指出,哈佛大学在中国农村进行的人体研究存在严重的道义问题。
例2在审稿中,经常能看到这样的科研课题--为了研究某种新药的疗效,选用安慰剂作为对照药,治疗的疾病并非是慢性病,研究课题未经伦理委员会批准,也未获得受试者的知情同意,就武断地采取完全随机分组方法将患者分到实验组与对照组中去。
显然,此类科研是严重违反伦理道德的!
4.1.3有些科研工作在实验设计三要素上考虑不周
受试对象、实验因素和实验效应(通过观测指标来体现)是实验设计的三要素。
例1有些实验研究仍处在探索阶段,特别是药物研究,对药物的安全性和有效性还知之甚少时,本应选用动物作为受试对象,而直接选用人体作为受试对象,这就属于选用受试对象方面的错误。
例2有些实验研究的结果所受影响因素尚不清楚时,不通过预实验去摸索情况,而盲目选定一些实验因素进行大规模实验研究,必然浪费人力、物力、财力和时间,使投入远远大于产出,使国家大量的科研经费付诸东流,这就属于确定实验因素方法的错误。
例3有时,选用哪些观测指标来准确地反映实验因素的实验效应,研究者并不是十分清楚,但却会毫无根据地选择一些指标(特别是人为打分的主观指标),这些指标不仅不能正确反映实验因素的实验效应,反而会产生误导,极易得出错误的结论。
如研究哮喘与某些基因之间的关系时,若选取"身高、体重、血小板等"为观测指标,就没有什么意义;若选取"血清总IgE等"为观测指标,就比较有意义了。
4.1.4科研工作严重违反实验设计的四个基本原则
随机、对照、重复和均衡是实验设计的四个基本原则。
一项RCT研究,在这四个基本原则中的任何一个原则上出了问题,就可能会影响结论的正确性。
然而,在公开发表的许多科研论文中,严重违反实验设计四个基本原则中的一个或多个的学术论文俯拾即是。
例1某临床医生在其投稿的论文中这样写道:自1996年11月至2000年3月,采用手术治疗合并重度肺动脉高压先心病患儿34例,男22例、女12例。
根据手术时间将患儿分为对照组(1998年8月前)和肺保护组(1998年8月-2000年3月),观察血管内皮eNOS、支气管上皮iNOS、巨噬细胞iNOS(%)的取值。
显然,此研究中严重违反了随机、对照和均衡三个原则。
两个时间段上的患者
前后对照比较,无法做到随机化,两组患者自身条件以及两个时间段上医疗条
件都相差悬殊,对照组起不到真正对照的作用(从形式上看,属于历史对照;从本质上看,应属于假对照),两组在很多方面是不均衡的,因此,其临床研究的结论是没有说服力的。
例2为了观察甲紫注入小型猪正常腮腺后组织病理变化情况,有人选择6月龄、体重20?25kg的中国实验用小型猪15只,雄性9只、雌性6只。
每只动物任选一侧腮腺为实验侧,另一侧作为正常对照,以消除个体差异及增龄对实验
结果的影响。
按注入甲紫后1周、2周、1个月、3个月及6个月将15只动物
随机分为5组,每组3只(每个组的3只动物分别随机注入0.6ml、1.0ml及
4.0ml 1%甲紫溶液),然后观察组织病理变化情况,得出专业结论。
在此项实验研究中,虽然总动物数N=15,看上去不算太少,然而,实验共分为15个小组,每个小组动物数n=1,严重违反了实验设计的重复原则。
科研工作中,违反实验设计的对照原则的形形色色实例不计其数,如对照
过剩、假对照、对照不全、缺乏必要的对照组、盲目设立对照组等,因篇幅所限,具体例子从略。
4.2资料收集与加工错误
资料收集与加工,是指测定观测指标并记录观测结果、整理资料、表达资料、描述资料的集中和分散情况等。
这方面的错误,有时影响对资料的表达质
量和效果;有时直接导致误用统计分析方法处理资料,得出错误的结论。
例1对接受不同处理的几组患者(或动物)中的每一个,又在多个不同时间
点上对其重复观测同一个定量指标的数值,这叫作"具有重复测量的设计"。
很
多科研工作者仅按时间点记录各组的测定结果,而不管哪些数据是重复测自每
一个受试对象身上的。
假定实验共分为4个实验组,每组5个受试对象,共有
6个时间点,则实际总样本量(即受试对象个数)N=4´;5=20人,全部测定
数据的个数为4´;5´;6=120个。
若像前述那种方式记录实验结果,则认为总样本量(即受试对象个数)为120人,这就把"具有一个重复测量的两因素设计"错误地当作"具有独立重复实验的两因素析因设计"了,必然要误用统计分析方法,其结论也就很值得怀疑,甚至是错误的。
例2很多科研工作者希望比较两种实验方法或测定方法对同一批受试对象
先后测定的结果(假定测定结果可分成优、良、中、差4档)是否一致,本应同
时按两种方法的测定结果进行分类计数(其表现形式为4´;4的方表),却采取按每一种方法测定结果分别进行分类计数(其表现形式为2´;4的长表),原本应选用一致性检验(或称kappa检验)处理此类定性资料,由于列表错误,却不得不选用错误的统计分析方法(如c2检验、秩和检验等)处理资料,这与原先的研究目的不匹配,因此,其结论必错无疑。
例3用统计表表达实验资料时,表中数据的含义表达不清楚,令人费解;
用统计图表达实验资料时,要么所选用的统计图类型与资料性质不吻合,要么
坐标轴上所标的刻度值违反数学原则,等长的线段代表的数量不等,图形反映
的变化趋势是假象。
例4在表达相对数时,很多科研工作者经常犯的错误是将百分比与百分率
混为一谈;分母很小时也计算相对数,其结果是过分夸大相对数的作用,掩盖
事实真相。
4.3统计分析方法选择与实施错误
无论是调查研究资料还是实验研究资料,只要资料中包含的影响因素多、
观测指标多,需要的统计分析方法就比较复杂,而很多科研工作者常对复杂的
统计分析方法望而生畏,但又没有与统计学工作者开展科研协作的动力和习惯,只能一知半解地盲目套用统计学教科书上的方法处理自己的科研资料,因此,
常常选用的统计分析方法不恰当,甚至完全是错误的。
对于复杂的统计计算问题,尽管可以借助国内外著名的统计分析软件来实现,但有时因方法选择不当,计算结果也难免出错。
例1很多取自多因素设计的定量资料,原本应选用相应设计定量资料的方
差分析方法处理,很多科研工作者却误用成组设计定量资料的t检验或单因素
多水平设计定量资料的方差分析方法作了处理。
例2对于结果变量为定性变量的科研资料,很多科研工作者却不管定性的
结果变量是二值变量、多值有序变量还是多值名义变量,也不管分析的目的、
影响因素的数目和资料所具备的前提条件,常盲目套用c2检验。
例3在研究一个结果变量与一个或多个原因变量之间依赖关系时,常视变
量之间的曲线关系而不顾,盲目拟合线性回归方程,用线性关系去描述非线性
关系,得出脱离实际的专业结论。
例4在进行多重回归分析时,相当多的科研工作者采取的筛选变量的策略
是错误的,即先进行简单线性回归分析(即每次只考察一个自变量),将具有统
计学意义(即假设检验的结果为P 0.05)的那些自变量引入多重回归分析的过程
之中去。
显然,对于单独作用小且与其他某个或某些自变量同时存在时,对因
变量贡献变大的自变量是很不利的,也就是说,这样做可能会失去很多好的自
变量组合的机会。
4.4结果解释与报告错误
在解释统计分析结果时,由于对所使用的统计分析方法的原理理解不够准确,常作出错误的解释。
例1某人在研究"SARS合并糖尿病死亡原因分析"时,写道:多因素
logistic逐步回归分析,发现患者最终转归与LDH的高低显著相关(r=-0.3596,P=0.0017)。
请问:这样解释结果正确吗?通过仔细阅读原文可知:LDH(IU/L)的
测定结果在死亡病例组和治愈组分别为:死亡组:825.59±247.82;治愈组:366.24±149.08。
由此可见,转归分为"死亡"与"治愈",死亡组LDH均数大于
治愈组LDH均数,这不能解释成"转归"与"LDH"之间有相关关系,这属于滥用"
相关"这一统计学名词概念!正确地解释为:平均说来,若SARS(即"非典")合
并糖尿病患者的LDH的测定值高,则患者易于死亡。