如何快速准确发现稿件或论文中的统计学错误

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

/docview-4375.html

如何快速准确发现稿件或论文中的统计学错误

军事医学科学院生物医学统计学咨询中心胡良平刘惠刚

稿件或论文中统计学应用的质量如何,是科研工作者或临床医生撰写论文时,以及杂志编辑或审稿专家审阅论文时,都不可回避的一个问题。一提起统计学,很多人都感到很棘手,认为统计学内容涉及面很宽,应用起来又十分灵活,掌握起来就更困难了,非统计学工作者怎能看出稿件或论文中存在的统计学错误呢!其实不然,只要你具备一些起码的统计学知识,再加上大胆发挥“常识”的作用,你就可以很容易地发现一些常见的统计学错误。本文将教你一些这方面的技巧,请在审阅稿件或论文的统计学错误时试用一下,其效果会让你大为惊喜!

(一)检查有无过失误差

很多人在稿件或论文中出现了一些“过失错误”。例如,数据抄写错误或仪器未校准或试剂过期等造成数据不准;同一张表内同一个指标的小数位不一致;统计图中坐标轴上的刻度值违反数学原则(两轴交汇处不是坐标原点、等长的间隔代表不等的数量、横轴上左大右小、纵轴上上小下大);各分项数据之合计与文中所写的合计值不等;正文中所描述的数据与统计表中所列的数据不一致。

例1:原文作者研究非脱垂子宫切除微创手术在妇科的临床应用价值,研究对象的基本情况见表1(略)。

对差错的辨析与释疑:根据原作者在文字叙述部分的介绍可知,CISH组总病例数应为228例,其中子宫>8孕周病例数应为208例,而表1中将总病例数写成208例,将子宫>8孕周病例数写成188例;将TAH写成TAHP,且该组中子宫>8孕周病例数应为182例,而表1中却写成112例。如此多的过失误差出现在同一张表格中,是不应该的。

(二)检查统计学部分的写法

关于文中所用的统计学的交代应非常清楚,不应含糊其词。例如一项研究描述了以下内容:(1)运用SAS(或SPSS)软件进行统计分析;(2)用t检验和方差分析处理定量资料;(3)用χ2检验处理定性资料;(4)用相关和回归分析研究变量之间的关系;(5)用Logistic 回归分析研究各因素对结果的影响。

对差错的辨析与释疑:从(1)的写法只能得知原作者采用了什么统计分析软件处理数据,没有交代清楚软件的版本和序列号,更没有交代文中的资料究竟是采用了哪些统计分析方法处理的。

从(2)的写法只能得知原作者处理定量资料用了两类参数检验方法,即t 检验和方差分析,至于这些统计分析方法选用得是否正确则不得而知。因为通常情况下,比较各平均值之间的差别是否具有统计学意义,可能会用到的t检验有3种、方差分析有10种之多,它们之间的区别体现在定量资料所对应的“实验设计类型”上。讲t检验时,应注明是“单组设计定量资料的t检验”、“配对设计定量资料的t检验”还是“成组设计定量资料的t检验”;讲方差分析时,应注明是“单因素多水平设计定量资料的方差分析”、“随机区组设计定量资料的方差分析”、“拉丁方设计定量资料的方差分析”、“交叉设计定量资料的方差分析”、“x因素析因设计定量资料的方差分析”、“具有x个重复测量的x因素设计定量资料的方差分析”,等等。况且,t检验和方差分析都属于参数检验方法,资料是否满足检验的前提条件,也没有考察。若不满足,即使实验设计类型碰巧对了,计算方法也是错误的。应该选用相应设计定量资料的非参数检验方法,找不到相应的非参数检验方法

时,还应设法寻找合适的变量变换方法。

从(3)的写法只能得知原作者处理定性资料一律采用了χ2检验,这是很危险的信号!只有少数列联表资料,在特定的分析目的和资料具备特定的前提条件时,才可以运用χ2检验处理定性资料,千万不应将χ2检验视为处理定性资料的万能工具。定性资料通常可以编制成11种形式的列联表,应针对不同形式的列联表、统计分析目的和资料实际具备的前提条件,选用相应的统计分析方法,不可随意盲目乱套!

从(4)的写法只能得知原作者用了相关与回归分析方法,至于是简单相关分析、偏相关分析还是复相关分析,是简单相关分析中的Pearson线性相关分析还是Spearmen秩相关分析,是简单线性回归分析、多重线性回归分析还是多重logistic回归分析,等等,都一概不知。也就是说,没有把具体的统计分析方法交代清楚。

从(5)的写法只能得知原作者运用了Logistic回归分析,至于其因变量是什么,则一概不知。

正确写法举例:运用成组设计定量资料的t检验处理表1资料(经检验,定量资料满足参数检验的前提条件);运用三因素析因设计定量资料的方差分析处理表2资料(经检验,定量资料满足参数检验的前提条件);运用单因素3水平设计定量资料的Kruskal Wallis 秩和检验处理表3资料(经检验,定量资料不满足参数检验的前提条件);运用多重logistic 回归分析研究多个自变量对治疗成功与否的影响。

(三)检查所交代的统计分析方法与文中资料的吻合情况

这是最困难的,因为当审阅者的统计学水平不够高时,无法判定原作者所交代的统计分析方法与文稿中被分析的资料所需要的方法是否吻合。这是判断者统计学水平高低的试金石,其知识和技术需要下大气力方可学到。这里,只能简单说一些判定的要领,供审阅者参考。

其一,若关心的结果是定量资料,需要选用合适的定量资料统计分析方法时,其要领是:(1)正确辨析定量资料所对应的实验设计类型;(2)认真检查定量资料是否满足参数检验的前提条件。

其二,若关心的结果是定性资料,需要选用合适的定性资料统计分析方法时,其要领是:(1)弄清定性资料所对应的列联表的具体类型;(2)弄清当前拟达到的统计分析目的;(3)检查定性资料是否具备拟选用的统计分析方法所要求的前提条件。

其三,若关心的是两个或多个定量变量之间的相互关系和依赖关系,需要选用合适的相关与回归分析方法时,其要领是:(1)考察在专业上是否有理由研究这些变量之间的关系;(2)绘制和分析反映两个定量变量之间变化趋势的散步图。

其他统计分析方法也有一些值得总结的要领,因篇幅所限,此处不再赘述。

(四)检查统计分析结果的表达

很多学术论文在表达统计分析结果时一般只给出“P>0.05”、“P<0.05”或“P<0.01”,这是很不够的!应给出统计量的计算结果,并尽可能给出具体的P值,如:t=4.784,df=8,P=0.0014;χ2=10.360,df=3,P=0.0157。

在表达定量和定性资料的结果时,还应尽可能给出总体平均值或总体率的95%置信区间。

(五)检查结论的陈述

很多学术论文在陈述结论时常说:试验组与对照组比较,差别非常显著。这样下结论是不可取的!正确的陈述方法如下:试验组与对照组总体平均值之间的差别具有统计学意义,因试验组的平均值大于对照组的平均值,说明试验药物使该指标的取值有所升高。

(六)辨析文稿中统计学误用的策略

1.识别统计表表达与描述方面错误的策略:统计表方面的主要错误是表中数据的含义

相关文档
最新文档