如何快速准确发现稿件或论文中的统计学错误
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
/docview-4375.html
如何快速准确发现稿件或论文中的统计学错误
军事医学科学院生物医学统计学咨询中心胡良平刘惠刚
稿件或论文中统计学应用的质量如何,是科研工作者或临床医生撰写论文时,以及杂志编辑或审稿专家审阅论文时,都不可回避的一个问题。
一提起统计学,很多人都感到很棘手,认为统计学内容涉及面很宽,应用起来又十分灵活,掌握起来就更困难了,非统计学工作者怎能看出稿件或论文中存在的统计学错误呢!其实不然,只要你具备一些起码的统计学知识,再加上大胆发挥“常识”的作用,你就可以很容易地发现一些常见的统计学错误。
本文将教你一些这方面的技巧,请在审阅稿件或论文的统计学错误时试用一下,其效果会让你大为惊喜!
(一)检查有无过失误差
很多人在稿件或论文中出现了一些“过失错误”。
例如,数据抄写错误或仪器未校准或试剂过期等造成数据不准;同一张表内同一个指标的小数位不一致;统计图中坐标轴上的刻度值违反数学原则(两轴交汇处不是坐标原点、等长的间隔代表不等的数量、横轴上左大右小、纵轴上上小下大);各分项数据之合计与文中所写的合计值不等;正文中所描述的数据与统计表中所列的数据不一致。
例1:原文作者研究非脱垂子宫切除微创手术在妇科的临床应用价值,研究对象的基本情况见表1(略)。
对差错的辨析与释疑:根据原作者在文字叙述部分的介绍可知,CISH组总病例数应为228例,其中子宫>8孕周病例数应为208例,而表1中将总病例数写成208例,将子宫>8孕周病例数写成188例;将TAH写成TAHP,且该组中子宫>8孕周病例数应为182例,而表1中却写成112例。
如此多的过失误差出现在同一张表格中,是不应该的。
(二)检查统计学部分的写法
关于文中所用的统计学的交代应非常清楚,不应含糊其词。
例如一项研究描述了以下内容:(1)运用SAS(或SPSS)软件进行统计分析;(2)用t检验和方差分析处理定量资料;(3)用χ2检验处理定性资料;(4)用相关和回归分析研究变量之间的关系;(5)用Logistic 回归分析研究各因素对结果的影响。
对差错的辨析与释疑:从(1)的写法只能得知原作者采用了什么统计分析软件处理数据,没有交代清楚软件的版本和序列号,更没有交代文中的资料究竟是采用了哪些统计分析方法处理的。
从(2)的写法只能得知原作者处理定量资料用了两类参数检验方法,即t 检验和方差分析,至于这些统计分析方法选用得是否正确则不得而知。
因为通常情况下,比较各平均值之间的差别是否具有统计学意义,可能会用到的t检验有3种、方差分析有10种之多,它们之间的区别体现在定量资料所对应的“实验设计类型”上。
讲t检验时,应注明是“单组设计定量资料的t检验”、“配对设计定量资料的t检验”还是“成组设计定量资料的t检验”;讲方差分析时,应注明是“单因素多水平设计定量资料的方差分析”、“随机区组设计定量资料的方差分析”、“拉丁方设计定量资料的方差分析”、“交叉设计定量资料的方差分析”、“x因素析因设计定量资料的方差分析”、“具有x个重复测量的x因素设计定量资料的方差分析”,等等。
况且,t检验和方差分析都属于参数检验方法,资料是否满足检验的前提条件,也没有考察。
若不满足,即使实验设计类型碰巧对了,计算方法也是错误的。
应该选用相应设计定量资料的非参数检验方法,找不到相应的非参数检验方法
时,还应设法寻找合适的变量变换方法。
从(3)的写法只能得知原作者处理定性资料一律采用了χ2检验,这是很危险的信号!只有少数列联表资料,在特定的分析目的和资料具备特定的前提条件时,才可以运用χ2检验处理定性资料,千万不应将χ2检验视为处理定性资料的万能工具。
定性资料通常可以编制成11种形式的列联表,应针对不同形式的列联表、统计分析目的和资料实际具备的前提条件,选用相应的统计分析方法,不可随意盲目乱套!
从(4)的写法只能得知原作者用了相关与回归分析方法,至于是简单相关分析、偏相关分析还是复相关分析,是简单相关分析中的Pearson线性相关分析还是Spearmen秩相关分析,是简单线性回归分析、多重线性回归分析还是多重logistic回归分析,等等,都一概不知。
也就是说,没有把具体的统计分析方法交代清楚。
从(5)的写法只能得知原作者运用了Logistic回归分析,至于其因变量是什么,则一概不知。
正确写法举例:运用成组设计定量资料的t检验处理表1资料(经检验,定量资料满足参数检验的前提条件);运用三因素析因设计定量资料的方差分析处理表2资料(经检验,定量资料满足参数检验的前提条件);运用单因素3水平设计定量资料的Kruskal Wallis 秩和检验处理表3资料(经检验,定量资料不满足参数检验的前提条件);运用多重logistic 回归分析研究多个自变量对治疗成功与否的影响。
(三)检查所交代的统计分析方法与文中资料的吻合情况
这是最困难的,因为当审阅者的统计学水平不够高时,无法判定原作者所交代的统计分析方法与文稿中被分析的资料所需要的方法是否吻合。
这是判断者统计学水平高低的试金石,其知识和技术需要下大气力方可学到。
这里,只能简单说一些判定的要领,供审阅者参考。
其一,若关心的结果是定量资料,需要选用合适的定量资料统计分析方法时,其要领是:(1)正确辨析定量资料所对应的实验设计类型;(2)认真检查定量资料是否满足参数检验的前提条件。
其二,若关心的结果是定性资料,需要选用合适的定性资料统计分析方法时,其要领是:(1)弄清定性资料所对应的列联表的具体类型;(2)弄清当前拟达到的统计分析目的;(3)检查定性资料是否具备拟选用的统计分析方法所要求的前提条件。
其三,若关心的是两个或多个定量变量之间的相互关系和依赖关系,需要选用合适的相关与回归分析方法时,其要领是:(1)考察在专业上是否有理由研究这些变量之间的关系;(2)绘制和分析反映两个定量变量之间变化趋势的散步图。
其他统计分析方法也有一些值得总结的要领,因篇幅所限,此处不再赘述。
(四)检查统计分析结果的表达
很多学术论文在表达统计分析结果时一般只给出“P>0.05”、“P<0.05”或“P<0.01”,这是很不够的!应给出统计量的计算结果,并尽可能给出具体的P值,如:t=4.784,df=8,P=0.0014;χ2=10.360,df=3,P=0.0157。
在表达定量和定性资料的结果时,还应尽可能给出总体平均值或总体率的95%置信区间。
(五)检查结论的陈述
很多学术论文在陈述结论时常说:试验组与对照组比较,差别非常显著。
这样下结论是不可取的!正确的陈述方法如下:试验组与对照组总体平均值之间的差别具有统计学意义,因试验组的平均值大于对照组的平均值,说明试验药物使该指标的取值有所升高。
(六)辨析文稿中统计学误用的策略
1.识别统计表表达与描述方面错误的策略:统计表方面的主要错误是表中数据的含义
未表达清楚,令人费解。
统计图方面的主要错误有两个:其一,横坐标轴上的刻度值是随意标上去的,等长的间隔代表的数量不等,在直角坐标系中,从任何一个数值开始作为横轴或纵轴上的第一个刻度值;其二,用条图或复式条图表达连续性变量的变化趋势。
运用相对数时,混淆“百分比”与“百分率”。
在表达多组定量资料时,即使定量资料偏离正态分布很远,仍采用“x±s”表达(标准差s>x),特别当表中采用标准误sx取代标准差s时,前述的错误很难被察觉出来,应将标准误还原成标准差(s=sx×n),便容易看出破绽。
2.识别统计分析方法选择方面错误的策略:误用定量资料分析方法处理定性资料,例如,用“1”代表治愈,用“0”代表未治愈,分别将实验组、对照组中的“1”和“0”相加求得算术平均值,也可求出标准差。
然后,照着统计学教科书上处理成组设计定量资料的t 检验计算公式,算出检验统计量t值,查t临界值表,得到相应的概率。
还有人只要看到实验资料中的结果变量名叫做“阳性率或百分率”,便不假思索地认为该资料为“定性资料”,想当然地选用χ2检验处理此类资料。
其实,有时可从每名受试者身上测到一个“阳性率”数据,此时,应将其视为“定量资料”,应判定定量资料所对应的实验设计类型和检查其是否满足参数检验的前提条件,以便选用相应设计定量资料的参数或非参数检验处理此定量资料。
若资料中的结果变量确实为定性的,就要弄清每次要考察的原因变量有几个,它们是定性的、定量的还是两者都有,从而决定是将资料整理成一般的列联表资料还是按数据库格式去整理资料。
若是列联表形式的资料,通常根据其具有的11种类型、分析目的和资料具备的前提条件,可以看出原文作者所选择的统计分析方法与应该选用的统计分析方法是否吻合;若是用数据库形式呈现的资料,当自变量较少时,可以转化成相应的列联表形式,当自变量较多时,不便将其转变成列联表的形式,通常可直接选用多重logistic回归分析处理。
3. 识别相关与回归分析方面错误的策略:识别相关与回归分析方面错误的策略主要在于以下两点:其一,看所研究的变量之间在专业上是否有联系,这种联系是否有专业知识为依据。
例如,若有人研究正常成年人的身高与转氨酶之间的线性相关关系,可以很有把握地说,这两个变量之间的关系缺乏临床专业知识为依据,因为转氨酶是反映某人肝功能是否正常的一个重要参考指标。
正常成年人的转氨酶数值通常在一定的正常值范围之内,不会随着人的身高改变而改变。
有时人们观察到的两个变量之间的关系是“虚假的”,从数量上看,好象关系很密切,其实它们都与另外一个变量之间有密切关系。
例如,有人连续测量某小孩12个月中各月的身高,同时,测量门前一棵小树的高度,这12对数据之间可能呈现很好的“线性相关”,其实,它们之间毫无关系。
事实上,它们都与“时间”有很好的“线性相关”。
其二,一定要绘制出反映定量变量同时变化趋势的散布图,此图可以清楚地展现所考察的定量变量之间是呈直线变化趋势、曲线变化趋势、存在个别的异常点还是杂乱无章、毫无根据的关系,如此一览无余,便知线性相关与回归分析应用得是否恰当。
4.识别多重回归分析方面错误的策略:若选用的是多重线性回归分析,要看因变量是否为近似服从正态分布的定量资料,自变量之间是否存在明显的共线性关系(若自变量之间相关性密切,就不合适);若选用的是多重logistic回归分析,要看因变量是否为定性变量(二值变量、多值有序变量还是多值名义变量),定性的因变量的具体情况不同,应选择相应的多重logistic回归分析方法;若结果变量是患者的生存时间,而且有些人的生存时间数据出现了“截尾”(即因为失访或死于其他原因,观察到的生存时间不准确),通常应选用生存分析方法中的COX模型回归分析或参数模型回归分析。
5. 识别多元统计分析方面错误的策略:若用了多元方差分析或多元协方差分析,就要考察这些定量的结果变量在专业上是否有联系,还要看设计类型判断得是否正确,资料的前提条件是否作了检查;若是为了从众多的定量变量中寻找出隐含的、测定起来很不方便的变量,一个目的是为了降低变量的维数,另一个目的是为了更好地揭示可测变量之间的内在关
系,可能需要选用主成分分析、因子分析或隐变量分析等复杂的统计分析方法了。