医学科研论文中的统计学问题汇总分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 医学科研论文中的统计学问题汇总分析医学科研论文中的统计学问题汇总分析作者:
郑华宾ARS 医学统计学是一门帮助人们透过偶然现象,分析和判断事物内在规律的科学。
随着医学科研工作的深入,医学统计学的应用越来越广泛。
由于统计学的内容非常丰富,并且仍在不断发展,而医务工作者常因各种原因不愿花费许多精力钻研统计学知识,故医学论文中误用统计学的现象较为严重。
为了减少这一现象,提高论文的水平,现就论文中常见的统计学错误,分析讨论如下。
1 . 文中未交待所用统计方法论文中应将所用的统计方法交待清楚,例如,是配对设计的 t 检验还是成组设计的 t 检验,是Ridit 分析还是卡方检验,是作相关分析还是作回归推断。
使用不正确的统计方法会得出错误的结论,所以统计方法交待不清或根本不予交待,会使读者对论文结论的正确与否无法判断。
有的作者只提一句经统计学处理后,就写出结论;有的甚至于直接用 P 值说明问题了事。
正确的做法应写明具体的统计方法,如有特殊情况,还应说明是否采用了校正,这样才有说服力。
严格地说,应写明精确的统计量值和 P 值,如 t 值、 F 值、 2 值等,不应笼统地以 P0.05 或 P0.05 代替。
1/ 8
此外,最好能交待所使用的计算工具与统计软件名称。
因采用公认的统计软件(如 SAS、 SPSS 等)或程序型计算器进行计算,与手工计算相比,既准确又快捷,其计算结果易于被人接受。
2. 使用统计方法时不考虑其应用条件每一种统计方法都有其适用条件。
在表示数值变量资料(计量资料)的平均水平时常用到平均数。
然而平均数有算术平均数(均数)、几何均数和中位数,各有其应用条件。
应用均数时,必须首先确定数据为正态分布。
如果数据是偏态分布,仍用均数表示其平均水平势必导致错误的结论,不少作者没有注意到这一点。
对于偏态分布的数据,应该用几何均数或中位数表示其平均水平。
t 检验要求样本来自正态总体,作两样本均数比较时还要求方差齐。
如果不符合这些条件,则应考虑进行数据转换或用非参数检验;当两小样本均数比较方差不齐时,可采用 t检验。
例如临床研究中常涉及病人的病程,有的论文中病程 5d 至 24 年的平均水平和离散度为(311613)年,这种标准差接近或大于均数的数据显然属于严重的正偏态,直接进行t 检验,无疑是错误的。
t 检验是最常用的统计方法之一,但有许多误用的情况。
t 检验不能用于三组或三组以上的组间比较,即使资料符合 t
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 检验的条件也是不行的。
因为一则将原来的多组整体设计割裂,失去了总变异和总剩余误差,与原设计思想不符;二则损失了部分信息,降低了检验效率。
t 检验误用于方差分析的现象还不少见。
对于三组或三组以上组间的均数或分布的比较可以用以下方法:⑴如果各样本来自正态总体,且方差齐,可用方差分析;⑵如果各样本来自正态总体,但方差不齐,则可作数据转换,待方差齐后再用方差分析;⑶如果各样本分布不清或分布不明,则可考虑用秩和检验。
在 t 检验中,把配对设计的资料作成组比较的 t 检验,是常见的失误之一。
有的作者误将配对数据分为两个独立的组,分别设计两组各自的均数,并按两组均数作成组比较的 t 检验。
这样使原来只有差值之间的变异扩大为两个样本各自的变异,错误地增大了标准差和标准误,同时样本含量也从原来的对子数变成了两个样本的例数之和。
其结果大多使 t 检验所得 P值增大,可导致差异从有统计学意义变为无统计学意义。
卡方检验中的计算公式较多,各有其适用条件,稍有不慎,即有误用的可能,应根据实验设计和资料性质进行正确选择。
常见的失误是:⑴四格表资料,当 1T(理论频数)5,n(总例数)40时,没有计算校正 2 值;⑵四格表资料,当 T1 或 n40 时,没有选用
3/ 8
四格表确切概率法;⑶行列表资料,由于例数太少,致理论频数太小,没有采有适当的处理方法,而是直接计算 2 值,导致分析的偏性。
例如两组共计 15 例,就不宜用一般的卡方检验公式计算,应该使用确切概率法。
3. 统计学的基本概念不清楚在作统计推断时,对样本例数有一定的要求,一般认为,样本例数太少,所得到的数值不稳定,不能轻易下结论。
有的论文中三组数据均为 2 例,便作出推断,其推断是不妥的。
有一个常见的统计问题是多组间比较时的两两比较问题。
统计学上,三组或以上的比较称为一揽子比较,在作这种比较时,应先将所有的组一起比较。
在得出差别有统计学意义的基础上,再进一步作两两比较或多个处理与同一对照组比较。
论文中常见的错误是将三组或以上组拆开分别作两两比较。
正确的方法是:定量资料在方差分析 P0.05 后,再用 Q 检验或Dunnett 法作两两比较;定性变量在 RC 表资料 2 检验 P0.05 后,再作 2 分割法分析。
对于有序分类资料(即等级资料)的统计处理,在比较各处理组的效应有无差别时,宜用秩和检验、 Rid2it 分析或交叉积差法及等级相关法,但有些作者则误用卡方检验,此时作卡方检验只能说明各处理组的效应在构成比上有无差异。
部分作者对于率与比的概念不清,常将构成比误认为是发病