统计学方法在医学论文中的正确应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学方法在医学论文中的正确应用
来源:
阅读人数:4203 添加时间:2010-12-18 【已有3条评论】我要评论
更多0
Tags:统计学
医学科技论文,特别是高质量的原始论著及根据高质量原始论著产生的系统评价己不断地改进和规范着临床医疗实践活动。因此,医学文献的质量高低与我们的临床医疗实践活动密切相关。然而,如果统计学方法应用不当,不仅不能准确地反映科研结果,而且还可能带来错误的结沦[1]。Rosenfeld 等[2]比较了不同年代发表的文章,在20 世纪90年代以后有更多的文章使用了统计推断,而且比较复杂的统计分析方法如多因素分析等也更多的应用于临床研究中,但同时也存在使用统计方法欠妥或叙述不清的情况[3]。国内耳鼻咽喉科医学科技论文情况近似,熊国强[4]等分析了2000 年到2001 年“中国耳鼻咽喉颅底外科杂志”,在科研设计和统计分析方面的应用现状;胡良平等[5]抽查了“中华耳鼻咽喉科杂志”1998 年到2000 年发表的部分文献,发现统计学误用比较常见。因此本文将对医学科技论文常见统计学方法的正确应用进行讨论,希望加强作者的统计思维,进而提高期刊论文的统计
质量及学术水平。
1 统计学方法的内容
统计软件包、统计分析方法及检验水准是统计学方法必须描述的3 方面内容。SPSS (statistics package for social science) 和SAS(statistical analysis system ) 是全世界学术界公认且最常用的两大统计软件包[6]。检验水准即A,表示组间实际无差别而统计结果判断为有差别,犯这类错误的概率[1]。实际工作中常取A=0.05,表示本次研究计算所得P 值必须小于0.05,才能认为组间差异有统计学意义。因而本刊对于检验水准的描述多简化为“P值< 0. 05 为有统计学意义”。统计分析方法的准确描述是科技论文科学性的关键所在。统计学方法一般
包括统计描述和组间差异性检验(即:假设检验) 两部分内容。现详细叙述如下:
2 统计描述
统计描述主要是根据资料类型及原始数据分布类型,选择正确的指标描述资料特征。资料类型分为定量资料和定性资料,前者是指对每个观察对象测得的某个指标能够用具体数据表示,如:年龄、身高、每张切片的阳性细胞百分率等; 后者指对每个观察对象测得的某个指标不能用具体数值表示,仅反映观察对象的某一特征,如: 阳性、阴性,ABO 血型,治愈、显效、好转、无效等。定量资料如果符合正态分布,统计描述指标可用均数及标准差,一般描述为“数据以均数±标准差表示”; 如果不符合正态分布,则统计描述指标选用中位数和级差(即: 最大值和最小值之差)。
区分资料是正态或偏态分布,可以通过SPSS、SA S 统计软件程序判断,也可以通过目测数据是否有"极端值",即特别大或特别小的数据,进行判断[7]。定性资料的统计描述包括率、构成比及相对比。率表示单位时间内某现象或事物发生的概率,如发病率、死亡率等;构成比指事物内部某一部分的个体数与该事物各部分个体数的总和之比,表示各构成部分在全体中所占的比重或分布,不能说明某现象发生的频率或强度,如性别构成、疾病构成、死亡构成等。二者的区别从以下公式则一目了然。然而,在实际应用中以构成比代替率很常见。例如,某文分析240 例耳鼻咽喉科住院患者,鼻窦炎41 例,称发病率17. 08% ,文中“发病率”实际为鼻窦炎患者在该科所有患者中的构成比。此外,还有将病死率误用为死亡率、患病率误用为发病率等,这些都需引起作者的注意。某种疾病发病率= 某段时间内发生该疾病的人数/某段时间内可能发生该种疾病的总人数某种疾病构成比= 某段时间内发生该疾病的人数/某段时间内发生各种疾病的总人数
3 假设检验
科技论文中最常用的是组间差异性检验。假设检验方法很多,不同的科研设计类型及资
料类型适用的检验方法有所不同。定量资料与定性资料常用的统计分析方法介绍如下。
3.1 定量资料
定量资料的统计分析方法包括参数法和非参数法,前者如t检验、方差分析,后者如秩和检验。选择的关键在于资料分布类型,如果资料符合正态分布且组间方差齐(即各组标准差彼此接近) 则选用参数法,不符合则选用非参数法[8]。但在许多医学论文中经常忽略这两个条件,不考虑资料的分布直接采用t 检验或方差分析,由此得出的分析结果是不可信的,见例1。
例1 为研究TGF- β、CEA 肿瘤标志在喉癌患者手术前、后有无差异,分别检测了58 名患者前及术后TGF- β和CEA,经配对t 检验,TGF- β术前、后差异有统计学意义,结果见表1。
表1.肿瘤标记物术前术后的检测*
组别 TGF- β(μg/l) CEA(μg/l)
术前 19.0±26.3 34.0±79.0
术后 4.8±7.5* 20.6±11.2
与术前比较p 值﹤0.05
表中两指标标准差均相差达2 倍以上,提示方差不齐,故不宜采用t 检验,而适合采用秩和检验。t 检验用于两组均数间的比较,包括两独立样本t 检验、配对t 检验和样本均数与总体均数比较的t 检验;方差分析用于两组或两组以上均数的比较。然而,在许多医学论文中,对于3 组或3 组以上均数的两两比较,常重复使用独立样本t 检验作比较,如例2。这样会加大犯阳性错误的概率,即可能将无差别的两个总体均数判断为有差别。这点尤其需引起作者的注意,这也是医学科技论文中t 检验滥用的重要表现之一。此类资料正确的分析方法应是先进行方差分析,以确定这几组均数总体差异有无统计学意义;如果有统计学意义,则进一步采用q 检验(任意组间两两比较) 或Dunnett t 检验(每个实验组与对照组比较) 以确定哪些组间
差异有统计学意义。
例2 为了解不同分化程度的下咽癌患者VEGFR- 3 表达阳性脉管的数目VEGFR- 3 表达阳性脉管差异,分别检测16 例高分化患者,1
5 例中分化者及13 例低分化者,作者采用独立样本t检验,结果见表2。
表2 下咽癌组织中VEGFR- 3 表达阳性脉管与病理分级的关系
组别例数 VEGFR- 3 表达阳性脉管
高分化组 16 14.29±6.50
中分化组 15 15.65±5.84
低分化组 13 16.16±4.75
各组之间p 值﹥0.05
3.2 定性资料
定性资料整理与归纳后,主要分为3 种类型,即四格表资料(只有2 组,且结果变量为2 分类变量,总络子数为4 见表3)、行×列表资料(总格子数> 4,见表4) 和列联表资料(又称双向有序资料,见表5)。行×列表资料又包括单向有序资料(即等级资料,2 组或2 组以上,结果变量为有序多分类变量,见表6)。不同资料类型采用的统计分析方法有所不同。
表3 四格表资料格式
组别阴性阳性合计
实验组 10 29 39
对照组 24 11 35
合计 34 40 74
表4 行×列表资料格式
组别阴性阳性合计