t检验和方差分析的前提条件及应用误区

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

t检验和方差分析的前提条件及应用误区

用于比较均值的t检验可以分成三类，第一类是针对单组设计定量资料的；第二类是针对配对设计定量资料的；第三类则是针对成组设计定量资料的。后两种设计类型的区别在于事先是否将两组研究对象按照某一个或几个方面的特征相似配成对子。无论哪种类型的t检验，都必须在满足特定的前提条件下应用才是合理的。

若是单组设计，必须给出一个标准值或总体均值，同时，提供一组定量的观测结果，应用t检验的前提条件就是该组资料必须服从正态分布；若是配对设计，每对数据的差值必须服从正态分布；若是成组设计，个体之间相互独立，两组资料均取自正态分布的总体，并满足方差齐性。之所以需要这些前提条件，是因为必须在这样的前提下所计算出的t统计量才服从t分布，而t检验正是以t 分布作为其理论依据的检验方法。

值得注意的是，方差分析与成组设计t检验的前提条件是相同的，即正态性和方差齐性。

t检验是目前医学研究中使用频率最高，医学论文中最常见到的处理定量资料的假设检验方法。t检验得到如此广泛的应用，究其原因，不外乎以下几点：现有的医学期刊多在统计学方面作出了要求，研究结论需要统计学支持；传统的医学统计教学都把t检验作为假设检验的入门方法进行介绍，使之成为广大医学研究人员最熟悉的方法；t检验方法简单，其结果便于解释。简单、熟悉加上外界的要求，促成了t检验的流行。但是，由于某些人对该方法理解得不全面，导致在应用过程中出现不少问题，有些甚至是非常严重的错误，直接影响到结论的可靠性。将这些问题归类，可大致概括为以下两种情况：不考虑t检验的应用前提，对两组的比较一律用t检验；将各种实验设计类型一律视为多个单因素两水平设计，多次用t检验进行均值之间的两两比较。以上两种情况，均不同程度地增加了得出错误结论的风险。而且，在实验因素的个数大于等于2时，无法研究实验因素之间的交互作用的大小。

医学论文中常见的统计方法误用

一、等级资料用卡方检验代替秩和检验

卡方检验主要用于计数资料的显著性检验。在卡方检验中，各项的秩序任意排列所得的值相同，判断结果也相同。但等级资料有强弱之分，不能任意排列，只能从强到弱或从弱到强。卡方检验没有考虑到等级的强弱信息，而秩和检验考虑到了这一点。单项有序分类资料应使用秩和检验。

二、计量资料方差不齐时，仍用t检验或方差分析

这一错误在医学论文中较常见。有许多作者忽略了数据的方差齐性，不经检验直接使用t检验或方差分析。当各样本组经方差齐性检验方差不齐时，可采用以下3种方法来处理：(1)用非参数检验方法；(2)用近似法(如t'检验)；(3)采用变量变换法，使其方差呈齐性。

三、四格表卡方检验忽略使用条件

四格表卡方检验的条件为n>40，且理论频数T> 5。四格表资料如n>40，但1

为什么不能用t检验取代方差分析

（1）问题的提出：在对均值进行假设检验时，一般有两种参数检验方法，即t检验与方差分析。t检验仅用在单因素两水平设计（包括配对设计和成组设计）和单组设计（给出一组数据和一个标准值的资料）的定量资料的均值检验场合；而方差分析用在单因素k水平设计（k≥3）和多因素设计的定量资料的均值检验场合。应当进一步说明的是，方差分析有十几种，不同的方差分析取决于不同的设计类型。值得指出的是有一种不好的倾向，即大多数医学科研工作者习惯于用t检验取代一切方差分析。有些人的辩解是，若方差分析得到差别有显著性意义的结论，不还需要用t检验进行两两比较吗？不如一开始就进行多次t检验更方便。其实，这种认识是不妥当的。现分两种情形讨论如下。

（2）不能用t检验取代方差分析的理由

①单因素k（k≥3）水平设计时的情形。为了便于读者理解，从分析具体问题入手。

[实例]研究单味中药对小鼠细胞免疫机能的影响，把40只小鼠随机均分为4组，每组10只，雌雄各半，用药15d后测定E-玫瑰结成率（%），结果如下，试比较各组总体均值之间的差别有无显著性意义？

对照组： 14 10 12 16 13 14 12 10 13 9

党参组： 21 24 18 17 22 19 18 23 20 18

黄芪组： 24 20 22 18 17 21 18 22 19 23

淫羊藿组： 35 27 23 29 31 40 35 30 28 36

由于测定指标是“率”，一般不符合“正态性”要求，故常作“平方根反正弦变换”，将其转变成近似服从正态分布的“弧度值”。此处仅为了说明t检验与方差分析的区别，姑且将数据看作定量的观测值，并直接检验资料的前提条件，得知该资料满足正态性和方差齐性，故直接进行有关的假设检验。

处理本例资料，通常人们错误的做法是，重复运用成组设计资料的t检验对4个组的均值进行6次两两比较；而正确的做法是，先进行单因素4水平设计资料的方差分析，若4个总体均值之间的差别有显著性意义，再用q检验等方法进行多个均值之间的两两比较。下面将从多个方面来说明上述两种分析方法之间的差异（表1）。

表1 用t检验与方差分析处理[实例]资料的区别

比较的内容t检验方差分析加q检验

资料的利用率低：每次仅用两组高：每次要用全部数据对原实验设计的影响残：割裂了整体设计全：与原实验设计相呼应犯假阳性错误的概率大：1-（1-0.05）6= 0.265 小：0.05（假定α=0.05）

结论的可靠性低：统计量的自由度小

（υ=18）高：统计量的自由度大

（υ=36）

注：自由度大，所对应的统计量的可靠性就高，它相当于“权重”，也类似于产生“代表”的基数，基数越大，所选出的“代表”就越具有权威性。

②多因素设计时的情形。为了便于读者理解，仍从分析具体问题入手（表2）。

表2 注射氯化锂或烟碱后不同时间大鼠体温的下降值

使用氯化锂与否使用

烟碱

与否

第二次注射后不同时间体温下降值（摄氏度）

时间： 0.7 1.5 3 5

- - 0.0±0.4 0.2±0.5 0.1±0.4 0.3±0.5 + - 0.7±0.5 0.1±0.5 0.1±0.6 0.2±0.5 - + 1.2±0.8 0.1±0.6 0.4±0.5 0.4±0.3 + + 1.7±0.6 0.7±0.6 0.3±0.6 0.1±0.5

显然,表2中涉及到的3个实验因素(即”使用氯化锂与否”、“使用烟碱与否”、“药物在体内作用时间”)。这些因素之间一般都存在不同程度的交互作用，应当选用与设计类型（本例为具有一个重复测量的三因素设计）相对应的方差分析方法。然而，对于处置复杂的实验设计问题，人们常犯的错误是在；其一，将多因素各水平的不同组合（本例中共有16种不同的组合，相当于16种不同的实验条件）、简单地看作单因素的多个水平（即视为单因素16水平），混淆了因素与水平之间的区别，从而错误地确定了实验设计类型；其二，分析资料时，常错误用单因素多水平设计或仍采用多次t检验进行两两比较。误用这两种方法的后果是，不仅无法分析因素之间的交互作用的大小，而且，由于所选用的数学模型与设计不匹配，易得出错误的结论。