卡方检验与方差分析

相关主题

第十一章卡方检验

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第十三章 2χ检验与方差分析

我们前面已经比较系统地讨论了双样本的参数和非参数检验的问题。现在，我们希望利

用一般的方法来检验三个以上样本的差异，2χ检验法和方差分析法就是解决这方面问题

的。2χ检验法可以对拟合优度和独立性等进行检验，方差分析法则可以对多个总体均值是

否相等进行检验。后者由于通过各组样本资料之间的方差和组内方差的比较来建立服从F

分布的检验统计量，所以又称F 检验。

第一节拟合优度检验

1．问题的导出

第十一章最后一节，我们将累计频数检验用于经验分布与理论分布的比较，实际已经提

供了拟合优度检验的一种方法。2χ拟合优度检验与累计频数拟合优度检验相对应，在评估

从经验上得到的频数和在一组特定的理论假设下期望得到的频数之间是否存在显著差异时，

是一种更普遍的检验方法。

2．拟合优度检验(比率拟合检验)

据经验分布来检验总体分布等于理论分布的零假设，检验统计量是

2o χ＝频数理论理论频数观察频数∑

-/)(2 理论证明，当n 足够大时，该统计量服从2χ分布。因此对给定的显著性水平α，将临

界值2αχ与2o χ比较，可以就H o 作出检验结论。

对于拟合优度检验，在试验规模小时，否定零假设的意义大，接受零假设的意义不大；

若试验规模大时，则接受零假设的意义大，否定零假设的意义不大。

3．正态拟合检验

第二节无关联性检验

2χ检验的另一个重要应用是对交互分类资料的独立性检验，即列联表检验。由于列联

表一般是按品质标志把两个变量的频数进行交互分类的，所以，①2

χ检验法用于对交互分

类资料的独立性检验，有其它方法无法比拟的优点；②如何求得列联表中的理论频数就成了

独立性检验的关键。

1．独立性、理论频数及自由度

检验统计量 2o

χ＝∑-e e o f f f 2)(＝∑∑==-c i r j eij eij oij f f f 112)( 进一步上式可变为 2o χ＝-∑∑==c i r j eij oij f f 112n

在使用2χ检验法进行列联表检验之前，还必须确定与2o χ这个检验统计量相联系的自

由度，即 (r ×c -1)-(r -1)-(c -1)＝(c -1)(r -1)。

2．关于频数比较和连续性修正

用卡方2o χ作为列联表的统计量，有两点我们应该特别注意。首先，列联表检验是通过

频数而不是通过相对频数的比较进行的。其次，使用卡方2o χ对列联表进行检验．每一格理

论频数eij f 必须保持在一定数目之上。

3．列联表的卡方分解

若一个复杂的列联表具有显著性，有时需要检查子表以确定表格的那一部分卡方2o χ影

响最大。一种可行的简便方法就是考察每一格的残差ij e ，其公式为

ij e ＝eij eij

oij f f f -

根据计算结果可以知道哪一个残差对卡方影响大。

另一种方法是利用卡方分布的可加性，把r ×c 表的总体卡方分解为若干独立部分。

4．关系强度的量度

到目前为止，本节一直在讨论列联表变量间是否存在关系。其方法是建立变量间无关系的零假设，然后再试图否定它。然而，对变量间是否存在关系的讨论，必然引出对变量间关系强弱的讨论。在样本小的时候，获得显著性即表明变量间有强关系。对大样本来说，更重要的问题是：“如果变量间存在关系，其强度有多大?”现在由于PRE 准则，许多不同测量层次的变量已经可以统一起来进行关联强度的讨论了。

第三节方差分析

方差分析，是一种很重要的分析方法，它可以检验两个以上样本均值之差。方差分析是均值差检验的推广，一般用于处理自变量是一个（或多个）定类变量和因变量是一个定距变量之间的关系。方差分析所包含的假定与均值差检验所包含的假定差不多，例如正态分布、独立随机样本、等方差性等，但检验本身却很不相同。方差分析直接涉及的是方差而不是均值和标准差。同时，比较也不取两种估计量之差，而是取两种估计量的比率。在两种估计量彼此独立的前提下，两种估计量之比率F 具有已知的抽样分布，因而可进行很简单的检验。

1．总变差及其分解

第十二章已经引入了变差的概念。但在方差分析中，由于自变量都是定类变量，我们不能像回归分析那样找出自变量和因变量的线性或非线性关系，即不能确定自变量X 取不同值时因变量Y 的拟合值Y c ，而只能研究自变量X 取不同类别时，因变量Y 的均值i Y 是否有所不同。但是在三种变差的讨论中，i Y 和Y c 的地位是一样的。所以，有了上一章的知识，方差分析的方法是不难掌握的。

首先我们看总变差。总变差这个概念不同于方差，在方差分析中记作SS T ，它表示ij Y 对于总均值Y 的偏差之平方和，即

SS T ＝211)(∑∑==-c i n j ij i Y Y

为什么会形成总变差这个散布度呢？显然有两个原因：一是三个样本可能不同，这使全部数据ij Y 有三个“中心”；二是随机抽样误差的影响，使数据在每个中心附近有散布。

这样，将总变差分解成两部分。第一部分是各观测值ij Y 对其所属类别均值i Y 的偏差的平方和，称为组内变差，记作SS W 。组内变差反映了数据围绕各“中心”的散布程度，即反映了ij Y 因随机波动所产生的变异，与自变量因素无关。换言之，SS W 是自变量因素所没有解释的ij Y 的变异。因此，又称之为残差。第二部分是组间平方和，记作SS B ，它涉及到诸类别均值i Y 对总均值Y 的偏差，反映数据在c 个“中心” 附近的散布程度。

2．关于自由度

弄清了组间变差和组内变差，检验零假设(H 0：μ1＝μ2＝…＝μc )的思路也就梳理出来了：关键是比较两种变差是否有显著差异。但在统计学上，方差分析不取两者之差而取两者之比来进行这种比较。而且，方差分析不是直接用SS B /SS W 作为检验统计量，而是用（可以解释的方差）/（不能解释的方差）作为检验统计量，即

不能解释的方差可以解释的方差

=o F

在统计学上，变差除以自由度即可“规格化”成方差。总自由度＝组内自由度 + 组间自由度，即n ―l ＝（n ―c ）+（c ―1）。这样一来，在零假设(H 0：μ1＝μ2＝…＝μc )之下，检验统计量F o 的计算公式就找到了