第十三章_卡方检验与方差分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十三章 χ 检验与方差分析
2
我们前面已经比较系统地讨论了双样本的参数和非参数 检验的问题。现在, 检验的问题。现在,我们希望利用一般的方法来检验三个以2 2 χ , 检验法和方差分析法就是解决这方面问题的。 χ 上样本的差异, 检验法和方差分析法就是解决这方面问题的。 上样本的差异 检验法可以对拟合优度和独立性等进行检验, 检验法可以对拟合优度和独立性等进行检验,方差分析法则 可以对多个总体均值是否相等进行检验。 可以对多个总体均值是否相等进行检验。后者由于通过各组 样本资料之间的方差和组内方差的比较来建立服从F分布的检 样本资料之间的方差和组内方差的比较来建立服从 分布的检 验统计量,所以又称F检验 检验。 验统计量,所以又称 检验。 第一节: 第一节:拟合优度检验 第二节: 第二节:无关联性检验 第三节: 第三节:方差分析 第四节: 第四节:回归方程与相关系数的检验
第一节
拟合优度检验
运用Z检验、 检验等讨论假设检验的问题 运用 检验、t检验等讨论假设检验的问题,一般要求总体服从 检验 检验等讨论假设检验的问题, 正态分布, 正态分布,或者在大样本条件下可以利用渐近正态分布理论来描述 抽样分布。也就是说, 抽样分布。也就是说,我们都要直接或间接地假定对象总体具有已 知的分布形式,然后对总体的未知参数进行假设检验。 知的分布形式,然后对总体的未知参数进行假设检验。如果不知道 总体的分布形式,就无法运用t检验法等对总体参数进行假设检验 总体的分布形式,就无法运用 检验法等对总体参数进行假设检验 。于是,这里有一个前面留下来的尚未讨论的问题很重要,就是怎 于是,这里有一个前面留下来的尚未讨论的问题很重要, 样检定总体是否具有正态或其他分布形式? 样检定总体是否具有正态或其他分布形式?拟合优度检验正是就这 一问题而言的检验方法。 一问题而言的检验方法。
2 χo统计量之值并定出其自由度后,就可以依前述的方法,在给定了显 统计量之值并定出其自由度后,就可以依前述的方法,
应用举例
检验检定性别与收入之间的相关程度是否显著( 检验检定性别与收入之间的相关程度是否显著(α取0.001)。 001)。
2 χo 检验也适用于定类变量和定类变量的相关统计,即可 2 以用它检定λ和τ系数是否显著。就下表所示资料,试以 χo
c fi f ,并有 ∑ i =1。 n i= n 1
i= 1
现在我们就是要据此经验分布来检验总体分布等于理论分布的零假设。
拟合优度检验如何进行? 拟合优度检验如何进行
关键是确定合适的检验统计量以及该统计量所服 从的概率分布。这里不可避免地要引进某种人为因素 ,即人们设计出下面这样的综合性可比指标:
2
经验分布与理论分布拟合程度越好。反之,fe 与 fo 差距越大, 差距越大, 经验分布与理论分布拟合程度越好。反之,
2 值越大,经验分布与理论分布拟合程度越差,拟合优度检验由此 值越大o 经验分布与理论分布拟合程度越差, χ,
得名。 得名。
应用举例
[例 ] 孟德尔遗传定律表明:在纯种红花豌豆与白花豌豆杂交后 所生的子二代豌豆中,红花对白花之比为3 所生的子二代豌豆中,红花对白花之比为3:1。某次种植试验的结果 为;红花豌豆176株,白花豌豆48株。试在α 为;红花豌豆176株,白花豌豆48株。试在α=0.05的显著性水平上, 05的显著性水平上, 对孟德尔定律作拟合优度检验。(参见下表)
2 时,该统计量 服从 χ 分布,它是一种具有已知的并制成表的概率 分布,
分布,因此对给定的显著性水平α,可求得临界值 分布,因此对给定的显著性水平α 较,进而作出检验结论。 进而作出检验结论。
2 2 χα 与 χo比 ,
显而易见, 越接近, 统计值越小, 显而易见,理论频数 fe 与观测频数 fo 越接近, χo 统计值越小,
其中k1,k2,…,kc 是适当选取的常数。仔细观察不 难 发现,L值大,意味着经验分布与理论分布偏离大;L 值小,意味着经验分布与理论分布偏离小。当在某个选定 的水平上,经验分布显著偏离理论分布,那么对象总体具 有某种分布形式的零假设便被否定。
结论: 结论:

2 χo 作为检定Ho成立的检验统计量,理论证明,当n足够大 作为检定H 成立的检验统计量,理论证明,
χ2 检验的另一个重要应用是对交互分类资料的独立性检验,
1、独立性、理论频数及自由度 独立性、
应用此式, 应用此式,不必计算理论频数
计算与 χo 这个检验统计量相 联系的自由度
2
算出 著性水平之后,来对X, 属性无关联的零假设进行检验了 属性无关联的零假设进行检验了。 著性水平之后,来对 ,Y属性无关联的零假设进行检验了。
1.问题的导出
第十一章最后一节,我们将累计频数检验用于经验分布与理 第十一章最后一节, 2 论分布的比较,实际已经提供了拟合优度检验的一种方法。 拟 论分布的比较,实际已经提供了拟合优度检验的一种方法。 χ 合优度检验与累计频数拟合优度检验相对应, 合优度检验与累计频数拟合优度检验相对应,在评估从经验上得 到的频数和在一组特定的理论假设下期望得到的频数之间是否存 在显著差异时,是一种更普遍的检验方法。 在显著差异时,是一种更普遍的检验方法。 现在我们再来看看第七章提到的著名的孟德尔豌豆试验。根 现在我们再来看看第七章提到的著名的孟德尔豌豆试验。 据孟德尔提出的分离规律,纯种豌豆杂交后的子二代出现分化, 据孟德尔提出的分离规律,纯种豌豆杂交后的子二代出现分化, 红花植株与白花植株的数目应为3 红花植株与白花植株的数目应为3∶1。但由于随机性,观察结果与 但由于随机性, 3∶1理论值总有些差距。因此有必要去考察某一大小的差距是否 理论值总有些差距。 已构成否定3 理论的充分根据。 已构成否定3∶l理论的充分根据。这正是我们所讨论的拟合优度 检验的问题。解决这类问题的工具,是卡·皮尔逊在1900年发表的 检验的问题。解决这类问题的工具,是卡·皮尔逊在1900年发表的
c i= 1 i
c
第 i 种个体的数目为fi (i =1,2,…,c),并有 ∑fi =n。我们要据此检 i= 1 验理论分布。 用概率论的语言可以这样说,设对象总体中随机变量X有c种取值。当X的 取值是xi 时,按零假设,其总体分布等于理论分布,即P( xi )=Pi ( i=1, 2,…,c) 例如,就孟德尔的3∶1理论来说,c =2,P(x1)=3/4,P(x2)=1/4。现 在从该总体中随机地抽取一个容量为n的样本,发现其中xi(i=1,2…,c)出 c 现的次数为fi (i =1,2,…,c),并有 ∑fi =n。知道了频数也就知道了频 率,即:xi 出现的频率为
2 2
第三节 方差分析
方差分析,是一种很重要的分析方法, 方差分析,是一种很重要的分析方法,它可以检验两个 以上样本均值之差。方差分析是均值差检验的推广, 以上样本均值之差。方差分析是均值差检验的推广,一般用 于处理自变量是一个(或多个) 于处理自变量是一个(或多个)定类变量和因变量是一个定 距变量之间的关系。 距变量之间的关系。方差分析所包含的假定与均值差检验所 包含的假定差不多,例如正态分布、独立随机样本、 包含的假定差不多,例如正态分布、独立随机样本、等方差 性等,但检验本身却很不相同。 性等,但检验本身却很不相同。方差分析直接涉及的是方差 而不是均值和标准差。同时,比较也不取两种估计量之差, 而不是均值和标准差。同时,比较也不取两种估计量之差, 而是取两种估计量的比率。在两种估计量彼此独立的前提下, 而是取两种估计量的比率。在两种估计量彼此独立的前提下, 具有已知的抽样分布, 两种估计量之比率F具有已知的抽样分布,因而可进行很简单 的检验。 的检验。
2 χ 检验法。 一篇文章中引进的所谓 检验法。
c
∑P
i =1
i
2.拟合优度检验(比率拟合检验)源自文库拟合优度检验(比率拟合检验)
首先把问题表述成一般模式。设一总体包含c种可区别的个体。根据某 种理论或纯粹的假设,第i 种个体出现的概率应为某个已知的数Pi ( i=1 , 2,…,c),有Pi >0,∑P =1。这一组概率(P1 ,P2 ,…,Pc)就构成了我 们的理论分布。现在在该总体中随机地抽取一个容量为n的样本,发现其中
[解]
H0:这三种疗法之间没有差别 H1:这三种疗法之间有差别
由于α 由于α=0.05;自由度k=(c―l)(r ―l)=2×2=4,查 05; ―l)= 2 χo 分布表得临界值: 分布表得临界值: 在零假设下,计算检验统计量,计算过程参见后表。 在零假设下,计算检验统计量,计算过程参见后表。
因此 χo >χα ,故拒绝零假设,即三种疗法之间有 故拒绝零假设, 显著差别。 显著差别。
3.正态拟合检验
[例] 试对下表所给男青年身高分布的数据作正态拟合检验,选取α=0.05。 试对下表所给男青年身高分布的数据作正态拟合检验,选取α 05。
[解]
第二节
无关联性检验
即列联表检验。在上一章,我们曾多次提到过性别与收入高低有无 关联的问题,在实际中类似的问题很多。例如受教育程度与投票行 为有无关联?吸烟与寿命长短有无关联? 为有无关联?吸烟与寿命长短有无关联?家庭小孩多少与收入多少有 无关联?受教育时间长短与收入多少有无关联? 无关联?受教育时间长短与收入多少有无关联?血型与某种性格上的 差异有无关联? 差异有无关联?等等,把这类问题上升到一般,就是在列联表的基 础上考察变量X与Y有无关联。由于列联表一般是按品质标志把两个 变量的频数进行交互分类的,所以: ① χ2 检验法用于对交互分类资料的独立性检验,有其它方法 无法比拟的优点; ②如何求得列联表中的理论频数就成了独立性检验的关键。
1.总变差及其分解
总变差 :在方差分析中记作SST,它表示 Yij 对于总均值 Y 的偏差之
平方和。 平方和。即:
( SST= ∑∑ Yij −Y)
i= j= 1 1
c
ni
2
c
式中: 是第i个样本的容量, 式中: ni是第i个样本的容量, n=
∑n
i= 1
i
为什么会形成总变差这个散布度呢? 为什么会形成总变差这个散布度呢? Yij
[解]
故拒绝H0,即认为总体上性别与收入高低之间不独立,有 即认为总体上性别与收入高低之间不独立, 显著相关关系。 显著相关关系。
[例] 在某种流行病流行的时候,共有120个病人进行了治疗,其中40个 在某种流行病流行的时候,共有120个病人进行了治疗,其中40个 病人按标准剂量服用某种新药,另有40个病人按标准剂量的2 病人按标准剂量服用某种新药,另有40个病人按标准剂量的2倍服用了这种 新药,其余40个病人只按病状治疗(而不是按病因治疗) 新药,其余40个病人只按病状治疗(而不是按病因治疗),治疗结果按迅速痊 愈、缓慢痊愈、未痊愈分为三类,最后交叉分类的情况列于下表,试问这 三种疗法之间有没有差别( 三种疗法之间有没有差别(α取0.05)。 05)。
一是三个样本可能不同, 一是三个样本可能不同,这使全部数据 有三个“中心” 有三个“中心”; 二是随机抽样误差的影响,使数据在每个中心附近有散布。 二是随机抽样误差的影响,使数据在每个中心附近有散布。
总变差分解
可以看出,总变差分解成两部分: 可以看出,总变差分解成两部分: 第一部分是各观测值 Yij 对其所属类别均值 Yi的偏差 组内变差( 的平方和,称为组内变差 Within的平方和,称为组内变差( Within-groups Sum of Squares),记作SS 组内变差反映了数据围绕各“ Squares),记作SSW。组内变差反映了数据围绕各“中 的散布程度, 因随机波动所产生的变异, 心”的散布程度,即反映了 Yij因随机波动所产生的变异, Yij 与自变量因素无关。换言之, 与自变量因素无关。换言之,SSW是自变量因素所没有解 Y 释的 的变异。因此,又称之为残差。 的变异。因此,又称之为残差 残差。 ij 第二部分是组间平方和 Between第二部分是组间平方和 ( Between-groups Sum of Squares),记作SS Squares),记作SSB ,它涉及到诸类别均值 Yi对总均值 的偏差, 中心” Y 的偏差,反映了前表中数据的c个“中心”的散布程 度。
相关文档
最新文档