第7章 拟合优度检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章 拟合优度检验
§7.1拟合优度检验的一般原理 拟合优度检验的一般原理
7.1.1 什么是拟合优度检验
拟合优度检验( 拟合优度检验(goodness of fit test) ) 是用来检验实际观测数与依照某种假设或模型 计算出来的理论数之间的一致性,以便判断该 计算出来的理论数之间的一致性, 假设或模型是否与观测数相配合。拟合优度检 假设或模型是否与观测数相配合。 验也会出现Ⅰ型错误(弃真) 验也会出现Ⅰ型错误(弃真)和Ⅱ型错误(取伪)。 型错误(取伪)
上一张 下一张 主 页 退 出
7.2.2 对二项分布的检验 1.总体参数 ϕ 已知 纯合的黄圆豌豆与绿皱豌豆杂交,F 例7.1 纯合的黄圆豌豆与绿皱豌豆杂交,F1 代自交,第二代分离数目如下: 代自交,第二代分离数目如下:
Y_R_ (黄圆) 黄圆) 315 Y_rr (黄皱) 黄皱) 101 yyR_ yyR_ (绿圆) 绿圆) 108 yyrr (绿皱) 绿皱) 32 556
χ2检验是对一个正态总体的标准差所作的检验。 检验是对一个正态总体的标准差所作的检验。
引例: 引例: 根据遗传学理论,动物的性别比例是1:1。 根据遗传学理论,动物的性别比例是1:1。 统计某羊场一年所产的876只羔羊中 只羔羊中, 统计某羊场一年所产的876只羔羊中,有 公羔428只 母羔448只 1:1的性别 公羔428只,母羔448只。按1:1的性别 比例计算, 母羔均应为438只 比例计算,公、母羔均应为438只。以A 表示实际观察次数, 论次数, 表示实际观察次数,T 表 示 理 论次数, 可将上述情况列成表7 可将上述情况列成表7-1。
从上述结果可以看出,矫正后的χ2比矫正前 从上述结果可以看出, 的低,若未加矫正,就已经接受H0,矫正后的χ2 的低,若未加矫正,就已经接受H 更低,不会影响结论,可以不加矫正。若未矫正 更低,不会影响结论,可以不加矫正。 时χ2> χ2α,一定要计算矫正的χ2。
2.总体参数未知 调查到幼儿园接小孩的家长性别,以10人 调查到幼儿园接小孩的家长性别, 10人 为一组,记录每组女性人数,共得到100组数 为一组,记录每组女性人数,共得到100组数 100 据,列在表7-1中的第2列。 列在表7 中的第2 问女性家长人数是否符合二项分布。 问女性家长人数是否符合二项分布。
零假设: (6)零假设:因为拟合优度χ2检验不是针对 总体参数做检验的, 总体参数做检验的,因而零假设不需提出具体 参数值,只需判断观测数是否符合理论数或某 参数值, 一理论分布。 一理论分布。它的零假设是观测数与理论数相 符合,可形象化记为Ho:O-T=0。 符合,可形象化记为H :O-T=0 (7)按(7.1)或(7.2)式计算出χ2值并 7.1) 7.2) 与χ2临界值做比较,当χ2> χ2a时拒绝Ho; 临界值做比较, 时拒绝H 当χ2<χ2a时接受Ho 时接受H
上一张 下一张 主 页 退 出
该检验包括两种类型: 该检验包括两种类型: I:检验观测数与理论数之间的一致性。 I:检验观测数与理论数之间的一致性。 检验观测数与理论数之间的一致性 II:通过检验观测数与理论数之间的一致性来判断 II:通过检验观测数与理论数之间的一致性来判断 事件之间的独立性。 事件之间的独立性。 这两种类型的问题都是用χ2检验,但这个χ2检 检验, 验与5.1.5所讲的 检验是截然不同的,5.1.5的 验与5.1.5所讲的χ2检验是截然不同的,5.1.5的
总计
问是否符合自由组合(独立分配)率? 问是否符合自由组合(独立分配)
上一张 下一张 主 页
退 出
解 当性状相互独立时,根据孟德尔独立分配律, 当性状相互独立时,根据孟德尔独立分配律, F2代的表型可由二项分布给出,记显性性状出现 代的表型可由二项分布给出,
ϕ 的概率为ϕ, =3/4,因一种表型是由一对等
根据常识,人群中男女性人数应各占一半, 根据常识,人群中男女性人数应各占一半, 但是去幼儿园接小孩的家长中男女性是否各占一 半并不一定。因此二项分布的参数 ϕ 未知, 半并不一定。 未知,需由 样本数据估计。 样本数据估计。
第 列 数=0.59 三 总 ϕ= 10 1) 0(0

上一张 下一张 主 页
=1 k
=n
上例第1类的理论数为: =876×1/2=438。 上例第1类的理论数为:T1=876×1/2=438。 (5)Oi与Ti进行比较,判断Oi与Ti之间总的不符 进行比较,判断O 合程度是否由于机会所造成的。 合程度是否由于机会所造成的。
上一张 下一张 主 页 退 出
为了得到总的不符合程度和相对的不符合 为权求加权值, 程度,以Ti为权求加权值,由此得出的统计量 程度, 为 χ 2:
结论:正常翅与残翅 的分离比不符合3:1 的分离比不符合3
上一张 下一张 主 页
退 出
下面计算矫正后的χ2
正常翅 |O-T|-0.5 |O-T|(|O-T|-0.5)2 |O-T|16.5 272.25 0.926 残翅 16.5 272.25 2.778
( O −T − 0.5) T
2
X2=0.926+2.778=3.704, X2< X20.05,p>0.05 ,p>0.05 结论:可以认为正常翅与残翅的分离比例符合3 结论:可以认为正常翅与残翅的分离比例符合3:1
χ
2 0
}=
α
从而得拒绝域为
χ ≥ χα
2
2
退 出
上一张 下一张 主 页
§7.2拟合优度检验 拟合优度检验
7.2.1 一般程序: 一般程序: (1)按§1.2所介绍的方法对数据进行分组 1.2所介绍的方法对数据进行分组 (对于离散数据,组间距通常是1)。 对于离散数据,组间距通常是1 (2)根据总体分布类型和样本含量n计算理论 根据总体分布类型和样本含量n 数Ti。
表7-1
羔羊性别实际观察次数与理论次数
上一张 下一张 主 页
退 出
7.1.2 拟合优度检验的统计量 H0: 观测数与理论分布一致 拟合优度检验的一般做法是: 拟合优度检验的一般做法是: (1)将观测值分为k种不同类别。 将观测值分为k种不同类别。 (2)共获得n个独立观测值,第i类观测值的数 共获得n个独立观测值, 目为O 目为Oi.
退 出
展开二项式(0.41+0.59) 得到表7 展开二项式(0.41+0.59)10得到表7-1的第 4列理论频率p( χi ),根据Ti=Np( χi ) 列理论频率p( 根据T 求出理论数,列在第5列。 求出理论数,列在第5 第5列的前4个数都小于5,应当合并,合并 列的前4个数都小于5 应当合并, 后的值为6.25。 后的值为6.25。
2 k Oi − Ti (O − T ) 2 =∑ i i χ = ∑ Ti Ti Ti i =1 i =1 k 2
2分布, 分布, 充分大时, 但要求每一组内的理论数都不得小于5 但要求每一组内的理论数都不得小于5,若理论 数小于5时应将相邻组合并,直到等于或大于5 数小于5时应将相邻组合并,直到等于或大于5。
位基因决定的,本例为两对基因的自由组合, 位基因决定的,本例为两对基因的自由组合,故 n=2。根据二项展开式 n=2
9 3 3 1 3 1 4 + 4 = 16 + 16 + 16 + 16
2
可以得出理论分离比为: 可以得出理论分离比为:
Y_R_:Y_rr:yyR_:yyrr=6/16:3/16:3/16:1/16
315 9/16 312.75 2.25 5.0625 0.016
X2=0.016+0.101+0.135+0.218=0.470
上一张 下一张 主 页 退 出
理论数Ti均大于5,不需要合并 理论数T 均大于5 H0:O-T=0,α=0.05 :O-T=0 因为计算理论数时参数 ϕ 3/4是已知的,并 是已知的, =3/4是已知的 不需要用样本数去估计,因此a=0,自由度 不需要用样本数去估计,因此a=0 a= df=4-1=3。 χ23,0.05=7.815, df= 815,
最后的2个数也都小于5 合并后仍小于5 最后的2个数也都小于5,合并后仍小于5,所 以将最后3个数合并,合并后的值为15.17。 以将最后3个数合并,合并后的值为15.17。相应 的观测数也应做类似的合并。合并后的k=6。参 k=6 的观测数也应做类似的合并。合并后的k= 数ϕ 是用样本数据估计的,因而a=1,自由度df 是用样本数据估计的,因而a= a=1 自由度df =6-1-1=4。
上一张 下一张 主 页
退 出

计算过程见以下两表
正常翅 残翅 81 98 -17 289 2.949 总数 392 392 311 294 17 289 0.983
实际观测数 理论数 O-T(未加矫正) T(未加矫正) (O-T)2 (O-T)2/T (O-
X2=0.983+2.949=3.932 H0:O-T=0,a=0.05,df=1,x20.05=3.841, x2> x20.05,p<0.05 :O0.05,
χ2< χ20.05, P>0.05 P>0
结论是接受H 结论是接受H0,符合9:3:3:1的分离 是接受 符合9 由于df= 不需要矫正。 比。由于df=3,不需要矫正。
当df=1时一定要做矫正,否则甚至会得 df= 时一定要做矫正, 到相反结论,见下例。 到相反结论,见下例。 例7.2 用正常翅的野生型果蝇(νg+ νg+ )与 用正常翅的野生型果蝇( 残翅( νg νg )的果蝇杂交,F1 代均表现正常 的果蝇杂交, 残翅( 翅( νg+ νg)。F1 代自交( νg+ νg× νg+ νg ), )。F 代自交( 所得F 代中包括311个正常翅( 所得F2 代中包括311个正常翅( νg+ νg+和 311个正常翅 νg+ νg )和81个残翅( νg νg )。问这一分离 )。问这一分离 81个残翅( 个残翅 比是否符合孟德尔3:1的理论比。 比是否符合孟德尔3 的理论比。
上一张 下一张 主 页 退 出
(3)有时需用样本数据估计总体参数。记所 有时需用样本数据估计总体参数。 估计参数的个数为a 估计参数的个数为a。 (4)分别合并两个尾区的理论数,使之不小 分别合并两个尾区的理论数, 于5,合并后的组数记为k。 合并后的组数记为k。 (5)相应于(2)的自由度为k-1,相应于 相应于( 的自由度为k-1 k- (3)的自由度为k-1-a。 的自由度为k- k-1
将以上数据列成下表
Y_R_
实际观测数 理论频率 理论数T 理论数T O-T (O-T)2 (O(O −T)2 T
Y_rr
101 3/16 104.25 -3.25 10.5625 0.101
yyR_ yyR_ 108 3/16 104.25 3.75 14.0625 0.135
yyrr 32 1/16 34.75 -2.75 7.5625 0.218
当df=1时,(7.1)式应做连续性矫正, df=1时,(7.1)式应做连续性矫正, 矫正的χ2为
x =∑
2 i =1 k
( O −T
i
i
− 0.5
)
2
Ti
(7.2) (7.3) 7.3)
χ2的自由度为df=k-1-a 的自由度为df=k拒绝域的确定:P{拒绝 拒绝H 为真} 拒绝域的确定:P{拒绝H0|H0为真} =P{χ2 >
上一张 下一张 主 页
退 出
• 若总体参数已知,a=0,自由度df=k-1, 若总体参数已知,a= ,a=0 自由度df= • 若总体参数未知,需由样本数据做点估计,根 若总体参数未知,需由样本数据做点估计, 据点估计得出Ti,自由度df=k-1-a,其中 自由度df=k据点估计得出T a为需要由样本估计的参数个数。 为需要由样本估计的参数个数。
∑O = n
i i=1
k
(3)相互独立自由组合的情况下, (3)相互独立自由组合的情况下,第i类的概率 相互独立自由组合的情况下 为Pi, ∑pi =1 上例中,取得第1类的概率为p1= ,上例中,取得第1类的概率为p
i= 1 k
1/2 。
∑ (4)第 类的期望数即理论数为T (4)第i类的期望数即理论数为Ti,Ti=npi, Τι ι
相关文档
最新文档