拟合优度检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

设有N=9的2×2列联表,可能有以下四种情况:
A
0 3 3 4 2 6 4 5 9 1 2 3
B
3 3 6 4 5 9 2 1 3
C
2 4 6 4 5 9 3 0 3
D
1 5 6 4 5 9
4 3 C C 由9分解为4和5的组合有 9 种;由9分解为3和6的组合有 9 种。因此,在行
结论:接受零假设。
例 用正常翅(vg+vg+)与残翅(vgvg)果蝇杂交,F1表现正常。用F1自交所 得 F2 中包括311 个正常翅( vg+vg+ 和 vg+vg ))和81 个残翅。问这一分离比是 否符合孟德尔3:1的理论比。 解:由于df = 1,故应做连续性矫正。计算结果如下:
结论:可以认为分离比符合3:1。
df = ( 2 − 1)( 2 − 1) = 1
H 0 : O − T = 0, α = 0.05,
2 2 χ1,0.05 = 3.841 , χ 2 < χ 0.05 。接受零假设,即不同给药方式的效果没有显著不同。
例 用不同计量的γ射线照射大麦。将处理后的种子做根尖压片,观察染色体畸变情
况,所产生的结果列入下表中,现问不同处理方式所引起的畸变的差异是否显著。
第七章 拟合优度检验
§7.1 拟合优度检验的一般原理
7.1.1 拟合优度的概念
拟合优度检验(goodness of fit test)是用于检验实际观测数与 依照某种假设或模型计算出来的理论数之间的一致性,以便判 断该假设或模型是否与观测数相配合。该检验也会犯I型或II型 错误。 该检验包括两种类型: 其一,检验观测数与理论数间的一致性。 其二,通过检验观测数与理论数间的一致性来判断事件之间的 2 χ 独立性。这两种问题都用 检验。
2. 总体参数未知 例 调查到幼儿园接小孩的家长性别,以10人为一组,记录每组女性的人数,共得到
100组,列入下表的第2列中。问女性家长人数是否符合二项分布。 解:人群中男女比率各 占一半,但去接小孩的 家长中是否也是这个比 率就不一定。因此二项 分布的参数ϕ 是未知 的,需从样本数据估 计。
ˆ= ϕ
590 = 0.59 100 (10 )
展开二项式 (0.41+0.59)10得到理论频率,根据求出理论数。由于理论数的前4个和最后2 个都小于5,故将前4个和后3个数合并。相应的观测数也做类似的合并。合并后的k = 6, 2 此时a = 1,df = 6-1-1 = 4。查附表 χ4, 0.05 = 9.488 ,χ 2 < χ 2 ,接受 H 0 : O − T = 0 。
将以上数据列成下表:
Y_R_ 实际观测数O 理论频率p 理论数T O-T (O-T) 2/ T 315 9/16 312.75 2.25 0.016
Y_rr 101 3/16 104.25 -3.25 0.101
yyR_ 108 3/16 104.25 3.75 0.135
yyrr 32 1/16 34.75 -2.75 0.218
4 4, 0.05
7.2.3 对正态性的检验
对于其它类型的分布,如泊松分布,Γ 分布等都可以用类似的方法做检验
§7.3 独立性检验
7.3.1 列联表检验
χ 检验是另外一种类型的检验,可以用于检 列联表(contingency table) 验事件间的独立性或检验处理间的差异显著性。
2
例 口服和注射两种不同给药方式所产生的结果列
i =1
k
Oi与Ti进行比较,判断Oi与Ti之间总的不符合程度是否由于机会造成的。
何,恒定有 ∑ ( Oi − Ti ) = 0 ,于是采取类似计算方差的方法求 ( Oi − Ti ) 的平方和 合程度。为了得到相对不符合程度而采用 ⎛ Oi − Ti ⎜ ⎝ Ti
k ⎛ Oi − Ti ⎞ Ti ⎜ ⎟ =∑ ∑ T i =1 i =1 i ⎝ ⎠ k 2
i =1
为了得到总的不符合程度,将k个Oi -Ti累加。很明显,不管它们之间符合的程度如
∑ (O − T )
i i
2
。这样虽然解决了总的不符合程度为零的问题,但却得不出相对的不符
⎞ 以 T 为权求加权值, i ⎟ ⎠ 当n充分大时,该统计量 2 ( Oi − Ti ) 近似服从分布 χ 2,但要求 Ti 每一组内的理论数都不小 于5,否则应将相临组合 并,直到等于或大于5。 2
H 0 : O − T = 0, α = 0.05, df = ( 3 − 1)( 2 − 1) = 2 2 2 χ 2,0.05 = 5.991 , χ 2 > χ 0.05 。 结论:拒绝 H 0 : O − T = 0
7.3.2 2×2列联表的精确检验法
2 χ 2×2列联表的 检验的理论数不得小于5,当小于5时就需要用精确检验法。
给药 方式 口服 (B ) 注射 (B ) 总数
ຫໍສະໝຸດ Baidu
有效 (A ) 58 64 122
无效 ( A) 40 31 71
总 数 98 95 193
有效率 (%) 59.2 67.4
2 χ 2×2列联表 检验的步骤
(1)零假设 H 0 : O − T = 0 。即认为有效或无效与给药方式并无关联。在 无关联的前提下,实际观测数与理论数之间无差异。 (2)根据概率乘法法则,若事件A与事件B是相互独立的(或无关联), 则它们同时出现的概率等于它们分别出现时的概率的乘积P ( AB ) = P ( A) P ( B ) 。反之亦然。若事件A和事件B同时出现的概率不等于它们分别出现时的概 率的乘积,则这两个事件间是有关联的。 在零假设下,本例中口服与有效同时出现的理论频率为
入下表中,现要求不同给药方式的效果有无显著差异。
给药方式和给药效果的2×2列联表
表中既无理论数,也无理 论或分布可作为计算理论数的 依据。对这类问题的处理方 法:考虑样本中各处理间是否 关联,根据无关联假设计算理 论数,在一定自由度下以显著 水平α 做推断,若拒绝无关联 假设,则说明不同处理间有关 联,不同处理产生不同效果 (处理之间的差异显著)。该 检验亦称独立性检验 (independence test)。
2 2 2 χ (3)计算 值。若χ > χα ,则观测数与理论数不一致,拒绝 H 0。说明给
同样,可以求其它三种情况的理论数。
药方式和效果间是有关联的,不同的给药方式产生不同的效果。 (4)确定自由度,2×2列联表的自由度是 (r-1) (c-1) 。因为每一行(列)的 各理论数受该行(列)总数的约束,所以总的自由度只有(r-1) (c-1)。
p ( xi ) = P ( AB ) = P ( A ) P ( B ) = ⎛ ⎜
其理论数
98 ⎞ ⎛ 122 ⎞ ⎟⎜ ⎟ ⎝ 193 ⎠ ⎝ 193 ⎠
⎛ 98 ⎞ ⎛ 122 ⎞ Ti = Np ( xi ) = (193) ⎜ ⎟⎜ ⎟ = 61.15 193 193 ⎝ ⎠⎝ ⎠
与拟合优度检 验一样,2×2 列联表的检验 的理论数不得 小于5
问是否符合自由组合定律? 解:当性状间相互独立时,F2代的表型可由二项分布给出,其中 ϕ =3/4,n = 2 。根据二项展开式
9 3 3 1 ⎛3 1⎞ + = + + + ⎜ ⎟ ⎝ 4 4 ⎠ 16 16 16 16
9 3 3 1 : : : 16 16 16 16
2
可以得出理论分离比为:
Y R : Y rr : yyR : yyrr =
计算上例的χ 值并做推断。先计算各理论数Ti。
2
给药方式 口服
(B )
有效( A )
O1=58 ( 98)(122 ) = 61.95 T1 = 193 O3=64 ( 95)(122 ) = 60.05 T3 = 193
无效( A )
总数
T2
( 98)( 71) = 36.5 =
193
O4=31 ( 95)( 71)
这里的 χ 2检验与前面讲的变异显著 2 性 χ 检验是不同的,后者是对一个 正态总体的方差所做的检验。
7.1.1 拟合优度检验的统计量
拟合优度检验的一般做法:
1. 2. 3. 4. 将观测值分为 k 种不同类别。 共获取n个独立观测值,第 i类观测值的数目为Oi, ∑ Oi = n 。 k k i =1 ∑ pi = 1 。第i类的期望数或理论数为npi=Ti,∑ Ti = n 。 第i类的概率为pi,
O2=40
98
注射
(B )
T4 =
193
= 34.95
95
总数
4
122
71
2
193
Tij=i行总数×j列总数/ 总数。得T1后,N列- T1 = T3,N行- T1 = T2。 r×c列联表
χ 2 = ∑ Ti ⎜
i =1
⎛ Oi − Ti ⎞ ⎟ = 0.252 + 0.433 + 0.260 + 0.446 = 1.391 ⎝ Ti ⎠
列联表中的数据可以用以下符号表示: a c a+c b d b+d a+b c+d N
在行总数和列总数及N都保持不变的情况下,a、b、c、d的各种组合 的概率可以由下式给出:
P=
( a + b )!( c + d )!( a + c )!( d + b )!
N !a !b !c !d !
零假设:不存在处理效应。若P > α 则接受零假设;反之则拒绝。 若a、b、c、d中的任何一个出现0时,则直接用该概率值作为判断标 准。若无,则应当将这个组合的概率以及从最接近于0的哪个观测值到 0的各种组合的概率都计入。这样才能构成一个尾区的概率。
2 6. 零假设:由于拟合优度 χ 检验不是针对总体参数,因此零假设
不需具体提出数值,只需判断观测值是否符合理论数或某一理论 分布,即 H 0 : O − T = 0。
2 2 χ > χ α 时拒绝 H 。 7. 计算 χ 值并与 χ 临界值做比较,当 0
2 2
7.2.2 对二项分布的检验
1. 总体参数 ϕ 已知 例 黄圆(YR)豌豆与绿皱(yr)豌豆杂交,第二代分离数目如下: Y_R_ 315 Y_rr 101 yyR_ 108 yyrr 32 合计 556
χ 2= 0.016+0.101+0.135+0.218=0.47
H 0 : O − T = 0, α = 0.05 理论数 T i 均大于5,故不需合并。
由于计算理论数时参数 ϕ =3/4是已知的,并不需要用样本数去估计,因此 a = 0,df = 4-1 = 3,不必矫正。
2 , χ2 < χ2 χ3, = 7.815 0.05 0.05
总数 3570 3616 3814 总数 3570 3616 3814 11000
解:将计算出的理论数列入下表:
⎛ Oi − Ti ⎞ 2 χ = ∑ Ti ⎜ ⎟ = 5.919 + 0.405 + 32.803 + 2.247 + 10.393 + 0.712 = 52.479 i =1 ⎝ Ti ⎠
表 不同计量的γ射线照射大麦畸变结果列联表
处理方式 40Kr+N2 40Kr 25Kr 处理方式 40Kr+N2 40Kr 25Kr 总数
6 2
有桥细胞数 192 319 194 有桥细胞数 O1=192 T1=228.8 O3=319 T3=231.8 O5=194 T5=244.4 705
无桥细胞数 3378 3297 3620 无桥细胞数 O2=3378 T2=3341.2 O4=3297 T4=3384.2 O6=3620 T6=3569.6 10295
§7.2 拟合优度检验
7.2.1 拟合优度检验的一般步骤
1. 对数据进行分组(离散数据的组间距通常为1)。 2. 根据总体分布类型和样本含量n计算 Ti 。 3. 有时要用样本数据估计总体参数(如由样本频率估计二项分布 参数 ϕ )。记所估计参数的个数为a。 4. 合并两个尾区的理论数,使之不小于5,合并后的组数记为k。 5. 相应于2的自由度为k-1,相应于3的自由度为k-1-a。
2
该式定义的统计量称为 χ 2 ,
χ =∑
2 i =1
k
( Oi − Ti )
Ti
当df =1时,前式应做连续性矫正,矫正的 χ 为
2
χ =∑
2 i =1
k
( O −T
i
i
− 0.5 )
2

Ti
df = k − 1 − a
若上面二式中的 Ti 已经给定或计算 Ti 时的总体参数已知时,它的自由度df = k-1,即a = 0。若总体参数没有给出时则需由样本数据做点估计,由点估 计得出 Ti 。此时df = k-1-a,其中a为需要由样本估计的参数个数。
相关文档
最新文档