生物统计学第五章 卡方检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三、独立性检验
原理:通过观测数与理论数之间的一致性判断事件 之间的独立性,即判断两个事件是否是独立事件或 处理间差异是否显著。
方法:将数据列成列联表,也称列联表卡方检验。
一、2×2列联表卡方检验
(一)原理:例5 青霉素可以注射,也可以口服,每天给感冒患者 口服或注射 80 万单位的青霉素,调查两种给药方 式的药效,结果如下表所示,试分析青霉素的两 种给药方式的药用效果是否有差异?
例4
表型
观察频数( Oi ) 理论频数(Ei)
卡方值
抗性植株
敏感植株 总计
14
6 20
10
10 20
1.225
1.225 2.45
题解
按照孟德尔分离定律, Ss 与 ss 的杂交后代代表型的比例应 该为1:1,即10个抗性植株和10个敏感植株
(1)提出假设 H0:O-E=0;HA: O-E≠0 ( 2)计算理论值和卡方值:理论值就是根据孟德尔遗传定 律计算得到的后代分离理论数量
两种青霉素的给药方式的药用效果调查表
给药方式 有效(A) 无效(Ā) 口服(B) 注射(B ) 总计 58 64 122 40 31 71 总数 98 95 193 有效率 59.20% 67.40% ——
一般考虑样本中各处理之间是否有关联,处
理间是否是独立事件
检验时以各处理间无关联或者各处理是独立 事件作为零假设
③根据正态分布概率的计算关系,查附表 1,计算各组组界的 理论频率
(4)计算各组的理论频数为Ei=npi,填入下表
高粱“三尺三”株高观察频数和理论频数表
组号 1 2 3 4 5 6 7 8 9 组界/cm 140.5~143.5 143.5~146.5 146.5~149.5 149.5~152.5 152.5~155.5 155.5~158.5 158.5~161.5 161.5~164.5 164.5~167.5 观察频数(Oi) 1 2 4 13 23 28 15 10 3
10 ——
167.5~170.5 ——
1 100
0.01 1.00
0.009 1.00
0.9 100
(5)Oi与Ei进行比较,判断两者之间的不符合度,检验程序 如下:①零假设:H0:O-E=0;HA: O-E≠0 ②检验统计量:
(Oi Ei) 2 Ei i 1
k 2
高粱“三尺三”株高观察频数和理论频数表(合并后) 组号 1 ~3 组界/cm 140.5~149.5 观察频数(Oi) 7 观察频率 (Pi) 0.07 理论频率 (P ) 0.093 理论频数 (Ei) 9.30 卡方值 0.569
( 3)检验统计量的计算:本例是两组数据,没有估计参数, k=2,a=0,df=1,样本统计量需要连续矫正
2
i 1
k
O
i E i 0.5
2
Ei
2.45
(4)拒绝域的建立
(5)结论:符合孟德尔分离定律
适合性检验的自动程序:P=Chitest(Oi,Ei): Oi表示观察 值区域;Ei表示理论值区域;用于适合性检验
Ti
6.1638
(5)自由度df=k-1-a=8-1-1=6
(6)拒绝域的建立
(7)接受H0,服从正态分布
(三)总体参数未知的二项分布检验
例3 检验烟草种子的发芽率,每个培养皿放10粒
种子,共 100 个培养皿,实验结果如下表所示。 1000 粒种子有 590 粒发芽,检验发芽的种子数 是否符合二项分布。
i 1
Ei
2 2 ③建立拒绝域 2 df , 0.05 3, 0.05 7.815
④结论:高粱株高服从正态分布
(二)总体参数已知的正态性检验
袋标准重量为500g,调查了100袋,结果如下表所示。 袋装食盐重量调查表
例2 自动包装的袋装食盐的重量是否服从正态分布?已知每
500
512
515
542
522
514
488
497
475
487
497
493 498 502 494 499 490
500
491 494 496 518 484 496
518
506 482 494 503 517 491
508
487 482 494 503 517 491
530
486 512 488 503 506 490
1、卡方检验的原理
应用理论值(expected value,E)与观测
值(observed value,O)之间的偏离程度 来决定卡方值的大小。
2、卡方检验的程序
将观测值分为k组 计算n次观测值中每组的观测频数,记为Oi 根据变量的分布规律或概率运算法则,计算每组的 理论频率为Pi
烟草种子发芽率的观察频数
每皿发芽种子数Xi 0 观察频数(Oi) 0
1
2 3 4 5 6 7 8 9
0
0ຫໍສະໝຸດ Baidu4 14 22 27 19 9 5
10
总计
0
100
烟草种子发芽率的观察频数和理论频数表
每皿发芽种子数Xi 观察频数(Oi) OiXi 0 0 0 理论频率(P) 理论频数(Ei) 0.0001 卡方值
158
166
154
154
157
167
157
159
170
158
题解
(1)将观测值分为 k组;按照分组原理分成 10组,制成频数 分布表
高粱“三尺三”株高频数分布表
组号 1 组限/cm 141~143 组界/cm 140.5~143.5 中值 142 频数 1 频率 0.01
2
3 4 5 6 7 8 9 10 ——
观察频率 (Pi)
0.01 0.02 0.04 0.13 0.23 0.28 0.15 0.10 0.03
理论频率 (P)
0.005 0.022 0.066 0.142 0.216 0.232 0.176 0.094 0.035
理论频数 (Ei)
0.5 2.2 6.6 14.2 21.6 23.2 17.6 9.4 3.5
不得小于 5 ,若小于 5 ,将尾区相邻的组合并,直到合并后
的组的Ei≥5,合并后再计算卡方值。
(Oi Ei) 2 df Ei i 1
k
2
c、建立拒绝域 d、作出统计学结论
二、适合性检验(goodness of fit)
用来检验观测数与依照某种假设或分布模型 计算得到的理论数之间一致性的一种统计假 设检验,以便判断该假设或模型是否与实际 观测数相吻合。
k
(3)第i组的理论频率为Pi,其计算方法如下:
s 4.98cm
i 1
① 先计算样本平均数和标准差 x 156.1cm
②假设高粱“三尺三”符合正态分布 , 2 。根据参数估计原
用s/c4=4.98/0.9975=4.99估计(样本标准 理, 用 x 估计 ,
差分布的矩系数C4、C5表)。即假设高粱的株高x服从正态 分布 156 .1,4.992
14.2
21.6 23.2 17.6 13.8 100
0.101
0.091 0.993 0.384 0.003 2.141
卡方值的自由度 df=k-1-a ,其中 k 为合并后的组数, a 为需要由样估计的总体参数的个数;合并后的组数
k=6,由样本估计了总体的平均数和标准差,故a=2,
df=3,不用校正,计算卡方值 k O E 2 i 2 i 2.141
511
530
506
508
493
492
522
486
524
492
492
536
478
题解
(1)零假设:H0:O-E=0;备择假设HA: O-E≠0 (2)分组:样本容量n=100,取组数m=10,组距为8g (3)计算理论频率pi和理论频数Ei
(4)检验统计量的计算
2 i 1
k
Oi Ti 2
在一定自由度下和显著水平下进行卡方检验
145
148 151 154 157 160 163 166 169 ——
2
4 13 23 28 15 10 3 1 100
0.02
0.04 0.13 0.23 0.28 0.15 0.10 0.03 0.01 1
(2)获得的n次观测值中,第i组的观测频数记为Oi,
Oi n, n 100
pi C p (1 p)
k n k
n k
2 i 1
k
Oi Ei 2
Ei
1.539
4、拒绝域的建立
5、结论:种子发芽率服从二项分布
(四)总体参数已知的二项分布检验
水稻植株中对白叶枯病有抗性的纯合体的基因型为SS, 对白叶枯病敏感的纯合体为ss,杂合体的基因型为Ss。 其中抗性为显性性状,敏感为隐性性状,将 Ss与 ss进行 杂交,20个后代中有14株抗性植株,6株敏感植株。问后 代的分离比是否符合孟德尔分离定律?
1
2 3 4 5 6 7 8 9
0
0 4 14 22 27 19 9 5
0
0 12 56 110 162 133 72 45
0.0019
0.0125 0.0480 0.1209 0.2087 0.2503 0.2058 0.1111 0.0355
6.25
0.81
12.09 20.87 25.03 20.58 15.71 100
4
5 6 7 8~10 总计
149.5~152.5
152.5~155.5 155.5~158.5 158.5~161.5 161.5~164.5 ——
13
23 28 15 14 100
0.13
0.23 0.28 0.15 0.14 1.00
0.142
0.216 0.232 0.176 0.138 1.00
0.302 0.061 0.155 0.121 0.09 1.539
10
总计
0
100
0
590
0.0051
1
题解
1、提出假设 H0:O-E=0;HA: O-E≠0 2、总体参数未知,需要由样本比例估计P=590/1000=0.59 3、计算理论值和卡方值,理论频率Pi按照二项分布公式计 算——n=10,0≤k ≤10,理论数Ei=NPi
计算每组的理论频数Ei 检验 Oi 与 Ei 的差异显著性,判断两者之间的不符合 度
a、零假设:H0:O-E=0;备择假设: O-E≠0(这里检验的 不是参数,而是判断观测数是否符合理论分布)
b 、检验统计量:这里要求 n 充分的大,当 n≥50 时(最好
≥ 100 ),所定义的检验统计量近似服从卡方分布, Ei=nPi
508
491 527 505 485 500 520
500
505 522 472 529 503 512
479
478 470 482 476 527 482
506
492 493 506 496 500 488
504
512 548 478 500 499 509
488
494
518
500
516
511
516
第五章 卡方检验
教学目的要求
掌握:卡方检验的适用条件和计算公式;适 合性检验的基本原理和方法;独立性检验的 原理和方法。
熟悉:适合性检验和独立性检验的应用。
了解:适合性检验在遗传学及其他生物学科 中上的应用。
讲授内容
一、卡方检验的原理和方法 二、适合性检验 三、独立性检验
一、卡方检验的原理和方法
144~146
147~149 150~152 153~155 156~158 159~161 162~164 165~167 168~170 总计
143.5~146.5
146.5~149.5 149.5~152.5 152.5~155.5 155.5~158.5 158.5~161.5 161.5~164.5 164.5~167.5 167.5~170.5 ——
(一)总体参数未知的正态性检验
例1 高粱“三尺三”株高测定结果(cm)
155 159 150 159 157 161 158 148 164 153 158 150 161 149 159 155 163 155 159 153 160 156 153 161 153 156 156 155 153 156 141 153 156 151 163 158 150 144 160 156 155 162 157 154 164 159 156 155 145 162 151 156 158 148 157 150 160 156 154 152 153 152 164 159 157 151 153 152 154 147 163 154 151 160 157 158 162 157 158 158 157 152 150 155 161 155 162 155 154 165