第七章-拟合优度检验 (1)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章 拟合优度检验
教学目的要求

掌握:拟优合度检验的基本原理和步骤,不 同资料类型分布的拟合度检验,独立性测验 方法。 熟悉:拟合优度检验和独立性检验的应用。 了解:拟合优度检验在遗传学及其他生物学 科中上的应用。

讲授内容

一、拟合优度检验的一般原理 二、拟合优度检验 三、独立性检验
(O i Ti) Ti i 1
2 k
2
4、确定自由度: 2×2列联表的自由度df=(r-1)(c-1),r是 列联表的行数, c 是列联表的列数,若自由度 =1,则 应做连续性校正,校正后的统计量为:

2 df i 1
k
(O i Ti 0.5) Ti
2
1.061
每皿发芽种子数Xi 观察频数(Oi) OiXi
0 1 0 0 0 0
理论频率(P) 理论频数(Ti)
0.0001 0.0019
卡方值
2
3 4 5 6 7 8 9 10 总计
0
4 14 22 27 19 9 5 0 100
0
12 56 110 162 133 72 45 0 590
0.0125
0.0480 0.1209 0.2087 0.2503 0.2058 0.1111 0.0355 0.0051 1
6.25
0.81
12.09 20.87 25.03 20.58 15.71 100
0.302 0.061 0.155 0.121 0.09 1.539
题解

1、提出假设 H0:O-T=0;HA: O-T≠0 2、总体参数未知,需要由样本比例估计P=590/1000=0.59 3、计算理论值和卡方值,理论频率Pi按照二项分布公式计 算——n=10,0≤k ≤10,理论数Ti=NPi
一、拟合优度检验的一般原理

1、拟合优度检验(goodness of fit)定义:
用来检验观测数与依照某种假设或分布模型计算 得到的理论数之间一致性的一种统计假设检验,以 便判断该假设或模型是否与实际观测数相吻合。
吻合度检验
检验观测数与理论数之间的一致性。
拟 合 优 度 检 验
独立性检验
通过检验观测数与理论数之间的一致性
二、拟合优度检验

(一)总体参数未知的正态性检验
例1 高粱“三尺三”株高测定结果(cm)
155 159 150 159 157 161 158 148 164 153 158 150 161 149 159 155 163 155 159 153 160 156 153 161 153 156 156 155 153 156 141 153 156 151 163 158 150 144 160 156 155 162 157 154 164 159 156 155 145 162 151 156 158 148 157 150 160 156 154 152 153 152 164 159 157 151 153 152 154 147 163 154 151 160 157 158 162 157 158 158 157 152 150 155 161 155 162 155 154 165

在一定自由度下和显著水平下进行卡方检验
独立检验(independence test)

(二)检验程序
1、提出假设 H0:O-T=0;HA: O-T≠0
2 、根据概率的乘法法则计算理论数:理论数的计算方法 —

Tij
i行总数 j列总数
总数
两种青霉素的给药方式的药用效果调查的观测值和理论值
158
166
154
154
157
167
157
159
170
158
题解
(1)将观测值分为 k组;按照分组原理分成 10 组,制成频数 分布表
高粱“三尺三”株高频数分布表
组号 1 组限/cm 141~143 组界/cm 140.5~143.5 中值 142 频数 1 频率 0.01
2
3 4 5 6 7 8 9 10 ——
144~146
147~149 150~152 153~155 156~158 159~161 162~164 165~167 168~170 总计
143.5~146.5
146.5~149.5 149.5~152.5 152.5~155.5 155.5~158.5 158.5~161.5 161.5~164.5 164.5~167.5 167.5~170.5 ——
145
148 151 154 157 160 163 166 169 ——
2
4 13 23 28 15 10 3 1 100
0.02
0.04 0.13 0.23 0.28 0.15 0.10 0.03 0.01 1

(2)获得的n次观测值中,第i组的观测频数记为Oi,
Oi n, n 100
三、独立性检验

原理:通过观测数与理论数之间的一致性判断事件 之间的独立性,即判断两个事件是否是独立事件或 处理间差异是否显著。

方法:将数据列成列联表,也称列联表卡方检验。
一、2×2列联表卡方检验

(一)原理:例5 青霉素可以注射,也可以口服,每天给感冒患者 口服或注射 80 万单位的青霉素,调查两种给药方 式的药效,结果如下表所示,试分析青霉素的两种 给药方式的药用效果是否有差异?
观察频率 (Pi)
0.01 0.02 0.04 0.13 0.23 0.28 0.15 0.10 0.03 0.01 1.00
理论频率 (P)
0.005 0.022 0.066 0.142 0.216 0.232 0.176 0.094 0.035 0.009 1.00
理论频数 (Ti)
0.5 2.2 6.6 14.2 21.6 23.2 17.6 9.4 3.5 0.9 100
例2 自动包装的袋装食盐的重量是否服从正态分布?已知每
题解
(1)零假设:H0:O-T=0;备择假设HA: O-T≠0 (2)分组:样本容量n=100,取组数m=10,组距为8g (3)计算理论频率pi和理论频数Ti
(4)检验统计量的计算

2 i 1
k
Oi Ti 2
Ti
6.1638
来判断事件之间的独立性。
2、拟合优度检验的程序

将观测值分为k组 计算n次观测值中每组的观测频数,记为Oi 根据变量的分布规律或概率运算法则,计算每组的 理论频率为Pi

计算每组的理论频数Ti 检验 Oi 与 Ti 的差异显著性,判断两者之间的不符合 度

a、零假设:H0:O-T=0;备择假设: O-T≠0(这里检验的 不是参数,而是判断观测数是否符合理论分布)
2
i 1 k
Oi Ti 2
Ti
2.141

2 2 ③建立拒绝域 2 df , 0.05 3, 0.05 7.815
④结论:高粱株高服从正态分布

(二)总体参数已知的正态性检验
袋标准重量为500g,调查了100袋,结果如下表所示。 袋装食盐重量调查表
(5)自由度df=k-1-a=8-1-1=6
(6)拒绝域的建立
(7)接受H0,服从正态分布

(三)总体参数未知的二项分布检验
例3 检验烟草种子的发芽率,每个培养皿放10粒
种子,共 100 个培养皿,实验结果如下表所示。 1000 粒种子有 590 粒发芽,检验发芽的种子数 是否符合二项分布。
烟草种子发芽率的观察频数和理论频数表
4
5 6 7 8~10 总计
149.5~152.5
152.5~155.5 155.5~158.5 158.5~161.5 161.5~164.5 ——
13
23 28 15 14 100
0.13
0.23 0.28 0.15 0.14 1.00
0.142
0.216 0.232 0.176 0.138 1.00
14.2
21.6 23.2 17.6 13.8 100
0.101
0.091 0.993 0.384 0.003 2.141

卡方值的自由度df=k-1-a,其中k为合并后的组数,a为 需要由样估计的总体参数的个数;合并后的组数k=6,
由样本估计了总体的平均数和标准差,故a=2,df=3,
不用校正,计算卡方值
pi C p (1 p)
k n k

n k

2 i 1
k
Oi Ti 2
Ti
1.539
4、拒绝域的建立
5、结论:种子发芽率服从二项分布

(四)总体参数已知的二项分布检验
水稻植株中对白叶枯病有抗性的纯合体的基因型为SS, 对白叶枯病敏感的纯合体为 ss ,杂合体的基因型为 Ss 。 其中抗性为显性性状,敏感为隐性性状,将 Ss 与 ss 进行 杂交,20个后代中有14株抗性植株,6株敏感植株。问后 代的分离比是否符合孟德尔分离定律?
给药方式 有效(A) O1=58 T1=98×122/193=61.95 无效(Ā) O2=40 T2=98×71/193=36.05 总数
口服(B)
98
注射(B) 总计
O3=64 T1=95×122/193=60.05
122
O4=31 T1=95×71/193=34.95
71
95 193
3、检验统计量:

b 、检验统计量:这里要求 n 充分的大,当 n≥50 时(最好
≥100),所定义的检验统计量近似服从卡方分布,Ti=nPi不
得小于 5 ,若小于 5 ,将尾区相邻的组合并,直到合并后的
组的Ti≥5,合并后再计算卡方值。
2 df
(O i Ti) Ti i 1
k
2

c、建立拒绝域 d、作出统计学结论
i 1
k

(3)第i组的理论频率为Pi,其计算方法如下:
y 156.1cm s 4.98cm
① 先计算样本平均数和标准差
②假设高粱“三尺三”符合正态分布 , 2 。根据参数估
计原理, 用 估计 , 用s/c4=4.98/0.9975=4.99估计。
即假设高粱的株高y服从正态分布 156.1, 4.992


③根据正态分布概率的计算关系,查附表3 ,计算各组组界 的理论频率
(4)计算各组的理论频数为Ti=npi,填入下表
高粱“三尺三”株高观察频数和理论频数表
组号 1 2 3 4 5 6 7 8 9 10 —— 组界/cm 140.5~143.5 143.5~146.5 146.5~149.5 149.5~152.5 152.5~155.5 155.5~158.5 158.5~161.5 161.5~164.5 164.5~167.5 167.5~170.5 —— 观察频数(Oi) 1 2 4 13 23 28 15 10 3 1 100
例4
表型
观察频数( Oi 理论频数(Ti) Oi)
卡方值
抗性植株
敏感植株 总计
14
6 20
10
10 20
1.225
1.225 2.45
题解

按照孟德尔分离定律,Ss与ss的杂交后代代表型的比例应该 为1:1,即10个抗性植株和10个敏感植株

(1)提出假设 H0:O-T=0;HA: O-T≠0 ( 2)计算理论值和卡方值:理论值就是根据孟德尔遗传定 律计算得到的后代分离理论数量
(5)Oi与Ti进行比较,判断两者之间的不符合度,检验程序 如下:①零假设:H0:O-T=0;HA: O-T≠0 ②检验统计量:
(O i Ti) 2 Ti i 1
k 2
高粱“三尺三”株高观察频数和理论频数表(合并后) 组号 1 ~3 组界/cm 140.5~149.5 观察频数(Oi) 7 观察频率 (Pi) 0.07 理论频率 (P ) 0.093 理论频数 (Ti) 9.30 卡方值 0.569

( 3)检验统计量的计算:本例是两组数据,没有估计参数, k=2,a=0,df=1,样本统计量需要连续矫正
2
i 1
k
O
i
Ti 0.5 Ti
2
2.45

(4)拒绝域的建立
(5)结论:符合孟德尔分离定律
拟合优度检验的自动程序:P=Chitest(Oi,Ti): Oi表示观 察值区域;Ti表示理论值区域;用于拟合优度卡方检验
两种青霉素的给药方式的药用效果调查表
给药方式 有效(A) 无效(Ā) 口服(B) 注射(B ) 总计 58 64 122 40 31 71 总数 98 95 193 有效率 59.20% 67.40% ——

一般考虑样本中各处理之间是否有关联,处
理间是否是独立事件

检验时以各处理间无关联或者各处理是独立 事件作为零假设
相关文档
最新文档