第五章拟合优度和独立性检验

合集下载

生物统计学—卡方检验

独立性检验
步骤： 1. 提出无效假设，即认为所观测的各属性之间
没有关联 2. 规定显著性水平 3. 根据无效假设计算出理论数 4. 根据规定的显著水平和自由度计算出卡方值，
再和计算的卡方值进行比较。如果接受假设，则说明因子之间无相关联，
是相互独立的如果拒绝假设，则说明因子之间的关联是显
著的，不独立
一、2X2列联表的独立性检验
设A、B是一个随机试验中的两个事件，其中A可能
出现r1、r2个结果，B可能出现c1、c2个结果，两因子相互作用形成4个数，分别以O11、O12、O21、 O22表示，即
2X2列联表的一般形式
r1 r2 总和
c1 O11 O21 C1＝O11＋O21
c2 O12 O22 C2＝O12＋O22
解：（1）假设 H0 : 鲤鱼体色F2性状分离符合3:1 对 H A : 鲤鱼体色F2性状分离不符合3:1
（2）选取显著水平 0.05
（3）检验计算：计算鲤鱼体色的理论值
体色 F2理论尾数
青灰色 1201.5
红色 400.5
总数 1602
k
cc2 i 1
Oi Ei
0.5 2 301.63
1
2
2
xx
将样本方差代入，则：c
2
(k
1) s 2
2
其c2服从自由度为(k-1)的卡方分布
卡方函数的使用
假设
H 0:
2
2 0
,
适用右尾检验，其否定区为： c 2 c2
假设
H
0:
2
2 0
,
适用左尾检验
，其否定区为：
c
2
c2 1
假设

大学统计学第5章拟合优度检验

• 皮尔逊（Ｋ.Pearson）首创χ2统计量。应用中n须要比较大且各组的理论次数皆大５时，该统计量即可近似的服从 χ2分布。若存在理论次数小于５的组，则须加大样本容量，或将理论次数小于５的组与邻组合并。
拟合优度检验的一般原理
χ2检验的分类 1、适合性检验
检验总体是否与某种理论分布或模型相符合，称为适合性检验。 2、独立性检验按两个标志（两向）分类的记数资料排成横行与纵列的表格，称为列联表。检验列联表内横、纵两向的标志在个体上的出现是否相关，称为独立性检验。
检验方法 1、零假设为不存在处理效应。若计算得到的P>α则接受零假设；若计算得到的P<α则接受备择假设。
独立性检验
2、P的计算方法：在行总数、列总数及N都保持不变的情况下，a、b、c、d的各种组合概率可由以下通式计算：
• 若a、b、c、d中的任何一个出现0时，可直接用该概率值作为判断的标准；(例7.5)
因为计算理论数时参数φ ＝3/4已知，不需要用样本估计，
因此a=0，df=4-1=3 χ23,0.05=7.815 χ2< χ20.05 接受H0，符合9：3：3：1的分离比，df=3，不需矫正。
适合性检验
df=1一定矫正，否则甚至会得到相反结论例:用正常翅的野生型果蝇与残翅的果蝇杂交，F1代均表现为正常翅。F1代自交，所得F2代中包括311个正常翅和81个残翅。问这一分离比是否符合孟德尔3：1的理论比
3 有时需用样本数据估计总体参数。记所估计参数个数为a；
4 合并两个尾区的理论数，使之不小于5，合并后的组数计为k；
5 自由度为k-1-a，a为需要由样本估计的参数个数;
6 零假设：H0：O-T =0 ；
7

第四讲拟合优度检验和独立性检验

2
Scott Marketing Research Co.
Scott公司进行了一项市场份额的研究。在过去的一年里，公司A的市场份额稳定在30%，公司B在 50%，公司C在20%。最近公司C开发了一种“新型” 产品并取代了当前市场的产品。Scott受雇于公司C，为它判断新产品是否使市场份额发生了改变。 Scott公司通过问卷调查了一组200名的顾客群体，询问他们对公司A、B、C的购买偏好，结果48人选择A，98人选择了B，54人选择了C。根据这些数据， Scott公司需要判断市场份额是否已经发生了变化。

i 1
期望频数ei

抽样分布是什么？在大样本情形而且所有期望频数不少于5的时 2 候，近似地有 k ( f e ) 2 i i ~ 2 (k p 1)
i 1
ei
20
给定显著水平为0.1，拒绝域应该是什么？
(k p 1) (7) 12 .017
26
计算期望频数

一个饮酒者喜欢三种啤酒的概率分别是多少？既然与性别独立，那么按照这种概率分布在调查的这些男性中应该喜欢三种不同啤酒的人数是多少？女性中呢？第i行之和第j列之和 e H0成立时的期望频数： ij
样本容量
淡啤酒普通啤酒 37.33 32.67 70 黑啤酒 16 14 30 合计 80 70 150 男性女性合计 26.67 23.33 50
到达顾客数观察频数期望频数 0或1 10 5.174743 2 10 10.78072 3 12 17.96786 4 18 22.45982 5 22 22.45982 6 22 18.71652 7 16 13.36894 8 12 8.355589 9个以上 6 8.715985 合计 128 128

第五章卡方检验

χ2＝ ∑
（Oi－Ei）2 Ei
χ2值就等于各组观测值和理论值差的平方与理论值之比，再求其和。
(Oi − Ei ) χ =∑ Ei i =1
2 k
2
已经证明当k充分大时，由上式定义的统计量近似服从��ቤተ መጻሕፍቲ ባይዱ��2分布
χ2 检验的原理是：应用理论推算值(E)与实际观测值 (O)之间的偏离程度来决定其χ2值的大小。在计算理论推算值(E)与实际观测值(O)之间的符合程度时,一般采用 ∑(E-O)2。对于k组资料采用:
∑ (O − E )
i i
2
值越大，观测值与理论值相差也就
越大，反之越小。
奖学金
200元
一等 10元
5％
７0元
三等 10元实际得到60元
14％
实际得到190元
等级观测值（O）理论（E） O-E 一等三等 190 60 200 70 -10 -10
（O－E）2 100 100
两组差数虽然相同，但其差数占理论值的比重不同。
χ2＜ χ20.05
P＞0.05
接受H0 ，即豌豆F2分离符合9：3：3：1的自由组合规律。
方法二
315 101 108 32
黄圆：黄皱：绿圆：绿皱＝
2 i
9 3 3 1 ：：： 16 16 16 16
2 2 2 2 1 O 1 315 101 108 32 + + χ2 = ∑ −n = × + − 556 = 0.470 3 1 3 n pi 556 9 16 16 16 16
χ2 ＝0.016+0.101+0.135+0.218＝0.470

第五章拟合优度和独立性检验

2检验统计量的计算过程
类别
A公司 B公司
假设比例
观察频数 f 期望频数np 差
差的平方
0.45 0.40
102 82
90 80
12 2
144 4
其他公司 0.15
合计1630 Nhomakorabea-14
196
1
k
200
200
\
\
2 ( f np ) i 2 i 8.18 npi i 1
拟合优度检验
皮尔逊定理是在n无限增大时推导出来的，因而在使用时要注意n要足够大，以及 npi 不太小这两个条件. 根据计算实践，要求n不小于50，以及 npi 都不小于 5. 否则应适当合并区间，使 npi满足这个要求 .
拟合优度检验 1.多项总体拟合优度检验 2.泊松分布拟合优度检验 3.正态分布拟合优度检验
实测频数
fi npi
理论频数
标志着经验分布与理论分布之间的差异的大小.
皮尔逊引进如下统计量表示经验分布与理论分布之间的差异: 在理论分布
( fi npi ) npi i 1
2 k
2
已知的条件下, npi是常量
统计量
的分布是什么?
2
皮尔逊证明了如下定理: 若原假设中的理论分布F(x)已经完全给定，那么当n 时，统计量的分布渐近(k-1)个自由度的分布.
表12-7 超市研究中的统计量计算结果
到达顾客数观察频数期望频数差的平方
差的平方/期望频数
0或1
2
10
10
5.17
10.78
23.28
0.61
4.5
0.06
3
4 5 6 7 8 9或9以上

第五章 χ2检验

χ2的连续性矫正
由上式计算的 χ2 只是近似地服从连续型随机变量 χ2 分布。在对次数资料迚行χ2 检验利用连续型随机变量χ2分布计算概率时，常常偏高，特别是当自由度为1时，偏差较大。
矫正后的χ2值记为χc2
当自由度大于1时， χ2分布与连续型随机变量
χ2分布相近似，这时，可不作连续性矫正，但要
总和
r1 r2
总和
R1= O11 + O12 R2= O21 + O22
C1= O11 + O21
C2= O12 + O22
T
给药方式与给药效果的2×2列联表给药方式
口服注射
有效
58 64
无效
40 31
总数
98(R1) 95(R2)
有效率
59.2％ 67.4％
总数
122(C1)
71(C2)
193(T)
1.H0 ：给药方式与给药效果相互独立。
HA ：给药方式与给药效果有关联。
2.给出显著水平α＝0.05
3.计算各个理论数 Eij＝Ri×Cj/T=行总数×列总数/总数
E11= R1 × C1/T=61.95 E21= R2 × C1/T=60.05 E12= R1 × C2/T=36.05 E22= R2 × C2/T=34.95
本章内容
一、离散型数据 x2 统计量和 x2分布二、拟合优度检验三、独立性检验
拟合优度检验（吻合度检验）
理论数可以通过一定的理论分布或某种学说推算出。用实际观察数与理论数直接比较，从而得
出两者之间是否吻合，这一类检验称为吻合度检验。
独立性检验
分析两类因子是相互独立还是彼此相关。理论值的推算没有什么理论或学说作依据，这时可假设观察的各属性之间没有关联，然后证明这种无关联的假设是否成立。这种检验称为独立性检验。

拟合优度检验-PPT

总数 98 (n1 ) 95 (n2 ) 193 (N)
有效率 59.2% 67.4%
22
※二、2 2列联表的精确检验法（Fisher检验法）
前提条件：某一格的理论数小于5。思想：用古典概型的方法求出尾区的概率，
然后与给定的显著性水平相比，大于则接
受 H 0 ，反之拒绝。需要解决的问题：
1.用古典概型求2 2列联表出现某一组数值的概率
注射 c
d
Tij
(i行和 )(j列 N
和 )
自由度 df = 1
19
四格表资料 2 检验的专用公式：
和前面的结果一样
2
(adbc)2n
(ab)(cd)(ac)(bd)
2 (|adbc|0.5n)2n
(ab)(cd)(ac)(bd)
20
2. rc列联表
n11 n12 n13 L n1c
n21 n22 n23 L n2c
与理论(期望)频数（Expected frequency ）之差是否由抽样误差所引起。
补充：皮尔逊定理（pearson）设 (p1,p2,L,pr)为总体的真实概率分布，统计量
2 r (ni npi )2 i1 npi 随n的增加渐近于自由度为r-1的 2 分布。
6
r
X2
(Oi Ti)2 ~X2(r1)
Oi
实际频数
黄花 84
绿花 16
合计 100
12
【补例7.3】（ Poisson分布的拟合优度检验）将酵母细
胞的稀释液置于某种计量仪器上，数出每一小方格内的酵
母细胞数，共观察了413个小方格，结果见表7.3第1、2列，
试问该资料是否服从Poisson分布？

5第五章拟合优度检验

表5-3
体色 F2观测尾数
鲤鱼遗传试验F2观测结果
青灰色 1503 红色 99 总数 1602
⒈ 提出无效假设与备择假设
H 0 : 鲤鱼体色F2 代分离符合3： 1 比率 H A : 鲤鱼体色F2 代分离不符合3： 1 比率
⒉计算理论次数青灰色的理论数为： E1=1602 ×3/4=1201.5 红色的理论数： E2=1602×1/4=400.5 2 3.计算 c 因为该资料只有k=2组，所以此例的自由度为2-1=1 ( O，需进行连续性矫正。 E 0.5) 2
9 9 p(0) , 9 3 3 1 16 3 p(1) p(2) , 16 1 p(3) 16
9 T0 179 100.6875 , 16 3 T1 T2 179 33.5625 16
1 T3 179 11.1875 16
按公式
行总数列总数 Ei 总数
计算各格理论值，填于各格括号中。再计算统计量：

2
( 254 236.5 0.5)
2
236.5 2 ( 246 263.5 0.5)

( 219 236.5 0.5)
2
236.5 2 ( 281 263.5 0.5)
263.5 263.5 1.222 1.222 1.097 1.097 4.638
尾区概率 P=P1+P0=0.122+0.010=0.132。由于不知什么性别对药物反应强烈；∴应进行双侧检验，即与 =0.025 比较。 2 ， ∴接受H0，男女对该药反应无显著不同。
2 P

0.025
作业26/11
p102

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

问题是：得到的数据能否说明“骰子均匀” 的假设是可信的？
解决这类问题的工具是英国统计学家
K.皮尔逊在1900年发表的一篇文章中引进
的所谓 2检验法.
这是一项很重要的工作，不少人把它视为近代统计学的开端.
K.皮尔逊
2检验法是在总体X 的分布未知时，
根据来自总体的样本，检验关于总体分布的假设的一种检验方法.
战争次数X 发生 X次战争的年数
0
223
1
142
2
48
3
15
4
4
在概率论中，大家对泊松分布产生的一般条件已有所了解，容易想到，每年爆发战争的次数，可以用一个泊松随机变量来近似描述 . 也就是说，我们可以假设每年爆发战争次数分布X近似泊松分布.
现在的问题是：
上面的数据能否证实X 具有泊松分布的假设是正确的？
又如，某钟表厂对生产的钟进行精确性检查，抽取100个钟作试验，拨准后隔24小时以后进行检查，将每个钟的误差（快或慢）按秒记录下来.
问该厂生产的钟的误差是否服从正态分布？
再如，某工厂制造一批骰子，声称它是均匀的.
也就是说，在投掷中，出现1点，2点，…，6点的概率都应是1/6.
为检验骰子是否均匀，要把骰子实地投掷若干次，统计各点出现的频率与1/6的差距.
使用 2检验法对总体分布进行检验时，
我们先提出原假设:
H0：总体X的分布函数为F(x) 然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受原假设.
这种检验通常称作拟合优度检验，它是一种非参数检验.
在用 2检验法检验假设H0时，若在H0下
分布类型已知，但其参数未知，这时需要先用极大似然估计法估计参数，然后作检验.
分布拟合的 2检验法的基本原理和步
骤如下:
1. 将总体X的取值范围分成k个互不重迭的小区间,记作A1, A2, …, Ak .
2.把落入第i个小区间Ai的样本值的个数记作fi ，称为实测频数. 所有实测频数之和 f1+ f2+ …+ fk等于样本容量n.
3.根据所假设的理论分布,可以算出总体X的值落入每个Ai的概率pi,于是npi就是落入Ai的样本值的理论频数.
2检验统计量的计算过程
类别
假设比例观察频数 f 期望频数np 差差的平方
A公司 0.45 102
90
12 144
B公司 0.40 82
80
其他公司பைடு நூலகம்0.15 16
30
24 -14 196
合计
1
200 200
\\
2 k ( fi npi )2 8.18
定，那么当n 时，统计量
2 k ( fi npi )2
i 1
npi
的分布渐近(k-1)个自由度的

2分布.
如果理论分布F(x)中有r个未知参数需用
相应的估计量来代替，那么当 n 时，统
计量 2的分布渐近 (k-r-1)个自由度的 2分
布.
根据这个定理，对给定的显著性水平，
需要检验的是一个多项总体：每一个顾客按照他所购买A公司、B公司还是C公司的产品来进行分类。
拟合优度检验（比例检验）
(goodness of fit test)
1. 检验多个比例是否相等
2. 检验的步骤
– 提出假设
• H0：1 = 2 = … = j； H1： 1 , 2 , … , j 不全相等
根据计算实践，要求n不小于50，以及 npi 都不小于 5. 否则应适当合并区间，使 npi满足这个要求 .
拟合优度检验
1.多项总体拟合优度检验 2.泊松分布拟合优度检验 3.正态分布拟合优度检验
品质数据（定性数据）的假设检验
品质数据
比例检验
一个总体
多项总体
Z 检验 Z 检验检验
两个总体
实测频数
理论频数
fi npi
标志着经验分布与理论分布之间的差异的大小.
皮尔逊引进如下统计量表示经验分布
与理论分布之间的差异:
2 k ( fi npi )2
i 1
npi
在理论分布已知的条件下,
npi是常量
统计量 2 的分布是什么?
皮尔逊证明了如下定理:
若原假设中的理论分布F(x)已经完全给
第五章拟合优度和独立性检验
在前面的课程中，我们已经了解了假设检验的基本思想，并讨论了当总体分布为正态时，关于未知参数的假设检验问题 .
然而可能遇到这样的情形，总体服从何种理论分布并不知道，要求我们直接对总体分布提出一个假设 .
例如，从1500到1931年的432年间，每年爆发战争的次数可以看作一个随机变量，椐统计，这432年间共爆发了299次战争，具体数据如下:
查
2分布表可得临界值

2

，使得
P( 2 2 )
得拒绝域:

2

2

(k
1)
(不需估计参数)
2

2

(k

r

1)
(估计r 个参数)
如果根据所给的样本值 X1,X2, …,Xn算得
统计量 2的实测值落入拒绝域，则拒绝原假
设，否则就认为差异不显著而接受原假设.
皮尔逊定理是在n无限增大时推导出来的，因而在使用时要注意n要足够大，以及 npi 不太小这两个条件.
独立性检验检验
多项总体
多项总体：总体中的每一个个体被分配到几个类别中的一个且被分配到一个类别中的情况。
例：在过去的一年中，A公司的市场份额稳定在30%，B公司稳定在50%,C公司稳定在20%，最近C公司开发了一种“新型改进”产品，以取代当前市场上该公司所售产品。启典市场调查公司受雇于C公司，目的是判断新产品是否使市场份额发生了改变。
– 计算检验的统计量
2 k ( fi npi )2
i 1
npi
进行决策
根据显著性水平和自由度(k-1)查出临界值2 若2>2，拒绝H0；若2<2，接受H0
拟合优度检验(比例检验）
• 【例】为了提高市场占有率，A公司和B公司同时开展了广告宣传。在广告宣传战之前，A公司的市场占有率为 45%，B公司的市场占有率为40%，其他公司的市场占有率为15%。为了了解广告战之后A、B和其他公司的市场占有率是否发生变化，随机抽取了200名消费者，其中102 人表示准备购买A公司产品，82人表示准备购买B公司产品，另外16人表示准备购买其他公司产品。检验广告战前后各公司的市场占有率是否发生了变化 ( 0.05)

第五章拟合优度和独立性检验

生物统计学—卡方检验

大学统计学 第5章 拟合优度检验

第四讲拟合优度检验和独立性检验

第五章卡方检验

第五章 拟合优度和独立性检验

第五章 χ2检验

拟合优度检验-PPT

5第五章 拟合优度检验

大学统计学第5章拟合优度检验

第五章拟合优度和独立性检验

5第五章拟合优度检验