第五章拟合优度和独立性检验

合集下载

生物统计学—卡方检验

生物统计学—卡方检验

独立性检验
步骤: 1. 提出无效假设,即认为所观测的各属性之间
没有关联 2. 规定显著性水平 3. 根据无效假设计算出理论数 4. 根据规定的显著水平和自由度计算出卡方值,
再和计算的卡方值进行比较。 如果接受假设,则说明因子之间无相关联,
是相互独立的 如果拒绝假设,则说明因子之间的关联是显
著的,不独立
一、2X2列联表的独立性检验
设A、B是一个随机试验中的两个事件,其中A可能
出现r1、r2个结果,B可能出现c1、c2个结果,两 因子相互作用形成4个数,分别以O11、O12、O21、 O22表示,即
2X2列联表的一般形式
r1 r2 总和
c1 O11 O21 C1=O11+O21
c2 O12 O22 C2=O12+O22
解:(1)假设 H0 : 鲤鱼体色F2性状分离符合3:1 对 H A : 鲤鱼体色F2性状分离不符合3:1
(2)选取显著水平 0.05
(3)检验计算: 计算鲤鱼体色的理论值
体色 F2理论尾数
青灰色 1201.5
红色 400.5
总数 1602
k
cc2 i 1
Oi Ei
0.5 2 301.63
1
2
2
xx
将样本方差代入,则:c
2
(k
1) s 2
2
其c2服从自由度为(k-1)的卡方分布
卡方函数的使用
假设
H 0:
2
2 0
,
适用右尾检验 ,其否定区为: c 2 c2
假设
H
0:
2
2 0
,
适用左尾检验
,其否定区为:
c
2
c2 1
假设

大学统计学 第5章 拟合优度检验

大学统计学 第5章 拟合优度检验
• 皮尔逊(K.Pearson)首创χ2统计量。应用中n须要比较 大且各组的理论次数皆大5时,该统计量即可近似的服从 χ2分布。若存在理论次数小于5的组,则须加大样本容量, 或将理论次数小于5的组与邻组合并。
拟合优度检验的一般原理
χ2检验的分类 1、适合性检验
检验总体是否与某种理论分布或模型相符 合,称为适合性检验。 2、独立性检验 按两个标志(两向)分类的记数资料排成 横行与纵列的表格,称为列联表。检验列 联表内横、纵两向的标志在个体上的出现 是否相关,称为独立性检验。
检验方法 1、 零假设为不存在处理效应。若计算得到 的P>α则接受零假设;若计算得到的P<α则 接受备择假设。
独立性检验
2、P的计算方法:在行总数、列总数及N都保持 不变的情况下,a、b、c、d的各种组合概率可由 以下通式计算:
• 若a、b、c、d中的任何一个出现0时,可直接用 该概率值作为判断的标准;(例7.5)
因为计算理论数时参数φ =3/4已知,不需要用样本估计,
因此a=0,df=4-1=3 χ23,0.05=7.815 χ2< χ20.05 接受H0,符 合9:3:3:1的分离比,df=3,不需矫正。
适合性检验
df=1一定矫正,否则甚至会得到相反结论 例:用正常翅的野生型果蝇与残翅的果蝇杂 交,F1代均表现为正常翅。F1代自交,所 得F2代中包括311个正常翅和81个残翅。问 这一分离比是否符合孟德尔3:1的理论比
3 有时需用样本数据估计总体参数。记所估计参数 个数为a;
4 合并两个尾区的理论数,使之不小于5,合并后的 组数计为k;
5 自由度为k-1-a,a为需要由样本估计的参数个数;
6 零假设:H0:O-T =0 ;
7

第四讲拟合优度检验和独立性检验

第四讲拟合优度检验和独立性检验

2
Scott Marketing Research Co.
Scott公司进行了一项市场份额的研究。在过去 的一年里,公司A的市场份额稳定在30%,公司B在 50%,公司C在20%。最近公司C开发了一种“新型” 产品并取代了当前市场的产品。Scott受雇于公司C, 为它判断新产品是否使市场份额发生了改变。 Scott公司通过问卷调查了一组200名的顾客群 体,询问他们对公司A、B、C的购买偏好,结果48人 选择A,98人选择了B,54人选择了C。根据这些数据, Scott公司需要判断市场份额是否已经发生了变化。

i 1
期望频数ei

抽样分布是什么? 在大样本情形而且所有期望频数不少于5的时 2 候,近似地有 k ( f e ) 2 i i ~ 2 (k p 1)
i 1
ei
20
给定显著水平为0.1,拒绝域应该是什 么?
(k p 1) (7) 12 .017
26
计算期望频数


一个饮酒者喜欢三种啤酒的概率分别是多少? 既然与性别独立,那么按照这种概率分布在调查的这 些男性中应该喜欢三种不同啤酒的人数是多少?女性 中呢? 第i行之和 第j列之和 e H0成立时的期望频数: ij
样本容量
淡啤酒 普通啤酒 37.33 32.67 70 黑啤酒 16 14 30 合计 80 70 150 男性 女性 合计 26.67 23.33 50
到达顾客数 观察频数 期望频数 0或1 10 5.174743 2 10 10.78072 3 12 17.96786 4 18 22.45982 5 22 22.45982 6 22 18.71652 7 16 13.36894 8 12 8.355589 9个以上 6 8.715985 合计 128 128

第五章卡方检验

第五章卡方检验

χ2= ∑
(Oi-Ei)2 Ei
χ2值就等于各组观测 值和理论值差的平方与理 论值之比,再求其和。
(Oi − Ei ) χ =∑ Ei i =1
2 k
2
已经证明当k充分大时,由上式定义 的统计量近似服从����ቤተ መጻሕፍቲ ባይዱ�������2分布
χ2 检验的原理是: 应用理论推算值(E)与实际观测值 (O)之间的偏离程度来决定其χ2值的大 小。在计算理论推算值(E)与实际观测 值(O)之间的符合程度时,一般采用 ∑(E-O)2。对于k组资料采用:
∑ (O − E )
i i
2
值越大,观测值与理论值相差也就
越大,反之越小。
奖学金
200元
一等 10元
5%
70元
三 等 10元 实际得到60元
14%
实际得到190元
等级 观测值(O) 理论(E) O-E 一等 三等 190 60 200 70 -10 -10
(O-E)2 100 100
两组差数虽然相同,但其差数占理论值的比重不同。
χ2< χ20.05
P>0.05
接受H0 ,即豌豆F2分离符合9:3:3:1的自由组合规律。
方法二
315 101 108 32
黄圆:黄皱:绿圆:绿皱=
2 i
9 3 3 1 : : : 16 16 16 16
2 2 2 2 1 O 1 315 101 108 32 + + χ2 = ∑ −n = × + − 556 = 0.470 3 1 3 n pi 556 9 16 16 16 16
χ2 =0.016+0.101+0.135+0.218=0.470

第五章 拟合优度和独立性检验

第五章 拟合优度和独立性检验

2检验统计量的计算过程
类别
A公司 B公司
假设比例
观察频数 f 期望频数np 差
差的平方
0.45 0.40
102 82
90 80
12 2
144 4
其他公司 0.15
合计1630 Nhomakorabea-14
196
1
k
200
200
\
\
2 ( f np ) i 2 i 8.18 npi i 1
拟合优度检验
皮尔逊定理是在n无限增大时推导出来 的,因而在使用时要注意n要足够大,以及 npi 不太小这两个条件. 根据计算实践,要求n不小于50,以及 npi 都不小于 5. 否则应适当合并区间,使 npi满足这个要求 .
拟合优度检验 1.多项总体拟合优度检验 2.泊松分布拟合优度检验 3.正态分布拟合优度检验
实测频数
fi npi
理论频数
标志着经验分布与理论分布之间的差异的大小.
皮尔逊引进如下统计量表示经验分布 与理论分布之间的差异: 在理论分布
( fi npi ) npi i 1
2 k
2
已知的条件下, npi是常量
统计量
的分布是什么?
2
皮尔逊证明了如下定理: 若原假设中的理论分布F(x)已经完全给 定,那么当n 时,统计量 的分布渐近(k-1)个自由度的 分布.
表12-7 超市研究中的统计量计算结果
到达顾客数 观察频数 期望频数 差的平方
差的平方/期望频数
0或1
2
10
10
5.17
10.78
23.28
0.61
4.5
0.06
3
4 5 6 7 8 9或9以上

第五章 χ2检验

第五章 χ2检验

χ2的连续性矫正
由上式计算的 χ2 只是近似地服从连续型随机变 量 χ2 分布。在对次数资料迚行χ2 检验利用连续型随 机变量χ2分布计算概率时,常常偏高,特别是当自 由度为1时,偏差较大。
矫正后的χ2值记为χc2
当自由度大于1时, χ2分布与连续型随机变量
χ2分布相近似,这时,可不作连续性矫正,但要
总和
r1 r2
总和
R1= O11 + O12 R2= O21 + O22
C1= O11 + O21
C2= O12 + O22
T
给药方式与给药效果的2×2列联表 给药方式
口服 注射
有效
58 64
无效
40 31
总数
98(R1) 95(R2)
有效率
59.2% 67.4%
总数
122(C1)
71(C2)
193(T)
1.H0 :给药方式与给药效果相互独立。
HA :给药方式与给药效果有关联。
2.给出显著水平α=0.05
3.计算各个理论数 Eij=Ri×Cj/T=行总数×列总数/总数
E11= R1 × C1/T=61.95 E21= R2 × C1/T=60.05 E12= R1 × C2/T=36.05 E22= R2 × C2/T=34.95
本章内容
一、离散型数据 x2 统计量和 x2分布 二、拟合优度检验 三、独立性检验
拟合优度检验 (吻合度检验)
理论数可以通过一定的理论分布或某种学说 推算出。用实际观察数与理论数直接比较,从而得
出两者之间是否吻合,这一类检验称为吻合度检验。
独立性检验
分析两类因子是相互独立还是彼此相关。理论 值的推算没有什么理论或学说作依据,这时可假设 观察的各属性之间没有关联,然后证明这种无关联 的假设是否成立。这种检验称为独立性检验。

拟合优度检验-PPT

拟合优度检验-PPT

总数 98 (n1 ) 95 (n2 ) 193 (N)
有效率 59.2% 67.4%
22
※二、2 2列联表的精确检验法(Fisher检验法)
前提条件:某一格的理论数小于5。 思 想:用古典概型的方法求出尾区的概率,
然后与给定的显著性水平 相比,大于则接
受 H 0 ,反之拒绝。 需要解决的问题:
1.用古典概型求2 2列联表出现某一组数值的概率
注射 c
d
Tij
(i行和 )(j列 N
和 )
自由度 df = 1
19
四格表资料 2 检验的专用公式:
和前面的结果 一样
2
(adbc)2n
(ab)(cd)(ac)(bd)
2 (|adbc|0.5n)2n
(ab)(cd)(ac)(bd)
20
2. rc列联表
n11 n12 n13 L n1c
n21 n22 n23 L n2c
与理论(期望)频数(Expected frequency )之差 是否由抽样误差所引起。
补充:皮尔逊定理(pearson) 设 (p1,p2,L,pr)为总体的真实概率分布,统计量
2 r (ni npi )2 i1 npi 随n的增加渐近于自由度为r-1的 2 分布。
6
r
X2
(Oi Ti)2 ~X2(r1)
Oi
实际频数
黄花 84
绿花 16
合计 100
12
【补例7.3】( Poisson分布的拟合优度检验)将酵母细
胞的稀释液置于某种计量仪器上,数出每一小方格内的酵
母细胞数,共观察了413个小方格,结果见表7.3第1、2列,
试问该资料是否服从Poisson分布?

5第五章 拟合优度检验

5第五章  拟合优度检验
表5-3
体色 F2观测尾数
鲤鱼遗传试验F2观测结果
青灰色 1503 红色 99 总数 1602
⒈ 提出无效假设与备择假设
H 0 : 鲤鱼体色F2 代分离符合3: 1 比率 H A : 鲤鱼体色F2 代分离不符合3: 1 比率
⒉计算理论次数 青灰色的理论数为: E1=1602 ×3/4=1201.5 红色的理论数: E2=1602×1/4=400.5 2 3.计算 c 因为该资料只有k=2组,所以此例的 自由度为2-1=1 ( O,需进行连续性矫正。 E 0.5) 2
9 9 p(0) , 9 3 3 1 16 3 p(1) p(2) , 16 1 p(3) 16
9 T0 179 100.6875 , 16 3 T1 T2 179 33.5625 16
1 T3 179 11.1875 16
按公式
行总数 列总数 Ei 总数
计算各格理论值,填于各格 括号中。再计算统计量:

2
( 254 236.5 0.5)
2
236.5 2 ( 246 263.5 0.5)

( 219 236.5 0.5)
2
236.5 2 ( 281 263.5 0.5)
263.5 263.5 1.222 1.222 1.097 1.097 4.638
尾区概率 P=P1+P0=0.122+0.010=0.132。 由于不知什么性别对药物反 应强烈;∴应进行双侧检验, 即与 =0.025 比较。 2 , ∴接受H0,男女对该药反应 无显著不同。
2 P

0.025
作业26/11
p102
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
问题是:得到的数据能否说明“骰子均匀” 的假设是可信的?
解决这类问题的工具是英国统计学家
K.皮尔逊在1900年发表的一篇文章中引进
的所谓 2检验法.
这是一项很重要的工作,不少人 把它视为近代统计学的开端.
K.皮尔逊
2检验法是在总体X 的分布未知时,
根据来自总体的样本,检验关于总体分 布的假设的一种检验方法.
战争次数X 发生 X次战争的年数
0
223
1
142
2
48
3
15
4
4
在概率论中,大家对泊松分布产生的一 般条件已有所了解,容易想到,每年爆发战 争的次数,可以用一个泊松随机变量来近似 描述 . 也就是说,我们可以假设每年爆发战 争次数分布X近似泊松分布.
现在的问题是:
上面的数据能否证实X 具有 泊松分布的假设是正确的?
又如,某钟表厂对生产的钟进行精确性检 查,抽取100个钟作试验,拨准后隔24小时 以后进行检查,将每个钟的误差(快或慢) 按秒记录下来.
问该厂生产的钟的误差是否服从正态 分布?
再如,某工厂制造一批骰子, 声称它是均匀的.
也就是说,在投掷中,出 现1点,2点,…,6点的概 率都应是1/6.
为检验骰子是否均匀,要把骰子实地投掷 若干次,统计各点出现的频率与1/6的差距.
使用 2检验法对总体分布进行检验时,
我们先提出原假设:
H0:总体X的分布函数为F(x) 然后根据样本的经验分布和所假设的理论分 布之间的吻合程度来决定是否接受原假设.
这种检验通常称作拟合优度检验,它是一 种非参数检验.
在用 2检验法检验假设H0时,若在H0下
分布类型已知,但其参数未知,这时需要先 用极大似然估计法估计参数,然后作检验.
分布拟合的 2检验法 的基本原理和步
骤如下:
1. 将总体X的取值范围分成k个互不重迭的小 区间,记作A1, A2, …, Ak .
2.把落入第i个小区间Ai的样本值的个数记 作fi , 称为实测频数. 所有实测频数之和 f1+ f2+ …+ fk等于样本容量n.
3.根据所假设的理论分布,可以算出总体X的 值落入每个Ai的概率pi,于是npi就是落入Ai的 样本值的理论频数.
2检验统计量的计算过程
类别
假设比例 观察频数 f 期望频数np 差 差的平方
A公司 0.45 102
90
12 144
B公司 0.40 82
80
其他公司பைடு நூலகம்0.15 16
30
24 -14 196
合计
1
200 200
\\
2 k ( fi npi )2 8.18
定,那么当n 时,统计量
2 k ( fi npi )2
i 1
npi
的分布渐近(k-1)个自由度的

2分布.
如果理论分布F(x)中有r个未知参数需用
相应的估计量来代替,那么当 n 时,统
计量 2的分布渐近 (k-r-1)个自由度的 2分
布.
根据这个定理,对给定的显著性水平 ,
需要检验的是一个多项总体:每一个顾客按照他所购买A公 司、B公司还是C公司的产品来进行分类。
拟合优度检验(比例检验)
(goodness of fit test)
1. 检验多个比例是否相等
2. 检验的步骤
– 提出假设
• H0:1 = 2 = … = j; H1: 1 , 2 , … , j 不全相等
根据计算实践,要求n不小于50,以及 npi 都不小于 5. 否则应适当合并区间,使 npi满足这个要求 .
拟合优度检验
1.多项总体拟合优度检验 2.泊松分布拟合优度检验 3.正态分布拟合优度检验
品质数据(定性数据)的假设检验
品质数据
比例检验
一个总体
多项总体
Z 检验 Z 检验 检验
两个总体
实测频数
理论频数
fi npi
标志着经验分布与理论分布之间的差异的大小.
皮尔逊引进如下统计量表示经验分布
与理论分布之间的差异:
2 k ( fi npi )2
i 1
npi
在理论分布 已知的条件下,
npi是常量
统计量 2 的分布是什么?
皮尔逊证明了如下定理:
若原假设中的理论分布F(x)已经完全给
第五章 拟合优度和独立性检验
在前面的课程中,我们已经了解了假设 检验的基本思想,并讨论了当总体分布为正 态时,关于未知参数的假设检验问题 .
然而可能遇到这样的情形,总体服从何 种理论分布并不知道,要求我们直接对总体 分布提出一个假设 .
例如,从1500到1931年的432年间,每年 爆发战争的次数可以看作一个随机变量,椐统 计,这432年间共爆发了299次战争,具体数据 如下:

2分布表可得临界值

2

,使得
P( 2 2 )
得拒绝域:

2


2

(k
1)
(不需估计参数)
2


2

(k

r

1)
(估计r 个参数)
如果根据所给的样本值 X1,X2, …,Xn算得
统计量 2的实测值落入拒绝域,则拒绝原假
设,否则就认为差异不显著而接受原假设.
皮尔逊定理是在n无限增大时推导出来 的,因而在使用时要注意n要足够大,以及 npi 不太小这两个条件.
独立性检验 检验
多项总体
多项总体:总体中的每一个个体被分配到几个类别中的一个 且被分配到一个类别中的情况。
例:在过去的一年中,A公司的市场份额稳定在30%,B公司 稳定在50%,C公司稳定在20%,最近C公司开发了一种“新型 改进”产品,以取代当前市场上该公司所售产品。启典市场 调查公司受雇于C公司,目的是判断新产品是否使市场份额 发生了改变。
– 计算检验的统计量
2 k ( fi npi )2
i 1
npi
进行决策
根据显著性水平和自由度(k-1)查出临界值2 若2>2,拒绝H0;若2<2,接受H0
拟合优度检验(比例检验)
• 【例】为了提高市场占有率,A公司和B公司同时开展了 广告宣传。在广告宣传战之前,A公司的市场占有率为 45%,B公司的市场占有率为40%,其他公司的市场占有 率为15%。为了了解广告战之后A、B和其他公司的市场 占有率是否发生变化,随机抽取了200名消费者,其中102 人表示准备购买A公司产品,82人表示准备购买B公司产 品,另外16人表示准备购买其他公司产品。检验广告战前 后各公司的市场占有率是否发生了变化 ( 0.05)
相关文档
最新文档