卡方-拟合优度检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物统计学
第七章 拟合优度检验- 2检验
§7.1、拟合优度检验的一般原理
7.1.1 什么是拟合优度检验(P92)
拟合优度检验的意义
判断实际观察的属性类别分配是否符合已知属 性类别分配理论或学说的假设检验。 简单的说:*用于检验总体是否服从某个指定 分布。 Ⅰ.检测观察数与理论数之间的一致性; Ⅱ.通过检测观察数与理论数之间的一致性来判定事 物之间的独立性。
(Oi Ti ) (AT) x Ti T
2 2
2
=0.5444+1.6333+1.6333+0.9
=4.711
(五)查临界2值,作出统计推断 当df=3时,20.05(3)=7.81,因 2<2005(3) ,P>0.05, 不能否定H0 ,表明实际观察次数与理论次数差异不
§7.3、独立性检验
7.3.1 列联表2 检验(P97)
一、独立性检验的意义
对次数资料,除进行拟合优度检验外,有时需 要分析两类因子是相互独立还是彼此相关。如研究 两类药物对实验动物某种疾病治疗效果的好坏,先 将动物分为两组,一组用第一种药物治疗,另一组 用第二种药物治疗,然后统计每种药物的治愈头数 和未治愈头数。
(4)确定自由度,2×2列联表的自由度不再是4-1=3, 而是(r-1)(c-1)或者写为(行-1)(列-1)。因为每一行的各理 论数受该行总数的约束, 每一列的各理论数受该列总数的约 束,所以总的自由度只有(r-1)(c-1)。 下面计算例 1.11的2并做推断。首先计算各格的理论数, 从下表中可以看出, 任何一格的理论数等于这格所在的行总 数乘以这格所在的列总数,再除以总数。在实际计算时,算 出T1以后,可以用列总数减去T1得T3,用行总数减去T1得T2, 列总数减去T2得T4。

性别
动物性别实际观察次数与理论次数
实际观察 理论次 次数Oi 数Ti Oi-Ti (Oi-Ti)2/Ti

雄 合计
428
448 876
438
438 876
-10
10 0
0.2283
0.2283 0.4563
从上表可以看到 ,实际观察次数与理论次数存在
一定的差异。 这个差异是属于抽样误差、还是其性别
(1)提出零假设:认为有效或无效与给药方式并无关联。 实际观察的结果与在两者之间并无关联的前提下,从理论 上推导出的理论数之间无差异。即H0:O-T=0。 (2)根据概率乘法法则,若事件A和事件B是相互独立 的,或者说它们之间并无关联,这时事件A和事件B同时出 现的概率等于它们分别出现的概率乘积。
1、rc个理论次数的总和等于rc个实际次数的总和;
2、r个横行中的每一个横行理论次数总和等于该 行实际次数的总和 。 独立的行约束条件只有r-1个; 3、类似地,独立的列约束条件有c-1个。 因而在进行独立性检验时,自由度为rc-1-(r-1)-(c1)=(r-1)(c-1),即等于(横行属性类别数-1)×(直 列属性类别数-1)。
上面引入了统计量2, 它近似地服从统计学中一种 连续型随机变量的概率分布2分布。下面对统计学 中的2分布作一简略介绍。 设有一平均数为μ、方差为 的正态总体。现从此 总体中独立随机抽取n个随机变量:x1、x2、…、xn, 并求出其标准正态离差:
2
u1
x1

u2
x2
黑色无角牛的理论次数T1:360×9/16=202.5;
黑色有角牛的理论次数T2:360×3/16=67.5; 红色无角牛的理论次数T3:360×3/16=67.5;
红色有角牛的理论次数T4:360×1/16=22.5。
或 T4=360-202.5-67.5-67.5=22.5
(四)列表计算2
表 2计算表
7.2.2 对二项分布的检验(P93)
下面结合实例说明适合性检验方法。
(总体参数已知 )
【例】 在研究牛的毛色和角的有无两对相对性状分离
现象时 ,用黑色无角牛和红色有角牛杂交 ,子二代出
现黑色无角牛192头,黑色有角牛78头,红色无角牛72 头,红色有角牛18头,共360头。试 问这两对性状是否 符合孟德尔遗传规律中9∶3∶3∶1的遗传比例?
(i行总数)(j列总数) Tij 总数
例 7.3 下表是不同给药方式与给药效果表 给 药方式与给药效果的2×2列联表
给药方式 有效(A1)
口服(B1) 注射(B2) 58 64
无效(A2)
40 31
总 数
98 95
有效率
59.2% 67.4%


Hale Waihona Puke Baidu
122
71
193
上 表 称 为 2×2 列 联 表 (2×2 contingency table)。 2×2列联表的 2 检验一般需经以下各步:
这时需要分析药物种类与疗效是否相关,若两者彼此 相关,表明疗效因药物不同而异,即两种药物疗效不 相同;若两者相互独立,表明两种药物疗效相同。这 种根据次数资料判断两类因子彼此相关或相互独立的 假设检验就是独立性检验。*独立性检验实际上是基 于次数资料对因子间相关性的研究。
独立性检验与拟合优度检验是两种不同的 检验方法,除了研究目的不同外,还有以下区 别:
(一) 独立性检验的次数资料是按两因子属性类 别进行归组。根据两因子属性类别数的不同而构成 2×2、2×c、r×c列联表(r 为行因子的属性类别数, c 为 列 因子的属性类别数)。而适合性检验只按某一 因子的属性类别将如性别、表现型等次数资料归组。
(二)拟合优度检验按已知的属性分类理论或学说, 计算理论次数。独立性检验在计算理论次数时没有现 成的理论或学说可资利用,理论次数是在两因子相互 独立的假设下进行计算。 (三)在拟合优度检验中确定自由度时,只有一个 约束条件:各理论次数之和等于各实际次数之和,自 由度为属性类别数减1。而在r×c列联表的独立性检 验中,共有rc个理论次数,但受到以下条件的约束:
2 c
的连续性矫正
由公式计算的2只是近似地服从连续型随机变量
2分布。在对次数资料进行2检验利用连续型随机变
量2分布计算概率时,常常偏低,特别是当自由度为1
时偏差较大。
Yates(1934)提出了一个矫正公式,矫正后的2值 记为 :
2 c
=

( Oi Ti 0.5) Ti
2
(7-2)

2 i 1
r
( Oi Ti 0.5) Ti
2
§7.2、拟合优度检验
7.2.1 一般程序(P93)
方法为:
– 把x的值域分为r个不相重合的区间, 再计算在指定的分布下,x落入每一区 间的概率pi – 统计样本含量为n的抽样中,观察值落 入各区间的次数Oi – 用统计量进行检验,步骤如下:

un
xn

记这n个相互独立的标准正态离差的平方和 为 2 :
x u u ... u
2 2 1 2 2
n
u (
2 i
xi

)2
(x )
i 1 i
2 n
2
2
它服从自由度为n的2分布,记为
( xi ) 2
i 1 n
~ 2 (n);
(三)在无效假设成立的条件下,按已知属性
类别分配的理论或学说计算 各属性类别的理论
次数。
(四)计算出2或2c。
(五)根据自由度k-1(若属性类别分类数为 k ,则 适合性检验的自由度为 k-1)查2值表(附表)所得的临 界2值:20.05、20.01,将所计算得的2或2c值与其比 较,作出统计推断: 若2 (或2c)<20.05,P>0.05,表明实际观察次 数与理论次数差异不显著,可以认为实际观察的属性 类别分配符合已知属性类别分配的理论或学说; 若20.05≤2 (或2c)<20.01, 若2 ( 或2c)≥20.01,
当自由度大于1时,原公式的2分布与连续型随机
变量2分布相近似,这时,可不作连续性矫正,但要
求各组内的理论次数不小于5。若某组的理论次数小 于5,则应把它与其相邻的一组或几组合并,直到理 论次数大 于5 为止。
• 统计量:
(Oi Ti ) Ti i 1
r 2
2
• 使用条件:
– 各理论值均大于5。 – 若自由度为1,则应作连续性矫正:

2
若用样本平均数

n
x 代替总体平均数μ,则随机变
2 i
x
2
(x x)
i 1

2

(n 1) S 2
2
服从自由度为n-1的2分布,记为
(n 1) S
2


2

2
( n 1)
显 然 ,2≥0 , 即 2 的 取 值 范 围 是[0,+∞;2 分布密度曲线是随自由度不同而改变的一组曲线。随 自由度的增大, 曲线由偏斜渐趋于对称;df≥30时, 接近正态分布。下面给出了几个不同自由度的2概率 分布密度曲线。
显著, 可以认为毛色与角的有无两对性状杂 交 二 代
的 分 离 现 象 符 合 孟 德 尔遗传规律中9∶3∶3∶1 的遗传比例。
例7.1;7.2(P93;94)
• 总体参数未知 例P95,表7-1 不同之处:要由样本估计出总体参数。
7.2.3 对正态分布的检验(P96) 7.2.4 其他类型问题的检验(P97)
为了弥补B这一不足,将各差数平方除以相应的理论
次数后再相加,并记之为2 ,即
(Oi Ti ) Ti
2
2
也就是说2是度量实际观察次数与理论次数偏离 程度的一个统计量, 2越小,表明实际观察次数 与理论次数越接近; 2 =0,表示两者完全吻合; 2越大,表示两者相差越大。
二、2分布
二、独立性检验的方法
(一)2×2列联表的独立性检验
2×2列联表的一般形式如下表所示,其自由度 df=( c -1) (r-1)=(2-1) (2-1)=1,在进行2检验时,需作连续性矫 2 正,应计算 c值。
表 2×2列联表的一般形式
其中Aij为实际观察次数,Tij为理论次数。
• 其理论数的计算为:
检验步骤如下: (一)提出无效假设与备择假设 (二)选择计算公式 (三)计算理论次数

(四)计算2值
(五) 查临界2值,作出统计推断
说明:
(一) H0:实际观察的属性类别分配符合已知
属性类别分配的理论或学说;HA:实际观察的
属性类别分配不符合已知属性类别分配的理论
或学说。
(二)选择计算出2还是2c。
7.1.2 拟合优度检验的统计量(P92)
一、 2统计量的意义
为了便于理解,现结合一实例说明2 (读作卡方) 统计量的意义。根据遗传学理论,动物的性别比例 是1:1。统计某一年所产的876只实验动物,有雄性 428只,雌性448只。按1:1的性别比例计算,雌雄均 应为438只。以Oi表示实际观察次数,Ti 表 示 理 论 次数,可将上述情况列成下表。
检验步骤: (一)提出无效假设与备择假设 H0:实际观察次数之比符合9∶3∶3∶1的理论比例。 HA:实际观察次数之比不符合9∶3∶3∶1的理论 比例。 (二)选择计算公式 由于本例的属性类别分类数 k=4:自由 度df=k1=4-1=3>1,故计算2。 (三)计算理论次数 依据各理论比例9:3:3:1计算理论次数:
P( AB) P( A) P( B)
反过来,若事件A和事件B同时出现的概率等于它们分 别出现的概率的乘积,那么事件A 和事件B是独立的两者无 关联。若事件A和事件B 同时出现的概率不等于它们分布出 现的概率的乘积,则这两个事件间是有关联的。
例 7.3 的零假设是给药方式与给药效果之间无关联,则 口服与有效同时出现的理论频率应为口服的频率与有效的 频率的乘积,P(BA)=P(B)P(A)=(98/193)(122/193)。 其 理 论 数 T1 应 当 用 理 论 频 率 乘 以 总 数 得 出 , T1 = (98 / 193)(122/193)(193)=(98)(122)/193=61.15。同样可以 计算出另外三种情况的理论数。 (3)如吻合度检验那样计算2值。若2<2α,则观察数 与理论数是一致的, 给药方式与给药效果间无关联的假设 可以成立。若2>2α,则观察数与理论数不一致,说明给 药方式与给药效果间是有关联的,不同的给药方式产生不 同的效果。
比例发生了实质性的变化?
要回答这个问题: ①首先需要确定一个统计量用以表示实际观察次数与 理论次数偏离的程度; ②然后判断这一偏离程度是否属于抽样误差,即进行 显著性检验。
为了度量实际观察次数与理论次数偏离程度:
A:最简单的办法是求出实际观察次数与理论次数的 差数。如上表:O1-T1 =-10,O2-T2=10,由于这两个 差数之和为0,显然此方法不可行; B:计算∑(O-T)2,其值越大,实际观察次数与理论次 数相差亦越大,反之则越小。但尚有不足。例如某一 组 实 际 观 察 次 数为505、理论次数为500,相差5; 而另一组实际观察次数为26、 理论次数为21,相差亦 为5。
相关文档
最新文档