卡方检验与列联表
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7.944
生物统计学·卡方检验与列联表
生物统计学·卡方检验与列联表
独立性检验
对次数资料,除进行适合性检验外,有时需要分析两类因子是 相互独立还是彼此相关。 如研究两类药物对某种疾病治疗效果的好坏,先将患者分为两 组,一组用第一种药物治疗,另一组用第二种药物治疗,然后统 计每种药物的治愈人数和未治愈人数。 这时需要分析药物种类与疗效是否相关,若两者彼此相关,表 明疗效因药物不同而异,即两种药物疗效不相同;若两者相互 独立,表明两种药物疗效相同。 这种根据次数资料判断两类因子彼此相关或相互独立的假设检 验就是独立性检验。独立性检验实际上是基于次数资料对子因 子间相关性的研究。
例3. 某猪场用80头猪检验某种疫苗是否有预防效果。结果是注 射疫苗的44头中有 12 头发病,32头未发病;未注射的36头中 有22头发病,14头未发病,问该疫苗是否有预防效果? 发病 注射 未注射 n ·C 12(18.7) 22(15.3) 34 未发病 32(25.3) 14(20.7) 46 nR· 44 36 80 发病率 27.3% 61.1%
生物统计学·卡方检验与列联表
2检验基本概念
由(1)式计算的X2只是近似地服从连续型随机变量2分布。在对 次数资料进行2检验利用连续型随机变量2分布计算概率时, 常常偏低,特别是当自由度为1时偏差较大。 Yates(1934)提出了一个矫正公式,矫正后的X2值记为 X c2
X c2
i 1
生物统计学·卡方检验与列联表
适合性检验
(A T) X T 0.544 1.633 0.3 0.9 3.378
2 2
查临界2值,作出统计推断 当df=3时,20.05(3)=7.81,因 X2<2005(3), P>0.05,在 α=0.05水平不能否定H0 , 表明实际观察次数与理论次数差 异不显著,可以认为毛色与角的有无两对性状杂交 二 代 的 分 离 现 象 符 合 孟 德 尔遗传规律中9:3:3:1的遗传比例。
O--实际次数或观测次数; E--期望次数或理论次数
生物统计学·卡方检验与列联表
独立性检验
将公式(3)代入公式(1)中,经计算后得出:
X 2
i 1 j 1 R C
(Oij Eij ) 2 Eij
2 R C Oij N 1 i 1 j 1 n n i j
5. 查临界2值,作出统计推断 当自由度 df = 1 时, 查 得 20.05(1) =3.84,计算的 X2c<20.05(1), P > 0.05, 在0.05水平不能否定H0, 表明实际观 察次数与理论次数差异不显著,可以认为白色羊与黑色羊的比 率符合孟德尔遗传分离定律3:1的理论比例。
设n个相互独立的标准正态离差的平方和为X2 :
X 2 zi2 ( 1
n
xi
X2
)2
1
2
2 x ( ) i i 1
n
n个样本
2
2 ( ) x x i i 1
n 1 S 2
2
n 1 S 2
2
~ 2 n 1
生物统计学·卡方检验与列联表
Biblioteka Baidu
适合性检验
3. 计算理论次数 根据理论比率3∶1求理论次数: 白色理论次数:E1=260×3/4=195 黑色理论次数:E2=260×1/4=65 或 E2=260-E1=260-195=65
生物统计学·卡方检验与列联表
适合性检验
2 X 4. 计算 C
2 (| A T | 0.5) 2 XC T (|181 195 | 0.5) 2 (| 79 65 | 0.5) 2 195 65 3.739
生物统计学·卡方检验与列联表
2分布
随自由度的增大, 曲线由偏斜渐趋于对称。df≥30 时, 2分布近似正态分布
生物统计学·卡方检验与列联表
2检验基本概念
计数资料2 检验的基本思想: 首先假设观察频数(O)与期望频数(E)没有差别,而X2 值表 示观察值与理论值的偏差程度。当n较大时,X2 统计量近似服 从n-1个自由度的2 分布。
2 c
3.2 用公式(5)计算统计量(2×2列联表简化公式)
X
2 c
N ad bc N / 2
2
(a b)(c d )(a c)(b d )
2
12 14 32 22 80 / 2 80 44 36 34 46
n
( Oi Ei 0.5) 2 Ei
(2)
n-观测频数单元格总个数
当自由度大于1时,(1)式的X2分布与连续型随机变量2分布相近 似, 这时可不作连续性矫正, 但要求各组内的理论次数不小于5。 若某组的理论次数小于5, 则应把它与其相邻的一组或几组合 并,直到理论次数大 于5 为止。
生物统计学·卡方检验与列联表
生物统计学·卡方检验与列联表
适合性检验
1. 零假设与备择假设 H0:实际观察次数之比符合9:3:3:1的理论比例。 HA:实际观察次数之比不符合9:3:3:1的理论比例。 2. 选择计算公式 由于本例的属性类别分类数 k=4, 自由 度df = k-1 = 4-1 = 3 > 1,故利用(1)式计算X2。
生物统计学·卡方检验与列联表
2分布
设有一平均数为μ、方差为 σ2 的正态总体。现从此总体中 独立随机抽取n个随机变量:x1, x2, … ,xn,并将变量正态标 准化:
z1
x1
, z2
x2
, ... , zn
xn
2 2 z ~ n i i 1 n
生物统计学·卡方检验与列联表
独立性检验
独立性检验与适合性检验: 独立性检验与适合性检验是两种不同的检验方法,除了研究目的 不同外,还有以下区别: 1. 独立性检验的次数资料是按多个因子属性类别进行归组. 根据 多个因子属性类别数的不同而构成R×C列联表. 而适合性检验 只按某一因子的属性类别将如性别、表现型等次数资料归组。 2. 适合性检验按已知的属性分类理论或学说计算理论次数。独立 性检验在计算理论次数时没有现成的理论或学说可资利用,理 论次数是在两因子相互独立的假设下进行计算。 3. 在适合性检验中确定自由度时,只有一个约束条件:各理论次 数之和等于各实际次数之和,自由度为属性类别数减1; 独立性 检验的自由度为(R-1)(C-1)
X2:观察频数与期望频数残差平方除以期望频数的和。
2 ( O E ) 2 i X i Ei i 1 n
(1)
n – 观测频数单元格总个数
X2是度量实际观察次数与理论次数偏离程度的一个统计量, X2 越小, 表明实际观察次数与理论次数越接近; X2 =0, 表示两者 完全吻合; X2越大,表示两者相差越大。
生物统计学·卡方检验与列联表
独立性检验
3.1 用公式(2)计算统计量(自由度为1, 用矫正公式计算)
(|12 18.7 | 0.5) 2 (| 32 25.3 | 0.5) 2 X 18.7 25.3 (| 22 15.3 | 0.5) 2 (| 14 20.7 | 0.5) 2 15.3 20.7 7.944
生物统计学·卡方检验与列联表
独立性检验
如果理论频数由实际观测值所决定,则理论频数的计算公式为:
Eij
ni n j N
(3)
N — 观测频数总和 ni·-- 第 i 行观测频数总和 n·j— 第 j 列观测频数总和
理论(期望)观测值列联表
A A1 A2 … AR B B1 E11 E21 … ER1 B2 E12 E22 … ER2 … … … … … BC E1C E2C … ERC 理论频率 n1· /N n2· /N … nR· /N
生物统计学·卡方检验与列联表
适合性检验
3. 计算理论次数 依据各理论比例9:3:3:1计算理论次数: T1=360×9/16=202.5;T2=360×3/16=67.5; T3=360×3/16=67.5; T4=360×1/16=22.5。 或 T4=360-202.5-67.5-67.5=22.5
适合性检验
适合性检验的意义 判断实际观察的属性类别分配是否符合已知属性类别分配 理论或学说的假设检验称为适合性检验。 H0:实际观察的次数与期望次数之间没有差异 HA:实际观察的次数与期望次数之间有差异 若X2 (或X2c)<20.05,P>0.05,表明实际观察次数与理论次数 差异不显著; 若20.05≤X2 (或X2c)<20.01,0.01<P≤0.05,表明实际观 察次数与理论次数差异显著; 若X2 ( 或X2c)≥20.01,P≤0.01,表明实际观察次数与理论 次数差异极显著 。
生物统计学·卡方检验与列联表
适合性检验
例1. 在进行山羊群体遗传检测时,观察了 260只白色羊与黑 色羊杂交的子二代毛色,其中181只为白色,79只为黑色, 问此毛色的比率是否符合孟德尔遗传分离定律的3∶1比例? 1. 零假设与备择假设 H0:子二代分离现象符合3:1的理论比例。 HA:子二代分离现象不符合3:1的理论比例。 2. 选择计算公式 由于本例是涉及到两组毛色(白色与黑色),属性类别分 类数k=2,自由度df=k-1=2-1=1,须使用(2)式来计算X2c 。
生物统计学·卡方检验与列联表
适合性检验
例2. 在研究牛的毛色和角的有无两对相对性状分离现象时 , 用黑色无角牛和红色有角牛杂交 ,子二代出现黑色无角牛192 头,黑色有角牛78头,红色无角牛72头,红色有角牛18头, 共360头。试 问这两对性状是否符合孟德尔遗传规律中 9∶3∶3∶1的遗传比例?
2
总和 a+b c+d N
X
2 c
N ad bc N / 2 ( a b )( c d )( a c )( b d )
(5)
这一公式与公式(2)等同,但因为不需中间步骤且不需计算理 论观测值,所以计算较为简便一些
生物统计学·卡方检验与列联表
独立性检验
生物统计学 第10讲 卡方检验与列联表 2012.10
生物统计学·卡方检验与列联表
内容
卡方检验(Chi Squared Test, 2 Test) •2检验基本概念 • 适合性检验 • 独立性检验 - 列联表 (Contingency Table) - 2×2列联表 - R×C列联表 *总体 2检验 * 两两比较 2检验 • 配对资料McNemar’s Test Fisher确切概率检验 (Fisher’s Exact Test)
生物统计学·卡方检验与列联表
独立性检验
列联表 以列表方式表示两个(或多个)变量或属性共同出现的频率。 或 者是将两个属性变量的不同取值置于行和列的位置,在表格中 填入变量组合取值的频数的表格。见下表(R×C列联表) A A1 A2 … AR 列和 B B1 O11 O21 … OR1 n·1 B2 O12 O22 … OR2 n·2 … … … … … BC O1C O2C … ORC n·C 行和 n1· n2· … nR· N
生物统计学·卡方检验与列联表
独立性检验
1. 零假设与备择假设 H0:发病与否和注射疫苗无关,即二因子相互独立。 HA:发病与否和注射疫苗有关,即二因子彼此相关。 2. 采用公式(3)计算理论次数,计算结果填入上表,见括号中 的数据 T11 = 44×34/80 = 18.7 T12 = 44×46/80 = 25.3 T21 = 36×34/80 = 15.3 T22 = 36×46/80 = 20.7
(4)
N—观测频数总和 ni·--第i 行观测频数总和 n·j—第j 列观测频数总和 R—总行数; C—总列数 N = RC
后一表达式不需计算理论观测值的中间步骤,X2统计量的 计算可以一步完成,所以计算较为简便一些
生物统计学·卡方检验与列联表
独立性检验
2×2列联表统计算公式的简化 变量1 是 否 总和 变量2 是 a c a+c 否 b d b+d