生物统计学—卡方检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
卡方 (c2) 分布
总体
m
选择容量为n 的 简单随机样本 计算样本方差S2
计算卡方值
c2 = (n-1)S2/σ2
计算出所有的
c 2值
不同容量样本的抽样分布
n=1 n=4 n=10 n=20
c2
卡方 (c2) 分布的特点
不同容量样本的抽样分布
1、 c2分布是一个以自由度n为参数
的分布族,自由度n决定了分布的 形状,对于不同的n有不同的卡方 分布
2
2 0
,
适用双尾检验,
其否定区为:c 2
c2 1
和c
2
c
2
2
2
例:已知某农田受到重金属污染,经抽样测定铅浓度分别为:
4.2, 4.5, 3.6, 4.7, 4.0, 3.8, 3.7, 4.2 (ug/g),方差为0.150, 试检验受到
污染的农田铅浓度的方差是不是和正常浓度铅浓度的方差
体色 F2理论尾数
青灰色 1201.5
红色 400.5
总数 1602
k
cc2 i 1
Oi Ei
0.5 2 301.63
Ei
(4)推断:由CHIDIST(301.63, 1)=1.45E-67,即P c 2 301 .63 0.01
故应否定H0,接受HA,认为鲤鱼体色F2性状比不符合3:1比率
Pearson定理:当(P1,P2,…,Pk)是总体的真实
概率分布时,统计量 c 2 k ni npi 2 i1 npi
随着n的增加渐近于自由度df=k-1的卡方分布。其中
P1,P2,…,Pk为k种不同属性出现的频率,n为样 本容量,ni为样本中第i种属性出现的次数,是观
测值,记为Oi,pi为第i种属性出现的概率,npi则
4
79
50岁以上
10
11
23
5
49
总和
109
43
53
14
219
分析:1)独立性检验问题 2) 自由度为df=(4-1)*(3-1)=6,不需要连续性矫正
解:(1)假设 H0 : 治疗效果与年龄无关 对 H A : 治疗效果与年龄有关
(2)选取显著水平 0.05
(3)检验计算: 计算联表中的各项的理论次数
反之,如果样本不是抽自由(P1,P2,…,Pk) 代表的总体,Oi和Ei之间的差异就不只是是随机 误差,从而使计算出的统计量有偏大的趋势
因此,对Pearson统计量进行单尾检验(即 右尾检验)可用于判断离散型资料的观测值与理 论值是不是吻合
卡方检验的原理和方法
统计假设: H0:观测值与理论值的差异是由随机误差引起 HA:观测值与理论值之间有真实差异
c2
(k
1)s 2
2
8 1 0.150
0.065
16.15
(4)推断:当df=8-1=7,由CHIINV(0.025,7)=16.01,即
c
2
c 2 0.025
否定H0,接受HA,即样本方差与总体方差
试不同质的,认为受到污染的农田铅浓度的方差与正
常农田的方差有显著差异
卡方检验的原理和方法
n=1 n=4 n=10
n=20
2、卡方分布于区间[0, ),是一种 非对称分布。一般为正偏分布 c2
3、卡方分布的偏斜度随自由度降低而增大,当自由度
为1时,曲线以纵轴为渐近线;当自由度增大的时,
分布曲线渐趋近左右对称,当自由度大于等于30的
时候,卡方分布接近正态分布
4、卡方分布具有“可加性” X、Y 独立,
鲤鱼遗传试验F2观测结果
体色
青灰色
红色
总数
F2观测尾数 1503
99
1602Biblioteka Baidu
分析:1)适合性检验问题 2) 自由度为(2-1)=1,需要连续性矫正
解:(1)假设 H0 : 鲤鱼体色F2性状分离符合3:1 对 H A : 鲤鱼体色F2性状分离不符合3:1
(2)选取显著水平 0.05
(3)检验计算: 计算鲤鱼体色的理论值
总和Cj
患病 33 22 55
不患病 267 178 445
总和Ri 300 200
T=500
k
cc2 i 1
Oi Ei
0.5 2 23.174
Ei
(4)推断:由CHIDIST(23.174, 1)=1.48E-6,即 P c 2 23.174 0.01
故应否定H0,接受HA,认为吸烟与患气管病极显著相关
(4)推断:由CHIINV(0.025,
1)=6.63,
即
cc2
c2 0.05(1)
,即P
0.05
故应否定H0,接受HA,认为吸烟与患气管炎病密切相关
二、rXc列联表的独立性检验
rXc列联表是指r>2, c>2的计数资料,一般形式如下 rXc列联表的一般形式
1
2
…
c
总和
1
O11
O12
…
O1c
R1
2
O21
O22
…
O2c
R2
……
…
…
…
r
Or1
Or2
…
Orc
总和 C1
C2
…
Cc
T
二、rXc列联表的独立性检验
rXc列联表中各项理论频率的计算方法如2X2列联
表,即:Eij=(RiCj/T),由于自由度df=(r-1)( c-1),由 于r>2, c>2,故自由度df>1,因而不需要进行连续性矫
总和Ri 300 200
T=500
分析:1)独立性检验问题 2) 自由度为df=(2-1)*(2-1)=1,需要连续性矫正
解:(1)假设 H0 : 吸烟与患气管炎无关 对 H A : 吸烟与患气管炎有关联
(2)选取显著水平 0.05
(3)检验计算: 计算联表中的各项的理论次数
不同人群 吸烟人群 不吸烟人群
X ~ c2(n1) ,Y ~ c2(n2) 则 X + Y ~ c2(n1+ n2)
卡方 (c2) 分布的函数
CHIDIST:自由度为n的卡方分布在x点处的单尾概率 Pc 2 x
CHIINV: 返回自由度为n的卡方分布的单尾概率函数的逆函数
CHIDIST X
Degrees_freedom
1
46.988
(4)推断:由CHIDIST(46.988, 6)=1.88E-8,即 P c 2 23.174 0.01
年龄 11~30 31~50 50岁以上
总和
治愈 45.29 39.32 24.39
109
显效 17.87 15.51 9.62
43
好转 20.02 19.12 11.86
53
无效 5.82 5.05 3.13 14
总和 91 79 49 219
c2 T
Oi2j RiC
j
所以卡方值是度量实际观测值与理论值偏南 程度的一个统计量
卡方值越小,表明观测值与理论值越接近 卡方值越大,表明观测值与理论值相差越大 卡方值为0,表明H0严格成立,且它不会有下侧 否定区,只能进行右尾检验
卡方检验的原理和方法
由于离散型资料的卡方检验只是近似地服从连 续型变量的卡方分布,所以在对离散型资料进行 卡方检验计算的时,结果常常偏低,特别是当自 由度df=1时,有较大偏差,为此需要进行矫正:
再和计算的卡方值进行比较。 如果接受假设,则说明因子之间无相关联,
是相互独立的 如果拒绝假设,则说明因子之间的关联是显
著的,不独立
一、2X2列联表的独立性检验
设A、B是一个随机试验中的两个事件,其中A可能
出现r1、r2个结果,B可能出现c1、c2个结果,两 因子相互作用形成4个数,分别以O11、O12、O21、 O22表示,即
k
cc2 i 1
Oi Ei 0.5 2 Ei
当自由度df>1时,与连续型随机变量卡方分相
近似,这时可以不做连续性矫正
注意:要求各个组内的理论次数不小于5,如某 组理论次数小于5,则应把它与其相邻的一组或 几组合并,知道理论次数大于5为止
适合性检验
适合性检验(吻合性检验或拟合优度检验) 步骤:
可以看成理论上该样本第i种属性出现的次数,理
论值记为:Ei,即 k c2
Oi Ei 2 , (df k 1)
i1
Ei
卡方检验的原理和方法
Pearson定理的基本含义:
如果样本确实是抽自由(P1,P2,…,Pk)代 表的总体,Oi和Ei之间的差异就只是随机误差, 则Pearson统计量可视为服从卡方分布
c2
1
2
xx 2
将样本方差代入,则:c 2
(k
1) s 2
2
其c2服从自由度为(k-1)的卡方分布
卡方函数的使用
假设
H 0:
2
2 0
,
适用右尾检验 ,其否定区为: c 2 c2
假设
H 0:
2
2 0
,
适用左尾检验
,其否定区为:
c
2
c2 1
假设
H 0:
2X2列联表的一般形式
r1 r2 总和
c1 O11 O21 C1=O11+O21
c2 O12 O22 C2=O12+O22
总和 R1=O11+O12 R2=O21+O22
T
一、2X2列联表的独立性检验
2X2列联表的卡方检验步骤:
1、提出无效假设H0:事件A和B无关,即事件A和B 相互独立,同时给出HA:事件A和B有关联关系
(0.065)相同
分析:1)一个样本方差同质性检验
2)事先不知道受污染的农田与正常农田的铅浓度
方差的大小,故双尾检验
解:(1)假设 H 0: 2 0.065 即受到污染的农田铅浓度的方差与 正常农田铅浓度的方差相同,对 H A: 2 0.065
(2)选取显著水平 0.05
(3)检验计算
(4)推断:由CHIINV(0.025,
1)=5.02,
即
cc2
c2 0.05(1)
,即P
0.05
故应否定H0,接受HA,认为鲤鱼体色F2性状比不符合3:1比率
独立性检验
步骤: 1. 提出无效假设,即认为所观测的各属性之间
没有关联 2. 规定显著性水平 3. 根据无效假设计算出理论数 4. 根据规定的显著水平和自由度计算出卡方值,
1. 提出无效假设,即认为观测值和理论值之间 没有差异
2. 规定显著性水平 3. 计算样本卡方值 4. 根据规定的显著水平和自由度计算出卡方值, 再和实际计算的卡方值进行比较
例:有一鲤鱼遗传试验,以荷包鲤鱼(红色,隐性)与湘江 野鲤(青灰色,显性)杂交,其F2获得下表的所列的体色分 离尾数,问这一资料的实际观测值是否符合孟德尔一对等位 基因的遗传规律?
需要计算分布的数字 (X>0) 自由度
CHIINV Probability Degrees_freedom
卡方分布的单尾概率 自由度
卡方检验基础
c2检验是以c2分布为基础的一种假设检验方 法,主要用于分类变量,根据样本数据推断 总体的分布与期望分布是否有显著差异,或 推断两个分类变量是否相关或相互独立。
卡方检验基础
c2值的计算:
c 2 ( A E)2
E
由英国统计学家Karl Pearson首次提出,故被 称为Pearson c2 。
卡方检验基础-用途
检验某个连续变量的分布是否与某种理论分布一致,如是否符合正态 分布等
检验某个分类变量各类的出现概率是否等于指定概率 检验两个分类变量是否相互独立,如吸烟是否与呼吸道疾病有关 检验控制某种或某几种分类变量因素的作用之后,另两个分类变量是 否独立,如上例控制年龄、性别之后,吸烟是否与呼吸道疾病有关 检验两种方法的结果是否一致,如两种诊断方法对同一批人进行诊断, 其诊断结果是否一致
应用统计学
第五章 卡方检验
卡方 (c2) 分布
设总体服从正态分布N ~ (μ, σ2 ), X1,X2, …,Xn为来自该正态总体的样本,则样本 方差 s2 的分布为
(n 1)s2
2
~
c 2 (n 1)
将c2(n – 1)称为自由度为(n-1)的卡方分布
主要适用于对拟合优度检验和独立性 检验,以及对总体方差的估计和检验等
正,其计算公式如下:
c2 T
Oi2j RiC
j
1
例:某医院用碘剂治疗地方性甲状腺肿,不同年龄的治疗效 果如下表,试检验不同年龄的治疗效果有无差异?
不同年龄用碘剂治疗甲状腺肿效果比较
年龄
治愈
显效
好转 无效 总和
11~30
67
9
10
5
91
31~50
32
23
20
卡方检验的用途
同质性检验 适合性检验 独立性检验
一个样本方差和 总体方差是否相同
观察值和理论 值是否符合
两个或两个以 上因素之间是 否相关
计数 资料
和 属性 资料
一个样本方差的同质性检验
从标准正态总体中抽取k个独立u2之和为卡
方c2
c2
x
m2
1
2
x
m 2
当用样本平均数估计总体平均数时,有:
2、给出显著水平 3、依据H0,可以推算出理论值,计算卡方值 4、进行推断
例:现随机抽样对吸烟人群和不吸烟人群是否患有气管炎病 进行了调查,其调查结果如下表,试检验吸烟与患气管炎病 有无关联?
不同人群患气管炎病调查
不同人群 吸烟人群 不吸烟人群 总和Cj
患病 50 5 55
不患病 250 195 445