第七章 卡方检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Ei
原因
由于检验的对象——次数资料是间断性
2
的,而χ 2分布是连续型的,检验计算所得的χ 值只是近似地服从χ 2分布,所以应用连续型的
χ 2分布的概率检验间断性资料所得的χ 2值就有
一定的偏差。 由次数资料算得的χ 2均有偏大的趋势,即概 率偏低。当df=1,尤其是小样本时,必须作连续 性矫正。
χ
2 c=
∑
( Oi-Ei - 0.5 )2
Ei
第二节:适合性检验
定义
适合性检验 比较观测数与理论数是否符合的假设检验 (compatibility test),也称吻合性检验或拟 合优度检验(goodness of fit test).。
用途1
判定样本实际分布与理论分布是否相等
正态分布 二项分布 泊松分布
三、χ2 检验的用途
适合性检验
独立性检验
同质性检验
适合性检验(吻合度检验)
是指对样本的理论数先通过一定的理
论分布推算出来,然后用实际观测值与理论
数相比较,从而得出实际观测值与理论数之
间是否吻合。因此又叫吻合度检验。
独立性检验
是指研究两个或两个以上的计数资料
或属性资料之间是相互独立的或者是相互
联系的假设检验,通过假设所观测的各属 性之间没有关联,然后证明这种无关联的 假设是否成立。
4.44
(1) H0:本资料服从泊松分布 ;HA:本资料不服从泊松分布
(2)取显著水平α =0.05 (3)计算统计数χ
2
:
2 (O-E) 2 =4.44 E
(4)查χ2值表,当df=7-2=5时,χ20.05 = 11.07。现实得χ2 =4.44<χ20.05 ,故接受H0 , 拒绝HA ,即认为本资料服从泊松分布 。
理论值(E)
3459.5 3459.5 6919
O-E
-22.5 +22.5 0
由于差数之和正负相消,并不能反映实 际观测值与理论值相差的大小。
为了避免正、负相抵消的问题,可将实际
观测值与理论值的差数平方后再相加,也就是
计算:
∑(O-E)2
O--实际观察的频数 E--无效假设下的期望频数
玉米花粉粒碘反应观察值与理论值
同质性检验
在连续型资料的假设检验中,对一个样
本方差的同质性检验,也需进行χ2 检验。
第一节: χ2检验的原理与方法
χ2检验的基本原理 χ2检验统计量的基本形式 χ2值的特点 χ2检验的基本步骤
χ2检验的注意事项
χ2检验就是统计样本的实际观测值与理论推
算值之间的偏离程度。 实际观测值与理论推算值之间的偏离程度就决 定其χ2值的大小。理论值与实际值之间偏差越大, χ2值就越大,越不符合;偏差越小,χ2值就越小, 越趋于符合;若两值完全相等时, χ2值就为0,
=(98 × 122)/193=61.95
即Eij=Ri×Cj/T=行总数×列总数/总数
E11= R1 × C1/T=61.95
E21= R2 × C1/T=60.05
E12= R1 × C2/T=36.05
E22= R2 × C2/T=34.95
给药方式与给药效果的2×2列联表
给药方式 有效 无效 总数
2×2 列联表的一般形式
列(j) 行(i)
c1
O11 O21 C1= O11 + O21
c2
O12 O22 C2= O12 + O22
总和
r1 r2
总和
R1= O11 + O12 R2= O21 + O22 T
Row
行 ; Column 列
检验步骤
1.提出无效假设H0 :事件A和事件B无关,
同时给出HA :事件A和事件B有关联关系; 2.给出显著水平α 3.依据H0 ,可以推算出理论数,计算χ2值 4.确定自由度,df=(r-1)(c-1),进行推断。 χ χ
第七章
卡方检验----离散型资料
卡方检验的原理与方法; 适合性检验; 独立性检验; 同质性检验
资
料
连续型资料
离散型资料
大样本
小样本
检验
2
u检验
u检验
t检验
进行U 检验的条件是什么?
概 述
一、χ2检验的定义
二、χ2检验与连续型资料假设检验的区别
三、χ2检验的用途
一、χ2 检验的定义
χ2 检验(Chi-square test) 对样本的频数分布所来自的总体
分布是否服从某种理论分布或某种假
设分布所作的假设检验,即根据样本
的频数分布来推断总体的分布。
二、χ2检验与连续型资料假设检验的区别
χ2 检验 数据资料 总体 检验对象
离散型资料 总体分布是未知的
连续型资料假设检验
连续型资料 正态分布 对总体参数或几个总体 参数之差
不是对总体参数的检 验,而是对总体分布 的假设检验
χ2= ∑
(Oi-Ei)2
Ei
χ2 值就等于各组观测值 和理论值差的平方与理论值 之比,再求其和。
χ2值的特点
可加性
非负值
随O和E而变化 χ2= ∑
(Oi-Ei)2 Ei
χ2值与概率P成反比, χ2值越小,P值越大,说 明实际值与理论值之差越小,样本分布与假设的理论 分布越相一致;
χ2越大,P值越小,说明两者之差越大,样本分
2
E
61 .95
60 .05
2
36 .5
34 .95
1.057
4.查χ2表,当df=1时, χ20.05 =3.841,而 χ2c =0.863< χ20.05 , P>0.05,应接受
H0 ,拒绝HA ,说明给药方式与给药效果相互
独立.
2 × 2列联表的χ2检验可利用以下简式而不必计 算理论次数:
r×c列联表的独立性检验
独立性检验(independence test)
又叫列联表(contigency table)χ2 检验,它是研究两个或两个以上因子彼此之 间是独立还是相互影响的一类统计方法。
(一)2×2列联表的独立性检验
设A,B是一个随机试验中的两个事件,其中A 可能出现r1 、r2个结果,B可能出现c1、c2个结果, 两因子相互作用形成4格数,分别以O11 、O12 、 O21 、O22表示,下表是2×2列联表的一般形式
2 c
O O
什么类型事件的分布通常服从于泊松分布?
适合性检验的df由于受理论值的总和等于 观测值总和这一条件的约束,故df=n-1
300个单位容积内的细菌计数结果如下表,问此资料是 否服从泊松分布?
单位容积内 观察频数O 细菌数X 0 26 1 51 2 84 3 70 4 42 5 15 6 9 7 3 合计 300(n) 概率
用 途2
用它来检验实验结果是否符合各种规律.
孟德尔分离规律 自由组合定律
例:有一鲤鱼遗传试验,以红色和青灰色杂交,其F2 代获得不同分离尾数,问观测值是否符合孟德尔 3:1遗传定律.
体色 F2观测尾数
青灰色 1503
红色 99
总数 1602
本例为判断典型的两组数据的适应性检验
(1)H0:鲤鱼体色分离符合3:1,
122(C1)
71(C2)
193(T)
计算χ2值:由于df=(r-1)(c-1)=(2-1)(2-1)=1, 故所计算的χ 2值需进行连续性矫正:
2
O E 0.5 58 61.95 0.5 64 60.05 0.5
2 2
2
40 36.5 0.5 31 34.95 0.5
(2)确定显著水平α=0.05
HA:不符.
(3)计算χ2:由于理论资料k=2,df=2-1=1,
需要进行连续性矫正. 假设H0正确时,青灰色E1和红色E2理论数: E1=1602×3/4=1201.5 E2=1602×1/4=400.5
将数据代入公式得:
(| Oi Ei | 0.5) 2 c2 Ei i 1
0.082910
理论频数E
24.9
2 (O-E) E
0.05
0.206446 0.257025 0.213331 0.132798 0.066134 0.027445 0.013911 1.000000
61.9 77.1 64.0 39.8 19.8 8.2 4.2 300
1.92 0.62 0.56 0.12 1.16 0.01
口服 注射
总数
58(61.95) 64(60.05)
122(C1)
40(36.05) 31(34.95)
71(C2)
98(R1) 95(R2)
193(T)
给药方式 口服 注射
有效 58(61.95) 64(60.05)
无效 40(36.05) 31(34.95)
总数 98(R1) 95(R2)
总数
碘反应 蓝色
非蓝色 总数
观察次数(O) 3437
3482 6919
理论次数(E) 3459.5
3459.5 6919
O-E -22.5
+22.5 0
(O-E)2 506.25
506.25 1012.5
(Oi Ei ) 2
值越大,观测值与理论值相差也
就越大,反之越小。
为了弥补这一不足,可先将实际观测值与理
要回答这个问题,首先需要确定一个统计
量,将其用来表示实际观测值与理论值偏离的
程度;然后判断这一偏离程度是否属于抽样误
差,即进行显著性检验。
判断实际观测值与理论值偏离的程度, 最简单的办法是求出实际观测值与理论值的 差数。
玉米花粉粒碘反应观察值与理论值
碘反应
蓝色 非蓝色 合计
观察值(O)
3437 3482 6919
论值的差数平方,即(O-E)2,再用差数的平方 除以相应的理论值,将之化为相对数,从而来反 映(O-E)2 的比重,最后将各组求和,这个总 和就是χ2 。
χ2= ∑
(Oi-Ei)2 Ei
玉米花粉粒碘反应观察值与理论值
碘反应 蓝色 非蓝色 总数 观察次数(O) 3437 3482 6919 理论次数(E) 3459.5 3459.5 6919 O-E -22.5 +22.5 0 (O-E)2/E 0.1463 0.1463 0.2926
χ χ
2 2
< χ > χ
2 2
α α
P > α P < α
H0 H0
Βιβλιοθήκη Baidu
HA HA
χ2检验的注意事项
1、任何一组的理论次数Ei 都必须大于5,如果Ei ≤5,则需要合并理论组或增大样本容量以满足Ei >5 2、在自由度=1时,需进行连续性矫正,其矫正 的χ2c为:
χ2= ∑ ( Oi-Ei - 0.5 )2
(4)查χ2值表,当df=1时,
2 0.05
SPSS的适合性检验
输入数据
在 Variable view 中 的 label 中输入
由于上例给出的是频数值,因此要先用Weight Cases对话框指定频数变量
第三节:独立性检验 独立性检验的定义
2×2 列联表的独立性检验 2×c列联表的独立性检验
表明理论值完全符合。
原理
理论值
观测值
Ⅰ
Ⅱ
Ⅲ
χ2检验统计量的基本形式
χ2= ∑ (Oi-Ei)2 Ei
O--实际观察的频数(observational frequency) E--无效假设下的期望频数(expectation frequency)
玉米花粉粒碘反应观察值与理论值 碘反应 蓝色 非蓝色 合计 观察值(O) 3437 3482 6919 理论值(E) 3459.5 3459.5 6919
k
(| 1503 1201.5 | 0.5) 2 (| 99 400.5 | 0.5) 2 1201.5 400.5 75.41 226.22 301.63
. 3.84 c2 02.05 故应应否定H0,接受HA.即认为鲤鱼体色 F2分离不符合3:1比率.
布与假设理论分布越不一致。
1.提出无效假设H0
Χ2 检验的基本步骤
观测值与理论值的差异由抽样误差引起,即
观测值=理论值。同时给出相就的备择假设HA : 观测值与理论值的差值不等于0,即观测值≠理
论值
2.确定显著水平α 一般确定为0.05或0.01
3.计算样本的χ 2值
建议SPSS等统计软件!
4.进行统计推断
2.给出显著水平α =0.05
3.根据H0,运用概率乘法法则:事件A与事件B同时
出现的概率为:P(AB)=P(A)P(B)
口服与有效同时出现的理论频率=口服频率×
有效频率,即P(AB)=P(A)P(B)=98/193 ×122/193
理论频数Ei=理论频率×总数
= (98/193 ×122/193) ×193
2
>χ <χ
2
α
P < α
H0
HA
2
2
α
P >α
H0
HA
给药方式与给药效果的2×2列联表 给药方式
口服 注射
有效
58 64
无效
40 31
总数
98(R1) 95(R2)
有效率
59.2% 67.4%
总数
122(C1)
71(C2)
193(T)
1.H0 :给药方式与给药效果相互独立。
HA :给药方式与给药效果有关联。