25列联表的独立性检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
nij为观测频数,n ij 理论频数.
H0成立,即nij ni g j成立,对i 1, 2L , r, j 1, 2,L , s.
检验基本思想:
如果H
0成立,n较大时,理论频数n
i
与相应的
j
观测频数nij相差均不应很大。
H0成立
n 检验统计量
r
Q2
r
s
(nij
-n
i
)i21Байду номын сангаас
j
i1 j1 ni g j
Fisher精确检验的统计量
假设边缘频数 n1,n2,n1,n2 都固定
ij n ij n i g
s (观测频数-理论频数)2
j 1
理论频数
称为Pearson 2 统计量
j
.
如果H 0成立,Q2的值应较小.
拒绝域形式Q2 c.
因为ˆi
ni n
,ˆ j
n j n
.
r
Q2
s
nij
nin j n
2
r
s
2
nnij nin j
i1 j1
nin j
i1 j1
p2 P(B | A)
表示没有属性A的个体中有属性B的条件概率
如果p1=p2, 则属性A和属性B相互独立
即有属性A的个体中有属性B的个体的频率与没有
属性A的个体中有属性B的个体的频率应该没有显
著的差异.
即有 n11 n21
n1 n2+
如果p1 p2, 表示有属性A的个体中有属性B的比例高
即
n11 ? n21 n1 n2+
若A, B独立 ij i g j ,i 1, 2L r, j 1, 2,L s.
原假设 H0:A, B独立
即为ij i g j ,i 1, 2L , r, j 1, 2,L , s成立.
备则假设 H1:A, B不相互独立
即为至少(i, j), 使ij i g j .
(A, B)的观测值为对应的列联表(观测次数n),
2.5 列联表的独立性检验
一、二维r s列联表
设A, B为两个定性变量,A有r个不同水平(A1,A2 L , Ar ),
B有s个不同水平(B1,B2 L , Bs ).观测n次, 各水平组合(Ai ,Bj )
出现频数为nij. 列表如下: 二维 r s 列联表
s
令:ni nij j 1
A
B B1,
15
20
35
女
13
18
31
n
合 计 28
38
66
(1)建立假设
H 0:体育达标水平与性别无关 H1:体育达标水平与性别有关
(2)计算
Q
2
值,理论频
数
n
i
j
=
ni n n
j
估计为:
35 28 14.85 35 38 20.15
66
66
31 28 13.15 66
31 38 17.85 66
Q2 (15 14.85)2 (20 20.15)2 (13 13.15)2 (18 17.85)2
其中的吸烟人数.
吸烟 不吸烟
总计
吸烟与肺癌列联表
患肺癌 不患肺癌
60
32
3
11
63
43
总计 92 14 106
二、二维r s列联表的独立性检验
设A, B为随机变量,A取值A1,A2 L , Ar ,
B取值为B1,B2 L
,
Bs
.取值(Ai
,B
j
)的概率为
,
ij
i , j为A, B的边缘分布. 列表如下:
A1
n11
L B2 , L n12
r
n j nij i 1
rs
n
nij =n
i1 j 1
A2
n21
L n22
M MM
Ar
L nr1 nr 2
L 合计 n1
n 2
Bs
合计
n n1s
1
n n2s
2
MM
nrs nr
ns n n
为了调查吸烟是否对肺癌有影响,对632位×2列 肺癌患者及43位非患者(对照组)调查了联表
92页例2.14自己看
在使用Pearson 2 独立性检验时, 要注意格子
的期望频数小于5的格子数不超过总格子数的20%, 且没有一个格子的期望频数小于1
不满足时, 用Pearson近似效果很差, 一般采用 Fisher精确检验.
2.5.2 Fisher精确检验
Fisher精确检验对于单元频数小的表格特别适用 四表格的Fisher精确检验
14.85
20.15
13.15
17.85
0.006
(3)统计决断: 首先确定自由度 df ,本例
df
=1,查 df
=1
的
2
表,
2 (
0.05() 1)=3.84,故有
2 < . 2(0.05() 1)
因此在0.05显著性水平下,接受原假设.
其结论为:体育达标水平与性别无关.
R函数chisq.test ( )
nnin j
如果H0成立,Qn2渐近服从自由度为(r -1() s -1)
的 2分布.
例1 随机抽取某校男生35名,女生31,进行
体育达标考核,结果如下表 问体育达标水平是
否与性别有关?
r
Q2
s
nij
nin j n
2
i1 j1
nin j
体育达标考核情况表 达 标 未 达 标合 计
男
如果p1 p2,表示有属性A的个体中有属性B的比例低
即
n11 n21
n1 n2+
四表格的检验问题, 即属性A和B的独立性检验问题有
(1) H0 : p1=p2, H1 : p1 p2 (2) H0 : p1=p2, H1 : p1 p2 (3) H0 : p1=p2, H1 : p1 p2
R程序如下 >x<-matrix(c(15,13,20,18),nr = 2) >chisq.test(x, correct=F) 输出结果为 Pearson's Chi-squared test data: x
X-squared = 0.0057, df = 1, p-value = 0.9397 因此在0.05显著性水平下,接受原假设.
B A
A1 A2
M
Ar j
r s 列联表的联合及边缘分布列
B1,
L B2 ,
L 11
12
L 21
22
Bs
i
1s
1
2s
2
MM L r1 r 2
L 1 2
MM
rs
r
s 1
s
i ij , i 1, 2,L , r j 1
r
j ij , j 1, 2,L , s. i 1 rs 1 ij. i1 j 1
频数四表格
B
A
n11
A
n21
n+1
对应的概率四表格
B
A
p11
A
p21
p+1
B 合计
n12
n1+
n22
n2+
n+2
n++
B 合计
p12
p1+
p22
p2+
p+2 1
假设边缘频数 n1,n2,n1,n2 固定
n11,n21 分别服从二项分布 B(n1+,p1)和B(n2+,p2 ) 其中,p1=P(B | A), 表示有属性A的个体中有属性B的条件概率