卡方检验.分类变量资料统计推断
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表1 慢性支气管炎病例组与对照组的吸烟率比较
分组
吸烟
不吸烟
合计 发病率(%)
对照组(R1) 病例组(R2)
合计
374 (5Baidu Nhomakorabea5.2) 344(152.8)
718
1364(1172.8) 126 (317.2)
1490
1738 470 2208
21.52 73.19 32.52
TRC
nR nC n
TRC为第R行第C列的理论频数
b
(a b)(b d ) 2 a b c d
d
(c a
d )(b d ) 2 b c d
(a b)(a c)
(a b)(b d )
(c d )(b d )
abcd
abcd
abcd
(ad bc)2 n
(a b)(c d )(a c)(b d)
1 ; (四格表专用公式)
国人Karl.Pearson(1857-1936) 于1900年提出的一种具有广泛用途 的统计检验方法。
用途: 两个及多个样本率或构成比的比较 两分类变量间的关联分析 频数分布的拟和优度检验
第一节 2检验概述
一、 2检验的基本思想 2分布(chi-square distribution): 2分布是
检验P值。 2.双侧检验
若两样本|p1-p2|=D,则取|p1-p2|≥D的各种组合累计概率之和 为双侧检验P值。
当a+b=c+d,或a+c=b+d时,四格表的全部组合对称,则可 只算一侧。再乘以2倍即是双侧检验累计的总组合概率。
本例应计算P10、P11、P12、P13
P P(10 ) P(11) P(12 ) P(13) 0.024
第四节 行列表资料2检验
基本公式:
2
(A T )2 T
和四格表 资料的公 式一致
简化公式:
2 n(
A2 RC 1) nR nc
二、四格表资料2检验的专用公式
• 例1
2
(ad bc)2 n
(a b)(c d )(a c)(b d )
(374 126 1364 344)2 2208 450.1 1738 470 7181490
二、四格表资料2检验的校正公式
• 2界值表是根据连续性的理论分布计算出来的,但分类变 量资料属于非连续性分布,由此计算出的2值也是不连续 的,仅是2分布的一种近似,尤其是自由度为1的四格表, 当n与T较小时,所得的P值较小,须做连续性校正:
2 0.01,1
,6.6则3
P<0.01。按=0.05水准,拒绝H0,接受
H1,说明两组总体吸烟率不等,即可以认为病例组吸烟率高于对照组,
提示吸烟可能是慢性支气管炎的危险因素之一。
(二)四格表资料2检验的专用公式
组别 A组 B组 合计
阳性 a c
a+c
阴性 b d
b+d
合计 a+b c+d a+b + c+d
1.2分布
(2)2具有可加性
若x1
~
2 ,1
,
x2
~
2 , , 2
(x1+ x2)~
2 ( , 1 2)
(3) 2界值(P823,附表8) 自由度一定时,x2值越大, P值越小。
若 2
2 ,
,
P
2.2检验的基本思想
【例10-1】 某课题组对某地区60岁以上男性人群进行现况调查,筛选慢 性支气管炎的危险因素,其中吸烟因素的数据如表10-1所示,试比较该地慢 性支气管炎患者人群(病例组)与非慢性支气管炎患者人群(对照组)的吸 烟率有无差异?
26
合计 13 29 42
有效率(%) 15.38 48.28 38.10
例2 :
• n=41,T11=4.95<5, H0 :1=2,… H1 :12,…
=0.05
应计算校正值
2 c
( A T 0.5)2 T
2 c
215 1114 42 2 2 42 2.84
13 2916 26
P=
n!(f-r)!
式中n为两组总例数,f为出现“0”现象对立组的合计 数,r为出现“0”现象对立组的阳性数。
第四节 完全随机设计RC表资料2检验
①多个样本率的比较时,有R行2列,称为R×2表; ②两个样本的构成比比较时,有2行C列,称为2×C表;
③多个样本的构成比比较,以及双向无序分类资料关联
性检验时,称为R×C表。
2.计算检验统计量
T11、T12、T21、T22
470 718 T21 2208 152.8
2 (374 565.2)2 (1364 1172.8)2 (344 152.8)2 (126 317.2)2 450.1
565.2
1172.8
152.8
317.2
3.确定P值,推断结论
查2界值表可知,2
2 0.05,1
3.84
P>0.05….
若未进行校正, 2= 4.12,则P<0. 05
第三节 完全随机设计 四格表资料的Fisher确切概率法
也称Fisher′s精确概率检验;也称四格表确
切概率法。不属于2检验范围,但可作为四格表2
检验应用上的补充。
一、Fisher确切概率法的基本思想
在四格表的周边合计不变的条件下,直接计算表内
2
(ad bc)2 n
, 1
(a b)(c d )(a c)(b d )
二、四格表资料2检验的专用公式
为了不计算理论频数T, 可由基本公式推导出,直接由 各格子的实际频数(a、b、c、d)计算卡方值的公式:
基本公式: 2 (A T )2 T
a
(a b)(a c) 2 a b c d
一种连续型分布,按分布的密度函数可给出不同自由
度的一簇分布曲线。2分布的形状依赖于自由度的大
小。
纵高
0.5 0.4 0.3 0.2 0.1 0.0
0
1.2分布
f
( 2 )
1
2(
/
2)
2
2
( / 21)
e2 /2
自由度=1 自由度=2 自由度=3 自由度=6
3 3.84 6 7.81 9
1122.59 15
❖ 2.当总例数n≥40且有格子的1≤T<5时,用Pearson校正2
检验(包括基本公式校正法和专用公式校正法)或Fisher确切概 率法。
❖ 3.当n<40或T<1时,只能用Fisher确切概率法。
一、Pearson2检验的步骤
(一)基本公式法
1.建立假设,确定检验水准
H0 :1=2,… H1 :12,… =0.05
18
卡方值
P=0.05的临界值
1. 2分布
(1)由2分布曲线可见: ①当v≤2,曲线呈L型 ②当v 增加,曲线趋于对称 ③当v→∞时, 2分布趋近正态分布。 当v=1时, 2 =u2
2 0.05(1)
3.84
(1.96)2
u2 0.05/ 2
2 0.01(1)
6.63
(2.5758)2
u2 0.01/ 2
• n ≥ 40,且Tmin>5时,用2检验基本公式和专用公式 • n≥ 40,但1<Tmin<5时,用2检验校正公式
• n<40,或Tmin<1时,或P≈α用四格表Fisher确切概率法
二、四格表资料2检验的校正公式
校正公式:
2 c
( A T 0.5)2 T
( ad bc n)2 n
2 c
7
8
8
6
9* 9
5
10 10
4
11 11
3
无效
6 6 5 7 4 8 3 9 2 10
A-T
Pi
0 0.304902
1 0.228677
2 0.095282
3 0.021174
4 0.00231
1.建立假设、确定检验水准α。
H0:π1 =π2,即两种方法治疗腰椎间盘突出症的有效率相同 H1:π1 ≠π2,即两种方法治疗腰椎间盘突出症的有效率不同 α=0.05
立事件的概率之积。
抓中三个黑球的概率: P(3)=0.5×0.5×0.5=0.125
抓中两黑一白的概率: P(2)=3×0.125=0.375
定理:在几个互不相容的事件 中,任一事件发生的概率等于
这几个事件的概率之和。
P(X)
0.4
0.3
0.2
0.1
0 0
1 图A 2n=5,3π=0.4 5
5 X
4个实际数据变动时的各种组合之概率Pi,再按检验假 设用单侧或双侧的累计概率P,依据所取的检验水准α
做出推断。
P Pi
二、Fisher确切概率法的计算方法
概率Pi的计算:在四格表的周边合计固定时,实际
组合概率总个数等于“周边合计中最小的合计数+1”
个。
Pi
(a
b)!(c d )!(a c)!(b a!b!c!d !n!
2.计算P值。
P P(10 ) P(11) P(12 ) P(13) 0.024
3.确定P值,下结论。
P<0.05,按=0.05检验水准,拒绝H0,接受H1,可以认
为可认为两种方法的疗效不同,甲法的疗效比乙法好。。
当实际观察数(a、b、c、d)出现“0”时,可用
以下公式计算其概率。
f!(n-r)!
样本率的比较演变为实际频数与理论频数之间的比较。
2值大小与四格表资料自由度的有什么关系?
第二节 完全随机设计四格表资料的2检验
❖两样本率(或构成比)的比较即四格表资料,一般根据以下条 件来选择统计方法:
❖ 1.当总例数n≥40且所有格子的T≥5时,用Pearson2检验
(包括基本公式法和专用公式法)或Fisher确切概率法。
第十章 χ2检验
二项分布(贝努利分布)
(Bernoulli distribution)
为纪念17世纪法国数学家雅 各布·伯努利(Jacob Bernoulli) (荷兰人)(1654~1705)而命名, 1713年出版《猜度术》,给出 《伯努利数》、《伯努利大数定 律》。
定理:几个相互独立事件 同时发生的概率等于各独
nR为相应行合计数,nC为相应列合计数,n为总例数
2.2检验的基本思想
2 ( A T )2, (R -1)(C 1)
T
A: 实际频数 T: 理论频数即如果检验假设成立,应该观察到的例数。 R 行数,C 列数
注意:ν与格子数有关,与样本例数无关。
2.2检验的基本思想
首先假设H0成立,计算出2值,表示实际频数和理论频数的 吻合程度。如果H0成立,实际频数和理论频数偏差较小,则2 值也较小,反之,相差较大,则2也较大。 根据2分布,由统计量2及自由度可以确定概率P。如果2 >2,v ,则P<,说明实际频数和理论频数偏离太大,有理由 拒绝H0,接受H1,表示两样本率的差异有统计学意义;从而将
d )!
P为概率,a、b、c、d的意义四格表中的实际频数。“!”
为阶乘符号,“a!”是a及小于a的全部正整数的连乘积,0!
=1。
【例10-3】 某医院研究小组将26名病情相似的腰椎间盘突出 症病人随机分为两组,分别采用甲、乙两种方法给予治疗,结 果见表10-3。问两种方法的疗效是否相同?
表10-3 两种方法对腰椎间盘突出症的疗效
表10-4 各种组合的四格表计算的事件概率
四格表 序号
有效
无效
1
1 12
13 0
2
2 11
12 1
3
3 10
11 2
4
49
10 3
5
58
94
6
67
85
A-T
Pi
6 0.000001
5 0.000105
4 0.00231
3 0.021174
2 0.095282
1 0.228677
四格表 序号
有效
7
7
第十章 2检验
第一节 2检验概述 第二节 四格表资料的2检验
第三节 四格表资料的Fisher确切概率法
第四节 完全随机设计R×C表资料的2检验 第五节 配对设计分类资料的2检验
第六节 有序分类资料的线性趋势检验
第七节 拟合优度的2检验
第八节 多中心分类资料的CMH统计分析
第一节 2检验概述
2检验(Chi-square test)是英
P(X)
0.4 0.3 0.2 0.1
0 0
1
2
3
4
5
图B n=5,π=0.3
X
P(X)
P(X)
0.4 0.3 0.2 0.1
0 0
0.2
0.1
12345
图C n=5,π=0.7 X
0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 X
图D n=30,π=0.3
二项分布总体不同样本例数时的抽样分布
(a
b)(c
d )(a
2 c)(b
d)
二、四格表资料2检验的校正公式
【例10-2】某课题组研究用中药与针刺治疗坐骨神经痛的疗 效,结果如表10-2所示,试分析两组有效率有无差异?
表10-2 中药与针刺治疗坐骨神经痛的疗效 (人)
疗法 中药 针刺 合计
有效 2(4.95) 14(11.05)
16
无效 11(8.05) 15(17.95)
组别
甲法
有效 10(a)
无效 3(b)
合计 有效率(%)
13
76.9
乙法 4(c) 9(d)
13
30.8
合计
14
12
26
53.8
治愈率差(D)= p1-p2=46.1(%)
治愈率差(D)= p1-p2=31.84(%)
1.单侧检验 若两样本p1-p2=D,则取p1-p2≥D的各种组合累积概率为单侧