卡方检验.分类变量资料统计推断
卡方检验.ppt
配对四格表资料的2检验
两种检验方法阳性率结果
可能的结果 甲
1
+
2
+
3
-
4
-
乙
频数
+
a
-
b
+
c
-
d
配对四格表资料的2检验
两种检验方法结果比较
荧光抗体法
+ - 合计
常规培养法
+
-
160(a) 26(b)
5(c)
48(d)
165
74
合计
186 53 239
配对四格表资料的实际数与理论数
实际数
5(c)
通过构造A与T吻合程度的统计量来反 映两样本率的差别!
实际数A
39
8
57
27
理论数T
34.44 12.56 61.56 22.44
χ2检验的基本思想(2)
如果H0假设成立,则实际频数与理论频数应该比
较接近。差值 A T 属于随机误差,用χ2 统计量
表示:
2
( A T )2 ~ 2分布 T
H0成立时,实际数与理论数的差别不会很大,出现较大χ2 值概率很小。 若P≤α,则拒绝H0; 若P>α,则尚无理由拒绝它。
χ2检验的步骤(1)
(1)假设两总体率相等 H0:两组总体存活率相同,即π1=π2; H1:两组总体存活率不同,即π1≠π2;
α=0.05。
χ2检验的步骤(2)
(2)实际数与理论数的差值服从χ2分布
理论频数的计算
理论频数=47 73.3%
处理
存活 数
理论 频数
死亡数
理论 频数
合计
存活率 (%)
联合治疗 39 34.44 8 12.56 47 73.3 单纯治疗 57 61.56 27 22.44 84 73.3
SPSS 无序分类变量的统计推断 卡方检验
5.分层卡方检验 6.SPSS 软件部分
6.1.‘统计量’子对话框界面说明
打开方式:点击工具栏‘分析’->‘描述’-》 ‘交叉表’ ,点击选项‘统计 量’ 。项。
‘卡方’复选框:进行卡方检验。
‘Kappa’复选框:计算 Kappa 值,即内部一致性系数。原假设 H0 是无一 致性;Kappa≥0.75 表明两者一致性较好,介于 0.4 至 0.75 表明一致性一般,小 于 0.4 表明两者一致性较差。 ‘风险’复选框:计算 OR 值(比数比)和 RR 值(相对危险度) ,这些指 标用于反映交叉表的行、列变量之间的关联强度。 ‘McNemar’复选框:进行 McNemar 检验,即常用的配对卡方检验。 ‘Cochran’s and Mantel-Haenszel 统计量’复选框:为两个二分类变量进 行分层卡方检验,即层间的独立性检验和同质性(齐性)检验,同时可进行分层 因素的调整。
4.一致性检验与配对卡方检验
你得首先理解配对设计,这里略。
4.1.Kappa 一致性检验
Pearson 卡方检验并不适用于配对设计的数据, 它无法明确说明结果的一致 程度。 更准确地说, Pearson 卡方只能告诉用户两种测量结果之间是否存在关联, 但不能判断其是否具有一致性。
4.2.配对卡方检验
3.1.相对危险度
RR 值是一个概率的壁纸,是指实验组人群反应阳性概率与对照组人群反应 阳性概率的壁纸。RR=1,表明实验因子与反应阳性无关联。
3.2.优势比
OR 值是一个比值的比,是反应阳性人群中实验因素有无的比例与反应阴性 人群中实验因素有无的比例之比。OR=1,表明实验因素与反应阳性无关联。 由于优势比是两个比值的比值,因此它不太好解释,而解释相对危险度则要 容易得多, 因此在大多数情况下人们希望能够按照相对危险度的含义来解释优势 比。 当所关注的事件发生概率比较小时(<0.1), 优势比可作为相对危险度的近似。
第三节 分类变量资料的统计分析-统计推断
σp =
π (1 − π )
n
如果总体率π未知,用样本率 估计 如果总体率 未知,用样本率p估计 未知
sp =
p(1− p) n
19:46
率的标准误的计算
例 观察某医院产妇 106 人, 其中行剖腹产者 62 人, 剖腹产率为 58.5%,试估计剖腹产率的标准误。 ,试估计剖腹产率的标准误。 解: 已知 n=106,p=0.585,其标准误为: , ,其标准误为:
19:46
小 结
1.样本率也有抽样误差,率的抽样误差的大小用σp或Sp .样本率也有抽样误差,率的抽样误差的大小用 来衡量。 来衡量。 2.率的分布服从二项分布。当n足够大,π和1-π均不太小 .率的分布服从二项分布。 足够大, 和 均不太小 足够大 ,有nπ≥5和n(1-π)≥5时,近似正态分布。 和 ( ) 时 近似正态分布。 3. 总体率的可信区间是用样本率估计总体率的可能范围 . 分布近似正态分布时, 。当p分布近似正态分布时,可用正态近似法估计率的可信区 分布近似正态分布时 间。 4. 根据正态近似原理 , 可进行样本率与总体率以及两样 . 根据正态近似原理, 本率比较的u检验。 本率比较的 检验。 检验
19:46
T11= (a+b)×pc= (a+b)×[(a+c.)/ n]=R1C1/n =21.3 = × × T12 = (a+b)×(1-pc)= (a+b)×[(b+d.)/ n] =R1C2/n =182.7 × × T21 = (c+d)×pc= (c+d)×[(a+c)/ n] =R2C1/n =6.7 × × T22 = (c+d)×(1-pc)= (c+d)×[(b+d.)/ n] =R2C2/n =57.3 × × 行 row)合 ×列 column)合 ( 计 ( 计 nRnC T= = n 总 数 例
卫生统计学考研试题名词解释总结
卫生统计学考研试题名词解释总结1、typical survey:典型调查,典型调查就是在调查对象中有意识的选择若干具有典型意义或者代表的单位进行非全面调查。
2、箱式图(box plot):用于多组数据的直观比较分析。
一般选用5个描述统计量(最小值、P25、中位数、P75、最大值)来绘制。
3、二项分布(binorminal distribution):若一个随机变量X,它的可能取值是0,1,…,n,而且相应的取值概率为称此随机变量X服从n,π为参数的二项分布。
4、morbidity statistics:疾病统计,是居民健康统计的重要内容之一,它的任务是研究疾病在人群中发生、发展及其流行的规律,为病因学研究、疾病防治和评价疾病防治效果提供科学依据。
5、life expectancy:期望寿命,是指x岁尚存者预期平均尚能存活的年数,它是评价居民健康状况的主要指标。
6、life table:寿命表,又称为生命表,是根据特定人群的年龄组死亡率编制出来的一种统计表。
由于它是根据各年龄组死亡率计算出来的,因此,各项指标不受人口年龄构成的影响,不同人群的寿命表指杯具有良好的可比性。
7、预测(forecast):这是回归方程的重要应用方面。
所谓预测就是把预测因子(自变量X)代入回归方程,对预报量(应变量Y)进行估计,其波动范围可以按照个体Y值容许区间方法计算。
8、standard deviation:标准差,常用来描述数据离散趋势的统计指标,其能反映均数代表性的好坏,以及变量值与均数的平均离散程度。
9、cluster sampling:整群抽样,首先将总体按照某种与研究目的无关的分布特征(如地区范围、不同的团体、病历、格子等)划分为若干个“群”组,每个群包括若干观察单位;然后根据需要随机抽取其中部分“群”,并调查被抽中的各”群”中的全部观察单位。
这种抽样方法称为整群抽样。
10、precision:精密度,是指重复观察时,观察值与其均数的接近程度,其差值属于随机误差11、正交设计(orthogonal design):当实验涉及的因素在三个或三个以上,且因素间可能存在交互作用时,可用正交试验设计。
统计学:卡方检验2
二、拟合优度检验 (大样本)
拟合优度检验: 已知样本的频率分布,其总体分布是否等于 某理论分布? 步骤: 1.建立检验假设 原假设和对立假设分别为 H0:总体分布等于给定的理论分布 H1:总体分布不等于给定的理论分布
2.计算检验统计量
A:实际观察到的频数 T:根据H0 确定的理论频数 H0 成立时,统计量
2 k
( A1 T1 ) T1
2
( A2 T2 ) T2
2
( Ak Tk ) ... Tk
2
大样本时近似地服从2分布,自由度为 ν =κ -1-(计算Ti 时利用样本资料估计的参数个数) 大样本:实践中理论频数不能小于5 样本量不大时,连续性校正
( Ai Ti ) 2 Ti i 1
统计学:
统计学:2检验
2检验(chi square test),常用于分类变量资
料的统计推断。 理论依据: 2分布 (chi square distribution) 拟合优度检验 (goodness of fit test)
本章:单个频数分布的拟合优度检验 完全随机设计下两组频数分布的比较 多组频数分布的比较 配对设计下两组频数分布的比较 精确概率法: 2检验失效时用 不失效时用也可用
疗效 药物 兰芩口服液 银黄口服液 合计 有效 41 24 65 无效 4 11 15 合计 45(固定值) 35(固定值) 80
问题:这两个频数分布的总体分布是否相等?
2×2列联表(contingency table), 又称四格表
属性 处理 阳性 1 2 合计 阴性 合计
A11
(T11 )
A12
Φ (X2) (4) 0.00466 0.02275 0.08076 0.21186 0.42074 0.65542 0.84134 0.94520 0.98610 0.99744 —
研究生医学统计学-X2检验
青岛大学医学院公共卫生系流行病 与卫生统计学教研室 周晓彬制作
H
(1)检验 (1)检验 H 1 : π 1 ≠ π (2)用 (2)用 P =
n +1
0
:π1 = π
2 2
= π ( 分 别 为 样 本 率 P1、 P2 、 P 的 总 体 率 )
α = 0 .0 5
理论上应有: n 近似地代替 π ,理论上应有:
青岛大学医学院公共卫生系流行病 与卫生统计学教研室 周晓彬制作
2011-12-15
本章内容
第一节 χ2分布和拟合优度检验 第二节 四格表资料的χ2检验 第三节 行×列(R×C)表资料的χ2检验 第四节 配对设计四格表资料的χ2检验 第五节 四格表资料的确切概率法
2011-12-15
青岛大学医学院公共卫生系流行病 与卫生统计学教研室 周晓彬制作
第二节
表
2检验 四格表资料的χ
有效 无效 合 计 45 35 有效率 (%) (%) 91.1 68.6
两种疗法的心血管病病死率比较
药物
兰芩口服液 41(36.56) 4(8.44) 银黄口服液 24(28.44) 11(6.56)
合
计
65
15
80
81.3
2011-12-15
青岛大学医学院公共卫生系流行病 与卫生统计学教研室 周晓彬制作
表
反应变量按二项分类的两个独立样本资料 反应结果 阳性 阴性 观察 总频数 阳性 频率
样本 1 样本 2 合计
A11
A21
A12
A22 n+2
n1+ ( 给 定 )
P = A11 n1+ 1
P2 = A21 n2+
卡方检验
第九章 2χ检验[教学要求]掌握:单个样本分布的拟合优度检验;独立样本2×2列联表资料的χ2检验;独立样本R ×C 列联表资料的χ2检验;配对2×2列联表资料的χ2检验。
熟悉:配对R × R 列联表资料的χ2检验;四格表资料的Fisher 确切概率法。
了解:连续型随机变量的χ2分布;分类数据χ2检验的基本思想。
[重点难点]第一节2χ分布和拟合优度检验一、χ2分布基本概念:χ2分布是一种连续型随机变量的概率分布,如果12,,,Z Z Z ν 是v 个相互独立的标准正态分布随机变量,则22221νZ Z Z +++ 的分布称为服从自由度为ν的χ2分布。
2χ分布的概率密度曲线的形状依赖于自由度ν的大小。
二、拟合优度χ2检验的基本思想拟合优度检验是根据样本的频率分布检验其总体分布是否符合某给定的理论分布。
2χ值反映了样本实际频率分布与理论分布的符合程度。
三、χ2检验的基本公式大样本时检验统计量∑=-=ki ii i T T A 122)(χ近似地服从χ2分布,自由度为ν= k -1-(计算T i 时利用样本资料估计的参数个数)其中,A i 和T i 分别为实际观察频数和0H 成立时的理论频数,k 为频数分布的类别总数。
四、拟合优度χ2检验注意事项1.分组不同拟合的结果可能不同,一般要求分组时每组中的理论频数不小于5。
2.需要有足够的样本含量,如果样本含量不大,需要经连续性校正,校正的公式为∑=--=ki ii i T T A 122)5.0(χ第二节 独立样本2×2列联表资料的χ2检验一、2×2列联表资料χ2检验目的两独立样本率差异的比较。
即根据两独立样本的频率分布,检验两个样本的总体分布是否相同。
二、统计量计算公式可直接使用χ2检验基本公式也可使用等价的专用公式或校正公式。
专用公式22()()()()()ad bc n a b c d a c b d χ-=++++校正公式22(||/2)()()()()ad bc n n a b c d a c b d χ--=++++自由度ν=1。
卫生学 10.分类变量资料的统计推断
40 6 2 16 64 / 2
42 22 56 8
2
64
4.79
自由度υ=(行数-1)(列数-1)
=(2-1)(2-1)=1
查X2界值表,得 P<0.05,按α=0.05水准, 拒绝H0,可认为两组有效率差别有统计学意 义。
三、配对设计分类变量资料的X2检验
H0:π= π0
H1:π≠ π0
α=0.05 P=0.26
u p 0 0.30 0.26 0.3(1 0.3) 385
0 (1 0 )
n
1.713
查t界值表中υ为∝对应的界值,得P> 0.05,按α=0.05水准,不拒绝H0,尚不 能认为该院认为该院直肠癌患者围术期 并发症发生率与一般情况不同
1 n2
)
0.0854 0.1486 1 1 0.1258(1 0.1258) 8207 14585
0.0046
查t界值表中υ为∝对应的界值得, P< 0.01,按α=0.05水准,拒绝H0,接受H1, 可认为该人群HBV感染率有性别差异。
第三节
x2 检 验
率的抽样分布特征:
1、为离散型分布 2、π为0.5时,呈对称分布 3、当n不断增大时,二项分布逐渐逼近正 态分布 • 当nP和n(1-P)都大于5时,二项分布近 似于正态分布。
二、率的抽样误差和总体率的估计
一、率的抽样误差和标准误(sampling error and standard error of rate)
表10-9 两种血清学方法对肝癌检测的结果比较
甲法 + 乙法 合计
+
合计
50(a)
卡方检验的解释
卡方检验是一种统计检验方法,用于比较两个或多个分类变量之间的差异是否具有统计学意义。
它主要用于推断两个分类变量之间是否存在关联或独立性。
卡方检验的原理是通过比较实际观察到的频数与期望频数之间的差异来判断两个变量之间是否存在显著的关联。
在卡方检验中,首先计算每个单元格中的实际频数与期望频数之间的差异,然后将这些差异平方后相加,得到卡方值。
最后,根据卡方分布的概率密度函数来确定卡方值是否落在拒绝域内,从而判断两个变量之间的关联是否具有统计学意义。
卡方检验可以用于多种情况,如检验两个分类变量之间是否存在关联、检验多个分类变量之间的独立性、检验频数分布的拟合优度等。
在实际应用中,需要根据具体问题选择合适的卡方检验方法,并结合样本大小和显著性水平来判断结果的可靠性。
需要注意的是,卡方检验的前提是样本必须是随机样本,并且每个单元格中的频数不应过小。
如果样本不满足这些条件,可能会导致卡方检验的结果不准确。
此外,卡方检验只是一种统计推断方法,不能证明因果关系的存在,需要结合实际情况进行综合分析。
分类变量资料的统计推断_OK
2
=
n
·
(
A2 ————
nR nC
-
1)
23
例. 三种药物治疗失眠有效率比较的R×C表
组别 有效 无效 合计 有效率%
新药 6
42
48 12.50
传统药 11
26
37 29.73
安慰剂 29
8
37 78.38
合计 46
76
122 37.70
假设:H0: 三种药物的有效率相同
a+c
b+d
n
2 值、P 值与统计结论
2值
P值
统计结论
<
2
0.05( )
> 0.05
2
0.05( )
0.05
2
0.01( )
0.01
接受H0 差异无统计学意义 拒绝H0 差异有统计学意义 拒绝H0 差异有高度统计学意义
18
四格表 2值的校正
当:1< T < 5,而 n > 40 时,需计算校正 2值
n1 n2
u = —|—p—1 -—p2—|—
S p1-p2
=
| 0.0526 - 0.1011 |
0.0725(1-0.0725)(1/988+1/682)
= 3.76 P < 0.01
结论:BMI 25者糖尿病患病率高于BMI <25者
BMI与糖尿病有关
11
三、 2检验
1. 用途:推断两个或多个总体率(或总体构成
T
,
=1
2 =(22-25.21)2 / 25.21 + (35 – 31.79)2 / 31.79
分类变量资料的统计推断
u p1 p2
p1 p2
S p1 p2
pc (1 pc )(1 n1 1 n2 )
pc
x1 x2 n1 n2
12
例2 某中药研究所试用某种草药预防流 感,观察用药组和对照组(未用药组) 的流感发病率,其结果见表1。问两组流 感发病率有无差别?
13
表1 用药组和对照组流感发病率比较
9 1
• (3)确定P值及推断结论
• 本 例 X2=4.90>X2=3.84,P<0.05 在 α=0.05
的水准上,拒绝H0,接收H1,差异有统计学意
义。可认为甲、乙两种白喉杆菌培养基的效果 有差别,甲培养基培养效果优于乙培养基。
45
三、行×列表的2检验
行×列表(R×C表)的检验主要用于解决多个
样本率或多个样本构成比的比较以及有序分类 资料的关联性检验。
基本公式
2
(A T )2 T
=(R-1)(C-1)
46
简化公式:
2 n
A2 nR nC
1
=(R-1)(C-1)
• 式中n为总例数,A为每格子的实际频数,nR、nC 分别为与某格子实际频数(A)同行、同列的合
组 别 观察人数 发病人数 发病率(%)
用药组
100
14
14
对照组
120
30
25
合计
220
44
20
14
计算结果
本例n1=100,p1=14%,n2=120,p2=25%, pc=20%,1-pc=80%,代入公式
0.14 0.25
u
2.031
卡方检验1
表8-3 两种检验方法检验结果比较
乙
甲
+
-
合计
+
80(a) 10(b)
90
-
31 (c) 11(d)
42
合计
111
21
132
分析
本资料为配对计数资料,这种设计的结果会出现四 种情况: 甲+乙+ a 甲+乙- b 甲-乙+ c 甲-乙- d 两方法都为阳性与都为阴性不能说明两方法的 差别,两者的差别表现在b 和c的差别上。
组别 甲药 乙药 合计
阳性 182(a) 77(c)
259
阴性 135(b) 100(d) 235
合计 现患率(%)
317
57.4
177
43.5
494
52.4
182 135 77 100
ab cd
四个格子的数据a,b,c,d是表8-7中基本数据, 称为实际频数,简称A(actual frequency)
查χ2界值表:得P<0.005,按α =0.05水准, 拒绝H0 ,接受H1 ,可认为甲乙两法的阳性结果不 同,乙法的阳性率高于甲法。
T
(a b)(c d)(a c)(b d )
✓ 3. T<1或 N<40时,用Fisher精确概率法.
例
将病情相似的淋巴系肿瘤患者随机分成 两组,分别作单纯化疗和复合化疗,两组 的缓解率资料见下表,问两组的缓解率有 无差别?
表8-2 两组疗法的缓解率比较
组别 单纯化疗
属 缓解
性 未缓解
卡方检验
假设检验方法
01 基本原理
03 检验方法 05 代码实现
目录
02 步骤 04 资料检验
卡方检验,是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括两个率或两个构成比 比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
基本原理
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程 度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡 方值就为0,表明理论值完全符合。
卡方检验要求:最好是大样本数据。一般每个个案最好出现一次,四分之一的个案至少出现五次。如果数据 不符合要求,就要应用校正卡方。
谢谢观看
注意:卡方检验针对分类变量。
步骤
(1)提出原假设: H0:总体X的分布函数为F(x). 如果总体分布为离散型,则假设具体为 H0:总体X的分布律为P{X=xi}=pi, i=1,2,... (2)将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取 A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak), 其中a0可取-∞,ak可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于5, 而区间个数k不要太大也不要太小。 (3)把落入第i个小区间的Ai的样本值的个数记作fi,成为组频数(真实值),所有组频数之和 f1+f2+...+fk等于样本容量n。 (4)当H0为真时,根据所假设的总体理论分布,可算出总体X的值落入第i个小区间Ai的概率pi,于是,npi 就是落入第i个小区间Ai的样本值的理论频数(理论值)。
检验方法
分类变量资料统计推断
s p2
0.0450 0.0450 =0.0197=1.97%
111
二、总体率的估计
(estimation of confidence interval of rate) 1. 正态近似法
应用条件:
当样本含量n足够大,且样本率p或1-p均不太小时(如 np和n(1-p)均大于5),样本率的分布近似正态分布,
分布近似于正态分布
1. 样本率与总体率的比较
公式
p
p
u= p
1
n
举例
根据大量调查资料,城镇25岁及以上者高血压患病率 为11%。某研究组在某油田职工家属区随机抽查了25 岁及以上者598人,82人确诊为高血压。问油田职工 家属的高血压患病率与一般人有无不同?
领悟题目含 义,拟定分 析方法。
第三节 卡方检验
卡方检验的应用: 1、两个或两个以上总体率之间差别有无统计 学意义 2、两个或两个以上总体构成比之间差别有无 统计学意义 3、两分类变量间有无相关关系 4、频数分布的拟合优度检验
2. 两个样本率的比较
公式
u=
p1 p2
pc
(1
pc
1 )(
n1
1 n2
)
(1)
pc
X1 n1
X2 n2
(2)
公式中P1和P2为两个样本率;Pc为合并样 本率;X1和X2分别为两个样本的阳性例数
条件 两样本的np和n(1-p)均大于5
比较 目的
推断样本率分别代表的未知总 体率π1和π2是否相同 。
第二步: 确定检验水准
α=0.05
第三步:选定检验方法,计算统计量
本例n1=100,P1=14%,n2=120,P2=25%,Pc=20%, 1-Pc=80%,代入公式得:
第十一章 卡方检验
2
(4111 24 4) 2 80 6.565 45 35 65 15
有效 41(a) 24(c) 65 (a+c) 无效 4( b) 11(d) 15 (b+d) 合计 45 (a+b) 35 (c+d) 80 (n=a+b+c+d)
α=0.05
2 ( A T ) 2 2 ~ ( ) , 1 T
查ν=1的χ2界值表,确定P值
P≤α
拒绝H0 接受H1
作出推断结论
P>α
不拒绝H0
基本思想概括
若H0成立,则四个格子的实际频数A与理论频数T之差异纯 系抽样误差所致,故一般不会很大,卡方值也就不会很大; 在一次随机试验中,出现大的卡方值的概率P是很小的。 因此,若根据实际样本资料求得一个很小的P,且P≤α(检验 水准),根据小概率原理,就有理由怀疑H0的真实性,因而 拒绝它;若P>α,则没有理由拒绝H0
(A T) T
2
2
A—实际频数 T— 根据H0确定的理论频数
2检验基本思想
2值反映了样本实际频数与理论频数的符合程度。 如果原假设成立, 2值不会太大;反之,A若与T 差距大, 2值也大;当2值超出一定范围时,就有
理由认为原假设不成立。
第二节、独立样本2×2资料的2检验 1、四格表(2×2列联表)
2
=(2-1)(2-1)=1
3)确定P值:
P>0.1,高于检验水准,不能拒绝H0,差 别无统计学意义,尚不能认为两种治疗方案的总体缓解概率 不同。
完全随机设计两组频数分布2检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、四格表资料2检验的专用公式
• 例1
2
(ad bc)2 n
(a b)(c d )(a c)(b d )
(374 126 1364 344)2 2208 450.1 1738 470 7181490
二、四格表资料2检验的校正公式
• 2界值表是根据连续性的理论分布计算出来的,但分类变 量资料属于非连续性分布,由此计算出的2值也是不连续 的,仅是2分布的一种近似,尤其是自由度为1的四格表, 当n与T较小时,所得的P值较小,须做连续性校正:
b
(a b)(b d ) 2 a b c d
d
(c a
d )(b d ) 2 b c d
(a b)(a c)
(a b)(b d )
(c d )(b d )
abcd
abcd
abcd
(ad bc)2 n
(a b)(c d )(a c)(b d)
1 ; (四格表专用公式)
(a
b)(c
d )(a
2 c)(b
d)
二、四格表资料2检验的校正公式
【例10-2】某课题组研究用中药与针刺治疗坐骨神经痛的疗 效,结果如表10-2所示,试分析两组有效率有无差异?
表10-2 中药与针刺治疗坐骨神经痛的疗效 (人)
疗法 中药 针刺 合计
有效 2(4.95) 14(11.05)
16
无效 11(8.05) 15(17.95)
第四节 行列表资料2检验
基本公式:
2
(A T )2 T
和四格表 资料的公 式一致
简化公式:
2 n(
A2 RC 1) nR nc
1.2分布
(2)2具有可加性
若x1
~
2 ,1
,
x2
~
2 , , 2
(x1+ x2)~
2 ( , 1 2)
(3) 2界值(P823,附表8) 自由度一定时,x2值越大, P值越小。
若 2
2 ,
,
P
2.2检验的基本思想
【例10-1】 某课题组对某地区60岁以上男性人群进行现况调查,筛选慢 性支气管炎的危险因素,其中吸烟因素的数据如表10-1所示,试比较该地慢 性支气管炎患者人群(病例组)与非慢性支气管炎患者人群(对照组)的吸 烟率有无差异?
表10-4 各种组合的四格表计算的事件概率
四格表 序号
有效
无效
1
1 12
13 0
2
2 11
12 1
3
3 10
11 2
4
49
10 3
5
58
94
6
67
85
A-T
Pi
6 0.000001
5 0.000105
4 0.00231
3 0.021174
2 0.095282
1 0.228677
四格表 序号
有效
7
7
立事件的概率之积。
抓中三个黑球的概率: P(3)=0.5×0.5×0.5=0.125
抓中两黑一白的概率: P(2)=3×0.125=0.375
定理:在几个互不相容的事件 中,任一事件发生的概率等于
这几个事件的概率之和。
P(X)
0.4
0.3
0.2
0.1
0 0
1 图A 2n=5,3π=0.4 5
5 X
18
卡方值
P=0.05的临界值
1. 2分布
(1)由2分布曲线可见: ①当v≤2,曲线呈L型 ②当v 增加,曲线趋于对称 ③当v→∞时, 2分布趋近正态分布。 当v=1时, 2 =u2
2 0.05(1)
3.84
(1.96)2
u2 0.05/ 2
2 0.01(1)
6.63
(2.5758)2
u2 0.01/ 2
4个实际数据变动时的各种组合之概率Pi,再按检验假 设用单侧或双侧的累计概率P,依据所取的检验水准α
做出推断。
P Pi
二、Fisher确切概率法的计算方法
概率Pi的计算:在四格表的周边合计固定时,实际
组合概率总个数等于“周边合计中最小的合计数+1”
个。
Pi
(a
b)!(c d )!(a c)!(b a!b!c!d !n!
组别
甲法
有效 10(a)
无效 3(b)
合计 有效率(%)
13
76.9
乙法 4(c) 9(d)
13
30.8
合计
14
12
26
53.8
治愈率差(D)= p1-p2=46.1(%)
治愈率差(D)= p1-p2=31.84(%)
1.单侧检验 若两样本p1-p2=D,则取p1-p2≥D的各种组合累积概率为单侧
2.计算检验统计量
T11、T12、T21、T22
470 718 T21 2208 152.8
2 (374 565.2)2 (1364 1172.8)2 (344 152.8)2 (126 317.2)2 450.1
565.2
1172.8
152.8
317.2
3.确定P值,推断结论
查2界值表可知,2
一种连续型分布,按分布的密度函数可给出不同自由
度的一簇分布曲线。2分布的形状依赖于自由度的大
小。
纵高
0.5 0.4 0.3 0.2 0.1 0.0
0
1.2分布
f
( 2 )
1
2(
/
2)
2
2
( / 21)
e2 /2
自由度=1 自由度=2 自由度=3 自由度=6
3 3.84 6 7.81 9
1122.59 15
第十章 χ2检验
二项分布(贝努利分布)
(Bernoulli distribution)
为纪念17世纪法国数学家雅 各布·伯努利(Jacob Bernoulli) (荷兰人)(1654~1705)而命名, 1713年出版《猜度术》,给出 《伯努利数》、《伯努利大数定 律》。
定理:几个相互独立事件 同时发生的概率等于各独
2
(ad bc)2 n
, 1
(a b)(c d )(a c)(b d )
二、四格表资料2检验的专用公式
为了不计算理论频数T, 可由基本公式推导出,直接由 各格子的实际频数(a、b、c、d)计算卡方值的公式:
基本公式: 2 (A T )2 T
a
(a b)(a c) 2 a b c d
7
8
8
6
9* 9
5
10 10
4
11 11
3
无效
6 6 5 7 4 8 3 9 2 10
A-T
Pi
0 0.304902
1 0.2286772 0.Βιβλιοθήκη 952823 0.021174
4 0.00231
1.建立假设、确定检验水准α。
H0:π1 =π2,即两种方法治疗腰椎间盘突出症的有效率相同 H1:π1 ≠π2,即两种方法治疗腰椎间盘突出症的有效率不同 α=0.05
❖ 2.当总例数n≥40且有格子的1≤T<5时,用Pearson校正2
检验(包括基本公式校正法和专用公式校正法)或Fisher确切概 率法。
❖ 3.当n<40或T<1时,只能用Fisher确切概率法。
一、Pearson2检验的步骤
(一)基本公式法
1.建立假设,确定检验水准
H0 :1=2,… H1 :12,… =0.05
d )!
P为概率,a、b、c、d的意义四格表中的实际频数。“!”
为阶乘符号,“a!”是a及小于a的全部正整数的连乘积,0!
=1。
【例10-3】 某医院研究小组将26名病情相似的腰椎间盘突出 症病人随机分为两组,分别采用甲、乙两种方法给予治疗,结 果见表10-3。问两种方法的疗效是否相同?
表10-3 两种方法对腰椎间盘突出症的疗效
2.计算P值。
P P(10 ) P(11) P(12 ) P(13) 0.024
3.确定P值,下结论。
P<0.05,按=0.05检验水准,拒绝H0,接受H1,可以认
为可认为两种方法的疗效不同,甲法的疗效比乙法好。。
当实际观察数(a、b、c、d)出现“0”时,可用
以下公式计算其概率。
f!(n-r)!
国人Karl.Pearson(1857-1936) 于1900年提出的一种具有广泛用途 的统计检验方法。
用途: 两个及多个样本率或构成比的比较 两分类变量间的关联分析 频数分布的拟和优度检验
第一节 2检验概述
一、 2检验的基本思想 2分布(chi-square distribution): 2分布是
样本率的比较演变为实际频数与理论频数之间的比较。
2值大小与四格表资料自由度的有什么关系?
第二节 完全随机设计四格表资料的2检验
❖两样本率(或构成比)的比较即四格表资料,一般根据以下条 件来选择统计方法:
❖ 1.当总例数n≥40且所有格子的T≥5时,用Pearson2检验
(包括基本公式法和专用公式法)或Fisher确切概率法。
检验P值。 2.双侧检验
若两样本|p1-p2|=D,则取|p1-p2|≥D的各种组合累计概率之和 为双侧检验P值。
当a+b=c+d,或a+c=b+d时,四格表的全部组合对称,则可 只算一侧。再乘以2倍即是双侧检验累计的总组合概率。
本例应计算P10、P11、P12、P13
P P(10 ) P(11) P(12 ) P(13) 0.024
第十章 2检验
第一节 2检验概述 第二节 四格表资料的2检验