四格表资料的确切概率法
医学统计学案例分析2

案例分析—四格表确切概率法【例1-5】为比较中西药治疗急性心肌梗塞的疗效,某医师将27例急性心肌梗塞患者随机分成两组,分别给予中药和西药治疗,结果见表1-4。
经检验,得连续性校正χ22=3.134,P>0.05,差异无统计学意义,故认为中西药治疗急性心肌梗塞的疗效基本相同。
表1-4两种药物治疗急性心肌梗塞的疗效比较药物有效无效合计有效率(%)中药12(9.33)2(4.67)1485.7西药6(8.67)7(4.33)1346.2合计1892766.7【问题1-5】(1)这是什么资料?(2)该资料属于何种设计方案?(3)该医师统计方法是否正确?为什么?【分析】(1)该资料是按中西药的治疗结果(有效、无效)分类的计数资料。
该资料是按中西药的治疗结果(有效、无效)分类的计数资料完全随机设计方案。
(2)27例患者随机分配到中药组和西药组,属于例患者随机分配到中药组和西药组,属于完全随机设计方案(3)患者总例数n=27<40,该医师用χ2检验是不正确的。
当n<40或T<1时,不宜计算χ2值,需采用四格表确切概率法(exact probabilities in2×2table)直接计算概率案例分析-卡方检验(一)【例1-1】某医师为比较中药和西药治疗胃炎的疗效,随机抽取140例胃炎患者分成中药组和西药组,结果中药组治疗80例,有效64例,西药组治疗60例,有效35例。
该医师采用成组t检验(有效=1,无效=0)进行假设检验,结果t=2.848,P=0.005,差异有统计学意义检验,故认为中西药治疗胃炎的疗效有差别,中药疗效高于西药。
【问题1-1】(1)这是什么资料?(2)该资料属于何种设计方案?(3)该医师统计方法是否正确?为什么?(4)该资料应该用何种统计方法?【分析】(1)该资料是按中西药疗效(有效、无效)分类的该资料是按中西药疗效(有效、无效)分类的二分类资料,即计二分类资料,即计数资料。
(2)随机抽取140例胃炎患者分成西药组和中药组,属于属于完全随机设完全随机设计方案。
四格表的确切概率法

例7-6 设有56份咽喉涂抹标本,把每一份标本 一分为二,依同样的条件分别接种于甲、乙两种白 喉杆菌培养基上,观察白喉杆菌的生长情况,结果 如表7-10,问两种培养基上白喉杆菌的生长概率有 无差别?
表7-10 两种培养基白喉杆菌生长情况
甲培养基
阳性 阴性 合计
阳性
22 (a) 2 (c) 24
乙培养基 阴性 18 (b) 14 (d) 32
20
由 2临界值表,
2 0.05(1)
3.84,11.25
3.84,
P
0.05,
按 0.05 水准拒绝 H0 ,差别有统计学意义, 可以认为,两种培养基上白喉杆菌生长的阳性
概率不相等。鉴于甲培养基阳性频率为
40/56==71.4%,乙培养基为24/56=42.9%,可以认为,
甲培养基阳性概率高于乙培养基。
bc
(7-12)
若 b c 40,需对 公式(7-14)校正公式为
2 ( b c 1)2 v 1
bc
(7-13)
对于例7-6数据,因为 b c 40, 按式(7-15)计算
2 (18 2 1)2 225 11.25, v 1
18 2
检验水准 0.05
变量1
1 2 … R 合计
表7-13 配对设计下多分类资料的R×R列联表
变量2
1
2
…
R
合计
A11
A12
…
A1c
n1(固定值)
A21
A22
…
A2c
n2(固定值)
…
…
…
…
…
AR1
AR2
医学统计学案例分析(1)

案例分析—四格表确切概率法【例1-5】为比较中西药治疗急性心肌梗塞的疗效,某医师将27例急性心肌梗塞患者随机分成两组,分别给予中药和西药治疗,结果见表1-4。
经检验,得连续性校正χ2=3.134,P>0.05,差异无统计学意义,故认为中西药治疗急性心肌梗塞的疗效基本相同。
表1-4 两种药物治疗急性心肌梗塞的疗效比较药物有效无效合计有效率(%)中药12(9.33)2(4.67)1485.7西药 6(8.67)7(4.33)1346.2合计1892766.7【问题1-5】(1)这是什么资料?(2)该资料属于何种设计方案?(3)该医师统计方法是否正确?为什么?【分析】(1) 该资料是按中西药的治疗结果(有效、无效)分类的计数资料。
(2) 27例患者随机分配到中药组和西药组,属于完全随机设计方案。
(3) 患者总例数n=27<40,该医师用χ2检验是不正确的。
当n<40或T<1时,不宜计算χ2值,需采用四格表确切概率法(exact probabilities in 2×2 table)直接计算概率案例分析-卡方检验(一)【例1-1】某医师为比较中药和西药治疗胃炎的疗效,随机抽取140例胃炎患者分成中药组和西药组,结果中药组治疗80例,有效64例,西药组治疗60例,有效35例。
该医师采用成组t检验(有效=1,无效=0)进行假设检验,结果t=2.848,P=0.005,差异有统计学意义检验(有效=1,无效=0)进行进行假设检验,结果t =2.848,P=0.005,差异有统计学意义,故认为中西药治疗胃炎的疗效有差别,中药疗效高于西药。
【问题1-1】(1)这是什么资料?(2)该资料属于何种设计方案?(3)该医师统计方法是否正确?为什么?(4)该资料应该用何种统计方法?【分析】(1) 该资料是按中西药疗效(有效、无效)分类的二分类资料,即计数资料。
(2) 随机抽取140例胃炎患者分成西药组和中药组,属于完全随机设计方案。
四格表资料的fisher确切概率法公式

四格表资料的fisher确切概率法公式
我们要了解四格表资料的Fisher确切概率法公式。
首先,我们需要了解什么是四格表资料和Fisher确切概率法。
四格表资料是指一个包含四个单元格的数据表格,通常用于展示两个分类变量之间的关系。
Fisher确切概率法是一种用于计算四格表中每个单元格概率的方法。
假设四格表的四个单元格分别为 A, B, C 和 D。
则Fisher确切概率法公式为:
P(A) = (a+b+c)!(a+b+c+d)! / (a!b!c!d!),
P(B) = (a+c)!(a+c+d)! / (a!b!c!d!),
P(C) = (a+b)!(a+b+d)! / (a!b!c!d!),
P(D) = (b+c)!(a+b+c+d)! / (a!b!c!d!)。
其中,a, b, c 和 d 分别表示四格表中的四个单元格的计数。
这个公式可以用于计算四格表中每个单元格的概率,从而帮助我们了解两个分类变量之间的关系。
四格表资料的Fisher确切概率法培训课件

1. 直接计算概率法
样本率与总体率的比较
应用条件:π0偏离0.5较远,且阳性数X 较小 作单侧检验时。
例1 根据以往长期的实践,证明某常用药的 治愈率为80%。现在某种新药的临床试验中, 随机观察了10名用该新药的患者,治愈9人。 问该新药的疗效是否比传统的常用药好?
=1 =2
=3
=4
=6
2 分布曲线
卡方检验基本思想
2 分布的概念
2 分布
(=10,20,30,50)
=10 =20
=30
=50
2 分布特点
卡方检验基本思想
2 分布的概念
2 分布的形状依赖于自由度ν 的大小: ① 当自由度ν≤2时, 曲2 线呈“L”型; ② 随着ν 的增加, 2曲线逐渐趋于对称; ③ 当自由度ν →∞时, 曲2 线逼近于正态曲线。
p1=70/100=0.70 p2=60/120=0.50 pc =(70+60)/(100+120)=0.5909
☆二项分布的应用☆
1. 估计总体率的可信区间 (1)查表法 (n50,特别是p远离0.5时) (2)正态近似法 (n>50 且 np5 和n(1-p) 5 ) 2. 样本率与已知总体率比较的假设检验 (1)直接计算概率法( π0偏离0.5较远, X 较小, 单侧检验 )
(goodness of fit)中也发现了这一相同的 2 分
布,可用于检验资料的实际频数和理论频数 是否相符等问题。
2 分布的密度函数
f
(
2)
1
2(
)
(
2
2
1 2
)2 e 2
四格表资料的Fisher确切概率法资料讲解

9
二、两样本率比较
目的:推断两个样本各自代表的两总体率是否相等 应用条件:当两个样本率均满足正态近似条件时,
可用u检验。
up1p2 sp1p2
p1p2
pc(1pc)(n11
1) n2
pc
x1 n1
x2 n2
10
两样本率比较
例5 为研究高血压病的遗传度, 某医师进行了高血 压子代患病率调查。其中父母双亲有一方患高血压 者调查了205人,其中高血压患者101人;父母双亲 均患高血压者调查了153人,其中高血压患者112人。 问双亲中只有一方患高血压与双亲均患高血压的子 代中,高血压患病率是否相同? 本例 p1=101/205=0.49268
H0(=0=50) 成立时,1小时内该装置发出的质点数的概率分布 19
样本阳性数与总体平均数的比较----直接计算概率法
例10 某省肺癌死亡率为35.2/10万,在该省某 地抽查10万人,进行三年死亡回顾调查,得肺 癌死亡数为82人。已知该地人口年龄别构成与 全省基本相同。问该地肺癌死亡率与全省有无 差别?
本例π0=0.80,1-π0=0.20,n=10, 根据题意需求最少治愈9人的概率。
5
样本率与总体率的比较----直接计算概率法
例2 据以往经验,新生儿染色体异常率一般为1%, 某医生观察了当地400名新生儿,发现有1例染色体 异常,问该地新生儿染色体异常率是否低于一般?
H0成立时, 400名新生儿中染色体异常例数的概率分布
p1=70/100=0.70 p2=60/120=0.50 pc =(70+60)/(100+120)=0.5909
12
Fisher确切概率法

第三节四格表资料的Fisher确切概率法前面提及,当四格表资料中出现久,或,或用公式(8-1)与公式(8-4)计算出工值后所得的概率巴:::二时,需改用四格表资料的Fisher确切概率(Fisher probabilities in 2 x 2 table)。
该法是由R.A.Fisher(1934 年)提出的,其理论依据是超几何分布(hypergeometric distributen) ,并非工检验的范畴但由于在实际应用中常用它作为四格表资料假设检验的补充,故把此法列入本章<下面以例8-1介绍其基本思想与检验步骤。
例8-1某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV的效果,将33例HBsAg阳性孕妇随机分为预防注射组和非预防组,结果见表8-3。
问两组新生儿的HBV总体感染率有无差别?表8-3 两组新生儿HBV感染率的比较组别阳性阴性合计感染率(%)预防注射组 4 18 22 18.18非预防组 5 6 11 45.45合计9 24 33 27.27、基本思想在四格表周边合计数固定不变的条件下,计算表内4个实际频数变动时的各种组合之概率厂;再按检验假设用单侧或双侧的累计概率匸,依据所取的检验水准- 做出推断。
1 •各组合概率厂的计算在四格表周边合计数不变的条件下,表内4个实际频数变动的组合数共有“周边合计中最小数+1 ”个。
如例7-4,表内4个实际频数变动的组合数共有卢-1-个,依次为:(1) (2) (3) (4) (5)0 22 1 21 2 20 3 19 4 189 2 8 3 7 4 6 5 5 6ad-bc = -198 ad-bc = -165 ad-bc =:-132 ad-bc =-99 ad-bc = -66⑹(7) (8) (9) (10)5 176 167 158 149 134 7 3 8 2 9 1 10 0 11ad-bc = -33 ad-bc =0 ad-bc =33 ad-bc =66 ad-bc = 99各组合的概率'服从超几何分布,其和为1。
计数资料常用检验方法

计数资料行×列(R ×C)表卡方检验 公式:
X2=35.81> , 差异有显著性,P<0.01,可以认为三组疗效不同,中西药结合组较其他两组高,若要进一步作两两比较,可分成三个四格表再进行比较。
中西药结合组
组别
有效
无效
合计
46
12
02
Pearson列联系数(P)
Cramer(修正)列联系数(C)
演讲人姓名
列联表计数资料的相关分析数据格式 (PEMS软件包)
卡方值 = 74.4015
自由度 v = 4
概率 P = 0.0000
Pearson 列联系数 = 0.2597
各个格子的理论数均大于 5
结果
列联表计数资料的相关分析.一致性检验.Kappa值(PEMS软件包)
66
12
78
0.05,差异无统计学意义,可以认为甲、乙两组有效率相同,如用X2值一般公式计算X2=2.85
(3) 、当总例数n>40,但有理论数0<T<1,或总例数n<40,有实际观察数为0的情况,此时应采用确切概率法直接算出概率P
两种药物治疗结果
组别
治愈
未愈
合计
新药
5(1.82)
、当总例数n>40,1<T<5时,由于理论数偏小,往往使得X2值偏大,此时可应用四格表X2值校正公式:
甲 、乙两组有效率比较
表中有一个理论数 4.62((30×12)/78=4.62)大于1小于5,可采用X2值校正公式计算
分组
有效数
无效数
合计数
甲组
38
10
48
乙组
Fisher确切概率法

第三节四格表资料的Fisher确切概率法前面提及,当四格表资料中出现,或,或用公式(8-1)与公式(8-4)计算出值后所得的概率时,需改用四格表资料的Fisher确切概率(Fisher probabilities in 2×2 table)。
该法是由,其理论依据是超几何分布(hypergeometric distribution),并非检验的范畴。
但由于在实际应用中常用它作为四格表资料假设检验的补充,故把此法列入本章。
下面以例8-1介绍其基本思想与检验步骤。
例8-1 某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV的效果,将33例HBsAg阳性孕妇随机分为预防注射组和非预防组,结果见表8-3。
问两组新生儿的HBV总体感染率有无差别?表8-3两组新生儿HBV感染率的比较组别阳性阴性合计感染率(%)预防注射组 4 18 22 18.18非预防组 5 6 11 45.45合计9 24 33 27.27一、基本思想在四格表周边合计数固定不变的条件下,计算表内4个实际频数变动时的各种组合之概率;再按检验假设用单侧或双侧的累计概率,依据所取的检验水准做出推断。
1.各组合概率的计算在四格表周边合计数不变的条件下,表内4个实际频数, ,,变动的组合数共有“周边合计中最小数+1”个。
如例7-4,表内4个实际频数变动的组合数共有个,依次为:(1) (2) (3) (4) (5)0 22 1 21 2 20 3 19 4 189 2 8 3 7 4 6 5 5 6ad-bc= -198ad-bc= -165ad-bc= -132ad-bc =-99ad-bc= -66(6) (7) (8) (9) (10)5 176 167 158 149 134 7 3 8 2 9 1 10 0 11ad-bc= -33ad-bc=0ad-bc=33ad-bc=66ad-bc= 99各组合的概率服从超几何分布,其和为1。
医学统计学案例分析 2

(2) 27 例患者随机分配到中药组和西药组,属于完全随机设计方案。
(3) 患者总例数 n=27<40,该医师用χ2 检验是不正确的。当 n<40 或 T<1 时, 不宜计算χ2 值,需采用四格表确切概率法(exact probabilities in 2×2 table) 直接计算概率
案例分析-卡方检验(一)
案例分析—四格表确切概率法
【例 1-5】 为比较中西药治疗急性心肌梗塞的疗效,某医师将 27 例急性 心肌梗塞患者随机分成两组,分别给予中药和西药治疗,结果见表 1-4。经 检 验,得连续性校正χ2 =3.134,P>0.05,差异无统计学意义,故认为中西药治 疗急性心肌梗塞的疗效基本相同。
表 1-4 两种药物治疗急性心肌梗塞的疗效比较
【分析】 (1) 该资料是随机从两人群(研究的两个总体)中抽取样本,测量尿 中类固醇排出量,属于完全随机设计。 (2)该统计处理不正确。对完全随机设计 的资料不宜用配对 t 检验。本资料应用完全随机设计两样本均数比较的 t 检验, 目的是判断两样本均数分别代表的两总体均数 和 是否相同。
【例 1-2】 2005 年某县疾病预防控制中心为评价该县小学生卡介苗抗体效价, 随机抽取了 30方差齐,F=0.096,P>0.05),t = 0.014,P>0.05,故认为该县小学 生卡介苗抗体效价无性别差异。
得
0.025<P<0.05,按α=0.05
水
准,拒绝 H0,接受 H1,差异有统计学意义,可认为两药的有效率不等,中药疗效 高于西药。 【问题 1-2】 (1)这是什么资料? (2)该资料属于何种设计方 案? (3)该医师统计方法是否正确?为什么?
【分析】 (1) 中西药的疗效按有效和无效分类,该医师认为此资料是二分类资料即 计数资料是正确的。 (2) 40 例患者随机分配到西药组和中药组,属于完全随机设计方案。 (3) 该医师用四格表 X2 检验是正确的,但计算 值的公式不对。因为有一 个理论频数(T21=4.8)小于 5 大于 1,应用连续性校正公式计算χ2 值。 具体计算
医学统计学案例分析 (1)

案例分析—四格表确切概率法【例1-5】为比较中西药治疗急性心肌梗塞的疗效,某医师将27例急性心肌梗塞患者随机分成两组,分别给予中药和西药治疗,结果见表1-4。
经检验,得连续性校正χ2=3.134,P>0.05,差异无统计学意义,故认为中西药治疗急性心肌梗塞的疗效基本相同。
表1-4 两种药物治疗急性心肌梗塞的疗效比较药物有效无效合计有效率(%)中药12(9.33)2(4.67)1485.7西药 6(8.67)7(4.33)1346.2合计1892766.7【问题1-5】(1)这是什么资料?(2)该资料属于何种设计方案?(3)该医师统计方法是否正确?为什么?【分析】(1) 该资料是按中西药的治疗结果(有效、无效)分类的计数资料。
(2) 27例患者随机分配到中药组和西药组,属于完全随机设计方案。
(3) 患者总例数n=27<40,该医师用χ2检验是不正确的。
当n<40或T<1时,不宜计算χ2值,需采用四格表确切概率法(exact probabilities in 2×2 table)直接计算概率案例分析-卡方检验(一)【例1-1】某医师为比较中药和西药治疗胃炎的疗效,随机抽取140例胃炎患者分成中药组和西药组,结果中药组治疗80例,有效64例,西药组治疗60例,有效35例。
该医师采用成组t检验(有效=1,无效=0)进行假设检验,结果t=2.848,P=0.005,差异有统计学意义检验(有效=1,无效=0)进行进行假设检验,结果t=2.848,P=0.005,差异有统计学意义,故认为中西药治疗胃炎的疗效有差别,中药疗效高于西药。
【问题1-1】(1)这是什么资料?(2)该资料属于何种设计方案?(3)该医师统计方法是否正确?为什么?(4)该资料应该用何种统计方法?【分析】(1) 该资料是按中西药疗效(有效、无效)分类的二分类资料,即计数资料。
(2) 随机抽取140例胃炎患者分成西药组和中药组,属于完全随机设计方案。
四格表的确切概率法(统计学)

01
四格表的确切概率法基于概率论和统计学的原理,能够提供较
为精确的结果,适用于小样本或特定情况格表数据,包括计数、比例等,具
有较广的应用范围。
可解释性强
03
四格表的确切概率法得出的结果具有直观和可解释性强的特点,
能够清晰地展示各组之间的差异和关联。
研究展望
拓展应用领域
四格表的确切概率法将进一步拓 展应用到生物医学、金融、环境 科学等更多领域,为各行业的数 据分析提供有力支持。
理论体系完善
未来研究将进一步完善四格表的 确切概率法的理论体系,包括算 法原理、适用范围和限制条件等 方面,以提高方法的可靠性和普 适性。
人才培养与交流
加强四格表的确切概率法领域的 人才培养和学术交流,促进该领 域的持续发展和创新。
详细描述
通过四格表的确切概率法,可以计算出不同诊断方法在不同情况下的确切概率, 从而为医生提供更准确的诊断依据。
实例二:市场调查
总结词
在市场调查中,四格表的确切概率法 可以用于分析消费者行为和偏好,例 如比较不同产品在不同市场区域的表 现。
详细描述
通过四格表的确切概率法,可以分析 出不同市场区域和产品类型之间的确 切概率,为企业制定更有效的市场策 略提供数据支持。
背景历史
四格表的确切概率法起源于20世纪初的统计学发展,经过多 年的研究和完善,已经成为一种广泛应用的统计方法。
02 四格表的确切概率法概述
定义与原理
定义
四格表的确切概率法是一种用于 计算四格表中每个格子的确切概 率的方法,通常用于比较两组分 类变量之间的关系。
原理
基于概率论和组合数学,通过计 算每个格子的概率,可以得出每 个格子的确切概率值。
医学统计学案例分析

案例分析-四格表确切概率法【例1—5】为比较中西药治疗急性心肌梗塞的疗效,某医师将27例急性心肌梗塞患者随机分成两组,分别给予中药和西药治疗,结果见表1-4。
经检验,得连续性校正χ2=3。
134,P>0。
05,差异无统计学意义,故认为中西药治疗急性心肌梗塞的疗效基本相同.表1-4 两种药物治疗急性心肌梗塞的疗效比较药物有效无效合计有效率(%)中药12(9.33)2(4.67)1485。
7西药 6(8。
67)7(4。
33)1346。
2合计1892766。
7【问题1—5】(1)这是什么资料?(2)该资料属于何种设计方案?(3)该医师统计方法是否正确?为什么?【分析】(1) 该资料是按中西药的治疗结果(有效、无效)分类的计数资料。
(2) 27例患者随机分配到中药组和西药组,属于完全随机设计方案. (3)患者总例数n=27<40,该医师用χ2检验是不正确的。
当n<40或T<1时,不宜计算χ2值,需采用四格表确切概率法(exact probabilities in 2×2 table)直接计算概率案例分析-卡方检验(一)【例1—1】某医师为比较中药和西药治疗胃炎的疗效,随机抽取140例胃炎患者分成中药组和西药组,结果中药组治疗80例,有效64例,西药组治疗60例,有效35例。
该医师采用成组t检验(有效=1,无效=0)进行假设检验,结果t=2.848,P=0.005,差异有统计学意义检验(有效=1,无效=0)进行进行假设检验,结果t=2。
848,P=0。
005,差异有统计学意义,故认为中西药治疗胃炎的疗效有差别,中药疗效高于西药。
【问题1—1】(1)这是什么资料?(2)该资料属于何种设计方案?(3)该医师统计方法是否正确?为什么?(4)该资料应该用何种统计方法? 【分析】(1)该资料是按中西药疗效(有效、无效)分类的二分类资料,即计数资料。
(2)随机抽取140例胃炎患者分成西药组和中药组,属于完全随机设计方案.(3) 该医师统计方法不正确.因为成组t检验用于推断两个总体均数有无差别,适用于正态或近似正态分布的计量资料,不能用于计数资料的比较。
07-1 四格表的确切概率法

基本思想
• 四格表确切概率的基本思想是:在四格表的周 边合计不变的条件下,用公式
Pi = (a + b)!(c + d )!(a + c)!(b + d )! a!b!c! d ! n!
直接计算表内四个数据的各种组合之概率。
单双侧检验
• 双侧检验时,需分别计算两侧所有|A-T|值 等于及大于现有样本|A-T|值的四格表的Pi 值,然后相加,即得双侧检验的P值。单侧检 验时,按研究目的只需计算一侧所有|A-T| 值等于及大于现有样本|A-T|值的四格表的 Pi值,然后相加,即为单侧检验的P值。
(6) (7) (8) (9) (10)
|A-T|:
12 4 13 3 14 2 15 1 16 0 8 5 7 6 6 7 5 8 4 9 0.9655 1.9655 2.9655 3.9655 4.9655
每一种组合的概率
a c a+c b d b+d a+b c+d n
(a + b )!(c + d )!(a + c )!(b + d )! Pi = a !b !c !d ! n !
|A-T|: Pi
7 9 8 8 9 7 10 6 11 6 13 0 12 1 11 2 10 3 9 4 4.0345 3.0345 2.0345 1.0345 0.0345
0.00114 0.01670 0.08909 (6) (7) (8) (9) (10)
|A-T|: Pi
12 4 13 3 14 2 15 1 16 0 8 5 7 6 6 7 5 8 4 9 0.9655 1.9655 2.9655 3.9655 4.9655
四格表统计中该用Fisher确切概率法还是卡方检验?

四格表统计中该用Fisher确切概率法还是卡方检验?前段时间帮一位朋友处理了一篇论文的数据,遇见一个比较典型的问题,与大家分享下。
为便于说明情况,我将这位朋友做的课题简要介绍下:比较两种方法(方法A和方法B)治疗某种疾病的效果,设计的细节就不再赘述了。
最终研究者发现29例患者接受了A法治疗,15例有效;27位患者接受了B法治疗,21位有效。
如下表所示:对于此类数据的处理,相信大多数同行都会异口同声地说应该用卡方检验。
的确,这种典型的四格表,且没有任何配对设计的元素,理论上讲是可以用卡方检验观察两个变量之间是否有关联的。
经卡方检验后,得出P等0.042(具体的过程略,感兴趣者可阅读后续章节中关于如何在GraphPad Prism中进行卡方检验的内容)。
于是研究者认定:B法优于A法!这个结论看起来是成立的,但事实真是如此吗?如果我们换一种统计方法,用Fisher确切概率法,会得到什么结果呢?笔者算了一下,P=0.054。
这下问题来了:卡方检验和Fisher 确切概率法的结果,该取哪一个呢?统计学教科书上通常会说:如果总样本量大于40,最小理论频数大于5,就应该用卡方检验;如果总样本量大于40,最小理论频数介于1和5之间,就应该使用卡方检验的校正公式;如果总样本量小于40,或(注意这个或字)最小理论频数小于1,就应该用Fisher确切概率法。
在本案例中,总样本量为56,最小理论频数为:27×20/56=9.64,明显是大于5的,因此应采用卡方检验。
这里穿插一段关于最小理论频数的计算方法,实际上就是最小的横排合计数据和最小的纵列合计数据的乘积再除以总样本量。
在本案例中,横排合计数据只有两个(29和27),纵列合计数据也只有两个(36和20),总样本量是56,因此最小理论频数就是27×20/56=9.64。
在多行多列表格中寻找最小理论频数的方法与此类似。
实际上,在本案子里中,笔者认为应该采用Fisher确切概率法的结果,即两组治疗效果之间的差异无统计学意义。
Excel用于Fisher确切概率法

Excel用于Fisher确切概率法【摘要】给出用Excel电子表格计算确切概率的方式。
【关键词】 Excel电子表格; 确切概率法; 实际频数与理论频数在医药实验中常常进行病例对照研究,用以查验对照组和处置组之间是不是有显著性异,这种问题的原始数据若是属于计数资料,能够将资料整理成如下四格表。
表1 四格表组别具有某种特点不具有某种特点合计对照组aba+b处置组cdc+d合计a+cb+da+b+c+d在统计处置上,依照样本容量n(n=a+b+c+d)的大小选取统计方式[3]:①当样本容量n>40,且理论频数T>5时,用χ2 查验;②当n>40,但11 Fisher确切概率法其查验步骤如下[3]:①先计算四格表的实际频数T0=|ad-bc| /n ;②维持表1的第4行和第4列的合计值不变,让四格表中的数据发生转变,取得一系列四格表;③按T0 的公式计算每一个四格表的实际频数与理论频数之差的绝对值作为Ti ;④计算Ti≥T0 对应的四格表发生的概率:Pi=(a+b)!(a+c)!(d+b)! / ai!bi!ci!di!n!⑤令 P=Ti≥T0Pi⑥由P的大小做出推断。
2 Excel电子表格用于确切概率法的操作下面用具体的实例介绍其操作步例1 在某牧区观看慢性布鲁氏病患者植物血凝素(PHA)皮肤实验反映,资料如下表2,问活动型与稳固型患者PHA反映阳性率有无不同[1]?表2 两型慢性布鲁氏病的PHA皮试反映病人分型阳性数阴性数合计活动型11415稳固型3710合计42125①打开Excel新建一个电子表格。
②计算T0在A1中输入T0= ,在B1中输入=ABS(1*7-3*14)/25,回车。
B1中显示结果为,那个地址ABS表示绝对值。
③维持四格表周边合计数不变,产生四格表在A2中输入"0", 在B2中输入"=15-A2", A3中输入"=4-A2", 在B3中输入"=6+A2"。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
愈合
未愈合
64(57.84) 21(27.16)
51(57.16) 33(26.84)
115
54
合计 85 84
169
愈 合 率 (%) 75.29 60.71 68.05
表 反应变量按二项分类的两个独立样本资料
反应结果
阳性
阴性
观察 总频数
阳性 频率
样本 1
A11
A12
n1 ( 给 定 ) P1 A11 n1
理论频数
f1 F1 2 ( f2 F2 )2 ... ( fk Fk )2
F1
F2
Fk
k 1 (计算理论分布时利用
自由度 样本资料估计的参数个数)
(3) 确定概率 P 并作出统计推论。
注意:理论频数F不宜过小,如不小于5,否则需要合并
例 6-1 某 医 学 院 校 医 生 随 机 抽 取 100 名 一 年 级
0
f
( 2)
1
2( / 2)
2
2
( / 21) e 2 / 2
自由度=1 自由度=2 自由度=3 自由度=6 P=0.05的临界值
3 3.84 6 7.81 9
1122.59 15
18卡方值Fra bibliotek性质:若 2 (1 ), 2 (2 )互相独立,
则
2 (1 ) 2 (2 ) 服从 2分布, 自由度 1 2 2 (1 ) 2 (2 )服从 2分布, 自由度 1 2
第二节 拟合优度检验
类别或组段 观察频数
理论频数
1
f1
F1
2
f2
F2
…
…
…
k
fk
Fk
问题:试判断这份样本,是否来自该理论分布?
(1)
H
:样本的总体与该理论分布无区别
0
H1 :样本与该理论分布有区别
0.05或 0.1
(2) Pearson 2统计量
2 P
k (实际频数-理论频数)2
i 1
(chi-square
distribution),记为
2 (1)
或
2
(1)
.
图形:从纵轴某个点开始单调下降,先凸后凹.
0.3
0.2
0.1
0.0
0
2
4
6
8
10
2 0.05(1)
3.84
(1.96)2
Z2 0.05 / 2
2 0.01(1)
6.63
(2.5758)2
Z2 0.01/ 2
(2) Z1, Z2,..., Z 互相独立,均服从 N (0,1),
0.10。
本 资 料 的 均 数 X 4 . 1 9 6 6 , S 0.6737。
本例因为正态分布有 及 两个参数,所以其
自 由 度 为 : =k— 1— 2=10−3=7
表 6-1 正 态 分 布 拟 合 优 度 的 2检 验
Z=(2.95-4.1966)/0.6737
X
(1) 2.65 | 2.95 | 3.25 | 3.55 | 3.85 | 4.15 | 4.45 | 4.75 | 5.05 | 5.35 | 5.65
2界
值
表
得
2=
15.05>
2 0.1,7
12.02 ,
P<0.1,
故 按 = 0.10 水 准 拒 绝 H0,可 认 为 实 际 频 数 与
正态分布的理论频数不符合,拟合优度不好。
在 自 由 度 =7 的 卡 方 分 布 中 , 2= 15.0509 时
P=“ =CHIDIST(15.0509,7)” =0.03535
0.0322 0.0471 0.0882 0.1365 0.1671 0.1759 0.1459 0.1041 0.0584 0.0436
3.22 4.71 8.82 13.65 16.71 17.59 14.59 10.41 5.84 4.36
100
1.0000 100.00
( f F)2 F
(7) 0.9839 0.0121 2.6182 2.0969 1.3276 1.7765 6.0691 0.0161 0.1208 0.0297 15.0509
则
Z12
Z
2 2
...
Z2的分布称自由度为
的
2
分布,
记为
2 (
)
或
2
(
)
,或简记为
2
.
* 图形:单峰,正偏峰;
自由度 很大时, (2) 近似地服从正态分布.有
Z
(2
) 2
,
(2
)服从均数为,方差为2的正态分布
χ2分布(chi-square distribution)
纵高
0.5 0.4 0.3 0.2 0.1 0.0
P n1 n
H0 : 1 2 (分别为样本率P1、P2、P的总体率)
(1)检验 H1 : 1 2
0.05
(2)用 P n1 n 近似地代替 ,理论上应有:
医 学 生 , 测 定 空 腹 血 糖 值 (mmol/L), 其 频 数 分 布 如
表 6-1 中 第 (1)栏 和 第 (2)栏 所 示 , 试 用 2检 验 判 断 该
资料是否符合正态分布。
H0: 空 腹 血 糖 的 实 际 频 数 与 正 态 分 布 的 理 论 频 数 符 合
H1: …不 符 合
f
Z
(2)
(3)
5 -1.85
5 -1.41
4 -0.96
19 -0.51
12 -0.07
12 0.38
24 0.82
10 1.27
5 1.71
4
(Z )
F n
(4)
(5) (6)= n(5)
0.0322 0.0793 0.1685 0.3050 0.4721 0.6480 0.7939 0.8980 0.9564
2 检验
χ2检验(Chi-square test)是现代统计学的创
始人之一,英国人K . Pearson(1857-1936) 于1900年提出的一种具有广泛用途的统计方 法,可用于拟合优度检验、两个或多个率或 构成比间的比较等等。
第一节 2 分布
(1) 自由度为 1 的 2 分布
若 Z ~ N (0,1),则 Z 2的分布称为自由度为 1 的 2 分布.
样本 2
A21
A22
n2 ( 给 定 ) P2 A21 n2
合计
n1
n2
n ( 给 定 ) P n1 n
表 反应变量按二项分类的两个独立样本资料
反应结果
观察
阳性
阴性
总频数
样本 1
A11
A12
n1 (给定)
样本 2
A21
A22
n2 (给定)
合计
n1
n2
n (给定)
阳性 频率
P1 A11 n1 P2 A21 n2
第三节 独立性检验
一、四格表(2×2表)卡方检验 二、行×列表卡方检验 三、配对四格表卡方检验
一 、 四 格 表 (fourfold table)资 料 的 2 检 验 (两 个 样 本 率 的 比 较 )
表 6-2 两 种 药 物 治 疗 消 化 道 溃 疡 4 周 后 疗 效
处理 螺赛克 雷米替叮