四格表分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
❖ Poisson分布资料是离散型资料,但不具有分类特征,故 视为计量资料。
❖ Poisson分布两样本来自总体均数是否相等的比较 ❖ 1.两样本观察单位相同:在每个样本的观察值大于20时,
基于正态近似可以构造两样本总体均数的检验。 ❖ 2.两样本观察单位不等:应将观察计数化为观察单位相同
的平均水平,再基于正态近似构造两样本总体均数的检验
注意事项
❖ McNemar检验(配对卡方检验)只会利用非主对角线 单元格上的信息,即它只关心两者不一致的评价 情况,用于比较两个评价者间存在怎样的倾向。 因此,对于一致性较好的大样本数据(a,d较大且 b,c较小时),McNemar检验可能会失去实用价值。 ▪ 例如对1万个案例进行一致性评价,9995个都是 完全一致的,在主对角线上,另有5个分布在左 下的三角区,显然,此时一致性相当的好。但 如果使用McNemar检验,此时反而会得出两种评 价有差异的结论来。
累计概率 0.0106 0.0895 0.3138 0.6306 0.8726 0.9745 0.9974 0.9999 1.0000
*本例现有样本情况 d=6。
❖ 然后将其中小于等于现有样本概率的概率值相加,即为P
值:
▪ 本例中P值=P(0)+ P(6)+P(7)+P(8)=0.0361<0.05
方法原理
❖ 理论频数
▪ 基于H0成立,两样本所在总体无差别的前提下
计算出各单元格的理论频数来
TRC
nR nC n
牙膏类型 含氟牙膏 一般牙膏 合计
患龋齿人数 70(76.67) 45(38.33) 115
未患龋齿人数 130(123.33) 55(61.67) 185
调查人数 200 100 300
▪ H0:行分类变量与列分类变量无关联
▪ H1:行分类变量与列分类变量有关联
▪ =0.05
▪ 统计量
P2
k i1
( Ai
Ti )2 Ti
,其中Ai是样本资料的
计 数 , Ti 是 在 H0 为 真 的 情 况 下 的 理 论 数 ( 期 望
值)。
卡方检验
▪ 在H0为真时,实际观察数与理论数之差Ai-Ti 应该比较接近0。所以在H0为真时,检验统计量
龋患率(%) 35.00 45.00 38.33
方法原理
• 从卡方的计算公式可见,当观察频数与期望频数完全 一致时,卡方值为0;
• 观察频数与期望频数越接近,两者之间的差异越小, 卡方值越小;
• 反之,观察频数与期望频数差别越大,两者之间的差 异越大,卡方值越大。
• 当然,卡方值的大小也和自由度有关。
P (a b)!(c d )!(a c)!(b d)! a!b!c!d!n!
方法原理
表 6.10 在四格表(表 6.9)周边合计不变的条件下,1=2 时的概率分布计算
d
0
1
2
3
4
5
6*
7
8
P(d) 0.0106 0.0789 0.2244 0.3168 0.2420 0.1019 0.0229 0.0025 0.0001
76.67
123 .33
38.33
61.67
2.82
操作步骤
4. 确定P值和作出推断结论 ▪ 查附表8,2界值表,得p>0.05。按 = 0.05 水准,不拒绝H0,尚不能认为使用含氟牙膏比
使用一般牙膏儿童的龋患率低。 ▪ 对于四格表,卡方的计算公式又可进行简化,
以方便手工计算
卡方检验假设的等价性
表 6.9,问新药疗效与对照组疗效有无差别?
表 6.9 某新药治疗原发性高血压的疗效
分组
有效
无效
合计
有效率()
试验组
20(a)
8(b)
28
71.43
对照组
2(c)
6(d)
8
25.00
合计
22
14
36
61.11
分析实例
1.建立检验假设和确立检验水准
▪ H0:新药组与对照组疗效相等,即 1 = 2 ▪ H1:新药组与对照组疗效不等,即 1 2
2 P
k i1
( Ai
Ti )2 Ti
服从自由度为k-1的卡方分布。
即:P2 2,v,拒绝H0。
上述卡方检验由此派生了不同应用背景的各种问 题的检验,特别最常用的是两个样本率的检验等。
方法原理
牙膏类型 含氟牙膏 一般牙膏 合计
表 6.2 使用含氟牙膏与一般牙膏儿童的龋患率
患龋齿人数 70(76.67) 45(38.33) 115
未患龋齿人数 130(123.33) 55(61.67)
185
调查人数 200 100 300
龋患率(%) 35.00 45.00 38.33
更一般地,可将上述表格记为表 6.3 的一般形式,称之为四格表(fourfold table)。因为表 中 a、b、c 和 d 四个格子的数据是基本的,其余数据均可从这四个数据派生出来。
2.计算概率和确定P值
▪ 本例n=a+b = 36 < 40,不满足2检验的应用
条件,宜采用四格表确切概率法。
方法原理
❖ 在四格表周边合计不变的条件下,在相应的总体 中进行抽样,四格表中出现各种排列组合情况的 概率 ▪ 本例即28、8、22、14保持不变的条件下,若H0 成立,计算出现各种四格表的概率
▪ 若n > 40 ,此时有 1< T 5时,需计算Yates
连续性校正2值
▪ T <1,或n<40时,应改用Fisher确切概率法直
接计算概率
确切概率法
分析实例
▪ 注意:确切概率法不属于2检验的范畴,但常 作为2检验应用上的补充。
例 6.13 研究某新药治疗原发性高血压的疗效,并用常规治疗药物作为对照组,结果见
一点补充
❖ 确切概率法可以考虑单边检验 ❖ 对于较大的行乘列表,确切概率法的计算量将变
得十分惊人,有可能超出硬件系统可以支持的范 围
配对设计两样本率比较的 χ2检验
方法原理
例6.9 用A、B两种方法检查已确诊的乳腺癌患者 140名,A法检出91名(65%),B法检出77名(55%), A、B两法一致的检出56名(40%),问哪种方法阳性 检出率更高?
❖ 两组儿童的龋齿率相同 ▪ 两组发生率的比较
❖ 使用不同的牙膏并不会影响龋齿的发生(两个分 类变量间无关联) ▪ 两变量的相关分析
四格表2值的校正
❖ 英国统计学家Yates认为,2分布是一种连续型分 布,而四格表资料是分类资料,属离散型分布, 由此计算的2值的抽样分布也应当是不连续的, 当样本量较小时,两者间的差异不可忽略,应进 行连续性校正(在每个单元格的残差中都减去0.5)
❖ 假设检验步骤如下:
▪ H0:两法总体阳性检出率无差别,即B = C ▪ H1:两法总体阳性检出率有差别,即B C
方法原理
根据 H0 得 b、c 两格的理论数均为 Tb = Tc = (b+c)/2,对 应的配对检验统计量为:
2 (b c)2 ,
bc
1
一般在 b + c < 40 时,采用确切概率法。
方法原理
❖ 卡方分布ቤተ መጻሕፍቲ ባይዱ
▪ 显然,卡方值的大小不仅与A、E之差有关,还 与单.1元2 格数(自由度)有关
.10
.08
概率
.06
.04
.02
0.00
.00
4.02
8.04 12.06 16.08 20.10 24.12 28.14 32.16 36.18
2.01
6.03 10.05 14.07 18.09 22.11 26.13 30.15 34.17 38.19
A法
+ - 合计
+ 56 (a) 21 (c) 77
B法 -
35 (b) 28 (d) 63
合计
91 49 140
方法原理
• 显然,本例对同一个个体有两次不同的测量,从 设计的角度上讲可以被理解为自身配对设计
• 上述问题为:两种“处理”之差别分析
方法原理
❖ 注意 ▪ 考虑该例四格表中两处理阳性检出率是否相同 只要考虑四格表中的非对角元素的差异
此时,可以考虑边际卡方检验,见P130
注意事项
配对四格表卡方与成组设计卡方
由于配对设计的资料同一对观察结果间一般是非独 立的,而成组设计的资料一般可以认为是独立的, 所以配对四格表资料不能用成组设计的2或 Fisher检验的,而要用配对设计的2或配对设计 的直接计算概率法进行检验。
Poisson分布资料推断
chi-square
操作步骤
1. 建立检验假设和确定检验水准
▪ H0:使用含氟牙膏和一般牙膏儿童龋患率相等 ▪ H1:使用含氟牙膏和一般牙膏儿童龋患率不等 2. =0.05 3.计算检验统计量2值
2 70 76.67 2 130 123 .332 45 38.332 55 61.67 2
四格表资料分析 卡方检验
以及Poisson资料分析
内容
1
四个表和卡方检验原理
2 成组设计两样本率比较的卡方检验
3
确切概率法
4 配对设计两样本率比较的卡方检验
5
Poisson资料分析
卡方检验入门
概述
❖ 卡方检验是以卡方分布为基础的一种常用假设检 验方法,主要用于分类变量,它基本的无效假设 是(不包括配对资料):
❖ Poisson分布两样本来自总体均数是否相等的比较 ❖ 1.两样本观察单位相同:在每个样本的观察值大于20时,
基于正态近似可以构造两样本总体均数的检验。 ❖ 2.两样本观察单位不等:应将观察计数化为观察单位相同
的平均水平,再基于正态近似构造两样本总体均数的检验
注意事项
❖ McNemar检验(配对卡方检验)只会利用非主对角线 单元格上的信息,即它只关心两者不一致的评价 情况,用于比较两个评价者间存在怎样的倾向。 因此,对于一致性较好的大样本数据(a,d较大且 b,c较小时),McNemar检验可能会失去实用价值。 ▪ 例如对1万个案例进行一致性评价,9995个都是 完全一致的,在主对角线上,另有5个分布在左 下的三角区,显然,此时一致性相当的好。但 如果使用McNemar检验,此时反而会得出两种评 价有差异的结论来。
累计概率 0.0106 0.0895 0.3138 0.6306 0.8726 0.9745 0.9974 0.9999 1.0000
*本例现有样本情况 d=6。
❖ 然后将其中小于等于现有样本概率的概率值相加,即为P
值:
▪ 本例中P值=P(0)+ P(6)+P(7)+P(8)=0.0361<0.05
方法原理
❖ 理论频数
▪ 基于H0成立,两样本所在总体无差别的前提下
计算出各单元格的理论频数来
TRC
nR nC n
牙膏类型 含氟牙膏 一般牙膏 合计
患龋齿人数 70(76.67) 45(38.33) 115
未患龋齿人数 130(123.33) 55(61.67) 185
调查人数 200 100 300
▪ H0:行分类变量与列分类变量无关联
▪ H1:行分类变量与列分类变量有关联
▪ =0.05
▪ 统计量
P2
k i1
( Ai
Ti )2 Ti
,其中Ai是样本资料的
计 数 , Ti 是 在 H0 为 真 的 情 况 下 的 理 论 数 ( 期 望
值)。
卡方检验
▪ 在H0为真时,实际观察数与理论数之差Ai-Ti 应该比较接近0。所以在H0为真时,检验统计量
龋患率(%) 35.00 45.00 38.33
方法原理
• 从卡方的计算公式可见,当观察频数与期望频数完全 一致时,卡方值为0;
• 观察频数与期望频数越接近,两者之间的差异越小, 卡方值越小;
• 反之,观察频数与期望频数差别越大,两者之间的差 异越大,卡方值越大。
• 当然,卡方值的大小也和自由度有关。
P (a b)!(c d )!(a c)!(b d)! a!b!c!d!n!
方法原理
表 6.10 在四格表(表 6.9)周边合计不变的条件下,1=2 时的概率分布计算
d
0
1
2
3
4
5
6*
7
8
P(d) 0.0106 0.0789 0.2244 0.3168 0.2420 0.1019 0.0229 0.0025 0.0001
76.67
123 .33
38.33
61.67
2.82
操作步骤
4. 确定P值和作出推断结论 ▪ 查附表8,2界值表,得p>0.05。按 = 0.05 水准,不拒绝H0,尚不能认为使用含氟牙膏比
使用一般牙膏儿童的龋患率低。 ▪ 对于四格表,卡方的计算公式又可进行简化,
以方便手工计算
卡方检验假设的等价性
表 6.9,问新药疗效与对照组疗效有无差别?
表 6.9 某新药治疗原发性高血压的疗效
分组
有效
无效
合计
有效率()
试验组
20(a)
8(b)
28
71.43
对照组
2(c)
6(d)
8
25.00
合计
22
14
36
61.11
分析实例
1.建立检验假设和确立检验水准
▪ H0:新药组与对照组疗效相等,即 1 = 2 ▪ H1:新药组与对照组疗效不等,即 1 2
2 P
k i1
( Ai
Ti )2 Ti
服从自由度为k-1的卡方分布。
即:P2 2,v,拒绝H0。
上述卡方检验由此派生了不同应用背景的各种问 题的检验,特别最常用的是两个样本率的检验等。
方法原理
牙膏类型 含氟牙膏 一般牙膏 合计
表 6.2 使用含氟牙膏与一般牙膏儿童的龋患率
患龋齿人数 70(76.67) 45(38.33) 115
未患龋齿人数 130(123.33) 55(61.67)
185
调查人数 200 100 300
龋患率(%) 35.00 45.00 38.33
更一般地,可将上述表格记为表 6.3 的一般形式,称之为四格表(fourfold table)。因为表 中 a、b、c 和 d 四个格子的数据是基本的,其余数据均可从这四个数据派生出来。
2.计算概率和确定P值
▪ 本例n=a+b = 36 < 40,不满足2检验的应用
条件,宜采用四格表确切概率法。
方法原理
❖ 在四格表周边合计不变的条件下,在相应的总体 中进行抽样,四格表中出现各种排列组合情况的 概率 ▪ 本例即28、8、22、14保持不变的条件下,若H0 成立,计算出现各种四格表的概率
▪ 若n > 40 ,此时有 1< T 5时,需计算Yates
连续性校正2值
▪ T <1,或n<40时,应改用Fisher确切概率法直
接计算概率
确切概率法
分析实例
▪ 注意:确切概率法不属于2检验的范畴,但常 作为2检验应用上的补充。
例 6.13 研究某新药治疗原发性高血压的疗效,并用常规治疗药物作为对照组,结果见
一点补充
❖ 确切概率法可以考虑单边检验 ❖ 对于较大的行乘列表,确切概率法的计算量将变
得十分惊人,有可能超出硬件系统可以支持的范 围
配对设计两样本率比较的 χ2检验
方法原理
例6.9 用A、B两种方法检查已确诊的乳腺癌患者 140名,A法检出91名(65%),B法检出77名(55%), A、B两法一致的检出56名(40%),问哪种方法阳性 检出率更高?
❖ 两组儿童的龋齿率相同 ▪ 两组发生率的比较
❖ 使用不同的牙膏并不会影响龋齿的发生(两个分 类变量间无关联) ▪ 两变量的相关分析
四格表2值的校正
❖ 英国统计学家Yates认为,2分布是一种连续型分 布,而四格表资料是分类资料,属离散型分布, 由此计算的2值的抽样分布也应当是不连续的, 当样本量较小时,两者间的差异不可忽略,应进 行连续性校正(在每个单元格的残差中都减去0.5)
❖ 假设检验步骤如下:
▪ H0:两法总体阳性检出率无差别,即B = C ▪ H1:两法总体阳性检出率有差别,即B C
方法原理
根据 H0 得 b、c 两格的理论数均为 Tb = Tc = (b+c)/2,对 应的配对检验统计量为:
2 (b c)2 ,
bc
1
一般在 b + c < 40 时,采用确切概率法。
方法原理
❖ 卡方分布ቤተ መጻሕፍቲ ባይዱ
▪ 显然,卡方值的大小不仅与A、E之差有关,还 与单.1元2 格数(自由度)有关
.10
.08
概率
.06
.04
.02
0.00
.00
4.02
8.04 12.06 16.08 20.10 24.12 28.14 32.16 36.18
2.01
6.03 10.05 14.07 18.09 22.11 26.13 30.15 34.17 38.19
A法
+ - 合计
+ 56 (a) 21 (c) 77
B法 -
35 (b) 28 (d) 63
合计
91 49 140
方法原理
• 显然,本例对同一个个体有两次不同的测量,从 设计的角度上讲可以被理解为自身配对设计
• 上述问题为:两种“处理”之差别分析
方法原理
❖ 注意 ▪ 考虑该例四格表中两处理阳性检出率是否相同 只要考虑四格表中的非对角元素的差异
此时,可以考虑边际卡方检验,见P130
注意事项
配对四格表卡方与成组设计卡方
由于配对设计的资料同一对观察结果间一般是非独 立的,而成组设计的资料一般可以认为是独立的, 所以配对四格表资料不能用成组设计的2或 Fisher检验的,而要用配对设计的2或配对设计 的直接计算概率法进行检验。
Poisson分布资料推断
chi-square
操作步骤
1. 建立检验假设和确定检验水准
▪ H0:使用含氟牙膏和一般牙膏儿童龋患率相等 ▪ H1:使用含氟牙膏和一般牙膏儿童龋患率不等 2. =0.05 3.计算检验统计量2值
2 70 76.67 2 130 123 .332 45 38.332 55 61.67 2
四格表资料分析 卡方检验
以及Poisson资料分析
内容
1
四个表和卡方检验原理
2 成组设计两样本率比较的卡方检验
3
确切概率法
4 配对设计两样本率比较的卡方检验
5
Poisson资料分析
卡方检验入门
概述
❖ 卡方检验是以卡方分布为基础的一种常用假设检 验方法,主要用于分类变量,它基本的无效假设 是(不包括配对资料):