无序分类资料统计分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三、四格表资料 Fisher 确切概率法
–注意:确切概率法不属于χ2检验的范畴,但常 作为χ2检验应用上的补充。
例 研究某新药治疗原发性高血压的疗效,并用常规治疗药物作为对照组,结果见表
6.9,问新药疗效与对照组疗效有无差别? 表 6.9 某新药治疗原发性高血压的疗效 分 组 试验组 对照组 合 计 有效 20(a) 2(c) 22 无效 8(b) 6(d) 14 合计 28 8 36 有效率(%) 71.43 25.00 61.11
分析实例
1.建立检验假设和确立检验水准
– H0:新药组与对照组疗效相等,即 π1 = π2 – H1:新药组与对照组ห้องสมุดไป่ตู้效不等,即 π1 ≠ π2
2.计算概率和确定P值
– 本例n=a+b+c+d = 36 < 40,不满足χ2检验的应 用条件,宜采用四格表确切概率法。
方法原理
• 在四格表周边合计不变的条件下,在相应 的总体中进行抽样,四格表中出现各种排 列组合情况的概率
组别 正常胃粘膜 不典型增生 胃癌组织 合计 观测例数 25 25 50 100 阳性例数 7(15.250) 11(15.250) 43(30.500) 61 阴性例数 18(9.750) 14(9.750) 7(19.500) 39 阳性率(%) 28.0 44.0 86.0 61.0
注 :括号内为理论频数
概 述
卡方检验主要用于分类变量,它基本的原假 设是:
H0:行分类变量与列分类变量无关联 H1:行分类变量与列分类变量有关联
统计量
( Ai − Ti ) χ =∑ Ti i =1
2 P k
2
卡方检验
在H0为真时,实际观察数与理论数之差Ai-Ti 应该比较接近0。
2 ( A − T ) 2 i i = χ 由于检验统计量 P ∑ 服从自由度为 Ti i =1 k
A法
+ - 合计
B法
+ -
合计
56 (a) 21 (c) 77
35 (b) 28 (d) 63
91 49 140
方法原理
• 显然,本例对同一个个体有两次不同的测 量,从设计的角度上讲可以被理解为自身 配对设计 • 上述问题为:两种“处理”之差别分析
方法原理
• 注意
–考虑该例四格表中两处理阳性检出率是否相同 只要考虑四格表中的非对角元素的差异
注意事项
配对四格表卡方与成组设计卡方
由于配对设计的资料同一对观察结果间一般是非独 立的,而成组设计的资料一般可以认为是独立的, 所以配对四格表资料不能用成组设计的χ2或 Fisher检验的,而要用配对设计的χ2或配对设计 的直接计算概率法进行检验。
五、关联性分析
例:为了了解血型与胃溃疡、胃癌之间的关系 ,在某地 随机抽样得到下列资料,试问两者之间是否存在一定关 系? 血型与胃溃疡、胃癌之间的关系 血型 O型 A型
• 假设检验步骤如下:
– H0:两法总体阳性检出率无差别,即B = C – H1:两法总体阳性检出率有差别,即B ≠ C
方法原理
根据 H0 得 b、 c 两格的理论数均为 Tb = Tc = (b+c)/2, 对 应的配对检验统计量为:
2 b c ( − ) χ2 = , b+c
ν =1
一般在 b + c < 40 时,采用确切概率法。
自由度
ν = ( 4 − 1) × (3 − 1) = 6
分析步骤
• 确定P值,下结论
2 2 2 χ > χ χ = 12 . 59 P < 0.05 查附表8, , 0.05 ,6 , ,按0.05水 0.05 ,6
准不能拒绝原假设,可以认为血型与胃溃 疡、胃癌之间有关联性。
注意的问题
1.多重比较:多个独立样本率(构成比) 2 2 χ ≥ χ P ≤ α 而拒绝 H 0 时,仅说 α ,ν , 比较,当 明总体率(构成比)间总的而言有差别, 若要了解每两个组的率(构成比)差别情 况,还需进行多重比较。
–本例中P值=P(0)+ P(6)+P(7)+P(8)=0.0361<0.05
第三节
多个独立样本行×列表资料的假设检验
R×C 列联表资料 卡方检验
例 11-5 为探讨埃兹蛋白(Ezrin)在胃癌组织中的表达情况,采用免疫组化法检测 50 例胃 癌组织、25 例胃粘膜不典型增生和 25 例正常胃粘膜中 Ezrin 的表达,结果见表 11-9。问不同 胃组织 Ezrin 表达阳性率是否相同? 表 11-9 Ezrin 在不同胃组织中的表达
对于四格表资料来说还有专门的计算公式:
2 ( ad − bc ) n 2 χ = ( a + b)(c + d )(a + c)(b + d )
1. 适用条件 当n≥40,且所有理论频数T≥5时 ; 当n≥40,但有1≤T<5时 ; 当n<40,或有T<1时 ; 当 P≈ α 时 ; 2. 校正公式: 卡方连续性校正公式 四格表专用校正公式
B型 胃溃疡 胃癌 正常 合计
AB型 合计
1 980 1 340 300 360 3 980
20 18 10 12 60
250 000 210 000 150 000 140 000 750 000
252 000 211 358 150 310 140 372 754 040
分析步骤
• 建立检验假设,确定检验水准
对于 R×C 列联表来说,计算公式为
2 ( A − T ) 2 χ =∑ υ , =(行数-1) (列数-1) T
n R nC 由于 T = n ,将该式代入上式,可得到 R×C 列联表
展开后的计算公式:
2 ⎛ ⎞ A 2 χ = n⎜ ⎜ ∑ n n − 1⎟ ⎟, R C ⎝ ⎠
υ =(行数-1) (列数-1)
表11-3 试验组与对照组疗效 组别 试验组 对照组 合计 有效 116 82 198 无效 4 35 39 合计 120 117 237 有效率(%) 96.67 70.09 83.54
卡方检验的统计量为 χ ,计算公式如下:
2
2 A T ( − ) χ2 = ∑ , υ =(行数-1) (列数-1) T
第四节
配对设计两样本率比较的卡方检验
方法原理
例 用A、B两种方法检查已确诊的乳腺癌患者140 名,A法检出91名(65%),B法检出77名(55%),A、 B两法一致的检出56名(40%),问哪种方法阳性检 出率更高?
方法原理
例 用A、B两种方法检查已确诊的乳腺癌患者140 名,A法检出91名(65%),B法检出77名(55%),A、 B两法一致的检出56名(40%),问哪种方法阳性检 出率更高?
(行数-1)(列数-1)的卡方分布。 故在H0为真时,当 χ
2 P
> χα ,v
2
,拒绝H0。
第二节
两独立样本的四格表资料的假设检验
一、两独立样本四格表资料卡方检验
例11-2 某研究小组为研究慢支口服液II号对慢性支气管炎治疗效果,以口服消咳喘为对 照进行了临床试验,试验组120人、对照组117人(两组受试者病程、病情等均衡),疗程 2周,两组治疗后有效的患者分别为116人、82人。问慢支口服液II号与消咳喘治疗慢性支 气管炎的疗效是否相同?
–H 0:血型与胃溃疡、胃癌之间没有关联性 –H 1 :血型与胃溃疡、胃癌之间有关联性
α = 0.05
2 χ • 求出统计量 值和自由度
2 2
ν
A × (列数 − 1 ) χ = n( ∑ − 1) ν = (行数 − 1) n R nC
分析步骤
2 A 2 χ − 1) = 870.33 经计算,有 = n(∑ nR nC
组别 中西医结合组 西医组 有效 92(88.973) 85(88.027) 无效 2(5.027) 8(4.973) 合计 94 93 有效率(%) 97.87 91.40
注 :括号内为理论频数
连续性校正公式:
( A − T − 0.5) 2 T
χ2 = ∑
;
n 2 ( ad − bc − ) n 2 χ2 = (a + b)(c + d )(a + c)(b + d )
–本例即28、8、22、14保持不变的条件下,若 H0成立,计算出现各种四格表的概率
(a + b)!(c + d )!(a + c)!(b + d )! P= a!b!c!d !n!
方法原理
表 6.10 在四格表(表 6.9)周边合计不变的条件下,π1=π2 时的概率分布计算 d P(d) 0 1 2 3 4 5 6
无序分类资料的统计分析
卫生统计学教研室 武振宇
zyw@
1. 无序分类资料的统计分析
在实际应用中,无序分类资料也是一种常 见的数据类型。比较变量之间不同水平下的频 数分布是否相同,常用卡方检验。 此外,卡方检验还可应用到拟合优度、 分析行变量与列变量之间是否独立性或一定的 相关性等。
*
7
8
0.0106 0.0789 0.2244 0.3168 0.2420 0.1019 0.0229 0.0025 0.0001
累计概率 0.0106 0.0895 0.3138 0.6306 0.8726 0.9745 0.9974 0.9999 1.0000
*
本例现有样本情况 d=6。
• 然后将其中小于等于现有样本概率的概率值相 加,即为P值:
二、两独立样本四格表资料连续性校正
例11-3 为评价中西结合治疗抑郁发作的疗效。将187例患者随机分为2组, 两组患者均选用阿咪替林西医综合治疗,中西医结合组在上述治疗的同时, 再配合中医辨证治疗,根据中医辨证分型采用不同的方剂,治疗结果见表 11-5,问两种治疗方案的疗效有无差别? 表11-5 试验组与对照组疗效
注意事项
• McNemar检验(配对卡方检验)只会利用非主对角 线单元格上的信息,即它只关心两者不一致的评 价情况,用于比较两个评价者间存在怎样的倾 向。因此,对于一致性较好的大样本数据(a,d较 大且b,c较小时),McNemar检验可能会失去实用 价值。
– 例如对1万个案例进行一致性评价,9995个都是完全一 致的,在主对角线上,另有5个分布在左下的三角区, 显然,此时一致性相当的好。但如果使用McNemar检 验,此时反而会得出两种评价有差异的结论来。
–最理想的办法
• 增加样本含量以增大理论频数(但是可能吗) • 确切概率法
2 χ 2.当效应指标为有序分类变量资料时, 检
验只能说明效应指标定性反应类别的构成 比是否相同,而各组效应的比较宜采用秩 和检验
注意的问题
3.行列表卡方检验的适用条件
–理论频数不宜太小,一般认为不宜有1/5以上 格子的理论频数小于5或有一个格子的理论频 数小于1 –不太理想的办法
• 与邻近行或列中的实际频数合并 • 删去理论频数太小的格子所对应的行或列
一、两独立样本四格表资料卡方检验
例11-2 某研究小组为研究慢支口服液II号对慢性支气管炎治疗效果,以口服消咳喘为对 照进行了临床试验,试验组120人、对照组117人(两组受试者病程、病情等均衡),疗程 2周,两组治疗后有效的患者分别为116人、82人。问慢支口服液II号与消咳喘治疗慢性支 气管炎的疗效是否相同?