卡方检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
27
几点遗留问题
如果是有序资料该怎么处理
• 传统的卡方检验是无法对次序信息加以利用的 • 单向有序:秩和检验啦 • 双向有序:实际上考察的是两变量间的关联性 (相关性),可以使用专门的关联性指标分析 • 目前对卡方检验还有一些扩展方法,如CMH卡方, 可以处理此类问题
28
几点遗留问题
行列表卡方检验的适用条件
14
卡方检验假设的等价性
两组儿童的龋齿率相同
• 两组发生率的比较
实际数据的频数分布和理论假设相同
• 理论分布与实际分布的检验
使用不同的牙膏并不会影响龋齿的发生(两 个分类变量间无关联)
• 两变量的相关分析
15
四格表2值的校正
英国统计学家Yates认为,2分布是一种连续 型分布,而四格表资料是分类资料,属离散 型分布,由此计算的2值的抽样分布也应当 是不连续的,当样本量较小时,两者间的差 异不可忽略,应进行连续性校正(在每个单 元格的残差中都减去0.5)
17
配对设计两样本率比较 2 的χ 检验
方法原理
例6.9 用A、B两种方法检查已确诊的乳腺癌 患者140名,A法检出91名(65%),B法检出 77名(55%),A、B两法一致的检出56名 (40%),问哪种方法阳性检出率更高?
A法 + - 合计 B法 + 56 (a) 21 (c) 77 - 35 (b) 28 (d) 63 合计 91 49 140
牙膏类型 含氟牙膏 一般牙膏 合计 患龋齿人数 70(76.67) 45(38.33) 115 未患龋齿人数 130(123.33) 55(61.67) 185 调查人数 200 100 300 龋患率(%) 35.00 45.00 38.33
7
方法原理
残差
• 设A代表某个类别的观察频数,E代表基于H0计 算出的期望频数,A与E之差被称为残差
35
Stata计算
两个或多个率、构成比的比较
1、Pearson χ2 对两个样本率比较 tabi a b\ c d,chi2 r 其中r表示按行计算比例
*
7
8
0.0106 0.0789 0.2244 0.3168 0.2420 0.1019 0.0229 0.0025 0.0001
累计概率 0.0106 0.0895 0.3138 0.6306 0.8726 0.9745 0.9974 0.9999 1.0000
*
本例现有样本情况 d=6。
然后将其中小于等于现有样本概率的概率值相加, 即为P值:
例 6.13 研究某新药治疗原发性高血压的疗效, 并用常规治疗药物作为对照组, 结果见 表 6.9,问新药疗效与对照组疗效有无差别? 表 6.9 某新药治疗原发性高血压的疗效 分 组 有效 20(a) 2(c) 22 无效 8(b) 6(d) 14 合计 28 8 36 有效率() 71.43 25.00 61.11
76.67 2.82
123.33
38.33
61.67
12
操作步骤
3. 确定P值和作出推断结论
• 查附表8,2界值表,得p>0.05。按 = 0.05水 准,不拒绝H0,尚不能认为使用含氟牙膏比使用 一般牙膏儿童的龋患率低。 • 对于四格表,卡方的计算公式又可进行简化,以 方便手工计算
更一般地,可将上述表格记为表 6.3 的一般形式,称之为四格表(fourfold table)。因为表 中 a、b、c 和 d 四个格子的数据是基本的,其余数据均可从这四个数据派生出来。
6
方法原理
理论频数
• 基于H0成立,两样本所在总体无差别的前提下计 算出各单元格的理论频数来 nR nC TRC n
23
行列表资料的分析
例 6.10 用某新药治疗不同类型关节炎的疗效如表 6.6,问该药治 疗不同类型关节炎的疗效是否有差别? 表 6.6 三种不同类型关节炎的临床疗效 关节炎类型 类风湿性关节炎 风湿性关节炎 骨性关节炎 合计 有效 97 37 14 148 无效 18 20 17 55 合计 115 57 31 203
假设检验步骤如下:
• H0:两法总体阳性检出率无差别,即B = C • H1:两法总体阳性检出率有差别,即B C
21
方法原理
根据 H0 得 b、ห้องสมุดไป่ตู้c 两格的理论数均为 Tb = Tc = (b+c)/2, 对应的配对检验统计量为:
2 ( b c ) 2 , bc
1
一般在 b + c < 40 时,需用确切概率法进行检验, 或者进行校正。
对计算机而言并无实际价值 tabi a b \ c d, chi2
13
操作步骤
值得指出,成组设计四格表资料的2检验与 前面学习过的两样本率比较的双侧u检验是等 价的。若对同一资料作两种检验,两个统计 量的关系为2= u2。其对应的界值也为平方关 系。两者的应用条件也是基本一致的,连续 性校正也基本互相对应。
5
概 述
表 6.2 使用含氟牙膏与一般牙膏儿童的龋患率 牙膏类型 含氟牙膏 一般牙膏 合计 患龋齿人数 70(76.67) 45(38.33) 115 未患龋齿人数 130(123.33) 55(61.67) 185 调查人数 200 100 300 龋患率(%) 35.00 45.00 38.33
26.13
30.15
34.17
11
38.19
chi-square
操作步骤
1. 建立检验假设和确定检验水准
• H0:使用含氟牙膏和一般牙膏儿童龋患率相等 • H1:使用含氟牙膏和一般牙膏儿童龋患率不等
2. =0.05 3.计算检验统计量2值
2 2 2 2 70 76 . 67 130 123 . 33 45 38 . 33 55 61 . 67 2
• 本例中P值=P(0)+ P(6)+P(7)+P(8)=0.0361<0.05
34
一点补充
确切概率法的原理具有通用性,对于四格表 以外的情况也适用,如行乘列表、配对、配 伍表格均可 对于较大的行乘列表,确切概率法的计算量 将变得十分惊人,有可能超出硬件系统可以 支持的范围 此时可以采用计算统计学中的其他抽样技术 加以解决,如Bootstrap方法等
mcci 56 35 21 28
22
注意事项
McNemar检验只会利用非主对角线单元格上 的信息,即它只关心两者不一致的评价情况, 用于比较两个评价者间存在怎样的倾向。因 此,对于一致性较好的大样本数据, McNemar检验可能会失去实用价值。
• 例如对1万个案例进行一致性评价,9995个都是 完全一致的,在主对角线上,另有5个分布在左 下的三角区,显然,此时一致性相当的好。但如 果使用McNemar检验,此时反而会得出两种评价 有差异的结论来。
残差可以表示某一个类别观察值和理论值的 偏离程度,但残差有正有负,相加后会彼此 抵消,总和仍然为0。为此可以将残差平方后 求和,以表示样本总的偏离无效假设的程度
8
方法原理
另一方面,残差大小是一个相对的概念,相 对于期望频数为10时,20的残差非常大;可 相对于期望频数为1000时20就很小了。因此 又将残差平方除以期望频数再求和,以标准 化观察频数与期望频数的差别。
4
卡方检验
• 在 H0 为真时,实际观察数与理论数之差 Ai - Ti 应该比较接近0。所以在H0为真时,检验统计量
2 ( A T ) 2 P i i 服从自由度为k-1的卡方分布。 Ti i 1 k
即: 2 2,拒绝H0。 P ,v 上述卡方检验由此派生了不同应用背景的各种问题 的检验,特别最常用的是两个样本率的检验等。 因为该原理的使用范围很广,但本次课程只学习 用于推断两个分类变量是否相互关联
• 这就是我们所说的卡方统计量,在1900年由英国 统计学家Pearson首次提出,其公式为:
2 2 k ( A E ) ( A np ) i i 2 i i Ei npi i 1 i 1 k
9
方法原理
从卡方的计算公式可见,当观察频数与期望 频数完全一致时,卡方值为0; 观察频数与期望频数越接近,两者之间的差 异越小,卡方值越小; 反之,观察频数与期望频数差别越大,两者 之间的差异越大,卡方值越大。 当然,卡方值的大小也和自由度有关
在四格表周边合计不变的条件下,在相应的 总体中进行抽样,四格表中出现各种排列组 合情况的概率
• 本例即28、8、22、14保持不变的条件下,若H0 成立,计算出现各种四格表的概率
(a b)! (c d )! (a c)! (b d )! P a!b!c!d!n!
33
方法原理
表 6.10 在四格表(表 6.9)周边合计不变的条件下,1=2 时的概率分布计算 d P(d) 0 1 2 3 4 5 6
31
试验组 对照组 合 计
分析实例
1.建立检验假设和确立检验水准
• H0:新药组与对照组疗效相等,即 1 = 2 • H1:新药组与对照组疗效不等,即 1 2
2.计算概率和确定P值
• 本例n = 36 < 40,不满足2检验的应用条件,宜 采用四格表确切概率法。
32
方法原理
19
方法原理
显然,本例对同一个个体有两次不同的测量, 从设计的角度上讲可以被理解为自身配对设 计 按照配对设计的思路进行分析,则首先应当 求出各对的差值,然后考察样本中差值的分 布是否按照H0假设的情况对称分布 按此分析思路,最终可整理出如前所列的配 对四格表
20
方法原理
注意
• 主对角线上两种检验方法的结论相同,对问题的 解答不会有任何贡献 • 另两个单元格才代表了检验方法间的差异
• 若n > 40 ,此时有 1< T 5时,需计算Yates连续 性校正2值 • T <1,或n<40时,应改用Fisher确切概率法直接 16 计算概率
例 6.8
为比较某新药与传统药物治疗脑动脉硬化的疗
效,临床试验结果见表 6.4,问两种药物的疗效有无差异? 表 6.4 处理措施 新药组 传统药物组 合计 两种药物治疗脑动脉硬化的疗效 有效 41(38.18) 18(20.82) 59 无效 3(5.82) 6(3.18) 9 合计 44 24 68 有效率() 93.18 75.00 86.76
10
方法原理
卡方分布
• 显然,卡方值的大小不仅与A、E之差有关,还与 单元格数(自由度)有关
.12 .10
.08
率 概
.06
.04
.02
0.00 .00 2.01
4.02 6.03
8.04
12.06
16.08
20.10
24.12
28.14
32.16
36.18
10.05
14.07
18.09
22.11
卡方检验
内容安排
卡方检验入门 配对设计两样本率比较的χ2检验 行列表资料的分析 确切概率法
2
卡方检验入门
概 述
卡方检验是以卡方分布为基础的一种常用假 设检验方法,主要用于分类变量,它的基本 的无效假设是:
• • • • H0:行分类变量与列分类变量无关联 H1:行分类变量与列分类变量有关联 2 =0.05 k ( A T ) 2 i i P 统计量 ,其中Ai是样本资料的 Ti i 1 计数, Ti 是在 H0 为真的情况下的理论数 ( 期望值 ) 。
• 理论频数不宜太小,一般认为不宜有1/5以上格子 的理论频数小于5或有一个格子的理论频数小于1 • 不太理想的办法
与邻近行或列中的实际频数合并 删去理论频数太小的格子所对应的行或列
• 最理想的办法
增加样本含量以增大理论频数(但是可能吗) 确切概率法
29
确切概率法
分析实例
• 注意:确切概率法不属于2检验的范畴,但常作 为2检验应用上的补充。
25
分析步骤
建立假设 • H0:三种不同类型关节炎的疗效相同 • H1:三种不同类型关节炎的疗效不全相同
求出统计量 下结论
26
几点遗留问题
是否应当进行两两比较?
• 这又是一个打嘴仗的问题,虽然有人提出用卡方 分割等方法来检验,但同样也有学者对这种做法 嗤之以鼻 • 实际上,随着统计学的发展,这个问题已被超越, 可以使用对分类数据的建模方法,如logistic模型 等对此问题加以解答