[理学]09卡方检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四格表卡方检验是最简单的列联表(2分组 ×2分类)
完全随机设计的四格表卡方检验
与前述拟合优度检验相似,在计算卡方值之前需要先估计 理论频数 理论频数的计算:
ac a所对应的列合计值 a所对应的行合计值 (a b) N 总例数 bd b所对应的列合计值 b所对应的行合计值 Tb (a b ) N 总例数 ac c所对应的列合计值 c所对应的行合计值 Tc (c d ) N 总例数 bd d所对应的列合计值 d所对应的行合计值 Td (c d ) N 总例数 Ta
化疗 方法
单纯化疗 复合化疗 合计 缓解情况 缓解 (理论缓解) 2(4.8) 14(11.2) 16 未缓解 (理论未缓解) 10(7.2) 14(16.8) 24 合计
12 28 40
四格表卡方检验的校正
在上表中最小的理论数应该是“单纯化疗” “缓解”所对应,因为它所对应的行、列 合计值最小;2所对应的理论数为4.8,小于 5,而且例数不小于40,所以本题应该作校 正 校正后卡方值为2.624(未校正时为3.889), 故尚不认为两方案缓解情况不同
拟合优度检验
自由度v=实际频数个数k-1-计算理论数时所需要 的参数个数m;本题中,在计算理论频数时用到 了正态分布的均数与标准差,所以m=2(例如在 二项分布的拟合优度检验时,使用到的参数为二 项分布的总体率p;而在泊松分布的拟合优度检验 时,使用到了泊松分布的总体均数l) 故本题的自由度为7124,查表得20.05,4=9.49, 故在显著性水准上尚不拒绝原假设 需要注意的是,本题如果组段的划分改变(例如 组数、组距改变),则卡方值相应改变,所以卡 方拟合优度检验更适合于二项分布与泊松分布资 料
如果2> 2a,,曲线下面积小于a;反之则大于a
a 2(a,)
Karl. Pearson
Carl Pearson or Karl Pearson (1857-1936) Journal Biometrika Pearson product-moment correlation coefficient、 Linear regression and correlation、Pearson's chi-square test
卡方检验的基本思想
卡方检验基本公式:
(实际频数 理论频数)2 ( A T )2 理论频数 T
2
如果假设成立,实际数与理论数的差距应该较小,按照上 式计算的卡方值因该接近0,如果卡方值远离0则应该拒绝 原假设 卡方值满足卡方分布,求得相应卡方值的曲线下面积就可 以得到P值,进而作结论 可见卡方检验的基本原理就是分析实际频数与根据假设构 建的理论频数间的吻合程度(拟合度)
9.93733
拟合优度检验
H0:总体分布为均数为139.48,标准差为7.30的 正态分布 H1:总体分布不为该正态分布 a=0.05 因为卡方分布原为连续性分布,Pearson推导卡方 检验公式是对卡方的近似(分类变量的取值并不 是连续的),其使用条件中规定理论数不得小于5, 因此我们将T小于5的组段与附近组段的理论数合 并;依据卡方检验公式:2=∑(A-T)2/T计算卡方 值为5.9184
关于四格表卡方检验的一些说明
关于自由度:在列联表资料中(四格表也 是一种列联表),自由度可以简单地表达 为(行数-1)(列数-1),即(R-1)(C-1);其含义 为列联表中可以自由取值的格子个数 关于理论数:如同拟合优度检验中提到的, 如果理论数较小时,卡方检验需要进行连 续性校正,甚至由于理论数过小而无法进 行!
2 2 2
xk
2
Z1 Z 2
2 2
Zk Z 2
2 1
k
2 ~ 2 (k )
卡方分布图形特征*
卡方分布是一种连续型分布:按分布的密度函数可给出 自由度=1,2,3,……的一簇分布曲线
=1 =2
=3
=4 =6
卡方分布图形特征*
二、完全随机设计的四格表卡方检验
如例9-2,在表格中有两组,每组的结果 为二分类结果(2×2),这样的表格称为 四格表,其通用格式表达如下:
阳性 阴性 合计 分组甲 a 分组乙 c b d a+b c+d N
合 计 ac bd
分类资料的列联表(contingency table)
如果有R个分组(处理因素),每组的结果 又有C个分类(结局),则所作的表格有R 行、C列,称之为R×C列联表(R×C contingency table)
卡方检验的基本思想
治疗 药物 疗效 有效 (理论有效) 41 (36.5625) 24 (28.4375) 65 无效 (理论无效) 4 (8.4375) 11 (6.5625) 15 45 35 80 合计
兰芩口服液 银黄口服液 合计
卡方检验的基本思想
从表中可见,疗效的理论数(根据假设两 总体疗效相同得到)与实际人数存在差别 如果我们的假设成立的话,这种差别属于 抽样误差,应该不会很大;反之,如果这 种差别很悬殊,则因该怀疑原假设不成立 如何评价“悬殊”与“不悬殊”? 使用卡方检验
第九讲:卡方检验
卡方分布(chi-square distribution)*
1875年,F. Helmet得出:来自正态总体的样本方
差的分布服从卡方分布:
( n 1) S 2
2 1900年K. Pearson又从检验分布的拟合优度
~ 2 ( n 1)
(goodness of fit)中也发现了这一相同的卡方分布, 可用于检验资料的实际频数和理论频数是否相符 等问题:
组段 122.0~ 126.0~ 130.0~ …… 150.0~ 154.0~ 158.0 合计
A 5 8 10 …… 6
Fx1 0.00832 0.03240 0.09704 …… 0.92522
Fx2 0.03240 0.09704 0.22642 …… 0.97665
P= Fx2 Fx1 0.02408 0.06463 0.12939 …… 0.05143
三、配对设计的四格表卡方检验
什么是配对设计?
常见配对设计的情况是那些?
常见的配对四格表资料
同一批样品用两种不同的方法处理,处理 的结果为二分类资料 观察对象根据配对条件配成对子,同一对 子中的不同个体分别接受不同的处理,处 理的结果为二分类资料
卡方检验(chi-square test)
χ2检验是现代统计学的创始人之一,英国人
Karl . Pearson于1900年提出的一种具有广 泛用途的统计方法 可用于两个或多个率间的比较,计数资料 的关联度分析,拟合优度检验等等
卡方检验的基本思想
医师研究用兰芩口服液与银黄口服液治疗慢性咽炎疗效 有无差别,将病情相似的80名患者随机分为两组,分别 用两种药物资料,结果见下表,问两种药物的疗效是否 不同? 治疗 药物 兰芩口服液 银黄口服液 疗效 有效 41 24 无效 4 11 合计 (有效率) 45(91.1%) 35(68.6%)
一、拟合优度检验 (goodness of fit test)
拟合优度检验旨在根据样本的频数分布检 验其总体分布是否等于某给定的理论分布 例如:能否判断120个男童身高满足正态分 布(例9-1)? 解答思路:假设身高满足正态,依据正态 分布估计不同身高区间对应的理论人数, 与实际观察人数比较,计算卡方统计量, 如果卡方值较大则拒绝原假设
理论数小于5, 合并这两段
T=n×P 2.8900 7.7557 15.5263 …… 6.1717
(A-T)2/T 1.54035 0.00769 1.96698 …… 0.00477
理论数小于5, 合并这两段
5 —
0.97665 —
0.99441 —
0.01776 —
2.1309 —
3.86289
完全随机设计的四格表卡方检验
治疗 药物 洛赛克 雷尼替丁 合计
疗效 愈合 (理论有效)
64 (57.84) 51 (57.16) 115
未愈合 (理论无效)
21 (27.16) 33 (26.84) 54
合计
85 84 169
完全随机设计的四格表卡方检验
H0:两总体率相同 H1:两总体率不同 a=0.05 2=∑(A-T)2/T计算卡方值为4.13 自由度v=k-1-m;此处因为计算卡方时使用了四个格子中 的实际数,故k=4;m为估计理论数时用到的参数,在本 题中为两组各自的有效率,所以m=2;v=4-1-2=1 查表得: 20.05,1=3.84,所以P<0.05,在a=0.05的水准上拒 绝H0,认为两种治疗方案的有效率不同
由离散型资料按卡方检验公式式算得的卡方值均有偏大的 趋势(使得我们偏向于拒绝原假设),尤其是当自由度=1 而且理论数较小时,偏差较大 Frank Yates(1934)提出对卡方值进行连续性矫正 矫正方法是,先将各组实际观察数与理论数的差数的绝对 值分别减去0.5,然后再平方进行计算。矫正后的卡方值记 为 2c
四格表卡方检验专用公式校正
若有1≤T<5,而且n≥40时,该专用公式同 样需要校正
2
a b c d a c b d
ad bc n / 2
2
n
四格表卡方检验的校正
例9-3将病情相似的淋巴系统肿瘤患者随机分成两组, 分别作单纯化疗与复合化疗,缓解情况见下表,问两疗 法的缓解情况是否不同?
合计
65
15
80
卡方检验的基本思想
从表中可见两疗法的有效率不相同,那么这种差 别究竟是由于抽样误差还是由于药物疗效的确有 差别? 不妨假设两药物的疗效是相同的,那么此时两种 药物的疗效之差仅仅来源于抽样误差,我们可以 使用前面介绍的二项分布的两个大样本率比较的 Z检验分析 还可以考虑使用本章节介绍的卡方检验分析
2 c i 1
k
A T
i
i
0.5
2
Ti
四格表卡方检验专用公式
原始卡方公式需要计算理论数,略显麻烦 在四格表资料中,可以使用专用公式,省略计算理论 数的过程 专用公式如下:
a c
b
a+b c+d N
2
d
ac bd
2
ad bc n a b c d a c b d
iΒιβλιοθήκη Baidu1
k
Ai Ti
Ti
2
~ 2 (k 1 m )
卡方分布*
设随机变量Z1,Z2,…Zk,相互独立,且 都服从标准正态分布N (0,1)。那么,我们 将k个独立标准正态变量的平方和称为卡方 变量,它满足自由度为k的卡方分布,记为:
x1 x2
卡方检验的基本思想
既然假设两药的总体疗效相同,可以考虑将两组 样本资料合并,计算一个“合计率”,作为总体 率的估计 两药的合计有效率Pc=65/80=81.25% 在此合计有效率的情况下,资料45例患者应该有 Pc×45=36.5625例有效,(1-Pc)×45 =8.4375例无 效;同理如果资料35例患者,应该有28.4375例有 效,6.5625例无效 将上述数据称为疗效的理论数,列表如下:
卡方分布的形状依赖于自由度ν 的大小: 当自由度ν≤2时,曲线呈“L”型; 随着ν 的增加,曲线逐渐趋于对称; 当自由度ν →∞时,曲线逼近于正态曲线
卡方分布的曲线下面积定义
当ν 确定后,卡方分布曲线下右侧尾部的面积为a时,横 轴上相应的卡方值,记为2a,,如下图;实际应用时,可根 据ν 由附表8查得
四格表卡方检验的理论数要求
当理论频数T有T≥5,而且n≥40时,卡方公 式不需要校正,直接使用 当理论频数T有1≤T<5,而且n≥40时,需 要校正,或者用精确概率法计算概率值 当理论频数T有T<1,或者n<40时,只可 用精确概率法计算概率值
Yates' correction for continuity