08卡方检验-1

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

拟合优度检验

自由度v=实际频数个数k-1-计算理论数时所需要的参数个 数m;本题中,在计算理论频数时用到了正态分布的均数 与标准差,所以m=2 故本题的自由度为7124,查表得20.05,4=9.49,故在 显著性水准上尚不拒绝原假设


本题如果组段的划分改变(例如组数、组距改变),则卡 方值相应改变,所以卡方拟合优度检验更适合于二项分布 与泊松分布资料
一、拟合优度检验* (goodness of fit test)
拟合优度检验旨在根据样本的频数分布检 验其总体分布是否等于某给定的理论分布 例如:能否判断120男孩的身高满足正态分 布(例8-8)? 解答思路:假设身高满足正态,依据正态 分布估计不同身高区间对应的理论人数, 与实际观察人数比较,计算卡方统计量, 如果卡方值较大则拒绝原假设
四格表卡方检验专用公式校正

若有1≤T<5,而且n≥40时,该专用公式同 样需要校正

2
( a b )( c d )( a c )( b d )
( ad bc n / 2)
2
n
四格表卡方检验的校正

例8-2将病情相似的淋巴系统肿瘤患者随机分成两组, 分别作单纯化疗与复合化疗,缓解情况见下表,问两疗 法的缓解情况是否不同?
第八章:卡方检验
卡方分布(chi-square distribution)*

1875年,F. Helmet得出:来自正态总源自文库的样本方
差的分布服从卡方分布:
( n 1) S 2

2 1900年K. Pearson又从检验分布的拟合优度
~ 2 ( n 1)
(goodness of fit)中也发现了这一相同的卡方分布, 可用于检验资料的实际频数和理论频数是否相符 问题

四格表卡方检验是最简单的列联表(2分组 ×2分类)
完全随机设计的四格表卡方检验

完全随机设计的四格表卡方检验可以分析两样本来源的总体率间有无 差别,以及两变量间有无关联 与前述拟合优度检验相似,在计算卡方值之前需要先估计理论频数 理论频数的计算:
ac a所对应的列合计值 a所对应的行合计值 (a b ) N 总例数 bd b所对应的列合计值 b所对应的行合计值 Tb (a b) N 总例数 ac c所对应的列合计值 c所对应的行合计值 Tc (c d ) N 总例数 bd d所对应的列合计值 d所对应的行合计值 Td (c d ) N 总例数 Ta
理论数小于5, 合并为8.3026
(A-T)2/T
理论数小于5, 合并为10.6457
2.8900 0.52065 7.7557 15.5263 …… 6.1717 0.87635 2.1309 — 1.96698 ……
154.0~ 合计
5 —
0.97665 —
0.99441 —
0.01776 —
5.91845
卡方检验的基本思想




既然假设两药的总体疗效相同,可以考虑将两组 样本资料合并,计算一个“合计率”,作为总体 率的估计 两药的合计有效率Pc=65/80=81.25% 在此合计有效率的情况下,治疗45例患者(兰芩) 应该有Pc×45=36.5625例有效,(1-Pc)×45 =8.4375例无效;同理如果治疗35例患者(银黄) 应该有28.4375例有效,6.5625例无效 将上述数据称为疗效的理论数,列表如下:
卡方检验的基本思想
治疗 药物 疗效 有效 (理论有效)
41 (36.5625) 24 (28.4375) 65
合计
无效 (理论无效)
4 (8.4375) 11 (6.5625) 15 45 35 80
兰芩口服液 银黄口服液 合计
卡方检验的基本思想
从表中可见,疗效的理论数与实际人数存 在差别 如果我们的假设成立的话,这种差别属于 抽样误差,应该不会很大;反之,如果这 种差别很悬殊,则因该怀疑原假设不成立 使用卡方值得大小评价“悬殊”与“不悬 殊”
完全随机设计的四格表卡方检验
治疗 药物 疗效 愈合 (理论愈合) 未愈合 (理论未愈合) 合计
奥美拉唑
雷尼替丁 合计
64 (57.84)
51 (57.16) 115
21 (27.16)
33 (26.84) 54
85
84 169
完全随机设计的四格表卡方检验




H0:两总体率相同 H1:两总体率不同 a=0.05 2=∑(A-T)2/T计算卡方值为4.13 自由度v=k-1-m;此处因为计算卡方时使用了四个格子中 的实际数,故k=4;m为估计理论数时用到的参数,在本 题中为两组各自的有效率,所以m=2;v=4-1-2=1 查表得: 20.05,1=3.84,所以P<0.05,在a=0.05的水准上拒 绝H0,认为两种治疗方案的有效率不同
化疗 方法
单纯化疗 复合化疗 合计 缓解情况 缓解 (理论缓解) 2(4.8) 14(11.2) 16 未缓解 (理论未缓解) 10(7.2) 14(16.8) 24 合计
12 28 40
四格表卡方检验的校正
在上表中最小的理论数应该是“单纯化疗” “缓解”所对应,因为它所对应的行、列 合计值最小;2所对应的理论数为4.8,小于 5,而且例数不小于40,所以本题应该作校 正 校正后卡方值为2.624(未校正时为3.889), 故尚不认为两方案缓解情况不同
2 2 2 2
Z1 Z 2 ...... Z k Z 2
2 2 2 1
k
2 ~ 2 (k )
卡方分布图形特征*

卡方分布是一种连续型分布:按分布的密度函数可给出 自由度=1,2,3,……的一簇分布曲线
=1 =2
=3
=4 =6
卡方分布的曲线下面积定义

当ν 确定后,卡方分布曲线下右侧尾部的面积为a时,横 轴上相应的卡方值,记为2a,,如下图;实际应用时,可根 据ν 由附表8查得

组段 122.0~ 126.0~ 130.0~ …… 150.0~
A 5 8 10 …… 6
F(Z1) 0.00832 0.03240 0.09704 …… 0.92522
F(Z2) 0.03240 0.09704 0.22642 …… 0.97665
P= F(Z2) F(Z1) T=n×P 0.02408 0.06463 0.12939 …… 0.05143

四格表卡方检验的理论数要求
当理论频数T有T≥5,而且n≥40时,卡方公 式不需要校正,直接使用 当理论频数T有1≤T<5,而且n≥40时,需 要校正,或者用精确概率法计算概率值 当理论频数T有T<1,或者n<40时,只可 用精确概率法计算概率值

四格表卡方的连续性矫正


由离散型资料按卡方检验公式式算得的卡方值均有偏大的 趋势(使得我们偏向于拒绝原假设),尤其是当自由度=1 而且理论数较小时,偏差较大 Frank Yates(1934)提出对四格表卡方值进行连续性矫 正 矫正方法是,先将各组实际观察数与理论数的差数的绝对 值分别减去0.5,然后再平方进行计算。矫正后的卡方值记 为 2c 2
二、独立样本资料四格表卡方检验

如例8-1,在表格中有两组,每组的结果 为二分类结果(2×2),这样的表格称为 四格表,其通用格式表达如下:
阳性 阴性 合计 分组甲 a 分组乙 c b d a+b c+d N
合 计 ac bd
分类资料的列联表(contingency table)

如果有R个分组(处理因素),每组的结果 又有C个分类(结局),则所作的表格有R 行、C列,称之为R×C列联表(R×C contingency table)

卡方检验的基本思想

卡方检验基本公式:
(实际频数 理论频数 )2 ( A T )2 理论频数 T
2


如果假设成立,按照上式计算的卡方值因该接近0, 如果卡方值远离0则应该拒绝原假设 卡方值满足卡方分布,求得相应卡方值的曲线下 面积就可以得到P值,进而作结论 可见卡方检验的基本原理就是分析实际频数与根 据假设构建的理论频数间的吻合程度(拟合度)
卡方分布*

设随机变量Z1,Z2,…Zk,相互独立,且 都服从标准正态分布N (0,1)。那么,我们 将k个独立标准正态变量的平方和称为卡方 变量,它满足自由度为k的卡方分布,记为:
xk x1 x2 ......
拟合优度检验


H0:总体分布为正态 H1:总体分布不为正态 a=0.05 因为卡方分布原为连续性分布,Pearson推导卡方 检验公式是对卡方的近似(分类变量的取值并不 是连续的),其使用条件中规定理论数不得小于5, 因此我们将小于5的组段与临近组段的理论数合并; 依据卡方检验公式:2=∑(A-T)2/T计算卡方值为 5.91845
药物 A
B C 合计 治疗效果 有效 无效
合计 40
30 32 102
有效率(%) 87.50
66.67 21.88 60.78
35
20 7 62
5
10 25 40
多个样本资料列联表卡方检验


其检验思想同四格表卡方检验:先假设三种药物 的总体效果相同,将三组的治疗情况合并作为总 效果的估计值,而后可以据此计算各药物的理论 有效与无效人数,如果假设成立的话它们间的差 别应该很小,卡方值应该不大,否则就有理由认 为它们不是来源于同一总体 H0:三种药物的总体有效率相同;H1:三种药物的 效果不同或不全相同
卡方检验(chi-square test)
χ2检验是现代统计学的创始人之一,英国人
Karl . Pearson于1900年提出的一种具有广 泛用途的统计方法 可用于两个或多个率间的比较,分类变量 的关联性分析,拟合优度检验等等

卡方检验的基本思想

医师研究用兰芩口服液与银黄口服液治疗慢性咽炎疗效 有无差别,将病情相似的80名患者随机分为两组,分别 用两种药物资料,结果见下表,问两种药物的疗效是否 不同? 治疗 药物 兰芩口服液 银黄口服液 疗效 有效 41 24 无效 4 11 合计 (有效率) 45(91.1%) 35(68.6%)
关于四格表卡方检验的一些说明
关于自由度:在列联表资料中(四格表也 是一种列联表),自由度可以简单地表达 为(行数-1)(列数-1),即(R-1)(C-1);其含义 为列联表中可以自由取值的格子个数 关于理论数:如同拟合优度检验中提到的, 如果理论数较小时,卡方检验需要进行连 续性校正,甚至由于理论数过小而无法进 行!

三、多个样本资料列联表卡方检验

如果有超过2组,每组的结局超过2种分类, 就构成了R×C列联表;四格表是最简单的 列联表 完全随机设计的列联表资料的卡方检验原 理与四格表的相同,只不过组数或结局增 多了而已

多个样本资料列联表卡方检验

例8-3:三种药物治疗慢性支气管炎,疗效记录如下,能 否认为三种药物的总体疗效存在差别?

如果2> 2a,,曲线下面积小于a;反之则大于a
a 2(a,)
Karl. Pearson


Carl Pearson or Karl Pearson (1857-1936) Journal Biometrika Pearson product-moment correlation coefficient、 Linear regression and correlation、Pearson's chi-square test

2 c i 1
k
( A T
i
i
0.5 )
Ti
四格表卡方检验专用公式


原始卡方公式需要计算理论数,略显麻烦 在四格表资料中,可以使用专用公式,省略计算理论 数的过程 专用公式如下:
a c
b
a+b c+d N
2
d
ac bd

2
( ad bc ) n ( a b )( c d )( a c )( b d )
合计
65
15
80
卡方检验的基本思想



从表中可见两疗法的有效率不相同,那么这种差 别究竟是由于抽样误差还是由于药物疗效的确有 差别? 不妨假设两药物的疗效是相同的,那么此时两种 药物的疗效之差仅仅来源于抽样误差,我们可以 使用前面介绍的二项分布的两个大样本率比较的 Z检验分析 还可以考虑使用本章节介绍的卡方检验分析
相关文档
最新文档