第九章 x2检验.
x2检验——精选推荐

x2检验本章重点1.熟悉x2检验的基本思想。
2.掌握x2检验在四格表资料、行×列表资料中的应用。
3.掌握配对计数资料的x2检验。
χ2 检验是一种用途广泛的假设检验方法,本章只介绍它在分类变量资料中的应用: χ2 检验的适用范围:1.推断两个或两个以上总体率或构成比之间有无差异;2.配对计数资料差异的显著性。
检验统计量:χ2应用:计数资料第一节 四格表资料的χ2 检验目的:推断两个总体率(构成比)是否有差别要求:两样本的两分类个体数排列成四格表资料一、四格表资料的基本公式x2检验基本思想检验“实际数”和假设“理论数”的差异是否是由于抽样误差引起(两个样本率的差异体现在“实际数”和假设“理论数”的差异中)。
实际数,用四格表表示,称为四格表资料,分别为a 、b 、c 、d ,其他的数据是从这四个实际数推算出来的,称为理论数(表中括号内的数据)。
实际数用A 表示,理论数T 表示。
A :表示实际频数,即实际观察到的例数。
T :理论频数,即如果假设检验成立,应该观察到的例数。
TRC :第R 行C 列的理论频数nR :相应的行合计,nC :相应的列合计n 为总例数检验统计量χ2 值反映了实际频数与理论频数的吻合程度。
Χ2检验是检验实际数与理论数差异程度的指标。
A 与T 的值越接近, χ2越小,相反,实际数与理论数之间的差数越大, χ2值也就越大。
所得χ2值如果小于界值的χ2,P>0.05,即接受了原假设,可认为两组人群的治疗效果差异无统计学意义。
反之,如果所得χ2值大于查表所得χ2值,则P<0.05,即差异有统计学意义。
自由度计算公式Χ2值的大小,除了取决于A-T 的差值外,还取决于格子数的多少,格子数越多, χ2值越大,只有排除了这种影响, χ2值才能正确反映A 与T 的吻合程度,因此,在查χ2表时,要考虑自由度的大小。
22(), ()(1)A T Tχν-=∑=-行数-1列数 R C RC n n T n=计算公式:V=(行-1)(列-1) 四格表资料由2行2列组成,V=(2-1)(2-1)=1自由度即自由变动的范围,由于四格表周边的合计数已经固定,因此只要算出任一格的理论数,其余三个格子的理论数就没有自由变动的余地了,四格表的自由度V=1。
医学统计学之卡方x2检验

举例
买彩票
奖项 中奖概率
T
A
一等 1% 10 0
0
二等 5% 50 0
0
三等 10% 100 20
2%
四等 20% 200 180
18%
五等 64% 640 800
80%
二、基本原理
基本思想是检验实际频数和理论频数的差别是否 由抽样误差所引起的,由样本率来推断总体率。
x2反映了实际频数于理论频数的吻合程度,x2值
α=0.05。
T11 =44(41/70)=25.8 T12=44(29/70)=18.2 T21=26(41/70)=15.2 T22 = 26(29/70)=10.8
(2)求检验统计量值
2 (20 25.8)2 (24 18.2)2 (21 15.2)2 (5 10.8)2 8.40
作χ2检验后所得概率P接近检验水准α,需要
计数资料的统计推断
卡方检验是χ2检验(Chi-square test) 是现代统计学的创始人之一,英国人K . Pearson(1857-1936)于1900年提出的 一种具有广泛用途的统计方法,是分类 计数资料的假设检验方法,可用于两个 或多个率间或构成比之间的比较,计数 资料的关联度分析,拟合优度检验等等。
2 检验的应用
①检验两个样本率之间差别的显著性; ②检验多个样本率或构成比之间差别的
显著性; ③配对计数资料的比较; ④检验两个双向无序分类变量是否存在
关联。
某医生想观察一种新药对流感的预防效 果,进行了如下的研究,问此药是否有 效?
组别 实验组 对照组 合计
发病人数 14 30 44
未 发 病人数 86 90 176
观察例数 100 120 220
X2检验

X2(称卡方)检验用途较广,但主要用于检验两个或两个以上样本率或构成比之间差别的显著性,也可检验两类事物之间是否存在一定的关系。
一、两个率的比较(一)X2检验的基本公式下页末行的例3.1是两组心肌梗塞病人病死率的比较,见表3.5,其中对照组未用抗凝药。
两组病人的病死率不同,抗凝药组为25.33%,对照组为40.8%。
造成这种不同的原因可能有两种:一种是仅由抽样误差所致;另一种是两个总体病死率确实有所不同。
为了区别这两种情况,应当进行X2检验。
其基本步骤如下:1.首先将资料写成四格表形式,如表3.6。
将每个组的治疗人数分为死亡与生存两部分,各占四格表中的一格,这些数字称为实际频数,符号为A,即实际观察得来的数字。
2.建立检验假设为了进行检验,首先作检验假设:两种疗法的两总体病死率相等,为35%(即70/200),记为H0:π1=π2。
即不论用或不用抗凝药,病死率都是35%,所以亦可以换一种说法:病死率与疗法无关。
上述假设经过下面步骤的检验后,可以被接受也可以被拒绝。
当H0被拒绝时,就意味着接受其对立假设即备择假设H1。
此例备择假设为两总体病死率不相等,记为H1:π1≠π2因为我们观察的是随机现象,所以无论是接受或拒绝H0都冒有一定风险,即存在着错判的可能性。
一般要求,当错误地被拒绝的概率α不超过一定的数值,如5%(或0.05),此值称为检验水准,记为α=0.05。
3.计算理论频数根据“检验假设”推算出来的频数称理论频数,符号为T。
计算方法如下:假设两总体病死率相同,都是35.0%,那么抗凝血组治疗75人,其死亡的理论频数应为75×35.0%=26.25人,而生存的理论频数为75-26.25=48.75人。
用同样方法可求出对照组的死亡与生存的理论频数,前者为43.75人。
后者为81.25人。
然后,把这些理论频数填入相应的实际频数格内,见表3.6括号内数字。
计算理论频数也可用下式(3.4)TRC=nRnC/N (3.4)式中,TRC为R行与C列相交格子的理论频数,nR为与计算的理论频数同行的合计数,nC为与该理论频数同列的合计数,N为总例数。
卫生统计学第九章 秩与检验

──────────────────────
1
0.5
0.0
0.5
2
2
2.2
1.1
1.1
7
3
0.0
0.0
0.0
-
4
2.3
1.3
1.0
6
5
6.2
3.4
2.8
8
6
1.0
4.6
-3.6
-9
7
1.8
1.1
0.7
3.5
8
4.4
4.6
-0.2
-1
9
2.7
3.4
-0.7
-3.5
10
1.3
2.1
-0.8
-5
━━━━━━━━━━━━━━━━━━━━━━
1、建立假设和确定检验水准
H0: 差值总体中位数Md=0 H1: 差值总体中位数Md≠0 α=0.05
2、求差值
3、编秩:
(1)依差值绝对值从小到大编秩,再根据差值 的正负给秩次冠以正负号; (2)差值为零时,舍去不计(例数相应减1); (3)差值相等,符号相同,按顺序编秩; (4)差值相等,符号不同,取平均秩次。
而当相同秩次较多(超过25%)时,需计算校正
HC值. 本例:
HC =H/C
C=1-
(
t
3 j
t
j)
(N 3 N )
H 12 Ri23(N1)
N(N1) n1
12(22 19.5 2 2 5.5 7 2) 3 (1 8 1 ) 1.9 45
1(1 8 8 1 )
6
5、确定P值
应概率 T恰好等于界值, P值等于表上方相应
医学统计学9 χ2检验

卡方检验的基本原理
反映实际频数与理论频数的吻合程度可用统计量
A
T T
2
来表示
案例分析
某医院采用甲乙两种方法测定60例结核杆菌阳性率, 如下图。试问这两种检测方法阳性率是否相同。
测定方法 阳性数 阴性数 合计
阳性率
甲法
42
18
60
70.0%
乙法
23
37
60
38.3%
合计
65
55
120
54.2%
错误的方法
根据2*2四格表卡方检验方法进行 可求得 2 =12.62, p<0.001;
2
(ad bc)2n
(a b)(a c)(bd )(c d )
c2
(
29 26 5 2 42
2 5 )( 26 9 )( 2 26 )( 5
9
)
5.49
x2,1 3.84
P 0.05
结论与之相反。
配对四格表资料的 χ2 检验
与计量资料推断两总体均数是否有差别有成组设 计和配对设计一样,计数资料推断两个总体率(构 成比)是否有差别也有成组设计和配对设计,即四 格表资料和配对四格表资料。
若检验假设H0:π1=π2成立,四个格子的实际频 数A与理论频数T 相差不应该很大,即统计量不
应该很大。如果上述统计量值很大,从而怀疑H0 的正确性,继而拒绝H0,接受其对立假设H1,即 π1≠π2 。
这个统计量就称为卡方统计量。
医学统计学参考答案 颜虹第二版

《医学统计学》部分习题参考答案颜虹主编第二版第三章统计描述一、最佳选择题1.C2.A3.D4.B5.E6.E7.C8.D9.C10.C11.A12.D三、计算分析题P53-1素食前X1素食后X2X1-X2平均187.75平均168.25平均19.5中位数179中位数165中位数19标准差33.18885标准差26.79593标准差16.80838方差1101.5方差718.0217方差282.5217 4)第四章常见的概率分布一、最佳选择题1.D2.D3.B4.D5.B6.E7.E8.C9.D10.C11.C三、计算分析题P73-41120124.4 1.15793.8u -==-2125124.40.1578953.8u -==查标准正态分布表得1()( 1.1579)( 1.16)0.123u Φ=Φ-≅Φ-=2()(0.15795)(0.16)1(0.16)10.43640.5636u Φ=Φ≅Φ=-Φ-=-=21()()0.56360.1230.4406u u Φ-Φ=-=该地身高界于120cm 到125cm 范围内的8岁男童比例为44.06%。
20044.06%89()⨯≈人200名8岁男童中身高界于120~125cm 范围的人数约为89人。
P73-5Poisson 0.99967Binominal 0.9998P73-6解:(1)由题意可知,随机误差变量X 服从正态分布,其中μ=2,σ=4。
要求测量误差的绝对值不超过3的概率,即求P P ≤≤≤(X 3)=(-3X 3),作标准化变化132 1.254u --==-2320.254u -==1()( 1.25)0.1056u Φ=Φ-=2()(0.25)1(0.25)10.40130.5987u Φ=Φ-Φ-=-=21()()0.59870.10560.4931u u Φ-Φ=-=即测量误差的绝对值不超过3的概率为0.4931。
(2)根据题意,以Y 表示测量误差的绝对值不超过3,则Y 服从二项分布,其中n=3,0.4931π=,根据题意,至少有1次误差的绝对值不超过3的概率为003033(1)1(0)1(1)10.50690.86975P Y P Y C ππ-≥=-==--=-=P73-7解:根据医学知识可知健康成人血清总胆固醇值过高或过低为异常,故应制定双侧医学参考值范围因为已经假定血清总胆固醇值服从正态分布,故可用正态分布法求该指标的95%医学参考值范围,即 1.96μσ±。
《卫生统计学》考试重点复习资料

②权衡两类错误的危害以确定α的大小。 ③正确理解 P 值的意义,如果 P<α,宜说差异“有统计学意义”。
第八章 方差分析
名词解释
总变异:样本中全部实验单位差异称为总变异。其大小可以用全部观察值的均方(方差)表 示。 组间变异:各处理组样本均数之间的差异,受处理因素的影响,这种变异称为组间变异,其 大小可用组间均方表示。 组内变异: 各处理组内部观察值大小不等,这种变异称为组内变异,可用组内均方表示。 随机区组设计:事先将全部受试对象按自然属性分为若干区组,原则是各区组内的受试对象 的特征相同或相近,且受试对象数与处理因素的水平数相等。然后再将每个区组内的观察对 象随机地分配到各处理组,这种设计叫做随机区组设计。
构成比
某一组成部分的观察单 位数 同一事物各组成部分的 观察单位总数
100 %
③比又称相对比,是 A、B 两个有关指标之比,说明两者的对比水平,常以倍数或百分数表
示,其公式为:相对比=甲指标 / 乙指标(或 100%)
甲乙两个指标可以是绝对数、相对数或平均数等。
应用相对数时应注意哪些问题?
答:应用相对数时应注意的问题有:
相对数:是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用相对数有率、
构成比、比等。
标准化法:是常用于内部构成不同的两个或多个率比较的一种方法。标准化法的基本思想就
是指定一个统一“标准”(标准人口构成比或标准人口数),按指定“标准”计算调整率,使
之具备可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。
料间的相对水平。 3) 报告比较结果时必须说明所选用的“标准”和理由。 4) 两样本标准化率是样本值,存在抽样误差。当样本含量较小时,还应作假设检验。
x2检验第六版

第二个表显示列联表的资料,一个期望频数小于5(4.8)
皮尔逊卡方值x2(pearson chi-square)
连续校正x2(continuity correction),仅在2×2表计 算
似然比值(likelylihood ratio) 费歇尔精确检验(fisher‘s exact test) 线形组合(linear-by-linear association) 有效例数(N of valid cases)
如果想对其中的两个率进行相互比较时, 最好能够采用更加复杂的分类数据模型, 如对数线性模型或者logistic回归模型进行 分析,采用列联表分割等方法只能得到近 似的结果,最好不要使用。
四、配对设计
(一)配对设计四格表(2×2列联表)
计数资料配对设计的应用: 可用于两种检验方法、培养方法、诊断
有效例数(N of valid cases)
结论:有0个格子的期望频数小于5,最小 期望频数为6.56,符合pearson x2检验的要 求。
皮尔逊卡方值x2=4.130,p=0.042<0.05, 差别有统计学意义。
四格表校正卡方检验
例题9-3
步 骤:
1、定义变量,输入数据 设三个变量: 处理(r):即行号 状况(c):即列号 频数(f)
Rows框:sex columns框:x0 cells: percentages:选择row、column、total →continue→ok
Cells 按钮
首先是处理记录缺失情况报告,可见24例 均为有效值。
第九章 χ2 检 验(卡方检验)
χ2检验(chi square test)是以χ2 分布为理论基础的检验 方法。主要用于分类资料(列联表资料,contingency table)的假设检验。也用于频数分布的拟合优度检验 (goodness of fit).
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医学统计学第九章分类变量资料统计推断第九章χ2检验主要内容:一、四格表资料的χ2检验二、配对四格表资料的χ2检验三、R×C列联表资料的χ2检验第一节率的标准误与总体率的区间估计一、率的抽样误差与标准误在抽样调查中,由抽样造成的样本率与总体率之差,称为率的抽样误差,其大小可用率的标准误描述。
联想:抽样误差和均数的标准误x /x S复习率的标准误的计算公式:(1)p nππσ-=σp 为总体率的标准误,π为总体率, n 为样本含量。
复习(1)p p p S n-= 当π未知时,可用样本率p 作为估计值,计算出样本率的标准误S p ,作为σp 估计值.例1 为了解某地人群结核菌素试验阳性率情况,某医疗机构在该地人群中随机检测了1773人,结核菌素试验阳性有682人,阳性率为38.47%,试计算其标准误。
%16.10116.017733847.03847.0==)-(1=p s 分析:π未知,用p 来估计,s p 为δp 的估计,p=38.47%,1-p=61.53%二、总体率的区间估计①点估计:π=p②区间估计:按一定的概率(1-α),以p来估计π所在的范围。
一般α=0.05或0.01。
1、查表法因其计算比较复杂,统计学家已经编制了总体率可信区间估计用表,可根据样本含量n和阳性数x查阅统计学专著中的附表。
当n较小,如n 50,特别是p接近于0或1时,按二项分布原理估计总体率的可信区间。
例2 某市抽查了20名献血员乙型肝炎表面抗原(HBsAg)携带情况,阳性者4人,求该市献血员HBsAg阳性率的95%可信区间。
分析:n=20,实际发生数x=4,查表得上行:6~44(95%),下行4~51(99%)*如果n=20,实际发生的12(x大于n/2),如何查?先找n=20,1-x=8,查表得a~b,然后算得(100-b)~(100-a)2、正态近似法条件:n 足够大,p 和(1-p)均不太小,且np≥5和n(1-p)≥5时,p 近似服从正态分布。
公式:α=0.05 u 0.05=1.96α=0.01 u 0.01=2.58p 为样本率,S p 为样本率的标准误, u α是双侧概率为α的u 介值p p u S α±复习总体率的95%可信区间:p±1.96sp总体率的99%可信区间:p±2.58Sp置信区间的意义理论上,此范围内包括总体率的可能性为95%(99%)。
在100次抽样估计中,95(99)次正确,5(1)次错误。
例3 某地随机抽样368名5岁儿童,检查龋齿患病率为62.50%。
估计该地儿童龋齿患病率的95%的置信区间。
0252.0368)6250.01(6250.0)1(=-⨯=-=n p p s p p ±1.96s p =0.6250±1.96×0.0252 =0.5756~0.6744该地儿童龋齿患病率的95%的置信区间为57.56%~67.44%。
复习第二节率的u检验应用条件:当n足够大,p和(1-p)均不太小,且np≥5和n(1-p)≥5时,p近似服从正态分布。
一、样本率与总体率的比较p 为样本率 π0为总体率σp 为根据总体率计算的标准误。
0000||||(1)pp p u nππσππ--==-例4 已知某地一般人群高血压患病率为13.26%,某医师在农村随机抽取460人进行观察,有43人确诊为高血压。
问该人群患病率是否低一般人群?分析:本例,n =,460,属于大样本,同时样本率为p ,np 和n (1-p )均大于5,可采用u 检验。
①假设 H 0:π=π0(该人群患病率与一般人群相同) H 1: π<π0(该人群患病率小于一般人群)α=0.05 (单侧检验) ②计算u 值 n =460 , X =43 p =43/460=0.0935()4727.2460/1326.011326.01326.00935.0)1(||=-⨯-=--=n p u πππ③确定P值,判断结果u=2.4727>1.64,P<0.05,按 =0.05的水准拒绝H0,接受H1。
可认为该人群患病率低一般人群。
例5 一般情况下,直肠癌围术期并发症发生率为30%,现某医院手术治疗了385例直肠癌患者,围术期出现并发症有100例,并发症发生率为26%,问该院直肠癌患者围术期并发症发生率与一般情况比较有无统计学差异。
分析:本例,n=385,属于大样本,同时样本率为26%,np和n(1-p)均大于5,可采用u检验。
1. 建立检验假设H 0: π=π0,H 1: π≠π0,α=0.052. 计算u 值3. 确定P 值,判断结果本题u =1.713<1.96,P >0.05,按α=0.05的水准不拒绝H 0,差异没有统计学意义,故尚不能认为该院直肠癌患者围术期并发症发生率与一般情况不同。
713.1385)3.01(3.026.03.0=--=u二、两样本率比较应用条件:n1与n2均较大p1、(1-p1)、p2、(1-p2)均不太小,n1p1、n1(1-p1)、n2p2、n2(1-p2)均≥5计算公式:1212p p p p u s --=121212*********p p X X X X s n n n n n n -⎛⎫⎛⎫++=-+ ⎪⎪++⎝⎭⎝⎭两样本率之差的标准误 X 1、X 2两样本的阳性数21p p s -例6为研究人群中HBV感染的性别差异,某医师对115例受检者进行分析,其中男性受检者62例,感染12例;女性受检者53例,感染3例。
问男女HBV感染率是否有性别差异?①假设 H0:π1=π2H 1: π1≠π2α=0.05②计算u 值n 1=62 X 1=12 p 1=12/62=0.1935n 2=53 X 2=3 p 2=3/53=0.05660630.053162153623121536231221=⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛++-++=-p p s 173.20630.00566.01935.0=-=u③确定P值,判断结果, u=2.173>1.96,P<0.05,按 =0.05的水准拒绝H0。
可认为HBV感染率有性别差异,男高于女。
接受H1第三节χ2检验(chi-square test)χ2检验(卡方检验)可用于两个及两个以上样本率(构成比)的比较、两属性变量间的关联分析等。
一、四格表资料的χ2检验四格表资料表分组阳性数阴性数合计甲 a b a+b乙 c d c+d合计 a+c b+d a+b+c+d=n(一)χ2检验的基本思想例7两组人群流感发病率比较分组发病人数未发病人数合计发病率(%) 服药组 40 190 230 17.39对照组 50 130 180 27.78合计 90 320 410 21.95(一)χ2检验的基本思想分组 发病人数 未发病人数 合计 发病率(%) 服药组 40(50.49) 190(179.51) 230 21.95 对照组 50(39.51) 130(140.49 ) 180 21.95 合计 90 320 410 21.95 两组人群流感发病率比较T 22=180-39.51=140.49T 11=230*90/410=50.49 T 12=230-50.49=179.51 T 21=180*90/410=39.51 根据H 0 :π1=π2=π0 =0.2195理论频数的计算公式:nn n T c R RC R 为行数,C 列数n R 行合计频数,n C 列合计频数分组 发病人数 未发病人数 合计 发病率(%)服药组 (50.49) (179.51) 230 21.95对照组 (39.51) (140.49) 180 21.95合计 90 320 410 21.95两组人群流感发病率比较40 190 50 130 T T A x 22)(-∑=基本公式 A 为实际频数,T 为理论频数基本公式的χ2值,反映实际数与理论数相差的情况。
若H0成立,则实际数与理论数相差不应太大,较大χ2值出现的概率较小。
χ2值越大,越有理由推翻H0 。
χ2大小与格子数有关,格子数越多,v越大,χ2越大。
若χ2≥χ2 0.05,v(查χ2界值表P205),则可按α=0.05的检验水准拒绝H0。
χ2值、P值与统计结论的关系(α=0.05)χ2值P值结论、统计学意义<χ20.05,v>0.05 不拒绝H0 ,差异无显著性≥χ20.05,v≤0.05 拒绝H0,接受H1 ,差异有显著性≥χ20.01,v≤0.01 拒绝H0,接受H1 ,差异有高度显著性(二)χ2检验的步骤1、基本公式应用条件:n≥40,且每格T≥5。
例7①建立假设:H0:π1=π2H1: π1≠π2α=0.05②计算χ2值36.649.140)49.140130(51.39)51.3950(51.179)51.179190(49.50)49.5040()(222222=-+-+-+-=-∑=TT A x V =(R -1)(C -1) =(2-1)(2-1) =1③确定P 值,判断结果查χ2界值表:χ20.05,1=3.84χ20.01,1=6.636.63=χ20.01,1>6.36=χ2>3.84=χ20.05,10.01<P <0.05,按 =0.05的水准拒绝H 0,接受H 1。
故可认为两组发病率的差别有统计学意义,服药组较低。
2、专用公式分组 阳性数 阴性数 合计 甲 a b a +b 乙 c d c +d合计 a +c b +d a +b +c +d =n四格表资料表))()()(()(22d b c a d c b a n bc ad x ++++-=2、专用公式(例7)))()()(()(22d b c a d c b a n bc ad x ++++-=36.632090180230410)5019013040(2=⨯⨯⨯⨯⨯-⨯=结论同前。
(略)3、四格表资料χ2检验的校正应用条件:n≥40,有1≤T <5))()()(()2/|(|)5.0|(|2222d b c a d c b a n n bc ad x TT A x ++++--=--∑=例8某研究所研制出甲乙两种隔离服,用于预防传染病。
在某医院随机抽取11名医生穿甲隔离服,30名医生穿乙隔离服。
其感染情况如表。
问穿两种隔离服的医生感染率是否有差别?表8 穿甲乙两种隔离服医生某种传染病感染率隔离服感染未感染合计感染率(%)甲 1 10 11 9.09乙 13 17 30 43.33合计 14 27 41 34.15①假设H0:π1=π2H1: π1≠π2α=0.05②计算χ2值(最小)T11=11×14/41=3.76(<5)用四格表资料χ2检验的校正法计算821.22714301141)2/41|1310171(|))()()(()2/|(|222=⨯⨯⨯⨯-⨯-⨯=++++--=d b c a d c b a n n bc ad x V =(R -1)(C -1) =(2-1)(2-1) =1③确定P值,判断结果查χ2界值表,χ20.05,1=3.84χ20.01,1=6.63χ2<χ20.05,1。