医学统计学-第七章---卡方检验
卡方检验医学统计学
卡方检验医学统计学卡方检验是医学统计学中最常用的检验方法之一,它可用于测量两组数据之间的关联性。
在研究中,我们常常需要探究二者之间是否存在某种关联,卡方检验就是我们解决这个问题的利器。
卡方检验的原理卡方检验的原理是基于期望频数和实际频数的差异来检验两个变量之间的关系。
期望频数指的是在假设两个变量独立的情况下,我们可以根据样本量和其他条件,计算出不同组之间的理论值。
而实际频数则是实验中观察到的实际结果。
卡方检验的步骤如下:1.建立零假设和备择假设。
零假设指的是假设两个变量之间不存在任何关系,备择假设则是反之。
2.确定显著性水平 alpha,通常取值为0.05。
3.构建卡方检验统计量。
计算方法为将所有观察值与期望值的差平方后,再除以期望值的总和。
4.根据自由度和显著性水平,查卡方分布表得到 P 值。
5.如果 P 值小于显著性水平,拒绝零假设;否则无法拒绝零假设。
卡方检验的应用卡方检验可以应用于多个领域,其中医学统计学是最为常见的一个。
卡方检验可以用来分析两个疾病之间的相关性或者测量一种治疗方法的效果。
举个例子,某药厂要研发一种新的药物来治疗心脏病。
为了验证该药的疗效,实验组和对照组各50 人。
在 6 个月的治疗后,实验组和对照组中分别有 10 人和 15 人痊愈了。
卡方检验的作用就在于此时可以用来检验两组之间的差异是否具有统计学意义。
除了医学统计学之外,卡方检验在社会学、心理学、市场营销、物理等领域也都有广泛应用。
卡方检验的限制虽然卡方检验被广泛应用于各种实验和研究中,但它也有着自己的限制。
其中比较明显的一点就是对样本量有一定的要求。
当样本量较小的时候,期望频数的计算就会出现一定的误差,进而导致检验结果不准确。
此外,在面对非常态分布数据时,卡方检验也会出现问题。
当数据呈现正态分布时,卡方检验的准确性最高。
然而,实际上,很多数据都呈现出非正态分布,这时需要使用一些修正方法来解决。
卡方检验是医学统计学中最常用的统计方法之一,它可以用来测量两个变量之间的关联性。
医学统计学:卡方检验
CM C N M P( x ) n CN
式中X的取值是从0与(n-N+M)之较大者开始直到n与M之较小者为止。
卡方检验
■ 四格表资料的χ2检验
3.当n<40,或T<1时,用四格表资料的Fisher确切概率法。 超几何分布
x n x CM CN M P( x ) n CN
C
卡方检验
■ χ2检验的基本思想
卡方检验
■ χ2检验的基本思想
卡方检验
■ χ2检验的基本思想
卡方检验
■ χ2检验的基本思想
卡方检验
■ 四格表资料的χ2检验
1.当n≥40且所有的T≥5时,用χ2检验的基本公式;当P≈α时,改用四格 表资料的Fisher确切概率法。 例 某院欲比较异梨醇口服液(试验组)和氢氯噻嗪+地塞米松(对照组) 降低颅内压的疗效。将200例颅内压增高症患者随机分为两组,结果见表1 。问两组降低颅内压的总体有效率有无差别?
卡方检验
■ 四格表资料的χ2检验
3.当n<40,或T<1时,用四格表资料的Fisher确切概率法。 Fisher确切概率法的基本思想
在四格表周边合计数不变的条件下, 利用超几何分布直接计算样本事件及 比样本事件更极端情形发生的概率。
卡方检验
■ 四格表资料的χ2检验
3.当n<40,或T<1时,用四格表资料的Fisher确切概率法。 Fisher确切概率法的基本思想
卡方检验
■ 四格表资料的χ2检验
1.当n≥40且所有的T≥5时,用χ2检验的基本公式;当P≈α时,改用四格 表资料的Fisher确切概率法。
卡方检验
■ 四格表资料的χ2检验
1.当n≥40且所有的T≥5时,用χ2检验的基本公式;当P≈α时,改用四格 表资料的Fisher确切概率法。
研究生医学统计学 卡方检验 PPT课件.ppt
431 388 495 137 1451
490 410 587 179 1666
902 800 950 32 2684
合计
1823 1598 2032 348 5801
H0:两种血型系统间无关联 H1:两种血型系统间有关联
=0.05
2 5801( 4312 490 2 ... 322 1) 213 .16
(A T )2 T
,
行数-1列数 1
2 (99 90.48)2 (5 13.52)2 (75 83.52)2 (2112.48)2 12.86
90.48
13.52
83.52
12.48
(2 1)(2 1) 1
以 1 查 2界值表得P<0.005。按 0.05水准,
拒绝H0,接受H1,可以认为两组降低颅内压的总体有效率不等,即 可认为异梨醇口服液降低颅内压的有效率高于氢氯噻泰+地塞米松 的有效率。
程度太差,不宜用2检验,而应改用确
切概率法。
四格表资料2检验的校正公式
2 C
( A T 0.5) 2 T
2 C
( ad bc n / 2)2 n (a b)(c d )(a c)(b d )
例 7-2 某医师欲比较胞磷胆碱与神经节甘酯治疗脑血管疾病的疗效, 将78例脑血管疾病患者随机分为两组,结果见表7-2。问两种药物治 疗脑血管疾病的有效率是否相等?
组别
阳性
预防注射组 4
非预防组 5(3)
合计
9
阴性 18 6 24
合计 22 11 33
感染率(%) 18.18 45.45 27.27
本例n为33<40,且有一个格子的理论频数为3<5.
医学统计学(李琳琳)7相关分析与回归分析-2023年学习资料
【解析】-研究目的:凝血酶浓度和凝血时间两定量-之间是否存在线性关系,其联系程度如何?
一绘制散点图-从整体趋势而言,-1-15-随着凝血酶浓度的-413-增加,凝血时间呈-12-11-降低的趋 ,且二-10-0.7-0.8-0.9-1.1-1.2-1.3-者之间存在线性相-图7-5凝血酶浓度X与凝血 间Y散点图-关关系。
p的假设检验-H0:p=0-H1:P≠0-a=0.05-1查表法-由前面计算得:样本相关系数r=-0.90 ;-对给定a=0.05,自由度n-2=13,有附表11P391-查临界值r0.0513=0.560;-因为 0.907>0.560,则K0.05,拒绝H,即认-为变量X与Y间的线性相关关系有统计学意义。
2t检验-Ho:p=0-H1:p0-a=0.05--0.907-t,=-=-7.765-1-r2-1-0. 0702-n-2-15-2-y=15-2=13-查t界值表,1,>ts.13=2.160P<0.05,按a 0.05水准,拒-绝HO,接受H1,可认为凝血时间的长短与凝血酶浓度呈负粗-关。
相关系数的大小示意图-3.6-活-3.4-r=1-y-3230-0<r<1-L-8-r=0-2.6-2.4 2.2-40-42444648505254565860-体重kg,X
二、相关系数的意义与计算-若双变量X与Y均是来自正态总体的随机变量,散-点图呈线性趋势,且各观察值相互独立 则两变量-之间的相关关系可采用Pearson积矩相关系数表示。-∑X-XY-Y-∑x-X2∑Y-2xm
P391-附表11相关系数r临界值表-样本大小-0.05-0.01-1.000-6-0.88G-7-0T8 -0.929-0,738-0.881-0.700-0.833-10-0.648-0.794-0.618-0 755-12-0.587-0.727-13-0.560-0.703-0.538-0.679-15-0.52 -0.G54
医学统计学——卡方检验
• ⑵χ2分布具有可加性:如果两个独立的 随机变量X1和X2分别服从ν1和ν2的χ2分 布,那么它们的和(X1+X2)也服从(ν1+ ν2)的χ2分布。
χ2 界值
• ν确定后,如果分布曲线下右侧尾部的 面积为α时,则横轴上相应的χ2值就记 作χ2 α,ν ,即χ2界值。其右侧部分的 面积α表示:自由度为ν时, χ2值大 于界值的概率大小。χ2值与P值的对应 关系见χ2界值表(附表6)。χ2值愈大,P 值愈小;反之,χ2值愈小,P值愈大。
• T22=(c+d)×(1- PC)=(c+d)×(b+d)/n = 56×17/112=8.5
χ2检验的基本思想
• χ2检验实质上是检验A的分布与T的分 布是否吻合及吻合的程度,χ2越小,表
明实际观察次数与理论次数越接近。
• 若检验假设成立,则A与T之差不会很 大,出现大的χ2值的概率P是很小的, 若P≤α,就怀疑假设成立,因而拒绝 它;若P>α,则没有理由拒绝它。
不同自由度的χ2分布曲线图
图 8-1 不同自由度的χ2 分布曲线图
二、χ2检验的基本思想
• 例8-1 某中医院将112例急性肾炎 病人随机分为两组,分别用西药和 中西药结合方法治疗,结果见表8-1, 问两种方法的疗效有无差别?
表8-1 两种方法治疗急性肾炎的结果
组 别 治愈例数 未愈例数 合计 治愈率(%)
例8-2
• 某医师将门诊的偏头痛病人随机 分为两组,分别采用针灸和药物 两种方法治疗,结果见表8-3 , 问两种疗法的有效率有无差别?
两种疗法对偏头痛的治疗结果
疗 法 有效例数 无效例数 合计 有效率(%)
针 灸 33(30.15) 2(4.85) 35 94.29
医学统计学-卡方检验
卡方检验是一种常用的统计方法,用于比较观察值和期望值之间的差异。它 在医学研究中有着广泛的应用,可以帮助我们验证假设、推断总体特征以及 分析类别变量的相关性。
卡方检验的定义和原理
卡方检验是一种基于卡方分布的统计检验方法。它基于观察值与期望值之间 的差异来判断样本数据与理论分布的拟合程度。
卡方检验的局限性和注意事项
• 卡方检验只能验证分类变量之间的关联性,不能验证因果关系。 • 卡方检验对样本足够大和数据分类合理的要求比较严格。 • 卡方检验结果受样本选择和观察误差的影响,需要谨慎解释。 • 在进行卡方检验前,需要对数据进行充分的清洗和准备。
结论和要点
卡方检验是一种常用的统计方法
卡方检验的应用领域
医学研究
卡方检验可以用来分析疾病的发生与某个因素之间的关联性,如吸烟与肺癌。
社会科学
卡方检验可以用来研究不同人群之间的行模式和态度偏好,如性别与政治观点。
市场调研
卡方检验可以用来分析消费者的购买偏好和市场细分,如年龄与产品偏好。
卡方检验的假设和前提条件
1 独立性假设
卡方检验基于观察值和期望值之间的差异来验证两个变量之间是否存在独立性。
它可以帮助我们验证假设、推断总体特征以 及分析类别变量的相关性。
结果解读和意义
卡方检验的结果可以帮助我们了解变量之间 的关系,并为决策提供依据。
应用广泛
卡方检验在医学研究、社会科学和市场调研 等领域都有着重要的应用。
局限性和注意事项
卡方检验有一定的局限性,需要注意样本大 小和数据分类的合理性。
4
比较卡方值和临界值
判断卡方值是否大于临界值,从而做出关于拒绝或接受原假设的决策。
卡方检验的结果解读和意义
医学统计学--卡方检验
笃 学
精 业
修 德
厚 生
6
2 ( A T ) 2值的大小还取决于 个数的多少(严 T 2 ( A T ) 格地说是自由度 的大小)。由于各 皆是 T 2
正值,故自由度 愈大, 值也会愈大;所以只 2 值才能正确地反映 有考虑了自由度 的影响,
实际频数 A和理论频数 T 的吻合程度。检验时, 要根据自由度 查 2 界值表。当 2≥ 2时, P , ,
2 中,若拒绝无效假设
H0只能做出总的结论,但还不知道哪两
个率之间有差别。若想知道哪两个率之间
有差别,还要进行两两比较,本节介绍两
两比较的方法之一:行×列表的分割。
笃 学
精 业
修 德
厚 生
30
4.行×列表的分割 (一)多个实验组间的两两比较 由于要做重复多次的假设检验,需对第Ⅰ 类错误作校正,新的校正检验水准为:
第七章 掌握内容:
2 检 验
1.检验的基本思想和用途 2.成组设计四格表资料检验的计算及应用条件
3.配对设计四格表资料检验 4.行列表资料检验及应用时应注意的问题 5.频数分布拟合优度的检验 了解内容 1.四格表资料的Fisher精确概率法的基本思想 与检验步骤
笃 学 精 业 修 德 厚 生
2 检验是一种用途很广的假设检验方
处理组 1 2 属性 阳性 阴性 合计
合计
a (T11) c (T21) m1
b (T12) d (T22) m2
n1(固定值) n2(固定值) n
要想知道处理组1,2之间差别是否有统计学意义, 常用 2 检验统计量来作假设检验。
笃 学 精 业 修 德 厚 生
5
医学统计学卡方检验
03 左侧概率为P =P1+ P2 + P3 =0.316 , 右侧概率为P =P3+ P4 + P5 + P6 =0.929,故单侧检验P值为0.316。
Part 02.
配对四格表资料的 检验
χ2
概述
计数资料的配对设计常用于两种检验方 法、培养方法、诊断方法的比较。 特点是对样本中各观察单位分别用两种 方法处理,然后观察两种处理方法的某 两分类变量的计数结果,整理为
的条件下,利用超几何分布
Fisher确切概率法的基本思想
(hypergeometric distribution)公式直接计算 表内四个格子数据的各种组合 的概率,然后计算单侧或双侧
“!”为阶乘符号, n !=1×2×…×n,0 !=1, ∑Pi=1。
累计概率,并与检验水准比较,
P( ab)( c 作! 出 a 是! 否db 拒! ) 绝cH! ( 0a d 的! ! 结 论n! 。c)( b!d)!
当T<1或n<40,四格表资料χ2检验结果 可能会有偏性,需采用Fisher确切检验 进行分析。该法由R. A. Fisher提出,且 直接计算概率,因此也叫Fisher确切概 率检验(Fisher’s exact probability test)。
四格表资料的Fisher确切概率法
在四格表周边合计数固定不变
否有差别?
⑴设H0 :π1=π2 ,即两药有效率相同;H1 : π1≠π2 α=0.05
⑵n>40,Tmin>5
2 5 5 2 . 1 7 2 8 1 1 9 . 8 3 2 2 3 3 9 . 8 3 2 2 3 8 . 1 2 8 6 . 48 5 . 1 7 81 . 8 3 23 . 8 3 28 . 18
医学统计学第七章卡方检验
n 40 或 T 1,直接计算概率。
2 连续性校正仅用于 的1 四格表资料,当
,一般不作校正。
时2
23
第二十三页,共100页
例7-2 某医师欲比较胞磷胆碱与神
经节苷酯治疗脑血管疾病的疗效,将78 例脑血管疾病患者随机分为两组,结果 见表7-3。问两种药物治疗脑血管疾病的
有效率是否相等?
24
阳性 阴性
4
18
5(3) 6
9
24
合计 感染率(%)
22
18.18
11
45.45
33
27.27
39
第三十九页,共100页
一、基本思想
在四格表周边合计数固定不变的条件
下,计算表内4个实际频数变动时的各种
组合之概率 ;再Pi按检验假设用单侧 或双侧的累计概率 ,依P据所取的检验
水准 做出推断。
40
第四十页,共100页
b, c为两法观察结果不一致的两种情况。
检验统计量为
2 (b c)2 , 1
bc
2 c
( b c 1)2 bc
Байду номын сангаас
,
=1
33
第三十三页,共100页
注意:
本法一般用于样本含量不太大的资料。因为
它仅考虑了两法结果不一致的两种情况(b, c),
而未考虑样本含量n和两法结果一致的两种情况
(a, d)。所以,当n很大且a与d的数值很大(即两
1.各组合概率Pi的计算 在四格表周边合计数不 变的条件下,表内4个实际频数 a,b,c,d 变动的 组合数共有“周边合计中最小数+1”个。如例
7-4 , 表 内 4 个 实 际 频 数 变 动 的 组 合 数 共 有 9+1=10个,依次为:
“医学统计课件-卡方检验”
卡方检验中的显著性水平和p 值
显著性水平和p值是判断卡方检验结果是否显著的重要指标。我们将解释它们 的概念和计算方法,并讨论常用的显著性水平选择。
卡方检验的优缺点
卡方检验是一种简单有效的统计方法,但也有其局限性。我们将讨论卡方检 验的优点和不足之处,以及与其他统计方法的比较。
单样本卡方检验的原理和步骤
单样本卡方检验用于比较一个分类变量的观察频数与期望频数之间的差异。 我们将介绍其原理、计算方法和实际操作步骤。
独立性卡方检验的原理和步骤
独立性卡方检验用于判断两个分类变量之间是否存在相关性。我们将详细解 释它的原理、计算方法,并提供一个实际案例进行分析。
适合度卡方检验的原理和步骤
卡方检验的实际应用案例
通过实际案例,我们将展示卡方检验在医学和流行病学研究中的应用。这些 案例将帮助您更好地理解卡方检件——卡方 检验”
卡方检验是一种常用的统计方法,用于比较两个或多个分类变量之间的差异。 本课件将详细介绍卡方检验的原理、步骤、应用和优缺点,以及在医学研究 和流行病学中的实际案例。
卡方检验的分类及适用范围
卡方检验可以分为单样本卡方检验、独立性卡方检验和适合度卡方检验。每 种检验方法适用的情况略有不同,我们将详细探讨它们的应用领域和限制。
医学统计方法之卡方检验
医学统计方法之卡方检验卡方检验,又称卡方分布检验(Chi-Square Test),是一种常用的统计方法,用于检验两个或多个分类变量之间是否存在显著差异。
本文将详细介绍卡方检验的原理、应用范围以及具体的步骤。
一、原理:卡方检验的原理是基于卡方分布的性质。
卡方分布是指具有自由度的正态分布的平方和,记为χ^2(k),其中k为自由度。
在卡方检验中,我们将观察到的频数与理论预期频数进行比较,从而判断两个或多个分类变量之间的差异是否显著。
二、应用范围:卡方检验广泛应用于医学研究中的数据分析,尤其是在对两个或多个分类变量之间的关联进行检验时。
常见的应用场景包括但不限于以下几种:1.检验观察频数与理论预期频数之间的差异,以判断观察结果是否与理论预期相符。
2.检验两个或多个分类变量之间的关联性,以确定它们之间是否存在显著的相关性。
3.比较两个或多个群体在一个或多个分类变量上的分布差异,从而判断它们之间是否存在显著差异。
三、步骤:卡方检验的主要步骤包括以下几个:1. 建立假设:首先需要明确检验的假设。
在卡方检验中,通常有两种假设:“原假设”(null hypothesis,H0)和“备择假设”(alternative hypothesis,H1)。
原假设通常表示没有差异或关联,备择假设则表示存在差异或关联。
2.计算期望频数:根据原假设,计算出理论预期频数。
理论预期频数是基于既定的分布假设和样本总体的参数计算得出的。
3.计算卡方值:将观察频数与理论预期频数进行比较,计算出卡方值。
卡方值是观察频数与理论预期频数之间的差异的平方和。
4.确定自由度:根据检验问题的具体情况确定自由度。
在卡方检验中,自由度通常由分类变量的水平数目决定。
5.查表找出p值:根据卡方分布表,找出相应自由度下的临界值。
将计算得到的卡方值与临界值进行比较,确定其显著性水平。
p值是指在原假设成立的前提下,观察到的差异大于或等于当前差异的概率。
6.做出判断:根据p值与显著性水平的比较,做出判断是否拒绝原假设。
医学统计学课件卡方检验
队列研究中的卡方检验
总结词
在队列研究中,卡方检验用于比较不同暴露 水平或不同分组在某个分类变量上的分布差 异,以评估暴露因素与疾病发生之间的关系 。
详细描述
队列研究是一种前瞻性研究方法,按照暴露 因素的不同将参与者分为不同的组,追踪各 组的疾病发生情况。通过卡方检验,可以比 较不同暴露水平或不同分组在分类变量上的 分布差异,如分析不同饮食习惯的人群中患
卡方检验与相关性分析的区别
卡方检验主要用于比较实际观测频数与期望频数之间的差异,而相关性分析则用于研究 两个或多个变量之间的关联程度。
卡方检验与相关性分析的联系
在某些情况下,卡方检验的结果可以为相关性分析提供参考,帮助了解变量之间的关联 程度。
05
卡方检验的应用实例
病例对照研究中的卡方检验
总结词
02
公式
卡方检验的公式为 $chi^{2} = sum frac{(O_{ij} - E_{ij})^{2}}{E_{ij}}$,
其中 $O_{ij}$ 表示实际观测频数,$E_{ij}$ 表示期望频数。
03
适用范围
卡方检验适用于两个分类变量的比较,可以用于分析病例对照研究、队
列研究等类型的研究。
卡方检验的用途
如比较不同年龄组、性别组等人群中某种疾病的患病率。
卡方检验的基本假设
每个单元格中的期望 频数应该大于5。
卡方检验对于样本量 较小的情况可能不适 用。
观察频数与期望频数 应该服从相同的概率 分布。
02
卡方检验的步骤
收集数据
01
02
03
确定研究目的
在开始卡方检验之前,需 要明确研究的目的和假设 ,以便有针对性地收集数 据。
医学统计学卡方检验
计算期望频数
2
根据独立性假设,计算预期的频数。
3
计算卡方值
根据观察频数和期望频数,计算卡方值。
判断显著性
4
根据卡方值和自由度,判断结果是否显著。
卡方检验的计算方法
卡方检验的计算方法主要包括计算卡方值、计算自由度以及查找临界值。 计算卡方值:
1. 计算每个组别的观察频数和期望频数之差的平方。 2. 将所有差的平方相加,得到卡方值。 计算自由度: • 自由度 = (行数 - 1) * (列数 - 1) 查找临界值:
卡方检验的应用范围和特点
卡方检验广泛应用于医学研究中,例如研究疾病与风险因素之间的关联性。 卡方检验的特点包括:
非参数检验
不依赖于总体的任何参数假设。
适用性广泛
可用于分析两个或释。
卡方检验的步骤
1
收集数据
收集观察到的数据,例如不同组别的频数。
根据自由度和显著性水平,在卡方分布表中查找对应的临界值。
案例分析:卡方检验在医学统计学中的应用
临床研究
通过卡方检验分析患者病情与治疗 效果之间是否存在关联性。
遗传研究
运用卡方检验检测基因型与表型之 间的关联性。
公共卫生
分析卡方检验数据以确定风险因素 与疾病之间的关联性。
结论和总结
卡方检验是一种强大的统计工具,可用于分析变量之间的关联性。 通过掌握卡方检验的原理、应用和计算方法,我们能更好地理解数据背后的 关系,并做出有针对性的决策。
医学统计学卡方检验
卡方检验是一种常用的统计方法,主要用于比较观察到的数据与期望值之间 是否存在显著差异。
卡方检验的原理和假设
卡方检验基于观察到的频数与期望频数之间的差异,用于判断变量之间是否存在关联性。 卡方检验的假设为:
医学统计学----卡方检验
=
Xi − μ σ
χ2检验的内容
一、 χ2检验的基本思想 二、独立四格表资料的χ2检验 三、配对四格表资料的χ2检验 四、行×列表资料的χ2检验 五、多个样本率比较的χ2分割法 六、四格表资料的Fisher确切概率法 七、频数分布拟合优度的χ2检验
一、 χ2 检验的基本思想
χ2分布的概念 χ2检验的基本思想 P 值的确定 χ2 检验的基本检验步骤
表4
处理组
A B C 合计
三种脐带处理方法的脐带感染情况
脐带感染 感染 未感染
76
3143
15
2409
2
762
93
6314
合计 感染率(%)
3219
2.36
2424
0.62
764
0.26
6407
1.45
2. 样本构成比的比较
(comparison of several proportions)
例4 某医师在研究血管紧张素I转化酶(ACE)基
二、四格表资料的χ2检验
1. 四格表资料χ2 检验的专用公式
χ2 =
(ad − bc)2 n
(a + b)(c + d)(a + c)(b + d)
用四格表资料χ2专用公式计算例1的χ2值:
χ 2 = (99 × 21 − 5 × 75 ) 2 200 = 12 .86 104 × 96 × 174 × 26
处理组的例数由发生数和未发生数两部分组成。表
内有99、5、75、21 四个基本数据,其余数据均由
此四个数据推算出来的,故称四格表资料。
表2 四格表资料的基本形式
处理组 发生数 未发生数 合计
医学统计方法之卡方检验
医学统计方法之卡方检验卡方检验(Chi-square test)是一种常用的医学统计方法,用于比较观察频数与期望频数的差异,以判断两个或多个类别变量之间是否存在相关性或差异。
卡方检验适用于分类数据的分析,常用于研究疾病与相关因素的关系、药物与不良反应的关系等。
卡方检验的基本原理是通过计算观察频数与期望频数之间的差异,并比较差异的程度来判断两个或多个分类变量之间的关联性。
卡方值越大,观察频数与期望频数之间的差异越大,相关性越显著。
卡方检验的零假设(Null hypothesis)是假设变量之间没有关联性,即观察频数与期望频数之间的差异是由随机误差引起的。
卡方检验的计算步骤如下:1.建立零假设与备择假设。
例如,我们想要研究其中一种药物与不良反应的关系,零假设可以是“该药物与不良反应之间没有关联性”,备择假设可以是“该药物与不良反应之间存在关联性”。
2.构建两个变量的列联表,计算观察频数。
列联表是将两个或多个分类变量交叉组合生成的一个二维表格。
例如,我们可以将药物使用与不良反应按行和列分别组合,得到一个2×2的列联表。
3.计算期望频数。
期望频数是在零假设成立的情况下,根据总体总数和变量之间的独立性计算的理论频数。
期望频数可以通过计算每个组合的行合计、列合计以及总体合计来得到。
4.计算卡方值。
卡方值是观察频数与期望频数之间的差异的平方和除以期望频数的总和,即卡方值=Σ((O-E)²/E),其中O为观察频数,E为期望频数。
5.比较卡方值与临界值。
通过查找卡方分布表,根据给定的显著性水平(一般为0.05或0.01),确定临界值。
如果卡方值大于临界值,则拒绝零假设,认为两个变量之间存在关联性。
如果卡方值小于等于临界值,则无法拒绝零假设,认为两个变量之间不存在关联性。
6.进行推论。
如果拒绝零假设,可以推断两个变量之间存在关联性。
反之,如果无法拒绝零假设,不能推断两个变量之间存在关联性。
需要注意的是,卡方检验对样本容量有一定要求,通常要求每个格子的期望频数不低于5、如果期望频数低于5,需要采取合适的修正方法或使用其他适用于小样本的检验方法。
医学统计学--卡方检验
检验水准拒绝H
0,接受H
,可认为两总体率不
1
同;若
P0.05,按检验水准 0.05不拒绝 H
,
0
尚不能认为两总体率不同。
笃学
精业
修德
厚生
10
两样本率比较的资料,既可用 u检验
也可用 2 检验来推断两总体率是否有差别, 且在不校正的条件下两种检验方法是等价的,
对同一份资料有
u2。 2
H1:两组工人皮肤炎总体患病率不等,即 1 2
0.05
校正 2 值为:
2 (|13.84|0.5)2 (|1411.16|0.5)2
3.84
11.16
(|107.16|0.5)2 (|1820.84|0.5)2
7.16
20.84
2.94
校正公式
2 c
(AT0.5)2 T
校正公式
c2=(a
(|ad-bn 2)c2n|+)b (c+)d(a+)(b c+)d
笃学
精业
修德
厚生
9
(3)当 n40,或 T 1时,不能用 2检验,
改用四格表资料的Fisher确切概率法。
3.作出统计结论
以=1查 2界值表,若 P0.05,按0.05
笃学
精业
修德
厚生
11
例 为了解铅中毒病人是否有尿棕色素增加现 象,分别对病人组和对照组的尿液作尿棕色素 定性检查,结果见下表,问铅中毒病人与对照 人群的尿棕色素阳性率差别有无统计学意义?
表 两组人群尿棕色素阳性率比较
组别
铅中毒病人 对照组
阳性数 阴性数 合计
(18.74) (17.26)
(医统)卡方检验
2
观测值的自由度(vi>2),Si为第i组观测值的标 准差 2 • 拒绝原假设的条件为: 2 ,
F检验
• 检验两组观测值的方差的齐性 • 原假设: 2 2
1 2
• 检验统计量:
2 2 2 S1 F 2 2 ~ F( 1 , 2 ) 1 S2
• 拒绝条件: F F /2 (1, 2 )或F F1 /2 (1, 2 )
2.拟合优度检验
• B.表征实验分布,即用卡方统计量检验实验分布 是否服从某一理论分布(正态、二项等) • 步骤:1.将总体X的取值范围分成k个互不重迭的 小区间 • 2.计算落入第i个小区间的样本值的观测频数 • 3. 根据所假设的理论分布, 算出总体X的值落入每 个小区间的概率p,于是np就是落入该区间的样本 值的理论频数 • 4.计算卡方统计量 • 5.与临界值进行比较,进行决策
χ2 检验 数据资料 总体 检验对象
离散型资料 总体分布是未知的
连续型资料假设检验
连续型资料 正态分布 对总体参数或几个总体 参数之差
不是对总体参数的检 验,而是对总体分布 的假设检验
三、χ2 检验的用途
适合性检验
是指对样本的理论数先通过一定的理
论分布推算出来,然后用实际观测值与理论
数相比较,从而得出实际观测值与理论数之
理论值(E)
696.75 232.25 929
O-E
+8.25 -8.25 0
由于差数之和正负相消,并不能反映实 际观测值与理论值相差的大小。
为了避免正、负相抵消的问题,可将实际 观测值与理论值的差数平方后再相加,也就是 计算:
∑(O-E)2
O--实际观察的频数 E--无效假设下的期望频数
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
105
4
0.5
0.4
0.3
f ( 2 ) 0.2
0.1
1
6
10
0 0 2 4 6 8 10 12 14 16
2
105
5
2. 2 检验的基本思想
例7-1 某院欲比较异梨醇口服液(试验组)和
氢氯噻嗪+地塞米松(对照组)降低颅内压的疗
效。将200例颅内压增高症患者随机分为两组,结
果见表7-1。问两组降低颅内压的总体有效率有无
α=0.05。
105
16
(2)求检验统计量值
T 1 110 147 /24 0 90 .4 0, 8T 12 10 94 .4 0 8 1.5 32 T 2 117 94 .4 0 8 8.5 3, 2T 22 2 6 1.5 3 2 1.4 2。 8
2(9990.48)2(513.52)2(7583.52)2(2112.48)2
(2) 2 分布的一个基本性质是可加性: 如果两个独立的
随机变量X1和X2分别服从自由度ν1和ν2的分布,
即 X1~ 21, X2~22,那么它们的和( X1+X2 )服从自由度
( ν1+ν2 )的 分 2 布,即 (X1 X2~)
。 2 1 2
( 3)2界 值 : 当 确 定 后 , 2分 布 曲 线 下 右 侧 尾 部 的 面 积 为 时 , 横 轴 上 相 应 的 2值 , 记 作 2, (见 附 表8)。 2值 愈 大 , P值 愈 小 ; 反 之 , 2值 愈 小 , P值 愈 大 。
105
18
二、四格表资料检验的专用公式
2
(adbc)2n
(ab)(ac)(bd)(cd)
2(9921575)220012.86
1049617426
105
19
2 分布是一连续型分布,而四格表
资料属离散型分布,由此计算得的统计
量 2 的抽样分布亦呈离散性质。为改善
统计量 2分布的连续性,则需行连续性
校正。
105
20
三、四格表资料检验2 T
(|ad-bc|-n)2n
c2
=
2
(a+b)(c+d)(a+c)(b+d)
105
21
四格表资料 2 检验公式选择条件:
n40, T5,专用公式;
n40, 1T5,校正公式;
105
14
由公式(7-1)还可以看出: 2值的大小还取决于 ( A T ) 2
个数的多少(严格地说是自由度ν的大小)。由于各
(
A
T
T
)2
T
皆是正值,故自由度ν愈大, 2 值也会愈大;所以只有考虑
了自由度ν的影响, 值2 才能正确地反映实际频数A和理论频
数T 的吻合程度。
检 2 验的自由度取决于可以自由取值的格子
90.48
13.52
83.52
12.48
12.86
(21)2 (1)1
105
17
以 =1 查 附表 8 的 2 界值表得 P 0.005。按 0.05检验水准拒绝 H 0 , 接受 H1 ,可以认为两组降低颅内压总体 有效率不等,即可认为异梨醇口服液降 低颅内压的有效率高于氢氯噻嗪+地塞 米松的有效率。
105
9
处理组 发生数 未发生数 合计
甲
a
b
a+b
乙
c
d
c+d
合 计 a+c b+d
n
图7-2 四格表资料的基本形式
105
10
基本思想:可通过 2 检验的基本公式
来理解。
2 (A T )2, (行 数 - 1 )(列 数 1 )
T
式中,A为实际频数(actual frequency), T为理论频数(theoretical frequency)。
差别?
105
6
表7-1 两组降低颅内压有效率的比较
组 别 n 有效人数
有效率(%)
试验组 104
99
对照组 96
75
合 计 200 174
95.20 78.13 87.00
105
7
表7-2 两组降低颅内压有效率的比较
组 别 有效
无效
合 计 有效率(%)
试验组 99(90.48) a 5(13.52) b 104 (a+ b)
105
13
检验统计量 2 值反映了实际频数与理
论频数的吻合程度。
若检验假设H0:π1=π2成立,四个格子的实际频 数A 与理论频数T 相差不应该很大,即统计量
不应该很大。如果 值2 很大,即相对应的P 值很小,
若 P,则 反过来推断A与T相差太大,超出了抽 样误差允许的范围,从而怀疑H0的正确性,继而 拒绝H0,接受其对立假设H1,即π1≠π2 。
95.20
对照组 75(83.52) c 21(12.48) d 96 (c+d)
78.13
合 计 174(a+c)
26(b+d)
200 (n)
87.00
105
8
本例资料经整理成图7-2形式,即有两 个处理组,每个处理组的例数由发生数和 未发生数两部分组成。表内有 9 7 9 5 2 5 1 四个 基本数据,其余数据均由此四个数据推算 出来的,故称四格表资料。
医学统计学-第七章---卡方检验
第一节 四格表资料的 2 检验
105
2
目的:推断两个总体率(构成比)是 否有差别 (和u检验等价)
要求:两样本的两分类个体数排列成四 格表资料
105
3
一、 2 检验的基本思想
1. 2 分布
(1) 2 分布是一种连续型分布:按分布的密度函数可给出
自由度=1,2,3,……的一簇分布曲线 (图7-1)。
数目,而不是样本含量n。四格表资料只有
两行两列,=1,即在周边合计数固定的情
况下,4个基本数据当中只有一个可以自由
取值。
105
15
3. 假设检验步骤
(1) 建立检验假设,确定检验水平。
H0:π1=π2 即试验组与对照组降低颅内压的总体有效率相等 H1:π1≠π2 即试验组与对照组降低颅内压的总体有效率不相等
105
11
理论频数由下式求得:
TRC
nR nC n
式中,TRC 为第R 行C 列的理论频数
nR 为相应的行合计
nC 为相应的列合计
105
12
理论频数 是T 根据检验假设 H0:,1且2用合
并率来估计 而定的。
如上例,无效假设是试验组与对照组降低颅内压的 总体有效率相等,均等于合计的有效率87%。那么 理论上,试验组的104例颅内压增高症患者中有效 者应为104(174/200)=90.48,无效者为 104(26/200)=13.52;同理,对照组的96例颅内压增 高症患者中有效者应为96(174/200)=83.52,无效者 为96(26/200)=12.48。