医学统计学列联表检验
卡方检验与列联表
生物统计学·卡方检验与列联表
适合性检验
1. 零假设与备择假设 H0:实际观察次数之比符合9:3:3:1的理论比例。 HA:实际观察次数之比不符合9:3:3:1的理论比例。 2. 选择计算公式 由于本例的属性类别分类数 k=4, 自由 度df = k-1 = 4-1 = 3 > 1,故利用(1)式计算X2。
生物统计学·卡方检验与列联表
2检验基本概念
由(1)式计算的X2只是近似地服从连续型随机变量2分布。在对 次数资料进行2检验利用连续型随机变量2分布计算概率时, 常常偏低,特别是当自由度为1时偏差较大。 Yates(1934)提出了一个矫正公式,矫正后的X2值记为 X c2
X c2
i 1
适合性检验
适合性检验的意义 判断实际观察的属性类别分配是否符合已知属性类别分配 理论或学说的假设检验称为适合性检验。 H0:实际观察的次数与期望次数之间没有差异 HA:实际观察的次数与期望次数之间有差异 若X2 (或X2c)<20.05,P>0.05,表明实际观察次数与理论次数 差异不显著; 若20.05≤X2 (或X2c)<20.01,0.01<P≤0.05,表明实际观 察次数与理论次数差异显著; 若X2 ( 或X2c)≥20.01,P≤0.01,表明实际观察次数与理论 次数差异极显著 。
生物统计学·卡方检验与列联表
适合性检验
例2. 在研究牛的毛色和角的有无两对相对性状分离现象时 , 用黑色无角牛和红色有角牛杂交 ,子二代出现黑色无角牛192 头,黑色有角牛78头,红色无角牛72头,红色有角牛18头, 共360头。试 问这两对性状是否符合孟德尔遗传规律中 9∶3∶3∶1的遗传比例?
2
总和 a+b c+d N
X
医学统计学列联表检验
解读结果
分析结果
根据计算出的统计量及其他相关信息, 对结果进行分析。
VS
解释结果
解释分析结果,得出结论,并提出建议或 展望。
03
列联表检验的注意事项
数据的完整性
完整性
在进行列联表检验之前,需要确保数据集中的每个变量都有完整的观测值,避免出现缺 失数据或遗漏的情况。
处理缺失数据
如果存在缺失数据,可以采用插补、删除或其它适当的处理方法来处理,但应谨慎处理, 避免引入偏差或误导。
03 检验效能受到数据分布的影响:数据分布情况也 会影响检验效能,例如在极端分布情况下。
06
列联表检验的发展趋势与展 望
大数据时代的挑战与机遇
挑战
随着大数据时代的来临,数据量庞大、 维度高、复杂度增加,传统的列联表 检验方法面临处理能力和分析准确性 的挑战。
机遇
大数据提供了丰富的数据资源,为列 联表检验提供了更广泛的应用场景和 更深入的探索空间,有助于发现更多 隐藏在数据中的关联和规律。
05
列联表检验的局限性
数据来源的局限性
样本量不足
在某些情况下,由于样本量较小,列联表检验可能无 法得出可靠的结论。
数据质量不高
数据可能存在误差、遗漏或异常值,影响检验结果的 准确性。
数据采集方法不科学
数据采集方法可能存在偏差,导致数据不具有代表性 或存在偏倚。
分类变量的主观性
分类界限不明确
某些分类变量的界限可能模糊不清,导致分 类出现偏差。
02
Fisher's exact test
适用于小样本或低频数据,通过 计算概率来评估变量之间的关系。
03
似然比检验
用于比较两个分类变量的关联强 度,通过比较不同模型拟合优度 来评估变量之间的关系。
医学统计学列联表检验
les
22.14.
H0:“方法”与“疗效”独立,H1:“方法”与“疗效”不独立
双向有序表的检验
1.双向有序且属性相同表(配对四格表)的检验
两个分类变量的标志完全一样且有序排列相同,是相关样本 数据构成的列联表。
例: 用甲乙两种方法检查鼻咽癌患者93例,两法都是阳性的 45例,都是阴性的20例,甲法阳性但乙法阴性的22例,甲法阴 性但乙法阳性的6例。
(3)列联表分析
菜单 “Analyze”|“ Descriptive Statistics”|“ Crosstabs ” 命令
1
将“结果[result]”
点入“Row(s)”
框,将“吸烟情
况[smoke]”点
入“Cloumn(s)”
框。
点击“Statistics”
钮。
2
【Statistics钮】 用于定义所需计 算的统计量。
1
.010
Likelihood Ratio 7.925
1
.005
Fisher's Exact Test
.007
.004
N of Valid Cases 339
a. Computed only for a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The minimum expec 22.14.
独立。
疗法
不加牛黄 加牛黄 合计
疗效 治愈 未愈
合计
32
46
78
76
50
126
108
96
204
. 四格表独立性 检验
例1:某医院收得乙型脑 炎重症病人204例,随机 分成两组,分别用同样的 中草药方剂治疗,但其中 一组加一定量的人工牛 黄,每个病人根据治疗方 法和治疗效果进行分类, 得出如下表格:
医学研究中列联表资料统计分析方法的选择
比值 比( R ) 可信 区间(5 I)并检 验 O O 及 9 %C , R有 无统计学
意 义 , MatlHanzl: 用 ne — ese 检验 。 x
2 配 对 四格 表 资料
在病例对照和实验研究 中 , 常采用 1 配对设计 , : 1 分析某 暴露因素在病例组和对照组 中的总体分布有无差别 , 或分析 两种处理 、检验或诊 断方法结果 有无差别或 是否具有 一致 性 ,或分 析两个 指标 之间是 否有 关联 。分 析有 无差 别 , 用 Mc e ax 检验法 ; N m r: 分析是否具 有一致性 , K p a检验法 ; 用 ap 分析是 否有关联 , 用 检验法 , 并计算 P a o er n列联 系数( s C
险度( R ) R 及可 信区间 (5 I)并检验 R 9%C , R有 无统计学意
义 , MatlH e se 检 验 。 用 ne anzl —
1 . 3病例对照研究 四格表资料 分 析某暴露 因素在病例组 与对照组 中的分 布总体差别
有无统计学意义 , 用 检验。差别有无统计学 意义时 , 计算
表; 包含三个及 以上分类特征的 , 称为高( ) 多 维列联表 。 按分 类特征是否有 程度 或等级属性 ,分为无序 和有 序列 联表 , 二
维有序列联表又分为” 向有序 ” 双 向有序” 单 和” 两种情况 。在 二维列联表 中 , 个分类特征 均为二分类情 形时 , 两 称为 ”x 22 列联表 ”俗称 ” , 四格表” 一个分 类特征 为二分 类情形 , 一 ; 另 个为多分类情 形时 , 为”x 称 2 k列联表” ”x 或 k 2列联表” 两个 ; 分类特征均 为多分类情 形时 , 称为 ” x R C列联表 ”也 称” × , 行
生物统计学课件--10精确的列联表检验
问两种药物的疗效有无差异?
疗效 药物 A B 列总数Cj
痊愈 5 3 8
未痊愈 1 3 4
行总数Ri 6 6 12
将12个人分成两组,每组6个人,一共有几种 6!6!
将12个人分成两组,一组8个人,一组4个人,一共有几种组合?
C
8 12
12! 8!4!
疗效 药物 A
痊愈 5
未痊愈 1
行总数Ri 6
B
列总数Cj
3
8
3
4
6
12
将12在行间分解6和6、在列间分解为8和4的全部组合数为:
C
6 12
C12
8
12! 12! 6!6! 8!4!
而将12分解为5、1、3、3的组合方式共有:
12! 5! ! ! 13 3 !
由古典概率可知: 若随机现象的基本事件总数为n,事件数为m,则随机事件 A的概率为:
疗效 药物 A B 列总数Cj
痊愈 18 25 21.5 21.5 43
未痊愈 12 5 8.5 8.5 17
行总数Ri 30 30 60
实验数据符合Tij>5、n>30的要求,所以进行了卡方检验。 如果上述实验的数据不符合Tij>5、n>30的要求,即:
疗效 药物 A B 列总数Cj 5 3 8 4 4 1 3 4 2 2 6 6 12 痊愈 未痊愈 行总数Ri
N! 其中N分解成a、b、c、d四种情况的组合数为: a!b!c!d! 在实验中抽到上述组合 的概率为: N! ( a!b!c!d! a b)!(c d)!(a c)!(b d)! P a a N!a!b!c!d! C N b C N c
1、若a、b、c、d 中若有0出现时,计算出的 P>0.05时,差异不显著,算出的P<0.05时,差异 显著。 2、若a、b、c、d 无0出现时,则依次将a、b、c、 d 中最小的降为0,把各种情况下的概率P累加起 来,此时若P>0.05时,则差异不显著;若算出的 P<0.05,则差异显著,拒绝零假设。
列联表资料的SPSS分析课件(1)
实验研究一般四格表(2×2 列联表)资料分析目的主 要有 2 个,一是分析两个比率总体的差别有无统计学意义 或两样本某指标的分布(或构成)总体是否相同,二是分 析两个分类特征是否有关联。
例1. 某院欲比较异梨醇口服液(试验组)和氢氯噻嗪+地 塞米松(对照组)降低颅内压的疗效,将200例颅内压增 高患者随机分为2 组, 见表1。
Analyze → Descr iptive Statistics → Crosstabs Rows: A Columns: B Statistics : √ Kappa, √ McNemar, Continue OK
主要结果与解释:
McNemar 检验,P < 0.01,说明两种检查方法有差 别;Kappa 检验(SPSS 不给可信区间),Kappa = 0.824, P < 0. 01,说明两种检查具有较好的一致性。
所有T > 5,取Pearson c2 值或似然比c2 值,c2 =
21.038(或21.559),P < 0.01,认为3 种疗法有 效率的差别有统计学意义。
例6. 测得某地 5 801 人的 ABO 血型和 MN 血型结果,问两种血型系统之间是否 有关联?
表6 某地5 801 人 ABO 血型和 MN 血型分布
例5. 某医生研究物理疗法、药物治疗和外用膏 药三种疗法治疗周围性面神经麻痹的疗效,资料
见表5,问三种疗法的有效率有无差别?
表5 三种疗法治疗周围性面神经麻痹的疗效
疗法
物理疗法 药物疗法 外用膏药
合计
有效
199 164 118
481
无效
7 18 26
51
配对设计2×2列联表的精确检验方法及应用
布是不合理的,此时须采用二项分布的方法进行精确
检验。
配对设计2×2列联表的精确检验
在表1中,如果行变量和列变量的频数分布相同, 那么理论上b和C的比例应为1:1,即两种不一致情 况出现的概率相等,令P=1/2。由此,我们可以给出 无效假设Ho:P=1/2;备择假设H1:p=/:l/2。
令,.=min(b,C)。在Ho:P=1/2成立的前提 下,我们利用二项分布计算累积概率:
SPSSl3.0还提供了配对设计行×列表的精确检 验,此方法是2 X 2列联表的推广。与SAS9.0相比, 这是SPSSl3.0的优点。
参考文献
1.Benard Rosner.Fundamentals of Biostatistics.5th ed.Brooks/Cole, 2000.
2.孙尚拱.生物统计学基础.北京:科学出版社,2004. 3.舢an Agresti.An introduction to categorical data analysis.New York:
万方数据
Chinese Journal of Health Statisticst Oct 2006,V01.23,No;
tables A*B/agree;
weight freq;
SPSSl3.0及SAS9.0软件应用 SPSSl3.0软件应用 例1中令变量A为“电子血压计”,变量B为“水 银血压计”,变量A与B的取值为1=高血压,2=正 常血压;变量freq表示相应的频数(图1)。在统计分析 前,需要进行数据的预处理:用“weight cases”命令,以 #eq为加权变量进行加权。
York:John Wiley&Sons.1981.
(实际工作中通常为两样本率或构成比的比较),则采 用McNemar卡方检验。大多数的国内医学统计书籍
列联表详解
病人组的扁桃体切除率41/85×100%=48.24%,非 病人组33/85×100%=38.82%. P=0.134>0.05,按照α=0.05的水准,不拒绝H0,差 异无统计意义,不能认为两组人的扁桃体切除率有 差异。
• 观测结果一致性的Cohen Kappa评价
• 描述同一批研究对象两次定性观测结果的一致性,其仅可用于正方表(m×m)资料
• 其值介于-1~+1之间,越高一致性越强,一般认为Kappa≦0.4时,一致性较差;0.4≤Kappa≤0.6, 中度一致;0.6<Kappa≤0.8,较高度的一致;Kappa>0.8,有极好的一致性,最好接近0.9
• Cohen Kappa只能用于两次观测,Fleiss Kappa可用于多次观测。
• 例:甲乙两医生分别对同一批肺癌可疑者的X光片进行有无肺癌的诊断,试评价两人的诊断一致性。
甲乙两医生的一致率为(116*80)/246×100%=79.67% Kappa=0.589,说明两医生诊断结果中度一致。
• 有序分类资料的一致性度量
列联表详解
程学兵 2019.5.5
关联的卡方检验
列
联
四格表Fisher精确检验
表
பைடு நூலகம்
配对四格表McNemar检验
多维四格表Mantel-Haenszel-Cochran检验
交叉表和卡方
观测结果一致性的Cohen Kappa评价 有序分类资料的一致性度量
有序分类资料的相关分析 对于四个表,当n≧40且T≧5时,可以使用卡方检验
• 例:在刺五加注射液治疗冠心病心绞痛的临床试验评价中,需要根据患者的症状,体征和心电图的检查状况,对 患者的疗效进行综合评价。为了考核疗效评价标准及医生在试验中的执行状况,将审核医生判定的结果与执行医生 的判定结果相比较,试评价两名医生的评定结果一致性。(1无效,2有效,3显效)
列联表和卡方检验的定义及应用
列联表和卡方检验的定义及应用概述在统计学中,列联表和卡方检验是重要的分析工具。
列联表是用于比较两个或多个变量之间关系的一种表格形式,而卡方检验则是用于检验这些变量之间是否存在显著的关联性。
本文将介绍列联表和卡方检验的定义、原理和应用。
一、列联表1.1 定义列联表是一种展示两个或多个变量之间关系的二元频数表,用于比较不同组别之间的差异。
它通常由两个或多个分类变量和个体数(或频数)组成。
例如,我们可以用一个列联表来比较男女学生在一个考试中的得分情况,或者比较不同疾病在不同年龄段中的发生情况。
1.2 列联表的应用列联表可以用于研究任何两个或多个变量之间的关系。
它可以帮助我们发现隐藏在数据中的模式,并在研究中提供有关变量之间关系的信息。
列联表还可以用于产生一些其他的统计工具,例如卡方检验和残差分析等。
二、卡方检验2.1 定义卡方检验是一种用于分析列联表数据的统计方法。
它基于一个假设:假设两个变量之间不存在显著的关联性。
如果列联表数据显示这种关联性可能存在,则拒绝这个假设,说明两个变量之间存在显著的关联性。
2.2 卡方检验的原理卡方检验的原理很简单。
它比较观测值和期望值之间的差异,其中期望值是假设两个变量之间不存在关系时的期望结果。
卡方值则是这些差异之和的平方除以期望值的总和,其值越大就意味着观测值与期望值之间的差异越大,显著性水平也越高。
2.3 卡方检验的步骤卡方检验可以分为三个主要步骤。
第一,建立研究假设。
我们需要制定研究假设:H0假设两个变量之间不存在关系,H1假设两个变量之间存在关系。
如果我们无法拒绝H0假设,则可以认为数据中不存在两个变量之间的显著关联性。
第二,计算卡方值。
我们需要计算出卡方值。
从列联表中计算每个单元格的观测值和期望值,然后计算出所有单元格观测值和期望值之间的差异。
将这些差异加起来,并用期望值的总和除以卡方值。
如果卡方值越大,则差异越大,两个变量之间的关系也越显著。
通常,我们需要将卡方值与指定的显著性水平进行比较。
2373列联表卡方检验生物统计学
▪ 事件的独立性判断规则
P(AB) P(A) P(B)
▪ 每一分类属性组合 = 列联表的一个单元格
pij pi p j
Ri C j
n
n
Eij n pij n
Ri n
Cj n
R2值 反映实测频数与理论频数间总差异度
R
2
C (Oij Eij )2
▪ 统计假设 H0 各总体(R) 目标事件(C) 发生率相等
▪
统计思想
➢ 以样本率作为总体率的估计;
Eij
Oi
pj
Oi
Oj n
Oi
Oj n
➢ 计算理论频数和χ2统计量值;
R
2
C (Oij Eij )2
➢ χ2 检验与推断。
i1 j1
Eij
▪ 注意 2×2表数据 f=(r-1)(c-1)=1 n 、Eij
10
11
The End
12
7-3
7-非参数假设检验
列联表χ2检验
1、列联表
Contingency table R×C列联表 R×C表 ▪ 反映多重分类的频数分布表 ▪ 常用于定性/类数据分析 ▪ 将每个观测对象按行和列两方面的属性分类
行属性-R种分类;列属性-C种分类 ▪ 2×2表/四格表 fourfold table
2
列联表资料的统计检验
▪ 交叉分类资料 一个抽样总体
独立性检验 行/列所代表的分类属性是否相互独立?
▪ 多组分类资料 多个总体独立抽样
多个总体率的比较 多个分类在构成上是否一致?
χ2 检验 根据列联表数据,对实际频数与理论频数 的一致性进行检验。
3
2、列联表的χ2 独立性检验
列联表卡方检验的统计检验力表
列联表卡方检验的统计检验力表
列联表卡方检验是一种常用的统计方法,用于检验两个或多个分类变量之间是否存在相关性。
在进行卡方检验时,我们会计算一个卡方统计量,并将其与临界值比较,以确定是否拒绝原假设。
然而,仅仅通过拒绝或接受原假设并不能全面评估卡方检验的效果。
因此,为了更准确地评估卡方检验的能力,可以使用统计检验力(statistical power)。
统计检验力是指在给定显著性水平和特定的样本大小下,能够检测到实际存在的效应的概率。
较高的统计检验力意味着较低的类型二错误(即未能拒绝错误的原假设)的风险。
为了计算列联表卡方检验的统计检验力,我们需要知道以下几个因素:
1. 效应大小:即在实际中存在的两个或多个变量之间的相关程度。
效应大小可以用各种指标进行度量,如Cramer's V或phi系数。
2. 显著性水平:通常使用0.05作为判断是否拒绝原假设的标准。
较低的显著性水平意味着更严格的判断标准。
3. 样本大小:样本大小对统计检验力有很大的影响。
较大的样
本大小通常意味着更高的统计检验力。
基于以上因素,我们可以使用统计软件或查阅相关的统计表格来确定列联表卡方检验的统计检验力。
这些表格通常包含显著性水平、自由度和效应大小的不同组合,并给出相应的统计检验力。
在应用列联表卡方检验时,了解统计检验力是很重要的。
较高的
统计检验力可以提高我们对结果的信心,并帮助我们更准确地评估变量之间的相关性。
因此,在进行统计分析时,应该始终关注统计检验力,并尽可能提高其值。
第七章-X2检验(医学统计学)
四格表概率P的计算公式
(a+b)!(c+d)!(a+c)!(b+d)! P=────────────
a!b!c!d!n!
例8.8
表8.9 两型慢性布氏病的PHA皮试反应 ━━━━━━━━━━━━━━━━━━━
分型 阳性数 阴性数 合计 阳性率(%)
───────────────────
活动型 1(2.4) 14(12.6) 15 6.67
18.74
17.26
19.26
17.74
=10.262 ( 1 1 1 1 ) 18.74 17.26 19.26 17.74
=23.12
(2) 用专用公式计算
a=29、b=7、c=9 、d=28 、n=73
x2
(ad bc)2 n
(a b)(c d )(a c)(b d )
(29 28 7 9)2 73 23.12 36 37 38 35
3、查X2 界值表确定P值 按=1,查附表8,X2界值表得:
X20.05,1=3.84、 X20.01,1=6.63 、X20.005,1=7.88 X2 >7.88, P<0.005
4、推断结论 P<0.005, 按α=0.05,拒绝H0,接受H1,可认
为两总体阳性率有差别,铅中毒病人尿棕色素阳
x2
大。
可以根据X2分布原理,由X2值确定P值,从而作 出推论。
V=(行数-1)(列数-1)
四格表资料X2检验专用公式:
x2
(ad bc)2 n
(a b)(c d )(a c)(b d )
式中 :a、b、c、d为四个实际数,其中 a、c 为阳性数,b、d 为阴性数,n 为总例数。
列联表卡方检验的统计检验力表
列联表卡方检验的统计检验力表1. 介绍列联表卡方检验(chi-square test)是一种用于检验两个或多个分类变量之间是否存在关联的统计方法。
通过比较观察到的频数与预期频数之间的差异,来判断两个变量之间是否存在显著关联。
统计检验力表则是用来帮助我们解释和解读卡方检验结果的工具,它显示了不同样本量和效应大小下,卡方检验的统计检验力。
2. 统计检验力的意义统计检验力(statistical power)是指在给定的显著性水平下,能够正确地拒绝原假设的能力。
它通常取值为0到1之间,值越接近1,说明检验的能力越强。
检验力取决于样本量的大小、效应大小以及显著性水平的选择。
统计检验力表提供了在不同条件下检验力的数值,可以帮助我们了解和评估统计检验的可靠性和稳定性。
3. 检验力表的结构统计检验力表通常由一个二维表格组成,纵轴表示样本量的大小,横轴表示效应大小。
表格中的每个单元格都标示了在给定样本量和效应大小情况下的统计检验力数值。
通常,表格中的数值越大,表示检验的能力越强。
4. 不同样本量下的统计检验力4.1 小样本量在小样本量下进行卡方检验时,统计检验力通常较低。
这是因为小样本量对于检测出显著差异的能力较弱,易产生虚假的负向结果(即未能拒绝原假设)。
因此,在设计研究时需要尽量选择足够大的样本量,以增加检验的可靠性。
4.2 中等样本量在中等样本量下进行卡方检验时,统计检验力通常较高。
这意味着检验的能力较强,能够较好地检测出真实存在的差异。
中等样本量在实际研究中较为常见,因此在使用卡方检验时,如果能够控制好样本量的选择,将能够获得较为可靠和准确的结果。
4.3 大样本量在大样本量下进行卡方检验时,统计检验力通常接近1。
这意味着我们可以非常确信对于样本所代表的总体来说,所观察到的差异是真实存在的。
大样本量的优势在于能够更好地检测到小的效应和低频事件,同时可以降低虚假阳性的产生。
5. 不同效应大小下的统计检验力5.1 小效应大小在小效应大小下,即两个变量之间的关联较弱时,统计检验力可能较低。
医学统计学重点要点
医学统计学重点第一章绪论1.基本概念:总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取部分个体的某个变量值的集合.总体参数:刻画总体特征的指标,简称参数。
是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。
称m/n为事件A在n次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:包括参数估计和假设检验。
用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计.用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。
2.样本特点:足够的样本含量、可靠性、代表性。
3。
资料类型:(1)定量资料:又称计量资料、数值变量或尺度资料.是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。
每个个体都能观察到一个观察指标的数值,有度量衡单位.(2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料)①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由各分组标志及其频数构成。
包括二分类资料和多分类资料。
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容.多分类:将观察对象按多种互斥的属性分类②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单位的个数所得的资料。
4.统计工作基本步骤:统计设计、资料收集、资料整理、统计分析.第二章实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2。
误差分类:随机误差(抽样误差、随机测量误差)、系统误差、过失误差。
3。
实验设计的三个基本原则:对照原则、随机化分组原则、重复原则.4。
医学统计学列联表检验
多重比例的检验
定义
多重比例的检验通常用于比较三 个或三个以上互不重叠个体或组 群中两个或两个以上互不重叠事 件之间的比例是否存在显著差异。
应用
多重比例的检验被广泛应用于医 疗、环保、市场调查中等领域。
示例
例如,通过多重比例检验,可以 比较不同地理位置、不同职业群 体中患某种疾病的人数是否存在 显著差异。
定义
多重风险的检验通常用于比较 不止两组不同样本在各种因素 下发生某种风险的概率的差异。
应用
多重风险的检验可用于研究多 种风险因素对某种疾病或其他 指标的影响。
示例
例如,通过多重风险的检验, 可以研究不同地区、不同人口 群体的城市病人发生率,从而 探究多种典型风险因素的影响。
结语:列联表检验的应用前景
3
示例
例如,通过单个比例检验,可以比较某种 新抗生素与传统抗生素在治疗某种疾病上 的疗效是否存在显著差异。
双重比例的检验
1 定义
双重比例的检验通常用于比较两组任何性质均不同的个体中两个互不重叠的事件之间的 比例是否存在显著差异。
2 应用
双重比例的检验广泛应用于临床试验、药物研发、疾病预防等领域。
3 示例
应用
2
特定风险发生概率的差异,以确定两组的 风险是否存在显著的差异。
双重风险的检验有着广泛的应用场景,例
如评估特定药物的风险和效果、调查两种
环境因素在特定疾病发生中的作用等。
3
示例
例如,通过双重风险的检验,可以比较吸 烟和高血压对心脏病的风险影响,帮助制 定更有针对性的健康宣传计划。
多重风险的检验
单个风险的检验
医学统计学(列联表资料分析)
第10讲 列联表分析(一) 2学时
有 效 无 效 51(a) 9(b) 27(c) 24(d) 78 33
2
合计 60(a+b) 51(c+d) 111(N)
(51 24 9 27) 111 13.562 78 33 60 51
2
Department of Health Statistics 卫生统计学教研室
方
法
有效数 51 27 78
无效数 合计 有效率(%) 9 24 33 60 51 111 85.00 52.94 70.27
卫生统计学教研室
肝炎灵注射液 常 规 疗 法 合 计
Department of Health Statistics
(一)χ2检验的基本思想和基本公式
Χ2检验是判断实际频数和理论频数的差别是否由抽
2 2
=4.33 P<0.05,结论正好相反。可见,校正是必要的。
Department of Health Statistics
卫生统计学教研室
SPSS操作结果
结果输出
四格表实际频数与理论频数显示
实际频数
Department of Health Statistics
理论频数
卫生统计学教研室
教学内容与目标
理解 χ2检验的基本思想和基本公式;四格表确切 概率法的应用条件和检验方法。
掌握 完全随机设计和配对设计两样本率比较 的χ2检验;连续性校正的适用条件,并 灵活运用。
Department of Health Statistics
卫生统计学教研室
什么是列联表
列联表(contingency table)是将每个观察个体按 两个或两个以上的属性(分类变量)交叉分类时形成的 频数表。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
疗法
疗效
治愈
未愈
不加牛黄 32
46
加牛黄 76
50
合计 108
96
合计
78 126 204
“疗法”与“疗效”独立(即两组治愈率相同
) N=204>40
2
N (O11O22 O12O21 )2 O1O2O1O2
204(32 50 46 76)2 78126108 96
7.1969
2
2 0.01
2 2,2 (| Oij Eij | 0.5)2 N (| O11O22 O12O21 | 0.5N )2
i, j1
Eij
O1O2O1O2
df=1
(3) N<40或理论频数小于1,不能使用卡方检验,应使用Fisher精确 检验, 称为四格表确切概率法。
列联表的原假设是两个变量X和Y相互独立,计算卡方统 计量,当此统计量很大时否定原假设。
32
46
76
50
108
96
合计
78 126 204
列联表:观测数据按两个或更多属性(定性变量)分类 时所列出的频数表。
R×C列联表:分类频数排成R行C列的列联表。 2×2表:二行二列的列联表,又称四格表 。 列联表分析:使用列联表进行分类资料的检验。
※双向无序
列联表
单向有序 双向有序且属性不同
双向有序且属性相同
疗法
不加牛黄 加牛黄 合计
疗效
治愈
未愈
32
46
76
50
108
96
合计
78 126 204
双向无序四格表
(1) N≥40,理论频数≥5
2 2,2 (Oij Eij )2
i, j1
Eij
2 N (O11O22 O12O21 )2
O1O2O1O2
(2)N≥40,理论频数小于5(但≥1),用校正卡方统计量
第四章 列联表分析
4.1 列联表原理 4.2 Crosstabs 过程
4.1 列联表原理
例1:某医院收得乙型脑炎重症病人204例,随机分成两 组,分别用同样的中草药方剂治疗,但其中一组加一定 量的人工牛黄,每个病人根据治疗方法和治疗效果进 行分类,得出如下表格:
疗法
不加牛黄 加牛黄 合计
疗效
治愈
未愈
不吸烟 13
121
吸烟 43
162
目的:检验 H0 : 变量X与Y是独立的
输入数据
个案加权 列联表分析 结果分析
(weight by cases过程)(Crosstabs过程)
实现步骤:
(1).将数据录入SPSS并整理加工
定义变量
输入数据
保存
smoke:吸烟情况; result:结果; count:频数; 保存为:“吸烟与慢性支气管炎的关系.sav”
862 300 224
L
2102 499 340
262 499 46
1
1.921
2 0.05
(3)
7.815
df=(2-1)(4-1)=3,单侧概率P>0.05,
不能以α=0.05水准的单侧检验拒绝H0,
总体率的差异无统计意义,不能认为患鼻咽癌与血型不独立。
2 . 四格表独立性检验
例1:某医院收得乙型脑炎重症病人204例,随机分成两 组,分别用同样的中草药方剂治疗,但其中一组加一定 量的人工牛黄,每个病人根据治疗方法和治疗效果进 行分类,得出如下表格:
26
合计 189 224 340
46
合计 300 499 799
第一行合计数,第四列合计数最小,最小理论频数
E14
300 46 799
17.27
5
H0:“患癌”与“血型”独立,H1:“患癌”与“血型”
不独立 R,C
2 N(
Oi2j
O O i, j1 i j
1)
799
642 300 189
疗效 显效 好转
26
15
388
25
无效
3 5
合计
112 1155
注:1.双向无序列联表计算卡方统计量常用单侧检验。
2.若R×C列联表中理论频数出现小于1,或理论频数 出现小于5的格数超过总格数1/5时,必须增大样本例数; 或把理论频数太小的行,列与性质相近的邻行,列合并; 或删去理论频数太小的行,列。
1.双向无序表独立性检验
双向无序列联表:两个分类变量分类标志无数值大小 与先后顺序之分。
疗法
不加牛黄 加牛黄 合计
疗效
治愈
未愈
32
46
76
50
108
96
合计
78 126 204
设不加牛黄组治愈总体率为 ,加牛黄组治愈总体率为
检验
即 “疗法”与“疗效”独立
H0:X与Y独立(即两组总体率相同)
实际频数Oij与理论频数Eij的差异是随机误差, 用 Pearson卡方统计量反映实际Oij与理论Eij吻合程度
最小理论频数=最小行合计频数﹒最小列合计频数/总频数
3.多个总体率比较的卡方检验,若结论为拒绝原假设, 只能认为总体率之间不全等,不能说明任意两个总体率 有无差别,需做多重比较。
例: 判断患鼻咽癌与血型有无关系
分类 A型血 B型血 O型血 AB型血
患癌者 64
86
130
20
健康人 125 138 210
(2).个案加权 在SPSS系统中,列联表的输入多采用频数表格的方式, 如果要对此类数据进行卡方分析等,必须采用个案加权 (weight by cases)进行数据处理后才能使用相关的统 计方法。
菜单 “Data” | “Weight Cases”命令
点击“Weight Cases by单选框”,选中“Freqency ”: 选入“频数[count]”。单击OK钮
(3)列联表分析 菜单 “Analyze”|“Descriptive Statistics”|“Crosstabs ”命令
将“结果[result]” 点入“Row(s)” 框,将“吸烟情 况[smoke]”点 入“Cloumn(s)” 框。
点击“Statistics” 钮。
【Statistics钮】 用于定义所需计 算的统计量。
Eij
Oi. O. j N
2
N
R,C i, j1
Oi2j OiO
j
1
df (R 1)(C 1)
若 2 2 (df ) 拒绝 H0
注意:上述 检验适用于双向无序的 表(df≠1) 分组标志无数量大小和先后顺序之分。 分析的目的是考察两个属性之间是否独立。
疗法
中医 西医
痊愈
68 737
(1)
6.6349
H0 ()
统计结论:“疗法”与“疗效”不独立(即两组治愈率不 同专)业结论:加人工牛黄组疗效高于不加人工牛黄组的疗效。
4.2 Crosstabs 过程
例: 调查339名50岁以上的人的吸烟习惯与患慢性气管 炎病的数据而建立如下列联表,试探讨吸烟与患慢性气 管炎之间的关系。
组别 患病组 健康组