第13章 行×列表分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

四格表卡方检验的SAS程序



NOROW不给出列联表中各格的行百分数。 NOCOL不给出列联表中各格的列百分数。 NOCUM不给出频数表的累积频数和累积百分数。 NOPRINT不给出表格,但给出CHISQ、MEASURES或 CMH等语句所指定的统计量。 Trend指令系统对2×C频数表的C个百分率进行CochranArmitage趋势检验; WEIGHT语句:通常每个观察值提供数值1给频数计数,当 WEIGHT语句出现时,每个观察值提供的是该观察值的加权 变量值。该值必须非负,但可不必为整数。只能使用一个 WEIGHT语句,且该语句作用于所有的表。
四格表卡方检验

卡方检验的统计量是2值,它是每个格子实际频数 A与理论频数T差值平方与理论频数之比的累计和。 每个格子中的理论频数T是在假定两组的发癌率相 等(均等于两组合计的发癌率)的情况下计算出来 的,故2值越大,说明实际频数与理论频数的差别 越明显,两组发癌率不同的可能性越大。
( A T )2 2 T
配对计数资料的卡方检验
把每一份样本平均分成两份,分别用两种方
法进行化验,比较此两种化验方法的结果 (两类计数资料)是否有本质的不同;或者 分别采用甲、乙两种方法对同一批病人进行 检查,比较此两种检查方法的结果(两类计 数资料)是否有本质的不同,此时要用配对 卡方检验。
配对计数资料的卡方检验

配对计数资料的卡方检验

本例为配对设计的计数资料。计数资料的配对设计 常用于两种检验方法、培养方法、诊断方法的比较。 其特点是对样本中各观察单位分别用两种方法处理, 然后观察两种处理方法的某两分类变量的计数结果。 观察结果有四种情况,可整理成表13-4的形式:① 两种培养基的培养结果皆为阳性(a);②两种培 养基的培养结果皆为阴性数(d);③A培养基的培 养结果为阳性,B培养基的培养结果为阴性(b); ④A培养基的培养结果为阴性,B培养基的培养结果 为阳性(d)。
四格表卡方检验
不妨将H0看作 1 2两样本合并的发癌率(Pc
=80.33%),按合计率推算,本例第一行第 一列理论上的致癌数为:
91 71 71 80.33% 57.18 113
此结果称为理论频数,简称理论数,记为T。
由上述过程可推导出理论数的计算公式为:
n r nc Trc n


2
( b c 1) 2 bc
, 1
行×列表资料的2检验
前面介绍了两个样本率比较的2检验方法,
四格表卡方检验的SAS程序




下列选项可用于TABLES语句中“/”的后面: OUT=数据集:建立一个包含变量值和频数计数的输出数据 集。如果TABLES语句中不止一个请求式,数据集的内容相 应于TABLES语句中最后一个请求。 CHISQ对每层作c2检验,包括Pearson c2、似然比c2和 Mantel-Haenszel c2。此外还给出与c2检验有关的关联指标 包括Phi系数、列联系数和Cramer’s V。对于2×2表,给 出Fisher精确概率。 AGREE 进行配对c 2检验。 EXACT 对大于2×2的列联表计算Fisher精确概率。同时也 给出CHISQ选项的全部统计量。
合计 71 42 113
发癌率% 73.24 92.86 80.33
乙组 合计
四格表卡方检验


这四个格子是表中最基本的数据,其余数据 都是由这四个数据推算出来的,Leabharlann Baidu此上表资 料又被称之为四格表资料。 2检验的基本思想及计算步骤如下: 假设两总体率相等 H0: 1 ,即两总体发癌率相等; 2 H1: 1 2,即两总体发癌率不等; 0.05 。

四格表资料


定性指标分为有序的(如:疗效分为“治愈、显效、好转、 无效、死亡”)和名义的(如:血型分为“O、A、B、AB” 型)2类,对于每1个受试者来说,有序指标的观测结果只 能是该有序指标若干等级中的1级(如某人的疗效为“显 效”);名义指标的观测结果只能是该名义指标若干标志中 的1个(如某人的血型为B型),显然,无法像处理定量指 标那样去直接分析定性指标,故这类资料常被整理成列联表 的形式后再进行分析。 当表中只有2个定性指标时,称为2维列联表;有3个或3 个以上定性指标时,称为多维列联表。常用R、C表示2维 列联表的行数和列数,并称为R×C表;当R=C=2时,称为 2×2表(或四格表)。2×2表看起来很简单,但根据资 料所具备的条件有许多不同的处理方法。
四格表卡方检验的SAS程序



DATA=数据集:规定PROC FREQ语句使用的数据集; ORDER=FREQ,按频数递减顺序排列;ORDER=DATA, 按数据集中出现的顺序排列;ORDER=INTERNAL,按内 部值排列(缺省);ORDER=FORMATTED,按外部格式值 排列; Table语句指定构成表格的变量和表格结构。表格的结构由 变量个数和变量排列顺序决定,一个table语句允许列出多个 表格结构。PROC FREQ过程中可有多条TABLES语句, TABLES语句后可接多个表格请求式,每个请求式可包含任 何数量的变量,从而得到所需的表格。
四格表卡方检验的SAS程序




MEASURES对每层的二维表计算一系列关联指标及相应的 标准误,包括Pearson和Spearman相关系数,以及Gamma 和Kendall系数等。对于2×2表,还给出常用的危险度指标 及其标准误。 CMH 给出Cochran-Mantel-Haenszel统计量,可检验在调整 了TABLES语句中其它变量后,行变量与列变量之间的关联 程度。对于2×2表,FREQ过程给出相对危险度估计及其可 信区间,还给出各层关联度指标是否齐性的Breslow检验。 ALL 给出CHISQ、MEASURES、CMH所请求的全部统计量。 ALPHA=p给出检验水准。缺省为0.05。
四格表卡方检验
式中Trc即第r行第c列的理论数,nr为Trc所在
行合计,nc为Trc所在列合计。相应地,表中 的4个基本数据为实际频数,简称为实际数, 记为A。4个基本格子的实际数都不等于理论 数。 经上述推导,两样本率的差别就演绎为实际 数与理论数之间的差别。即:两样本率相差 越大,则实际数与理论数的差别就愈大。
四格表卡方检验的SAS程序


在SAS/STAT模块中FREQ、TABULATE和SUMMARY等过 程可用于分类资料的统计描述,其中FREQ过程兼具统计描 述和统计推断的功能,对分类变量计算频数分布,产生从一 维到n维的频数表和列联表;对于二维表,可进行2检验, 对于三维表,可作Mentel-Hanszel分层分析。FREQ过程是 SAS用于分析分类资料的一个常用过程。本节将先向大家介 绍FREQ过程的语句及其格式。 FREQ过程的语句基本格式如下: Proc freq data= order= ; Table 分类变量*分类变量/ <Ooptions>; Weight 变量; Run;
概述
前面已介绍了两个率比较的检验,在观察例数不够 大或拟对多个率进行比较时,检验就不适宜了,因 为直接对多个样本率作两两间的检验有可能增加第 一类误差。2检验可解决此类问题。 卡方检验是用途很广的一种假设检验方法,这里我 们主要学习它在分类资料统计推断中的应用,包括: 两个率或两个构成比比较的卡方检验;多个率或多 个构成比比较的卡方检验以及分类资料的相关分析 等。
四格表卡方检验


为了解不同致癌剂的致癌作用,分别在两组大白鼠皮肤涂以不同致癌 剂,观察不同致癌剂作用下的发癌率,结果如下表13-1,问两组发癌 率有无差别? 表13-1 不同致癌剂作用下大白鼠的发癌率
处理 甲组

发癌数 52 (57.18) 39 (33.82) 91
未发癌数 19 (13.82) 3 (8.18) 22

连续性校正公式

2分布是正态变量的一种分布。设 X 1 , X 2 ,, X k是k 2 X 12 X 22 X k2 , k 。 个独立的标准正态变量,则 2界值表就是根据这种连续性分布计算出来的。2 统计量计算公式实质上是正态近似法。分类资料是 间断性的,由此计算的2值不连续,尤其自由度为1 的四格表,求出的概率可能偏小,此时需要对2值 进行连续性校正,公式为
现有198份痰标本,每份标本分别用A、B两种培养基 培养结核菌,结果如下表。A培养基的培养率为 36.36%,B培养基的阳性培养率为34.34%,试问A、 B两种培养基的阳性培养率是否相等?
A

B + 48 (a) 20 (c) 68 24 (b) 106 (d) 130
合计
72 126 198
+ 合计
第13章 行×列表分析
学习目标




掌握四格表普通卡方检验和配对卡方检验方法以及相应的 SAS程序; 了解FREQ过程语句格式; 熟悉R×C表资料的分类类型以及相应的统计检验方法; 掌握行均分检验以及SAS程序; 掌握行列均为顺序变量的相关检验以及SAS程序; 掌握分层行列表的分析以及SAS程序; 掌握趋势卡方检验方法以及SAS程序; 了解卡方分割与卡方合并; 熟悉Fisher’s确切概率计算方法。
2
( A T 0.5) 2 T

2检验的应用条件
连续性校正主要针对四格表资料,尤其理论
数较小时,连续性校正不可忽略。 四格表2检验的应用条件为: 当n≥40且所有T≥5时,用普通的2检验,若 所得,改用确切概率法; 当n≥40但有1≤T<5时,用校正的2检验; 当n<40或有T<1时,不能用2检验,改用确 切概率法。
四格表卡方检验

差2分布表,确定P值并作出推论,以=1 查2界值表得: 2 2 0.05 3.84, 0.01 6.63
本例2=6.4777,故0.05<P<0.01,按水平 拒绝H0,接受H1,因而可以认为两种致癌 剂作用于大白鼠的发癌率有差别(统计学推 论)。结果说明乙组致癌剂的发癌率高于甲 组(结合样本率作实际推论)。
配对计数资料的卡方检验
比较两法结果有无差别,要着眼于两法结果不一致 的部分。表中观察变量是对子中两法的差值或差别, 由b和c两格数据来反映,总体中与b和c对应的数据 可用B和C表示(a格和d格表示两法差值为0,不予 考虑)。 (b c) 2 当≥40时, 2 , 1 bc 当<40时,需作连续性校正:
四格表卡方检验的SAS程序




如果TABLES语句缺省,则FREQ过程对数据集中的所有变 量都给出相应的一维频数表。不规定任何选项时,若需某变 量的一维频数,FREQ给出该变量每一水平的频数、累积频 数、频数的百分比和累积百分比;若需二维频数表,FREQ 产生交叉分组列表,即包括各格的频数、总频数的格百分数、 行频数的格百分数和列频数的格百分数。 请求式由一个或多个用“*”连接起来的变量名组成。几个 变量可放在括号中,如: TABLES A*(B C);等价于TABLES A*B A*C; TABLES (A-C)*D;等价于TABLES A*D B*D C*D;
四格表卡方检验的SAS程序
EXPECTED给出期望频数。
DEVIATION给出每格的实际频数与期望频数
的差值。 CELLCHISQ给出每格对总c2的贡献,即计算 每格的(实际频数-期望频数)2/期望频数。 CUMCOL给出累积列百分数。 NOFREQ不给出列联表中的格频数。 NOPERCENT不给出列联表中的格百分数。

四格表卡方检验

实际数与理论数的差值服从2分布:在H0条 件下,上述 A T 差值属于随机误差,可获得 统计量:
(52 57.18) 2 (19 13.82) 2 (39 33.82) 2 (3 8.18) 2 2 6.4777 57.18 13.82 33.82 8.18
相关文档
最新文档