配对设计2×2列联表的精确检验方法及应用

合集下载

田间试验设计作业答案

田间试验设计作业答案

⽥间试验设计作业答案单项选择题1、对于已分组的⼤样本资料,计算其标准差宜采⽤A. 加权法随机法概率法直接法2、对于未分组的⼤样本资料,计算其⽅差宜采⽤概率法直接法加权法随机法3、投掷硬币5次,其中3次⾯值朝上的概率是B. 0.250.1250.31250.64、在直线回归分析和直线相关分析中,下列说法错误的是C. 相关系数可⽤回归系数表⽰,反之则不然直线回归分析的两相关变量可区分为⾃变量和依变量直线相关分析研究的变量呈平⾏关系两相关变量间的决定系数等于其相关系数的平⽅5、关于试验观测值的准确性和精确性,下列表述错误的是精确性低,准确性⼀定低精确性⾼,准确性⼀定⾼准确性低,精确性有可能⾼准确性⾼,精确性⼀定⾼6、若两相关变量的样本观测值共n对,则其相关系数的⾃由度为n-212n-17、表⽰抽样误差⼤⼩应使⽤⽅差极差标准误标准差8、在种⼦发芽试验中,下列事件中属于基本事件的是1粒种⼦发芽某1粒种⼦发芽⾄少有1粒种⼦发芽⾄多有1粒种⼦发芽9、某样本资料的观测值是:18、5、17,20、11、15、12,则该资料的全距为54152010、检验某品牌花⽣油中油酸含量是否⾼于45%应采⽤F. 适合性检验独⽴性检验⼀尾检验两尾检验11、两相关变量x与y,其SPxy=0.36,SSx=0.2,SSy=0.8,则其相关系数为0.90.60.0720.28812、在编号为1、2、3、…、10的10株⽟⽶中随机抽取1株,下列事件中属于复合事件的是取得编号是6的植株取得编号是偶数的植株取得编号是2的植株取得编号是4的植株13、在3次重复的温度和湿度两因素完全随机设计试验中,进⾏不同温度间的平均数的多重⽐较应采⽤u法SSR发14、在3次重复的单因素完全随机设计试验资料的⽅差分析中,总平⽅和分解为处理平⽅和、误差平⽅和处理平⽅和、重复平⽅和、误差平⽅和处理平⽅和、重复平⽅和重复平⽅和、误差平⽅和15、某棉花品种产量样本的算术平均数为150(kg),标准差为6(kg),则其变异系数是96%75%25%4%16、下列变量中属于离散型随机变量的是⽟⽶植株的⾼度⽔稻的产量奶⽜的产奶量油菜花瓣的颜⾊17、对于未分组的样本资料,计算其算数平均数宜采⽤概率法中值法加权法直接法18、若随机变量u服从N (0,1),则右尾概率为0.005的临界u值是1.642.583.471.9619、某样本n个观测值的乘积开n次⽅所得的值,即为该样本的⼏何平均数n次⽅根20、在拉丁⽅设计中,下列说法错误的是E. 拉丁⽅设计可以控制两个⽅向的环境条件变异对试验指标的影响重复数等于处理数与完全随机设计相同,拉丁⽅设计仅使⽤了试验设计的重复和随机排列的原则横⾏区组数等于直列区组数多项选择题21、在下列χ2检验中,需进⾏连续性矫正的是2×2列联表的独⽴性检验9 : 3 : 4的适合性检验9 : 3 : 3 : 1的适合性检验15 : 1的适合性检验4×3列联表的独⽴性检验22、关于t分布,下列表述正确的是t分布的密度曲线是左右对称的t的⾃由度是n-1t的取值范围是(-∞,+∞)当t=0时,t分布的密度函数取得最⼤值当⾃由度⼀定时,t分布两尾概率越⼤,临界t值的绝对值越⼤23、在直线回归分析和直线相关分析中,下列表述错误的是相关变量x与y的直线回归分析中,回归系数显著表明x与y⼀定呈直线关系两相关变量间的决定系数等于其相关系数的平⽅直线回归分析的两相关变量可区分为⾃变量和依变量对同⼀组数据来说,回归系数和相关系数的假设检验是不等价的相关系数可⽤回归系数表⽰,反之则不然24、下列表述正确的是⽤⼏何平均数⽐⽤算数平均数更能代表作物⽣产的平均增长率⽔平样本平均数是相应总体平均数的⽆偏估计值表⽰某⼀过程不同阶段的平均⽔平时,调和平均数优于算数平均数数据资料呈偏态分布时,中位数的代表性优于算数平均数对于同⼀资料来说,算数平均数≥⼏何平均数≥调和平均数25、常⽤于表⽰计量资料的统计图有圆图线图直⽅图条形图多边形图判断题26、离均差的平⽅和最⼩。

教学设计2:§8.3 列联表与独立性检验

教学设计2:§8.3 列联表与独立性检验

§8.3列联表与独立性检验教学目标1.通过实例,理解2×2列联表的统计意义.2.通过实例,了解2×2列联表独立性检验及其应用.教学知识梳理知识点一分类变量为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.知识点二2×2列联表1.2×2列联表给出了成对分类变量数据的交叉分类频数.2.定义一对分类变量X和Y,我们整理数据如下表所示:知识点三独立性检验1.定义:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”.简称独立性检验.2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.独立性检验解决实际问题的主要环节(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.思考独立性检验与反证法的思想类似,那么独立性检验是反证法吗?答案不是.因为反证法不会出错,而独立性检验依据的是小概率事件几乎不发生.教学案例案例一等高堆积条形图的应用例1.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.解:作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计426594 1 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.反思感悟等高堆积条形图的优劣点(1)优点:较直观地展示了aa+b与cc+d的差异性.(2)劣点:不能给出推断“两个分类变量有关系”犯错误的概率.跟踪训练1.研究人员选取170名青年男女大学生,对他们进行一种心理测验.发现60名女生对该心理测验中的最后一个题目的反应是:作肯定的有18名,否定的有42名.110名男生在相同的题目上作肯定的有22名,否定的有88名.试判断性别与态度之间是否有关系.解:根据题目所给数据建立如下列联表:肯定否定总计女生184260男生2288110总计40130170比较来看,女生中肯定的人数比要高于男生中肯定的人数比,因此可以在某种程度上认为性别与态度之间有关. 案例二 由χ2进行独立性检验 命题角度1 有关“相关的检验”例2.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了 500位老年人,结果如下:(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此在该地区老年人中,需要帮助的老年人的比例的估计值为70500×100%=14%(2)χ2=500×(40×270-30×160)2200×300×70×430≈9.967.因为9.967>6.635,所以有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关.反思感悟 用χ2进行“相关的检验”步骤 (1)零假设:即先假设两变量间没关系. (2)计算χ2:套用χ2的公式求得χ2值.(3)查临界值:结合所给小概率值α查得相应的临界值x α. (4)下结论:比较χ2与x α的大小,并作出结论.跟踪训练2.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率.(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?解:(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名. 所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),25周岁以下组工人有40×0.05=2(人).从中随机抽取2名工人,记至少抽到一名25周岁以下组工人的事件为A , 故P (A )=1-C 23C 25=710,故所求概率为710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人), 据此可得2×2列联表如下:所以得χ2=(a +b )(c +d )(a +c )(b +d )=100×(15×25-15×45)260×40×30×70=2514≈1.79.因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”. 命题角度2 有关“无关的检验”例3.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别.解:根据列联表中的数据,得到K 2=32468196196)2915716739(3922⨯⨯⨯⨯-⨯⨯=1.78.因为1.78<3.841,所以我们没有理由说“心脏搭桥手术”与“又发作过心脏病”有关,可以认为病人又发作心脏病与否与其做过何种手术无关. 反思感悟 独立性检验解决实际问题的主要环节(1)提出零假设H 0:X 和Y 相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值x α比较. (3)根据检验规则得出推断结论.(4)在X 和Y 不独立的情况下,根据需要,通过比较相应的频率,分析X 和Y 间的影响规律. 跟踪训练3.为了研究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高一在校生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关? 解:问题是判断学生选报文、理科是否与对外语的兴趣有关.列出2×2列联表如下:由公式得K 2的观测值k =361×(138×52-73×98)236×125×211×150≈1.871×10-4.因为1.871×10-4<2.706,故可以认为学生选报文、理科与对外语的兴趣无关. 课堂小结 1.知识清单: (1)分类变量. (2)2×2列联表. (3)等高堆积条形图. (4)独立性检验,χ2公式. 2.方法归纳:数形结合.3.常见误区:对独立性检验的原理不理解,导致不会用χ2分析问题. 当堂检测1.下面是一个2×2列联表:则表中a ,b 处的值分别为( ) A .94,96 B .52,50 C .52,60 D .54,52【答案】C【解析】∵a +21=73,∴a =52,b =a +8=52+8=60.2.某班主任对全班50名学生进行了作业量的调查,数据如下表:则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过( ) A .0.01 B .0.005 C .0.05 D .0.001【答案】C 【解析】由公式得χ2=50×(18×15-8×9)226×24×27×23≈5.059>3.841=x 0.05.∴犯错误的概率不超过0.05.3.(多选)若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( ) A .在犯错误的概率不超过0.01的前提下,认为吸烟和患肺癌有关系 B .1个人吸烟,那么这个人有99%的概率患有肺癌 C .在100个吸烟者中一定有患肺癌的人D .在100个吸烟者中可能一个患肺癌的人也没有 【答案】AD【解析】独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.4.某销售部门为了研究具有相关大学学历和能按时完成销售任务的关系,对本部门200名销售人员进行调查,所得数据如下表所示:根据上述数据能得出结论:有________以上的把握认为“销售人员具有相关大学学历与能按时完成销售任务是有关系的”. 【答案】99% 【解析】由公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得χ2=200×(57×65-42×36)299×101×93×107≈9.67.因为9.67>6.635=x 0.01,所以有99%以上的把握认为“销售人员具有相关大学学历与能按时完成销售任务是有关系的”.5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.(1)计算a ,b ,c (2)文科学生总成绩不好与数学成绩不好有关系吗? 解:(1)由478+a =490,得a =12. 由a +24=c ,得c =12+24=36. 由b +c =913,得b =913-36=877. (2)计算随机变量K 2的观测值k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,因为P (K 2≥5.024)≈0.025,所以在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.。

Fisher_精确检验及实例分析

Fisher_精确检验及实例分析

Fisher 精确检验检验两个二进制变量是否是独立的。

该检验可以分析 2x2 列联表,并产生精确的 p 值,以检验以下假设:· H0:行变量和列变量是独立的· H1:行变量和列变量是相关的Fisher 精确检验中的 p 值对于所有样本数量都是准确的,而当单元格计数较小时,用于检查相同假设的卡方检验的结果可能不准确。

例如,可以使用 Fisher 精确检验来分析下面的竞选结果列联表,以确定投票是否独立于投票人的性别。

候选人 A 候选人 B对于该表,Fisher 精确检验产生的 p 值为 0.263。

由于该 p 值大于常用的 a 水平,因此数据与原假设一致。

因而,没有证据表明在竞选中投票人的性别会影响其选择。

您还可以使用 Fisher 精确检验来确定两个总体比率是否相等。

对于此应用,原假设假定两个总体比率是相等的 (H0:p = p);备择假设可以是左尾 (p < p)、右尾 (p > p),或双尾 (p≠ p)。

Fisher 精确检验作为两个比率的检验十分有用,因为它对于所有样本数量都是准确的,而当事件数小于 5 时,以及试验数减去事件数的结果小于 5 时,基于正态近似的 2 个比率的检验可能不准确。

Fisher 精确检验基于超几何分布。

因此,p 值在表的边际合计中是有条件的。

实例:下面用R语言实现检验:> x=c(1,9,11,3)> alle<-matrix(x, nrow=2)> fisher.test(alle,alternative ="two.sided")Fisher's Exact Test for Count Datadata: allep-value = 0.002759alternative hypothesis: true odds ratio is not equal to 195 percent confidence interval:0.0006438284 0.4258840381sample estimates:odds ratio0.03723312通过> help(fisher.test) 来查看使用说明,alternative = "two.sided"是双侧检验,可以根据说明进行调整为单侧'"greater"' or '"less"'.fisher.test package:stats R DocumentationFisher's Exact Test for Count DataDescription:Performs Fisher's exact test for testing the null of independenceof rows and columns in a contingency table with fixed marginals.Usage:fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE,control = list(), or = 1, alternative = "two.sided",conf.int = TRUE, conf.level = 0.95,simulate.p.value = FALSE, B = 2000)Arguments:x: either a two-dimensional contingency table in matrix form, ora factor object.y: a factor object; ignored if 'x' is a matrix.fisher.test {stats}R Documentation Fisher's Exact Test for Count DataDescriptionPerforms Fisher's exact test for testing the null of independence of rows and columns in a contingency table with fixed marginals.Usagefisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE,control = list(), or = 1, alternative = "two.sided",conf.int = TRUE, conf.level = 0.95,simulate.p.value = FALSE, B = 2000)Argumentsx either a two-dimensional contingency table in matrix form, or a factor object.一个二维矩阵形式的列联表,或一个因素对象。

列联表资料的SPSS分析

列联表资料的SPSS分析
我们以实验研究列联表资料实例,运用SPSS 软件包进行统计分析,对操作过程和结果解释予 以详细说明,希望能给大家提供借鉴。
1
一、一般四格表(2 × 2 列联表)资料
实验研究一般四格表(2×2 列联表)资料分析目的主 要有 2 个,一是分析两个比率总体的差别有无统计学意义 或两样本某指标的分布(或构成)总体是否相同,二是分 析两个分类特征是否有关联。
别;Kappa 检验(SPSS 不给可信区间),Kappa = 0.824, P < 0. 01,说明两种检查具有较好的一致性。
可以看出, 两种检验结果是矛盾的。为什么呢? McNemar 法一般用于样本含量 n 不太大的资料,因只考 虑结果不一致的情况,而未考虑样本含量 n 和结果一致的 情况,所以,当 n 很大且结果一致率高时,不一致的数值 相对较小,容易出现有统计学意义的检验结果,但实际意 义可能不大。本例即是如此,应以一致性检验结果为准。 实际上,对于两种检验(查)方法或诊断方法结果进行分 析时,主要分析的也就是一致性。根据Kappa 值判断一致 性强度的标准尚有争议,一般认为:Kappa 值< 0.4 时, 一致性较差;在 0.4~0.75 之间有中度至高度一致性;> 0.75 时,有极好的一致性。
列联表资料的SPSS分析
在实验研究与基础实验研究中,所分析的指 标可以是定量的,也可以是定性的。其定量指标, 有时也转化成定性资料进行分析。这些定性资料 或由定量资料转化而来的定性资料,一般都整理 成列联表形式,根据资料性质和分析目的选择恰 当的分析方法进行统计分析,并将统计分析结果 与专业知识相结合, 做出合理的解释。
51
合计
260 182 144
532
有效率(%)
96.60 90.11 81.94

医学统计学案例分析

医学统计学案例分析

指标
表一 很好、好、一般、差的标准
很好

一般
疗效
治愈
显效
好转
住院日(天)
≤15
16-20
21-25
费用(元)
≤1400
1400-1800
1800-2200
差 无效 >25
>2200
表二 两年病人按医疗质量等级的频数分配
指标
年份
很好

一般

2001
160
380
20
40
疗效
2002
170
410
10
60
• 小结 • 卡方检验的用途: • (1)比较两个或多个独立样本频率或独立样本频率分布。
(2)比较配对设计两样本频率分布。 (3)单样本分布的拟合优度。、 注意事项:单项有序的行X列表,不宜用卡方检验比较两组效应,若做卡方检验能证明各处理组
的效应在构成比上有差异。即此种资料采用秩和检验。
秩和检验的适用条件
有统计学意义,更具调查所得的平均住院日与平均费用,可以认
为平均住院日2001年比2002年长,而费用2001年低于2002年。
请讨论以上检验方法是否正确?如不正确,问题出在什么地方?
• 1.本题的研究员用卡方检验对本题做了统计推断而我们知道卡方检验用于计数或计量资料, 而本题是一个等级资料。
• 2.单项有序的行X列表,不宜用卡方检验比较两组效应,若做卡方检验能证明各处理组的效应 在构成比上有差异。

水平上不拒绝H0,尚不能认为两年的疗效有差异。
对于住院日和费用的步骤如上述;由SPSS系统得住院日的数据 Z=2.775 P=0.006 P< α 在α=0.05的水 平上拒绝H0,尚不能认为两年的住院日没有差异。由SPSS系统得费用的数据 Z=2.589 P=0.010 P< α 在α=0.05的水平上拒绝H0,尚不能认为两年的没有差异。

x2检验第六版

x2检验第六版

第二个表显示列联表的资料,一个期望频数小于5(4.8)
皮尔逊卡方值x2(pearson chi-square)
连续校正x2(continuity correction),仅在2×2表计 算
似然比值(likelylihood ratio) 费歇尔精确检验(fisher‘s exact test) 线形组合(linear-by-linear association) 有效例数(N of valid cases)
如果想对其中的两个率进行相互比较时, 最好能够采用更加复杂的分类数据模型, 如对数线性模型或者logistic回归模型进行 分析,采用列联表分割等方法只能得到近 似的结果,最好不要使用。
四、配对设计
(一)配对设计四格表(2×2列联表)
计数资料配对设计的应用: 可用于两种检验方法、培养方法、诊断
有效例数(N of valid cases)
结论:有0个格子的期望频数小于5,最小 期望频数为6.56,符合pearson x2检验的要 求。
皮尔逊卡方值x2=4.130,p=0.042<0.05, 差别有统计学意义。
四格表校正卡方检验
例题9-3
步 骤:
1、定义变量,输入数据 设三个变量: 处理(r):即行号 状况(c):即列号 频数(f)
Rows框:sex columns框:x0 cells: percentages:选择row、column、total →continue→ok
Cells 按钮
首先是处理记录缺失情况报告,可见24例 均为有效值。
第九章 χ2 检 验(卡方检验)
χ2检验(chi square test)是以χ2 分布为理论基础的检验 方法。主要用于分类资料(列联表资料,contingency table)的假设检验。也用于频数分布的拟合优度检验 (goodness of fit).

二乘二列联表解题步骤

二乘二列联表解题步骤

二乘二列联表解题步骤二乘二列联表解题步骤:第一步:明确题意,寻找题干中的两个变量。

在开始列联表解题之前,我们需要先明确题意,找到题干中的两个变量。

例如:一项调查问卷中,记录了被调查者的性别和最喜欢的球类运动。

这个例子中,两个变量分别是“性别”和“最喜欢的球类运动”。

第二步:绘制二乘二列联表。

根据题目所给的两个变量,绘制一个二乘二的列联表。

在第一列和第一行填上两个变量的取值,例如:在性别这一列填上“男”和“女”,在最喜欢的球类运动这一行填上“足球”和“篮球”。

第三步:统计频数。

根据题目的要求,统计出每个交叉分类下的频数,即每个区域内对应的样本数。

例如:在“男性喜欢足球”的区域内,有18位男性被调查者最喜欢足球。

第四步:计算比例。

以每个交叉分类下的频数为基础,计算出每个分类下的比例。

例如:在“男性喜欢足球”的区域内,男性喜欢足球的比例为36%。

第五步:绘制百分比列联表。

把第四步中计算出的比例填写到表格中,以便更好地了解两个变量之间的关系。

例如:在二乘二列联表中,“男性喜欢足球”的区域内,男性喜欢足球的比例为36%。

第六步:进行分析。

通过表格中不同分类下的比例,可以观察到两个变量之间的关系。

例如:在某项调查问卷中,男性喜欢足球的比例高于女性喜欢足球的比例。

这是一个比较明显的性别和运动喜好的关系。

以上就是二乘二列联表解题的基本步骤。

需要注意的是,在进行统计和计算时,应该准确无误地记录数据,避免出现数据误差。

同时,在分析结果时,应该把数据放在一个较大的背景中进行思考,避免单纯地从个别数据中得出结论。

2_2列联表资料的统计分析与SAS软件实现

2_2列联表资料的统计分析与SAS软件实现

本例关心的结果是“复位是否满意的患者创伤 性关节炎发生频率之间的差异有无统计学意义”,其 对应的相对危险度 ( relative risk , RR) 应看第 1 列 风险所对应的结果 。RR = 0. 275 0 ,即复位满意组 创伤性关节炎发生频率是复位不满意组创伤性关节 炎发生频率的 0. 275 0 倍 ,总体 RR 的 95 %置信区 间为[ 0. 101 4 ,0. 745 8 ] 。 若在 SA S 程序中将两行数据交换 ,则对应的 RR = 3. 636 4 ,其 95 %置信区间为[1. 340 9 ,9. 861 4] , 即复位不满意组创伤性关节炎发生频率是复位满意 组创伤性关节炎发生频率的 3. 636 4 倍 ,总体 RR 的 95 %置信区间为[ 1. 340 9 ,9. 861 4 ] 。
95 %置信限
0. 002 9 0. 002 9 0. 101 4 0. 101 4 1. 237 5 1. 237 5
0. 380 8 0. 380 8 0. 745 8 0. 745 8 54. 998 2 54. 998 2
·680 ·
中西医结合学报 2009 年 7 月第 7 卷第 7 期 Journal of Chinese Integrative Medicine , J uly 2009 , Vol . 7 , No . 7
·679 ·
Fisher 精确检验
单元格 (1 ,1) 频数 ( F ) 左侧 Pr < = F 右侧 Pr > = F 表概率 ( P ) 双侧 Pr < = P
34 0. 981 4 0. 034 1 0. 015 6 0. 063 0
由于χ2 = 3. 866 7 , P = 0. 049 3 ,似乎表明两组 不同资历医师的骨折漏诊情况不同 ,即 3 年以下医 师资历的接诊医师的漏诊率 (11. 9 %) 大于 3 年以上 医师资历的接诊医师 (7. 5 %) 。 但这样下结论是不够科学严谨的 ! 因为 χ2 检 验所依赖的理论依据是χ2 分布 ,而此分布原本是用 来描述连续性随机变量变化规律的 ,用来分析定性 资料纯属一种近似计算 ,对资料有一些特殊要求 。 本例虽然总样本量大于 40 ,也没有小于 5 的理论频 数 ,但计算所得到的检验统计量值刚超过最低临界 值 3. 841 ,此时 ,应以校正 χ2 检验结果或 Fisher 精 确检 验 结 果 为 准 , 即 校 正 χ2 = 3. 363 3 , P = 0. 066 7 ;或采用 Fisher 精确检验结果 P = 0. 063 。 对本例而言 ,正确的专业结论是 :虽然 3 年以下医师 资历的接诊医师的漏诊率 (11. 9 %) 大于 3 年以上医 师资历的接诊医师 (7. 5 %) ,但二者之间的差异没有 统计学意义 ,可认为其漏诊率基本相同 。

基于配对实验设计的2×2列联表中相对差的统计推断

基于配对实验设计的2×2列联表中相对差的统计推断
ZHAO h n p n ’ 、 rJZh n - Z a - i g ’ . 【 o g l n i
( . eatet f ahmac , ag ui nvr t,h mai 6 00 C ia 1D pr n te t sHunh a U iesyZ u da 4 3 0 , hn ; m oM i i n 2 D pr et f t i c, u a nvri , uaig60 9 , h a . e at n a s sY a nU e t K r n 5 0 1C i ) m o S tt i n i sy n n
第 4期
20 0 8年 l O月
基础 理论 研究 ・
基于配对实验设计的2 2 × 列联表中相对差的统计推断
赵 占平 , 忠林 吴
( .黄淮学 院 数学 系 , 1 河南 驻 马店 4 30 ;.云南大 学 统计系 , 6002 云南 昆明 6 0 9 ) 50 1

要 : 了消除混杂现 象中讨厌参数 的影 响 , 为 更有效地研 究因素间的关联性 , 2配对 实验设计是 一种 2×
和 平 均 区 间 宽度 , ld统 计 量 和 S oe的效 果基 本 相 同且 令人 满 意 , 比 之 Wad统 计 量 比 Soe统 计 量 效 果 稍 Wa cr 相 l cr
差一点 .
关键词 : 2列联表 ; 2× 逆抽样 ; 对差 ; ld统计 量 ;cr 相 Wa Soe统计 量
I r e v i h b v i ai n,h n e e s mpi g me o o E o e r l t e dfe n e i e p o e s o n od rt a od t e a o e st t o u o t e i v r a l td f rMI ft eai i r c n t r c s f s n h h v e h

卫生统计学知识要点与习题集

卫生统计学知识要点与习题集

卫生统计学学习指导与习题集一、选择题(一)A1题每一道题下面有A、B、C、D、E五个被选答案,请从中选择一个最佳答案。

1.下面的变量中,属于分类变量的是(B)A.脉搏B.血型C.肺活量D.红细胞计数E.血压2. 下面的变量中,属于定量变量的是(B)A.性别B.体重C.血型D.职业E.民族3.某人记录了50名病人体重的测定结果:小于50kg的13人,介于50kg和70kg间的20人,大于70kg的17人,此种资料属于(A)A.定量资料B.分类资料C.有序资料D.二分类资料E.名义变量资料4.上述资料可以转换为(C)A.定量资料B.分类资料C.有序资料D.二分类资料E.名义变量资料5.若要通过样本作统计推断,样本应是(C)A.总体中典型的一部分B.总体中任一部分C.总体中随机抽取的一部分D.总体中选取的有意义的一部分E.总体中信息明确的一部分6.统计量(E)A.是统计总体数据得到的量B.反映总体统计特征的量C.是根据总体中的全部数据计算出的统计指标D.是用参数估计出来的E.是由样本数据计算出的统计指标7.因果关系(C)A.就是变量间数量上的联系B.可以用统计方法证明C.必定表现为数量间的联系D.可以通过单独考察两个变量间关系得出E.可以通过变量间数量上的联系来证明(二)A2型每一道题以一个小案例出现,其下面都有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。

1.教材中提及美国人1954年实施了旨在评价Salk疫苗预防小儿麻痹或死于脊髓灰质炎效果的临床试验。

有180万儿童参与,约有1/4参与者得到了随机化。

这180万儿童是(C)A.目标总体B.研究总体C.1份样本D.1份随机样本E.180万份样本2.上述试验最终肯定了索尔克疫苗的效果。

请问此结论是针对(C)而言。

A.180万儿童B.每个儿童C.所有使用索菲克疫苗的儿童D.所有儿童E.180万儿童中随机化的1/4二、是非题1.定量变量、分类变量和有序变量可以相互转换。

《独立性检验》2×2列联表

《独立性检验》2×2列联表
2
作为检验在多大程度上可以认为“两个变量 有关系”的标准 。
独立性检验
吸烟与呼吸道疾病列联表 患病 不患病 总计 吸烟 37 183 220
不吸烟 总计
通过公式计算
21 58
274 457
2
295 515
51537 274 183 21 11.8634 220 295 58 457
在不吸烟者中患呼吸道疾病的比重是
在吸烟者中患呼吸道疾病的比重是
问题1:判断的标准是什么? 吸烟与不吸烟,患病的可能性的大小是否有差异? 说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大
问题2:差异大到什么程度才能作出“吸烟与患 病有关”的判断? 问题3:能否用数量刻画出“有关”的程度?
2
独立性检验
已知在 H 0成立的情况下,
P(
2
6.635) 0.01
2
大于6.635概率非常小, 即在 H 0 成立的情况下, 近似为0.01
2 现在的 =11.8634的观测值远大于6.635, 出现这样的观测值的概率不超过0.01。
故有99%的把握认为H0不成立,即有99%的把 握认为“患呼吸道疾病与吸烟有关系”。
独立性检验
通过数据和图表分析,得到 结论是:吸烟与患呼吸道疾 病有关 结论的可靠 程度如何?
H0: 吸烟和患呼吸道疾病之间没有关系
吸烟与呼吸道疾病列联表 患呼吸道疾 不患呼吸道 病 疾病 吸烟 不吸烟 总计 a c a+c b d b+d
总计 a+b c+d a+b+c+d
a 吸烟的人中患肺癌的比例: a b c 不吸烟的人中患肺癌的比例: cd

2x2列联表公式

2x2列联表公式

2x2列联表公式2x2列联表,又称为双因素鉴别表,是一种统计分析的有用工具。

它是一种可以比较不同变量之间关系的表格。

它的主要目的是通过在一个表格中收集和整理统计数据,以直观的方式描述和分析数据之间的关系。

2x2列联表可以用于描述某种现象的频率,也可以用于推断实验,以及其他许多类似的统计分析。

2x2列联表的历史2x2列联表可以追溯到17世纪,当时它被用来记录不同类型的天气状况,试图探究天气和某些疾病之间的关系。

18世纪,它被用来记录来自医学实验的数据,以便比较一组实验中的结果。

随着统计学的发展,列联表的应用也越来越广泛,在现代统计学中,2x2列联表仍然是一种重要的统计分析工具。

2x2列联表的结构2x2列联表由两行和两列组成,类似于二维数组。

每一行表示一个变量,每一列表示另一个变量。

第一行和第一列用于记录变量分类,第二行和第二列用于记录实际发生频率。

示例下面是一个2x2列联表,用来比较在不同学习方法下学生的学习效果。

学习方法t学习效果tt单独学习t优秀t不及格t小组学习tt优秀t不及格t20t40t20t10在单独学习中,有20个学生取得优秀成绩,40个学生不及格;在小组学习中,有20个学生取得优秀成绩,10个学生不及格。

从这个2x2列联表可以看出,小组学习的学习效果比单独学习要好得多。

2x2列联表的用途2X2列联表的主要用途在于比较和分析两个或多个不同变量之间的关系,其中一个变量是自变量,另一个变量是因变量。

它经常被用来解释病毒的传播机制、调查流行病的原因,以及研究疾病的流行状况等;它也可以用于从实验中发现有效的治疗方法,或从流行病学研究发现新的治疗方法。

2x2列联表的优点2X2列联表最大的优点是它能够清楚地描述和分析数据之间的关系。

它具有简单明了、直观易懂和可视化等特点,使统计分析更加容易。

另外,2x2列联表对较大数据集的分析也具有一定的优势,因为它可以将一大批数据整理成一个可读的表格,使人们可以更快地看出数据之间的相关关系。

第九章卡方检验

第九章卡方检验

2
R C
n i1 j1
A2 ij
ni m j
1
➢建立检验假设,确立检验水准:
❖ H0:儿童和成人急性白血病患者血型总体分布相同 ❖ H1:总体分布不同
❖ 检验水准=0.05
➢计算检验统计量
分组
A型 B型
O 型 AB 型
合计
儿童
30
38
32
12
1
ij
j1 nim j
❖ 持不校正的观点:连续性校正后P值有过分保 守之嫌
❖ 当结果矛盾时下结论要慎重.
第三节 独立样本R×C
列联资料的2检验
表9-5 独立样本R*C列联表
处理
属性
合计
1
2

C
1
A11(T11) A12(T12) ┅ A1C(T1C) n1(固定值)
2
A21(T21) A22(T22) ┅ A2C(T2C) n2(固定值)
❖ H0:π1=π2=π3 三种治疗方法的疗效相同 ❖ H1:三种治疗方法的疗效不同或不全相同
❖ 检验水准=0.05
2
R C
n i1 j1
A2 ij
ni m j
1 =32.74
(3 1)(2 1) 2 P<0.005
……可以认为三种药物的疗效不同或不 全相同
多个样本率比较的2分割
当2检验结论为拒绝H0,只能说明各组总体
概率不全相同,即多组中至少两组的有效概 率不同,但并不是多组有效概率彼此之间均 不相同。因此需进行两两比较。本例有3个 处理组,共需要3种对比。 若检验水准还取 为0.05,将增大I型错误。 α’=α/3=0.017
R×C列联表检验时的注意事项

如何用SAS软件正确分析生物医学科研资料XVI.用SAS软件实现2×2列联表资料的统计分析

如何用SAS软件正确分析生物医学科研资料XVI.用SAS软件实现2×2列联表资料的统计分析

如何用SAS软件正确分析生物医学科研资料XVI.用SAS软件实现2×2列联表资料的统计分析关雪;胡良平;王琪【摘要】@@ 分析定性资料时,首先应正确判断资料所对应的列联表类型;其次根据不同的分析目的,并结合统计分析方法的应用条件,选择合适的分析方法.通常,列联表可分为:2 × 2表(4 类)、R × C 表(5 类)和高维列联表(3 类)以及具有重复测量因素的高维列联表[1].本期主要介绍2 × 2 列联表资料统计分析的 SAS 实现.【期刊名称】《中国医药生物技术》【年(卷),期】2012(007)002【总页数】5页(P154-158)【作者】关雪;胡良平;王琪【作者单位】100850,北京,军事医学科学院生物医学统计学咨询中心;100850,北京,军事医学科学院生物医学统计学咨询中心;100850,北京,军事医学科学院生物医学统计学咨询中心【正文语种】中文编者按生物统计学是生物学领域科学研究和实际工作中必不可少的工具,在分子生物学迅速发展的今天,生物统计学更显示出了它的重要性。

实验设计与数据统计分析是现代生物学的基石,是生物学研究者检验假说、寻找模式、建立生物学理论的有利工具,也是生物学研究者探索微观和宏观生物世界的必备基础知识。

对于每天甚至是每时每刻涌现的大量的、以天文数字计量的分子遗传数据,必须借助统计学知识加以分析处理,才能从中获得有意义的信息。

“生物多样性数据分析”是开展生物多样性研究的一个重要方面,数据分析能力的高低极大地影响着我们对各种生态学现象认识的深度和广度。

现在,电子计算机的普及使得生物统计分析过程大大简化,生物统计分析软件包的普及将生物统计学从统计学家的书本里解放了出来,简化了生物统计分析过程,使之成为生物学研究者的常用工具。

本刊特邀军事医学科学院生物医学统计学咨询中心主任胡良平教授,以“如何用 SAS 软件正确分析生物医学科研资料”为题,撰写系列统计学讲座,希望该系列讲座能对生物医学科研工作者有所帮助。

案例分析2×2列联表卡方检验的SPSS操作

案例分析2×2列联表卡方检验的SPSS操作

案例分析2×2列联表卡方检验的SPSS操作一.案例(案例来源:中华护理杂志2017年8期)经鼻胃管喂养临床实践指南的临床应用方法:以渥太华证据转化模式为理论框架,从指南中筛选相关证据,构建新的鼻饲护理流程,在实施干预后,通过护士(31名)的鼻饲护理知识得分和对新流程的执行率及患者的鼻饲并发症发生情况等来评价指南应用效果。

对于患者鼻饲并发症的情况,分为实验组(26例)和对照组(25例)来实行,实验组接受新的鼻饲护理流程,对照组接受传统护理流程。

补充:为了解培训前后护士对鼻饲知识掌握情况编制基于指南的护士鼻饲护理知识问卷,问卷包括13个内容,总分为33分,得分越高,说明对鼻饲知识掌握越好。

二.解析若想检验培训前后护士对鼻饲知识掌握情况是否有差异,则应对培训前后鼻饲护理知识得分采用配对t检验比较。

护士对新流程的执行情况不需要采用软件进行分析,通过人员观察就可以判断情况的好坏。

两组患者鼻饲并发症发生情况采用频数、百分率做统计描述,统计推断根据情况采取卡方检验、连续性校正卡方检验或Fisher精确检验。

注:配对样本t检验我们已经介绍过,在这里只进行简单回顾,重点看卡方检验的操作步骤以及什么时候采用皮尔逊卡方检验结果,什么时候采用校正后的卡方检验结果。

三.SPSS操作1.培训前后护士对鼻饲护理知识的得分差异比较(1)操作步骤将培训前得分和培训后得分放入配对变量,点击确定。

(2)结果解读由结果得:t=-11.649,P=0.000<0.05,应该拒绝原假设,认为培训前后护士对鼻饲护理知识的得分存在显著性差异。

并且培训后的平均得分高于培训前的平均得分,说明经鼻胃管喂养临床实践指南是有效果的。

2.流程执行情况护士对新流程的执行情况较好,其中鼻饲插管/重新置管护理记录单、鼻饲喂养记录单的填写过程及结果的执行率为100%,执行率最低的为粘贴床头角度测量卡,占85.59%。

见表1。

3.两组鼻饲并发症发生率及固定效果比较该研究共给出胃潴留,腹泻,便秘,反流与误吸,吸入性肺炎,水电解质紊乱,上消化道出血,胃管移位,意外拔管,固定处皮肤受损10种并发症,我们以其中两种为例对两组的并发症发生率进行比较,其他并发症发生率间的比较操作过程类似。

分层配对设计下J个2X2列联表的统计推断的开题报告

分层配对设计下J个2X2列联表的统计推断的开题报告

分层配对设计下J个2X2列联表的统计推断的开题报告1. 研究背景和意义:数据分析在社会和经济领域中扮演着越来越重要的角色。

尤其是在医学和生物学,数据分析在研究方面起着举足轻重的作用。

其中,列联表是统计学中最基本的工具之一,用于研究两个或更多离散变量之间的关系。

分层配对设计是一个控制混淆因素的强有力的设计类型,通常用于临床试验或其他实验设计中。

因此,研究采用分层配对设计下J个2X2列联表的统计推断是非常必要且有意义的。

2. 研究目的:本论文旨在研究利用分层配对设计下J个2X2列联表的统计推断方法,以探究两个或更多离散变量之间的关系,并进行科学分析和解释。

3. 研究内容和方法:本研究将分析分层配对设计下J个2X2列联表的统计推断方法,包括假设检验,置信区间估计和效应大小估计。

在假设检验中,我们将使用卡方检验和Fisher精确检验方法。

在置信区间估计方法中,我们将使用Wilson估计量和Jeffrey估计量。

在效应大小估计方面,我们将采用Cramer's V和Phi系数等方法。

4. 预期研究成果:本研究旨在通过对分层配对设计下J个2X2列联表的统计推断进行深入研究,为医学、生物学和其他相关领域提供有用的信息和指导。

我们预计将形成一种有效的统计方法,并探讨各种变量之间的关系,为研究者提供更多的数据分析和解释方案。

5. 论文结构:本论文的结构将包括引言、文献综述、理论基础、实证研究、实验结果分析和结论等部分。

其中,引言部分将简述本研究的背景、研究目的和方法。

文献综述将提出先前的相关研究,并概述已知的研究成果。

理论基础将介绍分层配对设计和列联表分析的基本概念。

实证研究将描述我们按照所提出的方法进行的数据分析和统计推断。

实验结果分析将对研究结果进行解释和分析。

最后,在结论中,我们将总结研究的主要发现,并提出未来的研究方向和发展趋势。

2乘以2卡方公式推导过程

2乘以2卡方公式推导过程

2×2卡方公式推导过程2×2卡方公式(2x2 Chi-square formula)是用于计算两个分类变量之间的卡方检验的统计公式。

它适用于只有两个分类水平的变量,形成一个2×2的列联表。

下面是2×2卡方公式的推导过程:假设我们有两个分类变量,分别为变量X和Y,每个变量都有两个分类水平,分别记作X₁、X₂和Y₁、Y₂。

我们可以建立一个2×2的列联表来描述这两个变量之间的关系:X₁ | a | b | a + b |X₂ | c | d | c + d |总计 | a + c | b + d | n = a + b + c + d |其中,a表示同时属于X₁和Y₁的个体数量,b表示属于X₁但不属于Y₁的个体数量,c表示属于Y₁但不属于X₁的个体数量,d表示既不属于X₁也不属于Y₁的个体数量,n表示总样本量。

我们的目标是评估变量X和Y之间是否存在显著的关联性。

卡方检验可以帮助我们判断这一点。

卡方检验的核心是比较观察到的频数和期望的频数之间的差异。

1. 计算每个单元格的期望频数(Expected frequency):- 期望频数是在两个变量独立的情况下,每个单元格的期望计数。

- 对于单元格(a, Y₁),其期望频数的计算公式为:E(a, Y₁) = (a + b) × (a + c) / n- 对于其他单元格,依次类推计算期望频数。

2. 计算卡方统计量(Chi-square statistic):- 卡方统计量用于衡量观察到的频数与期望频数之间的差异。

- 卡方统计量的计算公式为:χ² = Σ((O - E)² / E),其中Σ表示对所有单元格进行求和,O表示观察到的频数,E表示期望频数。

3. 计算自由度(Degrees of freedom):- 自由度是用于确定卡方统计量在统计分布中的位置。

- 对于2×2列联表的情况,自由度为df = (行数-1) × (列数-1) = (2-1) × (2-1) = 1。

麦克尼马尔检验 确切概率法

麦克尼马尔检验 确切概率法

麦克尼马尔检验确切概率法麦克尼马尔检验(McNemar's test)是一种用于判断两个相关样本比例是否存在差异的统计方法。

它适用于配对样本,即两个样本之间存在相关性。

而麦克尼马尔检验的确切概率法(exact probability method)是一种在样本较小的情况下计算麦克尼马尔检验的精确概率的方法。

麦克尼马尔检验的确切概率法的核心思想是通过计算所有可能情况的概率来确定观察到的差异是否显著。

在进行麦克尼马尔检验之前,我们首先需要构建一个2×2的列联表,其中包括两个分类变量的两个水平的频数。

假设我们关心的是两个分类变量A和B,列联表如下所示:AYes NoB Yes a bNo c d其中a表示同时满足A和B的样本数,b表示满足A但不满足B的样本数,c表示满足B但不满足A的样本数,d表示既不满足A也不满足B的样本数。

麦克尼马尔检验的确切概率法的计算步骤如下:1. 计算边缘总数:计算每行和每列的边缘总数,即a+b和a+c。

2. 计算差异的概率:计算两个分类变量的差异概率,即b/(a+b)和c/(a+c)。

3. 计算确切概率:计算所有可能情况的概率。

具体方法是将a固定,然后计算b和c的所有可能取值的概率之和。

例如,当a=5时,b 和c的可能取值有(0,5)、(1,4)、(2,3)、(3,2)、(4,1)和(5,0),分别对应6种情况。

计算每种情况的概率,然后将它们相加,即可得到确切概率。

4. 判断显著性:根据确切概率判断观察到的差异是否显著。

一般来说,当确切概率小于预先设定的显著性水平(通常为0.05)时,我们可以拒绝原假设,即认为两个分类变量存在显著差异;当确切概率大于显著性水平时,则无法拒绝原假设,即认为两个分类变量不存在显著差异。

麦克尼马尔检验的确切概率法在样本较小的情况下具有优势,因为它不依赖于大样本近似。

然而,由于计算所有可能情况的概率是一项复杂的任务,所以在样本较大时,通常会使用近似方法来计算麦克尼马尔检验。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

布是不合理的,此时须采用二项分布的方法进行精确
检验。
配对设计2×2列联表的精确检验
在表1中,如果行变量和列变量的频数分布相同, 那么理论上b和C的比例应为1:1,即两种不一致情 况出现的概率相等,令P=1/2。由此,我们可以给出 无效假设Ho:P=1/2;备择假设H1:p=/:l/2。
令,.=min(b,C)。在Ho:P=1/2成立的前提 下,我们利用二项分布计算累积概率:
SPSSl3.0还提供了配对设计行×列表的精确检 验,此方法是2 X 2列联表的推广。与SAS9.0相比, 这是SPSSl3.0的优点。
参考文献
1.Benard Rosner.Fundamentals of Biostatistics.5th ed.Brooks/Cole, 2000.
2.孙尚拱.生物统计学基础.北京:科学出版社,2004. 3.舢an Agresti.An introduction to categorical data analysis.New York:
万方数据
Chinese Journal of Health Statisticst Oct 2006,V01.23,No;
tables A*B/agree;
weight freq;
SPSSl3.0及SAS9.0软件应用 SPSSl3.0软件应用 例1中令变量A为“电子血压计”,变量B为“水 银血压计”,变量A与B的取值为1=高血压,2=正 常血压;变量freq表示相应的频数(图1)。在统计分析 前,需要进行数据的预处理:用“weight cases”命令,以 #eq为加权变量进行加权。
York:John Wiley&Sons.1981.
(实际工作中通常为两样本率或构成比的比较),则采 用McNemar卡方检验。大多数的国内医学统计书籍
z2:掣 中认为,当b+c≥40时,采用如下公式:

+r
、‘7
公式(1)是未修正的McNemar卡方检验,当b+f
<40时,采用如下公式:
1.北京大学医学部公共卫生学院流行病与卫生统计学系(100083) 2.北京大学第三医院职业病科(100083) 3.北京大学医学部药学院药物分析教研室(100083)
万方数据
proc freq; tables A*B;
exact mcnem;
weight freq;
run;
值得注意的是,当b+C很小时,SAS程序给出的 未修正McNemar卡方检验可能会得出错误的结论(如 例1),此时需要谨慎考察卡方检验的结果。
讨论
对于配对设计2X2列联表的检验方法,目前国内 医学统计书籍通常只介绍McNemar卡方检验方法,而 且提出在b+c<40时采用连续性修正。这样的提法 是很不严谨的。当b+c很小时,由于正态分布不能 很好地近似二项分布,所以采用卡方检验是不合理的, 此时应该采用精确检验。
·450·
·方法介绍·
生垦卫生箕进2Q竖生!Q旦錾21鲞筮§塑
配对设计2×2列联表的精确检验方法及应用
(1)h (2)b
何平平1 王洪源1 郭利霞2
配对设计在医学科研中应用很广泛。病例对照研 究或者实验研究中有时会采用1:1匹配(match)设计 来提高研究效率,控制混杂因素;或者在相同条件下同 一受试者接受两种不同的处理,以评价两种处理是否 有差异。当配对设计中所研究的变量为二分类变量 时,常需要将数据整理成配对设计的2×2列联表,然 后进行相应的统计学检验。对于配对设计的2×2列 联表,目前大多数的国内医学统计书籍介绍McNemar 卡方检验方法。但是此卡方检验的使用,需要满足正 态近似的条件。当正态近似不满足时,此检验是不适 用的,需要采用相应的精确检验方法【10】。常用统计 软件SPSS和SAS中已经给出精确检验方法,但目前 国内医学书籍却较少介绍此方法。本文讨论了配对设 计2×2列联表的精确检验方法,通过实例介绍精确检 验的应用,并给出相应的SPSS和SAS程序。
John Wiley&Sons.1996. 4.Alan Agresti.Categorical data analysis.New York:John Wiley&Sons。
1990. 5.Fleiss,Joseph L.Statistical methods for rates and proportions.New
此例中,b=7,f=1,b+C=8,r=min(b,C) =1,根据公式(3)
1 /Q\
P=2×∑{”一i=jO\(z1//2)8=2×(0.003906-I-
0.03125)=0.070 按照口=0.05,P>0.05,则尚不能认为两种血
压计测量血压有差异。
值得注意的是,若采用公式(1),则z2=4.5,P= 0.0339,即两种血压计测量血压有差异。本例中未修 正的McNemar检验与精确法结论相反!
图1例1的SPSS数据库格式 SPSS软件有两种方法可以进行配对设计2×2列 联表检验。一种是列联表方法(在“crosstabs”菜单中 选择“McNemar”选项):此方法只计算精确检验(公式 (3));另外一种是非参数方法(在“nonparametric tests” 菜单中选择“2 related samples”,然后选择“McNemar” 选项):当b+c<25时,此方法给出精确检验(公式 (3));当b+c≥25时,此方法给出连续性修正的Mc— Nemar卡方检验(公式(2))。 对于例1,因为b+c=8<25,所以两种方法都给 出了精确检验的结果:P=0.070。 SAS9.0软件应用 程序PROC FREQ中,当指定AGREE选项时,可 以计算未修正的McNemar卡方检验(公式(1));当在 EXACT语句中指定MCNEM选项时,可以同时给出 未修正的McNemar卡方检验(公式(1))和精确检验 (公式(3))。程序如下: data McNemar; input A B freq; cards; l 13 127 211 229
有研究提出当b+c<20时,须采用配对设计2X 2列联表的精确检验(1,引。在SPSSl3.0软件中,以b +f<25为精确检验的条件。这两种条件差别不大, 计算结果基本一致。
SPSSl3.0软件中,我们推荐采用非参数方法 Cnonparametric tests”菜单),此方法可以给出精确检 验(当b+c<25时)或者连续性修正的McNemar卡 方检验(当b+f≥25时)。SAS9.0软件中PROC FREQ程序,在EXACT语句中指定MCNEM选项,可 以同时给出未修正的McNemar卡方检验和精确检验。 需要注意的是,当b+c很小时,SAS9.0中未修正的 McNemar卡方检验可能会得出错误结论,此时我们推 荐采用精确检验。
McNemar检验
当配对设计中研究变量为二分类变量时,可以将 数据整理成如下2×2列联表(表1)。
表1配对设计的2×2列联表的卡方检验
李 凯1 吕 筠1 陈 鑫3
z2:山L掣




公式(1)和(2)是将正态分布近似二项分布,其中
公式(2)采用了连续性修正,能更好地近似二项分布。
值得注意的是,当b+c很小时,正态分布近似二项分
根据公式(3)计算P值,若取检验水准口=0.05, 则当P≤0.05时,拒绝H。,认为行变量和列变量的频 数分布不同。
例1【1]:某研究欲比较用电子血压计与水银血压 计测量血压是否有差异。该研究中高血压定义如下: 若收缩压≥160或舒张压≥95,则为高血压。随机入 选20人,分别用两种血压计测量每人的血压,测量结 果见表2,判断两种血压计测量血压是否有差异?
P(X≤r):∑(?¨}(1/2)…
由予通常采用双侧检验,所以计算双侧概率为
公式(3)中({『+。)_矗缟 P:2×妻f?¨I(1/2)b∥
(3)
—i=—0\z

表1中,a和d是行变量和列变量观测结果一致
的匹配对,b和C是行变量和列变量观测结果不一致
的匹配对。 若要比较行变量和列变量的频数分布是否相同
相关文档
最新文档