9第七章次数资料分析—X2检验
第七章X2检验
第七章X2检验第七章X2检验X2(称卡方)检验用途较广,但主要用于检验两个或两个以上样本率或构成比之间差别的显著性,也可检验两类事物之间是否存在一定的关系。
一、两个率的比较(一)X2检验的基本公式下页末行的例3.1是两组心肌梗塞病人病死率的比较,见表3.5,其中对照组未用抗凝药。
两组病人的病死率不同,抗凝药组为25.33%,对照组为40.8%。
造成这种不同的原因可能有两种:一种是仅由抽样误差所致;另一种是两个总体病死率确实有所不同。
为了区别这两种情况,应当进行X2检验。
其基本步骤如下:1.首先将资料写成四格表形式,如表3.6。
将每个组的治疗人数分为死亡与生存两部分,各占四格表中的一格,这些数字称为实际频数,符号为A,即实际观察得来的数字。
2.建立检验假设为了进行检验,首先作检验假设:两种疗法的两总体病死率相等,为35%(即70/200),记为H0:π1=π2。
即不论用或不用抗凝药,病死率都是35%,所以亦可以换一种说法:病死率与疗法无关。
上述假设经过下面步骤的检验后,可以被接受也可以被拒绝。
当H0被拒绝时,就意味着接受其对立假设即备择假设H1。
此例备择假设为两总体病死率不相等,记为H1:π1≠π2因为我们观察的是随机现象,所以无论是接受或拒绝H0都冒有一定风险,即存在着错判的可能性。
一般要求,当错误地被拒绝的概率α不超过一定的数值,如5%(或0.05),此值称为检验水准,记为α=0.05。
3.计算理论频数根据“检验假设”推算出来的频数称理论频数,符号为T。
计算方法如下:假设两总体病死率相同,都是35.0%,那么抗凝血组治疗75人,其死亡的理论频数应为75×35.0%=26.25人,而生存的理论频数为75-26.25=48.75人。
用同样方法可求出对照组的死亡与生存的理论频数,前者为43.75人。
后者为81.25人。
然后,把这些理论频数填入相应的实际频数格内,见表3.6括号内数字。
计算理论频数也可用下式(3.4)TRC=nRnC/N (3.4)式中,TRC为R行与C列相交格子的理论频数,nR为与计算的理论频数同行的合计数,nC为与该理论频数同列的合计数,N为总例数。
第7章 x2检验.
第四节
2 行×列表资料的x 检验
A x n( 1) nR nc
2
2
(7 -10)
v (行数 -1)(列数 -1)
一、多个样本率的比较
例7-6 某医师研究物理疗法、药物治疗 和外用膏药三种治疗方法治疗周围性面神经 麻痹的疗效,资料见表7-8.问三种疗法的有 效率有无差别?
表7-8 疗法 物理疗法组 药物治疗组 外用膏药组 有效 199 164 118 三种疗法有效率的比较 无效 合计 7 18 26 206 182 144 有效率(%) 96.60 90.11 81.94
合计
481
51
532
90.41
1.建立假设,确定检验水准 H0:π1=π2=π3, H1:三种疗法的有效率不全相等 α=0.05 2.计算统计量
2 A x 2 n( 1) nR nc
1992 1642 262 532( .... 1) 206 481 182 481 144 51 21.04
组 别 试验组 对照组 合 计
有 效 99 a 75 c 174(a+c)
无 效 5b 21 d 26(b+d)
合 计 104 (a+ b) 96 (c+d) 200 (n)
有效率(%) 95.20 78.13 87.00
数各 是组 固样 定本 的例
四个格子的数据是表 7-1 中基 基本数据, 其余 的数据都是从 这四个数据推算得来的,这种 资料称四格表资料。
二、检验步骤
n=33<40 1.建立假设,确定检验水准 H0:π1=π2, H1: π1 ≠ π2 α=0.05 2.计算现有样本四格表的概率P*及各组合下 四格表的概率Pi。
X2检验
第七章X2检验Chi-square testX2分布——计数资料第一节四格表资料的X2检验一、X2检验的基本思想1、X2分布(1)X2分布是一种连续型分布:X2分布(chi-squaredistribution)只有一个参数,即解放度。
当解放度V《2时,曲线呈L形随着V的增加,曲线逐渐趋于对称当解放度V—00无穷时,X2分布趋近正态分布(2)X2分布的一个基本性质是它的可加性:(X1+X2)——X2(V1+V2)(3)X2分布的界值:X2值愈大,P值愈小;反之,X2值愈小,P值愈大。
2、X2检验的基本思想四格表(fourfold table)资料PearsonX2——X2={Σ(A-T)2/T } V =(行数-1)(列数-1)A为实际频数(actual frequency)T为理论频数(theoretical frequency)——根据检验假设H0:π1=π2确定的。
T(RC)=nRnC/nT(RC)为第R行(row)第C列(column)的理论频数,nR为相应行的合计,nC为相应列的合计,n为总列数。
X2值反映了实际频数与理论频数的吻合程度。
3、X2检验的步骤H0::π1=π2,即试验组与对照组——总体有效率相等H1::π1≠π2,即——————————————不等ɑ=0.05——T值——V——P值二、四格表资料X2检验的专用公式X2=(ad-bc)2n/(a+b)(a+c)(d+b)(d+c)a,b,c,d为四格表的实际频数;(a+b)(a+c)(d+b)(d+c)是周边合计数;n为总例数,n=a+b+c+d.四格表资料X2检验的校正公式三、X2C=(Iad-bcI-n/2)2n/(a+b)(a+c)(d+b)(d+c)(1)当n》40且所有的T》5时,用X2检验的基本公式或四格表资料X2检验的专有公式;(2)当n》40但有1《T《5时,用四格表资料X2检验的校正公式。
(3)当n<40,或T<1时,用四格表资料的Fisher确切概率法。
X2检验
基本步骤:
提出假设 计算理论次数 计算卡方(基本公式) 计算自由度 结合自由度与显著水平找出卡方临界值 比较数据得出结论
配合度检验
实际频数(观察频数):在实验或调查中得到的计数资料。
理论次数(期望次数):是指根据概率原理、某种理论、某种 理论次数分布或经验次数分布计算出来的次数。
当单元格的人数过少时:
单元格合并法(如调整变量的分类方式);
增加样本数;
去除样本法(次数少的类别不具有研究价值时,但推广结论时 要注意);
使用校正公式(只有两项分类的配合度检验,应用连续性校正 公式计算;如果三项分类及以上时出现某一单元格内的理论次 数小于5,用基本公式即可)。
卡方检验的类别
f0i 2 fxifyi
1)
同质性检验
一、单因素分类数据的同质性检验 二、列联表形式的同质性检验
同质性检验可以分析几种因素之间是否真有实质上的 差异,或者判断几次重复实验的结果是否同质。
是对两个样本同一个变量的分布状况的检验,是对几 个样本数据是否同质作出判断。
1.计算各个样本组的X2值和自由度
性别
学业水平 中等以上 中等以下 男 23(A) 17(B) 40(A+B) 女 28(C) 22(D) 50(C+D)
51(A+C) 39(B+D) 90(A+B+C+D)
2.相关样本四格表卡方检验
(A D )2
2 A D
A,D为四格表中两次 实验或调查中分类项 目不同的那两个格的 实计次数。
X2检验
简单讲,卡方检验方法检验的是样本观测次数(或百分比)与 理论或总体次数(或百分比)的差异性。
应用X2检验分析数据时,对计数数据总体的分布形态不作任何 假设,因此,X2验被视为是非参数检验的一种。
X2检验
X2检验X2检验是用途广泛的假设检验方法,它的原理是检验实际分布和理论分布的吻合程度。
主要用途有:两个及以上样本率(或构成比)之间差异比较,推断两变量间有无相关关系,检验频数分布的拟合优度。
X2检验类型有:四格表资料X2检验(用于两样本率的检验),行×列表X2检验(用于两个及两个以上样本率或构成比的检验), 行×列列联表X2检验(用于计数资料的相关分析)。
在SPSS中,所有X2检验均用Crosstabs完成。
Crosstabls过程用于对计数资料和有序分类资料进行统计描述和统计推断。
在分析时可以产生二维至n维列联表,并计算相应的百分数指标。
统计推断则包括了我们常用的X2检验、Kappa值,分层X2(X2M-H)。
如果安装了相应模块,还可计算n维列联表的确切概率(Fisher's Exact Test)值。
Crosstabs过程不能产生一维频数表(单变量频数表),该功能由Frequencies 过程实现。
界面说明【Rows框】用于选择行*列表中的行变量。
【Columns框】用于选择行*列表中的列变量。
【Layer框】Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。
如果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next钮设为不同层。
Layer在这里用的比较少,在多元回归中我们将进行详细的解释。
【Display clustered bar charts复选框】显示重叠条图。
【Suppress table复选框】禁止在结果中输出行*列表。
【Statistics】按钮弹出Statistics对话框,用于定义所需计算的统计量。
Chi-square复选框:计算X2值。
Correlations复选框:计算行、列两变量的Pearson相关系数和Spearman等级相关系数。
Norminal复选框组:选择是否输出反映分类资料相关性的指标,很少使用。
第七章次数资料分析——2检验
表7-3 x 2 计算表
实际观察次 数(A)
理论次数(T)
192
202.5
78
67.5
72
67.5
18
22.5
360
360
A-T
-10.5 +10.5 +4.5
-4.5
0
( A T )2 T
0.5444 1.6333
0.3 0.9
3.377
第二节 适合性检验
▲(五)查临界 x 2 值,作出统计推断 (P346)
★ χ2的连续性矫正
● 当df=1时,计算χ2 值必须进行矫正,计算公式为:
2 c
( A T 0.5)2 T
原因: χ2分布属于连续型随机变量的概率分布,在对 次数资料进行χ2检验时,计算所得的χ2值偏大,概率 偏低,因此需要矫正。
●当df>1时,可不作连续性矫正,但要求各组内的理 论次数不小于5。若某组的理论次数小于5,则应把它 与其相邻的一组或几组合并,直到理论次数大于5为 止。
▲(一)建立假设
H0:实际观察次数之比符合9:3:3:1的理论比例 HA:实际观察次数之比不符合9:3:3:1的理论比例
第二节 适合性检验
▲(二)计算公式
●本例的属性类别分类数k=4, 因此自由度df=k-1=4-1=3,可采用一般公式
x 2 ( A T )2
T
第二节 适合性检验
▲(三)计算理论数
x2检验的显著性三个判断标准
1、x2<x20.05 P>0.05
差异不显著;
2、x20.05≤x2<x20.01 0.01<P≤0.05
差异显著;*
3、x2≥x20.01 P≤0.01
差异极显著;**
《应用统计》教学课件 第7章 χ2检验和方差分析
项目 幸存
死亡 总计
男人
妇女
332
318
(537.360) (134.022)
1360 (1154.640)
1692
104 (287.978)
422
男孩
29 (20.326)
35 (43.674)
64
女孩
27 (14.291)
18 (30.709)
45
总计 706
1517 2223
注:表中的括号内数字是期望频数,如, 537.360=(706×1692)/2223
二、独立性检验
所谓独立性,就是两个变量之间互不相关,一个变量的 取值不影响另一个变量的取值。
例:①是否吸烟与是否患肺癌有关; ②收入与受教育程度是否相关; ③从事的行业与所学专业有关; ④性别与体育运动偏好有关。
已知:
PA B PB P A B
如果变量A和变量B相互独立。
则:
PA B PA
PA B PB PA
一、多项分布的χ2 检验
多项分布:指实验结果多于两个的概率分布。
应用统计 理论分数 实际人数
优秀 10% 18
良好 30% 30
中等 40% 40
多项分布试验的条件:
及格 15% 22
不及格 5% 10
①有k个结果(k>2); ②每次进行的试验是相互独立的; ③每次有且仅有一个结果发生; ④每种可能出现结果的概率都保持不变。
使用步骤:①建立列联表; ②选择随机样本,记录每一单元格的频数; ③计算每一单元格的期望频数(>5); ④根据检验法则做出判断。
例2:在泰坦尼克号沉船事件中,各类别的幸存者与性别 之间关系是否相对独立?
H0 : 是否生还与乘客是男人、女人、男孩还是女孩是独立的; H1 : 乘客是否幸存与这个人是男人、女人、男孩、女孩相互依赖。
第七章非参数检验-2检验
(一)2×2列联表的独立性检验
设A,B是一个随机试验中的两个事件,其中A可 能出现r1 、r2个结果,B可能出现c1、c2个结果, 两因子相互作用形成4格数,分别以O11 、O12 、 O21 、O22表示,下表是2×2列联表的一般形式
2×2列联表的一般形式
行 列
c1
c2
总和
r1
O11
r2
O21
适合性检验的零假设是观测次数与理论次数之间无差 异。其中理论次数的计算一般是根据某种理论,按一 定的概率通过样本即实际观测次数来计算。这里所说 的某种理论,可能是经验规律,也可能是理论分布。 确定理论次数是卡方检验的关键。
独立性检验
是指研究两个或两个以上的计数资料或属性 资料之间是相互独立的或者是相互联系的假设检 验,通过假设所观测的各属性之间没有关联,然 后证明这种无关联的假设是否成立。
口服与有效同时出现的理论频率=口服频率× 有效频率,即P(AB)=P(A)P(B)=98/193 ×122/193
理论频数Ei=理论频率×总数 = (98/193 ×122/193) ×193 =(98 × 122)/193=61.95
即Eij=Ri×Cj/T=行总数×列总数/总数
E11= R1 × C1/T=61.95 E21= R2 × C1/T=60.05
合计
876
438
-10
438
+10
876
0
要回答这个问题,首先需要确定一个统计量, 将其用来表示实际观测值与理论值偏离的程度; 然后判断这一偏离程度是否属于抽样误差,即进 行显著性检验。
判断实际观测值与理论值偏离的程度,最简单 的办法是求出实际观测值与理论值的差数。
羔羊性别观察值与理论值
第7章 χ2检验
89.02
70.27 80.13
2、计算卡方值 a=73 b=9 c=52 d=22 n=156 2 ( ad bc ) n 2 =8.59 (a b)(a c)(b d )(c d )
(四)四格表资料卡方检验的校正
1、校正条件: n≥40,且 1<T<5(一个及以上格子) 2、基本公式
那么A药组82人中理论上讲有效人数为65.7人
(82*80.13%=65.7),即第一行第一列的理论频
数为82*80.13%=65.7
n n R C 用计算,即 也可以 T RC n
T11=125*82/156=65.7)。
表7-1 两药治疗脑血管栓塞有效率比较
药物 A B 合计 有效 73 (65.7) 52 (59.3) 125 无效 9 (16.3) 22 (14.7) 31 合计 82 74 156 有效率(%) 89.02 70.27 80.13
a c
b d
73 52
9 3
四格表资料的基本形式
处理组 A药 B药 合 计 发生数 未发生数 合计 a+b c+d n
a c a+c
b d b+d
请判断下列a、b、c谁属四格表:两组大白鼠 在不同致癌剂作用下的发癌率如下表,问两组发 癌率有无差别?
表 处理 甲组 乙组 合计 不同致癌剂作用下大白鼠发癌率比较 例数 71 42 113 发癌数 52 39 91 未发癌数 19 3 22 发癌率% 73.24 92.86 80.33
T 怎么求 ?
n n R C T:理论频数(theoretical frequency) TRC n T 第R 行C 列的理论频数
次数资料分析——2检验
这是一个2×4列联表独立性检验的问题。 检验步骤如下: 1. 提出无效假设与备择假设 H0:水牛体型构成比与地区无关,即两地 水牛体型构成比相同。 HA:水牛体型构成比与地区有关,即两地 水牛体型构成比不同。
2. 计算各个理论次数,并填在各观察次数后的括号中 计算方法与2×2表类似,即根据两地水牛体型构
第二节 适合性检验
★判断实际观察的属性类别分配是否符合已知属 性类别分配理论或学说的假设检验称为适合性 检验。
●遗传学上:
一对性状杂种后代的分离现象,3:1; 二对性状杂种后代的分离现象是否符合9:3:3:1; 动物性别比 1:1。
适合性检验方法
(一) 建立假设 (二) 计算实际x2值 (三) 查x2值表,作统计判断
表7—12 2×c 联列表一般形式
表7—12 2×c联列表一般形式
其中Aij(i=1,2;j=1,2,…,c)为实际观察次数。
上一张 下一张 主 页 退 出
第三节 独立性检验
★【例7.8】在甲、乙两地进行水牛体型调查,将 体型按优、良、中、劣四个等级分类,结果见表 7-13。问两地水牛体型构成比是否相同?
●当自由度df=3时,查得
x
2 00( 5 3)
7.。81
x ●由于 2 < x 020(5 3),故P>0.05,不能否定H0,表明
实际观察次数与理论次数差异不显著。因此,可以认为毛
色与角的有无两对性状杂交二代的分离现象符合孟德尔遗
传规律中9:3:3:1的理论比例。
第七章 χ2检验
第三节 独立性检验 ★独立性检验的意义
▲(一)建立假设
H0:实际观察次数之比符合9:3:3:1的理论比例 HA:实际观察次数之比不符合9:3:3:1的理论比例
次数资料分析---卡方检验
第七章 次数资料分析---χ2检验第一节 χ2检验的原理与方法1.χ2分布χ2分布是从正态分布派生出来的一种分布。
⏹[定义]设X 1,X 2,X 3,…,X n 相互独立同分布,且X i ~N(0,1),则随机变量χ2= x i 2n i=1的分布称为具有n 个自由度的χ2分布。
记作: χ2 = x i 2n i=1 ~χ2(n ) 即:n 个标准正态分布的随机变量的平方和,服从自由度为n 的χ2分布。
⏹[推论]若随机变量X 1,X 2,X 3,…,X n 相互独立,且X i ~N(μ, σ2),则χ2= (x i −μ)2σ2n i=1~χ2(n)⏹[自由度]在计算χ2的过程中,如果有一个统计量代替了其中的一个参数,则其自由度为(n-1);如果有两个统计量代替了其中的两个参数,则其自由度为(n-2)。
χ2= ~χ2(n-1)22212)1()(σσS n x x ni i -=-∑=2.χ2分布的性质⏹χ2分布的“可加性”—在进行χ2统计分析时,可将相邻的数据合并在一起统计⏹χ2分布为非对称的连续性分布,分布区间为[0,+∞]⏹χ2分布曲线因自由度不同而异不同自由度的概率分布密度曲线 2χ 3.χ2检验的基本原理与方法χ2检验是与计数数据相关联的,因而用于计数资料或间断性数据的检验。
⏹[基本原理] 用于实际观测值(O )与理论推算值(E )之间的偏离程度来计算χ2值的大小,根据χ2的概率来检验观测值与理论值的差异程度和符合程度的大小。
⏹[检验方法]按照假设检验的一般步骤,对计数资料进行右尾检验。
如果有k 组资料,则检验统计量的值按下式计算:χ2=(A i −T i )2T iki=1【k:类别;A i :实际观测值;T i :理论推算值】⏹[连续性矫正] 当自由度df ≧2时,一般不作连续性矫正。
但在自由度df =1时,需进行连续性矫正,统计量计算公式:x c2= (∣A i −T i ∣−0.5)2T iki=1第二节 适合性检验1.适合性检验的定义所谓适合性检验,就是检验某一试验结果类别频数的划分是否符合某一理论比例。
《生统》第七章 次数资料分析——X2检验
实际观察次数O 实际观察次数
公母比例: 公母比例:100:105 :
χ2
第一节
3、 计算理论次数
2 4、 计算 χ c 值
2 χc
(| 12 − 18.7 | −0.5) 2 (| 32 − 25.3 | −0.5) 2 (| 22 − 15.3 | −0.5) 2 = + + 18.7 25.3 15.3
(| 14 − 20.7 | −0.5) 2 + = 7.944 20.7
5、 由自由度 、 由自由度df=1查临界χ2值,作出统计推断 查临界
因为χ2 0.01(1)=6.63,而 , ( )
2 χ () ,否定H 接受H χ=7.944>χ20.01(1),P<0.01,否定 0,接受 A,表明发病率与 c
是否注射疫苗极显著相关,这里表现为注射组发病率极显著低于 是否注射疫苗极显著相关, 未注射组,说明该疫苗是有预防效果的。 未注射组,说明该疫苗是有预防效果的。
结论:差异不显著,符合 : : ∶ 比例 结论:差异不显著,符合9:3:3∶1比例 P>0.05
第二节
*三、显著比较)
种表现型A-B-、A-bb、 【例7.3】 两对相对性状杂交子二代 种表现型 】 两对相对性状杂交子二代4种表现型 aaB-、aabb的观察次数依次为 的观察次数依次为152、39、53、6,问这两对相 的观察次数依次为 、 、 、 , 对性状的遗传是否符合孟德尔遗传规律中9∶ ∶ ∶ 的比例 的比例。 对性状的遗传是否符合孟德尔遗传规律中 ∶3∶3∶1的比例。
第七章X2检验(医学统计学)
法的阳性检出率较高。
注意:当 a 和 d 的数字特别大而 b 和 c 的数字较小时, 即使检验结果有统计学意义,而实际意义也不大。 故配对四格表 X2 检验一般用于检验样本含量不太 大的资料。
行×列(R×C)表的X2检验
一、用途: 1、推断两个或以上的总体率(或构成比)有无 差异。 2、推断两个分类变量间有无关联性(计数资料相 关分析) 二、检验公式:
X=
2
(2918 .74 ) (7 17 .26 ) (9 19 .26 ) (2817 .74 ) + + + 18 .74 17 .26 19 .26 17 .74
2
2
2
2
1 1 1 1 .26 ( ) =10 18 .74 17 .26 19 .26 17 .74
2
= 23.12
小;若H0假设不成立,则实际分布(A)和理论分
布(T)相差较大, X2值应较大。另外 X2值的大小尚
x2
与格子数(自由度)有关,格子数越多,X2值越
大。
可以根据X2分布原理,由X2值确定P值,从而作
出推论。
V=(行数-1)(列数-1)
四格表资料X2检验专用公式:
( ad bc )n x ( a b )( c d )( a c )( b d )
3、查X2表确定P值 自由度V=(行数-1)(列数-1) =(3-1)(2-1) =2 查X2界值表得: X20.005,2=10.60 X2=17.91> X20.005,2=10.60 P<0.005 4、推断结论 ∵ P<0.005, ∴ 在α=0.05水准上,拒绝H0, 接受H1 ,可认为三个地区的污染率不等或不全相 等,有地区差异。
07 次数资料分析——c2检验
125第七章 次数资料分析——χ2检验前面介绍了计量资料的统计分析方法−−t 检验法与方差分析法。
在畜牧、水产等科学研究中,除了分析计量资料以外,还常常需要对次数资料、等级资料进行分析。
等级资料实际上也是一种次数资料。
次数资料服从二项分布或多项分布,其统计分析方法不同于服从正态分布的计量资料。
本章将分别介绍对次数资料、等级资料进行统计分析的方法。
第一节 2χ统计量与2χ分布一、2χ统计量的意义为了便于理解,现结合一实例说明2χ (读作卡方) 统计量的意义。
根据遗传学理论,动物的性别比例是1:1。
统计某羊场一年所产的876只羔羊中,有公羔428只,母羔448只。
按1:1的性别比例计算,公、母羔均应为438只。
以A 表示实际观察次数,T 表示理论次数,可将上述情况列成表7-1。
表7-1 羔羊性别实际观察次数与理论次数性别 实际观察次数A 理论次数T A-T (A -T )2/T 公 428(1A ) 438(1T ) -10 0.2283 母 448(2A ) 438(2T ) 10 0.2283 合计 876 876 0 0.4566从表7-1看到,实际观察次数与理论次数存在一定的差异,这里公、母各相差10只。
这个差异是属于抽样误差(把对该羊场一年所生羔羊的性别统计当作是一次抽样调查)、还是羔羊性别比例发生了实质性的变化?要回答这个问题, 首先需要确定一个统计量用以表示实际观察次数与理论次数偏离的程度;然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。
为了度量实际观察次数与理论次数偏离的程度,最简单的办法是求出实际观察次数与理论次数的差数。
从表7-1看出:A 1-T 1 =-10,A 2-T 2=10,由于这两个差数之和为0, 显然不能用这两个差数之和来表示实际观察次数与理论次数的偏离程度。
为了避免正、负抵消,可将两个差数A 1-T 1、A 2-T 2平方后再相加,即计算∑(A -T )2,其值越大,实际观察次数与理论次数相差亦越大,反之则越小。
第七章 列联表资料的X2检验
• 4、方法: ⑴、专用公式。每一格的T值均>5且n>40; P104,式(7-1);P105,式(7-4) ⑵、校正公式。有一格的T值<5且n>40; P106,式(7-5);P106,式(7-6) ⑶、确切概率法。T<1或n<40时不计算X2值 (Fisher exact probabilities) • 5、注意事项:⑴、要求每个样本要分为互斥的 两类;⑵要注意区分四格表检验的X2公式及其适 用条件
(五)、交叉分类2*2表的关联分析
1、 X2检验 2、列联系数r
(六)、2*2配对资料的关联性分析
1、 X2检验 注意与配对资料的四格表X2 检验(McNemar检验)不一样,是四格表 资料X、R*C表资料的关联性检验
1、 X2检验 2、列联系数r
(八) 多个样本率比较的X2分割法
对理论频数太小有以下三种处理办法: A、最好增加样本含量,以增加理论频数。 B、删去上述理论频数太小的行或列。 C、 将太小理论频数所在的行或列与性质相近 的邻行或邻列的实际频数合并。 (2)、当进行多个样本率(或构成比)比较 的X2检验,结论为拒绝检验假设H0时,只能 认为各总体率(或构成比)之间总的来说 有差异,但不能说它们彼此间有差异或某 两个间有差别,还需进一步进行两两比较。 (3)对于有序的R*C表资料不宜用X2检验
• 3、观察结果: 四种形式 ⑴、甲+乙+ a ; ⑵、甲+乙- b; ⑶、甲-乙+ c ; ⑷、甲-乙- d。 • 4、配对资料的专用四格表 • 5、计算公式:McNemar test ⑴、专用公式:b+c>40 P107,式(7-7) ⑵、校正公式:b+c<40 P107,式(7-8) 6、注意事项:⑴、要求资料为配对的计数资 料;⑵要注意配对资料的四格表X2检验的适用 条件
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
å
(2)当df 勾1时(R C列联表)用一般公式计算X 2值: x2 =
å
( A - T )2 T
(3) 进行X2检验,根据df=(c-1)(r-1), 查临界 2值: 20.05、 20.01 值;
将所计算得的 2或 进行比较,得出结论。
2
c值与临界值
A 若2 (或2c)<20.05,P>0.05, 表明实际观察次数与理论次数差异不显著,可 以认为两个因子相互独立; B 若20.05≤2 (或2c)<20.01,0.01<P≤0.05, 表明实际观察次数与理论次数差异显著,可以 认为两个因子之间是显著相关的. C 若2 ( 或2c)≥20.01,P≤0.01, 表明实际观察次数与理论次数差异极显著 ,可 以认为两个因子之间是极显著相关的.
三、独立性检验的方法
(一)2×2列联表的独立性检验 2×2列联表的一般形式p167;
自由度df=(c-1)(r-1)=(2-1)(2-1)=1, 在进行2检验时,需作连续性矫正,应计
算
2 c
值。
表7—10 2×2列联表的一般形式
其中Aij为实际观察次数,Tij为理论次数。
【例7.7】 某猪场用80头猪检验某种疫苗是否有预防
与连续型随机变量 2分布相近似 ,这时, 可不作连续性矫正 ,但要求各组内的理论
次数不小于5。若某组的理论次数小于5,
则应把它与其相邻的一组或几组合并,直
到理论次数大于5为止。
c
2
=
å
( A- T ) T
2
x
2 c
=
å
( A - T - 0.5) T
2
X2检验:是次数资料显著性检验的方法, 它通过提出某种假设,用理论次数(T) 与观察次数(A)进行比较,从而确定 两者符合程度。
2 c
表7—2 2c计算表
2 cC = S
(| A - T | - 0.5) 2 (| 79 - 65 | - 0.5) 2 65
=
T (|181- 195 | - 0.5) 2 195
+
= 3.739
(五)查临界2值,作出统计推断
当自由度 df=1 时, 查 得 , 20.05(1) =3.84
一、独立性检验的概述
1、定义:是次数资料相关性的研究。 通过比较理论次数(T)和观察次数 (A),研究两类试验因子之间是相 互独立的还是有影响的。 2、H0:两类因子是相互独立的
3、观察数据(A)的给出用以因子划分 的两向列联表给出(p167) 根据两因子属性类别数的不同而构成 2×2、2×c、r×c列联表(r为行因子 的属性类别数, c 为列因子的属性类 别数)。
物的治愈头数和未治愈头数。
(1)分析药物种类与疗效是否相关,若两者 彼此相关,表明疗效因药物不同而异,即两种 药物疗效不相同;
(2)若两者相互独立,表明两种药物疗效相
同。
这种根据次数资料判断两类因子彼此相关或相
互独立的假设检验就是独立性检验。独立性检 验实际上是基于次数资料对因子间相关性的研 究。
二 适合性检验的步骤
T=总观察次数×类别比例
(1)当df = 1时,用校正公式计算X 2值: X 2c =
å
( A - T - 0.5) 2 T
(2)当df ¹ 1时,用一般公式计算X 2值: X2 =
å
( A - T )2 T
(3) 进行X2检验,根据df=k-1,查临界 2值: 20.05、 20.01 值;
表7-1 羔羊性别实际观察次数与理论次数
问题:
实际观察次数与理论次数存在一定的差异,
这里公、母各相差10只。这个差异是属于抽样
误差?还是羔羊性别比例发生了实质性的变化?
要回答这个问题,首先需要确定一个统计量
用以表示实际观察次数与理论次数偏离的程度;
然后判断这一偏离程度是否属于抽样误差,
即进行显著性检验。
2
+
10
2
438
= 0.4566
表明实际观察次数与理论次数是比较接近的。
回顾:2 (chi-square)分布
定义(P156)
设有n个随机变量X1, X2, , Xn,彼此独立且 都服从标准正态分布 N(0, 1),则称随机变量
Y=
å
2
X
2 i
服从自由度为n 的 2 分布,记为
Y ~ (n)
T =0.5444+1.6333+1.6333+0.9 =4.711
X =
2
å
( A- T )
2
(五)查临界2值,作出统计推断 当df=3时,20.05(3)=7.81,因 2<2005(3) ,
P>0.05,不能否定H0 ,
表明实际观察次数与理论次数差异不显著,
可以认为毛色与角的有无两对性状杂 交 二 代
的 分 离 现 象 符 合 孟 德 尔遗传规律中
9∶3∶3∶1的遗传比例。
第三节 独立性检验
一、独立性检验的概述
对次数资料,除进行适合性检验外,有时需 要分析两类因子是相互独立还是彼此相关。 如研究两类药物对家畜某种疾病治疗效果的 好坏,先将病畜分为两组,一组用第一种药物治
疗,另一组用第二种药物治疗,然后统计每种药
计算的2c<20.05(1),P>0.05,不能否定H0; 表明实际观察次数与理论次数差异不显著,可
以认为白色羊与黑色羊的比率符合孟德尔遗传分
离定律3∶1的理论比例。
【例7.2】 在研究牛的毛色和角的有无两对相对性状
分离现象时 ,用黑色无角牛和红色有角牛杂交 ,子二 代出现黑色无角牛192头,黑色有角牛78头,红色无角牛
二独立性检验检验的步骤
(1)提出假设
H0:两类因子之间是相互独立的 HA:两类因子之间是有关联的 (2)在H0成立的条件下,计算理论次数T和X2值
理论次数 =
横行总和´ 纵列总和 总观察次数
=
Zr ´ Zc T
二 独立性检验的步骤
T=总观察次数×类别比例
(1)当df = 1时(2 2列联表)用校正公式计算X 2值: x 2c = ( A - T - 0.5) 2 T
1 2≥0 , 即 2 的 取 值 范 围 是[0,+∞;
2 2分布密度曲线是随自由度不同而改变的一组曲线。
随自由度的增大, 曲线由偏斜渐趋于对称;
3 df≥30时, 2c 2接 近 平均数为
布。
2df - 1 的正态分
不同自由度的 2概率分布密度曲线:
2 分布曲线
三、连续性矫正
效果。结果是注射疫苗的44头中有 12 头发病,32头未
发病;未注射的36头中有22头发病,14头未发病,问 该疫苗是否有预防效果? 1、 先将资料整理成列联表
表7—11 2×2列联表
2、 提出无效假设与备择假设 H0:发病与否和注射疫苗无关,即二因子相 互独立。 HA:发病与否和注射疫苗有关,即二因子彼 此相关。 3、 计算理论次数 根据二因子相互独立的假设,由样本数据计 算出各个理论次数。 二因子相互独立,就是说注射疫苗与否不影 响发病率。也就是说注射组与未注射组的理论 发病率应当相同,均应等于总发病率 34/80=0.425=42.5%。依此计算出各个理论次数 如下:
二 适合性检验的步骤
【例7.1】 在进行山羊群体遗传检测时,观 察了 260只白色羊与黑色羊杂交的子二代毛色, 其中181只为白色,79只为黑色,问此毛色的比 率是否符合孟德尔遗传分离定律的3∶1比例?
检验步骤如下:
(一)提出无效假设与备择假设
H0:子二代分离现象符合3∶1的理论比例。
HA:子二代分离现象不符合3∶1的理论比例。
计算的 2只是近似地服从连续型随机变量2 分布。在对次数资料进行 2检验利用连续型随 机变量 2分布计算概率时,常常偏低,特别是 当自由度为1时偏差较大。 Yates(1934)提出了一个矫正公式,矫正后的
2值记为:
x
2 c
=
å
( A - T - 0.5) T
2
(7-4)
当自由度大于1时,(7-1)式的 2分布
(二)选择计算公式 由于本例是涉及到两组毛色(白色与黑色),属 性类别分类数k=2,自由度df=k-1=2-1=1,须使用
2 (7—4)式来计算 c
(三)计算理论次数
根据理论比率3∶1求理论次数: 白色理论次数:T1=260×3/4=195
黑色理论次数:T2=260×1/4=65
或 T2=260-T1=260-195=65 (四)计算
第二节 适合性检验
4、数据(A)的给出形式:从单向分出不 同的质性类别及给出相应的观察次数。 5、进行X2检验:df=k-1,k为质性类别数; 6、应用: (1)检验或验证遗传规律:1:1、3:1、 9:3:3:1 (2)资料分布类型的适合性检验(p162)
第二节 适合性检验
二 适合性检验的步骤 (1)提出假设 H0:观察次数(A)与理论次数(T)相 符某性状比例符合某理论比例,A—T之间 的差异是误差造成的。 HA:A—T不相符 (2)据已知的理论比例计算出理论次数,进 一步计算X2值
Biostatistics and Experimental Design
畜牧、兽医专业
生物统计 附 试验设计
第七章 次数资料分析 2检验 ——
本章将分别介绍对次数资料、等级
资料进行统计分析的方法。
第一节 2统计量与 2分布
一、
2
统计量的意义
根据遗传学理论,动物的性别比例是1:1。 统计某羊场一年所产的876只羔羊中,有公 羔428只,母羔448只。按1:1的性别比例计算, 公、母羔均应为438只。 以A表示实际观察次数,T 表示理论次数, 可将上述情况列成表7-1。