第七章 次数资料分析——检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
125
第七章 次数资料分析——χ2检验
前面介绍了计量资料的统计分析方法−−t 检验法与方差分析法。在畜牧、水产等科学研究中,除了分析计量资料以外,还常常需要对次数资料、等级资料进行分析。等级资料实际上也是一种次数资料。次数资料服从二项分布或多项分布,其统计分析方法不同于服从正态分布的计量资料。本章将分别介绍对次数资料、等级资料进行统计分析的方法。
第一节 2
χ统计量与2
χ分布
一、2χ统计量的意义
为了便于理解,现结合一实例说明2χ (读作卡方) 统计量的意义。根据遗传学理论,动物的性别比例是1:1。统计某羊场一年所产的876只羔羊中,有公羔428只,母羔448只。按1:1的性别比例计算,公、母羔均应为438只。以A 表示实际观察次数,T 表示理论次数,可将上述情况列成表7-1。
表7-1 羔羊性别实际观察次数与理论次数
性别 实际观察次数A 理论次数T A-T (A -T )2
/T 公 428(1A ) 438(1T ) -10 0.2283 母 448(2A ) 438(2T ) 10 0.2283 合计 876 876 0 0.4566
从表7-1看到,实际观察次数与理论次数存在一定的差异,这里公、母各相差10只。 这个差异是属于抽样误差(把对该羊场一年所生羔羊的性别统计当作是一次抽样调查)、还是羔羊性别比例发生了实质性的变化?要回答这个问题, 首先需要确定一个统计量用以表示实际观察次数与理论次数偏离的程度;然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。为了度量实际观察次数与理论次数偏离的程度,最简单的办法是求出实际观察次数与理论次数的差数。从表7-1看出:A 1-T 1 =-10,A 2-T 2=10,由于这两个差数之和为0, 显然不能用这两个差数之和来表示实际观察次数与理论次数的偏离程度。为了避免正、负抵消,可将两个差数A 1-T 1、A 2-T 2平方后再相加,即计算∑(A -T )2,其值越大,实际观察次数与理论次数相差亦越大,反之则越小。但利用∑(A -T )2表示实际观察次数与理论次数的偏离程度尚有不足。例如某一组实际观察次数为505、理论次数为500,相差5;而另一组实际观察次数为26、 理论次数为21,相差亦为5。显然这两组实际观察次数与理论次数的偏离程度是不同的。因为前者是相对于理论次数500相差5,后者是相对于理论次数21相差5。为了弥补这一不足,可先将各差数平方除以相应的理论次数后再相加,并记之为2χ,即
∑
-=
T
T A 2
2
)
(χ
(7-1)
也就是说2χ是度量实际观察次数与理论次数偏离程度的一个统计量,χ2越小,表明实
126 际观察次数与理论次数越接近;2χ=0,表示两者完全吻合;2χ越大,表示两者相差越大。 对于表7-1的资料,可计算得 2
χ=∑
=+
-=
-4566
.0438
10
438
)10()
(2
2
2
T
T A
表明实际观察次数与理论次数是比较接近的。
二、2χ分布
上面在属于离散型随机变量的次数资料的基础上引入了统计量2χ, 它近似地服从统计学中一种连续型随机变量的概率分布−−2χ分布。下面对统计学中的2χ分布作一简略介绍。
设有一平均数为μ、方差为2σ的正态总体。现从此总体中独立随机抽取n 个随机变量:x 1、x 2、…、x n ,并求出其标准正态离差:
σ
μ
-=
11x u , σ
μ
-=
22
x u ,…,σ
μ
-=
n n
x u
记这n 个相互独立的标准正态离差的平方和为2χ:
2χ=2
2221...n u u u +++=2
1
2
2
2)
()
(
σ
μσ
μ
∑∑∑
=-=
-=
n
i i i i
x x u (7-2)
它服从自由度为n 的2χ分布,记为
2
n
1
i 2
i
)
x
(σ
μ-∑= ~ χ2 (n);
若用样本平均数x 代替总体平均数μ,则随机变量
χ2
=
2
2
2
1
2
)1()
(σ
σ
S
n x x n
i i -=
-∑= (7-3)
服从自由度为n -1的2χ分布,记为
2
2
)1(σ
S
n -~ )
1n (2
-χ
因此,2χ分布是由正态总体随机抽样得来的一种连续型随机变量的分布。显然,2χ≥0,即2χ的取值范围是[0,+∞);2χ分布密度曲线是随自由度不同而改变的一组曲线。随自由度的增大,曲线由偏斜渐趋于对称;df ≥30时,22χ 接近平均数为
1
2-df 的正态分布。
127
图7-1给出了几个不同自由度的2χ概率分布密度曲线。
三、2χ的连续性矫正
由(7-1)式计算的2χ只是近似地服从连续型随机变量2χ分布。在对次数资料进行2
χ检验利用连续型随机变量2χ分布计算概率时,常常偏低,特别是当自由度为1时偏差较大。Yates(1934)提出了一个矫正公式,矫正后的2χ值记为2c χ:
2c
χ=∑
--T
T A 2
)
5.0( (7-4)
当自由度大于1时,(7-1)式的2χ分布与连续型随机变量2χ分布相近似,这时,可不作连续性矫正,但要求各组内的理论次数不小于5。若某组的理论次数小于5,则应把它与其相邻的一组或几组合并,直到理论次数大于5为止。
第二节 适合性检验
一、适合性检验的意义
判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验称为适合性检验。在适合性检验中,无效假设为H 0:实际观察的属性类别分配符合已知属性类别分配的理论或学说;备择假设为H A :实际观察的属性类别分配不符合已知属性类别分配的理论或学说。并在无效假设成立的条件下,按已知属性类别分配的理论或学说计算各属性类别的理论次数。因所计算得的各个属性类别理论次数的总和应等于各个属性类别实际观察次数的总和,即独立的理论次数的个数等于属性类别分类数减1。也就是说,适合性检验的自由度等于属性类别分类数减1。若属性类别分类数为k ,则适合性检验的自由度为k -1 。然后根据(7-1)或(7-4)计算出χ2
或χ2
c 。将所计算得的χ2
或χ2
c 值与根据自由度k -1查χ2
值表(附表8)所得的临界χ2值:χ20.05、χ20.01比较:若χ2 (或χ2c )<χ20.05,P >0.05
,表明实际观察次数