非参数统计实验(全)新
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 非参数统计实验
参数统计学中的许多统计分析方法的应用对总体都有严格的假定,例如,t 检验要求总体服从正态分布,F 检验要求误差呈正态分布且各组方差为齐性的等等,然而在现实生活中,有许多总体的分布我们却是一无所知或知之甚少,所以在参数模型中所建立的统计推断就会失效,于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。非参数统计方法简便,适用性强,但检验效率较低,应用时应加以考虑。
实验一 卡方检验(Chi-square test )
实验目的:
掌握卡方检验方法。 实验内容:
一、2χ拟合优度检验 二、2χ独立性检验 三、2χ齐性检验 实验工具:
SPSS 非参数统计分析菜单项和Crosstabs 菜单项。 知识准备:
一、卡方拟合优度检验
2
χ检验(Chi —Square Test) 适用于拟合优度检验,适用于定类变量的检验问
题,用来检验实际观察数目与理论期望数目是否有显著差异。当检验问题是实际分布是否与理论分布相符合时,在大样本时也可以用分类数据的卡方检验来解决,这时的卡方检验也称为分布拟合的卡方检验。
若样本分为k 类,每类实际观察频数为k f f f ,,,21 ,与其相对应的期望频数为
k
e e e ,,,21 ,则检验统计量2χ可以测度观察频数与期望频数之间的差
异。其计算公式为:
∑
∑
-=
-=
=期望频数
期望频数实际频数2
1
2
2
)
()
(k
i i
i i e e f χ
很显然,实际频数与望频数越接近,2χ值就越小,若2χ=0,则上式中分子的每—项都必须是0,这意味着k 类中每一类观察频数与期望频数完全一样,即完全拟合。2χ统计量可以用来测度实际观察频数与期望频数之间的拟合程度。
在H 0成立的条件下,样本容量n 充分大时,2χ统计量近似地服从自由度df =k-1的
2
χ分布,因而,可以根据给定的显著性水平α,在临界值表中查到
相应的临界值)1(2
-k αχ。若)1(2
2
-≥k αχχ
,则拒绝H 0,否则不能拒绝H 0。
所有的统计软件都可以输出检验统计量的显著性p 值,也可以根据显著性p 值和显著性水平α作比较,若α≤p ,则拒绝H 0,否则不能拒绝H 0。
另外卡方拟合优度检验也可以用来检验某总体是否服从某一特定分布的假设。拟合优度检验中几种常用分布的参数如表4-1:
表4-1 拟合优度检验中几种分布的参数
二、2χ独立性检验
假设有n 个随机试验的结果按照两个变量A 和B 分类,A 取值为A 1,A 2,…,A r ,B 取值为B 1,B 2,…,B s ,则形成了一张s r ⨯的列联表,称为s r ⨯二维列联
表。其中ij n 表示A 取A i 及B 取B j 的频数,n n r
1
i s
1
j ij =∑∑==,其中:
r ,...,2,1i ,n
n s
1j ij
i.==
∑=表示各行的频数之和
s ,...,2,1i ,n
n r
1
i ij
.j ==
∑=表示各列的频数之和
令)B B ,A A (P p j i ij ===(s ,...,2,1j ;r ,...,2,1i ==),.i p 和j .p 分别表示各行和各列的边缘概率,对于s r ⨯二维列联表,如果变量A 和变量B 是独立的,则A 和B 的联合概率应该等于A 和B 边缘概率的乘积。因而有如下检验:
j ..i ij 0p p p :H =
在H 0成立的条件下,s r ⨯二维列联表中的期望频数为:
n
n n e j
..i ij =
则∑∑
==-=
r
1
i s
1
j ij
2
ij ij 2e )
e n (χ
如果期望频数5e ij >,则2χ统计量近似服从自由度为)1s )(1r (--的卡方分布。如果Pearson 2χ值过大,或p 值过小,则拒绝H 0,认为变量A 和变量B 存在某种关联,即不是独立的;否则不能拒绝H 0,认为是独立的。
如果期望5e ij <,则需要将其合并使得期望频数5e ij >,否则容易夸大卡方统计量值,导致拒绝原假设的结论。
三、 2χ齐性检验
与2χ独立性检验类似的是2χ齐性检验。
实际问题中,假设有n 组从不同来源得到的数据,要判定这些数据的来源是否相同(相同的分布),统计上我们可以将这些问题表述为:
假定有k 组样本,分别取自k 个总体,要检验这k 个总体的分布是否相同。这样的假设检验问题称为“齐次性检验”。
对一般的s r ⨯二维列联表,可以提出假设:
is
i2i10p ...p p :H ===(r ,...,2,1i =)
在H 0成立的条件下,这些概率ij p 与j 无关,因此ij n 的期望值(理论频数)为ij j .p n ,n
n p .i .i =
,因此期望值n
n n p n e j
..i .i j .ij =
⨯=,则
2
χ
检验统计量为:
∑∑
==-=
r
1
i s
1
j ij
2
ij ij 2
e )
e n (χ