SAS讲义_第二十七课符号检验和Wilcoxon符号秩检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二十七课 符号检验和Wilcoxon 符号秩
检验
在统计推断和假设检验中,传统的检验统计量都叫做参数检验,因为它们都依赖于确定的概率分布,这个分布带有一组自由的参数。参数检验被认为是依赖于分布假定的。通常情况下,我们对数据进行分析时,总是假定误差项服从正态分布,这是人们易于接受的事实,因为正态分布的原始出发点就是来自于误差分布,至于当样本相当大时,数据的正态近似,这是由于大样本理论所保证的。但有些资料不一定满足上述要求,或不能测量具体数值,其观察结果往往只有程度上的区别,如颜色的深浅、反应的强弱等,此时就不适用参数检验的方法,而只能用非参数统计方法(non-parametric statistical analysis )来处理。这种方法对数据来自的总体不作任何假设或仅作极少的假设,因此在实用中颇有价值,适用面很广。
一、 单样本的符号检验
符号检验(sign test )是一种最简单的非参数检验方法。它是根据正、负号的个数来假设检验。首先需要将原始观察值按设定的规则,转换成正、负号,然后计数正、负号的个数作出检验。该检验可用于样本中位数和总体中位数的比较,数据的升降趋势的检验,特别适用于总体分布不服从正态分布或分布不明的配对资料,有时当配对比较的结果只能定性的表示,如试验前后比较结果为颜色从深变浅、程度从强变弱,成绩从一般变优秀,即不能获得具体数字,也可用符号检验,例如用正号表示颜色从深变浅,用负号表示颜色从浅变深。
用于配对资料时,符号检验的计算步骤为:首先定义成对数据指定正号或负号的规则,然后计数正号的个数+
S 及负号的个数-
S ,由于在具体比较配对资料时,可能存在配对资料的前后没有变化,或等于假设中的中位数,此时仅需要将这些观察值从资料中剔除,当然样本大小n 也随之减少,故修正样本大小-
+
+=S S n 。当样本n 较小时,应使用二项分布确切概率计算法,当样本n 较大时,常利用二项分布的正态近似。 1. 小样本时的二项分布概率计算
当20≤n 时,+S 或-
S 的检验p 值由精确计算尺度二项分布的卷积获得。在比较配对资
料试验前后有否变化,或增加或减小的假设检验时,如果我们定义试验后比试验前增加为正号,反之为负号,那么对于原假设:试验前后无变化来说,正号的个数+
S 和负号的个数-
S 可
能性应当相等,即正号出现的概率p =0.5,于是+S 与-
S 均服从二项分布)5.0,(n B ,对于太
大的+S 相应太小的-S ,或者太大的-S 相应太小的+
S ,都将拒绝接受原假设;对于原假设:试验后比试验前有增加来说,正号的个数+
S 大于负号的个数-
S 的可能性应该大,即正号出现的概率5.0>p ,对于太小的+
S 相应太大的-
S ,将拒绝接受原假设;对于原假设:试验后比试验前减小来说,正号的个数+
S 小于等于负号的个数-
S 的可能性应该大,即正号出现
的概率5.0≤p ,对于太大的+S 相应太小的-
S ,将拒绝接受原假设。
例27.1有一种提高学生某种素质的训练,有人说它是无效的,有人说它是有效的,那么真实情况究竟应该是怎样的呢?随机地选取15名学生作为试验样本,在训练开始前做了一次测验,每个学生的素质按优、良、中、及、差打分,经过三个月训练后,再做一次测试对每个学生打分。数据见表27.1所示。我们将素质提高用正号表示,反之用负号表示,没有变化用0表示。显著性水平取0.1。
表27.1 训练前后的素质比较
学生编号
训练之前 训练之后 差异符号 1 中 优 + 2 及 良 + 3 良 中 - 4 差 中 + 5 良 良 0 6 中 优 + 7 差 及 + 8 良 优 + 9 中 差 - 10 差 中 + 11 中 优 + 12 及 良 + 13 中 及 - 14 中 优 + 15
差
中
+
从表27.1中15名学生训练前后的差异分析可得出:有14名学生有差异,其中+
S =11,
-S =3。1名学生无差异(学生编号为5),应该从分析中去掉,所以n =15-1=14。假设检验
为:
5.0:0≤p H 即训练之后学生素质没有提高。 5.0:1>p H 即训练之后学生素质有提高。
由于试验的结果只有两种可能,正号或负号,对每一个学生试验出现正号的假定概率为p =0.5,负号为1—p =0.5,这样整个试验的概率是相同的,并且每一个试验是相互独立的。因此在n =14次独立的试验中,正号出现的次数服从二项分布)5.0,14(B ,见表27.2所示。
表27.2 二项分布的概率和累计概率n =14,p =0.5
正号出现的次数
正号出现的概率
累计概率 0 0.0001 0.0001 1 0.0009 0.0009 2 0.0056 0.0065 3
0.0222
0.0287
4 0.0611 0.0898
5 0.1222 0.2120
6 0.1833 0.3953
7 0.2095 0.6047
8 0.1833 0.7880
9 0.1222 0.9102 10 0.0611 0.9713 11 0.0222 0.9935 12 0.0056 0.9991 13 0.0009 0.9999 14
0.0001
1.0000
从表27.2的累计概率列中我们看到,正号出现的次数大于10的概率为1-0.9713=0.0287,或者换一种方法计算为=0.0001+0.0009+0.0056+0.0222=0.0287,二者的微小差异是因为小数点后舍入问题造成的。而试验的结果:正号出现的次数为11,大于10,出现的概率不会超过0.0287,我们开始设定的显著性水平为0.1,由于0.0287<0.1,所以我们拒绝原假设,接受备选假设。如果我们的原假设为p =0.5,既训练前后学生素质相等,那么就是双侧检验,应该加上正号出现的次数小于4的概率0.0287,即2×0.0287=0.0574<0.1,同样是拒绝原假设,接受区间为4次到10次,而拒绝区间为小于等于3次(小于4次)或大于等于11次(大于10 次)。 2. 大样本时的正态近似概率计算
当20>n 时,样本可以认为是大样本。我们可以利用二项分布的正态近似,即对于
),(~p n B S ,二项分布的期望均值为np ,方差为)1(p np -,当n 比较大时,且np 和)
1(p n -大于5,可以近似地认为
)1,0(~)
1(N p np np S z --=
(27.1)
公式中的S 表示正号或者负号的个数,符号检验时,p =0.5代入(27.1)式中,得到大样本时的正态近似统计量
)1,0(~5.05.0N n
n S z -=
(27.2)
当S >2/n 时,应该修正S 为S -0.5;当S <2/n 时,应该修正S 为S +0.5。S 值加或减的0.5是连续性修正因子,目的是为了能将连续分布应用到近似的离散型分布。
二、 配对资料的Wilcoxon 符号秩检验
当两组配对资料近似服从正态分布,它们差值的检验可以使用配对t 检验法。如果配对资料的正态分布的假设不能成立,就可以使用Frank Wilcoxon (1945)符号秩检验,它是一种非参数检验方法,对配对资料的差值采用符号秩方法来检验。它的基本要求是差值数据设置为最小的序列等级和两组配对资料是相关的(配成对)。在两组配对资料的差异有具体数值的情况下,符号检验只利用大于0和小于0的信息,即正号和负号的信息,而对差异大小所