(完整)非参数统计wilcoxon秩和检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Wilcoxon 秩和检验
Wilcoxon 符号秩检验是由威尔科克森(F·Wilcoxon)于1945年提出的.该方法是在成对观测数据的符号检验基础上发展起来的,比传统的单独用正负号的检验更加有效。1947年,Mann 和Whitney 对Wilcoxon 秩和检验进行补充,得到Wilcoxon —Mann-Whitney 检验,由后续的Mann-Whitney 检验又继而得到Mann —Whitney-U 检验。
一、 两样本的Wilcoxon 秩和检验
由Mann ,Whitney 和Wilcoxon 三人共同设计的一种检验,有时也称为Wilcoxon 秩和检验,用来决定两个独立样本是否来自相同的或相等的总体.如果这两个独立样本来自正态分布和具有相同方差时,我们可以采用t 检验比较均值。但当这两个条件都不能确定时,我们常替换t 检验法为Wilcoxon 秩和检验。
Wilcoxon 秩和检验是基于样本数据秩和。先将两样本看成是单一样本(混合样本)然后由小到大排列观察值统一编秩.如果原假设两个独立样本来自相同的总体为真,那么秩将大约均匀分布在两个样本中,即小的、中等的、大的秩值应该大约均匀被分在两个样本中。如果备选假设两个独立样本来自不相同的总体为真,那么其中一个样本将会有更多的小秩值,这样就会得到一个较小的秩和;另一个样本将会有更多的大秩值,因此就会得到一个较大的秩和。
设两个独立样本为:第一个x 的样本容量为1n ,第二个y 样本容量为2n ,在容量为21n n n +=的混合样本(第一个和第二个)中,x 样本的秩和为x W ,y 样本的秩和为y W ,且有
2)1(21+=
+++=+n n n W W y x (1)
我们定义 2
)1(111+-=n n W W x (2) 2)1(222+-=n n W W y (3)
以x 样本为例,若它们在混合样本中享有最小的1n 个秩,于是2
)1(11+=n n W x ,也是x W 可能取的最小值;同样y W 可能取的最小值为2
)1(22+n n 。那么,x W 的最大取值等于混合样本的总秩和减去y W 的最小值,即2)1(2)1(22+-+n n n n ;同样,y W 的最大取值等于2
)1(2)1(11+-+n n n n .所以,(2)和(3)式中的1W 和2W 均为取值在0与2122112
)1(2)1(2)1(n n n n n n n n =+-+-+的变量。当原假设为真时,所有的i x 和i y 相当于从同一总体中抽得的独立随机样本,i x 和i y 构成可分辨的排列情况,可看成一排n 个球随机地指定1n 个为x 球另2n 个为y
球,共有1n n C 种可能,而且它们是等可能的。基于这样分析,在原假设为真的条件下不难求出1W 和2W 的概率
分布,显然它们的分布还是相同的,这个分布称为样本大小为1n 和2n 的Mann —Whitney-Wilcoxon 分布。
一个具有实际价值的方法是,对于每个样本中的观察数大于等于8的大样本来说,我们可以采用标准正态分布z 来近似检验。由于1W 的中心点为2
21n n ,根据(28。2)式,x W 中心点μ为 2
)1(2)1(22111121++=++=n n n n n n n μ (4) x W 的方差2σ从数学上可推导出
12)1(21212++=n n n n σ (5)
如果样本中存在结,将影响到公式(28。5)中的方差,按结值调整方差的公式为
)1)((12)(12)1(212132121212-++--++=∑n n n n n n n n n n j j ττσ (6)
其中j τ第j 个结值的个数.结值的存在将使原方差变小,这是一个显然正确的事实。标准化后x W 为 )1,0(~)1)((12)(12)1(5.02)1(5
.021213212121211N n n n n n n n n n n n n n W W z j x x -++--++±++-
=±-=∑ττσμ (7)
其中分子加0。5或减0。5是为了对离散变量进行连续性修正,对于μ-x W 大于0减0。5修正,对于μ-x W 小于0加0.5修正。
<例>某航空公司的CEO 注意到飞离亚特兰大的飞机放弃预定座位的旅客人数在增加,他特别有兴趣想知道,是否从亚特兰大起飞的飞机比从芝加哥起飞的飞机有更多的放弃预定座位的旅客.获得一个从亚特兰大起飞的9次航班和从芝加哥起飞的8次航班上放弃预定座位的旅客人数样本,见表1中的第2列和第4列所示。
如果假定放弃预定座位旅客人数的总体是正态分布且有相等的方差,我们可以采用两样本比较的t 检验.但航空公司的CEO 认为这两个假设条件不能满足,因此采用非参数的Wilcoxon 秩和检验.将x 组与y 组看成是单一样本进行编秩,见表1中的第3列和第5列所示。,最小值是8秩值为1,最大值是25秩值为17,有两个结值10和11,两个10平均分享秩值3和4为3.5,两个11平均分享秩值5和6为5.5。如果两组放弃预定座位的旅客人数是相同的,那么我们期望的两组秩和x W 和y W 大约是相同的;如果两组放弃预定座位的旅客人数是不相同的,那么我们期望的两组秩和x W 和y W 也是非常不相同的.
注意到=1n 9,=2n 8,x W =96。5,y W =56。5,:0H 两组放弃预定座位旅客人数的分布是相同的。标准正态分布z 值的计算结果为
44515.1)189)(89(12)2828)(8(912)189)(8(95.02)189(95.96=-++-+--++-++-
=z 如果设定显著水平=α0.05,我们知道标准正态分布在0。05显著水平时,上临界值为1.645,下临界值为-1.645,由于1。445<1。645,所以不能拒绝原假设。
在使用Wilcoxon 秩和检验时,也可以采用第二个样本的秩和y W 来计算标准正态分布z 值,但要注意公式中1n 和2n 的对换。z 值的计算结果为
44515.1)189)(89(12)2828)(8(912)189)(8(95.02)189(85.56-=-++-+--+++++-
=z 由于-1.445>-1.645,所以得到是相同的结果,不能拒绝原假设。
另外,要特别注意的是由于在连续型分布中随机地抽出n 个样本,几乎极少可能存在有些值相等的情况,但在社会经济中有很多离散变量,很可能存在数值相同的情况,即样本中存在着“结”。我们处理“结”的方法采用分享平均秩,但当大量“结”存在时,将可能直接影响x W 的方差,因此需要把(5)式中的方差修正为
(6)。但在手工计算和结值不多的情况下,常使用未修正方差来简化计算,因为与修正方差的计算结果比较只存在一些小差异,大多数情况下不影响最终的推断结果.
二、 单因子非参数方差分析的npar1way 过程
单因子非参数方差分析的npar1way 过程是分析变量的秩,并计算几个基于经验分布的函数(EDF )和通过一个单因子分类变量的响应变量确定的秩得分的统计量。秩的得分计算分成四种:Wilcoxon 得分、中位数得分、Savage 得分和Van der Waerden 得分。然后再由秩得分计算简单的线性秩统计量,由这个秩统计量可以检验一个变量的分布在不同组中是否具有相同的位置参数,或者在EDF 检验下,检验这个变量分布在不同组中是否分布相同。秩得分的统计量也可以先用proc rank 过程计算秩得分,然后用proc anova 过程分析这些秩得分而得到。
1. 四种不同的秩得分计算
用以下公式定义的统计量