非参数统计第4章 两独立样本的非参数检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 两独立样本的非参数检验
在单样本位置问题中,人们想要检验的是总体的中心是否等于一个已知的值.但在实际问题中,更受注意的往往是比较两个总体的位置参数;比如。两种训练方法中哪一种更出成绩,两种汽 油中哪一个污染更少,两种市场营销策略中那种更有效等等.
作为一个例子.我国沿海和非沿海省市区的人均国内生产总值(GDP)的1997年抽样数据如下(单位为元).沿海省市区为(Y1,Y2,…,Y12): 15044 12270 5345 7730 22275 8447
9455 8136 6834 9513 4081 5500 而非沿海的为对(x1,x2,…,x18):
5163 4220 4259 6468 3881 3715 4032 5122 4130 3763 2093 3715 2732 3313 2901 3748 3731 5167
人们想要知道沿海和非沿海省市区的人均GDP 的中位数是否一样.这就是检验两个总体的位置参数是否相等的问题.
假定代表两个独立总体的随机样本(Y1,Y2,…,Y12)和(x1,x2,…,x18),则问题归结为检验它们总体的均值(或中位数)的差是否相等,或是否等于某个已知值.换言之,即检验
0H :021D =-μμ;1H : 021D ≠-μμ 0H :021D =-μμ;1H : 021D <-μμ
0H :021D =-μμ;1H : 021D >-μμ
在正态假定下,这些问题化为:)2(~11)(0-++
--=
m n t m
n
s D y x t
2
)
()(1
2
1
2
-+-+
-=
∑∑==n m y y
x x
S m
i i
n i i
t 检验并不稳健,在不知总体分布时,应用t 检验时会有风险的。
3.1 Brown-Mood 中位数检验
令沿海地区的人均GDP 的中位数为M X ,而内地的为M Y 。零假设为
0H :y x
M M
=;1H : y x
M M
>
显然,在零假设下,中位数如果一样的话,它们共同的中位数,即这(12十18)=30个数的样
本中位数(记为此xy
M
),应该对于每一列数据来说都处于中间位置.也就是说,(Y1,Y2,…,Y12)
和(x1,x2,…,x18)中大于或小于xy
M 的样本点应该大致一样多,计算他们的混合样本中位数为
4690.5。在用两个样本和xy
M 比较之后得到各个样本中大于和小于它的数目
A=在样本X 中大于xy
M
的样本点数,则
⎪⎪⎭
⎫ ⎝⎛+⎪⎪⎭
⎫
⎝⎛-⎪⎪⎭⎫ ⎝⎛=
=m n m k m n k m )k A (p 取=A 在样本X 中大于xy
M 的样本点数作为检验的统计量,则A 应该不大不小,如果A 太大或太
小,则应该怀疑原假设。
总体容量:30
总体中成功的次数:15 样本容量:12
样本中成功的次数:11
)a A (P ≥=)A (p )A (P 1211=+=
=0.000237+0.00000526=0.000242
3
50N
/)t N (mnt N /mt .A Z --±=
=3
30
153015181230151250/)(**/*.A --±=
=4.5/1.34=3.36
000390363.).Z (p p =>=
在前面一节,比较两个总体的中位数的检验时,只利用了样本大于或小于共同中位数的数目,
如同前面的单独符号秩检验一样,只有方向的信息,没有差异大小的信息。作为单样本的Wlicoxon 秩和检验的推广,下面我们讨论两个样本的Wlicoxon 秩和检验。
设(X1,X2,X3,…Xm )和(Y1,Y2,…,Yn )分别为两个连续总体Fx 和Fy 中随机抽取出来的样本,我们关心两个总体是否有相同的分布形状,或者他们的中位数是否相等。
y x
M M
:H =0
为了对假设作出判定, 如果H0为真,那么将m 个x 、n 个y 的数据,按数值的相对大小从小到大排序,X 、y 的值应该期望被很好地混合,这m 十n =N 个观察值能够被看作来自于共同总体的一个单一的随机样本。若大部分的y 大于X ,或大部分的x 大于y ,将不能证实这个有序的序列是一个随机的混合,将拒绝X 、y 来自一个相同总体的零假设。在X 、y 混合排列的序列中,X 占有的位置是相对于y 的相对位置,因此等级或秩是表示位置的一个极为方便的方法。在x 、y 的混合排列中,等级1是最小的观察值,等级N 是最大的。若X 的等级大部分大于y 的等级,那么数据将支持H 1:M x >M y ,而x 的等级大部分小于y 的等级,则数据将支持H 1:M x 检验统计量。根据上面的基本原理,检验统计量为 X W x =的秩和 Y W y =的秩和 由于X 、y 的混合序列的等级和为: 1+2+…+N=N (N+1)/2 所以+x W 2/)1(+=N N W y 检验的统计量: X W x =的秩和 注:等价的统计量: 如有第一个总体的样本:x1,x2,…,xm 和第二个总体的样本:以y1,y2, …,yn ,N=m+n 。 令Wyx 使把所有的y 观测值与x 观测值做比较后,x 大于y 的个数。令Wxy 使把所有的x 观测值与y 观测值做比较后,y 大于x 的个数 有 2 ) 1(++=n n W Wy xy 2 ) 1(++ =m m W Wx yx 我们来说明两个公式的成立。如仅仅将x1,x2,…,x n 排序后,其秩和为:m(m+1)/2。比如某个X i 是最小的,即1=x i R 。但是如果是两个总体的合在一起排序,不妨假设 i j k x y y << 故x 大于y 的个数为2,所以X i 的混合秩为21+=i R 。考虑所有的i ,则可得上面两式。可以证明: [ ]2 21)()(1 mn Y X I E W E m i m j m i n j j i yx == >= ∑∑∑∑= [ ] 12) 1()()(+=⎭ ⎬⎫⎩⎨⎧>=∑ ∑N mn Y X I E Var W Var m i n j j i yx 12)1()(+= N m W E X 12 ) 1()(+= N nm W Var X 12 )1()(+=N n W E y 12 ) 1()(+= N nm W Var y 则当n 足够大时,)1,0(~12/)1(2/N N mn mn W Z xy +-= )1,0(~12 /)1(2/)1(N N mn n N W Z y ++-= )1,0(~12 /)1(2/)1(N N mn m N W Z x ++-= 用前面的例题作为一个例子.我国沿海和非沿海省市区的人均国内生产总值(GDP)的1997年 抽样数据如下(单位为元).沿海省市区为(Y1,Y2,…,Y12):