第4章 两独立样本的非参数检验(非参数统计,西南财大)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三章 两独立样本的非参数检验

在单样本位置问题中,人们想要检验的是总体的中心是否等于一个已知的值.但在实际问题中,更受注意的往往是比较两个总体的位置参数;比如。两种训练方法中哪一种更出成绩,两种汽 油中哪一个污染更少,两种市场营销策略中那种更有效等等.

作为一个例子.我国沿海和非沿海省市区的人均国内生产总值(GDP)的1997年抽样数据如下(单位为元).沿海省市区为(Y1,Y2,…,Y12): 15044 12270 5345 7730 22275 8447

9455 8136 6834 9513 4081 5500 而非沿海的为对(x1,x2,…,x18):

5163 4220 4259 6468 3881 3715 4032 5122 4130 3763 2093 3715 2732 3313 2901 3748 3731 5167

人们想要知道沿海和非沿海省市区的人均GDP 的中位数是否一样.这就是检验两个总体的位置参数是否相等的问题.

假定代表两个独立总体的随机样本(Y1,Y2,…,Y12)和(x1,x2,…,x18),则问题归结为检验它们总体的均值(或中位数)的差是否相等,或是否等于某个已知值.换言之,即检验

0H :021D =-μμ;1H : 021D ≠-μμ 0H :021D =-μμ;1H : 021D <-μμ

0H :021D =-μμ;1H : 021D >-μμ

在正态假定下,这些问题化为:)2(~1

1)(0-++--=

m n t m

n s D y x t

2

)()(1

2

1

2

-+-+-=

∑∑==n m y y x x

S m

i i n

i i

t 检验并不稳健,在不知总体分布时,应用t 检验时会有风险的。

3.1 Brown-Mood 中位数检验

令沿海地区的人均GDP 的中位数为M X ,而内地的为M Y 。零假设为

0H :y x M M =;1H : y x M M >

显然,在零假设下,中位数如果一样的话,它们共同的中位数,即这(12十18)=30个数的样本中位数(记为此xy M ),应该对于每一列数据来说都处于中间位置.也就是说,(Y1,Y2,…,Y12)和(x1,x2,…,x18)中大于或小于xy M 的样本点应该大致一样多,计算他们的混合样本中位数为

4690.5。在用两个样本和xy M 比较之后得到各个样本中大于和小于它的数目

A=在样本X 中大于xy M 的样本点数,则

⎪⎪⎭

⎫ ⎝⎛+⎪⎪⎭⎫

⎝⎛-⎪⎪⎭⎫ ⎝⎛=

=m n m k m n k m )k A (p

取=A 在样本X 中大于xy M 的样本点数作为检验的统计量,则A 应该不大不小,如果A 太大或太小,则应该怀疑原假设。

总体容量:30 总体中成功的次数:15 样本容量:12 样本中成功的次数:11

)a A (P ≥=)A (p )A (P 1211=+=

=0.000237+0.00000526=0.000242

3

50N

/)t N (mnt N /mt .A Z --±=

=3

30

153015181230151250/)(**/*.A --±=

=4.5/1.34=3.36

000390363.).Z (p p =>=

在前面一节,比较两个总体的中位数的检验时,只利用了样本大于或小于共同中位数的数目,如同前面的单独符号秩检验一样,只有方向的信息,没有差异大小的信息。作为单样本的Wlicoxon 秩和检验的推广,下面我们讨论两个样本的Wlicoxon 秩和检验。

设(X1,X2,X3,…Xm )和(Y1,Y2,…,Yn )分别为两个连续总体Fx 和Fy 中随机抽取出来的样本,我们关心两个总体是否有相同的分布形状,或者他们的中位数是否相等。

y x M M :H =0

为了对假设作出判定, 如果H0为真,那么将m 个x 、n 个y 的数据,按数值的相对大小从小到大排序,X 、y 的值应该期望被很好地混合,这m 十n =N 个观察值能够被看作来自于共同总体的一个单一的随机样本。若大部分的y 大于X ,或大部分的x 大于y ,将不能证实这个有序的序列是一个随机的混合,将拒绝X 、y 来自一个相同总体的零假设。在X 、y 混合排列的序列中,X 占有的位置是相对于y 的相对位置,因此等级或秩是表示位置的一个极为方便的方法。在x 、y 的混合排列中,等级1是最小的观察值,等级N 是最大的。若X 的等级大部分大于y 的等级,那么数据将支持H 1:M x >M y ,而x 的等级大部分小于y 的等级,则数据将支持H 1:M x

检验统计量。根据上面的基本原理,检验统计量为

X W x =的秩和 Y W y =的秩和

由于X 、y 的混合序列的等级和为:

1+2+…+N=N (N+1)/2

所以+x W 2/)1(+=N N W y 检验的统计量:

X W x =的秩和

注:等价的统计量:

如有第一个总体的样本:x1,x2,…,xm 和第二个总体的样本:以y1,y2, …,yn ,N=m+n 。 令Wyx 使把所有的y 观测值与x 观测值做比较后,x 大于y 的个数。令Wxy 使把所有的x 观测值与y 观测值做比较后,y 大于x 的个数

有 2

)

1(++=n n W Wy xy 2

)

1(++

=m m W Wx yx 我们来说明两个公式的成立。如仅仅将x1,x2,…,x n 排序后,其秩和为:m(m+1)/2。比如某个X i 是最小的,即1=x

i R 。但是如果是两个总体的合在一起排序,不妨假设

i j k x y y <<

故x 大于y 的个数为2,所以X i 的混合秩为21+=i R 。考虑所有的i ,则可得上面两式。可以证明:

[]

2

21)()(1

mn

Y X I E W E m i m

j

m i

n

j

j i yx ==>=∑∑

∑∑= []

12)

1()()(+=⎭

⎬⎫⎩⎨⎧>=∑∑N mn Y X I E Var W Var m i n j j i yx

12)1()(+=N m W E X 12)

1()(+=N nm W Var X 12)1()(+=

N n W E y 12

)

1()(+=N nm W Var y 则当n 足够大时,)1,0(~12/)1(2/N N mn mn W Z xy +-=

)1,0(~12/)1(2/)1(N N mn n N W Z y ++-=

)1,0(~12

/)1(2/)1(N N mn m N W Z x ++-=

用前面的例题作为一个例子.我国沿海和非沿海省市区的人均国内生产总值(GDP)的1997年抽样数据如下(单位为元).沿海省市区为(Y1,Y2,…,Y12):

相关文档
最新文档