非参数统计实验报告—两独立样本数据位置检验方法和尺度检验方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

非参数统计实验报告
一、实验目的及要求
学习两独立样本数据位置检验方法,包括Brown-Mood 检验,Man-Whitney 秩和检验,以及有打结情况的处理;尺度检验的方法,包括Mood 检验,Moses 检验。

掌握不同方法的适用条件(如Mood 检验假设两样本均值相等),检验原理,并能够运用R 软件进行操作求解。

二、环境
R 软件
三、原理
(一)Brown-Mood 检验
将Y X 、两样本混合,求混合数据的中位数xy M ,记录样本X 中大于xy M 的个数A ,A 的分布服从超几何分布,A 太小或太大时考虑拒绝原假设。

(只有方向的信息,没有差异大小的信息)
(二)Man-Whitney 秩和检验
假设,
来自于样本来自于样本)(,...,,Y ),(...,,2121b n a m y F Y Y x F X X X μμ--相互独立。

与并且n m Y Y Y X X X ,...,,,...,,2121把两样本混合,求混合数据的秩R ,计算样本1821...,,X X X 的秩和X W ,样本1821,...,,Y Y Y 的秩和Y W ,并进行比较。

其中
2
)1(,2)1(++=++=n n W W m m W W XY Y YX X ,),,(#i m n j YX I j I i X Y W ∈∈<=,表示混合数据中样本1821,...,,Y Y Y 小于样本1821...,,X X X 的个数。

如果X W 过大或者过小,那么数据将支持y H μμ>x 1:或者y H μμ<x 1:,将不能证明两样本形成的序列是一个随机的混合,将拒绝X 、Y 来自相同总体的零假设。

(充分利用差异大小的信息)
(三)Mood 检验
前提假定Y X 、两样本具有相同的均值,将Y X 、两样本混合,求混合数据
中样本X 的秩i R ,构造统计量∑=++-=m i i n m R M 12)2
1(,M 偏大,则样本X 的方差可能偏大,可以对大的M 拒绝零假设。

(四)Moses 检验
不需要假定Y X 、具有相同的均值,将样本X 随机均分为1m 组,每组k 个数据,计算每组的偏差平方和12,...,2,1,)(m r x x SSA r A x i r =-=
∑∈,将样本Y 随机均
分为2m 组,每组k 个数据,计算每组偏差平方和s SSB ,混合r SSA 和s SSB ,计算混合数据中r SSA 的秩和S ,计算统计量2
)1(11+-
=m m S T M ,如果M T 值很大,考虑拒绝原假设。

四、实验方案设计
(一)题目
4.4 两个不同学院教师一年的课时量分别为(单位:学时):
根据这两个样本,两个学院教师讲课的课时是否存在不同?估计这些差别。

从两个学院教师讲课的课时来看,教师完成讲课任务的情况是否类似?给出检验和判断。

(二)题目分析
鉴于Brown-Mood 检验仅利用了方向信息而没有利用差异信息,此题选择Man-Whitney 秩和检验方法检验两个学院教师讲课的课时是否存在不同。

因为Mood 检验假定两样本具有相同均值,初步观察数据认为亮学员教师讲课的课时均值不同,需要使用Moses 检验方法来检验教师完成讲课任务的情况是否类似。

但是,还是要根据Man-Whitney 检验的结果来说明是否可以使用Mood 检验。

(三)一般步骤
1.Man-Whitney 秩和检验
(1)提出假设:y x H μμ=:0 , y x H μμ≠:1
(2)给定显著性水平α,单样本容量n m ,
(3)计算统计量2
)1(++=m m W W YX X ,其中),,(#i m n j YX I j I i X Y W ∈∈<= (4)拒绝域为}{}{21r W r W X X ><或,由)(2)(21r W P r W P X X >==<α
确定21,r r
(5)如果是大样本,可以用正态分布近似,求x W 的均值2)1()(x ++=
m n m W E ,方差为 ∑∑∑=≠=++=+=n
i n i j j j i x x n m mn R R Cov R Var W Var 1)(112
)1(),()()(。

(6)在零假设下,若∞→n m ,,且λ→+n
m m ,则计算)1,0(12
/)1(2/)1(N n m mn m n m W Z x →++++-= (7)对于打结情况下的修正
)
1-)((12)(12/)1(2
/1(1i 3x n m n m mn n m mn n m m W Z g i g ++--++++-=∑∑=ττ),其中g 表示结的个数,τ
表示结长。

2.Moses 检验
(1)做出假设:210:σσ=H , 211:σσ≠H
(2)将样本X 随机均分为1m 组,每组k 个数据,计算样本均值X ;将样本Y 随机均分为2m 组,每组k 个数据,计算样本均值Y ;
(3)计算每个样本组的偏差平方和
12,...,2,1,)(m r x x SSA r A x i r =-=
∑∈ , 22,...,2,1,)(m s y y SSB Bs y i s i =-=
∑∈ (4)混合r SSA 和s SSB ,计算混合数据中r SSA 的秩和S ,计算统计量2)1(11+-
=m m S T M 。

五、实验过程
(一)Man-Whitney 秩和检验两学校教师授课课时是否存在不同
1.通过做折线图、boxplot 观察两组数据的特征,发现A 学校教师授课课时整体小于B 学校,但是需要进一步做中位数检验。

h<-c(1:18)
x<c(321,266,256,386,330,329,303,334,299,221,365,250,258,342,243,298,238,317)
y<c(488,593,507,428,807,342,512,350,672,589,665,549,451,492,514,391,366,469)
opar<-par(no.readonly=TRUE)
par(lwd=2,cex=1.5,b=2)
plot(h,y,type="b",pch=15,lty=1,col="red",ylim=c(200,900),main="A vs B") lines(h,x,type="b",pch=17,lty=2,col="blue")
legend("topright",inset=.05,title="school",c("B","A"),lty=c(1,2),pch=c(15,17),col =c("red","blue")) #红色的线表示B 学院,蓝色的线表示A 学院
par(opar)
2.作出假设: y x H μμ=:0 , y x H μμ<:1
3.计算统计量的值:
(1)利用R 软件把两样本数据混合,求混合数据的秩,计算出5.176x =W ,查表当,18,18==n m 时正态分布的临界值05.0q 为110,所以拒绝原假设,认为B 学院教师授课课时大于A 学院。

> c<-c(x,y) #将两学院数据混合
> rank(c) #求混合数据的秩
[1] 12.0 7.0 5.0 21.0 14.0 13.0 10.0 15.0 9.0 1.0 19.0 4.0 6.0 16.5
[15] 3.0 8.0 2.0 11.0 26.0 33.0 28.0 23.0 36.0 16.5 29.0 18.0 35.0 32.0
[29] 34.0 31.0 24.0 27.0 30.0 22.0 20.0 25.0
> w<-sum(rank(c)[1:18]) #求A 学校18个数据的秩和
> w
[1] 176.5
(2)因为每一个样本中都有18个数据,于是在没有注意到混合数据中有结的情况下,就用R 软件中的),(.y x test Wilcox 检验,发现有结存在,检验中警告:因为有结的存在不能够计算出准确的P 值,需要进行连续性调整。

(3)于是又在R 中自己计算标准正太分布的Z 值,并进行了相应的连续性修正,以及有结情况下方差的调整,得95176.4-=Z ,07e 677272.3-=P 。

最终拒绝原假设,认为A 学校的授课学时小于B 学校的授课学时。

> rank(x) #求A 学院数据的秩 [1] 12 7 5 18 14 13 10 15 9 1 17 4 6 16 3 8 2 11
> m<-max(rank(x)) #计算A 学院数据个数
> rank(y) #求解B 学院数据的秩
[1] 8 15 10 5 18 1 11 2 17 14 16 13 6 9 12 4 3 7
> n<-max(rank(y)) #求B 学院数据的个数
> u<-(m*(m+n+1))/2 #计算x W 的均值
> v<-(m*n*(m+n+1))/12 #计算x W 的方差
> t<-(m*n*6)/(12*(m+n)*(m+n-1)) #有结点的调整项
> p<-pnorm(w,u,sqrt(v-t))
> p
[1] 3.677272e-07
> z<-(w-u)/sqrt(v-t)
> z
[1] -4.95176
(二)Moses 检验两学校教师完成讲课任务情况是否相似
1.根据两样本位置检验的结果,决定要用Moses 检验学校教师完成讲课任务的情况;
2.假设:210:σσ=H ,211:σσ≠H
3.将样本X 随机均分为6组,每组3个数据,计算样本均值5556.297=X ;将样本Y 随机均分为6组,每组3个数据,计算样本均值2778.510=Y 。

> mean(x)
[1] 297.5556
> mean(y)
[1] 510.2778
> a<-rnorm(18,0,1) #利用正态分布产生一组随机数
> rank(a) #求随机数的秩
[1] 11 2 14 16 15 10 13 1 7 6 12 3 17 4 5 8 9 18
> b<-rank(a)
> b
[1] 11 2 14 16 15 10 13 1 7 6 12 3 17 4 5 8 9 18
> c<-x[b[1:3]] #利用随机数的秩将X 分组
> c
[1] 365 266 342
4. 计算每个样本组的偏差平方和
5. 混合r SSA 和s SSB ,计算混合数据中r SSA 的秩和25=S ,r SSB 的秩和53
=S 计算322/)1(11=+-=m m S T B M ,30*025.021975.0=-=W m m W ,974.0W T M ≥,所
以不能拒绝1H ,认为两学院教师授课课时完成情况存在差异。

六、实验总结
(一)题目结论
1.经Man-Whitney 检验,95176.4-=Z ,07e 67727
2.3-=P ,两学校教师授课课时存在明显差异,认为A 学校的授课学时小于B 学校的授课学时。

2经Moses 检验,974.0W T M ≥,说明两学院教师授课课时完成情况存在差异,B 学院完成情况波动性大于A 学院。

(二)实验总结
1. 用R 软件中的),(.y x test Wilcox 检验,有结的存在不能够计算出准确的P 值,需要进行连续性调整。

2.在进行Moses 检验时,数据随机分组遇到问题。

后来自己随机分组发现结果并不能拒绝原假设,可能是因为数据太少,可能是因为随机分组不当造成的误差。

于是又利用正态分布产生18个随机数,利用18个随机数的秩将两组样本数据重新分组,重新计算结果可以拒绝原假设。

相关文档
最新文档