非参数统计第4章 两独立样本的非参数检验
非参数统计实验报告—两独立样本数据位置检验方法和尺度检验方法
非参数统计实验报告一、实验目的及要求学习两独立样本数据位置检验方法,包括Brown-Mood 检验,Man-Whitney 秩和检验,以及有打结情况的处理;尺度检验的方法,包括Mood 检验,Moses 检验。
掌握不同方法的适用条件(如Mood 检验假设两样本均值相等),检验原理,并能够运用R 软件进行操作求解。
二、环境R 软件三、原理(一)Brown-Mood 检验将Y X 、两样本混合,求混合数据的中位数xy M ,记录样本X 中大于xy M 的个数A ,A 的分布服从超几何分布,A 太小或太大时考虑拒绝原假设。
(只有方向的信息,没有差异大小的信息)(二)Man-Whitney 秩和检验假设,来自于样本来自于样本)(,...,,Y ),(...,,2121b n a m y F Y Y x F X X X μμ--相互独立。
与并且n m Y Y Y X X X ,...,,,...,,2121把两样本混合,求混合数据的秩R ,计算样本1821...,,X X X 的秩和X W ,样本1821,...,,Y Y Y 的秩和Y W ,并进行比较。
其中2)1(,2)1(++=++=n n W W m m W W XY Y YX X ,),,(#i m n j YX I j I i X Y W ∈∈<=,表示混合数据中样本1821,...,,Y Y Y 小于样本1821...,,X X X 的个数。
如果X W 过大或者过小,那么数据将支持y H μμ>x 1:或者y H μμ<x 1:,将不能证明两样本形成的序列是一个随机的混合,将拒绝X 、Y 来自相同总体的零假设。
(充分利用差异大小的信息)(三)Mood 检验前提假定Y X 、两样本具有相同的均值,将Y X 、两样本混合,求混合数据中样本X 的秩i R ,构造统计量∑=++-=m i i n m R M 12)21(,M 偏大,则样本X 的方差可能偏大,可以对大的M 拒绝零假设。
两个独立样本的4种非参数检验方法
两个独立样本的4种非参数检验方法1、两独立样本的Mann-Whitney U检验定义:两独立样本的非参数检验是在对总体分布不很了解的情况下,通过分析样本数据,推断样本来自的两个独立总体分布是否存在显著差异。
一般用来对两个独立样本的均数、中位数、离散趋势、偏度等进行差异比较检验。
Mann-Whitney U检验(Wilcoxon秩和检验)主要通过对平均秩的研究来实现推断。
秩:将数据按照升序进行排序,每一个具体数据都会有一个在整个数据中的名次或排序序号,这个名次就是该数据的秩。
相同观察值(即相同秩,ties),取平均秩。
两独立样本的Mann-Whitney U检验的零假设H0:两个样本来自的独立总体均值没有显著差异。
将两组样本(X1 X2 …… X m)(Y1 Y2…… Y n)混合升序排序,每个数据将得到一个对应的秩。
计算两组样本数据的秩和W x,W y 。
N=m+n Wx+Wy=N(N+1)/2如果H0成立,即两组分布位置相同,W x应接近理论秩和m(N+1)/2;W y 应接近理论秩和n(N+1)/2)。
如果相差较大,超出了预定的界值,则可认为H0不成立。
2、两独立样本的K-S检验两独立样本的K-S检验与单样本K-S检验类似。
其零假设H0:样本来自的两独立总体分布没有显著差异。
检验统计量 D 为两个样本秩的累积分布频率的最大绝对差值。
当D较小时,两样本差异较小,两样本更有可能取自相同分布的总体;反之,当D较大时,两样本差异变大,两样本更有可能取自不同分布。
3、两独立样本的游程检验(Wald-Wolfwitz Runs)零假设是H0:为样本来自的两独立总体分布没有显著差异。
样本的游程检验中,计算游程的方法与观察值的秩有关。
首先,将两组样本混合并按照升序排列。
在数据排序时,两组样本的每个观察值对应的样本组标志值序列也随之重新排列,然后对标志值序列求游程。
SPSS将自动计算游程数得到Z统计量,并依据正态分布表给出对应的相伴概率值。
两独立样本t检验和非参数检验的实证分析
两独立样本t检验和非参数检验的实证分析摘要:教学质量是靠具体课程完成,课程的建设是教学质量提升的重要环节和基本保证。
本文简述了概率论与数理统计重点课程建设的必要性,重点在于对课程建设前后分层随机抽样得来的样本进行实证分析。
实证分析主要从基本统计分析、参数检验、非参数检验三个大的方面进行,尤其是非参数检验方面,又具体利用了三种不同的检验法进行分析推断。
关键词:t检验;非参数检验;显著性水平;频数分析概率论与数理统计是我国高等院校理工类、经济类、管理类各专业的一门重要公共课程,同时也是一门应用广泛,适用性强的工具课。
此门课程的教学为学生的其他专业课及其将来毕业后的工作、继续深造等方面奠定必要的数学,而且对培养学生的逻辑思维能力、分析判断问题能力、统计观点、应用能力和创新能力均有着特殊而又重要的作用,是培养高素质综合型人才的重要保证。
笔者本身是东华理工大学理学院的一线教师,这两年来,同时在江西财经大学统计学院读研究生。
在此期间,笔者主持的“概率论与数理统计”重点课程建设项目小组一直在努力的探索和研究,收获了一些成果。
本文的主要目的是针对进行重点课程建设这几年来,对搜集到的学生该门课程的考试成绩从统计学的角度进行实证分析。
尤其是从参数检验和非参数统计两个重要角度进行探究,论证这几年来进行课程建设是否让学生成绩取得了明显的提高。
一、基本统计分析对数据的分析首先从基本统计分析入手。
通过基本统计分析,掌握数据的基本统计特征,同时迅速把握数据的总体分布形态。
而基本统计分析往往先从频数分析开始,由于成绩数据均为定距型数据,直接采用频数分析不利于对其分布形态的把握,因此先对数据分组后再进行频数分析。
SPSS频数分析的操作如下:选择菜单【Analyze】→【Decriptive】→【Frequencie】,结果如下:从上面的统计表中可以看出,进行重点课程建设后,平均分有了明显的提高,而且从频数分布表可以看出,第3组第4组即中高分数段百分数有了明显提升。
SPSS学习笔记之——两独立样本的非参数检验
一、概述
Mann-Whitney U 检验是用得最广泛的两独立样本秩和检验方法。
简单的说,该检验是与独立样本t检验相对应的方法,当正态分布、方差齐性等不能达到t 检验的要求时,可以使用该检验。
其假设基础是:若两个样本有差异,则他们的中心位置将不同。
二、问题
为了研究某项犯罪的季节性差异,警察记录了10年来春季和夏季的犯罪数量,请问该项犯罪在春季和夏季有无差异。
下面使用Mann-Whitney U检验进行分析。
SPSS版本为20。
三、统计操作
SPSS变量视图:
SPSS数据视图:
进入菜单如下图:
点击进入如下的界面,“目标”选项卡不需要手动设置
进入“字段”选项卡,将“报警数量”选入“检验字段”框,将“季节”选入“组”框中。
再进入“设置”选项卡,选中“自定义检验”单选按钮,选择“Mann-Whitney U(二样本)”检验。
点击“运行”即可。
四、结果解读
这是输出的主要结果,零假设是“报警数量的分布在季节类别上相同”,其P=0.009<0.05,故拒绝原假设,认为报警数量在季节上有统计学差异。
双击该表格,可以得到更多的信息,不再叙述。
非参数统计_第四章 单样本非参数检验_new
总体是否服从制定p值二项分布的方法,具体过程如下:
二项分布检验
(1)建立零假设和备选假设 ������0 :样本来自的总体服从指定p值的二项分布; ������1 :样本来自的总体不服从指定p值的二项分布。 (2)构造统计量 当样本数量������ ≤ 20时,令θ为n-k和k的较大者,根据样本数量n,显著性水平 α和p值,通过查二项分布临界值表,确定θ临界值的上界。 当������ > 20时,可以构造统计量 ������ =
在管理实践中,很多管理学的问题都可以抽象为单样本检验问题,
因此单样本非参数检验也随着管理科学研究的深入得到广泛应用。
卡方检验
一、卡方检验
(一)、分类数据的 拟合优度检验
2
对总体分布的形式建立假设并进行检验。这一类检验问题统称为
分布的拟合检验,它们是一类非参数检验问题。
我们从一个在生物学中很有名的例子开始。 例 在19世纪,孟德尔按颜色与形状把豌豆分为四类:黄圆、绿圆、 黄皱和绿皱。孟德尔根据遗传学原理判断这四类的比例应为9:3:3:1。 为做验证,孟德尔在一次豌豆实验中收获了n=556个豌豆,其中这四 类豌豆的个数分别为315,108,101,32。该数据是否与孟德尔提出 的比例吻合?
为α时,否定域为Θ = ������| ������ > ������1−������ 。
2
(4)计算统计量和做出统计决策 当������ ≤ 20时,若θ超过临界值的上界,拒绝零假设;否则,接受零假设。
当������ > 20时,计算出统计量Z的值。如果统计量的值落在否定域中,拒绝零
双样本尺度参数的四种非参数检验方法
|
|
较大时, ∑ A2 i 的渐近正态分布见表 4。
i=1
m
计算, 见表 1、 2。 由于赋予极大和极小值的秩都很小, 当 F N 的值较小, 则样本 X1, X2,⋯, X m 分布比较分散。如果 F N 的值较大, 则样本 X1, X2,⋯, X m 分布比较集中; 对于双侧检验, 给定的 食品包装机器在包装食品时, 每盒食品的平均包装量 (单位: 千克) 必须稍微超出食品包装盒上所贴的含量, 每台 显著性水平 α , 样本容量较小时 ( m + n < 20 ) , 可以查 “Anα 机器在包装食品时可能会造成不可避免的变化量, 为了检验 sari-Bradley 检验” 表, 得到临界值 c1( P ( F N c1) = 1 - 2 ) 和 c2 ( P ( F N c2) = α 2 ), 若 F N < c1 或 表 4 大样本渐近条件下 4 种尺度参数的非参数检验的统计量、 均值和方差 F N > c2 , 则拒绝原假设。当样本容量较大 时, F N 的渐近正态分布见表 4。 1.3 Siegel-Turkey 检验 将 n + m 个 X 和 Y 的混合样本按照大 小排序, 按照下表中方式重新定义混合样本 中观测值的秩 a i , 见表 3。 和 Ansari-Bradley 检验相似, 由于赋予 极大和极小值的秩都很小, 因此当 S N 的值 较小, 样本 X1, X2,⋯, X m 分布比较分散; 如 果 S N 的值较大, 则样本 X1, X2,⋯, X m 分布 比 较 集 中 。 当 样 本 容 量 较 小 时 , ( m n 20 ) , 查 “Wilcoxon 秩和统计量的相
理论新探
双样本尺度参数的四种非参数检验方法
SPSS在两独立样本非
在【Two-Independent-Samples Tests(两个独立样本检验)】对话框左侧的 候选变量中选择分组变量,将其添加至【Grouping Variable(s)(分组变量)】 文本框中,目的是要区分检验变量的不同组别。单击 【Grouping Variables】 按钮,在弹出的对话框的【Group1(组1)】和【Group2(组2)】文本框中分 别输入整数值,这两个值确定的分组将选择的检验变量的观测值分为两组 或者分成两个样本,并将检验变量的其他数值排除在检验分析之外。设置 完成后,单击【Continue】按钮,返回主对话框。
Step02:选择检验变量
在【Two-Independent-Samples Tests(两个独立样本检验)】对话框左侧的 候 选 变 量 列 表 框 中 选 择 一 个 或 几 个 变 量 , 将 其 添 加 至 【Test Variable List(检验变量列表)】列表框中,这里表示需要进行两独立样本检验的变 量。
Fuji Bank
213
Sumitomo
64
Chemical 666
Seibu Railway 33
Shiseido
68
Todo Gas
Gannet
19
Motorola
24
Schlumberger
24
Oracle Systems
43
Gap
22
Winn-Dixie
14
Ingersoll-Rand
21
American Electric 14
主要是比较日本和美国公司的平均市盈率是否相同,所以采用 曼-惠特尼U检验方法。
Step01:打开对话框
非参数统计教学中两独立样本位置的非参数检验
的混合 , 将拒绝 X、 Y来 自一个相 同总体的零假设 。 根据上面的基本原理 ,令 表示混合样本中 y观测
Ap p l i c a t i o n o f R S t a t i s t i c a l S o f t wa r e i n t h e S at t i s t i c s
Ab s t r a c t T w o s a mp l e s t e s t i s o t f e n me e t i n b i o me d i c a l ,q u a l i t y e v a l u a t i o n a n d o t h e r f i e l d s . We c o mmo n l y u s e d t h e U t e s t a n d t t e s t t o s o l v e t h e p r o b l e m. B u t t h e d a t a d o n o t me e t t h e s e c o n d i - t i o n s o f U t e s t o r t t e s t . T h e n o n p a r a me t r i c t e s t p r o v i d e s a mo r e e f e c t i v e me t h o d t o s o l v e t h i s k i n d o f p r o b l e m. I n t h i s p a p e r , w e i n t r o d u c e t h e n o n p a r a me t r i e t e s t o f t wo i n d e p e n d e n t s a mp l e s b y c o mb i n i n g t h e t e a c h i n g c a s e wi t h R s o f t wa r e . Ke y wo r d s n o n p a r a me t r i e s t a t i s t i e s ; n o n p a r a me t r i c t e s t ; R s o f t - w a r e ; Ma n n — — Wh i t n e y — - Wi l c o x o n t e s t
SPSS非参数检验—两独立样本检验_案例解析
SPSS非参数检验—两独立样本检验_案例解析非参数检验是一种不基于总体分布特征的统计方法,适用于数据分布未知、非正态分布或无法满足参数检验假设的情况。
其中一种非参数检验是两独立样本检验,用于比较两组独立样本之间的统计差异。
本篇文章将结合案例解析,详细介绍SPSS软件中如何进行非参数检验的两独立样本检验。
案例背景:工厂生产两种不同形状的零件,为了比较两种零件的尺寸是否存在差异,随机选取了30个零件进行测量。
现在需要使用两独立样本检验来研究这两种零件的尺寸是否存在显著差异。
步骤一:数据导入首先,将收集到的数据导入SPSS软件中。
数据包括两个变量:零件类型(Group)和尺寸(Size)。
将数据按照Excel或CSV格式保存,然后在SPSS中选择"文件"->"导入"->"数据",选择导入文件,并进行数据格式定义。
步骤二:描述性统计分析在进行假设检验之前,首先进行描述性统计分析,以了解样本数据的基本特点。
在SPSS中,选择"分析"->"描述性统计"->"描述性统计",将"Size"变量拖入"变量"框中,然后点击"统计"按钮,选择要统计的统计量(如均值、标准差等),最后点击"确定"按钮进行计算。
步骤三:正态性检验在进行非参数检验之前,需要进行正态性检验,以确定数据是否满足参数检验的假设。
在SPSS中,选择"分析"->"非参数检验"->"单样本分布检验",将"Size"变量拖入"变量"框中,然后点击"选项"按钮,选择要进行的正态性检验方法,如Kolmogorov-Smirnov检验或Shapiro-Wilk检验等。
两独立样本非参数检验-精选文档
SPSS提供了4种两独立样本的非参数检验方法。
Evaluation only. ted with Aspose.Slides for .NET 3.5 Client Profile 5.2 Copyright 2019-2019 Aspose Pty Ltd.
1.两独立样本的Mann-Whitney U检验
Mann-Whitney U检验(Wilcoxon秩和检验)主 要通过对平均秩的研究来实现推断。
秩:将数据按照升序进行排序,每一个具体数 Evaluation only. ted据都会有一个在整个数据中的名次或排序序号, with Aspose.Slides for .NET 3.5 Client Profile 5.2 这个名次就是该数据的秩。 Copyright 2019-2019 Aspose Pty Ltd. 相同观察值(即相同秩,ties),取平均秩。 两独立样本的Mann-Whitney U检验的零假设 H0:两个样本来自的独立总体均值没有显著差 异。
10.5 两独立样本非参数检验 10.5.1 统计学上的定义和计算公式
定义:两独立样本的非参数检验是在对总 体分布不很了解的情况下,通过分析样本数据, Evaluation only. ted 推断样本来自的两个独立总体分布是否存在显 with Aspose.Slides for .NET 3.5 Client Profile 5.2 著差异。一般用来对两个独立样本的均数、中 Copyright 2019-2019 Aspose Pty Ltd. 位数、离散趋势、偏度等进行差异比较检验。
将两组样本(X1 X2 …… Xm)(Y1 Y2 …… Yn) 混合升序排序,每个数据将得到一个对应的秩。 计算两组样本数据的秩和 x ,W y 。 EvaluationWonly. Wx+Wy= N(N+1)/2 ted N=m+n with Aspose.Slides for .NET 3.5 Client Profile 5.2 Copyright 2019-2019 Aspose Pty 如果 H0成立,即两组分布位置相同, WxLtd. 应接近 理论秩和 m(N+1)/2; Wy应接近理论秩和 n(N+1)/2)。 如果相差较大,超出了预定的界值,则可认为 H0不成立。
两独立样本的非参数检验_数据分析方法及应用──基于SPSS和EXCEL环境_[共3页]
140图3-65 多关联样本的非参数检验图3-66 多关联样本的差异显著性检验结果由于Kendall W的值仅有0.055,这说明尽管这4个科目的成绩存在着显著的差异,但其值的差别并不太大。
3.多关联样本非参数检验的补充说明在多关联样本的非参数检验中,SPSS提供了3种“检验类型”,以适应不同数据序列的特点。
在针对非正态分布的多关联样本实施差异显著性检验时,需要根据数据的本身特征,正确地选择合适的分析算法。
3.4.4 两独立样本的非参数检验1.两独立样本非参数检验的概念(1)两独立样本非参数检验对样本分布的要求对不满足正态分布的两独立样本,如需要分析其是否存在显著性差异,不可以通过均值比较其差异性,通常是通过分布形态或秩分比较其差异性。
对于两独立样本的非参数检验,对数据序列主要有以下要求。
①样本数据来源于同一总体;②样本数据不满足正态分布、或样本的测量区分度不高;③样本数据可被另外的分组变量划分为两组。
(2)两独立样本非参数检验的方法对于两独立样本的非参数检验,主要有以下几种方法。
① Wilcxon W等级和检验(Mann-Whitney U)Wilcxon W(威尔克科逊)等级和检验,也叫曼-惠特尼U检验。
其基本思路是:把全部样本混在一起求秩,然后根据两组样本的秩分情况判断是否存在差异。
曼-惠特尼U检验本质上是一种通过比较两个样本秩分情况而获得差异显著性检验结论的一种检验技术。
本算法适应于定距数据和定序数据。
②摩西极端反映的差异检验(Moses Extreme reaction)摩西极端反映检验,即摩西极端反映的差异显著性检验,即对全体样本混合求秩分,根据两。
两独立样本非参数检验
两独立样本非参数检验在统计学的领域中,两独立样本非参数检验是一种重要的分析方法,它为我们在处理不同样本数据时提供了有力的工具。
那么,什么是两独立样本非参数检验呢?简单来说,就是在我们研究两个相互独立的样本,且这些样本的数据不符合正态分布或者我们不知道其分布形态时,所采用的一类检验方法。
为什么我们会需要这种检验方法呢?想象一下这样的场景,我们想要比较两个不同地区的居民收入水平。
但是,经过初步观察,发现这些收入数据的分布并不规则,不像是常见的正态分布。
这时候,如果我们强行使用基于正态分布假设的参数检验方法,很可能会得出错误的结论。
所以,两独立样本非参数检验就派上用场了。
常见的两独立样本非参数检验方法有很多,比如曼惠特尼 U 检验、威尔科克森秩和检验以及克瓦氏 H 检验等。
先来说说曼惠特尼 U 检验。
它的基本思想是将两个样本混合起来进行排序,然后分别计算每个样本的秩和。
通过比较这两个秩和的差异,来判断两个样本是否来自同一个总体。
假设我们有两个样本 A 和 B,样本 A 包含{12, 15, 18, 20, 25},样本 B 包含{10, 13, 16, 19, 22}。
首先,我们把这两个样本混合起来,从小到大排序:{10, 12, 13, 15, 16, 18, 19, 20, 22, 25}。
然后,给每个数据赋予秩,最小的数秩为 1,次小的数秩为 2,以此类推。
得到秩之后,计算样本 A 的秩和以及样本 B的秩和。
最后,根据相应的公式和统计量,判断两个样本是否有显著差异。
威尔科克森秩和检验呢,与曼惠特尼 U 检验有些相似,但它更侧重于关注两个样本中数据的相对大小关系。
还是用刚才的例子,如果在威尔科克森秩和检验中,我们会计算样本 A 中每个数据大于样本 B 中数据的个数,以及样本 B 中每个数据大于样本 A 中数据的个数,从而得出检验结果。
克瓦氏 H 检验则适用于多组独立样本的情况。
比如我们要比较三个不同城市居民的收入水平,就可以用克瓦氏 H 检验。
非参数统计课程《非参数统计》课程教学大纲模板3.1教学大纲
非参数统计》课程教学大纲课程编号:06542 制定单位:统计学院制定人(执笔人):潘文荣审核人:徐海云制定(或修订)时间:2014年2月28日江西财经大学教务处《非参数统计》课程教学大纲、课程总述、教学时数分配三、单元教学目的、教学重难点和内容设置第一章绪论教学目的】理解非参数统计学习目的和内容。
重点难点】学习非参数统计学的应用意义,明确非参数统计的优缺点。
教学内容】第一节测量的层次第二节假设测验的回顾第三节非参数统计方法第二章单个样本的非参数检验【教学目的】了解符号检验、Wilcoxon 检验、正态计分检验、Cox-Start 趋势检验、游程经验的原理和计算方法,并进行上机操作。
【重点难点】符号检验、游程检验、Wilcoxon 检验的原理和计算方法。
【教学内容】第一节符号检验第二节Wilcoxon 检验第三节正态计分检验第四节Cox-Start 趋势检验第五节游程经验第三章两个相关样本的非参数检验【教学目的】了解符号检验、Wilcoxon 检验在两个相关中的检验,并进行上机操作。
【重点难点】在上一章学习的知识进一步应用到相关处理的比较上。
【教学内容】第一节符号检验第二节Wilcoxon 符号秩检验第四章两个独立样本的非参数检验【教学目的】了解Brown-mood 中位数检验的原理及计算方法,并进行上机操作。
【重点难点】秩和检验的原理和方法【教学内容】第一节Brown-mood 中位数检验第二节秩和检验第五章多个相关样本的非参数检验【教学目的】了解Cochran检验、Friedman检验的原理及计算方法,并进行上机操作。
【重点难点】Fiedman 检验的原理和方法【教学内容】第一节Cochran 检验第二节Friedman 检验第六章多个独立样本的非参数检验【教学目的】了解Kruskal-Wallis 检验、正态计分检验的原理及计算方法,并进行上机操作。
【重点难点】独立样本比较的非参数统计方法。
非参数统计实验(全)新
第四章 非参数统计实验参数统计学中的许多统计分析方法的应用对总体都有严格的假定,例如,t 检验要求总体服从正态分布,F 检验要求误差呈正态分布且各组方差为齐性的等等,然而在现实生活中,有许多总体的分布我们却是一无所知或知之甚少,所以在参数模型中所建立的统计推断就会失效,于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。
这就是非参数统计的宗旨。
非参数统计方法简便,适用性强,但检验效率较低,应用时应加以考虑。
实验一 卡方检验(Chi-square test )实验目的:掌握卡方检验方法。
实验内容:一、2χ拟合优度检验 二、2χ独立性检验 三、2χ齐性检验 实验工具:SPSS 非参数统计分析菜单项和Crosstabs 菜单项。
知识准备:一、卡方拟合优度检验2χ检验(Chi —Square Test) 适用于拟合优度检验,适用于定类变量的检验问题,用来检验实际观察数目与理论期望数目是否有显著差异。
当检验问题是实际分布是否与理论分布相符合时,在大样本时也可以用分类数据的卡方检验来解决,这时的卡方检验也称为分布拟合的卡方检验。
若样本分为k 类,每类实际观察频数为k f f f ,,,21 ,与其相对应的期望频数为ke e e ,,,21 ,则检验统计量2χ可以测度观察频数与期望频数之间的差异。
其计算公式为:∑∑-=-==期望频数期望频数实际频数2122)()(ki ii i e e f χ很显然,实际频数与望频数越接近,2χ值就越小,若2χ=0,则上式中分子的每—项都必须是0,这意味着k 类中每一类观察频数与期望频数完全一样,即完全拟合。
2χ统计量可以用来测度实际观察频数与期望频数之间的拟合程度。
在H 0成立的条件下,样本容量n 充分大时,2χ统计量近似地服从自由度df =k-1的2χ分布,因而,可以根据给定的显著性水平α,在临界值表中查到相应的临界值)1(2-k αχ。
若)1(22-≥k αχχ,则拒绝H 0,否则不能拒绝H 0。
第4章 两独立样本的非参数检验
第三章 两独立样本的非参数检验在单样本位置问题中,人们想要检验的是总体的中心是否等于一个已知的值.但在实际问题中,更受注意的往往是比较两个总体的位置参数;比如。
两种训练方法中哪一种更出成绩,两种汽 油中哪一个污染更少,两种市场营销策略中那种更有效等等.作为一个例子.我国沿海和非沿海省市区的人均国内生产总值(GDP)的1997年抽样数据如下(单位为元).沿海省市区为(Y1,Y2,…,Y12): 15044 12270 5345 7730 22275 84479455 8136 6834 9513 4081 5500 而非沿海的为对(x1,x2,…,x18):5163 4220 4259 6468 3881 3715 4032 5122 4130 3763 2093 3715 2732 3313 2901 3748 3731 5167人们想要知道沿海和非沿海省市区的人均GDP 的中位数是否一样.这就是检验两个总体的位置参数是否相等的问题.假定代表两个独立总体的随机样本(Y1,Y2,…,Y12)和(x1,x2,…,x18),则问题归结为检验它们总体的均值(或中位数)的差是否相等,或是否等于某个已知值.换言之,即检验0H :021D =-μμ;1H : 021D ≠-μμ 0H :021D =-μμ;1H : 021D <-μμ0H :021D =-μμ;1H : 021D >-μμ在正态假定下,这些问题化为:)2(~11)(0-++--=m n t mn s D y x t2)()(1212-+-+-=∑∑==n m y y x xS mi i ni it 检验并不稳健,在不知总体分布时,应用t 检验时会有风险的。
3.1 Brown-Mood 中位数检验令沿海地区的人均GDP 的中位数为M X ,而内地的为M Y 。
零假设为0H :y x M M =;1H : y x M M >显然,在零假设下,中位数如果一样的话,它们共同的中位数,即这(12十18)=30个数的样本中位数(记为此xy M ),应该对于每一列数据来说都处于中间位置.也就是说,(Y1,Y2,…,Y12)和(x1,x2,…,x18)中大于或小于xy M 的样本点应该大致一样多,计算他们的混合样本中位数为4690.5。
两个独立样本的非参数检验方法有
两个独立样本的非参数检验一、内容解析非参数检验(Nonparametric tests)总体方差:未知或基本未知使用目的:估计总体分布形态命名原因:推断过程中不使用任何总体参数独立样本:两个取样的样本彼此之间不存在实际关联检验目的:检验两个样本是否来自不同的主体基本假设:H0:两样本数据来自相同总体H1:两样本数据来自不同总体检验方式列表:1、曼-惠尼特U检验曼-惠特尼U检验主要用于判断两个独立样本所属的总体均值是否有相同的地方。
2、独立样本的K-S检验两独立样本的K-S检验,重在推测两个样本是否来自于具有相同分布的总体。
3、游程检验两独立样本的游程检验考察两个独立样本是否来自具有相同分布的总体。
4、极端反应检验极端反应检验结果是检验两个独立样本之间观察值的散布范围是否存在差异,以检验两个样本是否来自具有同一分布的总体。
检验方式一:曼-惠尼特U检验第一步:A、B两个样本独立随机取样放到一起,样本容量不限,然后将样本按照大小顺序排序,如存在相同数据则取数据序位的均值:例如数列10、11、11、11、12、13、14。
则序位是1.3.3.3.5.6.7黄色字体(前三)是第一组,白色字体为第二组第二步:分别计算两个小组的等级和例如第一组TA=1+3+3=7、第二组Tb=3+5+6+7=21 第三步:按照公式分别计算UA、UB。
如果两个样本量均小于20的话则:UA = nAnB+ nA(nA + 1) / 2-TaUB = nAnB + nB(nB + 1) / 2 -Tb第四步:比对UA、UB当中较小的那个与Uα比对,Uα(为临界值通常为0.05),若大于U α,则接受原假设,否则拒绝原假设临界值查询可以查询该检验方式的临界值表。
检验方式二:K-S检验第一步:两组样本混合后牲畜或降序排列,记录对应的秩第二步:分别计算两组样本的累计频数(数字)和累计频率(百分比)第三步:计算频率之差然后可得到秩的差值序列D,然后在序列D当中取绝对值最大的一个D,然后该值进行比对。
非参数统计第四章
传统上,人们假设总体是正态分布或近似的正态分布, 然后利用两样本的T检验。但是关于总体是正态的假 设并不一定合理。在小样本时,近似也不一定合适。 本章的目标就是在对总体不作任何分布假设的前提下, 解决两样本检验问题。
Brown-Mood中位数检验
假设(X1, X2, … ,Xn)~i.i.d.F(x ) ,
xy
计算
首先将两个样本混合,找出混合样本中位数 M xy,将X和 Y按照在 M xy 两侧分类计数,即:
X Mxy A Mxy 总和 C m Y B D n 总和 t (m n) (A B) mn ABCD
k tk ,k m mn ( ) t
在给定m,n和t的时候,在零假设成立时,A的分布服从超 m n 几何分布: ( )( )
为了对假设作出判定, 如果H0为真,那么将m个x、n个y的 数据,按数值的相对大小从小到大排序,x、y的值应该被 很好地混合,这m十n=N个观察值能够被看作来自于共同总 体的一个单一的随机样本。若大部分的Y大于X,或大部分 的X大于Y,将不能证实这个有序的序列是一个随机的混合, 将拒绝X、Y来自一个相同总体的零假设。在X、Y混合排列 的序列中,X占有的位置是相对于Y的位置,因此秩是表示 位置的一个极为方便的方法。在x、y的混合排列中,秩1是 最小的观察值,秩N是最大的。若X的秩大部分大于Y的秩, 那么数据将支持H1:Mx>My,而X的秩大部分小于Y的秩,则数 据将支持H1:Mx<My。
第四章 两独立样本数据的位置和 尺度推断
本章内容
假设样本:
x 1 (X1, X2, … ,Xn)~i.i.d.F1 1 x 2 (Y1, Y2, … ,Yn)~i.i.d.F2 2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 两独立样本的非参数检验在单样本位置问题中,人们想要检验的是总体的中心是否等于一个已知的值.但在实际问题中,更受注意的往往是比较两个总体的位置参数;比如。
两种训练方法中哪一种更出成绩,两种汽 油中哪一个污染更少,两种市场营销策略中那种更有效等等.作为一个例子.我国沿海和非沿海省市区的人均国内生产总值(GDP)的1997年抽样数据如下(单位为元).沿海省市区为(Y1,Y2,…,Y12): 15044 12270 5345 7730 22275 84479455 8136 6834 9513 4081 5500 而非沿海的为对(x1,x2,…,x18):5163 4220 4259 6468 3881 3715 4032 5122 4130 3763 2093 3715 2732 3313 2901 3748 3731 5167人们想要知道沿海和非沿海省市区的人均GDP 的中位数是否一样.这就是检验两个总体的位置参数是否相等的问题.假定代表两个独立总体的随机样本(Y1,Y2,…,Y12)和(x1,x2,…,x18),则问题归结为检验它们总体的均值(或中位数)的差是否相等,或是否等于某个已知值.换言之,即检验0H :021D =-μμ;1H : 021D ≠-μμ 0H :021D =-μμ;1H : 021D <-μμ0H :021D =-μμ;1H : 021D >-μμ在正态假定下,这些问题化为:)2(~11)(0-++--=m n t mns D y x t2)()(1212-+-+-=∑∑==n m y yx xS mi in i it 检验并不稳健,在不知总体分布时,应用t 检验时会有风险的。
3.1 Brown-Mood 中位数检验令沿海地区的人均GDP 的中位数为M X ,而内地的为M Y 。
零假设为0H :y xM M=;1H : y xM M>显然,在零假设下,中位数如果一样的话,它们共同的中位数,即这(12十18)=30个数的样本中位数(记为此xyM),应该对于每一列数据来说都处于中间位置.也就是说,(Y1,Y2,…,Y12)和(x1,x2,…,x18)中大于或小于xyM 的样本点应该大致一样多,计算他们的混合样本中位数为4690.5。
在用两个样本和xyM 比较之后得到各个样本中大于和小于它的数目A=在样本X 中大于xyM的样本点数,则⎪⎪⎭⎫ ⎝⎛+⎪⎪⎭⎫⎝⎛-⎪⎪⎭⎫ ⎝⎛==m n m k m n k m )k A (p 取=A 在样本X 中大于xyM 的样本点数作为检验的统计量,则A 应该不大不小,如果A 太大或太小,则应该怀疑原假设。
总体容量:30总体中成功的次数:15 样本容量:12样本中成功的次数:11)a A (P ≥=)A (p )A (P 1211=+==0.000237+0.00000526=0.000242350N/)t N (mnt N /mt .A Z --±==330153015181230151250/)(**/*.A --±==4.5/1.34=3.36000390363.).Z (p p =>=在前面一节,比较两个总体的中位数的检验时,只利用了样本大于或小于共同中位数的数目,如同前面的单独符号秩检验一样,只有方向的信息,没有差异大小的信息。
作为单样本的Wlicoxon 秩和检验的推广,下面我们讨论两个样本的Wlicoxon 秩和检验。
设(X1,X2,X3,…Xm )和(Y1,Y2,…,Yn )分别为两个连续总体Fx 和Fy 中随机抽取出来的样本,我们关心两个总体是否有相同的分布形状,或者他们的中位数是否相等。
y xM M:H =0为了对假设作出判定, 如果H0为真,那么将m 个x 、n 个y 的数据,按数值的相对大小从小到大排序,X 、y 的值应该期望被很好地混合,这m 十n =N 个观察值能够被看作来自于共同总体的一个单一的随机样本。
若大部分的y 大于X ,或大部分的x 大于y ,将不能证实这个有序的序列是一个随机的混合,将拒绝X 、y 来自一个相同总体的零假设。
在X 、y 混合排列的序列中,X 占有的位置是相对于y 的相对位置,因此等级或秩是表示位置的一个极为方便的方法。
在x 、y 的混合排列中,等级1是最小的观察值,等级N 是最大的。
若X 的等级大部分大于y 的等级,那么数据将支持H 1:M x >M y ,而x 的等级大部分小于y 的等级,则数据将支持H 1:M x <M y 。
检验统计量。
根据上面的基本原理,检验统计量为X W x =的秩和 Y W y =的秩和由于X 、y 的混合序列的等级和为:1+2+…+N=N (N+1)/2所以+x W 2/)1(+=N N W y 检验的统计量:X W x =的秩和注:等价的统计量:如有第一个总体的样本:x1,x2,…,xm 和第二个总体的样本:以y1,y2, …,yn ,N=m+n 。
令Wyx 使把所有的y 观测值与x 观测值做比较后,x 大于y 的个数。
令Wxy 使把所有的x 观测值与y 观测值做比较后,y 大于x 的个数有 2)1(++=n n W Wy xy2)1(++=m m W Wx yx我们来说明两个公式的成立。
如仅仅将x1,x2,…,x n 排序后,其秩和为:m(m+1)/2。
比如某个X i 是最小的,即1=x i R 。
但是如果是两个总体的合在一起排序,不妨假设i j k x y y <<故x 大于y 的个数为2,所以X i 的混合秩为21+=i R 。
考虑所有的i ,则可得上面两式。
可以证明: []221)()(1mnY X I E W E m i mjm injj i yx ==>=∑∑∑∑=[]12)1()()(+=⎭⎬⎫⎩⎨⎧>=∑∑N mn Y X I E Var W Var minjj i yx12)1()(+=N m W E X 12)1()(+=N nm W Var X12)1()(+=N n W E y 12)1()(+=N nm W Var y则当n 足够大时,)1,0(~12/)1(2/N N mn mn W Z xy +-=)1,0(~12/)1(2/)1(N N mn n N W Z y ++-=)1,0(~12/)1(2/)1(N N mn m N W Z x ++-=用前面的例题作为一个例子.我国沿海和非沿海省市区的人均国内生产总值(GDP)的1997年抽样数据如下(单位为元).沿海省市区为(Y1,Y2,…,Y12):15044 12270 5345 7730 22275 84479456 8136 6834 9513 4081 5500 而非沿海的为对(x1,x2,…,x18):5163 4220 4259 6468 3881 3715 4032 5122 4130 3763 2093 3715 2732 3313 2901 3748 3731 5167人们想要知道沿海和非沿海省市区的人均GDP 的中位数是否一样.这就是检验两个总体的位置参数是否相等的问题.Ranksb Grouping Variable: VAR00002191.412/)1(2/-=+-=N mn mn W Z xy191.412/)1(2/)1(-=++-=N mn n N W Z y§3.3 正态记分检验设(X1,X2,X3,…Xm )和(Y1,Y2,…,Yn )分别为两个连续总体Fx 和Fy 中随机抽取出来的样本,我们关心两个总体是否有相同的分布形状,或者他们的中位数是否相等。
将样本混合,并按升序排列,并计算i/(m+n+1)的百分位点(正态记分),有)某个样本的观测值∑=-++Φ=Ni I n m i T 11()1(在原假设成立的条件下T 的期望值为0,即E(T)=0。
又因为:∑∑==---=Ni Ni ia i a c c N T Var 1212))(()(11)(∑∑==--=Ni Ni ii a c c N T Var 1212))(()(11)(1),,2,1(==m i c i0),,2,1(=+++=n m m m i c i Nm c =2212)0()1()(Nm n Nm m c c Ni i -+-=-∑=22)()(Nm n Nn m +=Nmn =∑=-++==Ni i a m n n m nmT Var S 122))(()1)(()(第二步:计算某一个样本正态记分和T 与所有样本的正态记分平方和∑=Ni i s 12,构造统计量:ST Z =其中))(1(122n m n m s mn S Ni i+-+=∑=05.446.2/97.9===ST Z =9.97/2.46=4.0551056222054-=>=*.).Z (p P。