第11讲 独立样本(多样本)非参数检验
多个独立样本非参数检验
多个独立样本的非参数检验多个独立样本的非参数检验的非参数检验室通过分析多组独立样本数据,推断样本来自的多个总体的中位数或分布是否存在显著性差异。
多组独立样本是按独立抽样的方式获得的多组样本。
例如希望对北京,上海,成都,广州四个城市的周岁儿童的身高进行比较分析,采用独立抽样方式获得四组独立样本。
中位数检验中位数检验室通过对多组独立样本的分析,检验它们来自的总体的中位数是否存在显著差异。
其零假设是多个独立样本来自的多个总体的中位数无显著差异。
中位数检验的基本思想是,若多个总体的中位数无显著差异,或是说多个总体有共同的中位数,那么这个共同的中位数应在个样本组中处于中间位置上。
于是,每组样本中大于该中位数或是小于该中位数的样本数目应大致相同。
分析步骤为:首先,将多组样本混合按升序排序,求出混合样本的中位数;其次,计算各组样本中大于和小于上述中位数的样本个数,形成下表,第一组样本第二组样本............ 第n组样本合计大于共同中位数小于等于共同中位数合计利用卡方检验方法分析个组样本来自的总体对于上述中位数的分布是否一致。
显而易见,如果各组中大于(或等于)上述中位数的样本比例大致相同,则可以认为多组样本有共同的中位数,它们来自的总体的中位数无显著差异,反之,如果各组中大于(或小于)上述中位数的样本比例相差较大,则可以认为多组样本的中位数全部相同,它们来自的总体的中位数存在显著差异。
多独立样本的Kruskal—Wallis检验独立样本的Kruskal—Wallis检验实质是两独立样本的曼-惠特尼检验在多个独立样本下的推广,用于检验多个总体的分布是否存在显著差异。
其零假设是多个独立样本来自的总体的分布无显著差异。
基本思想为:首先,将多组样本数据混合并按升序排序,求出各变量值得秩。
其次,考察各组秩的均值是否存在显著差异。
显而易见,如果各组秩的均值不存在显著差异,则是多组数据充分混合,数值相差不大的结果。
第11讲 独立样本(多样本)非参数检验ppt课件
你会解释吗?
26
本例中,T=?
把T标准化,就得到统计量:
其中,
K
T * T T 服从标准正态分布 T
N 2 nk2
T
k 1
4
K
N (N 1)(2N 5) nk (nk 1)(2nk 5) 2A2 5A1
2 T
k 1
72
K
K
[ nk (nk 1)(nk 2)]( A2 2A1) [ nk (nk 1)]A1
P小于0.05,拒绝原假设,认为分
布不同。
21
R操作: x=matrix(c(2,3,1,4,7,0),ncol=3) chisq.test(x)
22
独立样本(多样本)非参数检验3: Jonckheere-Terpstra 检验
案例4(来源:陈希孺《非参数统计教程》P158
从三个总体中分别抽出大小为5,5,7的样本,如下:
某电信公司从3所大学招聘管理人员,从而来源于3所不同大学的雇员组成了3个独 立样本。半年试用期满了以后,人力资源部对他们进行考核,并评出了这些雇员 的表现成绩,数据在0-100之间不等。请就此评价雇员的业绩在3个总体间是否存 在差异。
14
独立样本(多样本)非参数检验2: Median 检验(中位数检验)
8
9
SPSS操作
10
点击“定义范围”,如下,再 继续,确定!
11
可看出差异较大
拒绝原假设,认为分布 不同
12
R操作
• X1=c( • X2=c( • X3=c( • X4=c( • X=list(x1,x2,x3,x4) • Kruskal.test(x)
13
案例2
文件,npara3.sav,来自张文彤《SPSS统计分析基础教程》 P290
多独立样本的非参
7.2.5两独立样本非参数检验的步骤
[Analyze]-[Nonparametric Tests]-[2 independent samples]
(1)选择待检验的变量到[Test variable list] (2)[grouping variable]:存放组标志的变量,并通过[define groups]给出 两组的标志值。 (3)[test type]:选择相应的检验方法
7.2两独立样本的非参数检验
(1 )独立样本:在一个总体中随机抽样对在另一个总体中随机抽样没有 影响的情况下所获得的样本。
(2)推断样本来自的两个总体的分布等是否存在显著差异。 (3)方法:曼-惠特尼U检验、K-S检验、W-W游程检验、极端反应检验等。
7.2.1两独立样本的曼-惠特尼U检验
1.基本思想 (1)原假设:两组独立样本来自的两总体分布无显著差异。 (2)通过两组样本平均秩的研究实现推断
Ri
秩-变量值排序的名次,变量值有几个,对应的秩便有几个。
(3)检验步骤
①将两组样本混合并升序排列,得每个数据的秩 WX m WY n ②分别对样本X和Y的秩求平均,得平均秩 和 ③ U1 Y优于样本X秩的个 计算样本X优于样本Y秩的个数 和样本 U2 数 ④依据
U 1 和
U 2 WilcoxonW统计量和曼-惠特尼U统计量。 计算
7.2.2两独立样本的K-S检验
1.基本思想 (1)原假设:两组独立样本来自的两总体的分布无显著差异。 (2)与单样本K-S检验的基本思路大体一致,差别在于:以变量值的秩为分析对象,而非变量值本身。 (3)检验步骤
①将两组样本混合并按升序排列
②分别计算两组样本秩的累计频数和累计频率
③计算两组累计频率的差,得秩的差值序列及D统计量 ④SPSS计算大样本下的
非参数检验 PPT
分类
参数检验(parametric tests) - 对总体参数(平均数、成数、方差等) 所作得假设进行检验
非参数检验(自由分布检验) -对总体分布形式得假设进行检验
问题得提出
我们想去检验得论述如下: 1、经过西弗吉尼亚公路150号里程碑得汽车平均时速为68 英里/小时。 2、租用雪佛龙Trail Blazer (一款中型SUV车)三年,平均行驶里 程为32000英里。 3、美国家庭居住在一座独幢住宅得平均时间为11、8年。 4、2005年四年制大学毕业生得平均起薪为37 130美元/年。 5、中西部偏北地区35%得退休人员会在退休后得1年内卖掉 她们得住房,搬到气候温暖得地方居住。 6、80%得经常购买州彩票得彩民,从未在一次下注中赢得超 过100美元得奖金。
原假设
如果公司所在市平均受教育年限为:13
问:就是否有所不同 就是否高于
数据集3
如果公司所在市平均薪水为:35000
问:就是否有所不同 就是否低于
大家学习辛苦了,还是要坚持
继续保持安静
设计检验统计量
所设计得检验统计量与原假设相关, 即 与待检验得参数相关。 我们需要知道当原假设为真时该统计量 得具体分布。
问:就是否有显著不同?
区间估计 x t (n 1) s 499.5 2.797 2.63/ 25 498.03 ~ 500.97
2
n
问:就是否能断定饮料厂商欺骗了消费者?
区间估计
x t (n 1)
s 499.5 2.492 2.63/ n
25 500.81
(,500.81)
假设检验五步法
n1 n2
z X1 X2 s12 s22 n1 n2
t
生物统计学 第11讲2 二项分布的检验+非参数检验
配对设计
11.5
11.0
10.5
10.0
9.5
9.0
8.5
8.0
7.5
7.0
7.0
8.0
9.0
10.0
11.0
12.0
13.0
例3 (P128,ex3.34)
7
A方法 11.34 10.21 9.17 7.67 11.14 12.03 8.91 9.72 9.85 10.35 10.30 10.38 10.22 9.11 10.51 11.01 B方法 10.56 11.13 9.23 7.21 10.59 10.15 8.45 9.03 9.33 10.35 10.45 10.26 9.40 9.04 8.68 10.05
正常人 正常人 正常人 单纯性肥胖 正常人 正常人 单纯性肥胖 正常人 单纯性肥胖 单纯性肥胖 正常人 单纯性肥胖 皮质醇增多症
x秩 0.11 1 0.17 2 0.33 3 0.52 4 0.55 5 0.61 6 0.66 7 0.69 8 0.77 9 0.86 10.5 0.86 10.5 1.02 12 1.08 13 1.13 14 1.27 15 1.38 16 1.63 17 1.92 18 2.04 19
配对设计 关心:差值
差值
平均
0.501
标准误差 0.18
中位数
0.49
众数
#N/A
标准差
0.70
方差
0.50
峰度
0.86
偏度
0.34
区域
2.8
最小值
-0.92
最大值
1.88
求和
8.01
多独立样本非参数检验
课程名称实用统计软件实验项目名称多独立样本非参数检验实验成绩指导老师(签名)日期2011-11-25一.实验目的1,掌握多独立样本的非参数检验基本原理和算法;2,能够用SPSS软件解决多独立样本的非参数检验的问题。
二. 实验内容与要求1.实验内容1.运用三种检验方法检验书上的研究问题。
2.某公司的20名管理人员来自三所大学,他们的年度表现评分数据见表。
问:来自这三所大学的管理人员的表现有没有差异。
3.根据游泳、打篮球和骑自行车这三种运动在30分钟内的消耗热量(卡路里数)数据分析这三种运动消耗的热量是否全部相等?2.实验要求:A .在中位数检验中,频数表需要像ppt 中第8页中演示那样标注期望频数Eij 的值。
B .在K-W 检验中,使用SPSS 给数据进行编秩(这里是对混合样本编秩,无需设置By 栏),附上截图指明储存秩号的变量。
C .三种检验都需要给出各个检验统计量的计算公式,可结合SPSS 计算结果。
D .根据SPSS 结果,作出对数据的分析。
三.实验步骤四. 实验结果(数据与图形)与分析1.运用三种检验方法检验书上的研究问题。
Kruskal-Wallis TestRanks所属班级 NMean Rank学生成绩1 7 6.002 7 11.573 7 15.43Total21Test Statistics a,b学生成绩Chi-Square 8.213df2 Asymp. Sig..016a. Kruskal Wallis Testb. Grouping Variable: 所属班级全部的平均秩为11∑=-+=ki i i R R n N N 1)()1(12H W -K 经计算,H=214.6486从第一个表中可以看出,各样本的平均秩分别为6,11.57,15.43;从第二个表中可以得到卡方统计量为8.213,相伴概率为0.016,小于显著性水平0.05,因此拒绝零假设,认为3个班级学生成绩分布存在显著差异。
非参数统计讲义六--多个样本的检验
a
Sh apiro-Wil k Statistic df .882 6
Si g. .278
*. Th is is a lower bound of the true significa nce .
b Tests of Normality
X
Ko lmogorov-Smirnov Statistic df Si g. .178 6 .200* a. Lillie fors Significance Correction b. G = 3.00
H c H / C 8.9163 / 0.9925 8.9839
P=CHIDIST(8.9839,2)= 0.011199
EXCEL函数可知道,自由度为卡方分布, 在显著水平下0.05,分布的上尾临界值 为5.99,由于8.98>5.99,所以拒绝原 假设。因此秩和最低的B组至少与秩和 最高的A组是不同的。 xx=CHIINV(0.05,2)=5.99
检验是否几个独立样本来自相同总体 (Tests whether several independent samples are from the same population.) 零假设:样本来自的多个独立总体的分布 无显著差异。
方差分析过程关注三个或更多总体的均值 是否相等的问题,数据是被假设成具有正 态分布和相等的方差,此时F检验才能奏效。 F检验对正数据的正态性非常敏感。 当采集的数据常常不能满足正态的条件时 需要用非参数统计。
药 秩
10 11 13 14 15 63 5 16.0 20.5 22.5 29.0 36.0 — —
乙 死亡率
药 秩
4 6 7 9 12 38 5
丙 死亡率
6.5 9.0 12.5 18.0 24.0 — —
非参数检验综合概述PPT(30张)
•
9、别再去抱怨身边人善变,多懂一些道理,明白一些事理,毕竟每个人都是越活越现实。
•
10、山有封顶,还有彼岸,慢慢长途,终有回转,余味苦涩,终有回甘。
•
11、人生就像是一个马尔可夫链,你的未来取决于你当下正在做的事,而无关于过去做完的事。
•
12、女人,要么有美貌,要么有智慧,如果两者你都不占绝对优势,那你就选择善良。
多个独立样本的非参数检验
例3 14名新生儿出生体重按其母亲的吸烟习惯分组(A组: 每日吸烟多于20支;B组:每日吸烟少于20支;C组:过去 吸烟而现已戒烟;D组:从不吸烟),具体如下。试问四个 吸烟组出生体重分布是否相同?数据见npc.sav:
A组: 2.7 2.4 2.2 3.4 B组: 2.9 3.2 3.2 C组: 3.3 3.6 3.4 3.4 D组: 3.5 3.6 3.7
两独立样本的非参数检验 (2) 检验统计量
分析结果
给 出 Mann-Whitney U 、 Wilcoxon W 统 计 量 和 Z 值 , 近 似 值 概 率 (Asymp.Sig)和精确概率值(Exact.sig)均小于0.05,结论一致,表明 猫、兔在缺氧条件下的生存时间的差异具有统计学意义,由平均秩次猫 (15.7)、兔(7.96)来看,可以认为缺氧条件下猫的生存时间长于兔。
•
3、命运给你一个比别人低的起点是想告诉你,让你用你的一生去奋斗出一个绝地反击的故事,所以有什么理由不努力!
•
4、心中没有过分的贪求,自然苦就少。口里不说多余的话,自然祸就少。腹内的食物能减少,自然病就少。思绪中没有过分欲,自然忧就少。大悲是无泪的,同样大悟无言。缘来尽量要惜,缘尽就放。人生本来就空,对人家笑笑,对自己笑笑,笑着看天下,看日出日落,花谢花开,岂不自在,哪里来的尘埃!
多样本的非参数检验课件
弗里德曼等级相关检验在处理有序分类数据时具有较高的实用价值,尤其适用于无 法进行参数检验的情况。
柯尔莫哥洛夫-斯米尔诺夫检验
柯尔莫哥洛夫-斯米尔诺夫检验 是一种非参数统计方法,用于检 验两个独立样本是否来自同一总
体。
缺点
对数据要求高
非参数检验要求数据之间具有相 互独立性,如果数据之间存在相 关性,则检验结果可能不准确。
检验效力较低
相对于参数检验,非参数检验的 检验效力较低,尤其是在样本量 较小的情况下,其检验效力更低。
解释性较差
非参数检验的结果通常只能给出 数据之间的关系是否显著,而不 能给出具体的参数估计或置信区
案例一:不同处理对植物生长的影响
总结词
关联性分析
详细描述
非参数检验还可以用于分析不同处理与植物生长指标之间的关联性。例如,通过Spearman秩相关分析可以确定 植物生长与土壤养分之间的关联程度,为农业生产提供指导。
案例二:不同药物对动物行为的影响
总结词:行为变化
详细描述:在药物研究中,非参数检验可用于分析不同药物对动物行为的影响。例如,可以使用非参 数检验比较不同药物处理组之间动物探索行为、运动能力等指标的差异,以评估药物的安全性和有效 性。
PART 04
非参数检验的优缺点
优点
适用范围广
非参数检验适用于各种类型的数 据,包括定序、定类和定距数据,
甚至对于一些不符合正态分布的 连续数据也可以使用。
稳健性高
非参数检验对数据的分布假设较少, 因此在面对异常值或非正态分布的 数据时,其结果相对稳定。
直观易懂
非参数检验的原理相对简单,其结 果易于解释,不需要复杂的数学背 景也能理解。
第十一章非参数检验
第十一章 非参数检验前面有关章节讨论的参数检验都要求总体服从一定的分布,对总体参数的检验是建立在这种分布基础上的。
例如,两样本平均数比较的t 检验和多个样本平均数比较的F 检验,都要求总体服从正态分布,推断两个或多个总体平均数是否相等。
本章引入另一类检验——非参数检验(non-parametric test )。
非参数检验是一种与总体分布状况无关的检验方法,它不依赖于总体分布的形式,应用时可以不考虑被研究的对象为何种分布以及分布是否已知。
非参数检验主要是利用样本数据之间的大小比较及大小顺序,对两个或多个样本所属总体是否相同进行检验,而不对总体分布的参数如平均数、标准差等进行统计推断。
当样本观测值的总体分布类型未知或知之甚少,无法肯定其性质,特别是观测值明显偏离正态分布,不具备参数检验的应用条件时,常用非参数检验。
非参数检验具有计算简便、直观,易于掌握,检验速度较快等优点。
非参数检验法从实质上讲,只是检验总体分布的位置(中位数)是否相同,所以对于总体分布已知的样本也可以采用非参数检验法,但是由于它不能充分利用样本内所有的数量信息,检验的效率一般要低于参数检验方法。
例如,非配对资料的秩和检验,其效率为t 检验的86.4%,就是说以相同概率判断出差异显著,t 检验所需的样本个数要少13.6%。
非参数检验内容很多,本章只介绍常用的符号检验(sign test ),秩和检验(rank-sum test )和等级相关分析(rank correlation analysis )三种。
第一节 符号检验一、配对资料的符号检验(一)配对资料符号检验的意义 配对资料符号检验是根据样本各对数据之差的正负符号多少来检验两个总体分布位置的异同,而不去考虑差值的大小。
每对数据之差为正值用“+”表示,负值用“-”表示。
可以设想如果两个总体分布位置相同,则正或负出现的次数应该相等。
若不完全相等,至少不应相差过大,否则超过一定的临界值就认为两个样本所来自的两个总体差异显著,分布的位置不同。
多样本的非参数检验
完全随机化设计数据形态
总体1
总体2
…
x11
x12
…
重
x21
x22
...
复
…
…
…
xn11
xn22
总体k
x1k x2k … xnkk
完全随机化设计数据的秩
总体1
R11
重
R21
复
…
Rn11
总体2
…
R12
…
R22
...
…
…
Rn22
总体k
R1k R2k … Rnkk
4.1 Kruskal-Wallis检验
❖Kruskal-Wallis检验译为克拉夏尔瓦里斯检验,简称克氏检验。它是 1952年由Kruskal和Wallis两人提 出的,是两个独立样本MannWhitney-Wilcoxon检验的一种推广。
4.1.1 基本思路与检验步骤
❖ 今要研究k个总体的分布是否相同,需要的数 据是k个独立的随机样本,其大小为n1, n2 ,..., nk 样本独立地分别从各自的总体中抽取,总体 分别具有连续的累积概率分布F1(x), F2 (x),..., Fk (x) 。 数据的测量层次至少在定序尺度上。
第四章 多样本非参数检验
❖ 在参数统计中,检验n个样本是否来自完全相 同的总体,采用方差分析或F检验。
❖ 运用F检验的假定条件是:
1,样本是从服从正态分布的总体中独立抽
选的;
2,总体具有相同的方差;
3,数据的测量层次至少是定距尺度。
❖ 当被用来分析的数据不符合这些假定条件, 或研究者不希望做这些假设,以便增加结论 的普遍性时,不宜采用参数统计的方法,而 必须用非参数方法。
SPSS学习笔记之——多个独立样本的非参数检验
[转载]SPSS学习笔记之——多个独立样本的非参数检验(Cruskal-Walli
(2012-10-07 12:03:43)
转载▼
标签:
转载
分类:PH
原文地址:SPSS学习笔记之——多个独立样本的非参数检验(Cruskal-Wallis秩和检验)作者:王江源
一、概述
Cruskal-Wallis秩和检验类似于方差分析,用于检验各个样本的总体是否相同,当正态假设和方差齐性不能满足时,可用该检验。
二、问题
某人搜集了三大公司股票每股所能获利的钱数,是比较三家公司所挣的钱是否相同。
SPSS
版本为20。
三、统计操作SPSS变量视图
SPSS数据视图
选择菜单:
进入如下的对话框,该选项卡不需要手动设置
进入“字段”选项卡,将“获利”选入“检验字段”框,将“公司”选入分组
进入“设置”选项卡,选择“Kruskal-Wallis单因素ANOVA(k样本)”检验,在下方“多重比较”下拉菜单中,可选“所有成对比较”(类似于方差分析多重比较中的LSD),也可选“逐步降低”(类似于S-N-K法),这里选择“逐步降低”。
点击运行即可。
四、结果解读
上表是主要输出结果,拒绝原假设,认为三个公司的获利能力有统计学差异。
双击该表,可获得更多的信息,如下图:
在下方的“视图”下拉菜单中选择“逐步降低”,可进入下面的多重比较界面:
这类似于方差分析中多重比较的S-N-K法,将样本分为几个子集,同一子集内的样本无统计学差异,不同子集内的样本有统计学差异。
本题中,药品公司与计算机公司、服务公司这两个公司之间有统计学差异,计算机公司、服务公司之间无统计学差异。
SPSS操作:多个独立样本的非参数检验及两两比较
SPSS操作:多个独立样本的非参数检验及两两比较一、问题与数据某研究者想探讨不同体力活动的人,应对职场压力的能力是否不同。
因此,研究招募了31名研究对象,测量了他们每周进行体力活动的时间(分钟),以及应对职场压力的能力。
根据体力活动的时间长短,研究对象被分为4组:久坐组、低、中、高体力活动组(变量名为group)。
利用Likert量表调查的总得分(CWWS得分)来评估应对职场压力的能力,分数越高,表明应对职场压力的能力越强(变量名为coping_stress)。
部分数据如下图。
二、对问题的分析研究者想知道不同体力活动组之间CWWS得分是否不同,可以使用Kruskal-Wallis H检验。
Kruskal-Wallis H检验(有时也叫做对秩次的单因素方差分析)是基于秩次的非参数检验方法,用于检验多组间(也可以是两组)连续或有序变量是否存在差异。
使用Kruskal-Wallis H test进行分析时,需要考虑以下3个假设。
假设1:有一个因变量,且因变量为连续变量或等级变量。
假设2:存在多个分组(≥2个)。
假设3:具有相互独立的观测值,如本研究中各位研究对象的信息都是独立的,不存在相互干扰作用。
三、SPSS操作1. Kruskal-Wallis H检验在主界面点击Analyze→Nonparametric Tests→Independent Samples,出现Nonparametric Tests: Two or More Independent Samples对话框,默认选择Automatically compare distributions across groups。
点击Fields,在Fields下方选择Use custom field assignments,将变量coping_stress放入Test Fields框中,将变量group放入Groups框中。
点击Settings→Customize tests,在Compare Median Difference to Hypothesized区域选择Kruskal-Wallis 1-way ANOVA (k samples),如下图。
多独立样本非参数检验
定义最小组序号和 最大组序号
图10-21 “Several Independent Samples:Define Range”对话框
10.6.3 结果和讨论
(1)多独立样本K-W检验结果如下两表所示。
(2)多独立样本中位数检验结果如下两表所示。
Oij值列表。作 业中需要按照第 8页ppt 的表格 那样注明Eij的 值
1.多独立样本的中位数检验(Median)
多独立样本的中位数检验通过对多组数据的分 析推断多个独立总体分布是否存在显著差异。 原假设H0:样本来自的多个独立总体的中位数 无显著差异。
基本思想: 如果各组样本的测定数据的分布无差异,那 么各组独立样本的中位数无显著差异,也就 是可以说各组样本拥有共同的中位数。这个 共同的中位数在每组样本中都应该处于中间 位置。 故可检验其中位数上下各有观察值数目的差 异在各组之间是否有统计意义,从而作出统 计推断。
ni: N: Ri : R:
第i组样本的样本容量。 混合样本的总样本容量。 第i组样本的平均秩。 平均秩 (N+1)/2。
SPSS编秩的方法: Transform/rank cases
此过程可以进行样本编秩,秩的累计频率等数值计算。
3.多独立样本的Jonkheere-Terpstra检 验
多独立样本的Jonkheere-Terpstra检验用于 分析样本来自的多个独立总体分布是否存在显 著差异。 原假设H0:样本来自的多个独立总体的分布无 显著差异。
多个样本之间是否独立,需要看在一个总 体中抽取样本对其他总体中抽取样本是否有影 响。如果没有影响,则认为这些总体之间是独 立的。
例如,随机抽取3个班级之间学生的学生成绩, 分析3个班级总体的成绩是否存在显著的差异。 由于对各个班级都是随机抽取样本,抽样没有 相互影响,可以认为这三个班级学生成绩是独 立的。 SPSS中有3种多独立样本非参数检验方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
U 23 n2 n3
n2 (n2 1) S 2 (2,3) 2
你会解释吗?
本例中,T=?
把T标准化,就得到统计量: 其中,
T
*
T T
T
服从标准正态分布
K
T
2 N nk 2 k 1
K
4
T2
K
N ( N 1)(2 N 5) nk (nk 1)(2nk 5) 2 A2 5 A1
则原假设和备择假设变成:
这一点很常用,用于均值比较
至少有一个不相等
式中,K是样本数,本例是3。将公式展 开可得:
T U12 U13 U 23
式中,U的下角标的第一个数是公式中的 k1,范围 是从1到2,U的下角标的第2个 数是k2,范围是从2到3
U k1k 2
具体到本例中,有
nk1 (nk1 1) nk1nk 2 Sk1 (k1 , k2 ) 2
传统的非参数统计
• 单样本非参数检验 • 两样本(独立和相关)非参数检
验 • 多样本(独立和相关)非参数检
验
独立样本(多样本)非参数检验主要方法 12.1 Kruskal-Wallis H 检验
12.2 Median检验 12.3 Jonchheere-Terpstra检验
• KW检验方法和步骤
n1 (n1 1) U12 n1n2 S1 (1, 2) 2
n1是样本1的大小,n2是样本2的大小,S1是将样本1和2混合排秩后样本 1的秩和。同理,有
n1 (n1 1) U13 n1n3 S1 (1,3) 2
n1是样本1的大小,n3是样本3的大小,S1是将样本1和3混合排秩后样本 1的秩和。同理,有
实战:开头案例,计算KW统计量。
有结时要计算“结统计量”
设有样本:
它有两个结:X2,X4,X9都是0.20,结长为3; X1和X6都是0.45,结长为2。 其它4个值也视作特殊的结,结长为1.
结统计量计算方法:先把数据从小到大排列,
共有6个结,结长分别为
1 1, 2 3, 3 1, 4 2, 5 1, 6 1,
t为结长,M为所有样本混合排序后结的个 数
部分中间结果和答案
SPSS操作,同前面克罗斯考尔-瓦利斯检验或中位数检验。 结果:
你会解释每 一个数吗?
作业:
对案例2数据进行Jonckheere-Terpstra检验。
4、再求所有k个样本的总平均秩, 5、构造统计量:
R
R
i 1
i
N
( N ni )
N 1 2
k 12 H ni ( Ri R )2 N ( N 1) i 1
k 12 N 1 2 n ( R i i 2 ) N ( N 1) i 1 思考:H=0说明什么?
R操作
• • • • • • X1=c( X2=c( X3=c( X4=c( X=list(x1,x2,x3,x4) Kruskal.test(x)
案例2
文件,npara3.sav,来自张文彤《SPSS统计分析基础教程》 P290
某电信公司从3所大学招聘管理人员,从而来源于3所不同大学的雇员组成了3个独 立样本。半年试用期满了以后,人力资源部对他们进行考核,并评出了这些雇员 的表现成绩,数据在0-100之间不等。请就此评价雇员的业绩在3个总体间是否存 在差异。
独立样本(多样本)非参数检验2: Median 检验(中位数检验)
方法操作(来自SPSS帮助—算法)
设有K个连续型的独立样本,假设如下:
其中,θ 是中位数
构建表格(Table Construction)
构建统计量并计算P值
即相应行合计乘以列合计比上总计 它服从K-1个自由度的卡方分布,计算统计量,然后查表,可得结 果。
由克罗斯考尔和瓦里斯于1952年设计。 操作步骤:1、具体而言,就是把大小为n1,n2,…,nk的K个样本混合 起来(容量为N),从小到大排序,求秩。 2、对每一个样本的观测值的秩求和(Ri,i=1,2,…,k)。 3、求每个样本的平均秩, Ri Ri (i 1, 2,..., k ) ni k
案例3 用中位数检验做案例1
计算过程
• 计算出中位数=4, 左表是原始数据 右表(上)是观测频数oij
右表(下)是期望频数Eij
1组 5 4 6 4 6 2组 7 3 5 6 5 3组 2 3 3 1 2 列合计 1 1 小于等于中位数 小于等于中位数
1组
2组
3组
行合计
2
大于中位数
3
列合计
5
1组
2组
3组
行合计
2
大于中位数
3
5
可依据上表数据计算卡方统计量。
SPSS操作:
P小于0.05,拒绝原假设,认为分 布不同。
R操作: x=matrix(c(2,3,1,4,7,0),ncol=3) chisq.test(x)
独立样本(多样本)非参数检验3:
Jonckheere-Terpstra 检验
本例中,结统计量为
(1, 2 , 3 , 4 , 5 , 6 ) (1,3,1, 2,1,1)
有结时的KW修正统计量
H 1 ( r3 r ) /( N 3 N )
r 1 q
Hc
(其中,q为结的个数)
可以证明,KW统计量服从k-1个自由度的卡方分布。 可查卡方分布表,如果H落入接受域,则接受原假设,认为三个总体分布相 同;反之,则拒绝原假设,认为三个总体分布不同。
案例4(来源:陈希孺《非参数统计教程》P158
从三个总体中分别抽出大小为5,5,7的样本,如下:
不知总体的分布类型,请问三个总体的均值是否有显著差异(用 Jonckheere-Terpstra检验)。
检验过程
1、对K个来自续总体的样本,假设如下:
是位置参数 如果假设所有分布函数都相同,但只有位置参数(均值)不同,即
k 1
72
K
[ nk (nk 1)(nk 2)]( A2 2 A1 ) [ nk (nk 1)] A1 k 1 k 1 36 N ( N 1)( N 2) 8 N ( N 1)
A1 ti (ti 1); A2 ti2 (ti 1)
i 1 i 1 M M
案例1(来源:陈希孺《非参数统计教程》P158 从三个总体中分别抽出大小为5,5,7的样本,如下:
不知总体的分布类型,请用KW检验,分析三个总体的均值是否有显著 差异,显著性水平为0.01。 友情提示:包含结
SPSS操作
点击“定义范围”,如下,再 继续,确定!
可看出差异较大
拒绝原假设,认为分布 不同
案例
某电信公司从3所大学招聘管理人员,从而来源于3所不同大学的雇员组成了3个独 立样本。半年试用期满了以后,人力资源部对他们进行考核,并评出了这些雇员 的表现成绩,数据在0-100之间不等。请就此评价雇员的业绩在3个总体间是否存 在差异。
第11讲
独立样本(多样本)非参数检验1:
Kruskal-Wallis H检验