非参数统计讲义六--多个样本的检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

例1:某制造商雇用了来自三个本地大学的雇员作
为管理人员。最近,公司的人事部门已经收集信息并 考核了年度工作成绩。从三个大学来的雇员中随机地 抽取了三个独立样本,见表所示。制造商想知道是否 来自这三个不同的大学的雇员在管理岗位上的表现有 所不同。
雇员 1 2 3 4 大学A 25 70 60 85 大学B 60 20 30 15 大学C 50 70 60 80
b Tests of Normality
X
Ko lmogorov-Smirnov Statistic df Si g. .182 6 .200* a. Lillie fors Significance Correction b. G = 1.00
a
Statistic .964
Sh apiro-Wil k df 6
proc print data=rankings; run;

proc npar1way data=tj08; class g; var x; run;
H0:三种软件学习时间相等
H1:并非所有软件学习时间都相同
NPAR TESTS /K-W=X BY G(1 3) /MISSING ANALYSIS.
DSC1 存活日数 秩 3 4.5 5 10.5 6 15.5 6 15.5 6 15.5 7 21 7 21 9 25 10 26.5 11 28.5 11 28.5 212 — 11 — — 19.27
例:美国三个州的会计师考试分数是否有 差异
解:问题包括三个独立样本,用K-W方 差分析法 H0:三个州的成绩相同
H1三个州的成绩不全相同
a=0.1
结的修正,90*6, 65*11, 72*4, 83*8, 55*4
P=CHIDIST(5.389,2)=0.067576<0.1
Kruskal-Wallis秩和检验总结
雇员
1
大学A
25
统一编 秩
3
大学B
60
统一编 秩
9
大学C
50
统一编 秩
7
2 3
4 5 6
70 60
85 95 90
12 9
17 20 18.5
20 30
15 40 35
2 4
1 6 5
70 60
80 90 70
12 9
15.5 18.5 12
7
秩和
80
组A秩 和
15.5
95 组B秩 和 27
75
组C秩 和
9D 存活日数 2 2 2 3 4 4 4 5 7 7 Ri ni
i
11C 秩 2 2 2 4.5 7 7 7 10.5 21 21 84 10 8.40 存活日数 5 5 6 6 6 7 8 10 12 秩 10.5 10.5 15.5 15.5 15.5 21 24 26.5 30
R
— — —
169 9 18.78
克拉夏尔-瓦里斯检验法
基本思想: 如果样本来自的总体分布相同,每个独立样本应 均匀地分布于在该总体之中。我们可以将这些独 立样本混合按升序排序,求出每个观察值的秩, 然后对多组样本的秩求平均数,每组的平均秩应 大致相同。
因为秩统计量的分布与总体分布无关, 可以摆脱总体分布的束缚。
将数据样本转换成秩样本后,再对这个 秩样本进行方差分析。
data tj08; input x g; datalines; 45 38 56 60 47 65 30 40 28 44 25 42 22 19 15 31 27 17 ;
1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3
proc rank data=tj08 out=rankings; var x; ranks Finish; run;
应用举例 测定多个独立样本是否来自同一总体分 布, 1、检验地理位置的差异对身高的影响。 2、收入水平的高低对某种产品消费量 的影响等问题。
Kruskal-wallis H 克拉夏尔-瓦里斯检验
检验假设
H0:μ 1=μ 2=…= μ k H1:不是所有的均值都相等
等价于非参数的方差分析(A nonparametric equivalent to one-way ANOVA).
K个样本检验
K个独立样本检验
K个相关样本检验
一、多个独立样本检验
概述:多样本检验推断样本来自的多个 独立总体的分布是否存在显著性差异。 其方法是:通过检验样本的均值或中位 数是否存在显著性差异,以推断样本来 自的多个独立总体的分布是否存在显著 性差异。多样本检验提供了常用的三种 检验方法:克拉夏尔-瓦里斯检验法 (Kruskal-wallis H)、JonchheereTerpstra和中位数(Median)检验法。
a
Sh apiro-Wil k Statistic df .945 6
Si g. .701
*. Th is is a lower bound of the true significa nce .
如果样本中存在结值,需要调整公式, 校正系数C为
( C 1
3 j
j )
n n
3
Hc H / C
H c H / C 8.9163 / 0.9925 8.9839
P=CHIDIST(8.9839,2)= 0.011199
EXCEL函数可知道,自由度为卡方分布, 在显著水平下0.05,分布的上尾临界值 为5.99,由于8.98>5.99,所以拒绝原 假设。因此秩和最低的B组至少与秩和 最高的A组是不同的。 xx=CHIINV(0.05,2)=5.99
用方差分析进行检验
ANOVA X Su m of Sq uares Be tween Grou ps 2716. 000 Within Gro ups 1036. 500 To tal 3752. 500 df 2 15 17 Mean Square 1358. 000 69.10 0 F 19.65 3 Si g. .000
பைடு நூலகம்
Minim um 38.00 25.00 15.00 15.00
Maximum 65.00 44.00 31.00 65.00
分组数据的正态性检验
SORT CASES BY G . SPLIT FILE SEPARATE BY G . EXAMINE VARIABLES=X /PLOT BOXPLOT STEMLEAF NPPLOT /COMPARE GROUP /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.
De scripti v es X 95% Confide nce Interval for Mean Lower Bo und Up per Bo und 41.14 32 62.52 35 26.32 28 43.34 39 15.38 41 28.28 26 28.77 84 43.55 50
14
88
12 (95) (27 ) (88) H 3(20 1) 8.9163 20(21) 7 6 7
2 2 2
计算校正系数C
(33 3 33 3 2 3 2 2 3 2) C 1 0.9925 3 20 20
k
2 i
给出显著性水平,若K-W统计量H的显著 性小于该显著性水平,则拒绝零假设,认 为样本来自的多个独立总体的分布存在显 著性差异。近似服从df=K-1的卡方分布
每组样本小于5时为小样本,查表 大于等于≥5时为大样本。近似卡方分布
例:某公司需要购买一套文字软件, 有三个产品,选择18个员工分成三组 学习,比较三个软件学习时间最短。
药 秩
10 11 13 14 15 63 5 16.0 20.5 22.5 29.0 36.0 — —
乙 死亡率
药 秩
4 6 7 9 12 38 5
丙 死亡率
6.5 9.0 12.5 18.0 24.0 — —
药 秩
1 2 3 5 8 19 5
表 8–10 小白鼠接种三种不同菌型伤寒杆菌的存活日数比较
X G
45 38 56 1 1 1
60
47 65 30
1
1 1 2
40
28 44 25
2
2 2 2
42
22 19 15 31 27
2
3 3 3 3 3
软件一 软件二 软件三 45 30 22 38 40 19 56 28 15 60 44 31 47 25 27 65 42 17

Si g. .851
*. Th is is a lower bound of the true significa nce .
b Tests of Normality
X
Ko lmogorov-Smirnov Statistic df Si g. .238 6 .200* a. Lillie fors Significance Correction b. G = 2.00
先把从这k个独立总体来的样本混 合起来排序,记各个总体观测值的 秩之和为Ri,i=1,…,k。 如果这些Ri很不相同,就可以认为 它们位置参数相同的零假设不妥
k Ri Ri2 12 12 H ni n R N ( N 1) n 3( N 1) N ( N 1) i 1 i i 1 i k 2
N 1.00 2.00 3.00 To tal 6 6 6 18
Mean St d. Deviatio n St d. Error 51.83 33 10.18 659 4.158 66 34.83 33 8.109 67 3.310 76 21.83 33 6.145 46 2.508 87 36.16 67 14.85 716 3.501 87
组间平方和 H 全体样本的秩方差
n(n 1) 全体样本的秩方差 = 12
为做出精确的判断,我们计算K-W统计 量H,以反映平均秩间的差异。
k 12 H= ni ( Ri R ) 2 N N +1 i 1 ( )
R 12 n 3( N 1) N ( N 1) i 1 i
a
Sh apiro-Wil k Statistic df .882 6
Si g. .278
*. Th is is a lower bound of the true significa nce .
b Tests of Normality
X
Ko lmogorov-Smirnov Statistic df Si g. .178 6 .200* a. Lillie fors Significance Correction b. G = 3.00
a,b Test S tatistics
Ra nks X G 1.00 2.00 3.00 To tal N 6 6 6 18 Mean Rank 15.00 9.33 4.17
Ch i-Squa re df Asymp. S ig.
X 12.36 3 2 .002
a. Kruska l Wallis Test b. Grouping Variab le: G
5 6 7
95 90 80
40 35
90 70 75
25
70
1
1 1 1
检验假设 H0:三所大学的学生成绩相等 H1:并非三所大学的学生成绩都相等
60 85
95
90 80 60 20 30 15 40 35
1
1 1 2 2 2 2 2 2
50
70 60 80 90 70 75
3
3 3 3 3 3 3
Kruskal-Wallis检验
K-W法将多个样本数混合并按升序排序, 求出其秩对多个样本的秩分别求平均秩 序如果各样本的平均秩大致相等,则认为 多个总体分布无显著差异
有结点(tie)需修正!
表 8–9 三种药物杀灭钉螺的死亡率%比较
甲 死亡率
32.5 35.5 40.5 46.0 49.0 Ri ni
检验是否几个独立样本来自相同总体 (Tests whether several independent samples are from the same population.) 零假设:样本来自的多个独立总体的分布 无显著差异。
方差分析过程关注三个或更多总体的均值 是否相等的问题,数据是被假设成具有正 态分布和相等的方差,此时F检验才能奏效。 F检验对正数据的正态性非常敏感。 当采集的数据常常不能满足正态的条件时 需要用非参数统计。
相关文档
最新文档