第二讲 非参数统计检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二讲 非参数检验
1. 实验目的
1.了解非参数假设检验基本思想;
2.会用SAS 软件中的proc npar1way 过程进行非参数假设检验和proc freq 过程进行列联表的独立性检验。
2. 实验要求
1.会用SAS 软件建立数据集,并进行统计分析;
2.掌握proc npar1way 过程进行非参数假设检验的基本步骤;
3.掌握proc freq 过程进行列联表的独立性检验的基本步骤。
3. 实验基本原理
3.1 符号检验
0:H 两种方法的处理效果无显著性差异
令10
i i I i ⎧=⎨
⎩第个个体中新方法优于对照方法第个个体中新方法劣于对照方法
1,2,,i N =
统计量1
N
N
i i S I ==∑
N S 表示新方法的处理效果优于对照方法的配对组总数。
若新方法的处理效果显著的优于对
照方法,则N S 的值应明显偏大。
因此,若对给定的置信水平α,有 {}N P S c α≥<,
则拒绝0H 。
0H 为真时,(1)N S 服从二项分布1(,)2
b N (),()24
N N N N
E S Var S =
=。
拒绝域为:
{}N
N S
S c >
(2)
由中心极限定理可知,当
2
,
N N S N -
→∞的零分布趋于标准正态分布。
拒绝域为
:N S u α⎧⎫
⎪⎪⎪⎪>⎨⎬⎪⎪⎪⎪⎩⎭
3.2 Wilcoxon 秩和检验 (1)单边假设检验
0:H 两种方法的处理效果无显著性差异 as 1:H :新方法优于对照方法。
用于检验0H 的统计量为:1n
s i i W I ==∑
若对给定的置信水平α,有
{}s P W c α≥<,则拒绝0H 。
且s W 的分布列为:
0#{;,}{}H s w n m P W w N n ==
⎛⎫ ⎪⎝⎭
根据观测结果计算s W 的观测值0s W ,计算检验的p 值:
00
{}{}
s
H s s H s k w p P W w P
W k ≥=≥=
=∑
然后将p 值与显著水平α作比较,若p α<,则拒绝0H ,否则接受0H 。
(2)双边假设检验
给定的显著水平21,c c 和α应该满足:
ε=≥+≤}{}{2100c W P c W P A H A H
仅由上式还不能唯一确定21c c 和,当我们对两种方法谁优谁劣不得而知时,通常取
2
}{}{2100α
=
≥=≤c W P c W P A H A H
若利用p 值进行检验,设A A W ω的观测值为
,计算概率值
}{}{00A A H A A H W P W P ωω≤≥或
由对称性可知,检验的p 值为上述两概率中小于1/2的那一个的2倍。
例如
2
1
W P 0A A H 0}<{ω≥≤则}{20
A A H W P p ω≥=。
求出p 值后,若p<a ,拒
绝0H ,否则接受。
(3)列联表的独立性检验
0:H 方法的处理效果无显著性差异
ijk π:表示格子概率,ijk ijk m n π=表示三维列联表中事件发生的理论频数。
将概率用相
应的频率频率去估计。
令22
2111
ˆ()~()ˆr
s
t
ijk ijk i j k ijk n m Q f m χ===-=∑∑∑ 其中:(1)()f rst =--为检验特定独立性所需要独立估计的概率数目
将样本数据代入统计量进行检验。
然后将P 与显著水平α作比较,若p α<,拒绝0H ,否则接受0H 。
4. 实验相关SAS 知识
(1)独立样本的秩检验——proc npar1way 过程
proc npar1way 过程的基本语句形式为 proc npar1way [options];
class variables;(proc npar1way 过程不可缺少的语句) exact;(求出检验的精确p 值) var variables;
其中“options ”可包含以下选项的部分或全部: ①DATA=数据集名:指定要分析的数据集。
②ANOVA :对原始数据执行标准的单因素方差分析。
③WILCOXON :进行wilcoxon 型秩和检验。
当有两种处理方法时,进行的是wilcoxon 秩和检验;当有多种处理方法时,进行Kruskall-Wallis 检验。
④EDF :进行基于样本经验分布函数的非参数检验,包括Smirnov 检验。
若省略这些选项,SAS 系统将给出所有基于秩以及经验分布函数的非参数检验方法的分析结果。
(2)列联表的独立性检验
proc freq 过程的基本语句形式为
proc freq [options];
tables variable1*variable2*……/options; weight variable;
其中“options ”可包含以下选项的部分或全部: ①DATA=数据集名:指定要分析的数据集。
②chisq:要求对生成的每个二维列联表的独立性作2χ检验,并计算依赖于2χ统计量的关联度。
③cellchi2:要求输出每个格子对总2χ统计量的贡献。
④expected:在独立性假定下输出各格子的期望频数。
⑤deviation:要求输出每个格子上的频数与期望频数之差。
⑥nocol:不输出二维列联表各格子的列百分数。
⑦norow: 不输出二维列联表各格子的行百分数。
⑧nofreq:不输出格子频数。
⑨nopercent:不输出各格子的百分数。
⑩noprint:不输出列联表,但允许输出各分析结果。
5. 实验举例
5.1 Wilcoxon 秩和检验(单边和双边假设检验)
例 1 为了解一种新的术后护理方法和原护理方法相比是否可以显著缩短病人手术后的恢
复时间,随机的将做完某种手术的18位病人分为两组,每组9人,按不同方法护理,观测到他们的恢复时间(单位:天)如下: 原方法:20,21,24,30,32,36,40,48,54 新方法:19,22,25,26,28,29,34,37,38
在05.0=α下检验新方法是否显著的缩短了病人手术后的恢复时间。
Wilcoxon 秩和单边假设检验SAS 程序如下: data a1;
input method $ time@@; cards ;
a 20 a 21 a 24 a 30 a 32 a 36 a 40 a 48 a 54
b 19 b 22 b 25 b 26 b 28 b 29 b 34 b 37 b 38 ;
proc npar1way data =a1 wilcoxon ; class method; exact ; run ;
结果显示α>=2181.0p ,故接受原假设0H ,即认为病人手术后采用新旧护理方法对其恢复时间无显著差异。
5.2.Smirnov 检验
例2(数据见教材)SAS 程序如下:
data a1;
input group $ time@@; cards ;
a 6.8 a 3.1 a 5.8 a 4.5 a 3.3 a 4.7 a 4.2 a 4.9
b 4.4 b 2.5 b 2.8 b 2.1 b 6.6 b 0.0 b 4.8 b 2.3 ;
proc npar1way data =a1 edf ; class group; exact ; var time; run ;
运行结果显示p=0.0879>0.05,即认为两种止痛药效果无显著差异;但在0.1水平上可认为两者有显著差异。
5.3.Wilcoxon 符号秩检验 例3(见教材例题2.8)SAS 程序如下:
data a;
input id product1 product2; cards ; 1 459 414 2 367 306 3 303 321 4 392 443 5 310 281 6 342 301 7 421 353 8 446 391 9 430 405 10 412 390 ; data b;
set a;
diff=product1-product2;
proc univariate data=b;
var diff;
run;
运行结果显示:符号秩和检验的p值为0.1094>0.05,故认为两复合肥无显著差异;而Wilcoxon秩和检验的p值为0.0488<0.05,故认为新复合肥能显著提高小麦的产量。
5.4 多种处理方法比较的Kruskal-Wallis检验
例4(见教材例题2.10)SAS程序如下:
data a;
input group $ weight@@;
cards;
a 164 a 190 a 203 a 205 a 206 a 214 a 228 a 257
b 185 b 197 b 201 b 231
c 187 c 212 c 215 c 220 c 248 c 265 c 281
d 202 d 204 d 207 d 227 d 230 d 276
;
proc npar1way data=a wilcoxon;
class group;(不要加入exact语句,运行非常耗时!)
var weight;
run;
运行结果显示Pr > Chi-Square =0.2394>0.05,故认为四种食谱的营养效果无显著差异。
5.5 Friedman检验
例5(见教材例题2.12)SAS程序如下:
data a;
input person $ emotion $ v@@;
cards;
p1 e1 23.1 p1 e2 22.7 p1 e3 22.5 p1 e4 22.6
p2 e1 57.6 p2 e2 53.2 p2 e3 53.7 p2 e4 53.1
p3 e1 10.5 p3 e2 9.7 p3 e3 10.8 p3 e4 8.3
p4 e1 23.6 p4 e2 19.6 p4 e3 21.1 p4 e4 21.6
p5 e1 11.9 p5 e2 13.8 p5 e3 13.7 p5 e4 13.3
p6 e1 54.6 p6 e2 47.4 p6 e3 39.2 p6 e4 37.0
p7 e1 21.0 p7 e2 13.6 p7 e3 13.7 p7 e4 14.8
p8 e1 20.3 p8 e2 23.6 p8 e3 16.3 p8 e4 14.8
;
proc freq;
tables person*emotion*v/scores=rank cmh noprint;
run;
运行结果显示p值为0.0917>0.05,故认为在催眠状态下,受试者对4种情绪状态的反应无显著差异。
5.6 列联表的独立性检验
例6(数据见教材例题)SAS程序如下:
data penalty;
input p $ d $ count@@;
cards;
y w 19 y b 17 n w 141 n b 149
;
proc freq data=penalty;
tables p*d/chisq expected nocol norow nopercent;
weight count;
run;
6. [ 本次实验]
为了研究两种化学添加剂对电池寿命的影响,对13个同类型的电池,随机的抽取6个加入甲种添加剂,其余7个加入乙种添加剂,各组电池寿命如下(单位:小时):
甲组:18 24 25 27 30 35
乙组:20 21 28 32 34 38 40
对α=0.10,检验两种添加剂下电池的寿命是否有显著差异。
7 . 课后练习
数据分析教材习题二中的2.3、2.7、2.12、2.14。
8.参考文献
[1]范金城,梅长林.数据分析[M].北京:科学出版社. 2005 P45-93.
参考答案: [ 本次实验]
为了研究两种化学添加剂对电池寿命的影响,对13个同类型的电池,随机的抽取6个加
入甲种添加剂,其余7个加入乙种添加剂,各组电池寿命如下(单位:小时): 甲组: 18 24 25 27 30 35 乙组: 20 21 28 32 34 38 40
对α=0.10,检验两种添加剂下电池的寿命是否有显著差异。
解:
Wilcoxon 秩和双边假设检验SAS 程序如下: data a2;
input group $ lifetime@@; cards ;
a 18 a 24 a 25 a 27 a 30 a 35
b 20 b 21 b 28 b 32 b 34 b 38 b 40 ;
proc npar1way data =a2 wilcoxon ; class group; exact ; run ;
结果显示α>=366.0p ,故接受原假设0H ,即认为两种添加剂下电池的寿命无显著差异。
.。