SAS备课笔记_非参数检验

合集下载

常用的非参数检验(NonparametricTests)总结

常用的非参数检验(NonparametricTests)总结

常用的非参数检验(NonparametricTests)总结非参数检验(Nonparametric tests)是统计分析方法的重要组成部分,它与参数检验共同构成统计推断的基本内容。

参数检验是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。

但是,在数据分析过程中,由于种种原因,人们往往无法对总体分布形态作简单假定,此时参数检验的方法就不再适用了。

非参数检验正是一类基于这种考虑,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。

由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验。

•两独立样本的非参数检验两独立样本的非参数检验是在对总体分布不甚了解的情况下,通过对两组独立样本的分析来推断样本来自的两个总体的分布等是否存在显著差异的方法。

独立样本是指在一个总体中随机抽样对在另一个总体中随机抽样没有影响的情况下所获得的样本。

SPSS中提供了多种两独立样本的非参数检验方法,其中包括曼-惠特尼U检验、K-S检验、W-W游程检验、极端反应检验等。

某工厂用甲乙两种不同的工艺生产同一种产品。

如果希望检验两种工艺下产品的使用是否存在显著差异,可从两种工艺生产出的产品中随机抽样,得到各自的使用寿命数据。

甲工艺:675 682 692 679 669 661 693乙工艺:662 649 672 663 650 651 646 652(1)曼-惠特尼U检验两独立样本的曼-惠特尼U检验可用于对两总体分布的比例判断。

其原假设:两组独立样本来自的两总体分布无显著差异。

曼-惠特尼U 检验通过对两组样本平均秩的研究来实现判断。

秩简单说就是变量值排序的名次,可以将数据按升序排列,每个变量值都会有一个在整个变量值序列中的位置或名次,这个位置或名次就是变量值的秩。

(2)K-S检验K-S检验不仅能够检验单个总体是否服从某一理论分布,还能够检验两总体分布是否存在显著差异。

SAS的非参数检验

SAS的非参数检验

SAS的非参数检验非参数检验是一种统计方法,用于处理数据不满足正态分布或方差齐性的情况。

它们不依赖于任何概率分布的假设,因此也被称为非参数检验。

SAS(统计分析系统)是一种常用的统计软件,提供了多种非参数检验方法。

本文将介绍一些常见的非参数检验方法及其在SAS中的应用。

1. Wilcoxon符号秩检验(Wilcoxon Signed Rank Test):Wilcoxon符号秩检验是一种用于比较两个相关样本或配对样本的非参数检验方法。

它对于数据不满足正态分布的情况非常有用。

它的原假设是两个样本的中位数不同。

在SAS中,可以使用PROC UNIVARIATE来执行Wilcoxon符号秩检验。

下面是一个示例代码:```proc univariate data=mydata;var x1 x2;wilcoxon signedrank;run;```其中,mydata是数据集名称,x1和x2是要比较的两个变量。

wilcoxon signedrank选项告诉SAS执行Wilcoxon符号秩检验。

2. Mann-Whitney U检验(Mann-Whitney U Test):Mann-Whitney U检验是一种用于比较两个独立样本的非参数检验方法。

它的原假设是两个样本的总体分布相同。

在SAS中,可以使用PROC NPAR1WAY来执行Mann-Whitney U检验。

下面是一个示例代码:```proc npar1way data=mydata;var x;class group;mannwhitney u(x) / wilcoxon;run;```其中,mydata是数据集名称,x是要比较的变量,group是分组变量。

mannwhitney u选项告诉SAS执行Mann-Whitney U检验。

3. Kruskal-Wallis检验(Kruskal-Wallis Test):Kruskal-Wallis检验是一种用于比较三个或更多独立样本的非参数检验方法。

8非参数检验

8非参数检验

②正态近似法:
u | T n0 ( N 1) / 2 | n1n2 ( N 1) / 12
本例u 2.205 0.05/ 2 1.96
N3 N ; 3 3 N N (ti ti )
i
*校正公式(当相同秩次较多时)
uc u c; c
ti为第i个相同秩号的数据个数
假定:两组样本的总体分布形状相同
如果两总体 分布相同
基本思想
两样本来自同一总体 任一组秩和不应太大或太小
T 与平均秩和 n0 (1 N ) / 2 应相差不大
较小例数组的秩和, n1 n2 T min( R1 , R2 ), n1 n2
N n1 n2 n0 min( n1 , n2 )
控制 显效 有效 近控
65 18 30 13 126
107 24 53 24
1-107 108-131 132-184 185-208
54 119.5 158 196.5
编号 1 2
病情 单纯型 单纯型合并肺气肿
疗效 控制 显效
3
4 … 206 207
单纯型合并肺气肿
单纯型 … 单纯型 单纯型合并肺气肿
10 12(12 1) / 4 | R n(n 1) / 4 | u 2.275 n(n 1)(2n 1) / 24 12(12 1)(2 12 1) / 24
查标准正态分布表,得 P 值 校正公式: (当相同秩次个数较多时)
u
| R n(n 1) / 4 | n(n 1)(2n 1) / 24 (ti3 ti ) / 48 10 12(12 1) / 4
第一节 非参数检验的概念

第九章 非参数检验

第九章 非参数检验

第九章非参数检验(医学统计之星)上次更新日期:非参数统计是统计分析的重要组成部分。

可是与之很不相称的是它的理论发展远远不及参数检验完善,因而比较完善的可供使用的方法也不多。

在SAS中,非参数统计主要由UNIVARIATE过程、MEANS过程和NPAR1WAY过程来实现,前两者在前面的章节中已经介绍,它们可以进行配对设计差值的符号秩和检验(WILCOXON配对法);后者是一个单因素的非参数方差分析过程,可进行成组设计的两样本(WILCOXON法)或多样本比较(KRUSKAL-WALLIS法)的秩和检验。

本章将主要介绍NPAR1WAY过程。

由于在理论上还有争议,作为权威性的统计软件,SAS不提供非参检验两两比较的方法。

据我所知,其余统计软件里也只有PEMS提供这一功能(因为她是医统·医百的配套软件,而非参两两比较是写入了该书的)。

如果你需要这一结果,那么恐怕只有手算了。

9.0.1 语法格式NPAR1WAY过程不能处理按频数输入的资料。

这意味着如果你的数据是以频数方式输入的,那么除非你将资料想办法转换成按例记录的资料,否则SAS 无法处理。

有的同学将“NPAR1WAY”打成了“NPARLWAY”,可以这样来记:“NPAR”即“非参”的英文缩写,“WAY”是维数,更明确的说是因素的意思,而“1WAY”就代表一个因素,合起来“NPAR1WAY”说的是“单因素的非参数检验”。

怎么样,明白这个过程在做什么了吧!9.0.2 语法说明【过程选项】NPAR1WAY过程常用的选项有:∙MISSING 将缺失值也用于统计分析∙ANOV A 同时进行方差分析∙MEDIAN 要求进行中位数检验∙NOPRINT 禁止统计结果在OUTPUT视窗内输出∙SA V AGE 要求对样本进行SA V AGE得分分析∙WILCOXON 要求进行WILCOXON秩和检验我们常用的秩和检验就是WILCOXON秩和检验,对于其它方法,有兴趣的读者可参阅有关统计书籍。

SPSS数据分析教程-第6章-非参数

SPSS数据分析教程-第6章-非参数
Moses extreme reaction 比较各组的中位数
Median test
独立样本检验举例
➢ 一个公司把他们的销售代表随机分到三个 不同的组中,进行不同的培训。两个月后 对销售进行考察,我们想通过非参数检验 比较不同组别的销售代表考试得分是否有 显著性差异。这里,不同组别的考试得分 是相互独立的,因此为独立样本数据,我 们采用独立样本非参数检验。

独立样本包括两个独立样本或者两个以上的独 立样本。
➢ SPSS提供的独立样本非参数检验的方法有:
两个独立样本分布的比较
Mann-Whitney U
Kolmogorov-Smimov
Wald-Wolfowitz K个独立样本分布的比较
Kruskal-Wallis
Jonckheere-Terpstra 比较全矩
➢ Wilcoxon符号秩检验用于检验样本所来自的 总体的中位数和所给的值是否有显著区别。 该检验适用于连续型数据(或者尺度数 据),它把观测值和原假设的中心位置之 差的绝对值的秩分别按照不同的符号相加 作为其检验统计量。
➢ Wilcoxon符号秩检验的假设为:
样本所来自的总体的中位数等于给定的数值。
游程检验
➢ 游程检验用于检验某一变量的两个值的出 现顺序是否随机,对于连续型变量的随机 性检验也可以转化为只有两个取值的分类 变量的随机性的检验。游程检验通过对样 本观测值的分析,用来检验该样本所来自 的总体序列是否为随机序列(又称为白噪 声序列)。它也可以用来检验一个样本的 观测值之间是否相互独立。
二项式检验
➢ SPSS的二项式检验通过样本数据检验样本 来自的总体是否服从指定的二项分布。例 如,现代社会男、女的比例是否为1.01:1; 工厂的次品率是否为1%等都可以通过二项 式检验完成。

非参数检验(提纲)

非参数检验(提纲)

非参数检验参数检验方法,尤其是对计量资料,需要对研究的总体作一些比较严格的假定。

例如t检验法要求总体分布是正态分布等。

在实际工作中的许多资料不符合这种要求,因此以上的参数检验方法的使用受到了限制。

近代统计学家发明了对总体分布不必作限制性假定的检验技术,这种技术称为非参数检验(Nonparametric tests)。

非参数检验法是指在总体不服从正态分布或分布情况不明时,用来检验数据资料是否来自相同总体假设的一类检验方法。

由于它的假定前堤比参数检验方法少的多,而且在收集资料方面也十分简单,例如可以用“等级”或“符号”来评定观察的结果等,故这类方法在实际中有着广泛的应用。

第一节两相关样本的显著性检验1.1 符号检验法在配对实验中,将每对(或同一)实验单位(或先后)给予两种不同的处理,比较两种处理的效果有无差异或比较一组实验单位处理先后有无不同。

凡配对计量资料不服从正态分布要求时,可选用符号检验法(Sign test)。

例题1 有x,y 12对数据,它们的数值及相差符号由表1给出。

表1 本例的数据资料序号 1 2 3 4 5 6 7 8 9 10 11 12X 3 1 6 3 2 1 4 7 3 8 4 5Y 2 4 4 7 2 2 2 5 3 6 2 2 问这两个序列数值的差异是否具有显著性(α=0.05)?1.2 符号秩和检验法符号检验中只考虑配对数据x i-y i的符号,计算十分简便,但因没有考虑到x i-y i 差值的大小,因此对资料的利用不够充分,检验的灵敏度也不够好。

符号秩和检验法是上述方法的改进,由于关注到了差值的大小,故效果较好。

凡配对计量或计数的资料,可选用符号秩和检验法(Wilcoxon法)。

例题2 为研究长跑运动对增强普通高校学生的心功能效果,对某学院15名男生进行实验,经过5个月的长跑锻炼后观察其晨脉变化情况。

锻炼前后的晨脉数据如下。

问锻炼前后晨脉间的差异有无显著性(α=0.05)?表2 长跑锻炼前后的晨脉数、差值及其秩次序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 前70 76 56 63 63 56 58 60 65 65 75 66 56 59 70 后46 54 60 64 48 55 54 45 51 48 56 48 64 50 54 差值22 22 -4 -1 15 1 4 15 14 17 19 18 -8 9 16 秩次14.5 14.5 –3.5 –1.5 8.5 1.5 3.5 8.5 7 11 13 12 -5 6 101.3 用spss对两相关样本进行非参数检验spss软件包的Nonparametric Tests过程为两相关样本通常提供了3种非参数检验方法,它们是:Sign 检验,用于对两相关样本的总体做符号检验。

非参数检验

非参数检验
非参数检验又称为任意分布检验 (distribution-free test),它不考虑 研究对象总体分布具体形式,也不对总体 参数进行统计推断,而是通过检验样本所 代表的总体分布形式是否一致来得出统计 结论。
非参数检验的优点:
①适用范围广,不论样本来自的 总体分布形式如何,都可适用;
②某些非参数检验方法计算简便, 研究者在急需获得初步统计结果时可 采用;
的总体分布不同。 α=0.05
2.混合编秩
依据两组数值由小到大编秩,结果 见上表。
3.求秩和并确定检验统计量T
把两组秩次分别相加求出两组的秩 和值,R1=315.5,R2=149.5。因乳 酸钙组样本含量较小,故 T=R2=149.5。
4.确定P值和作出推断结论 以较小样本含量为n1,n1=14, n2n1=2,查附表6,两样本比较秩和检验 用T界值表(双侧)。
当n1>20或(n2-n1)>10时,附表6 中查不到P值,则可采用正态近似法求u 值来确定P值,其公式如下:
u T n1(N 1) / 2 0.5 n1n2(N 1) 12
上式中T为检验统计量值,n1、n2 分别为两样本含量,N=n1+n2,0.5这 连续性校正数。上式为无相同秩次时使 用或作为相同秩次较少时的近似值。当 两样本相同秩次较多(超过总样本数的 25%)时,应按下式进行校正,u经校 正后可略增大,P值则相应减小。
式中,Ri为各组的秩和,ni为各组 样本含量,N为总样本含量。
当各组相同秩次较多时,可对H值进 行校正,按下式求值。
Hc H c
C 1
(t
3 j
t
j
)
(N3 N)
4.确定P值和作出推断结论
当组数K=3,每组样本含量ni≤5时, 可查附表7(H界值表)得到P值。若 k>3或ni>5时,H值的分布近似于自 由度为k-1的χ2分布,此时可查附表 4χ2界值表得到P值。最后按P值作出 推断结论。

第9讲 非参数检验

第9讲 非参数检验

Options: 要求:输出描述性统计量和四分位数
结果解读:
1、描述统计量表
说明:体能测试的平均成绩为71.88。
2、二项分布概率检验结果表
说明:不拒绝原假设,即该批学生体能 及格率可能达到90%
三、游程检验——【Runs】过程
单样本变量值随机性检验 游程检验过程是利用游程的总个数获得统计推断结论的方法。 先引入以下概念:在一个二元序列中,一个由0和1连续构成的串 称为一个游程,一个游程中数据的个数称为游程的长度。 比如序列:1110000111100100000,在这个序列中,111、 0000、1111、00、1、00000都是游程,其中第一个游程111的长 度为3。 假设用U表示序列中游程的总数,用V表示最大游程长度。游 程检验就是借助于U值和V值而建立起来的,用于检验两个总体是 否相同,以及检验一个样本随机性的非参数检验法。
本章将介绍8类常用的非参数检验方法:
1、分布类型检验方法(单样本非参数检验) (1)总体分布的卡方(Chi-square)检验 (2)二项分布(Binomial)检验 (3)单样本变量值随机性检验(Runs Test) (4)单样本K-S(Kolmogorov-Smirnov)检验 2、分布位置检验方法 (5)两独立样本非参数检验 (6)多独立样本非参数检验 (7)两相关样本非参数检验 (8)多相关样本非参数检验
(3)容易计算。采用大样本原理,大部分非参数统计 量都服从正态分布或由正态分布导出的分布。 缺点:检验效能低。
三、非参数检验类型
非参数检验根据样本数目以及样本之间的 关系可以分为: (1)单样本非参数检验 (2)两独立样本非参数检验 (3)多独立样本非参数检验 (4)两配对样本非参数检验 (5)多配对样本非参数检验

第二讲-非参数统计检验

第二讲-非参数统计检验

第二讲 非参数检验1.实验目的1.了解非参数假设检验基本思想;2.会用SAS 软件中的proc npar1way 过程进行非参数假设检验和proc freq 过程进行列联表的独立性检验。

2.实验要求1.会用SAS 软件建立数据集, 并进行统计分析;2.掌握proc npar1way 过程进行非参数假设检验的基本步骤;3.掌握proc freq 过程进行列联表的独立性检验的基本步骤。

3.实验基本原理3.1 符号检验0:H 两种方法的处理效果无显著性差异令10i i I i ⎧=⎨⎩第个个体中新方法优于对照方法第个个体中新方法劣于对照方法1,2,,i N = 统计量1NN i i S I ==∑表示新方法的处理效果优于对照方法的配对组总数。

若新方法的处理效果显著的优于对照方法, 则 的值应明显偏大。

因此, 若对给定的置信水平 , 有 , 则拒绝 。

为真时, (1) 服从二项分布 。

拒绝域为:(2)由中心极限定理可知, 当 的零分布趋于标准正态分布。

拒绝域为:3.2 Wilcoxon 秩和检验(1)单边假设检验两种方法的处理效果无显著性差异 as : 新方法优于对照方法。

用于检验 的统计量为:若对给定的置信水平 , 有 , 则拒绝 。

且 的分布列为:0#{;,}{}H s w n m P W w N n ==⎛⎫ ⎪⎝⎭根据观测结果计算 的观测值 , 计算检验的p 值:00{}{}s H s s H s k w p P W w P W k ≥=≥==∑ 然后将 值与显著水平 作比较, 若 , 则拒绝 , 否则接受 。

(2)双边假设检验给定的显著水平 应该满足:ε=≥+≤}{}{2100c W P c W P A H A H 仅由上式还不能唯一确定 , 当我们对两种方法谁优谁劣不得而知时, 通常取 2}{}{2100α=≥=≤c W P c W P A H A H 若利用p 值进行检验, 设 ,计算概率值}{}{00A A H A A H W P W P ωω≤≥或由对称性可知, 检验的p 值为上述两概率中小于1/2的那一个的2倍。

非参数检验

非参数检验

➢ 编秩:数据相等则取平均秩,
➢ 求秩和
➢ 计算检验统计量H值
H 12 N(N 1)
Ri2 3( N 1) ni
出生体重(kg)xij ABCD
相应秩次 Rij A BCD
2.7 2.9 3.3 3.5
3
4
7 11
2.4 3.2 3.6 3.6
2 5.5 12.5 12.5
2.2 3.2 3.4 3.7
χ 2 12
R
2 i
3(N1)
N(N1) ni
χ2
12 14(14 1)
152
4
152 3
37.52 4
37.52 3
3(14
1)
χ 2 9.375
χ
2 c
1
χ2
(t
3 j
t
j
)
n3 n
1
(23
9.375 2) (33 3) (23
143 14
2)
9.50
四、随机区组设计资料的秩和检验 (Friedman test)
正态近似法
如果n1或n2-n1超出附表的范围,可按下式 计算u值:
u | T n1(N 1) / 2 | 0.5 n1n2 (N 1) / 12
在相同秩次较多时,应用下式进行校正:
uC u / C
C 1
(t
3 j
t
j
)
/(N
3
N)
tj为第j组相同秩次的个数
频数表资料(或等级资料)两样本资料比较
xi (2) 86 71 77 68 91 72 77 91 70 71 88 87
12 对双胞胎兄弟心理测试结果
后出生者得分 差 值

spss课件第五讲__非参数检验

spss课件第五讲__非参数检验
第五讲 非参数检验


统计推断方法是根据样本数据推断总体特征( 均值,方差等)的方法,包括参数检验和非参 数检验两种方法。 参数检验是适用于总体分布已知的情况。 非参数检验适用于总体分布未知或知道甚少的 情况。(由于在推断过程中不涉及有关总体分 布的参数,故得名“非参数”检验)
2
单样本的非参数检验 两配对样本的非参数检验 两独立样本的非参数检验 多独立样本的非参数检验 多配对样本的非参数检验9来自方差为: r2
2n1n2 (2n1n2 n1 n2 ) (n1 n2 )2 (n1 n2 1)
大样本时,游程近似服从正态分布,即
Z
r r
其中,r 为游程数。SPSS自动计算 Z 值和概率P值。
r
10
两配对样本的非参数检验
两配对样本的非参数检验是在对总体分布不甚了解的情况下,通过对 两组配对样本的分析,推断样本来自的两个配对总体的分布是否存在显 著差异的方法。 配对样本的样本数是相同的,且各样本值的先后次序是不能随意更 改的。 SPSS提供的检验方法有: 符号检验 Wilcoxon符号秩检验 McNemar检验 Marginal Homogeneity检验
Z
np(1 p)
(当 x 小于 n 2 时加0.5,当 x大于n 2 时减0.5。) SPSS自动计算上述精确概率和近似概率值。若概率值小于显著性水平,则拒绝 原假设,认为样本来自的总体与指定二项分布有显著差异;若大于显著性水平, 则接受原假设,认为样本来自的总体与指定的二项分布无显著差异。
7
15
1. 曼-惠特尼U检验(Mann-Whitney U)
原假设:两组独立样本来自的两总体分布无显著差异。 基本原理:通过对两组样本平均秩的研究来实现推断。秩,是变量值 排序的名次。 可以将数据按升序排列,每个变量值都会有一个在整个变量值序列中 的名次,这个名次就是变量值的秩。变量值有几个,对应的秩便有几 个。 首先,将两组样本数据 X1 , X 2 , , X m 和 Y1 , Y2 , , Yn 混合并按升序排序,得 到每个数据各自的秩 Ri ; 然后,分别对两组样本数据的秩求平均,得到两个平均秩 WX M和WY N 。对 两个平均秩的差距进行比较:如果两个平均秩相差甚远,则应是一组样本的 秩普遍偏小,另一组样本的秩普遍偏大的结果,也就是一组样本的值普遍偏 小,另一组样本的值普遍偏大的结果。此时,原假设很可能不成立; 再次,计算样本 X1 , X 2 , , X m 每个秩优先于样本 Y1 , Y2 , , Yn 每个秩的个 数U1 ,以及样本 Y1 , Y2 , , Yn 每个秩优先于样本 X1 , X 2 , , X m 每个秩的个数 U 2 。

SAS软件SAS软件实验四非参数检验

SAS软件SAS软件实验四非参数检验
桂林电子科技大学 数学与计算科学学院实验报告
院系 课程 名称 数学与计算科学学院 学号 统计软件包实验 实验项目 名 称 实验四 姓名 非参数检验 成绩
一 ,实验目的

用 SAS 软件进行非参数检验
二,实验原理 三,实验内容
为检验维生素 B1 对刺激蘑菇生长是否显著,从 24 朵大小相近的小蘑菇中,随机的选 取 13 朵施以维生素 B1,另外 11 朵不施维生素 B1,其它条件保持不变,一段时间 后测的两组蘑菇的重量如下: 使用维生素 B1:27,34,20.5,29.5,20,28,19.5,26.5,22,24.5,34,35.5,19 未使用维生素 B1:18,14.5,13.5,12.5,23.,24,21,17,18.5,9.5,14 在 =0.05 的情况下,检验维生素 B1 对刺激蘑菇生长的效果否显著。
图 4.3
图 4.4
由于是多样本,故作 Wilcoxon 秩和检验时仅给出 Kruskal-Wallis 检验值。 因为 P=0.0145<0.05,故去雄和未去雄两组处理对玉米产量的影响有显著差异。 .从图 4.4 可以看出第一组的效果较显著,即去雄处理对玉米产量的影响较显著。
五,实验结果分析或总结 通过这次实验,我学会了用 sas 进行非参数检验。
四,实验过程原始记录(数据,图表,计算等)
data npar1way4_6 ; input b @@; if _n_ <14 then a=1; if _n_ >13 then a=2; cards ; 27 34 20.5 29.5 20 28 19.5 26.5 22 24.5 34 35.5 19 18 14.5 13.5 12.5 23. 24 21 17 18.5 9.5 14 ;

十一章节非参数检验

十一章节非参数检验
方法:—将观察值按由小到大的次序排列, —编定秩次, —求出秩和进行假设检验。
一、配对试验资料的符号秩和检验 二、非配对试验资料的秩和检验 三、多个样本比较的秩和检验 四、多个样本两两比较的秩和检验
一、配对试验资料的符号秩和检验 (Wilcoxon配对法)
1、建立假设 HO:差值d总体的中位数=0; HA:差值d总体的中位数≠0。 2、秩次和符号 求配对数据的差值d; 按d绝对值从小到大编秩次; 根据原差值正负在各秩次前标上正负号
134.1, 124.3, 147.9, 143.0(cm)。 问该
地成年公黄牛胸围与该品种胸围平均数是否 有显著差异?
表11-2 成年公黄牛胸围测定值符号检验表
牛号 1
23
4
56
7
8
9 10
胸围 128.1 144.4 150.3 146.2 140.6 139.7 134.1 124.3 147.9 143
3、统计推断
由 n = 10 , 查 附 表 11, 得
K0.05(10)=1,K>K0.05(10) ,P>0.05,不能否定HO ,表明样本
平均数与总体平均数差异不显著,可以认为该地成年公黄牛
胸围的平均数与该品种胸围总体平均数相同。
第二节 秩和检验
秩和检验也叫做符号秩和检验(signed rank-sum test),或称Wilcoxon检验,其统 计效率远较符号检验为高。秩和检验与符号检验法 不同,要求差数来自某些对称分布的总体,但并不 要求每一差数来自相同的分布。
3、确定统计量T
将两个样本重新分开,计算各自的秩和。将较
小的样本含量作为n1,其秩和作为检验的统计量T。 若n1=n2,则任取一组的秩和为T。
4、统计推断

SAS备课笔记_非参数检验

SAS备课笔记_非参数检验

非参数检验非参数统计分析方法(Non-parametric statistics)是相对参数统计分析方法而言的,又称为不拘分布(distribution-free statistics)的统计分析方法或无分布形式假定(assumption free statistics)的统计分析方法。

其中包括Wilcoxon秩和检验、Kruskal-Wallis秩和检验、friedman秩和检验等,它们分别对应不同设计类型的资料。

SAS中对于非参数分析方法功能的实现主要由npar1way过程来完成,从过程名字就可以看出,在此过程的处理进程中,只能一次指定一个因素进行分析。

下面我们先来了解一下npar1way过程的语句格式以及各语句和选项的基本功能。

一、npar1way过程语句格式简介npar1way过程属于SAS的STAT模块,对于统计学教科书上所涉及的非参数统计方法几乎都可以通过此过程来完成。

Npar1way过程的基本语句格式如下。

PROC NPAR1WAY <选项> ;BY 变量名;CLASS变量名;EXACT 统计量选项 </ 运算选项 > ;FREQ变量名;OUTPUT < OUT=数据集名 > < 选项 > ;VAR 变量名;RUN;QUIT;Proc npar1way语句标志npar1way过程的开始,默认情况下(不列举任何选项):npar1way过程对最新创建的数据集进行分析,将缺失数据排除在分析过程之外;执行方差分析过程(等同于ANOVA选项),对样本分布位置的差异进行检验(与选项WILCOXON, MEDIAN, SAVAGE以及VW等效),并进行经验分布函数检验(等同于EDF选项)。

此语句后可用的选项见下表。

Proc npar1way语句选项及其含义1. exact 语句exact 语句要求SAS 对指定的统计量(选项)进行精确概率的计算。

其后的统计量选项可为以下项目,分别对应相应的统计计算方式(可参见上表)。

非参数检验(SAS)

非参数检验(SAS)

谢谢!
a. Grouping Variable: smoking 1= yes, no 0=
Z=-5.8778,p<0.05(双侧),吸烟与不吸烟的患者的手术中 失血量blood loss的分布有显著性差异。
问题3、 不同分期的手术中失血量blood loss是否相同? 1、建立假设检验,确定检验水准 H0:不同分期的手术中失血量blood loss总体位置相等 H1:不同分期的手术中失血量blood loss总体位置不全相 等 检验水准α=0.05 2、计算统计量T
问题2、 吸烟与不吸烟的患者的手术中失血量blood loss是 否相同?
1、建立假设检验,确定检验水准 H0:吸烟与不吸烟的患者的手术中失血量blood loss的总体 分布位置相同 H1:吸烟与不吸烟的患者的手术中失血量blood loss的总体 分布位置不同 检验水准α=0.05 2、计算统计量T 3、确定P值,作出推断 方法:两独立样本的秩和检验
data d2; set resdat.pbl321; proc npar1way wilcoxon; class smoking1__yes__0__no; var bloodloss; run;
Spss与sas结果一致
Test Statisticsa Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) blood loss 143437.00 269690.00 -5.878 .000
3、确定P值,作出推断 方法:多组独立样本的秩和检验
(1)正态性检验
data e1(keep=gradestge bloodloss); set resdat.pbl321; proc univariate normal; class gradestge; var bloodloss; run;

第三章(4) 非参数检验

第三章(4) 非参数检验
其中F0(x)是给定的连续分布函数。 2.选取检验统计量
Dn sup | Fn ( x) F ( x) |
x
当H0为真时,Dn有偏小趋势,则拟合的越好;
当H0不真时,Dn有偏大趋势,则拟合的越差。
84/25
实际使用的检验统计量 n Dn
• 推导检验统计量的分布时,使用 n Dn比Dn方便
– 对于正态总体,样本容量n与区间个数k要满 足渐近最优关系,即k =1.87(n-1)0.4 – 样本容量n与区间个数k对应表如下
n k 50 9 100 12 200 16 500 1000 2000 10000 22 30 56 74
84/10
几点说明
• 若分布函数F0(x) 含有r个未知参数,须先用 极大似然估计法求出未知参数的估计值, 然后再作假设 • 若理论频数vi=npi<5,则将相邻的小区间 合并,直至全部npi ≥5(合并区间的同时, 也将实测频数合并),合并后的小区间数 设为k*,则此时2统计量的自由度变为 df = k*-r-1
非参数检验方法
84/1
非参数检验方法
1.参数检验方法是基于总体分布为正态分布 的前提下对参数进行的检验。当条件不满 足时,不能用参数检验方法 2.非参数检验方法可以不考虑总体的参数和 总体的分布类型,也称为任意分布检验 3.不对总体参数进行比较,而是用于分布之 间的比较 4.适用条件无特殊要求
–实际应用中不满足参数统计条件的资料均可用
(原理)
• Glivenko-Cantelli引理证明了当n趋于无穷大时,Dn 以概率收敛到0,即
P lim Dn 0
• 检验统计量建立在Dn基础上
Dn sup | Fn ( x) F ( x) |
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

非参数检验非参数统计分析方法(Non-parametric statistics )是相对参数统计分析方法而言的,又称为不拘分布(distribution-free statistics) 的统计分析方法或无分布形式假定(assumption free statistics )的统计分析方法。

其中包括Wilcoxon 秩和检验、Kruskal-Wallis 秩和检验、friedman 秩和检验等,它们分别对应不同设计类型的资料。

SAS中对于非参数分析方法功能的实现主要由npar1way 过程来完成,从过程名字就可以看出,在此过程的处理进程中,只能一次指定一个因素进行分析。

下面我们先来了解一下npar1way 过程的语句格式以及各语句和选项的基本功能。

一、npar1way 过程语句格式简介npar1way 过程属于SAS的STAT模块,对于统计学教科书上所涉及的非参数统计方法几乎都可以通过此过程来完成。

Npar1way 过程的基本语句格式如下。

PROC NPAR1WAY选<项> ;BY 变量名;CLASS变量名;EXACT统计量选项</ 运算选项> ;FREQ变量名;OUTPUT < OUT=数据集名> < 选项> ;VAR 变量名;RUN;QUIT;Proc npar1way 语句标志npar1way 过程的开始,默认情况下(不列举任何选项):npar1way 过程对最新创建的数据集进行分析,将缺失数据排除在分析过程之外;执行方差分析过程(等同于ANOV A 选项),对样本分布位置的差异进行检验(与选项WILCOXON, MEDIAN, SAV A GE 以及VW 等效),并进行经验分布函数检验(等同于EDF 选项)。

此语句后可用的选项见下表。

Proc npar1way 语句选项及其含义选项名称选项功能或含义AB 运用Ansari-Bradley 评分进行分析DATA=数据集名指定要进行分析的数据集MEDIAN 运用中位数评分进行分析,即进行中位数检验NOPRINT 禁止所有的输出,用在仅需要创建输出数据集时ST 运用Siegel-Tukey 评分进行分析ANOVA 对原始数据进行方差分析EDF 要求计算基于经验分布的统计量MISSING 指定分组变量的缺失值为一有效的分组水平SAVAGE 运用Savage 评分进行分析VW 运用Van der Waerden评分进行分析计算CORRECT=NO 在两样本时,禁止Wilcoxon 和Siegel-Tukey 检验的连续性校正过程KLOTZ 运用Klotz 评分进行分析MOOD 运用Mood评分进行分析SCORES=DATA 以原始数据为评分值进行分析WILCOXON 对两样本进行Wilcoxon 秩和检验,对多样本进行Kruskal-Wallis 检验1. exact 语句exact 语句要求SAS 对指定的统计量(选项)进行精确概率的计算。

其后的统计量选项可为以下项目,分别对应相应的统计计算方式(可参见上表)。

AB,KLOTZ,KS,MEDIAN,MOO,D SAVAG,E SCORES=DAT,AS T,WILCOXO,N VW等。

运算选项为精确概率的计算过程指定一些控制项目,如选项“mc”要求以Monte Carlo 方法计算精确概率。

2. output 语句output 语句与其它过程中相应的语句大同小异,不同之处在于语句最后的选项。

此处的选项绝大多数包括在上表中,指定在输出数据集中包含所指定项目所对应的统计量。

3. var 语句var 语句用以指定要进行分析的变量,变量必须为数值型。

若省略此语句,SAS将对除by 语句、class 语句以及freq 语句中指定的变量之外的所有数值型变量进行分析。

二、不同类型资料的非参数检验方法1. 两独立样本差别的秩和检验两独立样本的非参数检验是在对总体分布不了解的情况下,通过分析样本数据,推断样本来自的两个独立总体的分布是否存在显著差异,一般来说是推断两个独立总体的均值或中位数是否存在显著差异。

关于样本是否为独立的,主要看在一个总体中抽取样本对在另一个总体中抽取样本有无影响。

如果没有影响,则可以认为这两个总体是独立的。

零假设H:样本来自的两独立总体的分布没有显著差异检验方法有多种:(1)两独立样本的威克逊等级和检验(Wilcoxon 秩和检验),也被称为Mann-Whitney U 检验。

曼- 惠特尼U 检验(Mann-Whitney U ),该检验主要是通过对平均秩的研究来实现推断的。

其基本思路是:首先,将两组样本数据( X1, X ,......X m ) 和(Y1 ,Y2 ,......Y n ) 混合并按升序排序(m 和n 分别为两组样本的样2本容量,求出每个数据各自的秩R i ;然后,分别对(X1, X2 ,......X m ) 和(Y1,Y2 ,......Y n ) 的秩求平均,得到两个平均秩W x / m和W y / n ,如果这两个平均秩相差甚远,则倾向于拒绝零假设。

(2)两独立样本的K-S 检验(Kolmogorov —Smirnov Z ),该检验首先将两组样本混合并按升序排序;然后,分别计算两组样本秩的累计频数和每个点上的累计频率;最后,将两个累计频率相减,得到差值序列数据。

(3)沃尔德—沃尔福威茨游程检验(Wlad-Wolfwitz runs ),该检验将两组样本混合并按升序排序,在数据排序的同时,两组样本的每个观察值对应的样本组标志值序列也随之重新排列;然后,对这个标志值序列求游程。

如果样本所属的两总体的分布形态存在较大差距,那么计算出的游程数会相对比较小。

如果游程数比较大,则应该是由于两样本数据充分混合的结果,那么它们的分布应该不存在显著差异。

【例1】下表为来自两个样本A、B 的测量数据,经检验知两样本方差不齐,试做非参数检验比较两组数据的差别。

两独立样本A、B测量数据A 组7 14 22 36 40 48 63 98B 组 3 5 6 10 17 18 20 39【程序】对该资料,应选用Wilcoxon 秩和检验(rank sum test )方法,编制SAS程序如下:data sasuser.data10_01;do g=1 to 2;input x@@;output;end;datalines;7 3 14 5 22 6 36 1040 17 48 18 63 20 98 39;proc npar1way wilcoxon;class g;var x;run;程序中因素“g”分组因素,“1”代表A组,“2”代表B组,“x”为待分析的变量。

Proc npar1way 语句后的选项“Wilcoxon ”指定SAS进行Wilcoxon 秩和检验。

【结果】SAS给出两组数据的基本信息(样本量、秩和等);给出在零假设下各组统计量(Sum of scores 项)的期望值(Expected Under H0 项)及标准差(Std Dev Under H0 项),最后还给出以近似z 检验以及近似t 检验所得的统计量和所对应的单、双侧概率值。

另外,默认状态下,SAS同时给出Kruskal-Wallis 检验的结果。

所不同的是,在两样本量相同时,SAS 以秩和较大者作为对象统计量进行概率值的计算,而非医学统计学教材上所说的以较小秩和为对象统计量。

在两样本量不同时,SAS以样本量较小组的秩和为对象统计量,这一点则与教材上的相同。

如果去掉“wilcoxon ”:data sasuser.data10_01;do g= 1 to 2;input x@@;output ;end ;datalines ;7 3 14 5 22 6 36 1040 17 48 18 63 20 98 39;proc npar1way ;class g;var x;run ;则SAS给出所以方法的执行结果:【例2】为了鉴别新旧两种生产方法对生产效率的影响,随机抽取了22 人用旧生产方法生产,25 人用新生产方法生产,每人平均日产量(件)资料如下:旧方法:20 31 27 18 10 26 39 45 41 24 22 23 14 11 32 37 40 46 49 55 54 19新方法:36 39 31 25 26 28 20 21 24 21 58 55 56 41 37 49 44 40 12 16 15 24 23 28 11问两种方法对日产量影响有无显著差异(0.05) ?【数据摆放】【程序】proc npar1way data =sasuser.data10_02 wilcoxom;class g;var x;run ;【运行结果】【例3】用某药治疗不同病情的老年慢性支气管炎病人, 疗效见下表,比较该药对两种病情的疗效。

某药对两种不同病情的支气管炎疗效疗效单纯型单纯型合并肺气肿控制65 42显效18 6有效30 23近控13 11【程序】对于此例,将疗效看成待分析的变量x,从“控制”到“近控”分别对其赋值1、2、3、4,病情则作为分组因素,同时需引入一个频度因素 f ,以代表不同取值状态下x 的频数。

编制程序如下:data sasuser.data10_03;do x=1 to 4;do g=1 to 2;input f@@;output;end;end;datalines;65 42 18 6 30 23 13 11;proc npar1way wilcoxon;class g;var x;freq f;run;【结果】程序和前例的基本相同,只根据资料特点增加了freq 语句。

提交程序,运行结果如下。

4. 配对设计资料的秩检验配对设计资料一般采用配对t 检验方法进行分析,但若配对数据差数的分布非正态分布,但其总体分布基本对称,则可采用Wilcoxon 符号秩检验(signed rank test)作为配对t 检验的替代方法。

Wilcoxon 符号秩检验功效很高,在数据满足配对t 检验的要求时,符号秩检验的功效可达配对t 检验功效的95%。

SAS 中符号检验(sign test)和符号秩检验的功能不是在npar1way 过程中实现,而是通过univariate 过程来实现的。

可能因为这两项功能涉及的是关于单变量分析的缘故。

【例4】采用配对设计,用某种放射线的 A ,B 两种方式分别局部照射家兔的两个部位,观察放射性急性皮肤损伤程度,结果见下表。

试用符号秩检验比较A,B 的损伤程度是否不同。

家兔皮肤损伤程度编号方式 A 方式B1 39 552 42 543 51 554 43 475 55 536 45 637 22 528 48 449 40 4810 45 5511 40 3212 49 57【程序】data sasuser.data10_4;input x1 x2;d=x1-x2;datalines;39 5542 5451 5543 4755 5345 6322 5248 4440 4845 5540 3249 57;proc univariate loccount;var d;run;此例中,我们须对两次测得数据的差值进行单变量分析,所以数据步中用到赋值语句“d=x1-x2 ;”。

相关文档
最新文档