第二讲-非参数统计检验
非参数统计课件
什么是假设 检验?
假设检验用来判断 一个统计假设在给 定数据下是否成立。
非参数假设 检验的基本 思想
非参数假设检验不
依赖于总体参数的
具体分布。
U检验
U检验是一种常见的 非参数假设检验方 法。
KolmogorovSmirnov检验
KolmogorovSmirnov检验用来检 验样本是否符合给 定分布。
什么是核密度估计?
核密度估计是一种估计概率密度函数
概率密度函数和密度函数的区
2
的非参数方法。
别
概率密度函数是连续随机变量的密度
函数,而密度函数是离散随机变量的
3
高斯核密度估计
密度函数。
高斯核密度估计使用高斯核函数来估
计概率密度函数。
交叉验证方法
4
交叉验证方法可以用来选择合适的核 函数带宽。
分析?
回归分析用来建立变量之间的依赖关系。
Nadaraya-Watson核回归
Nadaraya-Watson核回归通过核函数加权来 估计回归函数。
非参数回归分析的基本思想
非参数回归分析不需要对回归函数做具体的 形式假设。
局部加权回归
局部加权回归在核回归的基础上引入了距离 权重来进一步提高估计精度。
非参数统计ppt课件
# 非参数统计PPT课件 ## 简介 - 什么是非参数统计? - 非参数统计和参数统计的区别
统计分布
什么是统计分布?
统计分布描述随机变量的不确定性和可能性。
常见的统计分布
包括正态分布、二项分布、泊松分布等。
经验分布函数
经验分布函数用样本数据来近似未知总体分布函数。
核密度估计
1
总结
1
数学建模优秀课件非参数统计
0 1 1 0 0 0 1 0 0 1 0 0 0 0 1 1 0 0 1 0 0 0 0 1 0 1
问病户的分布排列是呈聚集趋势,还是随机分布?
实验步骤
1.建立数据文件。 (定义住户变量为epi。按住户顺序输入数据,发病的 住户为1 ,非发病的住户为0。) 2.选择菜单“Analyze→Nonparametric Tests→Runs Test”,弹出 “Runs Test”对话框。在 对话框左侧的变量列表中选择变量epi,使之进入 Test Variable List框。在临界割点“Cut Point”框中 选“Custom”项,在其方框中键入1(根据需要选项, 本例是0、1二分变量,故临界割点值用1)。 3.单击“OK”按钮,得到输出结果。
非参数检验的概念
非参数检验是指在总体不服从正态分布且分 布情况不明时,用来检验数据资料是否来自同 一个总体假设的一类检验方法。由于这些方法 一般不涉及总体参数故得名。
注:这类方法的假定前提比参数性假设检验方 法少的多,也容易满足,适用于计量信息较弱 的资料且计算方法也简单易行,所以在实际中 有广泛的应用。
结果分析
K-S正态性检验的结果显示,Z值=0.718,双侧P值 =0.681,可认为该地正常成年男子的红细胞计数符 合正态分布
5. 2 independent Samples Test 两个独立样本检验
例题
调查某厂的铅作业工人7人和非铅作业工人10 人的血铅值(μg / 100g)如下,问两组工人的 血铅值有无差别?
结果分析
二项分布检验表明,女婴12名,男婴28名,观察概 率为0.70(即男婴占70%),检验概率为0.50,二 项分布检验的结果是双侧概率为0.018,可认为男女 比例的差异有高度显著性,即与通常0.5的性比例相 比,该地男婴比女婴明显为多。
非参数统计学讲义(第二章)讲稿
非参数统计学讲义第二章 单样本模型 §1 符号检验和有关的置信区间在有了一个样本n X X ,,1 之后,很自然地想要知道它所代表的总体的“中心”在哪里.例如,在对人们的收入进行了抽样之后,就自然要涉及“人均收入”和“中间收入”等概念.这就与统计中的对总体的均值(mean),中位数(median)和众数(mode)等位置参数的推断有关。
例如,在知道总体是正态分布时,要检验其均值是否为μ;一个传统的基于正态理论的典型方法是t 检验.它的检验统计量定义为ns X t /μ-=这里X 为样本均值,而211)(X X n S -∑-=为样本标准差。
t —检验的统计量在零假设下有n —1个自由度的t —分布。
检验统计量是用样本标准差s 代替了有标准正态分布的检验统计量的总体标准差后而产生的在大样本时,二者几乎相等。
t —检验也许是世界上用得最广泛的检验之一。
但是,t —检验并不稳健,在不知总体分布时,特别是小样本时,应用t —检验就可能有风险。
这时就要考虑使用非参数方法。
对于本章所要介绍的数据趋势或随机性检验,就不存在简单的参数方法.非参数方法总是简单实用的。
本章所介绍的一些检验有代表性,因此这里的讨论将比其它章节更为仔细.一旦熟悉了非参数方法的一些基本思路,后面的内容就很容易理解了.一、问题的提出【例2-1】联合国人员在世界上66个大城市生活花费指数(以纽约市1962年12为100)按自小至大的次序排列如下(这里北京的指数为99):表2-1 生活花费指数数据66 75 78 80 81 81 82 83 83 83 83 84 85 85 86 86 86 86 87 87 88 88 88 88 88 89 89 89 89 90 90 91 91 91 91 92 93 93 96 96 96 97 99 100 101 102 103 103 104 104 104 105 106 109 109 110110110111113115116117118155192在例子中,人们可能会问:①总体的平均(或者中间)水平1是多少?②北京是在该水平之上还是之下?可以假定这个样本是从世界许多大城市中随机抽样而得的所有大城市的指数组成总体.可能出现的问题是:这个总体的平均(或者中间)水平是多少?北京是在该水平之上还是之下?这里的平均(或中间)水平是一个位置参数。
非参数统计(non-parametricstatistics)又称任意分布检验(
例11.6(P195)。
(一)建立检验假设
H0:某中药治疗四种病型 的疗效总体分布相同 H1:四个总体的分布不同 或不全同
0.05
(二)计算统计量H值 (1)编秩:a、计算各等级的合计人数 b、确定秩次范围 c、计算平均秩次 (2)求各组秩和
R1 65(139.5) 18(304.0) 30(397.5) 13(504.5)
血浆总皮质醇含量有差别(不同或不全同)。
若还希望分析具体哪些组之间有差别,需进一步两两组 间比较。方法见《卫生统计学》第五版P196,《医学统计学》 第二版P183等。
当相同秩次较多(超过25%)时,需进行如下校正。
例11.4(P193),见表11-4。
(一)建立检验假设
H0:接种三种不同菌型伤 寒杆菌存活日数总体分 布相同 H1:三个总体的位置不同 或不全同
适用于完全随机设计分组的多个样本比较(即不满足参
数统计条件的),目的在于判断多个总体分布是否相同。
例11.3(P192),见表11-3。
(一)建立检验假设
H
:血浆总皮质醇含量的
0
三个总体分布相同
H1:血浆总皮质醇含量的 三个总体分布不同或不 全同
0.05
(二)计算统计量H值
1、编秩
先将各组数据分别由小到大排列,统一编秩,不同组的
注意:等级资料对程度的比较不应选检验。
例11.5(P194)。
(一)建立检验假设
H
:吸烟工人和不吸烟工
0
人的HbCO%含量总体分布位置相
同
H1:吸烟工人的HbCO%含量高于不吸烟工人 的HbCO%含量
0.0(5 单侧)
(二)计算统计量u值
(1)编秩:a、计算各等级的合计人数
统计学中的非参数检验方法
统计学中的非参数检验方法统计学是一门应用广泛的科学领域,它的应用范围涉及到社会、经济、医学、科学等各个领域。
非参数检验方法是统计学中的一种基于数据分布情况的假设检验方法,它不仅可以应用于各个领域的研究中,也是数据分析领域中不可或缺的一部分。
什么是非参数检验非参数检验是一种基于统计数据分布情况做出判断的方法,在对特定类别的数据进行假设检验的时候,不依赖于数据分布的形状,而且它可以处理许多小样本或者没有熟知的总体参数的数据。
非参数检验方法的应用范围广泛,可以用于数据汇总、逻辑推理、实验设计以及其他数据分析中的问题。
非参数检验的优势传统的统计假设检验方法是基于大样本数据的总体参数进行推断的,其可以直接获得总体参数值,但是对于小样本数据而言,则需要使用比较多的假设、术语和统计量、偏差的值来判断出研究问题的可行性,而非参数检验则可以用较少的假设来完成数据分析,避免了数据误判,降低了数据分析的难度。
非参数检验的应用非参数检验方法在实际生活中的应用,主要表现在以下几个方面:1. 样本分布非正态:如果样本数据分布不满足正态分布,这时是可以应用非参数检验方法的。
2. 样本数据较少:如果样本数据较少,传统假设检验方法会有较高的错误率,可以使用非参数检验方法来避免这种情况。
3. 样本数据有异常值:若样本数据存在严重的异常值,应用传统的假设检验方法可能会导致数据误判,此时可以应用非参数检验方法进行数据分析。
常见的非参数检验方法常见的非参数检验方法有:1. Wilcoxon符号秩检验:适合偏差没达到正态分布的样本。
2. Mann-Whitney U检验:主要用于2组样本数据非独立的情况。
3. Kruskal-Wallis检验:用于3组及以上的样本比较,判断样本总体是否有差别。
4. Friedman秩和检验:主要用于分析多组数据的内部联系。
5. Kolmogorov-Smirnov拟合检验:用于检验给定的样本是否符合特定分布。
统计学习理论中的非参数检验方法
统计学习理论中的非参数检验方法统计学习理论是一种研究如何通过数据来进行预测和决策的学科。
它提供了一种对数据进行分析和推断的方法,其中非参数检验方法起着重要的作用。
非参数检验方法是指不对总体分布做任何假设或者对总体分布进行某种特定形式的参数化约束的统计检验方法。
一、概述统计学习理论中的非参数检验方法是一种基于样本数据的统计推断方法,它不依赖于总体分布的具体形式,而是基于样本数据的经验分布进行推断。
与参数检验方法相比,非参数检验方法具有更广泛的适用性和更强的鲁棒性。
二、常用的非参数检验方法1. Wilcoxon秩和检验:Wilcoxon秩和检验是一种非参数的配对样本检验方法,用于比较两组相关样本的均值差异。
它基于样本数据的秩次来进行推断,不依赖于总体分布的具体形式。
2. Mann-Whitney U检验:Mann-Whitney U检验是一种非参数的独立样本检验方法,用于比较两组独立样本的均值差异。
它基于样本数据的秩次来进行推断,不依赖于总体分布的具体形式。
3. Kruskal-Wallis H检验:Kruskal-Wallis H检验是一种非参数的多组独立样本检验方法,用于比较多组独立样本的均值差异。
它基于样本数据的秩次来进行推断,不依赖于总体分布的具体形式。
4. Friedman检验:Friedman检验是一种非参数的多组配对样本检验方法,用于比较多组配对样本的均值差异。
它基于样本数据的秩次来进行推断,不依赖于总体分布的具体形式。
5. 卡方检验:卡方检验是一种非参数的拟合优度检验方法,用于检验观察值与理论值之间的偏差程度。
它适用于分类变量的分析,不依赖于总体分布的具体形式。
三、非参数检验方法的优缺点非参数检验方法具有以下优点:1. 不依赖于总体分布的具体形式,对数据的偏离程度不敏感;2. 适用性广泛,可以应用于不同类型的数据和问题;3. 无需对参数进行估计,简化了统计推断的过程。
然而,非参数检验方法也存在一些限制:1. 样本量要求较大,否则可能出现效果不稳定的情况;2. 结果的解释相对复杂,不如参数检验方法直观。
非参数统计--X检验(ppt 39页)
HA:实际观察的属性类别分 配 不符合已知属性
类别分配的理论或学说。
2.计算检验统计量2或2c
2 (AT)2 T
2 c
(AT0.5)2 T
3. 查临界2值(P483 ,2值表) ,作出统计推断
若属性类别分类数为k ,则适合性检验的自由度为 k-1
•若2 (或2c)<20.05,P>0.05,表明实际观察次数与
第七章 非参数统计
—2检验
前面所阐述的参数估计和假设检验,都是以总 体分布已知或对分布作出某种假定为前提的,是限定 分布的估计或检验,亦可以称为参数统计。但是在许 多实际问题中,我们往往不知道客观现象的总体分布 或无从对总体分布作出某种假定,尤其是对品质变量 和不能直接进行定量测定的一些社会及行为科学方面 的问题,如食品感官评定的统计,需要用非参数统计 方法来解决。
2
2 ( n1)
2分布性质 •2≥0 , 即 2 的 取 值 范 围 是[0,+∞ •2分布密度曲线是随自由度不同而改变的一组曲线
•随自由度的增大, 曲线由偏斜渐趋于对称 •该分布的平均数为df,方差为2 df.
图7-1 几个自由度的概率分布密度曲线
三、 2的连续性矫正
由
2
(AT)2 T
式计算的2只是近似地服从连续型随机变量2
65
+14
总和
260
260
0
2 c
0.935 2.804 3.739
C 2 (A | T T | 0 .5 )2 (1 | 8 1 1|1 9 9 0 .5 )5 2 5 (7 | 6 9 6 | 5 0 5 .5 )2 3 .73
(五)查临界2值,作出统计推断 当自由度 df=1 时, 查 得 20.05(1) =3.84,计算的2c<20.05(1),P>0.05,不能 否定H0,表明实际观察次数与理论次数差异不
非参数统计讲义
秩 9.5 14.0 12.0 21.0 7.5 9.5 2.0 17.5 7.5 14.0 17.5 24.0
Histogram
For GROUP= Group2
6
5
4
3
2
Frequency
1 0 0.0 5.0 10.0 15.0 20.0 25.0
Std. Dev = 9.17 Mean = 14.8 N = 15.00
定义(连续分布) 定义(连续分布)
假定X ~ f ( x), 令0 < p < 1, 满足等式F ( x)=p( X < m p ) = p 的唯一根m p 称为F ( x)的分位数。
二、秩统计量 1、秩统计量 设X1,X2,X3,…,Xn 来自总体的样本,记Ri为样本 点Xi 的秩,即样本中小于或等于Xi 的样本点的个数, n 即
44 33 22 8 47 31 40 30 33 35 18 21 35 28 22
26.0 19.5 5.5 1.0 27.0 16.0 25.0 14.0 19.5 22.5 3.0 4.0 22.5 11.0 5.5
Histogram
For GROUP= Group1
6
RANK of SCORE
注意:非参数统计的名字中的“ 注意:非参数统计的名字中的“非参数 (nonparametric)” (nonparametric) 意味着其方法不涉及描述总 体分布的有关参数;它被称为和分布无关 体分布的有关参数;它被称为和分布无关 (distribution—free) free), (distribution free),是因为其推断方法和 总体分布无关;不应理解为与所有分布( 总体分布无关;不应理解为与所有分布(例如有 关秩的分布)无关. 关秩的分布)无关. 什么是非参数统计? 什么是非参数统计? 不假定总体分布的具体形式, 不假定总体分布的具体形式,从数据本身获得 所需要的信息, 所需要的信息,通过推断方法得到相关结论的 一种分析方法。 一种分析方法。
非参数检验综合概述PPT(30张)
•
9、别再去抱怨身边人善变,多懂一些道理,明白一些事理,毕竟每个人都是越活越现实。
•
10、山有封顶,还有彼岸,慢慢长途,终有回转,余味苦涩,终有回甘。
•
11、人生就像是一个马尔可夫链,你的未来取决于你当下正在做的事,而无关于过去做完的事。
•
12、女人,要么有美貌,要么有智慧,如果两者你都不占绝对优势,那你就选择善良。
多个独立样本的非参数检验
例3 14名新生儿出生体重按其母亲的吸烟习惯分组(A组: 每日吸烟多于20支;B组:每日吸烟少于20支;C组:过去 吸烟而现已戒烟;D组:从不吸烟),具体如下。试问四个 吸烟组出生体重分布是否相同?数据见npc.sav:
A组: 2.7 2.4 2.2 3.4 B组: 2.9 3.2 3.2 C组: 3.3 3.6 3.4 3.4 D组: 3.5 3.6 3.7
两独立样本的非参数检验 (2) 检验统计量
分析结果
给 出 Mann-Whitney U 、 Wilcoxon W 统 计 量 和 Z 值 , 近 似 值 概 率 (Asymp.Sig)和精确概率值(Exact.sig)均小于0.05,结论一致,表明 猫、兔在缺氧条件下的生存时间的差异具有统计学意义,由平均秩次猫 (15.7)、兔(7.96)来看,可以认为缺氧条件下猫的生存时间长于兔。
•
3、命运给你一个比别人低的起点是想告诉你,让你用你的一生去奋斗出一个绝地反击的故事,所以有什么理由不努力!
•
4、心中没有过分的贪求,自然苦就少。口里不说多余的话,自然祸就少。腹内的食物能减少,自然病就少。思绪中没有过分欲,自然忧就少。大悲是无泪的,同样大悟无言。缘来尽量要惜,缘尽就放。人生本来就空,对人家笑笑,对自己笑笑,笑着看天下,看日出日落,花谢花开,岂不自在,哪里来的尘埃!
第二讲-非参数统计检验
第二讲 非参数检验1.实验目的1.了解非参数假设检验基本思想;2.会用SAS 软件中的proc npar1way 过程进行非参数假设检验和proc freq 过程进行列联表的独立性检验。
2.实验要求1.会用SAS 软件建立数据集, 并进行统计分析;2.掌握proc npar1way 过程进行非参数假设检验的基本步骤;3.掌握proc freq 过程进行列联表的独立性检验的基本步骤。
3.实验基本原理3.1 符号检验0:H 两种方法的处理效果无显著性差异令10i i I i ⎧=⎨⎩第个个体中新方法优于对照方法第个个体中新方法劣于对照方法1,2,,i N = 统计量1NN i i S I ==∑表示新方法的处理效果优于对照方法的配对组总数。
若新方法的处理效果显著的优于对照方法, 则 的值应明显偏大。
因此, 若对给定的置信水平 , 有 , 则拒绝 。
为真时, (1) 服从二项分布 。
拒绝域为:(2)由中心极限定理可知, 当 的零分布趋于标准正态分布。
拒绝域为:3.2 Wilcoxon 秩和检验(1)单边假设检验两种方法的处理效果无显著性差异 as : 新方法优于对照方法。
用于检验 的统计量为:若对给定的置信水平 , 有 , 则拒绝 。
且 的分布列为:0#{;,}{}H s w n m P W w N n ==⎛⎫ ⎪⎝⎭根据观测结果计算 的观测值 , 计算检验的p 值:00{}{}s H s s H s k w p P W w P W k ≥=≥==∑ 然后将 值与显著水平 作比较, 若 , 则拒绝 , 否则接受 。
(2)双边假设检验给定的显著水平 应该满足:ε=≥+≤}{}{2100c W P c W P A H A H 仅由上式还不能唯一确定 , 当我们对两种方法谁优谁劣不得而知时, 通常取 2}{}{2100α=≥=≤c W P c W P A H A H 若利用p 值进行检验, 设 ,计算概率值}{}{00A A H A A H W P W P ωω≤≥或由对称性可知, 检验的p 值为上述两概率中小于1/2的那一个的2倍。
非参数检验教学课件
如果多个配对样本得分布存在显著得差异, 那么数值普遍偏大得组秩和必然偏大,数值普 遍偏小得组,秩和也必然偏小,各组得秩之间就 会存在显著差异。如果各样本得平均秩大致相 当,那么可以认为各组得总体分布 没有显著差 异。
2、多配对样本得Kendall协同系数检验
多配对样本得Kendall协同系数检验和 Friedman检验非常类似,也就是一种多配对样 本得非参数检验,但分析得角度不同。多配对 样本得Kendall协同系数检验主要用在分析评 判者得判别标准就是否一致公平方面。她将每 个评判对象得分数都看作就是来自多个配对总 体得样本。一个评判对象对不同被判定对象得 分数构成一个样本,其零假设为:样本来自得多 个配对总体得分布无显著差异,即评判者得评 判标准不一致。
非参数检验教学课件
但许多调查或实验所得得科研数据,其总 体分布未知或无法确定。因为有得数据不就是 来自所假定分布得总体,或者数据根本不就是 来自一个总体,还有可能数据因为某种原因被 严重污染,这样在假定分布得情况下进行推断 得做法就有可能产生错误得结论。此时人们希 望检验对一个总体分布形状不必作限制。
非参数检验根据样本数目以及样本之间得关系 可以分为单样本非参数检验、两独立样本非参数检 验、多独立样本非参数检验、两配对样本非参数检 验和多配对样本非参数检验几种。
6、1 SPSS单样本K-S检验
6、1、1 统计学上得定义和计算公 式 定义:单样本K-S检验就是以两位前苏联数
学家Kolmogorov和Smirnov命名得,也就是一种 拟合优度得非参数检验方法。单样本K-S检验 就是利用样本数据推断总体就是否服从某一理 论分布得方法,适用于探索连续型随机变量得 分布形态。
Kendall协同系数检验中会计算Friedman 检验方法,得到friedman统计量和相伴概率。 如果相伴概率小于显著性水平,可以认为这10 个节目之间没有显著差异,那么可以认为这5个 评委判定标准不一致,也就就是判定结果不一 致。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二讲非参数检验1. 实验目的1. 了解非参数假设检验基本思想;2. 会用SAS 软件中的proc nparlway 过程进行非参数假设检验和 proc freq 过程进行列联表的独立性检验。
2. 实验要求1. 会用SAS 软件建立数据集,并进行统计分析;2. 掌握proc nparlway 过程进行非参数假设检验的基本步骤;3. 掌握proc freq 过程进行列联表的独立性检验的基本步骤。
3. 实验基本原理3.1符号检验H 0:两种方法的处理效果无显著性差异令 li = *1 第i 个个体中新方法优于对照方法.0 第i 个个体中新方法劣于对照方法 i=1,2,|||,N统计里S NN=瓦I ii TS N 表示新方法的处理效果优于对照方法的配对组总数。
若新方法的处理效果显著的优于对 照方法,则S N 的值应明显偏大。
因此,若对给定的置信水平[,有 P「S N - 八则拒绝H 0。
1NN(1) S N 服从二项分布b(N ,-) E(S N ),Var (S N ) 。
拒绝域为: 2 24'SN SNc ;H 。
为真时,(2)由中心极限定理可知,当的零分布趋于标准正态分布3.2 Wilcox on 秩和检验 (1)单边假设检验H o :两种方法的处理效果无显著性差异 as H i ::新方法优于对照方法。
n用于检验H o 的统计量为:W s I ii 4若对给定的置信水平,有P[W s - C 「:〉,则拒绝H o。
且W s的分布列为:P H °{W S =w #{w ;n,m}' 了 N 、1 1n根据观测结果计算W s的观测值W s,计算检验的p 值:p= P H o{W s-W s }八 P H °{W S二k}k _w s然后将p 值与显著水平:•作比较,若p ::: :•,则拒绝H 0,否则接受H 0。
(2)双边假设检验给定的显著水平:-,C |和c 2应该满足:P H 0{W A 乞 c 1}P H 0{W A - c 2}=仅由上式还不能唯一确定 &和C 2,当我们对两种方法谁优谁劣不得而知时,通常取PH °{W A22 c 1}= PH °{W A - c 2}= ~若利用p 值进行检验,设 W A的观测值为'A ,计算概率值P H °{W A - A }或P H °{W A 「A }由对称性可知,检验的p 值为上述两概率中小于1/2的那一个的2倍。
例如 0 乞 PH °{ WA - ' A ^V 2则 p = 2PH 0{W A - • ■ A }。
求出 p 值后,若 p<a,拒 绝H 。
,否则接受。
拒绝域为:(3)列联表的独立性检验H o :方法的处理效果无显著性差异二jk :表示格子概率,m jk二n: jk表示三维列联表中事件发生的理论频数。
将概率用相应的频率频率去估计。
”Q2J gk 一%)2V2(f)令Q ~ (f)i =i j k=i nn i j k其中:f二(rst -1) - (为检验特定独立性所需要独立估计的概率数目)将样本数据代入统计量进行检验。
然后将P与显著水平:•作比较,若p ::: :•,拒绝H0,否则接受H0。
4. 实验相关SAS知识(1)独立样本的秩检验proc npar1way过程proc npar1way过程的基本语句形式为proc n par1way [opti on s];class variables; ( proc n par1way 过程不可缺少的语句)exact; (求出检验的精确 p值)var variables;其中"options ”可包含以下选项的部分或全部:①DATA数据集名:指定要分析的数据集。
②ANO VA对原始数据执行标准的单因素方差分析。
③WILCOXO N进行wilcoxon型秩和检验。
当有两种处理方法时,进行的是wilcoxon秩和检验;当有多种处理方法时,进行Kruskall-Wallis 检验。
④EDF:进行基于样本经验分布函数的非参数检验,包括Smirnov检验。
若省略这些选项,SAS系统将给出所有基于秩以及经验分布函数的非参数检验方法的分析结果。
(2)列联表的独立性检验proc freq 过程的基本语句形式为proc freq [opti on s];tables variable1*variable2* .. /opti ons;weight variable;其中"options ”可包含以下选项的部分或全部:①DATA数据集名:指定要分析的数据集。
②chisq:要求对生成的每个二维列联表的独立性作2检验,并计算依赖于2统计量的关联度。
③cellchi2:要求输出每个格子对总2统计量的贡献。
④expected:在独立性假定下输出各格子的期望频数。
⑤deviatio n:要求输出每个格子上的频数与期望频数之差。
⑥nocol:不输出二维列联表各格子的列百分数。
⑦norow:不输出二维列联表各格子的行百分数。
⑧nofreq:不输出格子频数。
⑨nopercent:不输出各格子的百分数。
⑩nopri nt:不输出列联表,但允许输出各分析结果。
5. 实验举例5.1 Wilcox on秩和检验(单边和双边假设检验)例1 为了解一种新的术后护理方法和原护理方法相比是否可以显著缩短病人手术后的恢复时间,随机的将做完某种手术的18位病人分为两组,每组9人,按不同方法护理,观测到他们的恢复时间(单位:天)如下:原方法:20,21,24,30,32,36,40,48,54新方法:19,22,25,26,28,29,34,37,38在〉=0.05下检验新方法是否显著的缩短了病人手术后的恢复时间。
Wilcox on秩和单边假设检验SAS程序如下:data a1;in put method $ time@@;cards;a 20 a 21 a 24 a 30 a 32 a 36 a 40 a 48 a 54b 19 b 22 b 25 b 26 b 28 b 29 b 34 b 37 b 38 proc npar1way data=a1 wilcoxon; class method; exact;run;结果显示p =0.2181 故接受原假设H。
,即认为病人手术后采用新旧护理方法对其恢复时间无显著差异。
5.2 . Smirnov 检验例2 (数据见教材)SAS程序如下:data a1;in put group $ time@@;cards;a 6.8 a 3.1 a 5.8 a 4.5 a 3.3 a 4.7 a 4.2 a 4.9b 4.4 b 2.5 b 2.8 b 2.1 b 6.6 b 0.0 b 4.8 b 2.35proc npar1way data=a1 edf;class group;exact;var time;run;运行结果显示p=0.0879>0.05,即认为两种止痛药效果无显著差异;但在 0.1水平上可认为两者有显著差异。
5.3 . Wilcoxon符号秩检验例3 (见教材例题2.8 ) SAS程序如下:data a;in put id product1 product2;cards;1 459 4142 367 3063 303 3214 392 4435 310 2816 342 3017 421 3538 446 3919 430 40510 412 390 data b;set a;diff=product1-product2;proc uni variate data=b;var diff;run;运行结果显示:符号秩和检验的p值为0.1094>0.05,故认为两复合肥无显著差异;而Wilcox on秩和检验的p值为0.0488<0.05,故认为新复合肥能显著提高小麦的产量。
5.4多种处理方法比较的Kruskal-Wallis 检验例4 (见教材例题2.10)SAS程序如下:data a;in put group $ weight@@;cards;a 164 a 190 a 203 a 205 a 206 a 214 a 228 a 257b 185 b 197 b 201 b 231c 187 c 212 c 215 c 220 c 248 c 265 c 281d 202 d 204 d 207 d 227 d 230 d 276proc npar1way data=a wilcoxon;class group;(不要加入exact语句,运行非常耗时!)var weight;run;运行结果显示 Pr > Chi-Square =0.2394>0.05 ,故认为四种食谱的营养效果无显著差异。
5.5 Friedma n 检验例5 (见教材例题 2.12)SAS程序如下:data a;in put pers on $ emoti on $ v@@;cards;p1 e1 23.1 p1 e222.7 p1 e3 22.5p1 e4 22.6p2 e1 57.6 p2 e253.2 p2 e3 53.7p2 e4 53.1p3 e1 10.5 p3 e2 9.7 p3 e3 10.8 p3 e4 8.3p4 e1 23.6 p4 e219.6 p4 e3 21.1p4 e4 21.6p5 e1 11.9 p5 e213.8 p5 e3 13.7p5 e4 13.3p6 e1 54.6 p6 e247.4 p6 e3 39.2p6 e4 37.0p7 e1 21.0 p7 e213.6 p7 e3 13.7p7 e4 14.8p8 el 20.3 p8 e2 23.6 p8 e3 16.3 p8 e4 14.8proc freq ;tables pers on *emoti on *v/scores=ra nk cmh n opri nt;run;运行结果显示p值为0.0917>0.05,故认为在催眠状态下,受试者对4种情绪状态的反应无显著差异。
5.6 列联表的独立性检验例6 (数据见教材例题) SAS程序如下:data pen alty;in put p $ d $ cou nt@@;cards;y w 19 y b 17 n w 141 n b 149proc freq data=penalty;tables p*d/chisq expected no col norow n operce nt;weight count;run;6. [ 本次实验]为了研究两种化学添加剂对电池寿命的影响,对13个同类型的电池,随机的抽取6个加入甲种添加剂,其余7个加入乙种添加剂,各组电池寿命如下(单位:小时):甲组:18 24 25 27 30 35乙组:20 21 28 32 34 38 40对a =0.10,检验两种添加剂下电池的寿命是否有显著差异。