第6章 非参数检验

合集下载

非参数检验的基本原理

非参数检验的基本原理

非参数检验的基本原理非参数检验是一种利用统计方法来检验假设的一种方法,与参数检验相比,非参数检验不需要对总体的分布做出假设,更为灵活。

本文将介绍非参数检验的基本原理。

一、概述非参数检验是一种统计方法,既不要求数据符合特定分布,也不对总体参数做出假设。

与之相反,参数检验通常假设数据服从特定的分布,例如正态分布。

非参数检验的主要优点是可以更全面地处理数据,更适用于复杂的情况。

然而,非参数检验的统计效率通常较低,需要更多的样本来达到相同的置信水平。

二、基本原理1. 秩次转换非参数检验通常使用秩次转换来处理数据。

所谓秩次转换是将原始的数值转换为它们在样本中的秩次,从而消除数值的大小差异。

对于同一组数据,秩次转换后,可以应用更广泛的统计方法。

2. Wilcoxon符号秩检验Wilcoxon符号秩检验是一种非参数检验方法,主要应用于配对样本或者两组独立样本之间的差异比较。

它的基本思想是对每个观测值计算它们的符号秩,然后通过比较两组样本的秩和来判断差异是否显著。

3. Mann-Whitney U检验Mann-Whitney U检验是一种非参数检验方法,用于比较两组独立样本之间的差异。

它的基本原理是将两组样本中的所有观测值汇总,然后对这些观测值进行秩次转换,并计算两组样本排名和。

通过比较两组样本排名和的大小来判断差异是否显著。

4. Kruskal-Wallis H检验Kruskal-Wallis H检验是一种非参数的方差分析方法,用于比较三组或以上独立样本之间的差异。

它的基本原理是将所有样本的观测值汇总,然后进行秩次转换,并计算各组样本排名和的平均值。

通过比较平均排名和的大小来判断差异是否显著。

三、案例研究为了更好地理解非参数检验的原理,我们以某家公司销售部门的两个月销售额作为例子进行案例研究。

假设第一个月公司销售额为[100, 80, 120, 90, 110],第二个月公司销售额为[95, 85, 115, 100, 105]。

第6章 非参数检验

第6章 非参数检验

第六章非参数检验在前面的章节中我们介绍了多种假设检验的方法,例如单个总体的t检验、基于两个独立样本的t检验、基于两个匹配样本的t检验、方差分析等。

在这些检验都需要对总体的分布特征作出某些假设(例如在t检验和方差分析中都需要假设总体服从正态分布),然后根据检验统计量的抽样分布对总体参数(如均值、比率等)进行检验。

这类检验方法称为参数检验。

我们前面强调过,在需要的假设条件不满足的情况下,特别是小样本的情况下,t检验、F检验都是不适用的。

那么,如何检验数据是否来自正态分布或者其他分布?在参数检验假设条件不满足的情况下如何对相应的问题进行分析?非参数检验方法可以帮助我们回答这类问题。

在这一章中,我们将首先简要说明非参数检验的概念和优缺点,然后介绍几种常见的非参数检验方法及其在SPSS中的实现方法。

第一节非参数检验概述非参数检验(nonparametric tests)也称为与总体分布无关的检验(distribution free tests),与参数检验相比,在非参数检验中不需要对总体分布的具体形式作出严格假设,或者只需要很弱的假设。

大部分非参数检验都是针对总体的分布进行的检验,但也可以对总体的某些参数进行检验。

与参数检验相比,非参数检验主要有以下几个方面的特点:(1)非参数检验不需要严格假设条件,因而比参数检验有更广泛的适用面。

(2)非参数检验几乎可以处理包括定类数据和定序数据在内的所有类型的数据,而参数检验通常只能用于定量数据的分析。

(3)虽然对于满足参数检验的假设条件的数据也可以采用非参数检验法进行分析,但在参数检验和非参数检验都可以使用的情况下,由于非参数检验没有充分利用样本内所有的数量信息,因此其检验的功效(power)要低于参数检验方法。

也就是说,在备择假设为真的情况下,采用参数检验方法拒绝原假设的概率要高于非参数检验的方法,从而更容易发现显著的差异。

在假设检验中,犯取伪错误的概率记为β,则1-β越大,意味着当备择假设为真时,拒绝原假设的概率越大,检验的判别能力就越好;1-β越小,意味着当备择假设为真时,拒绝原假设的概率越小,检验的判别能力就越差。

第6章 非参数检验

第6章 非参数检验
8.5
3 1
17
8.5
8 4
5 2
13 6
7 3
19 10
8+9 = 8.5 2
中央财经大学统计学院 37
Wilcoxon符号秩检验:基本原理 符号秩检验: 符号秩检验
分别计算出差值序列中正数的秩和以及负 数的秩和。 显然,如果零假设成立,W+与W-应该比较 接近。如果二者过大或过小,则说明零假 设不成立。 将正数的秩和或者负数的秩作为检验统计 量,根据其统计分布计算p值,从而可以得 出检验的结论。
中央财经大学统计学院 38
特别说明
符号检验在匹配数据分析应用中只用到差 值的符号,而对差值数值的大小未能考虑, 因而失去了部分信息。Wilcoxon符号秩检 验既考虑差值的符号,又考虑差值的大小, 因此在所需的假设条件满足时其功效比符 号检验高。 Wilcoxon符号秩检验也可以用于单样本中 位数的非参数检验,这时只需要将第二个 样本的值设为零假设中的数值即可。
中央财经大学统计学院 33
符号检验
对于差值序列中正数的个数和负数的个数 按照符号检验的方法进行假设检验
中央财经大学统计学院
34
Wilcoxon符号秩检验:基本原理 符号秩检验: 符号秩检验
计算差值绝对值的秩 。 将差值绝对值从小到大排序,其位次就是 的秩(rank),等于0值不参与排序。
中央财经大学统计学院
中央财经大学统计学院 18
软件操作
在SPSS软件中打开数据文件,选择“分析” “非参数检 验” “1样本K-S”,在弹出的对话框中将“时间”设定为 检验变量;检验分布为默认的“常规”(正态分布)。单 击 “确定”
中央财经大学统计学院
19
结果分析

第6章 SPSS的非参数检验

第6章 SPSS的非参数检验

6.1.2 非参数检验的特点
和参数方法相比,非参数检验方法的优势如下: (1)稳健性。因为对总体分布的约束条件大大放宽, 不至于因为对统计中的假设过分理想化而无法切合实际 情况,从而对个别偏离较大的数据不至于太敏感。 (2)对数据的测量尺度无约束,对数据的要求也不 严格,什么数据类型都可以做。 (3)适用于小样本、无分布样本、数据污染样本、 混杂样本等。
6.3 SPSS 在二项分布检验中的应用
6.3.1 二项分布检验的基本原理 1.方法概述 事件要服从二项分布,则应该具备下列基本的条件。 (1)各观察单位只能具有相互对立的一种结果。 (2)已知发生某一结果(阳性)的概率为π,其对立结果 的概率为1-π。 (3)n次试验在相同条件下进行,且各个观察单位的观察 结果相互独立,即每个观察单位的观察结果不会影响 到其他观察单位的结果。
• Step02:选择检验变量 在左侧的候选变量列表框中选择“time”变量作为检验 变量,将其添加至【Test Variable List(检验变量列表)】 列表框中。
• Step03:定义二元变量 在【Define Dichotomy(定义二分法)】选项组中点选 【Cut point(割点)】,以指定断点。接着在其文本框中输入 “960”,表示以它作为分界点将原始样本分为两组。 • Step04:指定检验概率值 在【Test Proportion(检验比例)】文本框中输入指定概率值 “0.05”。
6.2.2 卡方检验的SPSS操作详解
Step01:打开主菜单 选择菜单栏中的【Analyze(分析)】 →【Nonparametric Tests (非参数检验)】→【Legacy Dialogs(旧对话框)】→【Chi-Square (卡方)】命令,弹出【Chi-Square Test(卡方检验)】对话框。

非参数检验

非参数检验
200
200
取显著性水平为0.05,查 2 分布表得临界值
2 0.05
(4)
9.488
,由于
2统计量大于临界值,所以应该拒
绝原假设,即认为消费者对各种品牌茶叶的偏好是有差
别的。
二、符号检验
1. 单样本位置的符号检验
一个随机样本,有 n 个数据
x1,x2,…,xn,其实际的总体中位数为
M,假定的中位数是某个特定值,记 做 M0 。位置检验是检验真实的中位 数和假定的中位数的关系:大于、等 于还是小于。
品牌,每一种只标上A、B、C、D、E,随机抽取1000消费 者,每人都品尝五种茶叶,然后把最偏好的茶叶的字母 写下来。下表是整理后的消费者偏好的频数分布。要求 判断消费者对这几种品牌茶叶的偏好有没有差异?
各种品牌茶叶爱好者的频数分布
喜欢的品牌
A B C D E
合计
人数
220 302 175 80 223
一、 检验
属于拟合程度检验,它是利用随机 样本对总体分布与某种特定
分布拟合程度 的检验 。
检验步骤:
① 确立原假设和备择假设。 ② 按照“原假设为真”的假定,导出 一组期望频数或理论频数。 ③ 计算 2 统计量 。
2 k ( fi ei )2
i1
ei
若统计量的值较大,拒绝原假设。
【例10.14】假定有五种不同牌号的茶叶,但都未标明
市场调查
【例10.15】领导者的领导水平是可以训练的吗?
根据人的聪明程度、人品、受教育状况等,随机抽取30 人配成15对,每对中有一人随机选择受训,另一人不受 训。经过一段时间后,按被设计好的问题评价他们的领 导水平,结果如下表所示。
领导水平评价表

非参数检验

非参数检验

两种方法治疗扁平足效果观察
建立假设
病例号
原始记录 A法 B法
量化值 A法 B法
差值
秩次
H0:两法疗效差值的总体中位数
1 2
为0;
3
4
H1:差值的总体中位数不为0。
5
6
=0.05
7
8
计算检验统计量
9
10
编秩:
11
12
求秩和:T+=61.5,T-
13
=4.5
14 15
















秩和(rank sum): 同组秩次之和;在一定程度上反映了等级 的分布位置。
秩和检验:就是通过秩次的排列求出秩和,进行假设检验。
11
非参数检验 (nonparametric test )
非参数检验的最常用方法——秩和检验( rank test ) 利用秩的大小进行推断就避免了不知道背景分布的
困难。这也是非参数检验的优点。 多数非参数检验明显地或隐含地利用了秩的性质;
但也有一些非参数方法没有涉及秩的性质。 掌握对数据进行编秩的方法是学习秩和检验的基本
要求。
12
非参数检验 (nonparametric test )
非参数检验的最常用方法——秩和检验( rank test )
A组: - 、、+、+、+、+、++、++、++、++、+++、+++
适用条件: (1)上述两种设计类型的资料不满足参数检 验条件。 (2)配对设计等级资料的比较。

第6章非参数检验

第6章非参数检验

第6章非参数检验非参数检验是针对那些总体分布不能用有限个实参数来刻画,而只能对其作一些诸如分布连续、有密度、具有某阶矩等一般性假定的统计问题。

例如,检验“两个总体有相同分布”这个假设,若只假定两总体的分布为连续,此外一无所知,问题涉及的分布不能用有限个实参数刻画,这就是非参数统计问题。

又如,估计总体分布的期望,若假定总体分布为正态分布,则问题是参数性的;若只假定总体分布的期望值存在,则问题是非参数性的。

不过参数统计与非参数统计之间并没有泾渭分明的界线,有的统计问题,从不同的角度可以理解为参数性的,也可以理解为非参数性的。

例如线性回归(见回归分析)问题,若关心的是估计回归系数,它只是有限个实参数,因而可以看成是参数性的;但如果对随机误差的分布类型没有作任何假定,则从问题总体分布这个角度看,也可以看成是非参数性的。

非参数统计的一个重要特点是非参数统计问题中对总体分布的假定要求的条件很宽,因而使得针对这种问题而构造的非参数统计方法,不致于因为对总体分布的假定不当而导致重大错误,所以它往往有较好的稳健性。

但正是因为非参数统计方法需要照顾范围很广的分布,在某些情况下会导致其效率的降低。

不过,近代理论证明:当一些重要的非参数统计方法,当与相应的参数方法比较时,即使在最有利于后者的情况下,其效率上的损失也很小。

第1节符号检验符号检验是根据正、负符号个数的假设检验方法。

首先需要将原始数据按设定的规则,转换成正、负号,然后计数正、负号的个数做出检验。

该检验可用于样本中位数和总体中位数的比较,数据升降趋势检验,特别可用于总体分布不服从正态分布或分布不明的配对资料,有时当配对比较的结果只能定性的表达时,也可用本方法。

配对资料符号检验的计算步骤为:将成对数据以一定规则编码(或原始数量型数据),然后相减,得到的结果后,计数大于0的样本个数以及小于0的样本个数分别为n+和n-,当样本大小时,计算近似卡方值。

-+-+---=n n n n 22)1|(|χ其自由度df=1,根据卡方值进行统计检验。

《统计学》-第6章-习题答案

《统计学》-第6章-习题答案

第六章课后题解答1. 与参数检验相比,非参数检验有哪些优缺点?主要适用于那些场合?答:(1)非参数检验不需要严格假设条件,因而比参数检验有更广泛的适用面;非参数检验几乎可以处理包括定类数据和定序数据在内的所有类型的数据,而参数检验通常只能用于定量数据的分析;在参数检验和非参数检验都可以使用的情况下,非参数检验的功效(power)要低于参数检验方法。

(2)参数检验中的假设条件不满足;检验中涉及的数据为定类或定序数据;所涉及的问题中并不包含参数;对各种资料的初步分析。

2. 使用“学生调查.sav”文件中的数据检验:(1)能否认为总体中学生的学习兴趣呈均匀分布?(2)能否认为总体中学生的身高服从正态分布?χ拟合优度检验,计算出的2χ统计量的值为2.000,自由答:(1)利用2度为4,相应的p值(渐近显著性)为0.736。

由于0.736大于0.05,所以在5%的显著性水平下不能拒绝原假设,也就是说根据样本数据不能认为总体数据是非均匀的。

表2.1(2)利用单样本K-S检验法,计算出的D统计量的值为0.899,相应的pmax值(渐近显著性)为0.394。

由于0.394大于0.05,所以在5%的显著性水平下不能拒绝原假设,也就是说根据样本数据不能认为总体数据是非正态的。

表2.23. 某企业生产一种钢管,规定长度的中位数是l0米。

现随机地从正在生产的生产线上选取10根进行测量,结果为:9.8,10.1,9.7,9.9,9.8,10.0,9.7,10.0,9.9,9.8。

问该企业的生产过程是否需要调整。

答:单样本中位数的符号检验法检验钢管长度的中位数是否为50,各个数值与中位数比较的结果,有7个值小于10,1个值大于10,2个等于10。

样本量较少,输出双侧检验的p值(精确显著性)为0.070。

显然,这里我们的结论是不能拒绝原假设。

表3.14. 从上海证券交易所的上市公司随机抽取10家,观察其2008年年终财务报告公布前后三日的平均股价(如表6-15),试用参数和非参数方法检验:我国上市公司年报对股价是否有显著性影响?表6-15 10家公司年终财务报告公布前后三日的平均股价序号 1 2 3 4 5 6 7 8 9 10 年报公布前15 21 18 13 35 10 17 23 14 25年报公布后17 18 25 16 40 8 21 31 22 25答:表4.1是Wilcoxon符号秩检验的计算结果。

第6章 SPSS非参数检验讲解

第6章 SPSS非参数检验讲解
或几个变量,将其添加至【检验变量列表】列表框中,表示需要 进行进行二项分布检验的变量。 Step03:定义二元变量
在【定义二分法】选项组中可以定义二元变量。 Step04:指定检验概率值
在【检验比例】选项组中可以指定二项分布的检验概率值。 系统默认的检验概率值是0.5,这意味着要检验的二项是服从均 匀分布的。如果所要检验的二项分布不是同概率分布,参数框中 要键入第一组序列的随机性,而不管这个序列是 怎样产生的;此外还可用来判断两个总体的分布是否相同,从而 检验出它们的位置中心有无显著差异。
3.软件使用方法
SPSS中利用游程数构造Z统计量,利用Z统计量的分布来检验 序列是否具有随机性。软件将自动计算出Z统计量的取值及对应 的概率P值。如果概率P值小于或等于用户设定的显著性水平,则 拒绝零假设,认为变量不具有随机性;相反的,如果概率P值大 于显著性水平,则认为变量出现是随机的。
在【期望全距】选项组中可以确定检验值的范围,对应有 两个单选项。 Step04:选择期望值
在【期望值】选项组中可以指定期望值 ,对应有两个单选 项。
Step05:选择计算精确概率
单击【精确】按钮,弹出【精确检验】对话框,该对话框用于选 择计算概率P值的方法 。
Step06:其他选项选择 单击【选项】按钮,弹出【选项】对话框,该对话框用于指定输 出内容和关于缺失值的处理方法
3.软件使用方法
SPSS会自动计算出χ2统计量及对应的相伴概率P值。
Step01:打开主菜单
选择菜单栏中的【分析】 →【非参数检验】→【旧对话框】→ 【卡方】命令,弹出【卡方检验】对话框。
Step02:选择检验变量
在【卡方检验】对话框左侧的候选变量列表框中选择一个 或几个变量,将其添加至【检验变量列表】列表框中,表示需 要进行进行卡方检验的变量。 Step03:确定检验范围

第6章非参数检验

第6章非参数检验
在大样本的情况下,计算的是Z统计量,认为在零假设下,Z统计量服从正态 分布,其计算公式如下:
Z x 0.5 np np(1 p)
当x小于n/2时,取加号;反之取减号,p为检验概率,n为样本总数。
3. 分析步骤
二项分布检验亦是假设检验问题,检验步骤同前。SPSS会自动计算上述精确 概率和近似概率值。如果概率值小于显著性水平,则拒绝零假设,认为样本来自 的总体与指定的二项分布有显著差异,反之样本来自的总体与指定的二项分布无 显著差异。
2. 卡方检验的基本思想
卡方检验的基本思想的理论依据是:如果从一个随机变量X中随机抽取若干 个观察样本,这些样本落在X的k个互不相交的子集中的观察频率服从一个多项分 布,当k趋于无穷大时,这个多项分布近似服从卡方分布。卡方检验的零假设为: 总体X服从某种分布,这里的样本认为是来自总体X。
6.1.2 卡方检验的SPSS操作详解
1. 实例内容 某足球俱乐部想要引进一名优秀的前锋运动员以增强前场攻击力。
下图给出了一名目标球员连续30场比赛进球数据。试用游程检验方法研 究该球员状态,判断其发挥是否稳定。
6.3.3 课堂练习:运动员状态稳定性判断
2. 实例操作
选择菜单栏中的【分析】∣【非参数检验】∣【旧对话框】∣【游程】命令, 弹出如下图所示对话框。
0

2
10
5
Fn
(
x)

10

6
10

9
10
1
x 1 1 x 2 2 x4 4 x5 5 x 10 x 10
6.4.2 单样本K-S检验的SPSS操作详解
选择菜单栏中的【分析】∣【非参数】∣【旧对话框】∣【单样本K-S】命 令,弹出【单样本K-S检验】对话框,如下图所示。这是的主操作窗口。

非参数检验

非参数检验
非参数检验又称为任意分布检验 (distribution-free test),它不考虑 研究对象总体分布具体形式,也不对总体 参数进行统计推断,而是通过检验样本所 代表的总体分布形式是否一致来得出统计 结论。
非参数检验的优点:
①适用范围广,不论样本来自的 总体分布形式如何,都可适用;
②某些非参数检验方法计算简便, 研究者在急需获得初步统计结果时可 采用;
的总体分布不同。 α=0.05
2.混合编秩
依据两组数值由小到大编秩,结果 见上表。
3.求秩和并确定检验统计量T
把两组秩次分别相加求出两组的秩 和值,R1=315.5,R2=149.5。因乳 酸钙组样本含量较小,故 T=R2=149.5。
4.确定P值和作出推断结论 以较小样本含量为n1,n1=14, n2n1=2,查附表6,两样本比较秩和检验 用T界值表(双侧)。
当n1>20或(n2-n1)>10时,附表6 中查不到P值,则可采用正态近似法求u 值来确定P值,其公式如下:
u T n1(N 1) / 2 0.5 n1n2(N 1) 12
上式中T为检验统计量值,n1、n2 分别为两样本含量,N=n1+n2,0.5这 连续性校正数。上式为无相同秩次时使 用或作为相同秩次较少时的近似值。当 两样本相同秩次较多(超过总样本数的 25%)时,应按下式进行校正,u经校 正后可略增大,P值则相应减小。
式中,Ri为各组的秩和,ni为各组 样本含量,N为总样本含量。
当各组相同秩次较多时,可对H值进 行校正,按下式求值。
Hc H c
C 1
(t
3 j
t
j
)
(N3 N)
4.确定P值和作出推断结论
当组数K=3,每组样本含量ni≤5时, 可查附表7(H界值表)得到P值。若 k>3或ni>5时,H值的分布近似于自 由度为k-1的χ2分布,此时可查附表 4χ2界值表得到P值。最后按P值作出 推断结论。

6非参数检验

6非参数检验

N 100
Mean 7.284
Std. Deviation .3687
Minimum 6.6
Maximum 8.0
25th 7.000
75th 7.400
组别 Observed N Expected N 8 6.4 8 9.5 11 15.7 25 20.1 24 19.4 10 14.6 7 8.6 7 5.6 100 Re sidual 1.6 -1.5 -4.7 4.9 4.6 -4.6 -1.6 1.4

游程数太多或者太小都表明变量值不是随 机的
关于随机性的游程检验(run test)



出现0和1的的这样一个过程可以看成是参数为某未知p 的Bernoulli试验。 我们定义m和n之后,在0和1的出现是随机的零假设之 下,R的条件分布就和这个参数无关了。 根据初等概率论,R的分布可以写成 (令N=m+n)

游程检验方法是检验一个取两个值的变量的这两 个值的出现是否是随机的。 假定下面是由0和1组成的一个这种变量的样本: 0000111111001011100000000 其中相同的0(或相同的1)在一起称为一个游程 (单独的0或1也算)。 这个数据中有4个0组成的游程和3个1组成的游程。 一共是R=7个游程。其中0的个数为m=15,而1的 个数为n=10。
D0 0, K ( x) 2 2 ( 1) exp ( 2 j x ), D0 j
警告


经常有人在Kolmogorov-Smirnov检验中,当 检验不能拒绝总体分布为某分布时,来“接 受”或“证明”该样本来自该分布。这是错 误的。 比如我们有由1、2、3、4、5五个数目组成的 数据,我们分别检验该数据是否是正态分布、 均匀分布、Poisson分布或指数分布。结果归 纳为下表

非参数检验

非参数检验

➢ 编秩:数据相等则取平均秩,
➢ 求秩和
➢ 计算检验统计量H值
H 12 N(N 1)
Ri2 3( N 1) ni
出生体重(kg)xij ABCD
相应秩次 Rij A BCD
2.7 2.9 3.3 3.5
3
4
7 11
2.4 3.2 3.6 3.6
2 5.5 12.5 12.5
2.2 3.2 3.4 3.7
χ 2 12
R
2 i
3(N1)
N(N1) ni
χ2
12 14(14 1)
152
4
152 3
37.52 4
37.52 3
3(14
1)
χ 2 9.375
χ
2 c
1
χ2
(t
3 j
t
j
)
n3 n
1
(23
9.375 2) (33 3) (23
143 14
2)
9.50
四、随机区组设计资料的秩和检验 (Friedman test)
正态近似法
如果n1或n2-n1超出附表的范围,可按下式 计算u值:
u | T n1(N 1) / 2 | 0.5 n1n2 (N 1) / 12
在相同秩次较多时,应用下式进行校正:
uC u / C
C 1
(t
3 j
t
j
)
/(N
3
N)
tj为第j组相同秩次的个数
频数表资料(或等级资料)两样本资料比较
xi (2) 86 71 77 68 91 72 77 91 70 71 88 87
12 对双胞胎兄弟心理测试结果
后出生者得分 差 值

统计学非参数检验

统计学非参数检验
假定较少 不需要对总体参数的假定 与参数结果接近 针对几乎所有类型的数据形态。 容易计算 在计算机盛行之前就已经开展起来。
非参数检验的弱点
可能会浪费一些信息 特别当数据可以使用参数模型
的时候 大样本手算相当费事 一些表不易得到
参数检验
〔parametric 总体分t布es类t〕型,对未知
➢ 在参数检验和非参数检验都可以使用的情况下, 非参数检验的成效〔power〕要低于参数检验方 法。
以下情况下应当首选非参数方法
➢ 参数检验中的假设条件不满足,从而无法应用。例 如总体分布为偏态或分布形式未知,且样本为小样 本时。
➢ 检验中涉及的数据为定类或定序数据。 ➢ 所涉及的问题中并不包含参数,如判断某样本是否
在非正态总体小样本的情况下,假如要对总体 分布的位置进展推断,由于t检验不适用,也 可使用符号检验的方法。
在数据呈偏态分布的情况下,我们可能对总体 的中位数更感兴趣,希望对总体的中位数作出 推断,这时可以使用符号检验的方法。
例6.3 在某地区随机调查了60个家庭的月收入。 〔数据文件:家庭月收入.sav〕。根据样本数 据能否认为总体中家庭月收入的中位数等于 5000元〔显著性程度a=0.05〕?
c2统计量的分布与自由度有关; c2统计量描绘了观察值与期望值的接近程度
拟合优度检验〔goodness of fit test〕
用c2统计量进展统计显著性检验的重要内容之 一;
根据总体分布状况,计算出分类变量中各类别 的期望频数,与分布的观察频数进展比照,判 断期望频数与观察频数是否有显著差异,从而 到达对分类变量进展分析的目的。
非参数统计的名字中的“非参数(nonparametric) 〞意味着其方法不涉及描绘总体分布的有关参 数;

非参数检验的名词解释

非参数检验的名词解释

非参数检验的名词解释
非参数检验是一种统计方法,用于在数据不满足正态分布或其他假设条件的情况下进行统计推断。

与参数检验相比,非参数检验不需要对总体参数做出假设,而是直接利用样本数据进行推断。

以下是相关名词解释:
1. 非参数:指在进行统计推断时,不对总体的分布形式或参数做出特定的假设。

非参数方法依赖于具体的样本数据,不依赖于总体的分布特征。

2. 假设检验:统计推断的一种方法,用于通过对样本数据进行分析来得出关于总体参数或总体分布的结论。

假设检验通常涉及对某个假设的拒绝或接受。

3. 正态分布:也称为高斯分布,是一种连续概率分布,常用于描述许多自然现象和随机变量的分布。

参数检验通常基于对总体数据服从正态分布的假设。

4. 参数检验:通过对总体参数的估计和假设进行统计推断的
方法。

参数检验通常要求数据满足特定的假设条件,如正态分布、独立性和方差齐性等。

5. 统计显著性:在假设检验中,用于评估观察到的差异或效应是否显著。

统计显著性通常以p值表示,若p值小于预设的显著性水平(如0.05),则可以拒绝零假设。

非参数检验在实际应用中具有灵活性和广泛适用性,特别适合处理样本数据不满足假设条件的情况。

它们不依赖于总体分布的形式,因此更加鲁棒,并可以应用于各种类型的数据集。

非参数检验

非参数检验

分析结果 (2) 检验统计量 Nhomakorabea配对样本的非参数检验
❖ Wilcoxon符号秩检验的统计量Z值=-2.179,近似概率 (Asymp.sig.)P=0.029,按α=0.05的水准可以认为治 疗前后该指标值的差别具有统计学意义。
两独立样本的非参数检验
例2 在缺氧条件下,观察4只猫与12只兔的生存时间(分钟), 结果如下。试判断猫、兔在缺氧条件下生存时间的差异是否具 有统计学意义。 生存时间(猫):25 34 44 46 46 生存时间(兔):15 15 16 17 19 21 21 23 25 27 28 28 30 35
两独立样本的非参数检 验
两独立样本的非参数检验
两独立样本的非参数检验
两独立样本的非参数检 验
默认的Mann-Whitney U检验最常用
(1) 秩次表
两独立样本的非参数检验
❖ 生存时间样本共19例,其中猫的生存时间5例, 其平均秩次为15.70,总秩和为78.50;兔的生存时 间14例,其平均秩次为7.96,总秩和为111.50。
多个独立样本的非参数检验
例3 14名新生儿出生体重按其母亲的吸烟习惯分组(A组: 每日吸烟多于20支;B组:每日吸烟少于20支;C组:过去 吸烟而现已戒烟;D组:从不吸烟),具体如下。试问四个 吸烟组出生体重分布是否相同?
A组: 2.7 2.4 2.2 3.4 B组: 2.9 3.2 3.2 C组: 3.3 3.6 3.4 3.4 D组: 3.5 3.6 3.7
多个独立样本的非参数检验
(2) 检验统计量
❖ Kruskal-Wallis H统计量的近似显著概率为0.023,按α= 0.05的水准拒绝原假设,可认为四个组中至少有两组出生体重 的总体分布不同。

心理统计分析与SPSS使用教程《第六章 非参数检验(X2检验)》

心理统计分析与SPSS使用教程《第六章 非参数检验(X2检验)》
(1)年末时三种态度的人数是否有显著差异?
(2)一年来公司员工对新的考勤制度的态度有没 有显著变化?
三、双项分类的X2检验
1.用途:
检验一种分类特征与另一种分类特征是否有关联。
例如在例2中,可检验男女生在三种态度上是否有差异, 即性别与态度是否有关系
2.SPSS中数据的输入:
设置三个变量,两个为分类变量,一个为计数变量
数数据的检验,如上例中的按态度分类 (2)双向分类X2检验:对按两个特征进行分类所得的计
数数据的检验.如上例中,还可按家长性别列出不同态 度.
例1:员工对新的薪酬管理制度的看法(单向分类)
部门A
态度
赞成
反对 无所谓
人数
7

10
8
部门B
态度 人数
赞成 12
反对 9
无所谓 6
例2:某年级学生对强制统一穿着校服的态度(双向分类)
态度
赞成
反对
无所谓
性别
男 女男 女 男女
人数
35 44 56 47 34 37
二、单项分类的X2检验
1.单项分类的X2检验的用途
(1)检验分类中各项计数是否差异显著
如例2中,男女生的态度是否有差异,持三种态度的人数是否 有差异
(2)检验各类别分布是否符合另一分布
如例1中,已知另一部门的数据,可检验本部门员工态度与另 一部门员工态度是否类似
2.SPSS中数据的输入:
一般为两个变量,一个为转化为代号的分类变量,一个为计数 变量.不需要原始数据.
二、单项分类的X2检验
3.计算方法:
(1)用weight cases命令确定频数变量
Data- Weight Cases–将计数变量送入Weight cases—OK

SPSS第6章 非参数检验

SPSS第6章 非参数检验
Test)
•现实生活中有很多现象的数据取值仅分两类,例如:学生可以按性别 分成男生和女生,产品可以按质量分成合格和不合格,投掷硬币实验的 结果可能出现正面或反面等。这时,如果某一类情况出现的概率是P, 则另一类情况出现的概率就是Q(即1-P),这种分布称为二项分布。 •【例6-3】根据过去的观察,用旧方法生产某种产品,其不合格率为1%。 现采用新方法,在600件产品中,发现了2件不合格品,问是否可以认为 新方法的不合格率明显低于旧方法的不合格率? •1、方法基本思路 •二项检验属于拟合优度检验,适用于数据只能划分为两类的总体。二 项检验是检验是否认为从样本中观察到的两类比例来自具有指定P的总 体。H0:样本所属总体的分布形态与指定的二项分布无显著差异。 •就例6-3而言,H0:样本所属总体分布是P=1%的二项分布。 •SPSS中的二项分布检验,在样本数小于等于30时,按照计算二项分布概 率的公式进行计算;在样本数大于30时,计算的是Z统计量。SPSS将自 动计算Z统计量,并给出其所对应的概率值。如果Z值对应的概率值小于 或等于给定的显著性水平α,则应拒绝H0,认为样本所属的总体分布形 态与指定的二项分布存在显著差异;如果对应的概率值大于给定的显著 性水平α,则没有足够理由拒绝H0,认为样本所属的总体分布形态与指 定的二项分布无显著差异。
•c.“Expected Values”选项区可设定总体的各类别构成。若选用默认值则表示 所有各类构成比都相等;在“Values”框中可自行定义设定总体的各类构成, 输入的数值的个数和排放次序应和数据文件中的相对应。本例选用默认值。
•d. 单击图6.2主对话框中的“Options”按钮进行统计,“Statistics”用于确定 是否需要输出描述统计指标和分位数。
3、简要评论
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中央财经大学统计学院
2
非参数检验有什么优越性?


在总体分布未知时,如果还假定总体有诸 如正态分布那样的已知分布,在进行统计 推断就可能产生错误甚至灾难。 非参数检验总是比传统检验安全(更不容 易拒绝原假设)。 但是在总体分布形式已知时,非参数检验 不如传统方法效率高。
中央财经大学统计学院
3
非参数检验的应用场合
中央财经大学统计学院 10
检验统计量


如果M的确是总体的中位数,则每个样本 点都以0.5的概率小于(或大于)M。这显 然是一系列Bernoulli试验。大于M的样本点 的个数 S 与小于M的个数 S 都服从二项分 布 B(n,0.5),二者都可用作检验统计量。 因此,假设x服从二项分布 B(66,0.5) 在这个例子中只需要计算
中央财经大学统计学院 4
6.1 符号检验


符号检验(Sign Test):是最简单的非参 数检验方法之一,通过符号+和-的个数 来做统计推断,所以称为符号检验。 一个例子:联合国人员在世界上66个大城 市的生活花费指数(以纽约市1996年12月 为100)按由小至大的次序排列如下。
中央财经大学统计学院
第6章 非参数检验
6.1 6.2 6.3 6.4 符号检验 Wilcoxon符号秩检验 WMW秩和检验 Kruskal-Wallis检验
中央财经大学统计学院
什么是非参数检验?

和数据本身的总体分布无关的检验称为非 参数检验。 不假定总体的具体背景分布形式; 多根据数据观测值的相对大小建立检验统 计量,然后找到在零假设下这些统计量的 分布,看这些统计量的数据实现是否在零 假设下属于小概率事件。
中央财经大学统计学院 6
对均值的t检验


问题:假定这是从世界许多大城市中随机 抽样而得到的样本。 北京的指数为99,能 否认为北京市在总体平均水平之上? 分析:由于是大样本,所以不论总体是否 正态,都可以根据单个样本的t检验进行分 析,检验总体的均值是否小于99。如果能 够认为总体的均值小于99,则可以知道北 京市在总体水平之上。

以例6.1为例,检验世界花费指数的中位数是否小 于99,因此提出假设如下:
H0 : M M 0 H1 : M M 0

在SPSS17.0中,使用选项Analyze-Nonparametric Tests- Binomial,再把变量“生活花费指数”选入 Test Variable List。然后在下面Define Dichotomy 的Cut Point输入“99”,在下面Test Proportion输 入“0.50”,得到如下对话框。
14
右侧检验时的p值
H0 : M M 0 H1 : M M 0



当零假设为真时, S 不应该太大。如果 S 太大,则可以拒绝原假设。 假设x服从二项分布 B(n,0.5),则p值等 于 P( x S ) 根据给定的显著性水平得出检验结论。
中央财经大学统计学院 15
符号检验在SPSS中的实现


如果需要对定性数据做假设检验,则需要使用非 参数方法 如果需要对中位数做检验,则需要使用非参数的 方法。 如果需要对统计分布做检验,例如检验数据是否 来自正态总体,检验两个总体的统计分布是否相 同等,则需要用非参数方法。 当参数检验需要的假设不成立时, 需要采用非参 数检验方法。特别的,非正态总体、小样本的情 况下,传统的t检验是不能使用的。
5
66 84
75 85
78 85
80 86
81 86
81 86
82 86
83 87
83 87
83 88
83 88
88
91
88
91
88
92
89
93
89
93
89
96
89
96
90
96
90
97
91
91
99 100
101 102 103 103 104 104 104 105 106 109 109
110 110 110 111 113 115 116 117 118 155 192

此组数据的直方图如下,可以判断总体数 据很可能为右偏分布。 这时中位数比均值更有代表性。 下面我们来检验 能否认为总体的 中位数小于99。
中央财经大学统计学院
9
符号检验的基本原理(左侧检验)
H 0 : M 99 H1 : M 99


用M表示总体中位数。 S 表示大于中位数 的数据个数。在这个例子中,需要检验M是 否小于99。 在样本的数据中,如果原假设成立,则大 于99的数据个数 S 应该比较大。 因此,如果从总体中得到 S S样本观测值 的样本的概率非常小,则可以拒绝原假设。
中央财经大学统计学院 13
双侧检验时的p值
H0 : M M 0 H1 : M M 0


当零假设为真时,S 不应该太大或太小。 如果 S 太大或太小,则可以拒绝原假设。 p值等于 2 * P( x min{S , S }) 根据给定的显著性水平得出检验结论。
中央财经大学统计学院
中央财经大学统计学院 7
SPSS对均值 的t检验结果
H 0 : 99 H1 : 99

左侧检验时p值等于0.257/2=0.1285,因此 在5%的显著性水平下不能拒绝总体均值大 于等于99的原假设。从而,没有证据表明 北京市在总体平均水平之上。
中央财经大学统计学院 8
然而……

p P( x S )

如果p值小于a,则拒绝原假设。
中央财经大学统计学院 11
根据二项分布的计算结果




在这个例子中大于99的数据个数为23。 在Excel单元格中输入 “=BINOMDIST(23,66,0.5,1)”,可知这一 概率(p值)为0.00932863 由于p值小于a,则拒绝原假设。 结论:总体的中位数要小于99。 在这种情况下,可以认为北京的生活指数 (99)高于世界大城市的中位数
中央财经大学统计学院 12
根据正态分布的计算结果

当样本量比较大(n>20)时,可以使用正态分布近 似计算p值。 二项分布 B(n,0.5)的期望为0.5n,方差为 npq=0.25n。 x 0.5n
z
0.25n
~ N (0,1)

在这里z=-2.4618, P(z≤-2.4618)=0.0069 因此在左侧检验中拒绝原假设。 由于二项分布为离散的,正态分布是连续的,因此 二者计算结果有差异。软件中通过使用“连续性修 正”的方法可以缩小这种差异,得到更接近的结果。
相关文档
最新文档