第十三章 非参数统计分析2014-12-25

合集下载

非参数统计课件

非参数统计课件

什么是假设 检验?
假设检验用来判断 一个统计假设在给 定数据下是否成立。
非参数假设 检验的基本 思想
非参数假设检验不
依赖于总体参数的
具体分布。
U检验
U检验是一种常见的 非参数假设检验方 法。
KolmogorovSmirnov检验
KolmogorovSmirnov检验用来检 验样本是否符合给 定分布。
什么是核密度估计?
核密度估计是一种估计概率密度函数
概率密度函数和密度函数的区
2
的非参数方法。

概率密度函数是连续随机变量的密度
函数,而密度函数是离散随机变量的
3
高斯核密度估计
密度函数。
高斯核密度估计使用高斯核函数来估
计概率密度函数。
交叉验证方法
4
交叉验证方法可以用来选择合适的核 函数带宽。
分析?
回归分析用来建立变量之间的依赖关系。
Nadaraya-Watson核回归
Nadaraya-Watson核回归通过核函数加权来 估计回归函数。
非参数回归分析的基本思想
非参数回归分析不需要对回归函数做具体的 形式假设。
局部加权回归
局部加权回归在核回归的基础上引入了距离 权重来进一步提高估计精度。
非参数统计ppt课件
# 非参数统计PPT课件 ## 简介 - 什么是非参数统计? - 非参数统计和参数统计的区别
统计分布
什么是统计分布?
统计分布描述随机变量的不确定性和可能性。
常见的统计分布
包括正态分布、二项分布、泊松分布等。
经验分布函数
经验分布函数用样本数据来近似未知总体分布函数。
核密度估计
1
总结
1

统计学中的非参数统计分析

统计学中的非参数统计分析

统计学中的非参数统计分析统计学作为一门研究数据分析和推断的学科,涉及到各种统计方法和技术。

其中,非参数统计分析是一种常见且重要的方法,它不依赖于数据的特定分布假设,而是利用数据本身的特征进行分析和推断。

本文将介绍非参数统计分析的基本概念、应用场景和常用方法。

非参数统计分析是相对于参数统计分析而言的。

参数统计分析通常需要对数据的分布做出假设,如正态分布、指数分布等,并利用参数估计方法来推断总体参数。

然而,在实际应用中,我们往往无法确定数据的真实分布,或者分布假设不成立。

这时,非参数统计分析就成为一种有力的工具。

非参数统计分析的一个重要应用是在样本比较中。

假设我们想比较两组样本的均值是否有显著差异,但无法确定数据是否符合正态分布。

这时,可以使用非参数的Wilcoxon秩和检验来进行推断。

该方法将两组样本的观测值按大小排序,并计算秩次和。

通过比较秩次和的大小,可以判断两组样本的均值是否有显著差异。

除了样本比较,非参数统计分析还可以用于回归分析。

在传统的线性回归中,我们通常假设自变量和因变量之间的关系是线性的,并利用最小二乘法来估计回归系数。

然而,在实际应用中,变量之间的关系可能是非线性的,或者无法确定具体的函数形式。

这时,非参数的局部回归方法就可以派上用场。

该方法通过在每个数据点附近拟合局部线性模型,来估计变量之间的关系。

这种方法不依赖于具体的函数形式,能够更好地适应数据的特点。

在实际应用中,非参数统计分析还有许多其他的方法,如Kolmogorov-Smirnov 检验、Mann-Whitney U检验等。

这些方法都不依赖于数据的分布假设,能够更加灵活地适应不同的数据类型和场景。

尽管非参数统计分析在某些方面具有优势,但也存在一些限制。

首先,由于不依赖于分布假设,非参数方法通常需要更多的样本来获得可靠的推断结果。

其次,非参数方法往往比参数方法计算量更大,需要更多的计算资源和时间。

此外,非参数方法对异常值和缺失值的鲁棒性较差,需要进行适当的数据处理。

非参数统计分析方法总结

非参数统计分析方法总结

非参数统计分析方法一单样本问题1,二项式检验:检验样本参数是否与整体参数有什么关系。

样本量为n,给定一个实数M0(代表题目给出的分位点数),和分位点∏(0.25,0.5,0.75)。

用S-记做样本中比M0小的数的个数,S+记做样本中比M0大的数的个数。

如果原假设H0成立那么S-与n的比之应为∏。

H0:M=M0H1:M≠MO或者M>M0或者M<M0.Spss步骤:分析—非参数检验—二项式检验。

可以得出统计量为K=min(S-,S+)和统计量Z和p值当p值小于0.05时拒绝原假设,没有充足理由证明M=M0.,2,Wilcoxon符号秩序检验Wilcoxon检验的目的和二项式检验是一样的,Spss步骤:分析—非参数检验—两个相关样本得出统计量Z和p值当p值小于0.05时拒绝原假设,没有充足理由证明M=M03,随机性游程检验给出一组数据看次数据出现的情况是不是随机的。

列如:00011011110001110100001110H0:是随机的H1:不是随机的(混合倾向,游程多,长度短)(成群倾向,游程少,长度长)Spss步骤:分析—非参数检验—游程得出统计量R和p值当p值小于0.05时拒绝原假设,没有充足理由证明该数据出现是随机的二,两个样本位置问题1,Brown—Mood中位数检验给出两个样本比较两个样本的中位数或者四分位数等是否相等或者有一定关系,设一个中值为M1,一个为M2H0:M1=M2.H1:M1≠M2或者M1>M2或者M1<M2Spss步骤:分析—非参数检验—k个独立样本得出统计量Z和p值当p值小于0.05时拒绝原假设,没有充足理由证明M1=M2.2,Wilcoxon(Mann—Whitniey)秩和检验该检验和Brown—Mood检验的原理是一样的,但是该检验利用了更多的样本信息,从而比Brown—Mood检验更有说服力。

Spss步骤:分析—非参数检验—2个独立样本得到Z统计量和p值,当p值小于0.05时拒绝原假设,没有充足理由证明M1=M2.3,成对样本Wilcoxon秩和检验用M1代表开始时的数据某一特征值,用M2代表结束后的数据某一特征值,比较前后关系。

非参数统计分析课件

非参数统计分析课件
广泛的应用领域
SPSS广泛应用于社会科学、医学、经济学等领域,具有很高的实 用价值。
SAS软件
01
强大的数据处理能 力
SAS具有强大的数据处理和数据 管理功能,能够进行复杂的数据 清洗、转换和整合。
02
03
灵活的编程语言
企业级应用
SAS使用强大的SAS语言进行编 程,可以进行定制化的数据处理 和分析。
定义与特点
定义
非参数统计分析是一种统计方法,它不依赖于任何关于数据 分布的假设,而是基于数据本身的特点进行统计分析。
特点
非参数统计分析具有很大的灵活性,可以处理各种类型的数 据,并且对数据的分布特征没有严格的要求。它通常用于探 索数据的基本特征,如数据的集中趋势、离散程度和形状等 。
与参数统计学的区别
总结词
发现商品之间的关联关系、提高销售量
详细描述
通过关联性分析方法,如Apriori算法、FPGrowth算法等,发现商品之间的关联关系 ,生成推荐列表,提高销售量,提升客户满 意度。
案例三:聚类分析在客户细分中的应用
总结词
将客户划分为不同的群体、制定个性化营销 策略
详细描述
利用聚类分析方法,如K-means聚类、层 次聚类等,将客户划分为不同的群体,针对 不同群体制定个性化营销策略,提高营销效
数据稀疏性
高维数据可能导致数据稀疏,影响统计分析的准确性 。
计算复杂性
高维数据的计算复杂性增加,需要采用高效的算法和 计算技术。
大数据处理技术在非参数统计分析中的应用前景
分布式计算
利用分布式计算技术,可以处理大规模数据集,提高非参数统计 分析的效率。
数据挖掘技术
数据挖掘技术可以用于发现数据中的模式和关系,为非参数统计 分析提供支持。

数学建模优秀课件非参数统计

数学建模优秀课件非参数统计

0 1 1 0 0 0 1 0 0 1 0 0 0 0 1 1 0 0 1 0 0 0 0 1 0 1

问病户的分布排列是呈聚集趋势,还是随机分布?
实验步骤
1.建立数据文件。 (定义住户变量为epi。按住户顺序输入数据,发病的 住户为1 ,非发病的住户为0。) 2.选择菜单“Analyze→Nonparametric Tests→Runs Test”,弹出 “Runs Test”对话框。在 对话框左侧的变量列表中选择变量epi,使之进入 Test Variable List框。在临界割点“Cut Point”框中 选“Custom”项,在其方框中键入1(根据需要选项, 本例是0、1二分变量,故临界割点值用1)。 3.单击“OK”按钮,得到输出结果。
非参数检验的概念
非参数检验是指在总体不服从正态分布且分 布情况不明时,用来检验数据资料是否来自同 一个总体假设的一类检验方法。由于这些方法 一般不涉及总体参数故得名。
注:这类方法的假定前提比参数性假设检验方 法少的多,也容易满足,适用于计量信息较弱 的资料且计算方法也简单易行,所以在实际中 有广泛的应用。

结果分析

K-S正态性检验的结果显示,Z值=0.718,双侧P值 =0.681,可认为该地正常成年男子的红细胞计数符 合正态分布
5. 2 independent Samples Test 两个独立样本检验
例题

调查某厂的铅作业工人7人和非铅作业工人10 人的血铅值(μg / 100g)如下,问两组工人的 血铅值有无差别?
结果分析

二项分布检验表明,女婴12名,男婴28名,观察概 率为0.70(即男婴占70%),检验概率为0.50,二 项分布检验的结果是双侧概率为0.018,可认为男女 比例的差异有高度显著性,即与通常0.5的性比例相 比,该地男婴比女婴明显为多。

非参数统计分析

非参数统计分析

第十三章非参数统计分析统计推断方法大体上可分为两大类。

第一大类为参数统计方法。

常常在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。

第二大类为非参数统计方法,着眼点不是总体参数,而是总体的分布情况或者样本所在总体分布的位置/形状。

非参数统计方法大约有8种,可被划分为两大类,处理各种不同情形的数据。

单样本情形:检验样本所在总体的位置参数或者分布是否与已知理论值相同。

①Chi-Square过程:针对二分类或者多分类资料例题1:见书P243。

检验样本分布情况是否与已知理论分布相同。

运用卡方检验过程。

②Binomial过程:针对二分类资料或者可转变为二分类问题的资料。

例题2 :见书P246。

检验某一比例是否与已知比例相等,运用二项分布过程。

练习:质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。

对于25包写明为净重100g的西洋参片的称重结果为(单位:克),数据见非参数。

Sav,人们怀疑厂家包装的西洋参片份量不足,要求进行检验。

③Runs过程:用于检验样本序列是否是随机出现的。

二分类资料和连续性资料均可。

游程检验:游程的含义:假定下面是由0和1组成的一个这种变量的样本:0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0其中相同的0(或相同的1)在一起称为一个游程(单独的0或1也算)。

这个数据中有4个0组成的游程和3个1组成的游程。

一共是R=7个游程。

其中0的个数为m=15,而1的个数为n=10。

游程检验的原理判断数据序列是否是真随机序列。

该检验的原假设为数据是真随机序列,备择假设为非随机序列,在原假设成立的情况下,游程的总数不应太多也不应太少。

例题3:见书P247。

检验样本数据是否是随机出现的。

例题4:从某装瓶机出来的30盒化妆品的重量(单位克),数据见非参数.sav,为了看该装瓶机是否工作正常。

提示:实际需要验证大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。

非参数统计分析ppt课件

非参数统计分析ppt课件

因为D=0.1865,大于这个临界值,所以原假设不成立 即两个省农民企业家的文化程度分布存在着显著差别。
(注:大样本时α=0.05和α=0.01的界值分别是1.36和1.63, )
5

该定理认为,当样本容量充分大时,把样本观察量分成K类,每一类实际出现的次数 用f0 表示,其理论次数用fe表示,则 2 统计量为:
D Max S ( x ) F ( x ) n n
查找K-S表,根据给定的显著性水平得到临界值dn; 当D< dn时,接受原假设;反之,则拒绝原假设。 例1:公共汽车按计划每15分钟通过某一站点,但由于受到各种不可预测因素的影
响,可能出现晚到和早到的现象。现通过一天的随机观察(共20次),获得 如下表一系列数据。请检验公共汽车通过某一站点的时间是否服从于 u=1.6,б =3的正态分布。
解:H0:消费者对五种类型的汽车的偏爱程度没有显著差别(即服从均匀分布) H1:消费者对五种类型的汽车的偏爱程度有显著差别(即不服从均匀分布)
2 2 2 ( f f ) (2 1 0 2 0 0 ) (2 2 3 2 0 0 ) 2 0 e 1 3 6 .4 fe 2 0 0 2 0 0 i 1 k 2 在 5 % 条 件 下 , 经 查 表 得 临 界 值 : ) 9 .4 8 8 0 .0 5 (4
1
2
经验分布函数 () f/ n F ( X ) f/ m Fx
1 1
2 2
1 2( F (x )F x )
58 109 156 200 222 236
31 77 130 203 254 274
0.2458 0.4619 0.6610 0.8475 0.9408 1.0000

13非参数统计分析

13非参数统计分析

非参数统计分析如果根据实践经验,人们知道产生数据的总体具有某种分布(例如正态分布),只是其中的参数值未知,那么在这种类型假设条件下的数据分析称为参数型的。

参数数据分析方法即利用数据的信息,又利用产生数据总体的信息,所以它是一个很有效的分析方法。

但是在实践中可能发生这样的情况,人们没有足够的实践经验,或者情况比较特殊,难以假设总体具有某种分布。

这时如果仍然使用参数数据分析方法,其统计分析的结果显然是不可信的,甚至有可能使错误的。

例题1:某工厂产品的零件由某个供应商供应。

合格零件标准长度为)1.05.8(±cm,即长度在8.4~8.6之间的零件是合格的。

抽100个数据检验,(数据见数据表)。

经计算,4958.8=x cm ,非常接近所要求的中心位置8.5cm.样本标准差为1047.0=s cm .一般来说,产品的质量指标往往服从正态分布。

因此,工厂使用参数数据分析方法来评估零件是否合格。

假设),(~2σμN X ,则(8.48.6)((8.68.4957)/0.1047)((8.48.4958)/0.1047)66%P X ≤≤=Φ--Φ-≈ 约有三分之一不合格。

这个统计分析与数据不符,因为有91%的产品是合格的。

例2:这里有22名企业职工,其中的12名职工来自企业1,另外的10名职工来自企业2,他们的工资如下:企业1 企业2113 124 135 146 157 168 179 1810 1930 2050 4060显然企业1的工资高。

假如假设企业1,企业2的工资分别服从正态分布,则这两个企业的职工工资的比较问题就化为一个参数的假设检验问题,b a H b a H >↔=::10。

由于两样本t 检验的统计量的值282.1=t ,显著性水平05.0=α的临界值为725.1)20(95.0=t ,所以我们不能拒绝原假设。

这个结论与数据不符。

因为,一般来说,工资、收入等的分布是不对称的,并且由于有一部分的收入比较高,所以分布的右边有比较长的尾巴,假设为正态分布不合适。

非参数统计主要内容Word版

非参数统计主要内容Word版

非参数统计主要内容一、知识点1非参数统计方法与参数统计方法的主要区别有哪些参数统计 主要是数理统计学中的方法,基于某种分布的,比如正态分布 指数分布,进行参数估计 检验 区间预测等等非参数方法主要用于那些分布并不服从某一个已知的分布 也不知道他们的参数 不针对参数的求算进行的统计分析4符号检验与符号秩和检验的区别与联系 符号检验并没有充分利用对称分布的信息,它并不能有效地解决对称中心θ是否为原点的检查问题。

符号秩和检验 方法作为符号检验的改进,它能有效解决对称中心θ是否为原点的检验。

Wilcoxon 秩和及Wilcoxon 符号秩检验是对原假设的非参数检验,在不需要假设两个样本空间都为正态分布的情况下,测试它们的分布是否完全相同。

5Wilcoxon 检验统计量与Mann-Whitney U 统计量的计算及其关系。

这两者都是 适用与不知总体分布形态的,两独立样本,小样本资料的非参数检验。

都是 秩和检验,SPSS 读的是Mann-Whitney U 检验的结果。

Wilcoxon signed-rank test 应用于两个related samples ,Mann –Whitney U test 也叫Wilcoxon rank-sum test ,应用于两个independent samples 的情况。

公式和统计量不大一样,结果也略有所差异,但这不大影响使用这两种方法。

samples size 小的时候,是有列表的,sample size 大到20左右时,就可以使用正态分布来近似,不查表了2秩统计量的性质,秩统计量的常用数字特征(期望、方差)会计算给定样本的、相同样本的随机秩法与平均秩法3描述性统计量的计算方法(均值、方差、标准差、峰度)方差var n22ii=11s =(x -x )n-1∑期望12nx +x +...+ x x =n4k 4总体峰度 =μβσ 6会用符号检验和秩和检验处理单样本问题(配对数据)的中位数检验问题 7会用Mood 检验和Wilcoxon 秩和检验处理两样本问题 8会用Mood 检验和AB 检验方法来检验 两样本的尺度参数 9会用Kruskal-Wallis 检验方法处理多个独立样本的检验10会用Friedman检验方法处理区组设计问题4.1题目为检验两种燃料添加剂对客车每加仑汽油行驶里程数的影响是否不同,随机挑选12辆车,让每一辆车都先后使用这两种这两种添加剂。

非参数统计分析

非参数统计分析
拒绝H0。认为两组血磷值的分布不相同。
附表11
n1
n2-n1
(较小者) 0 1 2
10
2

11
108-167 (P=0.10)
103-172 (p=0.05)
97-178 (p=0.02)
94-181 (p=0.01)
当n1>10 或n2-n1>10,在H0成立的情况下, 可以证明秩和T近似服从正态分布
特别有时当配对比较的结果不能获得具体数字只 能定性地表达时(如颜色深浅,程度强弱)
P209 例11.2
表11-2 两种温度下的显色结果
──────────────────────────────────────────────────
样品
温度 ─────────────────────────────
(2)虽然许多非参数法计算简便,但不少 问题的计算,特别样本较大时,比较繁 杂。
第一节 符号检验
根据正、负符号个数进行假设检验的方法称为符 号检验(sign test)。
首先将原始观察值按设定的规则,转换成+、-号 然后计数正、负号的个数作出检验
该检验可用于配对资料:总体分布不服从正态分 布或分布不明
H0:两种温度下显色效应无差别 H1:两种温度下显色效应有差别
¾ 规定80℃时颜色比20℃时深为“+”, 80℃时颜色比20℃时浅为“-”
¾ 计算正、负符号个数,得:n+=8, n-=1
¾ 代入公式 χ2 =(|n+-n-|-1)2/(n++n-) (公式11.1)
得: χ2 =(|8-1|-1)2/(8+1)=4, 自由度df=1
本例病人组的例数较少故取病人组为n1=11,健康人组 n2=13 n1组的T1为: T1=7+8+11+……+23+24=176.5 查附表十一(P401),当n1=11,n2-n1=2时,表中 p=0.05一行的上下界限为103~172,p=0.01一行的 上下界限为94~181,T1在P=0.05行的界限外,但在 P=0.01行的界限内,所以P<0.05。

spss非参数教程

spss非参数教程

spss非参数教程统计之星示例文档:第三部份基础统计分析方法第十三章非参数统计分析方法―― Nonparametric Tests 菜单详解非参数检验最大的缺点就是检验效能较低,实际上根据国外的一项研究, 有些方法的检验效能大约在参数检验方法的95%左右,并非低得不能接受. ――张文彤平时我们使用的统计推断方法大多为参数统计方法, 他们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验. 比如单样本 u 检验就是假定该样本所在总体服从正态分布,然后推断总体的均数是否和已知的总体均数相同. 本章要讨论的是另一大类统计分析方法,它的着眼点不是总体参数,而是总体的分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在总体的分布位置/形状是否相同.由于这一类方法并不涉及总体参数,因而被称为非参数方法. 非参数方法这个名称的含义指的是他的推断过程和结论均与原总体参数无关, 并非说他在推断中什么分布参数都不利用,实际上,最常用的秩和检验就是基于秩次的分布特征推导出来的,即可能会利用到秩分布的参数. SPSS 的 Nonparametric Tests 菜单中一共提供了 8 种非参数分析方法,他们可以被分为两大类: 1.分布类型检验方法:亦称拟合优度检验方法,即检验样本所在总体是否服从已知的理论分布.具体包括检验二项/多项分类变量分布的Chi-Square 过程;检验二项分类变量分布的Binomial 过程;检验样本序列随机性的 Runs 过程;以及检验样本是否服从各种常用分布的 1-Sample K-S 过程. 2.分布位置检验方法:用于检验样本所在总体的分布位置/形状是否相同,我们平时说的最多的非参数检验方法实际上指的就是这一类方法. 具体包括用于成组资料分布位置检验的 2 Independent Samples 与 K Independent Samples 过程; 以及用于配伍资料分布位置检验的 2 Related Samples 与 K Related Samples 过程. 实际上,上面的这些方法只是最基本,最简单的非参数检验方法.非参数检验方法近年来发展极为迅速,已经成为了 21 世纪统计学发展的热点之一,在高级非参数检验方法中,它已经显示出了参数检验方法绝对无法比拟的优势,如适用范围广,和稳健性好.但是这些方法都要求使用者有非常深厚的数理统计功底,并且大都要编程完成. 除以上两类现成的方法外, 本章还将专门向大家介绍基于非参数检验原理的秩变换分析方法,它可以作为现有方法的补充和有效扩展,大家会发现这种方法将在实际工作中非常有用.- 242 -第十三章非参数统计分析方法――Nonparametric Tests 菜单详解§13.1分布类型检验方法这一大类方法的原理都是计算出实际分布和理论分布间的差异大小, 然后根据某种统计量来求出 P 值.实际上,这些方法应用的非常广泛,比如说卡方检验就是属于这一类方法的,而它已被广泛应用于分类资料的统计推断中.13.1.1Chi-Square 过程许多朋友都以为这里进行的就是常用的行×列表卡方检验,这是一个不大不小的误解. 行×列表卡方检验的确是属于卡方检验系列的一种, 但它的分析目的是比较两个分类资料样本所在的总体分布是否相同,在SPSS 中应当使用 Crosstabs 过程来拟合.此处的 Chi-Square 过程其分析目的是检验分类数据样本所在总体分布(各类别所占比例)是否与已知总体分布相同,是一个单样本检验. 具体在做法上, 卡方检验是先按照已知总体的构成比分布计算出样本中各类别的期望频数,然后求出观测频数和期望频数的差值,最后计算出卡方统计量,利用卡方分布求出 P 值,以得出检验结论.大家只要翻翻统计书上四格表卡方检验的原理,就会明白了. 例 13.1 某公司准备推出一个新品牌的矿泉水,现已万事俱备,就是在新产品的名称上几位董事意见尚未统一.董事会屡议不决之后,最终决定进行抽样调查.在受访的200 人中,52 人更喜欢名称A,61 人更喜欢名称 B,87 人更喜欢名称 C,请问 ABC 三种名称受欢迎的程度有无差异? 解:董事说话自然是要听的,无论他们出于什么原因选择某种名称,如果要说服他们,就必须拿出有力的证据来才行,统计结果就是最好的证据.如果以统计学的角度来看待该问题, 实际上就是检验三种品牌的构成比是否均等于已知总体的33%.这可以用Chi-Square 过程来完成.本例数据录入如右图所示,操作如下: Data!Weight Cases Weight Cases by: Frequency Variable 框:num OK Analyze!Nonparametric Tests!Chi-Square Test Variable List 框:type Exact: Exact:Continue OK 分析中用到的界面如下: 【主对话框】 1.Test Variable List 框:指定需要进行检验的变量,可以同时指定多个,系统会分别进行分析.图 14.1数据示意频数变量为 num要检验的变量为 type 要求计算确切概率- 243 -统计之星示例文档:第三部份基础统计分析方法2.Expected Range 单选框组:设定需要检验的变量的取值范围,在此范围之外的取值将不进入分析.默认为使用数据文件中的最大和最小值作为检验范围,可使用Use specified range 框组自行指定.3.Expected Values 单选框组:指定已知总体的各分类构成比,默认为各类别构成比相等,可以使用下方的 Values 自行定义,注意定义时有几个类别,就应输入几个数值, 并且数值的排列次序和数据文件中记录的排列次序应当相同, 因为它们之间存在着一一对应的关系.图 13.2主对话框【Exact 子对话框】用于设定是否进行确切概率的计算,以及具体的计算方法.共有只计算近似概率,采用蒙特卡罗模拟方法计算确切概率,直接计算确切概率三种选择,具体情况我们已经在卡方检验一章中学习过了,这里不再重复.图 13.3Exact 子对话框图 13.4Options 子对话框【Options 子对话框】 1.Statistics 复选框组:一些可供输出的统计量. " "- 244 -Descriptive:常用描述统计量,包括均数,最小值,最大值,标准差. Quartiles:输出四分位数.第十三章非参数统计分析方法――Nonparametric Tests 菜单详解2.Missing Values 单选框组:选择对缺失值的处理方式,可以是具体分析用到的变量有缺失值才去除该记录(Excludes cases test-by-test),或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludes cases listwise).默认为前者,以充分利用数据. 分析结果如下: NPar Tests Chi-Square Test FrequenciesTYPEObserved N 1.00 2.00 3.00 Total 52 61 87 200 Expected N 66.7 66.7 66.7 Residual -14.7 -5.7 20.3Chi-Square a df Asymp. Sig. Exact Sig. Point ProbabilityTest StatisticsTYPE 9.910 2 .007 .007 .000a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 66.7.上面的两个表格即为分析结果:Type 表显示的是三个类别的观察频数,期望频数和残差.Test Statistics 表为最终的检验结果,给出了卡方值,近似的 P 值和确切 P 值.结果显示确切 P 值为 0.007,因此结论为拒绝无效假设,认为三种名称受欢迎的程度不同.表中最后一行为点概率值,即在总体中抽得当前样本的概率,本例中没有实际意义. 上面的结论显示的是三者总体有差异,如果要进行两两比较,就需要调整α水准,此处不再详述,最终的分析结论应当为三者两两有差异.这个结果拿到董事会上去,大家应当不会有什么意见了吧.13.1.2吗?Binomial 过程匆匆吃完晚饭,小王心神不宁的向晚自习的教室走去,那个女孩今天还会坐在我旁边不知从什么时候起,小王开始注意起教室中一个上自习的女孩,她长的文静可人,穿着素雅,浑身洋溢着特有的青春魅力,不可否认,小王在心底里已经喜欢上了她.但生性腼腆的他不敢向对方表白,只是每天默默的欣赏着那种醉人的美丽. 那个女孩一般都只坐最后一排左侧或右侧的两个角落中的位置, 小王则习惯坐在倒数第二排的右侧,不知那女孩感觉到他了没有.上周忽然就消失了几天,等重新回来后一直都坐在小王的后面,已经连续六天了.小王真的希望这是一种暗示,可他又害怕是一种误解,害怕自己的行为导致连仅有的希望也不复存在. 其实小王并不知道,呆板乏味的统计方法在这里可以助他一臂之力:那个女孩以前总是随意坐两个位置中的一个,即概率各为 0.5.现在连续 6 天都坐在同一个位置,相当于取得了一个样本量为 6 的样本,只要利用二项分布的原理计算一下, 就可以知道现在她选- 245 -统计之星示例文档:第三部份基础统计分析方法择位置的概率是否发生了改变,从而可以做出是否出击的正确判断,以更大的概率得到秋天的菠菜,而不是否决的媚眼. 说句老实话,在这个问题上统计方法真正能起的作用其实不大,相反另一条准则更加有效:撑死胆大的,饿死胆小的. 好了,罗曼蒂克够了,现在我们来用一个不那么罗曼蒂克的例子来看看 Binomial 过程的操作过程是怎样的. 例 13.2 根据以往经验, 新生儿染色体异常率一般为1%, 现某医院观察了当地共400 名新生儿,只发现一例染色体异常,该地新生儿染色体异常率是否低于一般? 解:染色体是否异常可以被认为是服从二项分布,由于问题问的是"是否低于一般",需要求得的是单侧概率,这正是 Binomial 过程的拿手好戏.本例数据录入极为简单, 如右图所示,注意ill 的取值顺序,Binomial 过程计算的是第一项的概率,如果两条记录顺序颠倒,则相应设置的总体率也应改为0.99.本例操作如下: Data!Weight Cases Weight Cases by: Frequency Variable 框:num OK Analyze!Nonparametric Tests!Binomial Test Variable List 框:ill Test Proportion 框:0.01 Exact: Exact:Continue OK 分析中用到的界面如下:图 14.5数据格式频数变量为 num要检验的变量为 ill 已知总体概率为 0.01 要求计算确切概率图 13.6主对话框【主对话框】 1.Test Variable List 框:指定需要进行检验的变量,可以同时指定多个,系统会分别进行分析.- 246 -第十三章非参数统计分析方法――Nonparametric Tests 菜单详解2.Define Dichotomy 单选框组:指定二分类的获取方法,如果变量就是按二分类方式录入的, 则直接使用默认的 Get from data, 否则, 需要使用 Cut point 来指定一个分界点.3.Test Proportion 框:指定已知的总体概率值,默认为0.5.此处输入的数值应当和数据录入的顺序相一致,否则可能得出错误的结论. 【Exact 子对话框与 Options 子对话框】这两个对话框的形式和功能与本章前面讲过的几个过程完全相同,此处不赘. 分析结果如下:NPar TestsBinomial TestAsymp. Sig. (1-tailed) .105a,b Exact Sig. (1-tailed) .090Category ILL Group 1 Group 2 Total 1.00 .00N 1 399 400Observed Prop. .00 1.00 1.00Test Prop. .01a. Alternative hypothesis states that the proportion of cases in the first group < .01.b. Based on Z Approximation.上表即为最终的分析结果,可见表的右侧就是检验的概率值,请注意给出的直接就是单侧概率(1-tailed) 共有近似概率和确切概率两列, . 应当以确切概率为准, 因此 P = 0.09 > 0.05,结论为尚不能认为该地新生儿的异常率低于一般.13.1.3Runs 过程在许多时候,研究者关心的不仅仅是分布的位置,或者形状,也希望考察样本的随机性如何. 因为如果样本不是从总体中随机抽取出的, 那么所作的任何推断都将变得没有价值.在另外一些情况下,样本随机性的重要程度会远远大于总体参数的重要程度,比如说在甲 A 联赛的某场关键比赛中,裁判一共判罚犯规 40 次,其中红队,黄队各 20 次,从样本率上讲非常公平.但观察整个比赛过程, 人们发现上半场的 22 次犯规有 17 次是红队的,而下半场的 18 次犯规则只有 3 次是红队的.大家必然会怀疑其中是否有黑箱操作, 即裁判的判罚尺度在全场不统一,并非公平合理.从而就会导致球迷闹事,俱乐部上告, 报纸发行量大增,裁判愤而起诉媒体… …,最终导致GDP 上升若干百分点. 以上文字,皆系虚构,如有雷同,纯属巧合. 游程检验的目的就是检验取值为二分类, 并且按时间或某种顺序排列的数列资料是否为真正随机出现,即各观察对象是否来自同一个总体,并且取值各自独立.它的具体做法是将连续的相同取值的记录作为一个游程,比如说下面这个序列: +++--++-+-- 最前面的三个加号为一个游程,随后的两个减号为第二个游程, 整个序列中共有六个游程.- 247 -统计之星示例文档:第三部份基础统计分析方法根据游程检验的假设, 如果序列是真随机序列, 那么游程的总数应当不太多也不太少, 比较适中.如果游程的总数极少,就意味着样本由于缺乏独立性,内部存在着一定的趋势或结构,这可能是由于观察值间不独立(如传染病的发病),或者是来自不同总体(比赛前黄队给过好处,中场休息时红队给的更多,结果整个判罚标准被一分为二了);若样本中存在极大量的游程,则可能有系统的短周期波动影响着观察结果,同样不能认为序列是随机的. 上述方法被称为游程个数检验,就是Runs 过程提供的方法,另外还有一种游程长度检验,在 SPSS 中没有提供. 有一点必须明确指出,游程个数检验是一种检验效能非常低的方法,他只利用了游程的数目,丢弃了绝大部分的信息,得出的阴性结论只能供参考.因此如果有其他方法可用,请尽量不要采用该方法. 例 13.3 某村庄发生了一起集体食物中毒事件, 经过调查,发现当地居民是直接饮用河水,研究者怀疑是河水污染所致.现按照可疑污染源的大致范围调查了沿河居民的中毒情况,河边33 户有成员中毒和均未中毒的家庭分布如下: -+++++++-+++-+++++----++----+---- ""处即为可疑污染源,试分析以上资料是否支持中毒与河水污染有关的假设. 解:数据已录入为文件 run.sav,如果食物中毒的确与河水污染有关,则沿河的中毒情况分布应当不均匀, 即在污染源附近的家庭应当发病较多, 而离的较远的应当发病较少. 这正好是游程检验的分析目的. 游程检验需要设定一个数值将样本一分为二,本例的数据是按0,1 两种数值录入, 因此直接采用均数即可.由于样本量不太多,这里最好采用 Mont Carlo 抽样方法求得较准确的 P 值.本例操作如下: Analyze!Nonparametric Tests!Runs Test Variable List 框:ill Median: Mean Exact: Mont Carlo Continue OK 要检验的变量为 ill 要求使用均数作为分界值设定确切概率计算方法要求使用 Mont Carlo 抽样方法计算确切概率上面也可以指定计算确切概率,但要求内存较大,否则会给出内存不足的提示. 笔者使用的机器为 256M 内存,计算出的确切概率值和 MontCarlo 方法的结果相同. 分析中用到的界面如下: 【主对话框】1.Test Variable List 框:指定需要进行游程检验的变量,可以同时指定多个,系统会分别进行分析.- 248 -第十三章非参数统计分析方法――Nonparametric Tests 菜单详解2.Cut Point 复选框组:给出了四种划分样本类别的方法,可以是中位数,众数,均数和指定数值,系统会按照指定方法将样本一分为二, 然后比较两部分的出现次序是否随机.默认方法为中位数.图 13.7主对话框以上划分方法可以同时指定,此时系统会分别给出每种划分方法的检验结果. 【Exact 子对话框与 Options 子对话框】这两个对话框的形式和功能与本章前面讲过的几个过程完全相同,此处不赘. 分析结果如下: NPar TestsRuns Test有有有有 Test Value a Cases < Test Value Cases >= Test Value Total Cases Number of Runs Z Asymp. Sig. (2-tailed) Monte Carlo Sig. (2-tailed) Sig. 99% Confidence Interval Lower Bound Upper Bound .5455 15 18 33 11 -2.092 .036 .031b .027 .036a. Meanb. Based on 10000 sampled tables with starting seed 1993510611.上表为游程检验的结果,依次显示的是分界值,小于分界值的例数,大于等于分界值的例数,总例数,游程数,Z 值,近似 P 值和 Mont Carlo 抽样方法算出的 P 值可信区间. 可见两种方法算出的 P 值均小于 0.05, 再结合样本数据里中毒家庭在可疑污染源附近分布较集中,因此结论支持研究者的假设,即中毒与饮水可能有关.- 249 -统计之星示例文档:第三部份基础统计分析方法13.1.41-Sample K-S 过程前面讲述的几种分析方法实际上都是在考察分类资料的分布情况, 那么有没有什么方法可以对连续性资料的分布情况加以考察?答案是肯定的,本节介绍的Kolmogorov Smirnov 检验就可以完成该任务.他是一种拟合优度性检验,研究的是样本观察值的分布和指定的理论分布间符合程度的问题, 通过它可以确定是否有理由认为样本的观察结果来自具有理论分布的总体. K-S 检验的原理如下: 它分别做出已知理论分布下的累积频数分布以及观察的累积频数分布,然后对两者进行比较,从中确定两种分布的最大差异点.如果样本确实服从理论分布,则最大差异值不应太高,否则就应当拒绝该假设. 在这里我想说两句:虽然K-S 检验是专门针对分布的检验方法,但从我个人的意见讲,我更愿意采用图形观察的方法(如 P-P 图)来考察变量分布,从中可以直观看出有无异常点,哪些部分离预期分布较远,以及整体情况如何,而检验是做不到这些的.况且当记录数较多时,做检验基本上都会得出拒绝无效假设的结论,显得实际意义不大. 例 13.4 某地 101 例健康男子血清总胆固醇值测定结果如下见数据 dguchun.sav,试分析该数据是否服从正态分布. 解:本例在描述性统计分析一章中使用过,当时可以采用Explorer 中的正态分布图来观察分布情况,现在我们采用K-S 过程来对它进行检验,操作如下: Analyze!Nonparametric Tests!1-Sample K-S Test Variable List 框:day Grouping Variable 框:group Define groups:Group1:1:Group2:2:Continue OK K-S 过程的分析界面极为简单,如下图所示: 要检验的变量为 day 分组变量为 group 指定所比较两组的代码图 13.8主对话框【主对话框】 1.Test Variable List 框:指定需要进行分布类型分析的变量,可以同时指定多个,系统会分别进行分析.- 250 -第十三章非参数统计分析方法――Nonparametric Tests 菜单详解2.Test Distribution 复选框组:给出了四种可进行检验的分布类型,分别是正态分布, 均匀分布,Poisson 分布和指数分布. 【Exact 子对话框与 Options 子对话框】这两个对话框的形式和功能与本章前面讲过的几个过程中完全相同,此处不赘. 分析结果如下:NPar TestsOne-Sample Kolmogorov-Smirnov T estX N Normal Parametersa,b101 Mean Std. Deviation 4.6995 .8616 .072 .072 -.045 .724 .671Most Extreme DifferencesAbsolute Positive NegativeKolmogorov-Smirnov Z Asymp. Sig. (2-tailed)a. Test distribution is Normal.b. Calculated from data.上表即为 K-S 检验的分析结果,由于进行的是正态分布检验,首先会给出正态分布中的一些参数,即均数和标准差;随后是最大差异列表,即理论值和实际值的最大差值, 分别会给出最大绝对值,正值和负值;最后是 Z 统计量和 P 值,结果显示 P=0.671,差别无统计学意义,因此可以认为变量 X 服从正态分布.§13.2分布位置检验方法我们常用的统计推断方法都要求样本来自的总体分布型已知(如正态分布),在这种假设基础上才能对总体参数(如总体均数)进行估计或检验,因此都属于称为参数统计方法.但是这种方法对分布有着严格的要求(正态性,方差齐等),一旦不满足这些条件就非常麻烦.除此以外,参数分析方法在以下这些情形时也无法使用: " 总体分布非正态分布,也无法通过适当的变量变换达到正态分布, 甚至于分布类型未知.比如收入数据和住院费用数据,都是典型的强烈负偏态数据,大部分数值较低,但总有若干个先富起来的同志高得惊人. 这种数据一般是无法变换为正态分布的,自然也难以采用基于正态分布的 t 检验等方法来分析. 数据只有被精确测量后才有可能计算参数统计量,但有的数据不可能精确测量, 如">50mg"或"0.5mg 以下"等,他们就无法用参数检验来分析. 当数据为分类资料时,传统的参数检验方法作用非常有限. 样本量大时尚可采用Logistc 模型,对数线性模型等方法将频率纳入到连续性资料的分析范畴中,当样本量少的时候则几乎无能为力.- 251 -" "统计之星示例文档:第三部份基础统计分析方法尺有所短,寸有所长,上述这些情况正好是非参数检验方法的长处,这一类方法并不依赖于总体的分布型,应用时可以不考虑被研究的对象为何种分布,以及分布是否已知. 他们进行的并非是参数间的比较,而是分布位置,分布形状之间的比较,因此不受总体分布的限定,适用范围广;同时对数据的要求也不严格,什么数据类型都可以做. 非参数检验最大的缺点就是检验效能较低, 实际上根据国外的一项研究,它的检验效能大约在参数检验方法的 95%左右, 并非低得不能接受. 因此当数据可能会违背参数检验条件时,最好直接采用相应的非参数检验方法.这一观点现已逐渐被人们所接受,比如在新药临床试验的统计分析中,如果两样本 t 检验时方差不齐,现在公认的做法是不考虑校正 t 检验的分析结果,而直接进行两样本的秩和检验.13.2.12 Independent Samples 与 K Independent Samples 过程2 Independent Samples 过程提供了几种检验两个独立样本所在总体分布是否相同的方法,而 K Independent Samples 过程则提供了检验多个独立样本所在总体是否相同的方法. 由于两者在操作上没有什么差别,这里我们放在一起讲述. 例13.5 某实验室观察某种抗癌新药治疗小鼠移植性肿瘤的疗效, 两组各 10 只小鼠, 以生存日数作为观察指标,试验结果如下,试检验两组小鼠生存日数有无差别. 试验组:24 26 27 27 30 32 34 36 40 60 天以上对照组:4 6 7 9 10 10 12 13 16 16 解:一般来说,生存时间这种资料是不服从正态分布的,直接采用参数检验存在一定困难,况且有一只小鼠的生存时间为 60 天以上这种不确定数据,因此本例采用非参数检验比较合适. 在录入数据时应当考虑 60 天以上这一数据该如何录入,由于该数值为最大的一个, 而秩和检验中使用的是次序关系,录入数值只要不影响大小次序即可.因此该数值将按60 录入.该数据集已存为文件npara1.sav,分析时的操作如下: Analyze!Nonparametric Tests!2 Independent Samples Test Variable List 框:day Grouping Variable 框:group Define groups:Group1:1:Group2:2:Continue OK 分析中用到的操作界面如下: 【主对话框】 1.Test Variable List 框:指定需要进行分析的变量,可以同时指定多个,系统会分别进行分析. 2.Grouping Variable 框:指定分组变量.和两样本t 检验时相同,该分组变量也必须使用Define Groups 钮详细定义进行比较的两个组的变量取值. 3.Test Type 复选框组:给出了四种可用来进行两组间非参数检验的方法,是该对话框中唯一较有技术高度的亮点. 要检验的变量为 day 分组变量为 group 指定所比较两组的代码- 252 -第十三章非参数统计分析方法――Nonparametric Tests 菜单详解"Mann-Whitney U:默认值,说白了就是相当于我们最常用的两样本秩和检验.如果非要说得很高深,那么它是和参数 t 检验相当的一种非参数检验方法,在检验时利用了大小次序,即检验A 样本中的数值是否多数都大于 B 样本.因此,它要求变量至少为有序测量水平. Kolmogorov-Smirnov Z:和上一节讲到的 K-S 检验是一家人,不过这次是检验两个独。

非参数统计分析教学课件

非参数统计分析教学课件

Python
介绍
Python是一种通用编程语 言,因其易读性和易用性 而被广泛用于数据分析和 科学计算。
特点
Python拥有强大的科学计 算库,如NumPy、 Pandas和SciPy等,可进 行数据清洗、统分析等 多种任务。
教程资源
Python的在线教程和书籍 资源丰富,同时还有大量 的科学计算社区和论坛可 供交流。
数据流处理
数据流处理技术可以实时处理大规模数据,为非参数统计分析提供 新的可能性。
云计算
云计算平台可以提供弹性可扩展的计算资源,方便非参数统计分析 的进行。
THANKS
感谢观看
洗和校验。
高维数据的非参数统计分析挑战
维度诅咒
高维数据可能导致传统的非参数统计分析方法失 效,需要开发新的方法。
数据稀疏性
高维数据可能导致数据稀疏,使得统计分析结果 不稳定。
特征选择
高维数据需要进行特征选择,以减少噪声和冗余 ,提高分析效率。
大数据处理技术在非参数统计分析中的应用前景
并行计算
利用并行计算技术可以提高非参数统计分析的效率和准确性。
应用场景与优势
应用场景
适用于数据类型复杂、分布不明确或 数据量较小的情况;例如,生物医学 研究、金融数据分析、社会学调查等 领域。
优势
能够更好地揭示数据的内在结构和关 系;对数据的假设较少,避免过度拟 合和误判;同时具有较高的灵活性和 普适性,能够适用于多种场景。
02
CATALOGUE
非参数统计方法
聚类分析
01
聚类分析是一种非参数统计方法 ,用于将相似的对象归为同一类 ,将不相似的对象归为不同类。
02
聚类分析通过计算对象之间的距 离或相似性来将它们分组,常见 的聚类分析方法有层次聚类、K均 值聚类和DBSCAN聚类等。

《非参数统计分析》PPT课件

《非参数统计分析》PPT课件

0.011014 0.034733 3.263554 -3.207570 0.928736 -0.043640 3.458105
9.061568 0.010772
此数据的正态性检验是非正态。
非参数统计归纳起来有如下的三点优点:
1. 对总体的假定少; 2. 可以处理许多有问题数据,比如污染的正 态分布,有奇异值的情形;
组别 1 1 1 1 1 2 1 1 1 1
2
负债率 80 80 82 82 83 84 84 86 91 91 93

12 13 14 15 16 17 18 19 20 21 22
组别 2 2 1 1 1 2 2 2 2 2
2
如果我们将12家工业企业的秩相加是94,其平均秩是7.88,将 10家商业企业的秩相加得159,其平均秩为15.9,这就给我们一个 可以考虑的信息,两种企业的资产负债是有差异的。他们的平均秩 不同。
然而,在实际生活中,那种对总体分布的假定并不是 能随便做出的。有时,数据并不是来自所假定分布的总体。 或者数据根本不是来自一个总体,数据因为种种原因被严 重污染。这样,在假定总体分布的情况下进行推断的做法 就可能产生错误的结论。于是,人们希望在不假定总体分 布的情况下,尽量从数据本身来获得所需要的信息。这就 是非参数统计的宗旨。因为非参数统计方法不利用关于总 体分布的相关信息,所以,就是在对于总体分布的任何信 息都没有的情况下,它也能很容易而又较为可靠地获得结 论。这时非参数方法往往优于参数方法。在台湾这种方法 称为“无母数统计”,即不知到总体信息的统计方法。
120
Series: JUNZHI
Sample 1 1000
100
Observations 1000
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
a
a. Not corrected for ties. b. Grouping Variable: group
近似法算出的P值和确切概率法计算出的P值, 两种算法得出的结论一致,两组生存时间的分 布差别具有显著的统计学意义,结合实际数据, 可认为是实验组生存时间较长,因此该抗癌新 药是有效的。
K independent samples 过程用于多组间的非参数检验注意事 项 1.多组比较中仍需要指定分组变量的取值范围,超过此范围 将不纳入分析。
2.分布位臵检验方法:用于检验样本所在总体的 分布位臵/形状是否相同,最常用的一类方法。
包括如下过程: (1)成组资料分布位臵检验的2 independent samples与K independent samples (2)配对资料分布位臵检验的2 related samples与K related samples
数据格式n行2列(指标变量、分组变量)
检验步骤 Analyze →Nonparametric Tests
→ 2 Independent Samples …
Two-Independent-Samples Test对话框
检验变量
分组变量
定义分组
Define Groups对话框
点击“OK”,运行结果
3.Options选项
4.Exact tests选项
(1)Asymptotic only:渐进法(近似分布法), 默认计算显著性水平的方法 基本条件:渐进方法的显著性水平要求数据量足够 大,如果数据量比较小,或者频数过低,检验结果 可能会失效。
(2)Monte carlo 蒙特卡洛估计方法,精确显著 性水平的无偏估计。
非参数统计方法的着眼点不是总体参数,而 是总体的分布情况,已知研究目标总体的分布是 否与已知理论分布相同,或者各样本所在总体的 分布位臵/形状是否相同。由于这一类方法并不 涉及总体参数,因而被称为非参数方法。
注意:非参数方法这个名称的含义指的是它的 推断过程和结论均与原总体参数无关,并非说 它在推断中什么分布参数都不利用,实际上, 最常用的秩和检验就是基于秩次的分布特征推 导出来的,即可能会利用到秩分布的参数。
(3)Exact 精确计算显著性水平的方法。
三、检验结果
1.描述性统计量
Descriptive Statistics N type 200 Mean Std. Deviation 2.1750 .81714 Minimum Maximum 1.00 3.00
2.期望数和观测数
type 1.00 2.00 3.00 Total Observed N 52 61 87 200 Expected N 66.7 66.7 66.7 Residual -14.7 -5.7 20.3

SPSS非参数统计过程名
Analyze
Nonparametric Tests(非参数检验)
2 Independent Samples… (两独立样本比较)
K Independent Samples… (多独立样本比较)
2 Related Samples… (两相关样本比较) K Related Samples… (多相关样本比较)
例:某公司准备推出一个新品牌矿泉水,现已 万事俱备,就是在新产品的名称上几位董事意 见尚未统一。董事会屡议不决之后,最终决定 进行抽样调查。在受访的200人中,52人更喜 欢名称A,61人更喜欢名称B,87人更喜欢名称 C,请问ABC三种名称受欢迎的程度有无差异?
一、数据基本操作 data Weight cases
nonparametric tests菜单中提供了8种非参数分析 方法,可分为两类 1.分布类型检验方法 :亦称拟合优度检验方法, 即检验样本所在总体是否服从已知的总体分布 包括如下过程: (1)检验二项/多项分类变量分布的chi-square过 程; (2)检验二项分类变量分布的binomial过程; (3)检验样本序列随机性的runs过程; (4)检验样本是否服从各种常用分布的1-sample K-S过程。
(3)moses extreme reactions: 该检验有其 特殊用途,适用施加的处理对某些个体出现正 效应,对另一些个体出现负效应时。基本思想 是,在剔除了各5%的最大和最小值后,比较两 组的极差是否相同。 (4)wald-wolfowitz runs:检验的是总体分 布情况是否相同。基于排秩后的游程检验。
基本操作如下:
analyze
Nonparametric tests
1-sample K-S
Test variable list 框:变量名 要检验的变量
Grouping variable框:变量名 分组变量
Define groups:group1:1 group2:2 Continue指定所比较两组的代码 OK
第二节
分布位臵检验方法
非参数方法的适用条件: 1.总体分布非正态分布,也无法通过适当的变量变 换达到正态分布,甚至于分布类型未知。 2.有些数据不可能精确测量,如“>50mg”等。 3.当数据为分类资料时,传统的参数检验方法作用 非常有限,样本量少时。
非参数检验最大的缺点就是检验效能较低
一、2 independent samples与K independent samples
非参数检验
两独立样本比较
多独立样本比较
两相关样本比较 多相关样本比较
第一节
分布类型检验方法
基本原理:算出实际分布和理论分布间的差 异大小,然后根据某种统计量来求出P值。
Chi-square过程其分析目的是检验分类数据样 本所在总体分布(各类别所占比例)是否与已 知总体分布相同,是一个单样本检验。
Grouping variable框:变量名 分组变量 Define groups:group1:1 group2:2
Continue指定所比较两组的代码
OK
[主对话框]
1.Test variable list框:指定需要进行分析的变量,可同 时指定多个,系统会分别进行分析。
2.Grouping variable框:指定分组变量。和两样本t检验时 相同,该分组变量也必须使用define groups钮详细定义进 行比较的两个组的变量取值。 3.Test type复选框组合:给出四种可用来进行两组间非参 数检验的方法。
第十三章 非参数统计分析 nonparametric tests
范红敏
第一节 概述
非参数检验最大的缺点就是检验效能较低, 实际上根据国外的一项研究表明,有些方法的 检验效能大约在参数检验方法的95%左右,并非 低得不能接受。 参数统计方法,是在已知总体分布的条件 下,对相应分布的总体参数进行估计和检验。
分析结果
Ranks 生 存 天 数 group 实 验 组 对 照 组 Total N 10 10 20 Mean Rank 15.50 5.50 Sum of Ranks 155.00 55.00
秩和检验中用到的编秩情况列表,实验 组秩次要高一些。
Test Statisticsb Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) Exact Sig. [2*(1-tailed Sig .)] 生 存 天 数 .000 55.000 -3.784 .000 .000
2 independent samples检验两个独立样本所在总体分布是否相同的方法 K independent samples检验多个独立样本所在总体分布是否相同的方法
Analyze
nonparametric
2 independent sample
Test variable list 框:变量名
要检验的变量
(1)mann-whitney U:默认值,最常用的两样本秩和检验, 检验时利用了大小次序,要求变量至少为有序测量水平。与 wilcoxon秩和检验及两组比较的kruskal-Wallis检验完全等 价。 (2)Kolmogorov-smirnov Z:检验两个独立样本是否取自同 一总体,原理是两个样本的累积频数分布曲线究竟差了多远。
结果输出
秩统计量描述
秩和检验结果
Mann-Whitney U统计量 Wilcoxon W统计量 Z统计量 P值 确切概率
例:某实验室观察某种抗癌新药治疗小鼠 移植性肿瘤的疗效,两组各10只小鼠,以 生存日数作为观察指标,试验结果如下: 试检验两组小鼠生存日数有无差别。
实验组:24 26 27 27 30 32 34 36 40 60天以上 对照组:4 6 7 9 10 10 12 13 16 16
选择此项
二、基本操作过程
1.打开主对话框
Analyze
nonparametric
chi-square
2.检验变量的选择和设臵
在变量列表框中选择检验变量,单击右向箭头按 钮,将其移动至右侧的“test variable list”列 表框。 (1)Expected range(期望范围)选项组用于 确定检验值的范围,有以下两个单选项 Get from data 默认选项,由数据的最小 值和最大值确定的范围。 Use specified range 用户指定范围,可 在被激活的“lower”和“upper”参数框中键 入检验范围的下限和上限。
a,b
Mean Std. Deviation Absolute Positive Neg ative
Kolmog orov-Smirnov Z Asymp. Sig. (2-tailed) a. Test distribution is Normal. b. Calculated from data.
K-S过程的分析界面
【主对话框】
指定需要进行分布 类型分析的变量, 可同时指定多个, 系统会分别进行分 析
相关文档
最新文档