非参数假设检验方法
数学建模方法-非参数假设检验
两相关样本的非参数检验(2 Related Samples Test)
【例12】clinical trial.sav 比较试验药组(group=1) 治疗前血红蛋白含量(hb1)和治疗后血红蛋白含量(hb2) 有无差异.
这是两组相关计量资料的比较. 结论:P=0.018,有显著性差异.
多个相关样本的非参数检验(K Related Samples Test) 【例13】nonpara_7.sav 分析药物是否有效
两相关样本的非参数检验(2 Related Samples Test) 多个相关样本的非参数检验(K Related Samples Test)
两独立样本的非参数检验(2 Independent Samples Test) 检验两个独立样本间是否具有相同的分布. 【例8】nonpara_3.sav 比较两组人群的RD值有无差别 这是两组计量资料的比较. 选择要检验的变量和分 类变量,定义分类值(1-2),其它使用默认选项即可.从负二项分 布的结论.
单样本的K_S拟合优度检验
检验一计量资料是否服从某种理论分布,这里的分布可以 是正态分布(Normal),均匀分布(Uniform),泊松分布(Poisson), 指数分布(Exponential).
【例7】diameter_sub.sav 检验是否服从正态分布
多个独立样本的非参数检验(K Independent Samples Test) 【例10】nonpara_5.sav 比较三种药物的效果有无差别 这是三组计量资料的比较. 选择要检验的变量和分 类变量,定义分类值(1-3),其它使用默认选项即可. 结论:三组的秩和12.6,7.6,3.8,P=0.008,三种药物的 效果有显著性差异,以甲药效果最好. 【例11】nonpara_6.sav 比较三种固定钉治疗骨折的疗效 这是三组等级/频数资料的比较. 先说明频数变量, 再选择要检验的变量和分类变量,定义分类值(1-3),其它 使用默认选项即可. 结论:P=0.129,故三组无显著性差异.
非参数检验的检验方法
非参数检验的检验方法非参数检验是一种假设检验的方法,它不依赖于总体分布的具体形式,而是基于样本数据进行推断。
相比于参数检验,非参数检验更加灵活和普适,可以适用于更广泛的情况。
非参数检验的主要思想是通过对样本数据的排序或者秩次变换,来推断总体的性质。
下面将介绍几种常见的非参数检验方法:1. Mann-Whitney U检验(又称Wilcoxon秩和检验):Mann-Whitney U检验用于比较两个独立样本的总体中位数是否相等。
它的基本思想是将两组样本的数据合并,按照从小到大的顺序进行排列,并为每个值分配一个秩次。
然后计算两组数据秩次和之差的绝对值,该值即为检验统计量U,根据U的大小可以进行推断。
2. Kruskal-Wallis H检验:Kruskal-Wallis H检验用于比较多个独立样本的总体中位数是否相等。
它的基本思想是将所有样本的数据合并,按照从小到大的顺序进行排列,并为每个值分配一个秩次。
然后计算每个样本的秩次和,以及总体的秩次和。
根据这些秩次和的差异来进行推断。
3. 秩和检验:秩和检验是一类常见的非参数检验方法,包括Wilcoxon符号秩检验和符号秩和检验。
这两种方法都是用来比较两个相关样本的总体中位数是否相等。
基本思想是将两个样本的差的符号进行标记,并用秩次表示绝对值大小的顺序。
然后根据秩次和的大小来进行推断。
4. Friedman检验:Friedman检验用于比较多个相关样本的总体中位数是否相等。
它的基本思想是将所有样本的数据进行秩次变换,并计算每个样本的秩次和。
然后根据秩次和的差异来进行推断。
在进行非参数检验时,需要注意以下几点:1. 样本独立性:非参数检验通常要求样本之间是独立的,即样本之间的观测值不受其他样本观测值的影响。
如果样本之间存在相关性,应考虑使用相关性检验或者非参数检验的相关版本。
2. 样本大小:非参数检验对样本的大小没有严格要求,但样本大小较小时可能会影响检验的统计功效。
3.3非正态总体参数的假设检验和非参数检验
§3.3 非正态总体参数的 假设检验和非参数检验
1. 非正态总体大样本检验( n充分大) 设 X1, X2,…, Xn为取自总体的一个样本
服从多项分布。
由大数定律知,当n充分大时,频 数ni与理论频数npi越来越小。故ni 与npi之间的差异可以反映出概率分 ,p , ,p 布 (p 是否为总体的真实分 1 2 r) 布。令
(ni npi ) npi i 1
2 r
2
称上述统计量为皮尔逊统计量。
定理(皮尔逊定理)设总体的真实 ,p , ,p 分布为 (p 1 2 r),则有
总体均值未知,考虑假设检验 H0 : 0.
若样本容量充分大,当总体方差已 X 0 知时,可取统计量 U ,当 / n n充分大( n 30 ) 时,U近似服从 标准正态分布,故问题归结为u检验。
若样本容量充分大,且总体方差未 X 0 知时,可取统计量 U ,当 S/ n n充分大(一般要求 n 100 )时, U近似服从标准正态分布,故问题也 归结为u检验。
与皮尔逊检验法相比,K检验更 精确,但适用范围较小。
此时的统计量为
2 i 1
r
ˆ i0 ) (ni np ˆ i0 np
2
.
当n充分大时,上述统计量近似服 从自由度为r-m-1的卡方分布。其 中的 pˆ i 0 是把 1, ,m换成极大似然 ˆ , , ˆ 后算出的 p i 。 估计 0 1 m
分布拟合检验还可用来检验随机 变量之间的独立性。 假设有一个二维总体(X,Y)。将X和Y 的取值范围分别分成r个和q个互不相 交的区间A1,A2,…,Ar和B1,B2,…,Bq。 从总体抽取一个容量为n的样本 (x1,y1),…(xn,yn),令nij表示样本值中x 落入Ai,y落入Bj的个数。
第三节 非参数假设检验
,由于χ = 12 > 11.07
所以拒绝H0,说明下半年各月销售量与均
匀分布有差别,这些差别尚不能完全归结为随机 原。
【例6.11】在高速公路收费站100分钟内观测到通过 收费站的汽车共190辆,每分钟通过的汽车辆 数分布如下表:
用显著性水平a=0.05检验这些数据是否来自泊松分布。 解:设
H0 :汽车通过收费站的辆数服从泊松分布;
【例6.14】为了比较两个小学贯彻素质教育的情况,现从甲学 校抽15名学生,乙学校抽25名学生,按素质教育的要求进 行测试并评分,按评分高低顺序排队并编上等级,其结果 如下:
W2 W1 为 ,第二个样本的等级和为 ,则有
第三步:计算曼-惠特尼U检验统计量
W1 + W2 = n(n + 1) / 2
从
U和 中选择较小者并称其为 U2 1
n1 (n1 + 1) U1 = n1n2 + − W1 2 n2 (n2 + 1) U 2 = n1n2 + − W2 2
。
U
第四步:作出判断 对于
2
个数。
2 χ分布表求相应的 第四步:根据显著性水平a查
临界值——
2 2
χ
2 a
χ > χ a 时,拒绝原假设,说明样本观测并非来
自该理论分布。
【例6.10】某百货公司的电器部下半年各月洗衣机 的销售数量如下:
该电器部经理想了解洗衣机的销售数量是否在各 月是均匀分布的,也就是说各月中销售数量的差别 可以归结为随机原因,这样可以为以后的进货提供 依据。要求以a=0.05 的显著性水平进行检验。
U − E (U ) Z= D(U )
近似地服从标准正态分布。
非参数假设检验方法
非参数假设检验方法
非参数假设检验方法,那可真是个超棒的统计利器!咱先说说它的步骤吧。
嘿,你想想看,就像搭积木一样,第一步得先明确问题,确定咱要检验啥。
然后收集数据,这数据就像是建筑材料,得好好收集。
接着计算检验统计量,这就如同给积木搭出形状。
最后根据统计量判断是否拒绝原假设。
这步骤简单易懂吧?
注意事项也不少呢!数据得有代表性,不然就像盖房子用了劣质材料,那可不行。
样本量也不能太小,不然就像小娃娃搭的积木城堡,风一吹就倒啦。
说到安全性和稳定性,那可是杠杠的!它不像有些方法那么娇气,对数据的分布要求不高。
就好比一辆越野车,能在各种路况下行驶,不用担心路况不好就抛锚。
应用场景那可多了去啦!当数据不满足参数检验的条件时,非参数假设检验方法就大显身手啦。
比如研究不同年龄段的人对某种产品的喜好,数据可能乱七八糟的,这时候非参数检验就像救星一样。
它的优势也很明显啊,操作简单,容易理解,不需要太多高深的数学知识。
就像玩游戏,不需要看厚厚的说明书就能上手。
给你举个实际案例吧。
有个公司想知道新推出的广告有没有效果,就用了非参数假设检验方法。
结果发现广告确实提高了产品的知名度。
这效果,哇塞,杠杠的!
非参数假设检验方法就是这么牛!它简单易用,安全稳定,应用场景广泛,优势明显。
赶紧用起来吧!。
非参数假设检验法及其运用
非参数假设检验法及其运用摘要:在国际金融危机下,以中国股市数据为依据,运用S-plus 统计分析软件和Excel ,对中国股市正态分布假设进行了Kolmogorv拟合优度检验,运用方差平方秩检验方法,比较分析了上证指数和深证综指的波动性。
关键字:股市;Kolmogorov拟合优度检验;秩检验。
引言:对中国股市分布的研究,国内各学者对中国股市进行了非参数检验。
王金玉、李霞、潘德惠(2005)通过引入一种新的估计方法“非参数假设检验方法”,以达到对证券投资咨询机构,对证券市场大盘走势预测准确度的估计。
周明磊(2004)运用非参数非线性协整检验,对上证指数与深成指间协整关系进行了研究,结论是:上证指数与深圳成指之间确实存在非线性的协整关系。
方国斌(2007)从分析中国股市收益率序列的特征入手,寻找描述中国股市波动性特征的合适的统计模型。
在研究相关文献的基础上,将非参检验应用于中国股市统计特征的研究。
运用Kolmogorov拟合优度检验,对中国股市进行了正态分布假设检验;运用方差平方秩检验方法,比较分析了上海指数和深圳综指的波动性。
正文:一、Kolmogorov拟合优度检验以及方差的平方秩检验方法。
(一)Kolmogorov拟合优度检验1. 原假设和备择假设原假设H:样本来自于正态分布总体。
备择假设H1:样本不是来自于正态分布总体。
2. 检验统计量令S (x) 是样本X1、X2、 (X)n、的经验分布函数,F*(x)是完全已知的假设分布函数,则检验统计量T为S (x) 与F*(x)的最大垂直距离,即:T = sup| F*(x)- S (x)|。
3. P值计算近似P值可以通过在表A13中插值得到,或者利用2倍的单边检验的P值。
单边P值=1)]1([11---=⎪⎭⎫⎝⎛+⎪⎭⎫⎝⎛--⎪⎪⎭⎫⎝⎛∑jjntnjnjtnjtjn这里t的是检验统计量的观测值,[n(1-t)]且是小于等于n(1-t)的最大整数。
excel威尔科克森符号秩检验
Excel威尔科克森符号秩检验1. 威尔科克森符号秩检验简介威尔科克森符号秩检验是一种非参数假设检验方法,用于比较两组相关样本的中位数是否存在显著差异。
它适用于样本不服从正态分布或者存在异常值的情况,因此在实际应用中非常有用。
2. 检验步骤威尔科克森符号秩检验的步骤如下:1)对两组样本数据进行配对,即将相同位置上的数据配对。
2)计算配对差值,并将绝对值化。
3)对所有绝对值进行排序,得到秩次。
4)计算正、负秩和,并选取较小的值作为检验统计量。
5)根据检验统计量和显著性水平查找临界值,从而得出检验结论。
3. Excel中的威尔科克森符号秩检验在Excel中进行威尔科克森符号秩检验非常方便,可以通过内置的函数实现。
下面是具体步骤:1)将两组相关样本数据录入Excel表格中。
2)在合适的位置使用RANK.AVG函数计算绝对值的秩次。
3)计算正、负秩和,得到检验统计量。
4)查找临界值,进行假设检验。
4. 注意事项在进行威尔科克森符号秩检验时,需要注意以下几点:1)样本数据应为相关样本,即配对数据。
2)样本容量较小时,可以使用修正的临界值。
3)检验统计量的计算需要按照步骤精确进行。
4)在使用Excel进行计算时,应当熟悉相关函数的使用方法,以免出现错误。
5. 实例分析以下是一个威尔科克森符号秩检验的实例分析,通过该实例可以更好地理解该方法的应用:两种不同的药物对同一组患者进行治疗,分别记录了两种药物的疗效数据。
现在需要进行威尔科克森符号秩检验,以确定两种药物的疗效是否有显著差异。
6. 结论威尔科克森符号秩检验是一种非参数假设检验方法,适用于比较两组相关样本的中位数是否存在显著差异。
在实际应用中,它能够有效应对样本不服从正态分布或者存在异常值的情况,因此具有广泛的应用价值。
利用Excel进行威尔科克森符号秩检验非常方便,能够快速得出检验结论,但在进行检验时需要注意一些细节问题,以确保结果的准确性和可靠性。
威尔科克森符号秩检验是一种非参数假设检验方法,用于比较两组相关样本的中位数是否存在显著差异。
卡方检验和精确概率法-概述说明以及解释
卡方检验和精确概率法-概述说明以及解释1.引言1.1 概述卡方检验和精确概率法是统计学中常用的两种假设检验方法。
它们都是用于检验数据之间的相关性或者关联度,以判断某种因素与某种结果之间是否存在显著的统计关系。
卡方检验是一种非参数的假设检验方法,主要用于分析分类数据的关联性。
它通过统计观察值与期望值之间的差异,来决定变量之间是否存在显著性关系。
卡方检验可以处理多个分类变量之间的相关性问题,并且不受数据分布的限制。
在实际应用中,卡方检验经常用于医学研究、社会科学调研等领域,帮助研究者发现变量之间的关联性,从而进一步分析和解读数据。
精确概率法,又称为精确检验法,是一种基于排列组合原理的计算方法。
它主要用于处理小样本或者数据限制条件较多的情况下的假设检验问题。
与卡方检验不同的是,精确概率法通过枚举出所有可能的组合情况,计算出达到当前观察值或更极端情况下的事件发生概率,从而得出假设检验的结果。
精确概率法的主要优势在于其统计推断的准确性和稳定性,适用于小样本和稀有事件的研究。
本文将会介绍卡方检验和精确概率法的原理和应用,并比较它们的优缺点。
在结论部分,将会对两种方法进行对比分析,进一步探讨它们适用的场景和应用前景。
通过本文的阐述,读者将对卡方检验和精确概率法有更加全面的了解,并能够根据具体问题的特点选择适合的检验方法。
1.2文章结构1.2 文章结构本文将分为三个主要部分,分别是引言、正文和结论。
在引言部分,将对卡方检验和精确概率法的背景和概述进行介绍。
首先会对这两种方法进行简要的概述,包括其原理和应用领域。
接下来会明确本文的结构和目的,为读者提供整体上的概括。
在正文部分,将详细探讨卡方检验和精确概率法。
首先,在2.1节将详细介绍卡方检验的原理和应用。
会对卡方检验的基本原理进行解释,包括假设检验的流程和计算统计量的方法。
同时,会介绍卡方检验的应用领域,包括医学、社会科学和市场调研等。
接着,会对卡方检验的优缺点进行分析和讨论,以便读者全面了解其适用范围和局限性。
数理统计实验三非参数假设检验
西北农林科技大学实验报告学院名称:理学院专业年级:姓名:学号:课程:数理统计学报告日期:实验三非参数假设检验一.实验目的1. 验证某产品的合格率是否是否低于0.9.2. 检验某地区儿童身高是否符合正态分布。
3. 为研究心脏病猝死人数与日期的关系,收集到168个观测数据,利用这批样本数据推断猝死人数与日期的关系是否为2.8:1:1:1:1:1:1.4. 某工厂用甲乙两种工艺生产同一种产品,利用样本数据检验两种工艺下产品使用寿命是否存在显著差异。
二.实验要求用spss实现非参数假设检验,包括二项式检验,单样本正态分布检验,两个独立样本检验,卡方检验。
三.实验内容(一)验证某产品的合格率是否是否低于0.9.打开文件“非参数检验(产品合格率)”,点击分析->非参数检验->旧对话框->二项式,把数据“是否合格”添加到检验变量列表,把检验比例默认的0.5该为题目要求的0.9(如图所示)。
点击确定得到结论(如图所示)。
结论:由上表知,SPSS的悖假设检验案例比例小于0.9的,并且在精确显著(单侧)值sig=0.193>0.05,即接受原假设检验,即二项式检验的案例比例是大于0.9的。
(二)检验某地区儿童身高是否符合正态分布。
打开文件“非参数检验(单样本KS-儿童身高)”,点击分析->非参数检验->旧对话框->1样本,把数据“周岁儿童的身高(sg)”添加到检验变量列表,检验分布默认为常规,即正态(如图所示)。
点击确定得到结论(如图所示)。
结论:由上述的结果可以看出,周岁儿童的身高是满足正态分布其中均值为71.8571,标准差为3.97851,可知某地区的儿身高满足正态分布。
除此之外,由上面的结果中的检验值sig=0.344>0.05也可以得出原假设检验是成立的,即接受身高满足正态分布的假设。
(三)为研究心脏病猝死人数与日期的关系,收集到168个观测数据,利用这批样本数据推断猝死人数与日期的关系是否为2.8:1:1:1:1:1:1.打开文件,在变量视图窗口中,点击数据->加权个案,对话框右边选项点击加权个案,把“死亡日期”添加到频率变量中,(如图所示),点击确定。
非正态总体参数的假设检验和非参数检验
分布类型,此时F0可能含有未知参数,
上述方法不再适用。此时若要检验假
设
H0 : F (x) F0 (x;1,L ,,m由) 于
未于知 是pi0,可故以上用述估检计验量法(不极能大直似接然使估用计,)
来代替未知参数。
此时的统计量为
2 r (ni npˆi0 )2 .
i 1
npˆ i0
当n充分大时,上述统计量近似服
服从多项分布。
由大数定律知,当n充分大时,频 数ni与理论频数npi越来越小。故ni 与npi之间的差异可以反映出概率分 布 ( p1, p2,L , pr )是否为总体的真实分 布。令
2 r (ni npi )2
i1
npi
称上述统计量为皮尔逊统计量。
定理(皮尔逊定理)设总体的真实 分布为( p1, p2,L , pr ) ,则有
实际上,还可以用皮尔逊统计量检 验任意的一个总体是否具有某个指 定的分布函数 F0 (x)。
若我们要检验假设 H0 : F (x) F0 (x). 可选取r-1个不相等的实数 y1 L yr1 把实数轴分成r个区间,令
p1 F ( y1), pi F ( yi ) F ( yi1),i 2,L , r 1, pr 1 F ( yr1).
缺点:由于采用分组处理样本,实 际上检验的只是若干特殊点的值, 这就导致很可能犯第二类错误(取 伪错误)。
2. Kolmogorov检验法
出发点:考虑经验分布函数 Fn*(x) 和原假设H0 : F (x) F0 (x)成立时总 体分布函数之间偏差的最大值。
2 ~& 2 (r 1)
由上述定理,当样本容量较大时,
统计量 2近似服从自由度为r-1的卡
方分布。
非参数统计方法在假设检验中的应用研究论文素材
非参数统计方法在假设检验中的应用研究论文素材一、引言假设检验是统计学中一种重要的分析方法,用于根据样本数据推断总体参数的性质。
传统的假设检验通常基于参数统计方法,即假设总体参数服从某种特定的概率分布。
然而,在实际应用中,往往无法确定总体分布的具体形式,这时就需要使用非参数统计方法。
本文旨在探讨非参数统计方法在假设检验中的应用,并提供相应的研究素材。
二、非参数统计方法概述非参数统计方法是指不对总体参数做任何假设的统计方法。
它的优势在于不依赖具体的分布假设,因此更加灵活,适用范围更广。
非参数统计方法主要包括秩和检验、分布自由度检验和重抽样检验等。
1. 秩和检验秩和检验是非参数统计方法中常用的一种方法,适用于两组或多组独立样本的比较。
该方法将观测值按照大小排列,通过比较秩和的大小来进行假设检验。
常见的秩和检验包括Wilcoxon秩和检验和Mann-Whitney U检验。
2. 分布自由度检验分布自由度检验是一种非参数的拟合优度检验方法,用于检验观测数据与某个理论分布是否一致。
该方法基于观测数据的经验分布函数,通过计算观测数据的累积概率与理论分布的累积概率之间的差异来进行假设检验。
3. 重抽样检验重抽样检验是一种基于数据重抽样的非参数统计方法。
常见的重抽样检验包括Bootstrap方法和Permutation方法。
Bootstrap方法通过随机抽样产生重复样本,从而估计总体参数的分布。
Permutation方法则通过对样本数据的重新排列来进行假设检验。
三、非参数统计方法的应用研究素材1. 秩和检验的应用研究文献1:Smith, J. et al. (2015). "A Comparative Study of Nonparametric Rank Tests for Gene Differential Expression Analysis." Journal of Biometrics, 30(4), 123-135.该研究通过比较不同的秩和检验方法在基因差异表达分析中的应用效果,探讨了不同方法的优缺点并给出了相应的建议。
非参数假设检验方法课件
非参数假设检验具有灵活性、稳 健性和适用范围广等优点,能够 处理更广泛的数据类型和分布情 况,不受特定参数假设的限制。
与参数检验的区别与联系
区别
参数检验基于对总体分布的参数假设 ,如正态分布等,而非参数检验则不 依赖于这些假设。
联系
非参数检验和参数检验都是为了对总 体进行推断,只是所依据的假设不同 。在实际应用中,可以根据具体情况 选择合适的检验方法。
大,可能会导致误判。
与参数检验的优缺点比较
适用范围
参数检验方法通常需要假定数据分布的形式,适用范围相对较窄 ;而非参数检验方法无需假定分布形式,适用范围更广。
解释性
参数检验方法通常可以提供具体的参数估计和效应量估计,解释性 较强;而非参数检验方法的解释性相对较差。
计算复杂性
参数检验方法的计算过程通常较为复杂,需要使用复杂的数学公式 和推导;而非参数检验方法的计算过程相对简单。
详细描述
符号检验通过计算两组数据中正例和负例的差异数,并利用二项分布的概率公 式来计算差异显著的p值。该方法适用于小样本数据,并且对数据的分布没有严 格要求。
威尔科克森符号秩检验
总结词
威尔科克森符号秩检验是用于比较两个独立样本的差异是否显著的统计方法。
详细描述
该方法通过比较两个样本的秩和,利用威尔科克森符号秩公式计算差异显著的p 值。该方法适用于处理数据量较小的情况,并且对数据的分布没有严格要求。
05
非参数假设检验的未来 发展与展望
现有研究的不足与局限性
方法适用范围有限
01
目前非参数假设检验方法主要适用于特定类型的数据和问题,
对于复杂数据或特定领域的适用性有待提高。
理论基础尚不完备
02
非参数检验
➢ 编秩:数据相等则取平均秩,
➢ 求秩和
➢ 计算检验统计量H值
H 12 N(N 1)
Ri2 3( N 1) ni
出生体重(kg)xij ABCD
相应秩次 Rij A BCD
2.7 2.9 3.3 3.5
3
4
7 11
2.4 3.2 3.6 3.6
2 5.5 12.5 12.5
2.2 3.2 3.4 3.7
χ 2 12
R
2 i
3(N1)
N(N1) ni
χ2
12 14(14 1)
152
4
152 3
37.52 4
37.52 3
3(14
1)
χ 2 9.375
χ
2 c
1
χ2
(t
3 j
t
j
)
n3 n
1
(23
9.375 2) (33 3) (23
143 14
2)
9.50
四、随机区组设计资料的秩和检验 (Friedman test)
正态近似法
如果n1或n2-n1超出附表的范围,可按下式 计算u值:
u | T n1(N 1) / 2 | 0.5 n1n2 (N 1) / 12
在相同秩次较多时,应用下式进行校正:
uC u / C
C 1
(t
3 j
t
j
)
/(N
3
N)
tj为第j组相同秩次的个数
频数表资料(或等级资料)两样本资料比较
xi (2) 86 71 77 68 91 72 77 91 70 71 88 87
12 对双胞胎兄弟心理测试结果
后出生者得分 差 值
非参数假设检验
结果分析:
P值>0.05,接受Ho,两套问卷测试的数据服从同样的分布。
实例演示:检验一组样本的总体分布是否与猜想的分布(任 意分布)相同:拟合优度 2 检验法 Eg3.六个企业生产汽车,每小时的产量如图:
问:这些企业的生产水平,有无显著差异? 零假设Ho:六个企业的生产能力是相同的(即产量服从均匀 分布)。 备泽假设H1:六个企业的生产能力是不全相同的(产量不服 从均匀分布)
非参数假设检验
郑丽娜
非参数假设检验(Nonparametric tests) 非参数检验与参数检验共同构成统计推断的基本内容。 参数检验是在总体分布形式已知的情况下,对总体分布的参 数如均值、方差等进行推断的方法。 但在数据分析过程中,人们往往无法对总体分布形态作简单 假定,此时参数检验的方法就不再适用了。 非参数检验是在总体方差未知或知道甚少的情况下,利用样 本数据对总体分布形态等进行推断的方法。 由于非参数检验方法在推断过程中不涉及有关总体分布的参 数,因而得名为“非参数”检验。
数据输入: 数据输入见右图:
存放数据是一列 一分钟内观察到得个数 为变量值
数据分析: 步骤1 分析 非参数检验 (Nonparametric) 1样本 K-S( 1 sample k - s )
数据分析: 步骤2 放入右边的检验变量 列表(test variable list)
数据分析: 步骤3 下面的检验分布( test distribution) 都选,因为不知道 服从什么分布。 选择选项里选择所需 的。 点确定
数据分析: 步骤4 检验类型(test type) 有四种 系统默认的是MannWhitney U检验 (序号和<铁和>检 验法) 点确定,看结果
结果分析:
非参数假设检验
§ 7.4 非参数假设检验在§7.2中讨论了母体分布类型为已知时的参数假设检验问题.一般在进行参数假设检验之前,需要对母体的分布进行推断.本节将讨论母体分布的假设检验问题.因为所用的方法适用于任何分布或者仅有微弱假定分布,实质上是不依赖于分布的.在数理统计学中不依赖于分布的统计方法统称为非参数统计方法.这里所讨论的问题就是非参数假设检验问题.这里所研究的检验是如何用子样去似全母体分布,所以又称为分布拟合扰度检验,一般有两种:一是拟合母体的分布函数;另一是拟合母体分布的概率函数.这里我们只介绍三种检验方法:概率图纸法. 2χ-拟合优度检验和柯尔莫哥洛夫斯米尔诺夫检验.一, 概率图纸法这是一种比较直观和简便的检验方法.它适合于在现场使用.目前常见的概率图纸有正态,对数正态,二项分布,指数分布和威布尔分布概率图纸等.这里我们只介绍正态概率图纸,关于其它分布的概率图纸的构造原理和使用方法都是类似的1. 正态概率图纸的构造原理设母体ξ有分布函数F(x),{N(μ,2σ)}表示正态分布族.需要检验假设)},({)(:20σμN x F H ∈这里μ和2σ均为未知常数.在原假设0H 为真时,通过中心化变换)(2121)(22)(222σμπσπσμμσμ-Φ===⎰⎰-∞--∞---x du edt ex F x xt即σμξξμ-=)(服从正态N(0,1).函数u(x)是x 的线性函数. σμξξμ-=)( (7.13) 在(x,u(x))直角坐标平面上是一条直线.这条直线过(μ,0),且斜率为σ1. 2. 检验步骤.事实上,我们知道的不是母体ξ取出的一组子样观察值n x x ,,1 由格里汶科定理知道子样的经验分布函数)(x F n 依概率收剑于母体分布函数F(x).所以在检验母分体布函数F(x)是否属于正态分布族时,我们以大子样的经验分布函数)(x F n 作为母体分布的近似.若0H :F(x) ∈{N(μ,2σ)}为真,那末点,,,1)),(,(n i x F x i i =在正态概率图纸上应该在一条直线上.所以根据上述经验分布函数)(x F n 是母体分布函数F(x)很好的近似,点,,,1)),(,(n i x F x i i =在正态概率图纸上也应该近似地在一条直线附近.倘若点列)),(,(i i x F x 不是近似地在一条直线附近,那末只能说明F(x)不属于正态分布族.根据上述想法,用正态概率图纸去检验假设0H 的具体步骤如下.(1) 整理数据 (2) 描点(3) 目测这些点的位置, 3. 未知参数μ与2σ的估计.若通过概率图纸检验已经知道母体服从正态分布,我们就凭目测在概率图纸上画出最靠近各点,,,1)),(,()()(n i x F x i n i =的一条直线l,因为σμξξμ-=)(服从正态N(0,1),所以当0)(=-=σμξμx ,即x=μ时对应的概率F=0.5.因此,只要在概率图纸上面一条F=0.5的水平直线.这条直线与直线l 的交点的横坐标5.0x 就可以作为参数为μ的估计.又由μ(x)=1时所对应的概率F=0.8413的水平直线,这条直线与直线l 的交点的横坐标为8413.0x .这个8413.0x 显然满足18413.08413.0=-=σμμx 即μσ-=8413.0x 因此可以用差5.08413.0x x -估计σ.例 7.8 (略)见P 338 二, 2χ的似体检验法前面介绍了直观而简便的概率图纸法,它不需要很多计算就能对母体分布族作出一个统计推断,并且还能对分布所含的参数作出估计.但是这种方法因人而异,且精度不高,又不能控制犯错误的概率.这里介绍2χ-拟合检验法,它能够像各种显著性检验一样控制犯第一类错误的概率.设母体ξ的分布函数为具有明确表达式的F(x),.我们把随机变量ξ的值域R 分成k 个互不相容的区间[][][]k k k a a A a a A a a A ,,,,,,1212101-=== 这些区间不一定有相同的长度.设n x x ,,1 是容量为n 的子样的一组观测值.i n 为子样观测值n x x ,,1 中落入i A 的频数.n n ni i =∑=1在这n 次事件i A 出现的频率为nn i. 我们现在检验原假设)()(:00x F x F H =.设在原假设0H 成立下,母体ξ落入区间i A 的概率为i P ,即k i a F a F A P P i i i i ,1),()()(100=-==- (7.14)此时n 个观察值中,恰有1n 个值落入1A 内,2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k n n n n k P P P n n n n 212121!!!!这是一个多项分布.按大数定理,在0H 为真时,频率nn i与概率i P 的差异不应太大.根据这个思想构造一个统计量2χ=∑=-ki i i i nP nP n 12)( (7.15)称做2χ-统计量.往后可以看到,用2χ表示这一统计量不是没有原因的.因为它的极限分布就是自由度为k-1的2χ-分布.为了能够把2χ-统计量用来作检验的统计量,我们必须知道它的抽样分布.我们先k=2的简单情形.在0H 成立下,221)(,)(P A P P A P i ==其中121=+P P这时,频数n n n =+21我们考察222212112)()(nP nP n nP nP n -+-=χ (7.16) 令222111,nP n Y nP n Y -=-= (7.17)显然0)(212121=+-+=+P P n n n Y Y (7.18)由此可见1Y 与2Y 不是线性独立,且21Y Y -=.于是21212221212P nP Y nP Y nP Y =+=χ 21111)1(⎥⎥⎦⎤⎢⎢⎣⎡--P nP nP n (7.19) 根据德莫弗-拉普拉斯极限定理,当n 充分大时,随机变量)1(1111P nP nP n --的分布是接近于正态的,从而推得k=2情形的分布,当n 充分大时,是接近于自由度为1的2χ-分布.对于一般情形有如下的定理.定理 7.1 当0H 为真时,即k P P ,,1 为母体的真实概率时,由(7.15)式所定义的统计量2χ的渐近分布是自由度为k-1的2χ-分布,即密度函数为⎪⎪⎩⎪⎪⎨⎧⎪⎭⎫ ⎝⎛-Γ=---,0,2121)(22321xk k e x k x f (7.20) 证 因为在n 个观测值中恰有1n 个观测值落入1A 内, 2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k n n n n k P P P n n n n 212121!!!!这里n n n n k =+++ 21.其特征函数nk j it jk je P t t ⎪⎪⎭⎫⎝⎛=∑=112),,( ϕ (7.21) 令k j nP nP n Y jjj j ,2,1, =-=(7.22)于是有∑∑===-=kj j kj jj j Y nP nP n 12122)(χ (7.23)和∑=kj j jP Y1=0 (7.24)由此式看出,诸随机变量j Y 不是线性独立的.(k Y Y ,,1 )的联合分布的特征函数具有形状2111exp exp ),,(⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛•⎪⎪⎭⎫ ⎝⎛-=∑∑==kj j j j kj j jk nPit P nP it t t ϕ (7.25) 两边取对数得⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛+-=∑∑==k j j jj kj j jn nP it P n P t n i t t 111exp ln ),,(ln ϕ (7.26) 利用指数数函和对数函在0=j t 处的泰勒展开:⎪⎭⎫ ⎝⎛+-=-⎥⎥⎦⎤⎢⎢⎣⎡n nP t nP it np it j jj j jj 121exp 2ο和)(2)1ln(22x x x x ο+-=+于是)1(21211211ln ),,(ln 11212111211οοϕ+⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--+-=⎪⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+-++-=∑∑∑∑∑∑∑=======k j k j k j j j j j j k j j j k j k j j j j kj j jk P t n i t n P t n i n P t n i n t n P t n i n P t n i t t当∞→n 时⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--→∑∑==k j kj j j j k P t t t t 1212121),,(ln ϕ 即⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--=∑∑==∞→k j k j j j j k n P t t t t 1212121exp ),,(lim ϕ (7.26) 作一正交变换:⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j k j kj lj l Y P Z k l Y a Z 111,,1, (7.27) 其中lj a 应该满足1,,1,,0,11-=⎩⎨⎧≠==⋅∑=k r l r l r l a a kj rjlj 和1,,1,01-==∑=k l P akj j lj由⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j j k kj y ij l t P u k l t a u 111,1, (7.28) 得到∑∑∑-====⎪⎪⎭⎫ ⎝⎛-1122112k j j kj i k j j j u P t t (7.29) 由(7.26)知,当∞→n 时,(k Z Z ,,1 )的特征函数⎭⎬⎫⎩⎨⎧-=∑-=∞→112121exp ),,(lim k j j k n u u u ϕ.这意味着11,,-k Z Z 的分布弱收剑于相互独立的正态N(0,1)分布,而k Z 依概率收剑于0.因此∑∑====kj j k j j Z Y 12122χ的渐近分布是自由度为k-1的2χ-分布.如果原假设0H 只确定母体分布类型,而分布中还含有未知参数m θθ,,1 则我们还不能用定理7.1来作为检验的理论依据.费歇证明了如下定理.从而解决了含未知参数情形的分布检验问题.定理 7.2 设F(x; m θθ,,1 )为母体的真实分布,其中m θθ,,1 为m 个未知参数.在F(x;m θθ,,1 )中用m θθ,,1 的极大似然估计mθθ∧∧,代替m θθ,,1 并且以F(x; mθθ∧∧,)取代(7.4)中的F(x)得到),,1;(),,1;(1m a F m a F i i iP θθθθ∧∧-∧∧∧-= (7.30)则将(7.30)代入(7.15)所得的统计量∑=∧∧-=kj i ini nn p p 122()χ (7.31)当∞→n 时有自由度为k-m-1的2χ-分布.例 7.9 (略)见P 345由例子来总结一下利用2χ-检验分布假设的步骤:(1)把母体ξ的值域划分为k 个互不相交的区间[,,,1),,1k i a a i i =+其中k a a ,1可以分别取∞∞-,;(2) 在0H 成立下,用极大似然估计法估计分布所含的未知参数; (3)在0H 成立下,计算理论概率)()(010i i i a F a F p -=+并且算出理论频数i nP ; (4)按照子样观察值n x x x ,,,21 落在区间),[1+i i a a 中的个数,即实际频数,,,1,k i n i =和(3)中算出的理论频数i nP ,计算ii i nP nP n )(2-=χ的值;(5)按照所给出的显著性水平α,查自由度k-m-1的2χ-分布表得)1(21---m k αχ,其中m 是未知参数的个数; (6)若2χ21αχ-≥,则拒绝原假设0H ,若212αχχ-<,则认为原假设0H 成立.三 柯尔莫哥洛夫似合检验------n D 检验2χ-似合检验是比较子样频率与母体的概率的.尽管它对于离散型和连续型母体分布都适用.但它是依赖于区间的划分的.因为即使原假设)()(:00x F x F H =不成立,在某种划分下还是可能有k i P a F a F a F a F i i i i i ,,1,)()()()(1001 ==-=---从而不影响(7.5)中2χ的值,也就是有可能把不真的原假设0H 接受过来.由此看到,用2χ-检验实际上只是检验了,,,1,)()(100k i P a F a F i i i ==--是否为真,而并未真正地检验母体分布F(x)是否为)(0x F .柯尔莫哥洛夫对连续母体的分布提出了一种方法.一般称做柯尔莫哥洛夫检验或n D -检验.这个检验比较子样经验分布函数)(x F n 和母体分布函数F(x)的.它不是在划分的区间上考虑)(x F n 与原假设的分布函数之间的偏差.而是在每一点上考虑它们之间的偏差.这就克服了2χ-检验的依赖于区间划分的缺点.但母体分布必须假定为连续.根据格里汶科定理,我们可以把子样经验分布函数看作实际母体分布函的缩影.如果原假设成立,它与F(x)的差距一般不应太大.由此柯尔莫哥洛夫提出一个统计量|)()(|sup x F x F D n xn -= (7.32)并且得到这统计量n D 的精确分布和极限分布K(λ).它们都不依赖于母体的分布.这里我们不加证明地引入柯尔莫哥洛夫定理.定理 7.3 设母体ξ有连续分布函数F(x),从中抽取容量为n 的字样,并设经验分布函数为)(x F n ,则|)()(|sup x F x F D n xn -=的分布函数⎪⎭⎫ ⎝⎛+<n D P n 21λ=n n n n dy y y f n n n nn n n n n 2120212,1,),,(0,021********22121-<≤⎪⎪⎪⎩⎪⎪⎪⎨⎧-≥<⎰⎰⎰+-+-+---λλλλλλλλλ 当(7.33)其中⎩⎨⎧<<<=其它当,010!),(11n n y y n y y f在∞→时有极限分布函⎪⎩⎪⎨⎧≤>--=→<∑-∞=0,00),2exp()1()()(22λλλλλ当当n j j n j K D n P (7.34) 在应用柯尔莫哥洛夫检验时,应该注意的是,原假设的分布的参数值原则上应是已知的.但在参数为未知时,近年来有人对某些母体分布如正态分布和指数分布用下列两种方法估计.()可用另一个大容量子样来估计未知参数,(2)如果原来子样容量很大,也可用来估计未知参数.不过此n D -检验是近似的.在检验时以取.较大的显著性水平为宜,一般取α=0.10-0.12.n D -检验检验母体有连续分布函数F(x)这个假设的步骤如下:(1) 从母体抽取容量为n 的子样,并把子样观察值按由小到大的次序排列;(2) 算出经验分布函⎪⎪⎩⎪⎪⎨⎧≤=<≤<=+x n j x x x nx n x x x F k j j jn 当当当,1,,1,,)(,0)()1()()1((3) 在原假设0H 下,计算观测值处的理论分布函数F(x)的值; (4) 对每一个i x 算出经验分布函数与理论分布函数的差的绝对值||)()(||)()()()1()()(i i n i i n x F x F x F x F --+与(5) 由(4)算出统计量的值(6) 给出显著性水平α,由柯尔莫哥洛夫检验的临界值表查出αα=≥)(,n n D D P的临界值α,n D ;当n>100时,可通过n D n /1,ααλ-≈查n D 的极限分布函数数值表得αλ-1从而求出α,n D 的近似值.(7) 若由(5)算出的α,n n D D ≥则拒绝原假设0H ;若α,n n D D <则接受假设,并认为原假设的理论分布函数与子样数据是似合得好的. 例 7.10 略) 见P 351定理 7.4 当样本容量21n n 和分别趋身于∞时,统计量|)()(|212121,sup x F x F D n n xn n -=有极限分布函数)(212121λλK D n n n n P n n →⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧<+ ⎪⎩⎪⎨⎧≤>--=∑∞-∞=0,00),2exp()1(22λλλ当当j j j (7.35) 例 7.11 (略)见P 353。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
品牌
甲
乙
丙
所购买的人数 61
53
36
依据这些数据,是否可以断定顾客对此三种品牌的商品喜好
确实存在着显著的差异?( = 0.05 )
解 若对此三种品牌的商品喜好确实不存在着显著的差异
就意味着,对三种品牌的商品喜好比例 p1, p2 , p3相等。
上页 下页 返回
此是 m = 3, n1 = 61, n2= 53, n3 = 36,n=150
由于6.52 > 5.991 故有理由拒绝H0 认为顾客对此三种品牌的商品喜好确实存在着显著的差异.
上页 下页 返回
例2 64只某种杂交的几内亚猪的后代,其中34只红色,10只 黑色,20只白色,根据遗传模型,它们之间的比例应为 9:3:4,问以上数据在0.05的水平下体现的与遗传模型是否 吻合。 认为基本吻合
定理1
则统计量
2
m
(ni
i 1
npi0 npi0
)2渐近服从自由度为m
1的
2分布.
由此可以建立 H0 的拒绝域
只要给定一组样本观察值,代入检验统计量计算后,就 能得出结论。
上页 下页 返回
例1 某商场为了研究顾客对一类商品的某三种品牌商品的喜 好比例,以便为下次进货提供较科学的依据。现随机观 察购买此商品的150名顾客,并记录下其所买的品牌,统 计人数如下:
抽取次数X 1
2
3
4 5
试验累计数 43 31 15 6
5
解 若两色球个数相等,则每次取到白球的概率为1/2 以抽取次数X为考查对象,则X服从几何分布,即
计算得
上页 下页 返回
此是 m = 5, n1 = 43, n2= 31, n3 =15, n4 = 6,n5= 5, n=100
计算有
结论:接受H0
定理2 (R.A.Fisher)
上页 下页 返回
(3) 若X的分布函数F(x)的具有明确表达式F0(x;),但含 r 个
上页 下页 返回
(3) 若X的分布函数F(x)的具有明确表达式F0(x;),但含 r 个
未知参数。根据样本信息推断X的分布函数是否为F0(x). 第一步: 由样本进行参数的点估计后,将参数估计值代入分
布函数中,使得分布函数成为已知函数F0(x;) 。
第二步: 仿造情形 (2) 分组离散。
令
第三步: 其中 m 为分组数,r 为分布函数中待估参数数.
变量来近似描述 . 也就是说,我们可以假设每年爆发战争次 数分布X近似泊松分布.
现在的问题是:上面的数据能否证实X 具有泊松分布的假设
是正确的?
上页 下页 返回
又如,某钟表厂对生产的钟进行精确性检查,抽取100 个钟作试验,拨准后隔24小时以后进行检查,将每个钟的 误差(快或慢)按秒记录下来.
问该厂生产的钟的误差是否服从正态分布?
上页 下页 返回
一、2拟合优度检验
适用范围广:一个离散、连续、正态总体都适用。
1、多项分布的2检法 离散总体
不失一般性,设X的可能取值为1,2,3, ,m,且X服从多项分布.
上页 下页 返回
对一次抽样来说,
现在对总体X进行假设,即对X的分布律进行假设
上页 下页 返回
由于频率是概率的近似表现, 那么当容量 n 较大时,
再如,某工厂制造一批骰子,声称 它是均匀的.
也就是说,在投掷中,出现1点, 2点,…,6点的概率都应是1/6.
为检验骰子是否均匀,要把骰子实地投掷若干次,统计 各点出现的频率与1/6的差距.
问题是:得到的数据能否说明“骰子均匀”的假设
是可信的?
上页 下页 返回
解决这类问题的工具是英国统计学家K.皮尔逊在1900年
上页 下页 返回
例如,从1500到1931年的432年间,每年爆发战争的 次数可以看作一个随机变量,椐统计,这432年间共爆发 了299次战争,具体数据如下:
战争次数X 发生 X次战争的年数
0
223
1
142
2
48
3
15
4
4
在概率论中,大家对泊松分布产生的一般条件已有所了
解,容易想到,每年爆发战争的次数,可以用一个泊松随机
发表的一篇文章中引进的所谓 2检验法.
这是一项很重要的工作,不少人把它视 为近代统计学的开端。
2检验法是在总体X 的分布未知时,
根据来自总体的样本,检验关于总体分布 的假设的一种检验方法。
K.皮尔逊
本章只介绍 2拟合优度检验、柯尔莫哥洛夫以及
斯米尔诺夫检验、偏度峰度检验。
除此还有:独立性、符号检验、游程检验、秩和检验等等。
为了进行检验,还必须知道其分布,否则进行不了
检验。
上页 下页 返回
类似于以前的检验方法,取一个知道分布标准化的度量。 为此在1900年,英国统计学家 Karl Pearson 首先提出
从该统计量直观上判断有,
或 2
m
i 1
ni 2 npi
n
为皮尔逊统计量
另外,用该统计量对总体分布律进行检验,还必须知 道其分布。 Pearson给出了其渐近分布。 上 页 下 页 返 回
解 若基本吻合,则p1=9/16, p2 =3/16 ,p3 =4/16
此是 m = 3, n1 = 34, n2= 10, n3 = 20,n=64
ˆ
2
(34
64196)2
64
9 16
(10
64 136)2
64
3 16
(20
64 146)2
64
4 16
13 9
5.991
上页 下页 返回
例3 在一个暗盒中存放有白色与黑色两色乒乓球,问该盒中的 白、黑球的个数是否相等?为此作以下试验,用不返回抽 取发式从此盒中取球,直到取出的球是白色球为止,并记 录下抽取的次数。共重复独立试验了100次,结果如下:
上页 下页 返回
例4 验证一枚骰子是否均匀。 电话号码的数字出现的概率等等问题。 采用分组离散化方法
若X的分布函数F(x)的具有明确表达式F0(x),不含未知参数。 根据样本信息推断X的分布函数是否为F0(x).
第一步:
第二步:计算
上页 下页 返回
第三步:记数
第四步:检验 其中m为分组数
H0的拒绝域为 一般有 n > 50,npi > 5最好 npi >10,否则应重新分组。 使得npi > 5最好 npi >10.
在前面的课程中,我们已经了解了假设检验的基本思 想,并讨论了当总体分布为正态时,关于其中未知参数的 假设检验问题 .
然而可能遇到这样的情形,总体服从何种理论分布并 不知道,要求我们直接对总体分布形式提出种种假设,然 后利用样本信息对假设进行检验。
在统计学中把不依赖于分布形式的统计方法称为非参数 统计。对总体的分布形式的检验就是非参数检验。