3-5非参数假设检验
数学建模方法-非参数假设检验
两相关样本的非参数检验(2 Related Samples Test)
【例12】clinical trial.sav 比较试验药组(group=1) 治疗前血红蛋白含量(hb1)和治疗后血红蛋白含量(hb2) 有无差异.
这是两组相关计量资料的比较. 结论:P=0.018,有显著性差异.
多个相关样本的非参数检验(K Related Samples Test) 【例13】nonpara_7.sav 分析药物是否有效
两相关样本的非参数检验(2 Related Samples Test) 多个相关样本的非参数检验(K Related Samples Test)
两独立样本的非参数检验(2 Independent Samples Test) 检验两个独立样本间是否具有相同的分布. 【例8】nonpara_3.sav 比较两组人群的RD值有无差别 这是两组计量资料的比较. 选择要检验的变量和分 类变量,定义分类值(1-2),其它使用默认选项即可.从负二项分 布的结论.
单样本的K_S拟合优度检验
检验一计量资料是否服从某种理论分布,这里的分布可以 是正态分布(Normal),均匀分布(Uniform),泊松分布(Poisson), 指数分布(Exponential).
【例7】diameter_sub.sav 检验是否服从正态分布
多个独立样本的非参数检验(K Independent Samples Test) 【例10】nonpara_5.sav 比较三种药物的效果有无差别 这是三组计量资料的比较. 选择要检验的变量和分 类变量,定义分类值(1-3),其它使用默认选项即可. 结论:三组的秩和12.6,7.6,3.8,P=0.008,三种药物的 效果有显著性差异,以甲药效果最好. 【例11】nonpara_6.sav 比较三种固定钉治疗骨折的疗效 这是三组等级/频数资料的比较. 先说明频数变量, 再选择要检验的变量和分类变量,定义分类值(1-3),其它 使用默认选项即可. 结论:P=0.129,故三组无显著性差异.
非参数检验的检验方法
非参数检验的检验方法非参数检验是一种假设检验的方法,它不依赖于总体分布的具体形式,而是基于样本数据进行推断。
相比于参数检验,非参数检验更加灵活和普适,可以适用于更广泛的情况。
非参数检验的主要思想是通过对样本数据的排序或者秩次变换,来推断总体的性质。
下面将介绍几种常见的非参数检验方法:1. Mann-Whitney U检验(又称Wilcoxon秩和检验):Mann-Whitney U检验用于比较两个独立样本的总体中位数是否相等。
它的基本思想是将两组样本的数据合并,按照从小到大的顺序进行排列,并为每个值分配一个秩次。
然后计算两组数据秩次和之差的绝对值,该值即为检验统计量U,根据U的大小可以进行推断。
2. Kruskal-Wallis H检验:Kruskal-Wallis H检验用于比较多个独立样本的总体中位数是否相等。
它的基本思想是将所有样本的数据合并,按照从小到大的顺序进行排列,并为每个值分配一个秩次。
然后计算每个样本的秩次和,以及总体的秩次和。
根据这些秩次和的差异来进行推断。
3. 秩和检验:秩和检验是一类常见的非参数检验方法,包括Wilcoxon符号秩检验和符号秩和检验。
这两种方法都是用来比较两个相关样本的总体中位数是否相等。
基本思想是将两个样本的差的符号进行标记,并用秩次表示绝对值大小的顺序。
然后根据秩次和的大小来进行推断。
4. Friedman检验:Friedman检验用于比较多个相关样本的总体中位数是否相等。
它的基本思想是将所有样本的数据进行秩次变换,并计算每个样本的秩次和。
然后根据秩次和的差异来进行推断。
在进行非参数检验时,需要注意以下几点:1. 样本独立性:非参数检验通常要求样本之间是独立的,即样本之间的观测值不受其他样本观测值的影响。
如果样本之间存在相关性,应考虑使用相关性检验或者非参数检验的相关版本。
2. 样本大小:非参数检验对样本的大小没有严格要求,但样本大小较小时可能会影响检验的统计功效。
非参数假设检验.pptx
计算每分钟内通过收费站的汽车为0辆、1辆、2辆、3 辆、4辆或更多的概率。
第12页/共43页
e 各概率乘以观测总数n=100,便得到理论频数 ,具体结果见下表: i ei
计算 2统计量的值:
2 (14.96 10)2 (28.42 26)2 (27.0 35)2
H0 :汽车通过收费站的辆数服从泊松分布; H1 :不服从泊松分布。
观测值分为5组,且有 u0 10,u1 26,u2 35,u4 5
第11页/共43页
回忆泊松分布
P{X x} e x , x 0,1, 2,
x!
其中 为泊松分布的期望值,是未知的,需要用样
本观测值来估计。由于100分钟内观测到190辆汽车, 所以平均每分钟观测到190/100=1.9辆汽车,故
第9页/共43页
计算 2统计量的值:
2 6 (ui ei )2
i1
ei
(27 25)2 (18 25)2 (15 25)2 (24 25)2
25
25
25
25
(36 25)2 (30 25)2 12
25
25
在本例的情况下, 统2 计量的自由度为m-1=6-1=5。
第8页/共43页
解:本例中的观测值以月为组,共分为m=6组,
每 月的销售台数即为观测的频v数i ,观测的总次
数为n=150。现欲检验是否服从(离散的)均匀 分布,即每月的销售量是否为
ei
nPi
150 6
25(台),
Pi
1 6
,i
1,
,6
为此,设
H0 :洗衣机销售量服从均匀分布;
H1 :并不服从均匀分布;
非参数假设检验方法
非参数假设检验方法
非参数假设检验方法,那可真是个超棒的统计利器!咱先说说它的步骤吧。
嘿,你想想看,就像搭积木一样,第一步得先明确问题,确定咱要检验啥。
然后收集数据,这数据就像是建筑材料,得好好收集。
接着计算检验统计量,这就如同给积木搭出形状。
最后根据统计量判断是否拒绝原假设。
这步骤简单易懂吧?
注意事项也不少呢!数据得有代表性,不然就像盖房子用了劣质材料,那可不行。
样本量也不能太小,不然就像小娃娃搭的积木城堡,风一吹就倒啦。
说到安全性和稳定性,那可是杠杠的!它不像有些方法那么娇气,对数据的分布要求不高。
就好比一辆越野车,能在各种路况下行驶,不用担心路况不好就抛锚。
应用场景那可多了去啦!当数据不满足参数检验的条件时,非参数假设检验方法就大显身手啦。
比如研究不同年龄段的人对某种产品的喜好,数据可能乱七八糟的,这时候非参数检验就像救星一样。
它的优势也很明显啊,操作简单,容易理解,不需要太多高深的数学知识。
就像玩游戏,不需要看厚厚的说明书就能上手。
给你举个实际案例吧。
有个公司想知道新推出的广告有没有效果,就用了非参数假设检验方法。
结果发现广告确实提高了产品的知名度。
这效果,哇塞,杠杠的!
非参数假设检验方法就是这么牛!它简单易用,安全稳定,应用场景广泛,优势明显。
赶紧用起来吧!。
非参数检验方法
非参数检验方法一、什么是非参数检验非参数检验(Nonparameteric Tests)是指检验假设(比如均值、方差、分布类型)不依赖样本参数的方法,也可以称为不参数检验,将数据的描述性统计量和判别量作为假设检验的基本工具,而不主张假设服从某个具体的概率分布。
二、非参数检验的优点1、可以使用描述性统计量作为假设检验的基本工具,而不主张数据服从某个具体的概率分布,使得检验更加简单。
2、非参数检验的统计量倪比较有针对性,无论样本量大小,无论是否假定样本服从某个具体概率分布,它都能比较有效计算统计量的有效性、准确性。
3、非参数检验的抽样复杂度较低,当数据量较小时,可以获得较精确的结果。
4、非参数检验可以应用于连续变量或离散变量检验假设,使得非参数检验成为一种常见的统计检验方法。
三、常见的非参数检验方法1、Wilcoxon符号秩检验:Wilcoxon符号秩检验是用于比较两组数据之间不同水平上的秩和的检验,它的统计量是组间的秩和比,假设多个样本的总体服从同一分布,可以用来检验两组数据间的均值或中位数的差异性,即表明两个样本的分布是否有差异。
2、Kruskal-Wallis H检验:Kruskal-Wallis H检验是一种无序秩检验,它能检验总体中多组数据间的均值或中位数的比较,即用来检验多个样本构成的总体是否服从同一分布,要求多组样本的体积相等。
3、Friedman检验:Friedman检验是一种用于多个样本比较的非参数检验,它的检验统计量是秩求和检验,可以检验多个样本构成的总体是否服从相同的分布,从而比较多个样本之间的均值,中位数或众数相对应的所有统计量。
4、Spearman秩相关系数:Spearman秩相关系数是一种测量两个变量相关性程度的方法,它不要求变量服从某种分布,仅要求变量是分类变量或连续变量。
5、Cochran Q检验:Cochran Q检验是变量若干观测值服从同一分布的依赖性检验,可以检验多组数据的差异性是否具有统计学意义,一般用于比较不同实验组间的得分或响应相对于对照组的得分或响应的差异性。
假设检验——非参数检验
假设检验(二)——非参数检验假设检验的统计方法,从其统计假设的角度可分为两类:参数检验与非参数检验。
上一节我们所介绍的Z 检验、t 检验,都是参数检验。
它们的共同特点是总体分布正态,并满足某些总体参数的假定条件。
参数检验就是要通过样本统计量去推断或估计总体参数。
然而,在实践中我们常常会遇到一些问题的总体分布并不明确,或者总体参数的假设条件不成立,不能使用参数检验。
这一类问题的检验应该采用统计学中的另一类方法,即非参数检验。
非参数检验是通过检验总体分布情况来实现对总体参数的推断。
非参数检验法与参数检验法相比,特点可以归纳如下:(1)非参数检验一般不需要严格的前提假设;(2)非参数检验特别适用于顺序资料;(3)非参数检验很适用于小样本,并且计算简单;(4)非参数检验法最大的不足是没能充分利用数据资料的全部信息;(5 )非参数检验法目前还不能用于处理因素间的交互作用。
非参数检验的方法很多,分别适用于各种特点的资料。
本节将介绍几种常用的非参数检验方法。
一.2检验2检验主要用于对按属性分类的计数资料的分析,对于数据资料本身的分布形态不作任何假设,所以从一定的意义上来讲,它是一种检验计数数据分布状态的最常用的非参数检验方法。
22检验的方法主要包括适合性检验和独立性检验。
(一)2检验概述2是实得数据与理论数据偏离程度的指标。
其基本公式为:2 ( f0 f e)(公式11—9)fe式中,f0 为实际观察次数,f e 为理论次数。
分析公式可知,把实际观测次数和依据某种假设所期望的次数(或理论次数)的差数平方,除以理论次数,求出比值,再将n 个比值相加,其和就是2。
观察公式可发现,如果实际观察次数与理论次数的差异越小, 2值也就越小。
当 f 0 与 f e 完全相同时,2值为零。
际次数与理论次数之差的大小而变化利用2值去检验实际观察次数与理论次数的差异是否显著的方法称为2检验有两个主要的作第一,可以用来检验各种实际次数与理论次数是否吻合的这类问题统称为适合性检验; 第二, 判断计数的两组或多组资料是否相互关联还是相互独立的问 题,这类问题统称为独立性检验。
非参数检验的场景与方法
非参数检验的场景与方法非参数检验是一种统计方法,用于对数据进行假设检验,而不需要对数据的分布做出任何假设。
相比于参数检验,非参数检验更加灵活,适用于更广泛的场景。
本文将介绍非参数检验的场景和常用的方法。
一、非参数检验的场景非参数检验适用于以下场景:1. 数据不满足正态分布:在一些实际问题中,数据的分布可能不满足正态分布假设,例如长尾分布、偏态分布等。
此时,非参数检验可以更好地适应数据的特点。
2. 样本量较小:参数检验通常要求样本量较大,以保证统计推断的准确性。
而非参数检验对样本量的要求较低,即使样本量较小,也可以进行有效的假设检验。
3. 数据类型不确定:非参数检验可以适用于各种数据类型,包括连续型数据、离散型数据、有序数据等。
而参数检验通常对数据类型有一定的要求。
二、常用的非参数检验方法1. Wilcoxon符号秩检验:适用于两个相关样本的比较。
该方法将两个样本的差异转化为秩次,通过比较秩次的大小来进行假设检验。
2. Mann-Whitney U检验:适用于两个独立样本的比较。
该方法将两个样本的观测值合并后,通过比较秩次的大小来进行假设检验。
3. Kruskal-Wallis检验:适用于多个独立样本的比较。
该方法将多个样本的观测值合并后,通过比较秩次的大小来进行假设检验。
4. Friedman检验:适用于多个相关样本的比较。
该方法将多个样本的观测值转化为秩次,通过比较秩次的大小来进行假设检验。
5. Kolmogorov-Smirnov检验:适用于两个样本的分布比较。
该方法通过比较两个样本的累积分布函数来进行假设检验。
三、非参数检验的优缺点非参数检验相比于参数检验具有以下优点:1. 不需要对数据的分布做出任何假设,更加灵活。
2. 对样本量的要求较低,适用于小样本数据。
3. 适用于各种数据类型,更加通用。
然而,非参数检验也存在一些缺点:1. 相对于参数检验,非参数检验的统计效率较低。
2. 非参数检验通常需要更多的计算资源和时间。
数理统计实验三非参数假设检验
西北农林科技大学实验报告学院名称:理学院专业年级:姓名:学号:课程:数理统计学报告日期:实验三非参数假设检验一.实验目的1. 验证某产品的合格率是否是否低于0.9.2. 检验某地区儿童身高是否符合正态分布。
3. 为研究心脏病猝死人数与日期的关系,收集到168个观测数据,利用这批样本数据推断猝死人数与日期的关系是否为2.8:1:1:1:1:1:1.4. 某工厂用甲乙两种工艺生产同一种产品,利用样本数据检验两种工艺下产品使用寿命是否存在显著差异。
二.实验要求用spss实现非参数假设检验,包括二项式检验,单样本正态分布检验,两个独立样本检验,卡方检验。
三.实验内容(一)验证某产品的合格率是否是否低于0.9.打开文件“非参数检验(产品合格率)”,点击分析->非参数检验->旧对话框->二项式,把数据“是否合格”添加到检验变量列表,把检验比例默认的0.5该为题目要求的0.9(如图所示)。
点击确定得到结论(如图所示)。
结论:由上表知,SPSS的悖假设检验案例比例小于0.9的,并且在精确显著(单侧)值sig=0.193>0.05,即接受原假设检验,即二项式检验的案例比例是大于0.9的。
(二)检验某地区儿童身高是否符合正态分布。
打开文件“非参数检验(单样本KS-儿童身高)”,点击分析->非参数检验->旧对话框->1样本,把数据“周岁儿童的身高(sg)”添加到检验变量列表,检验分布默认为常规,即正态(如图所示)。
点击确定得到结论(如图所示)。
结论:由上述的结果可以看出,周岁儿童的身高是满足正态分布其中均值为71.8571,标准差为3.97851,可知某地区的儿身高满足正态分布。
除此之外,由上面的结果中的检验值sig=0.344>0.05也可以得出原假设检验是成立的,即接受身高满足正态分布的假设。
(三)为研究心脏病猝死人数与日期的关系,收集到168个观测数据,利用这批样本数据推断猝死人数与日期的关系是否为2.8:1:1:1:1:1:1.打开文件,在变量视图窗口中,点击数据->加权个案,对话框右边选项点击加权个案,把“死亡日期”添加到频率变量中,(如图所示),点击确定。
非参数检验方法 PPT课件
对于符合参数统计分析条件者,采用 非参数统计分析,其检验效能较低
秩和检验
秩和检验(rank sum test):一类常用 的非参数统计分析方法;基于数据的秩次与 秩次之和
两独立样本差别的秩和检验 配对设计资料的秩检验 完全随机设计多组差别的秩和检验
两独立样本比较的秩和检验 Wilcoxon rank sum test
n1=8 T1=216 n2=7
21 26 24 27
T2=134
11.7 11.7 12.0 12.3 12.4 13.6
n3=9
14 15 16 16 20 25
T3=123.5
10.5 10.5 10.5 10.9 11.0 11.5
n4=8
6 7 9 10 12
T4=54.5
假设检验步骤
建立假设检验 • H0:四组鼠脾DNA含量的总体分布相同。 • H1:四组鼠脾DNA含量的总体分布位置不全相
第九章
非参数检验方法
参数统计
(parametric statistics)
已知总体分布类型,对 未知参数(μ、π)进 行统计推断
依赖于特定分布类 型,比较的是参数
非参数统计
(nonparametric statistics)
对总体的分布类 型不作任何要求
不受总体参数的影响, 比较分布或分布位置
适用范围广;可用于任何类型 资料(等级资料,或“>50mg” )
对于计量数据,如果资料方差相等,且服从 正态分布,就可以用 t 检验比较两样本均数。
如果此假定不成立或不能确定是否成立,就 应采用秩和时间(月)
无淋巴细胞转移
有淋巴细胞转移
时间
秩次
时间
秩次
非参数假设检验
结果分析:
P值>0.05,接受Ho,两套问卷测试的数据服从同样的分布。
实例演示:检验一组样本的总体分布是否与猜想的分布(任 意分布)相同:拟合优度 2 检验法 Eg3.六个企业生产汽车,每小时的产量如图:
问:这些企业的生产水平,有无显著差异? 零假设Ho:六个企业的生产能力是相同的(即产量服从均匀 分布)。 备泽假设H1:六个企业的生产能力是不全相同的(产量不服 从均匀分布)
非参数假设检验
郑丽娜
非参数假设检验(Nonparametric tests) 非参数检验与参数检验共同构成统计推断的基本内容。 参数检验是在总体分布形式已知的情况下,对总体分布的参 数如均值、方差等进行推断的方法。 但在数据分析过程中,人们往往无法对总体分布形态作简单 假定,此时参数检验的方法就不再适用了。 非参数检验是在总体方差未知或知道甚少的情况下,利用样 本数据对总体分布形态等进行推断的方法。 由于非参数检验方法在推断过程中不涉及有关总体分布的参 数,因而得名为“非参数”检验。
数据输入: 数据输入见右图:
存放数据是一列 一分钟内观察到得个数 为变量值
数据分析: 步骤1 分析 非参数检验 (Nonparametric) 1样本 K-S( 1 sample k - s )
数据分析: 步骤2 放入右边的检验变量 列表(test variable list)
数据分析: 步骤3 下面的检验分布( test distribution) 都选,因为不知道 服从什么分布。 选择选项里选择所需 的。 点确定
数据分析: 步骤4 检验类型(test type) 有四种 系统默认的是MannWhitney U检验 (序号和<铁和>检 验法) 点确定,看结果
结果分析:
非参数假设检验
§ 7.4 非参数假设检验在§7.2中讨论了母体分布类型为已知时的参数假设检验问题.一般在进行参数假设检验之前,需要对母体的分布进行推断.本节将讨论母体分布的假设检验问题.因为所用的方法适用于任何分布或者仅有微弱假定分布,实质上是不依赖于分布的.在数理统计学中不依赖于分布的统计方法统称为非参数统计方法.这里所讨论的问题就是非参数假设检验问题.这里所研究的检验是如何用子样去似全母体分布,所以又称为分布拟合扰度检验,一般有两种:一是拟合母体的分布函数;另一是拟合母体分布的概率函数.这里我们只介绍三种检验方法:概率图纸法. 2χ-拟合优度检验和柯尔莫哥洛夫斯米尔诺夫检验.一, 概率图纸法这是一种比较直观和简便的检验方法.它适合于在现场使用.目前常见的概率图纸有正态,对数正态,二项分布,指数分布和威布尔分布概率图纸等.这里我们只介绍正态概率图纸,关于其它分布的概率图纸的构造原理和使用方法都是类似的1. 正态概率图纸的构造原理设母体ξ有分布函数F(x),{N(μ,2σ)}表示正态分布族.需要检验假设)},({)(:20σμN x F H ∈这里μ和2σ均为未知常数.在原假设0H 为真时,通过中心化变换)(2121)(22)(222σμπσπσμμσμ-Φ===⎰⎰-∞--∞---x du edt ex F x xt即σμξξμ-=)(服从正态N(0,1).函数u(x)是x 的线性函数. σμξξμ-=)( (7.13) 在(x,u(x))直角坐标平面上是一条直线.这条直线过(μ,0),且斜率为σ1. 2. 检验步骤.事实上,我们知道的不是母体ξ取出的一组子样观察值n x x ,,1 由格里汶科定理知道子样的经验分布函数)(x F n 依概率收剑于母体分布函数F(x).所以在检验母分体布函数F(x)是否属于正态分布族时,我们以大子样的经验分布函数)(x F n 作为母体分布的近似.若0H :F(x) ∈{N(μ,2σ)}为真,那末点,,,1)),(,(n i x F x i i =在正态概率图纸上应该在一条直线上.所以根据上述经验分布函数)(x F n 是母体分布函数F(x)很好的近似,点,,,1)),(,(n i x F x i i =在正态概率图纸上也应该近似地在一条直线附近.倘若点列)),(,(i i x F x 不是近似地在一条直线附近,那末只能说明F(x)不属于正态分布族.根据上述想法,用正态概率图纸去检验假设0H 的具体步骤如下.(1) 整理数据 (2) 描点(3) 目测这些点的位置, 3. 未知参数μ与2σ的估计.若通过概率图纸检验已经知道母体服从正态分布,我们就凭目测在概率图纸上画出最靠近各点,,,1)),(,()()(n i x F x i n i =的一条直线l,因为σμξξμ-=)(服从正态N(0,1),所以当0)(=-=σμξμx ,即x=μ时对应的概率F=0.5.因此,只要在概率图纸上面一条F=0.5的水平直线.这条直线与直线l 的交点的横坐标5.0x 就可以作为参数为μ的估计.又由μ(x)=1时所对应的概率F=0.8413的水平直线,这条直线与直线l 的交点的横坐标为8413.0x .这个8413.0x 显然满足18413.08413.0=-=σμμx 即μσ-=8413.0x 因此可以用差5.08413.0x x -估计σ.例 7.8 (略)见P 338 二, 2χ的似体检验法前面介绍了直观而简便的概率图纸法,它不需要很多计算就能对母体分布族作出一个统计推断,并且还能对分布所含的参数作出估计.但是这种方法因人而异,且精度不高,又不能控制犯错误的概率.这里介绍2χ-拟合检验法,它能够像各种显著性检验一样控制犯第一类错误的概率.设母体ξ的分布函数为具有明确表达式的F(x),.我们把随机变量ξ的值域R 分成k 个互不相容的区间[][][]k k k a a A a a A a a A ,,,,,,1212101-=== 这些区间不一定有相同的长度.设n x x ,,1 是容量为n 的子样的一组观测值.i n 为子样观测值n x x ,,1 中落入i A 的频数.n n ni i =∑=1在这n 次事件i A 出现的频率为nn i. 我们现在检验原假设)()(:00x F x F H =.设在原假设0H 成立下,母体ξ落入区间i A 的概率为i P ,即k i a F a F A P P i i i i ,1),()()(100=-==- (7.14)此时n 个观察值中,恰有1n 个值落入1A 内,2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k n n n n k P P P n n n n 212121!!!!这是一个多项分布.按大数定理,在0H 为真时,频率nn i与概率i P 的差异不应太大.根据这个思想构造一个统计量2χ=∑=-ki i i i nP nP n 12)( (7.15)称做2χ-统计量.往后可以看到,用2χ表示这一统计量不是没有原因的.因为它的极限分布就是自由度为k-1的2χ-分布.为了能够把2χ-统计量用来作检验的统计量,我们必须知道它的抽样分布.我们先k=2的简单情形.在0H 成立下,221)(,)(P A P P A P i ==其中121=+P P这时,频数n n n =+21我们考察222212112)()(nP nP n nP nP n -+-=χ (7.16) 令222111,nP n Y nP n Y -=-= (7.17)显然0)(212121=+-+=+P P n n n Y Y (7.18)由此可见1Y 与2Y 不是线性独立,且21Y Y -=.于是21212221212P nP Y nP Y nP Y =+=χ 21111)1(⎥⎥⎦⎤⎢⎢⎣⎡--P nP nP n (7.19) 根据德莫弗-拉普拉斯极限定理,当n 充分大时,随机变量)1(1111P nP nP n --的分布是接近于正态的,从而推得k=2情形的分布,当n 充分大时,是接近于自由度为1的2χ-分布.对于一般情形有如下的定理.定理 7.1 当0H 为真时,即k P P ,,1 为母体的真实概率时,由(7.15)式所定义的统计量2χ的渐近分布是自由度为k-1的2χ-分布,即密度函数为⎪⎪⎩⎪⎪⎨⎧⎪⎭⎫ ⎝⎛-Γ=---,0,2121)(22321xk k e x k x f (7.20) 证 因为在n 个观测值中恰有1n 个观测值落入1A 内, 2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k n n n n k P P P n n n n 212121!!!!这里n n n n k =+++ 21.其特征函数nk j it jk je P t t ⎪⎪⎭⎫⎝⎛=∑=112),,( ϕ (7.21) 令k j nP nP n Y jjj j ,2,1, =-=(7.22)于是有∑∑===-=kj j kj jj j Y nP nP n 12122)(χ (7.23)和∑=kj j jP Y1=0 (7.24)由此式看出,诸随机变量j Y 不是线性独立的.(k Y Y ,,1 )的联合分布的特征函数具有形状2111exp exp ),,(⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛•⎪⎪⎭⎫ ⎝⎛-=∑∑==kj j j j kj j jk nPit P nP it t t ϕ (7.25) 两边取对数得⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛+-=∑∑==k j j jj kj j jn nP it P n P t n i t t 111exp ln ),,(ln ϕ (7.26) 利用指数数函和对数函在0=j t 处的泰勒展开:⎪⎭⎫ ⎝⎛+-=-⎥⎥⎦⎤⎢⎢⎣⎡n nP t nP it np it j jj j jj 121exp 2ο和)(2)1ln(22x x x x ο+-=+于是)1(21211211ln ),,(ln 11212111211οοϕ+⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--+-=⎪⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+-++-=∑∑∑∑∑∑∑=======k j k j k j j j j j j k j j j k j k j j j j kj j jk P t n i t n P t n i n P t n i n t n P t n i n P t n i t t当∞→n 时⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--→∑∑==k j kj j j j k P t t t t 1212121),,(ln ϕ 即⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--=∑∑==∞→k j k j j j j k n P t t t t 1212121exp ),,(lim ϕ (7.26) 作一正交变换:⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j k j kj lj l Y P Z k l Y a Z 111,,1, (7.27) 其中lj a 应该满足1,,1,,0,11-=⎩⎨⎧≠==⋅∑=k r l r l r l a a kj rjlj 和1,,1,01-==∑=k l P akj j lj由⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j j k kj y ij l t P u k l t a u 111,1, (7.28) 得到∑∑∑-====⎪⎪⎭⎫ ⎝⎛-1122112k j j kj i k j j j u P t t (7.29) 由(7.26)知,当∞→n 时,(k Z Z ,,1 )的特征函数⎭⎬⎫⎩⎨⎧-=∑-=∞→112121exp ),,(lim k j j k n u u u ϕ.这意味着11,,-k Z Z 的分布弱收剑于相互独立的正态N(0,1)分布,而k Z 依概率收剑于0.因此∑∑====kj j k j j Z Y 12122χ的渐近分布是自由度为k-1的2χ-分布.如果原假设0H 只确定母体分布类型,而分布中还含有未知参数m θθ,,1 则我们还不能用定理7.1来作为检验的理论依据.费歇证明了如下定理.从而解决了含未知参数情形的分布检验问题.定理 7.2 设F(x; m θθ,,1 )为母体的真实分布,其中m θθ,,1 为m 个未知参数.在F(x;m θθ,,1 )中用m θθ,,1 的极大似然估计mθθ∧∧,代替m θθ,,1 并且以F(x; mθθ∧∧,)取代(7.4)中的F(x)得到),,1;(),,1;(1m a F m a F i i iP θθθθ∧∧-∧∧∧-= (7.30)则将(7.30)代入(7.15)所得的统计量∑=∧∧-=kj i ini nn p p 122()χ (7.31)当∞→n 时有自由度为k-m-1的2χ-分布.例 7.9 (略)见P 345由例子来总结一下利用2χ-检验分布假设的步骤:(1)把母体ξ的值域划分为k 个互不相交的区间[,,,1),,1k i a a i i =+其中k a a ,1可以分别取∞∞-,;(2) 在0H 成立下,用极大似然估计法估计分布所含的未知参数; (3)在0H 成立下,计算理论概率)()(010i i i a F a F p -=+并且算出理论频数i nP ; (4)按照子样观察值n x x x ,,,21 落在区间),[1+i i a a 中的个数,即实际频数,,,1,k i n i =和(3)中算出的理论频数i nP ,计算ii i nP nP n )(2-=χ的值;(5)按照所给出的显著性水平α,查自由度k-m-1的2χ-分布表得)1(21---m k αχ,其中m 是未知参数的个数; (6)若2χ21αχ-≥,则拒绝原假设0H ,若212αχχ-<,则认为原假设0H 成立.三 柯尔莫哥洛夫似合检验------n D 检验2χ-似合检验是比较子样频率与母体的概率的.尽管它对于离散型和连续型母体分布都适用.但它是依赖于区间的划分的.因为即使原假设)()(:00x F x F H =不成立,在某种划分下还是可能有k i P a F a F a F a F i i i i i ,,1,)()()()(1001 ==-=---从而不影响(7.5)中2χ的值,也就是有可能把不真的原假设0H 接受过来.由此看到,用2χ-检验实际上只是检验了,,,1,)()(100k i P a F a F i i i ==--是否为真,而并未真正地检验母体分布F(x)是否为)(0x F .柯尔莫哥洛夫对连续母体的分布提出了一种方法.一般称做柯尔莫哥洛夫检验或n D -检验.这个检验比较子样经验分布函数)(x F n 和母体分布函数F(x)的.它不是在划分的区间上考虑)(x F n 与原假设的分布函数之间的偏差.而是在每一点上考虑它们之间的偏差.这就克服了2χ-检验的依赖于区间划分的缺点.但母体分布必须假定为连续.根据格里汶科定理,我们可以把子样经验分布函数看作实际母体分布函的缩影.如果原假设成立,它与F(x)的差距一般不应太大.由此柯尔莫哥洛夫提出一个统计量|)()(|sup x F x F D n xn -= (7.32)并且得到这统计量n D 的精确分布和极限分布K(λ).它们都不依赖于母体的分布.这里我们不加证明地引入柯尔莫哥洛夫定理.定理 7.3 设母体ξ有连续分布函数F(x),从中抽取容量为n 的字样,并设经验分布函数为)(x F n ,则|)()(|sup x F x F D n xn -=的分布函数⎪⎭⎫ ⎝⎛+<n D P n 21λ=n n n n dy y y f n n n nn n n n n 2120212,1,),,(0,021********22121-<≤⎪⎪⎪⎩⎪⎪⎪⎨⎧-≥<⎰⎰⎰+-+-+---λλλλλλλλλ 当(7.33)其中⎩⎨⎧<<<=其它当,010!),(11n n y y n y y f在∞→时有极限分布函⎪⎩⎪⎨⎧≤>--=→<∑-∞=0,00),2exp()1()()(22λλλλλ当当n j j n j K D n P (7.34) 在应用柯尔莫哥洛夫检验时,应该注意的是,原假设的分布的参数值原则上应是已知的.但在参数为未知时,近年来有人对某些母体分布如正态分布和指数分布用下列两种方法估计.()可用另一个大容量子样来估计未知参数,(2)如果原来子样容量很大,也可用来估计未知参数.不过此n D -检验是近似的.在检验时以取.较大的显著性水平为宜,一般取α=0.10-0.12.n D -检验检验母体有连续分布函数F(x)这个假设的步骤如下:(1) 从母体抽取容量为n 的子样,并把子样观察值按由小到大的次序排列;(2) 算出经验分布函⎪⎪⎩⎪⎪⎨⎧≤=<≤<=+x n j x x x nx n x x x F k j j jn 当当当,1,,1,,)(,0)()1()()1((3) 在原假设0H 下,计算观测值处的理论分布函数F(x)的值; (4) 对每一个i x 算出经验分布函数与理论分布函数的差的绝对值||)()(||)()()()1()()(i i n i i n x F x F x F x F --+与(5) 由(4)算出统计量的值(6) 给出显著性水平α,由柯尔莫哥洛夫检验的临界值表查出αα=≥)(,n n D D P的临界值α,n D ;当n>100时,可通过n D n /1,ααλ-≈查n D 的极限分布函数数值表得αλ-1从而求出α,n D 的近似值.(7) 若由(5)算出的α,n n D D ≥则拒绝原假设0H ;若α,n n D D <则接受假设,并认为原假设的理论分布函数与子样数据是似合得好的. 例 7.10 略) 见P 351定理 7.4 当样本容量21n n 和分别趋身于∞时,统计量|)()(|212121,sup x F x F D n n xn n -=有极限分布函数)(212121λλK D n n n n P n n →⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧<+ ⎪⎩⎪⎨⎧≤>--=∑∞-∞=0,00),2exp()1(22λλλ当当j j j (7.35) 例 7.11 (略)见P 353。
生物统计学:非参数检验
{ n+,n-}= n+=2 。
3、统计推断 当n=15时, 查附表11 得 临 界 值K0.05(15)=3 , K0.01(15) = 2 , 因 为 K = 2 = K0.01(15),P≤0.01,表明噪数与总体中位数比较的符号检验
1、建立假设 HO:样本所在的总体中位数=已知总体中 位数; HA :样本所在的总体中位数≠已知总体 中位数。 (若将备择假设 HA 中的“≠”改为“<” 或“>”,则进行一尾检验)
依赖于特定分布类型, 比较的是参数
优点:方法简便、易学易用,易于推广使用、应用范围广;可 用于参数检验难以处理的资料(如等级资料,或含数值 “>50mg”等)。 缺点:方法比较粗糙,对于符合参数检验条件者,采用非参数 检验会损失部分信息,其检验效能低;样本含量较大时,两者 结论常相同。
第一节 符号检验
非参数检验的弱点 可能会浪费一些信息 特别当数据可以使用参数模型的时候 大样本手算相对麻烦 一些表不易得到
参数检验 (parametric test)
非参数检验 (nonparametric test)
已知总体分布类型,对 未知参数进行统计推断
对总体的分布类型不作严 格要求 不受分布类型的影响, 比较的是总体分布位置
124.3 147.9 -15.7 7.9 +
1、提出无效假设与备择假设
HO :该地成年公黄牛胸围的平均数=140厘米, HA :该地成年公黄牛胸围的平均数≠140厘米。
2、计算差值、确定符号及其个数 样本各观测值与总体 平均数的差值及其符号列于表 11-2 ,并由此得 n+=6 ,n-=4 ,
非参数统计的名字中“非参数”意味着其方法不 涉及描述总体分布的有关参数;
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
注意1:中间的点离直线位置的偏差不能过大, 两头的点的偏差可以允许大 一些. 否则就拒绝H0.
4
第三章 假设检验
§5 非参数假设检验
二、皮尔逊 (Pearson) 2 拟合检验 设总体X的分布函数F(x)未知, F0 ( x ) 是一个完全已知或类型已知但 参数未知的分布函数. 利用样本 X 1 , , X n 检验关于总体X的假设:
1
第三章 假设检验
§5 非参数假设检验
一、正态概率纸检验 1、正态概率纸的构造:
2
第三章 假设检验
§5 非参数假设检验
2、检验方法:
x 检验假设: H 0 : X ~ N ( , ) 或 H 0 : F ( x )
2
( , 2 是未知参数)
n 总体的分布函数. 理论依据: 经验分布函数 近似
Y X 1 2
1
2
… … … … … …
s
ni n1 n2
n11 n21
n12 n22
n1 s n2 s
r
n j
nr 1 n1
nr 2 n 2
nrs n s
nr
n
9
第三章 假设检验
§5 非参数假设检验此时检 Nhomakorabea问题“H0: X与Y独立”变成
H 0 : pij pi p j , i 1, , r , j 1, , s . (其中 pij , pi , p j 未知).
H 0 : F ( x ) F0 ( x )
1、构造检验统计量: (1) 柯尔莫哥洛夫统计量的一般形式: 柯尔莫哥洛夫统计量: Dn sup | Fn ( x ) F0 ( x ) | .
x
13
第三章 假设检验
§5 非参数假设检验
Dn 的精确分布见教材P112;
n Dn 的极限分布见教材P112.
(3.25)
例 3.17(P110 续例 3.2) 某研究所推出一种感冒特效新药,为证明其疗效, 选择 200 名患者为志愿者. 将他们等分为两组, 分别不服药或服药, 观察三日后痊愈的情况, 得出下列数据:
服何种药 未服药者数 服药者数 合计 是否痊愈 痊愈者数 48 56 104 未痊愈者数 52 44 96 合计 100 100 200
检验方法: 当样本值算出的m个点 ( xi , Fn ( xi )) ( i 1, 2, , m ) 近似在一 直线上, 就接受H0. 例3.14(P99) 某工厂生产一种 220伏25瓦的白炽灯泡, 其光通量用X表 示 . 现从该厂生产的灯泡中随机抽取120个灯泡测得其光通量的数 据如下所示. 试问光通量X是否服从正态分布 N ( , 2 ) .
5
第三章 假设检验
§5 非参数假设检验
验问题(3.14) H 0 : F ( x ) F0 ( x ) 改为:
H 0 : P ( X ai ) pi , i 1, , k
(3.15)
(2) 构造检验统计量: ①当F0(x)中不含未知参数时,
( ni npi )2 n 2 ~~~~ ( k 1) H 0为真 npi i 1
H 0 : F ( x ) F0 ( x )
(3.14)
说明1: 此处X不论是连续或离散型, 也不论是一维或多维.
F0 ( x ) ——X的理论分布.
检验原理: 通过样本的实际频数与理论频数之间差异的大小, 推断 该样本是否来自给定分布函数的总体. (一) 总体X为离散型且取值有限 1、Pearson 2 统计量: (1) 设总体X是仅取有限个不同值 a1 , , ak 的离散型随机变量, 则原检
问新药是否疗效明显? ( 0.25 )
11
第三章 假设检验
§5 非参数假设检验
3、Pearson 2 检验的优缺点: (1) 优点: 此法使用范围广: 不论总体是一维还是多维, 是离散型还是连续型; 也不论总体分布中参数是已知还是未知; 甚至不仅可以用于全样本, 也可用于截尾样本, 还可用于成群数 据. (2) 缺点: 由于分组处理样本的观察值, 有时虽然假设 H 0 : F ( x ) F0 ( x ) 不成立, 但在某种划分之下, 并不影响统计量的观察值, 因而很容易 犯第II类错误. 而柯尔莫哥洛夫检验可以克服这一缺点.
ˆ i 为 pi 相应的估计值; 此处 p
★但实际应用时,未知参数一般用最大似然估计值代替,此时统计量
2 的极限分布不一定是 2 ( k m 1) ,但仍用(3.17*)作为H0的否定域.
2、H0的拒绝域:
2 12 ( k m 1)
(3.17*)
例3.15(P104) 某厂宣称自己产品的合格率达到99%, 检验人员从该厂 的一批产品中抽查了100件, 发现有两件次品. 在 0.1 下, 能否据 此断定该厂谎报合格率.
k 2
(3.16)
其中, ni —— ai 的观察频数 (即 ai 在样本 x1 , , xn 中出现的频数)
npi —— ai 的理论频数
2 ——观察频数 ni 与理论频数 npi 相对差异的总和
②当F0(x)中未知参数的个数为 m 时, 即理论分布为 F0 ( x; 1 , , m )
ˆ i )2 n 2 ( ni np ~~~~ ( k m 1) H 0为真 ˆ np i 1 i
k 2
(3.17)
6
第三章 假设检验
§5 非参数假设检验
说明2: ★ 当参数 1 , , m 的点估计是按 Fisher 的条件求得时 , (3.17) 成立 ,
令 d i max F0 ( X ( i ) ) Fn ( X ( i ) ) , Fn ( X ( i 1) ) F0 ( X ( i ) ) , i 1, 2, , m (3.28) 其中, 规定 Fn ( X ( m 1) ) 1. 此时, 柯尔莫哥洛夫统计量为: Dn max{d1 , d 2 , , d m } (3.29)
(2) 求得边缘分布的极大似然估计
n j ni ˆ i ˆ j p , i 1, , r ; p , j 1, , s . n n
(3) 构造检验统计量:
r s
2
i 1 j 1
( nij npij )2 npij
ˆ i p ˆ j )2 n ( nij np ~~~~~ 2 (( r 1)( s 1)) (3.24) H 0为真 ˆ i p ˆ j np i 1 j 1
第三章 假设检验
§5 非参数假设检验
非参数检验包括: (一)定性检验法: 正态概率纸检验 (二)数值检验法: 皮尔逊(Pearson) 2 拟合检验 柯尔莫哥洛夫检验 斯米尔诺夫检验 Shapiro-Wilk W 检验与Agostino’s D 检验(不讲) Wilcoxon秩和检验 (补) 偏度峰度检验.
统计量 Dn 的极限分布表”得到 (Q(1 ) 1 ). 例3.18(P114) 对一台设备进行寿命试验, 记录10次无故障工作时间, 并 从小到大排列得
420, 500, 920, 1380, 1510, 1650, 1760, 2100, 2300, 2350
问此设备无故障工作时间X是否服从 1500 的指数分布( 0.05 )? 3、柯尔莫哥洛夫检验的优缺点: (1) 优点: 当总体为一维且理论分布完全已知时, 柯尔莫哥洛夫检验优 于Pearson 2 检验. (2) 缺点: 柯尔莫哥洛夫检验的适用范围不如 2 检验广. 特别当理论 分布含有未知参数时, 目前只对正态分布和指数分布及极值分布作 出了结果.
218 207 204 202 203
214 207 221 211 208
219 214 208 207 216
211 206 209 202 206
208 217 214 205 222
221 214 214 206 213
211 201 199 216 209
218 212 204 206 219
(2) 柯尔莫哥洛夫统计量的化简形式: 先将样本 X 1 , , X n 从小到大排列成(重复数据合并为一个)
X (1) X ( m ) , (1 m n)
设 ni 为 X ( i ) 在样本中出现的频数, 则有
Fn ( X ( i ) ) n1 ni 1 , i 1, 2, , m n
7
第三章 假设检验
§5 非参数假设检验
(二)总体X为离散型但取值无限, 或X是连续型 不论 X是一维还是多维, 如果 X是离散型但取值无限、或X是连续 型, 都可将其作离散化且取值有限处理. 例3.16(P106) 1991年某校工科研究生有60名以数理统计作为学位课, 考试成绩如下:
93 88 75 76 75 86 66 90 83 83 85 89 93 96 70 71 91 81 94 66 85 79 84 86 84 97 83 73 82 78 82 80 77 75 80 94 76 67 78 79 77 69 74 78 95 68 73 77 94 84 76 63 89 83 70 53 91 81 86 55
12
第三章 假设检验
§5 非参数假设检验
三、柯尔莫哥洛夫检验 检验原理: 通过样本的经验分布函数 Fn ( x ) 与理论分布函数 F0 ( x ) 的比较, 推断该样本是否来自 F0 ( x ) 对应的总体. (一) 一般情形 设总体X的分布函数F(x)未知, F0(x)是一个完全已知的连续型分布 函数. 利用样本 X 1 , , X n 检验假设: