数理统计13 非参数假设检验
统计学第13讲 第13章 非参数检验
13.3 单变量的χ2 检验 肥胖与健康问题有关,亚特兰大疾控中心定期进行全 国青少年危机监督调查,对11631名男女青年(9到12年 级)自身体重观的部分调查结果。
表13-1 女生的自身体重观
偏瘦 419
正常 3402
过胖 1995
合计 5816
这个问题可以使用单变量χ2 检验或拟合优度检验 (goodness-of-fit test) 观测值与虚无假设下的期望值之间是否存在差异? 观测值分布是否与理论分布相吻合?
56
2
81
=56+36-81 =11
检验步骤如下: 1. H0: U U 两组等级差异是机遇所致
2. H1: U 两组等级差异不是随机的 U 3. 统计检验:曼-惠特尼 U 检验 4. 显著水平:α=0.05 5. 抽样分布:曼-惠特尼U:N1=8 , N2=7 6. 拒绝H0的判别区域:U≤10 或 U≥46,如果U在此 范围之外,就拒绝H0,否者不拒绝H0。 因为U=11>10,所以不拒绝H0 。这种药物对反应 时没有影响。
例如:研究两男两女4位朋友看电影的情况,
电影类型 被试1 被试2 男性 男性 电影类型 男性 女性
被试3 被试4
女性 女性
喜剧 6 4 1 0
悲剧 1 0 3 2
合计
喜剧 10 1 11
悲剧 1 5 6
合计 11 6 17
4≠17,这类数据不能列成交叉表,宜用参数检验
13.5 顺序量表变量—非参数检验
df=(行数-1)(列数-1)=(2-1)(2-1)=1
表13-5 男女青年体重自我感觉的期望次数 单元格的期望次数
性别 女性 男性 合计
过轻 786.78 591.22 1378.00
数学建模方法-非参数假设检验
两相关样本的非参数检验(2 Related Samples Test)
【例12】clinical trial.sav 比较试验药组(group=1) 治疗前血红蛋白含量(hb1)和治疗后血红蛋白含量(hb2) 有无差异.
这是两组相关计量资料的比较. 结论:P=0.018,有显著性差异.
多个相关样本的非参数检验(K Related Samples Test) 【例13】nonpara_7.sav 分析药物是否有效
两相关样本的非参数检验(2 Related Samples Test) 多个相关样本的非参数检验(K Related Samples Test)
两独立样本的非参数检验(2 Independent Samples Test) 检验两个独立样本间是否具有相同的分布. 【例8】nonpara_3.sav 比较两组人群的RD值有无差别 这是两组计量资料的比较. 选择要检验的变量和分 类变量,定义分类值(1-2),其它使用默认选项即可.从负二项分 布的结论.
单样本的K_S拟合优度检验
检验一计量资料是否服从某种理论分布,这里的分布可以 是正态分布(Normal),均匀分布(Uniform),泊松分布(Poisson), 指数分布(Exponential).
【例7】diameter_sub.sav 检验是否服从正态分布
多个独立样本的非参数检验(K Independent Samples Test) 【例10】nonpara_5.sav 比较三种药物的效果有无差别 这是三组计量资料的比较. 选择要检验的变量和分 类变量,定义分类值(1-3),其它使用默认选项即可. 结论:三组的秩和12.6,7.6,3.8,P=0.008,三种药物的 效果有显著性差异,以甲药效果最好. 【例11】nonpara_6.sav 比较三种固定钉治疗骨折的疗效 这是三组等级/频数资料的比较. 先说明频数变量, 再选择要检验的变量和分类变量,定义分类值(1-3),其它 使用默认选项即可. 结论:P=0.129,故三组无显著性差异.
第十三章 非参数检验
第四节 中位数检验
第五节 单向秩次方差分析
第六节 双向秩次方差分析
双向秩次分析是在同一个对象(或匹配的对 象)接受k次实验处理所获得的原始数据之间 编秩次。如果各次实验导致差异不显著,各 次实验产生的秩次和应当相等或趋于相等; 如果各次实验导致秩次和相差较大,那么, 实验产生显著性差异的可能性较大。 (1)样本容量较小及实验次数较少的情况 (2)样本容量较大及实验次数较多的情况
数据类型
类别数据 等比数据 等距数据 等比数据
非参数检验的优点
适合任何类型的数据类型 不要求总体正态分布 对两个总体也没有方差齐性的要求 适合处理小样本数据
非参数检验的缺点
精确度不如参数检验
非参数检验
符号检验 符号秩次检验 秩和检验 中位数检验 单向秩次方差分析 双向秩次方差分析
第一节 符号检验(r)
符号检验是通过对两个相关样本的每对数据 之差的符号(正号或负号)进行检验,以比 较这两个样本差异的显著性。 (1)小样本的情况 (2)大样本的情况
符号检验的优点
不需要总体呈正态分布 不需要总体方差齐性 计算简单
符号检验的缺点
对同一组数据,采用符号检验的精确度只是t 检验的60%。 除小样本外,一般不采用符号检验。 除小样本外,一般不采用符号检验。
Z与t的区别
样本容量的大小
测量的两要素
参照点。就是计算的起点。 参照点。就是计算的起点。参照点的两种类型: (1)绝对零点,即0表示“无”,例如,长短、 轻重等; (2)相对零点,即人为确定的参照点, 例如,海拔高度0、温度的0度、智力年龄0岁 等。 单位。没有单位,数量的多少、大小就无法表 单位 示。理想的单位必须要有确定的意义,即同一 单位不允许有不同的解释;相邻两个单位点之 间的差别是相等的。而心理和教育测量所用的 单位不等值。即既无统一的单位,也不符合等 大学教育科学学院 郭兆明
参数检验和非参数检验
参数检验和非参数检验参数检验和非参数检验是统计学中两种常用的假设检验方法。
参数检验假设总体服从其中一种特定的概率分布,而非参数检验则不对总体的概率分布进行特定的假设。
本文将分析和比较这两种假设检验方法,并讨论它们的优缺点和适用范围。
参数检验的基本思想是假设总体的概率分布属于一些已知的参数化分布族,例如正态分布或泊松分布。
然后根据样本数据计算出统计量的观察值,并基于它们进行假设检验。
常见的参数检验方法有t检验、F检验和卡方检验等。
以t检验为例,它适用于研究两个样本均值之间是否存在显著差异的情况。
假设我们有两组样本数据,分别服从正态分布。
可以使用t检验来计算两组样本均值的差异是否显著。
t检验基于样本均值和标准差来估计总体均值的差异,并通过计算t值和查表或计算p值来判断差异是否显著。
参数检验的优点是它们对总体概率分布的假设比较明确,计算方法相对简单,适用于数据符合特定分布的情况。
此外,参数检验通常具有较好的效率和统计性质。
然而,参数检验也有一些限制和缺点。
首先,参数检验通常对数据的分布假设要求较高,如果数据不符合指定的分布假设,则结果可能不可靠。
另外,参数检验对样本大小的要求较高,需要较大的样本才能获得可靠的检验结果。
此外,参数检验对异常值和离群值比较敏感,这可能会导致统计结论的错误。
与参数检验相比,非参数检验更加灵活,不需要对总体的概率分布做出特定的假设。
它适用于更广泛的数据类型和样本分布。
常见的非参数检验方法有Wilcoxon符号秩检验、Mann-Whitney U检验和Kruskal-Wallis检验等。
以Wilcoxon符号秩检验为例,它适用于比较两个相关样本的差异。
这个检验不要求样本数据满足正态分布的假设,它基于样本差值的秩次来判断差异是否显著。
非参数检验的优点在于其适用范围广泛,不需要对总体分布做出特定假设,对数据平均性和对称性的要求较低,对异常值和离群值的鲁棒性较好。
此外,非参数检验对样本大小的要求较低,可以在较小的样本情况下获得可靠的结果。
数理统计13 非参数假设检验
均值的渐近分布为N ( F,
F
2
).
定理3 设(X1,X2,…,Xm) 与(Y1,Y2,…,Yn) 是来
自X~N(1,12)与Y~N(2,22)的两独立样本,
则当n趋于无穷, m趋于无穷时有
得到拒绝域{Dn1 ,n2 Dn , }。 Fn1 ( x)和Gn2 ( x)是两个总体对应的经验分布函数
柯尔莫哥洛夫检验 当连续分布时,效率较
高,不能用于离散情形
-检验能用于离散情形,连续情形精度较差
2
(三)独立性检验 分析
需要检验H0 :两个总体X和Y是否独立 将这两个总体的取值范围分成m个和k个 互不相交的区间A1 , A2 , . . . ,Am 和B1 ,B2 ,... ,Bk 。 设从总体中抽取一个容量为n的样本 (X1,Y1), (X2,Y2), …,(Xn,Yn),
, , 未知但 = = .
2 1 2 2 2 3 2 1 2 2 2 3
试提出三正态总体均值1 2 =3的 假设检验.
2. 某厂使用两种不同的工艺生产同一类型的产 品。现对产品进行分析比较,抽取第一种工艺 生产的样品120件,测得均值为1.25 (kg),标准 差为0.52(kg);抽取第二种工艺生产的样品60 件,测得均值为1.32(kg),标准差为0.45 (kg)。 设产品的质量都服从正态分布,试判断在检验 水平0.05下,能否认为两种生产工艺的方差相 等?如果能认为两种工艺质量的方差相等,再 进一步判断能否认为使用第二种工艺生产的产 品的平均质量较使用第一种生产的为大?
记nij表示样本值中其横坐标落入Ai,纵坐 标落入Bj中的个数(i=1,2,…,m;j=1,2,…k).
假设检验——非参数检验
假设检验(二)——非参数检验假设检验的统计方法,从其统计假设的角度可分为两类:参数检验与非参数检验。
上一节我们所介绍的Z 检验、t 检验,都是参数检验。
它们的共同特点是总体分布正态,并满足某些总体参数的假定条件。
参数检验就是要通过样本统计量去推断或估计总体参数。
然而,在实践中我们常常会遇到一些问题的总体分布并不明确,或者总体参数的假设条件不成立,不能使用参数检验。
这一类问题的检验应该采用统计学中的另一类方法,即非参数检验。
非参数检验是通过检验总体分布情况来实现对总体参数的推断。
非参数检验法与参数检验法相比,特点可以归纳如下:(1)非参数检验一般不需要严格的前提假设;(2)非参数检验特别适用于顺序资料;(3)非参数检验很适用于小样本,并且计算简单;(4)非参数检验法最大的不足是没能充分利用数据资料的全部信息;(5 )非参数检验法目前还不能用于处理因素间的交互作用。
非参数检验的方法很多,分别适用于各种特点的资料。
本节将介绍几种常用的非参数检验方法。
一.2检验2检验主要用于对按属性分类的计数资料的分析,对于数据资料本身的分布形态不作任何假设,所以从一定的意义上来讲,它是一种检验计数数据分布状态的最常用的非参数检验方法。
22检验的方法主要包括适合性检验和独立性检验。
(一)2检验概述2是实得数据与理论数据偏离程度的指标。
其基本公式为:2 ( f0 f e)(公式11—9)fe式中,f0 为实际观察次数,f e 为理论次数。
分析公式可知,把实际观测次数和依据某种假设所期望的次数(或理论次数)的差数平方,除以理论次数,求出比值,再将n 个比值相加,其和就是2。
观察公式可发现,如果实际观察次数与理论次数的差异越小, 2值也就越小。
当 f 0 与 f e 完全相同时,2值为零。
际次数与理论次数之差的大小而变化利用2值去检验实际观察次数与理论次数的差异是否显著的方法称为2检验有两个主要的作第一,可以用来检验各种实际次数与理论次数是否吻合的这类问题统称为适合性检验; 第二, 判断计数的两组或多组资料是否相互关联还是相互独立的问 题,这类问题统称为独立性检验。
非参数假设检验
§ 7.4 非参数假设检验在§7.2中讨论了母体分布类型为已知时的参数假设检验问题.一般在进行参数假设检验之前,需要对母体的分布进行推断.本节将讨论母体分布的假设检验问题.因为所用的方法适用于任何分布或者仅有微弱假定分布,实质上是不依赖于分布的.在数理统计学中不依赖于分布的统计方法统称为非参数统计方法.这里所讨论的问题就是非参数假设检验问题.这里所研究的检验是如何用子样去似全母体分布,所以又称为分布拟合扰度检验,一般有两种:一是拟合母体的分布函数;另一是拟合母体分布的概率函数.这里我们只介绍三种检验方法:概率图纸法. 2χ-拟合优度检验和柯尔莫哥洛夫斯米尔诺夫检验.一, 概率图纸法这是一种比较直观和简便的检验方法.它适合于在现场使用.目前常见的概率图纸有正态,对数正态,二项分布,指数分布和威布尔分布概率图纸等.这里我们只介绍正态概率图纸,关于其它分布的概率图纸的构造原理和使用方法都是类似的1. 正态概率图纸的构造原理设母体ξ有分布函数F(x),{N(μ,2σ)}表示正态分布族.需要检验假设)},({)(:20σμN x F H ∈这里μ和2σ均为未知常数.在原假设0H 为真时,通过中心化变换)(2121)(22)(222σμπσπσμμσμ-Φ===⎰⎰-∞--∞---x du edt e x F x xt即σμξξμ-=)(服从正态N(0,1).函数u(x)是x 的线性函数.σμξξμ-=)( (7.13)在(x,u(x))直角坐标平面上是一条直线.这条直线过(μ,0),且斜率为σ1.2. 检验步骤.事实上,我们知道的不是母体ξ取出的一组子样观察值n x x ,,1 由格里汶科定理知道子样的经验分布函数)(x F n 依概率收剑于母体分布函数F(x).所以在检验母分体布函数F(x)是否属于正态分布族时,我们以大子样的经验分布函数)(x F n 作为母体分布的近似.若0H :F(x)∈{N(μ,2σ)}为真,那末点,,,1)),(,(n i x F x i i =在正态概率图纸上应该在一条直线上.所以根据上述经验分布函数)(x F n 是母体分布函数F(x)很好的近似,点,,,1)),(,(n i x F x i i =在正态概率图纸上也应该近似地在一条直线附近.倘若点列)),(,(i i x F x 不是近似地在一条直线附近,那末只能说明F(x)不属于正态分布族.根据上述想法,用正态概率图纸去检验假设0H 的具体步骤如下.(1) 整理数据(2) 描点(3) 目测这些点的位置, 3. 未知参数μ与2σ的估计.若通过概率图纸检验已经知道母体服从正态分布,我们就凭目测在概率图纸上画出最靠近各点,,,1)),(,()()(n i x F x i n i =的一条直线l,因为σμξξμ-=)(服从正态N(0,1),所以当0)(=-=σμξμx ,即x=μ时对应的概率F=0.5.因此,只要在概率图纸上面一条F=0.5的水平直线.这条直线与直线l 的交点的横坐标5.0x 就可以作为参数为μ的估计.又由μ(x)=1时所对应的概率F=0.8413的水平直线,这条直线与直线l 的交点的横坐标为8413.0x .这个8413.0x 显然满足18413.08413.0=-=σμμx 即μσ-=8413.0x 因此可以用差5.08413.0x x -估计σ.例 7.8 (略)见P 338 二, 2χ的似体检验法前面介绍了直观而简便的概率图纸法,它不需要很多计算就能对母体分布族作出一个统计推断,并且还能对分布所含的参数作出估计.但是这种方法因人而异,且精度不高,又不能控制犯错误的概率.这里介绍2χ-拟合检验法,它能够像各种显著性检验一样控制犯第一类错误的概率.设母体ξ的分布函数为具有明确表达式的F(x),.我们把随机变量ξ的值域R 分成k 个互不相容的区间[][][]k k k a a A a a A a a A ,,,,,,1212101-=== 这些区间不一定有相同的长度.设n x x ,,1 是容量为n 的子样的一组观测值.i n 为子样观测值n x x ,,1 中落入i A 的频数.n n ni i =∑=1在这n 次事件i A 出现的频率为nn i .我们现在检验原假设)()(:00x F x F H =.设在原假设0H 成立下,母体ξ落入区间i A 的概率为i P ,即k i a F a F A P P i i i i ,1),()()(100=-==- (7.14)此时n 个观察值中,恰有1n 个值落入1A 内,2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k nn n n k P P P n n n n 212121!!!!这是一个多项分布.按大数定理,在0H 为真时,频率nn i 与概率i P 的差异不应太大.根据这个思想构造一个统计量2χ=∑=-ki ii i nP nP n 12)( (7.15)称做2χ-统计量.往后可以看到,用2χ表示这一统计量不是没有原因的.因为它的极限分布就是自由度为k-1的2χ-分布.为了能够把2χ-统计量用来作检验的统计量,我们必须知道它的抽样分布.我们先k=2的简单情形.在0H 成立下,221)(,)(P A P P A P i ==其中121=+P P这时,频数n n n =+21我们考察222212112)()(nP nP n nP nP n -+-=χ(7.16)令222111,nP n Y nP n Y -=-= (7.17)显然0)(212121=+-+=+P P n n n Y Y (7.18)由此可见1Y 与2Y 不是线性独立,且21Y Y -=.于是21212221212P nP Y nP Y nP Y =+=χ21111)1(⎥⎥⎦⎤⎢⎢⎣⎡--P nP nP n (7.19) 根据德莫弗-拉普拉斯极限定理,当n 充分大时,随机变量)1(1111P nP nP n --的分布是接近于正态的,从而推得k=2情形的分布,当n 充分大时,是接近于自由度为1的2χ-分布.对于一般情形有如下的定理.定理 7.1 当0H 为真时,即k P P ,,1 为母体的真实概率时,由(7.15)式所定义的统计量2χ的渐近分布是自由度为k-1的2χ-分布,即密度函数为⎪⎪⎩⎪⎪⎨⎧⎪⎭⎫ ⎝⎛-Γ=---,0,2121)(22321xk k e x k x f (7.20) 证 因为在n 个观测值中恰有1n 个观测值落入1A 内, 2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k nn nnk P P P n n n n 212121!!!!这里n n n n k =+++ 21.其特征函数nk j it j k je P t t ⎪⎪⎭⎫⎝⎛=∑=112),,( ϕ (7.21) 令k j nP nP n Y jjj j ,2,1, =-=(7.22)于是有∑∑===-=kj jkj jj j YnP nP n 12122)(χ(7.23)和∑=kj j jP Y1=0 (7.24)由此式看出,诸随机变量j Y 不是线性独立的.(k Y Y ,,1 )的联合分布的特征函数具有形状2111exp exp ),,(⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛∙⎪⎪⎭⎫ ⎝⎛-=∑∑==kj j j j kj j jk nP it P nP itt t ϕ (7.25) 两边取对数得⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛+-=∑∑==k j j j j kj j jn nP it P n P t n i t t 111exp ln ),,(ln ϕ (7.26) 利用指数数函和对数函在0=j t 处的泰勒展开:⎪⎭⎫ ⎝⎛+-=-⎥⎥⎦⎤⎢⎢⎣⎡n nP t nP itnp itj jjjjj121exp 2ο 和)(2)1ln(22x xx x ο+-=+于是)1(21211211ln ),,(ln 11212111211οοϕ+⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛--+-=⎪⎪⎭⎫⎝⎛⎪⎭⎫ ⎝⎛+-++-=∑∑∑∑∑∑∑=======kj kj kj j jjj jkj j j kj kj jj jkj j jk P tnit n P tn i n P t n i n t n P tn i n P t n i t t当∞→n 时⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--→∑∑==k j kj j jj k P t t t t 1212121),,(ln ϕ 即⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛--=∑∑==∞→kj k j j jj k n P t t t t 1212121exp ),,(limϕ (7.26) 作一正交变换:⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j k j kj lj l Y P Z k l Y a Z 111,,1, (7.27) 其中lj a 应该满足1,,1,,0,11-=⎩⎨⎧≠==⋅∑=k r l r l r l a a kj rj lj 和1,,1,01-==∑=k l P akj j lj由⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j j k kj y ij l t P u k l t a u 111,1, (7.28) 得到∑∑∑-====⎪⎪⎭⎫⎝⎛-1122112k j jkj i kj jj uP t t (7.29)由(7.26)知,当∞→n 时,(k Z Z ,,1 )的特征函数⎭⎬⎫⎩⎨⎧-=∑-=∞→112121exp ),,(limk j j k n u u u ϕ.这意味着11,,-k Z Z 的分布弱收剑于相互独立的正态N(0,1)分布,而k Z 依概率收剑于0.因此∑∑====kj jkj jZY12122χ的渐近分布是自由度为k-1的2χ-分布.如果原假设0H 只确定母体分布类型,而分布中还含有未知参数m θθ,,1 则我们还不能用定理7.1来作为检验的理论依据.费歇证明了如下定理.从而解决了含未知参数情形的分布检验问题.定理 7.2 设F(x; m θθ,,1 )为母体的真实分布,其中m θθ,,1 为m 个未知参数.在F(x;m θθ,,1 )中用m θθ,,1 的极大似然估计mθθ∧∧,代替m θθ,,1 并且以F(x; m θθ∧∧,)取代(7.4)中的F(x)得到),,1;(),,1;(1m a F m a F i i i P θθθθ∧∧-∧∧∧-= (7.30)则将(7.30)代入(7.15)所得的统计量∑=∧∧-=kj i ini nn p p 122()χ(7.31)当∞→n 时有自由度为k-m-1的2χ-分布.例 7.9 (略)见P 345由例子来总结一下利用2χ-检验分布假设的步骤:(1)把母体ξ的值域划分为k 个互不相交的区间[,,,1),,1k i a a i i =+其中k a a ,1可以分别取∞∞-,;(2) 在0H 成立下,用极大似然估计法估计分布所含的未知参数; (3)在0H 成立下,计算理论概率)()(010i i i a F a F p -=+并且算出理论频数i nP ; (4)按照子样观察值n x x x ,,,21 落在区间),[1+i i a a 中的个数,即实际频数,,,1,k i n i =和(3)中算出的理论频数i nP ,计算ii i nP nP n )(2-=χ的值;(5)按照所给出的显著性水平α,查自由度k-m-1的2χ-分布表得)1(21---m k αχ,其中m 是未知参数的个数; (6)若2χ21αχ-≥,则拒绝原假设0H ,若212αχχ-<,则认为原假设0H 成立.三 柯尔莫哥洛夫似合检验------n D 检验2χ-似合检验是比较子样频率与母体的概率的.尽管它对于离散型和连续型母体分布都适用.但它是依赖于区间的划分的.因为即使原假设)()(:00x F x F H =不成立,在某种划分下还是可能有k i P a F a F a F a F i i i i i ,,1,)()()()(1001 ==-=---从而不影响(7.5)中2χ的值,也就是有可能把不真的原假设0H 接受过来.由此看到,用2χ-检验实际上只是检验了,,,1,)()(100k i P a F a F i i i ==--是否为真,而并未真正地检验母体分布F(x)是否为)(0x F .柯尔莫哥洛夫对连续母体的分布提出了一种方法.一般称做柯尔莫哥洛夫检验或n D -检验.这个检验比较子样经验分布函数)(x F n 和母体分布函数F(x)的.它不是在划分的区间上考虑)(x F n 与原假设的分布函数之间的偏差.而是在每一点上考虑它们之间的偏差.这就克服了2χ-检验的依赖于区间划分的缺点.但母体分布必须假定为连续.根据格里汶科定理,我们可以把子样经验分布函数看作实际母体分布函的缩影.如果原假设成立,它与F(x)的差距一般不应太大.由此柯尔莫哥洛夫提出一个统计量|)()(|supx F x F D n xn -=(7.32)并且得到这统计量n D 的精确分布和极限分布K(λ).它们都不依赖于母体的分布.这里我们不加证明地引入柯尔莫哥洛夫定理.定理 7.3 设母体ξ有连续分布函数F(x),从中抽取容量为n 的字样,并设经验分布函数为)(x F n ,则|)()(|supx F x F D n xn -=的分布函数⎪⎭⎫ ⎝⎛+<n D P n 21λ =n n n n dy y y f n nn n nn n n n 2120212,1,),,(0,021********22121-<≤⎪⎪⎪⎩⎪⎪⎪⎨⎧-≥<⎰⎰⎰+-+-+---λλλλλλλλλ 当 (7.33)其中⎩⎨⎧<<<=其它当,010!),(11n n y y n y y f在∞→时有极限分布函⎪⎩⎪⎨⎧≤>--=→<∑-∞=0,00),2exp()1()()(22λλλλλ当当n j j n j K D n P (7.34) 在应用柯尔莫哥洛夫检验时,应该注意的是,原假设的分布的参数值原则上应是已知的.但在参数为未知时,近年来有人对某些母体分布如正态分布和指数分布用下列两种方法估计.()可用另一个大容量子样来估计未知参数,(2)如果原来子样容量很大,也可用来估计未知参数.不过此n D -检验是近似的.在检验时以取.较大的显著性水平为宜,一般取α=0.10-0.12.n D -检验检验母体有连续分布函数F(x)这个假设的步骤如下:(1) 从母体抽取容量为n 的子样,并把子样观察值按由小到大的次序排列;(2) 算出经验分布函⎪⎪⎩⎪⎪⎨⎧≤=<≤<=+x n j x x x nx n x x x F k j j jn 当当当,1,,1,,)(,0)()1()()1((3) 在原假设0H 下,计算观测值处的理论分布函数F(x)的值; (4) 对每一个i x 算出经验分布函数与理论分布函数的差的绝对值||)()(||)()()()1()()(i i n i i n x F x F x F x F --+与(5) 由(4)算出统计量的值(6) 给出显著性水平α,由柯尔莫哥洛夫检验的临界值表查出α=≥)(,n n D D P的临界值α,n D ;当n>100时,可通过n D n /1,ααλ-≈查n D 的极限分布函数数值表得αλ-1从而求出α,n D 的近似值.(7) 若由(5)算出的α,n n D D ≥则拒绝原假设0H ;若α,n n D D <则接受假设,并认为原假设的理论分布函数与子样数据是似合得好的. 例 7.10 略) 见P 351定理 7.4 当样本容量21n n 和分别趋身于∞时,统计量|)()(|212121,supx F x F D n n xn n -=有极限分布函数)(212121λλK D n n n n P n n →⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧<+⎪⎩⎪⎨⎧≤>--=∑∞-∞=0,00),2exp()1(22λλλ当当j j j (7.35) 例 7.11 (略)见P 353。
非参数假设检验方法
品牌
甲
乙
丙
所购买的人数 61
53
36
依据这些数据,是否可以断定顾客对此三种品牌的商品喜好
确实存在着显著的差异?( = 0.05 )
解 若对此三种品牌的商品喜好确实不存在着显著的差异
就意味着,对三种品牌的商品喜好比例 p1, p2 , p3相等。
上页 下页 返回
此是 m = 3, n1 = 61, n2= 53, n3 = 36,n=150
由于6.52 > 5.991 故有理由拒绝H0 认为顾客对此三种品牌的商品喜好确实存在着显著的差异.
上页 下页 返回
例2 64只某种杂交的几内亚猪的后代,其中34只红色,10只 黑色,20只白色,根据遗传模型,它们之间的比例应为 9:3:4,问以上数据在0.05的水平下体现的与遗传模型是否 吻合。 认为基本吻合
定理1
则统计量
2
m
(ni
i 1
npi0 npi0
)2渐近服从自由度为m
1的
2分布.
由此可以建立 H0 的拒绝域
只要给定一组样本观察值,代入检验统计量计算后,就 能得出结论。
上页 下页 返回
例1 某商场为了研究顾客对一类商品的某三种品牌商品的喜 好比例,以便为下次进货提供较科学的依据。现随机观 察购买此商品的150名顾客,并记录下其所买的品牌,统 计人数如下:
抽取次数X 1
2
3
4 5
试验累计数 43 31 15 6
5
解 若两色球个数相等,则每次取到白球的概率为1/2 以抽取次数X为考查对象,则X服从几何分布,即
计算得
上页 下页 返回
此是 m = 5, n1 = 43, n2= 31, n3 =15, n4 = 6,n5= 5, n=100
非参数检验
非参数检验的优点:
①适用范围广,不论样本来自的 总体分布形式如何,都可适用;
②某些非参数检验方法计算简便, 研究者在急需获得初步统计结果时可 采用;
的总体分布不同。 α=0.05
2.混合编秩
依据两组数值由小到大编秩,结果 见上表。
3.求秩和并确定检验统计量T
把两组秩次分别相加求出两组的秩 和值,R1=315.5,R2=149.5。因乳 酸钙组样本含量较小,故 T=R2=149.5。
4.确定P值和作出推断结论 以较小样本含量为n1,n1=14, n2n1=2,查附表6,两样本比较秩和检验 用T界值表(双侧)。
当n1>20或(n2-n1)>10时,附表6 中查不到P值,则可采用正态近似法求u 值来确定P值,其公式如下:
u T n1(N 1) / 2 0.5 n1n2(N 1) 12
上式中T为检验统计量值,n1、n2 分别为两样本含量,N=n1+n2,0.5这 连续性校正数。上式为无相同秩次时使 用或作为相同秩次较少时的近似值。当 两样本相同秩次较多(超过总样本数的 25%)时,应按下式进行校正,u经校 正后可略增大,P值则相应减小。
式中,Ri为各组的秩和,ni为各组 样本含量,N为总样本含量。
当各组相同秩次较多时,可对H值进 行校正,按下式求值。
Hc H c
C 1
(t
3 j
t
j
)
(N3 N)
4.确定P值和作出推断结论
当组数K=3,每组样本含量ni≤5时, 可查附表7(H界值表)得到P值。若 k>3或ni>5时,H值的分布近似于自 由度为k-1的χ2分布,此时可查附表 4χ2界值表得到P值。最后按P值作出 推断结论。
非参数假设检验方法课件
非参数假设检验具有灵活性、稳 健性和适用范围广等优点,能够 处理更广泛的数据类型和分布情 况,不受特定参数假设的限制。
与参数检验的区别与联系
区别
参数检验基于对总体分布的参数假设 ,如正态分布等,而非参数检验则不 依赖于这些假设。
联系
非参数检验和参数检验都是为了对总 体进行推断,只是所依据的假设不同 。在实际应用中,可以根据具体情况 选择合适的检验方法。
大,可能会导致误判。
与参数检验的优缺点比较
适用范围
参数检验方法通常需要假定数据分布的形式,适用范围相对较窄 ;而非参数检验方法无需假定分布形式,适用范围更广。
解释性
参数检验方法通常可以提供具体的参数估计和效应量估计,解释性 较强;而非参数检验方法的解释性相对较差。
计算复杂性
参数检验方法的计算过程通常较为复杂,需要使用复杂的数学公式 和推导;而非参数检验方法的计算过程相对简单。
详细描述
符号检验通过计算两组数据中正例和负例的差异数,并利用二项分布的概率公 式来计算差异显著的p值。该方法适用于小样本数据,并且对数据的分布没有严 格要求。
威尔科克森符号秩检验
总结词
威尔科克森符号秩检验是用于比较两个独立样本的差异是否显著的统计方法。
详细描述
该方法通过比较两个样本的秩和,利用威尔科克森符号秩公式计算差异显著的p 值。该方法适用于处理数据量较小的情况,并且对数据的分布没有严格要求。
05
非参数假设检验的未来 发展与展望
现有研究的不足与局限性
方法适用范围有限
01
目前非参数假设检验方法主要适用于特定类型的数据和问题,
对于复杂数据或特定领域的适用性有待提高。
理论基础尚不完备
02
非参数假设检验
结果分析:
P值>0.05,接受Ho,两套问卷测试的数据服从同样的分布。
实例演示:检验一组样本的总体分布是否与猜想的分布(任 意分布)相同:拟合优度 2 检验法 Eg3.六个企业生产汽车,每小时的产量如图:
问:这些企业的生产水平,有无显著差异? 零假设Ho:六个企业的生产能力是相同的(即产量服从均匀 分布)。 备泽假设H1:六个企业的生产能力是不全相同的(产量不服 从均匀分布)
非参数假设检验
郑丽娜
非参数假设检验(Nonparametric tests) 非参数检验与参数检验共同构成统计推断的基本内容。 参数检验是在总体分布形式已知的情况下,对总体分布的参 数如均值、方差等进行推断的方法。 但在数据分析过程中,人们往往无法对总体分布形态作简单 假定,此时参数检验的方法就不再适用了。 非参数检验是在总体方差未知或知道甚少的情况下,利用样 本数据对总体分布形态等进行推断的方法。 由于非参数检验方法在推断过程中不涉及有关总体分布的参 数,因而得名为“非参数”检验。
数据输入: 数据输入见右图:
存放数据是一列 一分钟内观察到得个数 为变量值
数据分析: 步骤1 分析 非参数检验 (Nonparametric) 1样本 K-S( 1 sample k - s )
数据分析: 步骤2 放入右边的检验变量 列表(test variable list)
数据分析: 步骤3 下面的检验分布( test distribution) 都选,因为不知道 服从什么分布。 选择选项里选择所需 的。 点确定
数据分析: 步骤4 检验类型(test type) 有四种 系统默认的是MannWhitney U检验 (序号和<铁和>检 验法) 点确定,看结果
结果分析:
非参数检验 数理统计
取显著性水平 0.05
13
解 如果甲、乙两种热处理方法差不多,那么它们处理的零 件的抗拉强度X与Y应有相同分布.设X与Y的分布函数分别为 F1(x),F2(x),则需检验假设 H 0 : F1 ( x ) F2 ( x ), H1 : F1 ( x ) F2 ( x )
表中符号一栏中的正负号表示相应的这对数据是甲>乙还 是乙>甲.计算得: n , n 7 N n n 19 n 20, n 12, n 7, 于是 S min 对给定的水平=0.05,查符号检验表得S=4 ,这里S=7>S =4, 所以接受H0,即可以认为两种热处理方法的处理结果无显著差异. 特点:符号检验法简单、直观,但是它要求数据成对出现,而 且由于它仅是简单地比较每一对数据中的大小而不管其具体数 据如何,因此必然损失许多可供利用的信息,精确度较差.
作为检验统计量——U检验法。 两总体X与Y的方差 12、22未知,但12=22= 2,用 X Y T ~ t ( n1 n2 2) 1 1 S n1 n2 作为检验统计量——T检验法。
2
4、两总体X与Y方差比 12∕22的检验
无论两总体X与Y的均值 1、2是否已知,均用
H 0 : F1 ( x ) F2 ( x ), H1 : F1 ( x ) F2 ( x )
15
秩和检验的步骤如下:
(1)将两个样本混合起来,按照数值从小到大统一编序, 得到每个数据的秩.
1
3、两总体X与Y的均值差 1-2的检验(H0: 1=2 )
两总体X与Y的方差 12、22已知时,用
(X Y ) ( X Y 1 2 ) U ~ N (0,1) U ~ 2 2
11 2
13 非参数检验
秩和检验的步骤
• • • • • 1、提出假设 H0:两个样本所代表的总体分布位置相同; HA:两个样本所代表的总体分布位置不同。 2、编秩次并求秩和 将两个样本数据混合在一起,按从小到大的顺序排成1, 2,…,n个秩次。不同样本的相同数据取平均秩次;同 一个样本内的相同数据不求平均秩次。 • 计算容量较小的样本(n1)中各数据的秩和,用T表示。 • 3、统计推断 • 查附表12得到T值的临界区间[T1, T2],若T≤T1或T≥T2, 表示差异显著,若T1<T<T2,则差异不显著。
例13-5
例13-2
大样本情况
• 当样本容量N>25时,T的抽样分布接近于正态分 布,可用正态分布近似处理。
连续性和检验
• 当比较两个独立样本的差异时,可用曼—惠特尼 二人提出的秩和检验,又称曼—惠特尼U检验。 • 假设两组数据没有显著性差异,那么把这些数混 合在一起按大小次序排列,则这两组数据所占的 秩次应当分布均匀。 • 设两个独立样本的容量分别为n1和n2(n1<n2)。 我们把两个样本的数据由小到大排序,每一个数 据排列的位次称为秩;各个样本数据的秩的总和 称为秩和,用T表示。如果两个样本没有显著差 异,那么两个秩和T应当比较接近;反之,如果 两个秩和T相差较大,则两个样本有显著差异。
例13-1
大样本情况
• 对差数的正号与负号差异的检验本属于二项分布 的问题,当样本容量较大,即N>25时,二项分 布接近于正态分布,因此可以用正态分布近似处 理。
连续性校正:
k>N/2,则k-0.5;k<N/2,则k+0.5
叁、符号秩次检验
• 符号检验只利用了差值符号的正负,不考虑差值 的大小,因而丢失了样本的很多信息。 • F. Wilcoxon提出了符号秩次检验,既考虑差值 的符号,又考虑差值的大小,它的精度比符号检 验高。 • 它将两个相关样本每对数据差数的绝对值,按从 小到大排列的秩序,给予每一个差数以秩次(等 级),然后再给差数记上符号。 • 若两个样本无显著差异,正秩和与负秩和应当相 当或接近相等,若正秩和与负秩和相差较大,那 么两样本差异显著的可能性较大。
非参数假设检验
§ 7.4 非参数假设检验在§7.2中讨论了母体分布类型为已知时的参数假设检验问题.一般在进行参数假设检验之前,需要对母体的分布进行推断.本节将讨论母体分布的假设检验问题.因为所用的方法适用于任何分布或者仅有微弱假定分布,实质上是不依赖于分布的.在数理统计学中不依赖于分布的统计方法统称为非参数统计方法.这里所讨论的问题就是非参数假设检验问题.这里所研究的检验是如何用子样去似全母体分布,所以又称为分布拟合扰度检验,一般有两种:一是拟合母体的分布函数;另一是拟合母体分布的概率函数.这里我们只介绍三种检验方法:概率图纸法. 2χ-拟合优度检验和柯尔莫哥洛夫斯米尔诺夫检验.一, 概率图纸法这是一种比较直观和简便的检验方法.它适合于在现场使用.目前常见的概率图纸有正态,对数正态,二项分布,指数分布和威布尔分布概率图纸等.这里我们只介绍正态概率图纸,关于其它分布的概率图纸的构造原理和使用方法都是类似的1. 正态概率图纸的构造原理设母体ξ有分布函数F(x),{N(μ,2σ)}表示正态分布族.需要检验假设)},({)(:20σμN x F H ∈这里μ和2σ均为未知常数.在原假设0H 为真时,通过中心化变换)(2121)(22)(222σμπσπσμμσμ-Φ===⎰⎰-∞--∞---x du edt ex F x xt即σμξξμ-=)(服从正态N(0,1).函数u(x)是x 的线性函数. σμξξμ-=)( (7.13) 在(x,u(x))直角坐标平面上是一条直线.这条直线过(μ,0),且斜率为σ1. 2. 检验步骤.事实上,我们知道的不是母体ξ取出的一组子样观察值n x x ,,1 由格里汶科定理知道子样的经验分布函数)(x F n 依概率收剑于母体分布函数F(x).所以在检验母分体布函数F(x)是否属于正态分布族时,我们以大子样的经验分布函数)(x F n 作为母体分布的近似.若0H :F(x) ∈{N(μ,2σ)}为真,那末点,,,1)),(,(n i x F x i i =在正态概率图纸上应该在一条直线上.所以根据上述经验分布函数)(x F n 是母体分布函数F(x)很好的近似,点,,,1)),(,(n i x F x i i =在正态概率图纸上也应该近似地在一条直线附近.倘若点列)),(,(i i x F x 不是近似地在一条直线附近,那末只能说明F(x)不属于正态分布族.根据上述想法,用正态概率图纸去检验假设0H 的具体步骤如下.(1) 整理数据 (2) 描点(3) 目测这些点的位置, 3. 未知参数μ与2σ的估计.若通过概率图纸检验已经知道母体服从正态分布,我们就凭目测在概率图纸上画出最靠近各点,,,1)),(,()()(n i x F x i n i =的一条直线l,因为σμξξμ-=)(服从正态N(0,1),所以当0)(=-=σμξμx ,即x=μ时对应的概率F=0.5.因此,只要在概率图纸上面一条F=0.5的水平直线.这条直线与直线l 的交点的横坐标5.0x 就可以作为参数为μ的估计.又由μ(x)=1时所对应的概率F=0.8413的水平直线,这条直线与直线l 的交点的横坐标为8413.0x .这个8413.0x 显然满足18413.08413.0=-=σμμx 即μσ-=8413.0x 因此可以用差5.08413.0x x -估计σ.例 7.8 (略)见P 338 二, 2χ的似体检验法前面介绍了直观而简便的概率图纸法,它不需要很多计算就能对母体分布族作出一个统计推断,并且还能对分布所含的参数作出估计.但是这种方法因人而异,且精度不高,又不能控制犯错误的概率.这里介绍2χ-拟合检验法,它能够像各种显著性检验一样控制犯第一类错误的概率.设母体ξ的分布函数为具有明确表达式的F(x),.我们把随机变量ξ的值域R 分成k 个互不相容的区间[][][]k k k a a A a a A a a A ,,,,,,1212101-=== 这些区间不一定有相同的长度.设n x x ,,1 是容量为n 的子样的一组观测值.i n 为子样观测值n x x ,,1 中落入i A 的频数.n n ni i =∑=1在这n 次事件i A 出现的频率为nn i. 我们现在检验原假设)()(:00x F x F H =.设在原假设0H 成立下,母体ξ落入区间i A 的概率为i P ,即k i a F a F A P P i i i i ,1),()()(100=-==- (7.14)此时n 个观察值中,恰有1n 个值落入1A 内,2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k n n n n k P P P n n n n 212121!!!!这是一个多项分布.按大数定理,在0H 为真时,频率nn i与概率i P 的差异不应太大.根据这个思想构造一个统计量2χ=∑=-ki i i i nP nP n 12)( (7.15)称做2χ-统计量.往后可以看到,用2χ表示这一统计量不是没有原因的.因为它的极限分布就是自由度为k-1的2χ-分布.为了能够把2χ-统计量用来作检验的统计量,我们必须知道它的抽样分布.我们先k=2的简单情形.在0H 成立下,221)(,)(P A P P A P i ==其中121=+P P这时,频数n n n =+21我们考察222212112)()(nP nP n nP nP n -+-=χ (7.16) 令222111,nP n Y nP n Y -=-= (7.17)显然0)(212121=+-+=+P P n n n Y Y (7.18)由此可见1Y 与2Y 不是线性独立,且21Y Y -=.于是21212221212P nP Y nP Y nP Y =+=χ 21111)1(⎥⎥⎦⎤⎢⎢⎣⎡--P nP nP n (7.19) 根据德莫弗-拉普拉斯极限定理,当n 充分大时,随机变量)1(1111P nP nP n --的分布是接近于正态的,从而推得k=2情形的分布,当n 充分大时,是接近于自由度为1的2χ-分布.对于一般情形有如下的定理.定理 7.1 当0H 为真时,即k P P ,,1 为母体的真实概率时,由(7.15)式所定义的统计量2χ的渐近分布是自由度为k-1的2χ-分布,即密度函数为⎪⎪⎩⎪⎪⎨⎧⎪⎭⎫ ⎝⎛-Γ=---,0,2121)(22321xk k e x k x f (7.20) 证 因为在n 个观测值中恰有1n 个观测值落入1A 内, 2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k n n n n k P P P n n n n 212121!!!!这里n n n n k =+++ 21.其特征函数nk j it jk je P t t ⎪⎪⎭⎫⎝⎛=∑=112),,( ϕ (7.21) 令k j nP nP n Y jjj j ,2,1, =-=(7.22)于是有∑∑===-=kj j kj jj j Y nP nP n 12122)(χ (7.23)和∑=kj j jP Y1=0 (7.24)由此式看出,诸随机变量j Y 不是线性独立的.(k Y Y ,,1 )的联合分布的特征函数具有形状2111exp exp ),,(⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛•⎪⎪⎭⎫ ⎝⎛-=∑∑==kj j j j kj j jk nPit P nP it t t ϕ (7.25) 两边取对数得⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛+-=∑∑==k j j jj kj j jn nP it P n P t n i t t 111exp ln ),,(ln ϕ (7.26) 利用指数数函和对数函在0=j t 处的泰勒展开:⎪⎭⎫ ⎝⎛+-=-⎥⎥⎦⎤⎢⎢⎣⎡n nP t nP it np it j jj j jj 121exp 2ο和)(2)1ln(22x x x x ο+-=+于是)1(21211211ln ),,(ln 11212111211οοϕ+⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--+-=⎪⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+-++-=∑∑∑∑∑∑∑=======k j k j k j j j j j j k j j j k j k j j j j kj j jk P t n i t n P t n i n P t n i n t n P t n i n P t n i t t当∞→n 时⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--→∑∑==k j kj j j j k P t t t t 1212121),,(ln ϕ 即⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--=∑∑==∞→k j k j j j j k n P t t t t 1212121exp ),,(lim ϕ (7.26) 作一正交变换:⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j k j kj lj l Y P Z k l Y a Z 111,,1, (7.27) 其中lj a 应该满足1,,1,,0,11-=⎩⎨⎧≠==⋅∑=k r l r l r l a a kj rjlj 和1,,1,01-==∑=k l P akj j lj由⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j j k kj y ij l t P u k l t a u 111,1, (7.28) 得到∑∑∑-====⎪⎪⎭⎫ ⎝⎛-1122112k j j kj i k j j j u P t t (7.29) 由(7.26)知,当∞→n 时,(k Z Z ,,1 )的特征函数⎭⎬⎫⎩⎨⎧-=∑-=∞→112121exp ),,(lim k j j k n u u u ϕ.这意味着11,,-k Z Z 的分布弱收剑于相互独立的正态N(0,1)分布,而k Z 依概率收剑于0.因此∑∑====kj j k j j Z Y 12122χ的渐近分布是自由度为k-1的2χ-分布.如果原假设0H 只确定母体分布类型,而分布中还含有未知参数m θθ,,1 则我们还不能用定理7.1来作为检验的理论依据.费歇证明了如下定理.从而解决了含未知参数情形的分布检验问题.定理 7.2 设F(x; m θθ,,1 )为母体的真实分布,其中m θθ,,1 为m 个未知参数.在F(x;m θθ,,1 )中用m θθ,,1 的极大似然估计mθθ∧∧,代替m θθ,,1 并且以F(x; mθθ∧∧,)取代(7.4)中的F(x)得到),,1;(),,1;(1m a F m a F i i iP θθθθ∧∧-∧∧∧-= (7.30)则将(7.30)代入(7.15)所得的统计量∑=∧∧-=kj i ini nn p p 122()χ (7.31)当∞→n 时有自由度为k-m-1的2χ-分布.例 7.9 (略)见P 345由例子来总结一下利用2χ-检验分布假设的步骤:(1)把母体ξ的值域划分为k 个互不相交的区间[,,,1),,1k i a a i i =+其中k a a ,1可以分别取∞∞-,;(2) 在0H 成立下,用极大似然估计法估计分布所含的未知参数; (3)在0H 成立下,计算理论概率)()(010i i i a F a F p -=+并且算出理论频数i nP ; (4)按照子样观察值n x x x ,,,21 落在区间),[1+i i a a 中的个数,即实际频数,,,1,k i n i =和(3)中算出的理论频数i nP ,计算ii i nP nP n )(2-=χ的值;(5)按照所给出的显著性水平α,查自由度k-m-1的2χ-分布表得)1(21---m k αχ,其中m 是未知参数的个数; (6)若2χ21αχ-≥,则拒绝原假设0H ,若212αχχ-<,则认为原假设0H 成立.三 柯尔莫哥洛夫似合检验------n D 检验2χ-似合检验是比较子样频率与母体的概率的.尽管它对于离散型和连续型母体分布都适用.但它是依赖于区间的划分的.因为即使原假设)()(:00x F x F H =不成立,在某种划分下还是可能有k i P a F a F a F a F i i i i i ,,1,)()()()(1001 ==-=---从而不影响(7.5)中2χ的值,也就是有可能把不真的原假设0H 接受过来.由此看到,用2χ-检验实际上只是检验了,,,1,)()(100k i P a F a F i i i ==--是否为真,而并未真正地检验母体分布F(x)是否为)(0x F .柯尔莫哥洛夫对连续母体的分布提出了一种方法.一般称做柯尔莫哥洛夫检验或n D -检验.这个检验比较子样经验分布函数)(x F n 和母体分布函数F(x)的.它不是在划分的区间上考虑)(x F n 与原假设的分布函数之间的偏差.而是在每一点上考虑它们之间的偏差.这就克服了2χ-检验的依赖于区间划分的缺点.但母体分布必须假定为连续.根据格里汶科定理,我们可以把子样经验分布函数看作实际母体分布函的缩影.如果原假设成立,它与F(x)的差距一般不应太大.由此柯尔莫哥洛夫提出一个统计量|)()(|sup x F x F D n xn -= (7.32)并且得到这统计量n D 的精确分布和极限分布K(λ).它们都不依赖于母体的分布.这里我们不加证明地引入柯尔莫哥洛夫定理.定理 7.3 设母体ξ有连续分布函数F(x),从中抽取容量为n 的字样,并设经验分布函数为)(x F n ,则|)()(|sup x F x F D n xn -=的分布函数⎪⎭⎫ ⎝⎛+<n D P n 21λ=n n n n dy y y f n n n nn n n n n 2120212,1,),,(0,021********22121-<≤⎪⎪⎪⎩⎪⎪⎪⎨⎧-≥<⎰⎰⎰+-+-+---λλλλλλλλλ 当(7.33)其中⎩⎨⎧<<<=其它当,010!),(11n n y y n y y f在∞→时有极限分布函⎪⎩⎪⎨⎧≤>--=→<∑-∞=0,00),2exp()1()()(22λλλλλ当当n j j n j K D n P (7.34) 在应用柯尔莫哥洛夫检验时,应该注意的是,原假设的分布的参数值原则上应是已知的.但在参数为未知时,近年来有人对某些母体分布如正态分布和指数分布用下列两种方法估计.()可用另一个大容量子样来估计未知参数,(2)如果原来子样容量很大,也可用来估计未知参数.不过此n D -检验是近似的.在检验时以取.较大的显著性水平为宜,一般取α=0.10-0.12.n D -检验检验母体有连续分布函数F(x)这个假设的步骤如下:(1) 从母体抽取容量为n 的子样,并把子样观察值按由小到大的次序排列;(2) 算出经验分布函⎪⎪⎩⎪⎪⎨⎧≤=<≤<=+x n j x x x nx n x x x F k j j jn 当当当,1,,1,,)(,0)()1()()1((3) 在原假设0H 下,计算观测值处的理论分布函数F(x)的值; (4) 对每一个i x 算出经验分布函数与理论分布函数的差的绝对值||)()(||)()()()1()()(i i n i i n x F x F x F x F --+与(5) 由(4)算出统计量的值(6) 给出显著性水平α,由柯尔莫哥洛夫检验的临界值表查出αα=≥)(,n n D D P的临界值α,n D ;当n>100时,可通过n D n /1,ααλ-≈查n D 的极限分布函数数值表得αλ-1从而求出α,n D 的近似值.(7) 若由(5)算出的α,n n D D ≥则拒绝原假设0H ;若α,n n D D <则接受假设,并认为原假设的理论分布函数与子样数据是似合得好的. 例 7.10 略) 见P 351定理 7.4 当样本容量21n n 和分别趋身于∞时,统计量|)()(|212121,sup x F x F D n n xn n -=有极限分布函数)(212121λλK D n n n n P n n →⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧<+ ⎪⎩⎪⎨⎧≤>--=∑∞-∞=0,00),2exp()1(22λλλ当当j j j (7.35) 例 7.11 (略)见P 353。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
定理1 设总体X的分布函数为F(x),
E ( X ) F , D( X ) F , 0 F ,
2 2
X1,X2,…,Xn 为来自总体X的样本,则样本的
n 定理2 设总体X的分布函数为F(x), 2 2 E ( X ) F , D( X ) F , 0 F ,
T ( X Y ) ( 1 2 )
2 S12 S 2 m n L N (0,1)
例1 设总体X 的方差DX=25,欲检验假设
H 0:EX=1, H1:EX 1
今从总体X中抽取了一个样本容量n=50的样 本,并且算得样本均值为2,试问原假设是否 成立? 解:用样本均值估计总体均值,由定理1, X 1 X 1 L n = 2 N (0,1) (n ) 1 DX
xx
x xn
利用密度函数或分布率说明检验假设 H 0的 基本思想。
(一) 2检验
a) H 0:总体的分布函数为F0(x).
( fi npi ) 2 2 b) 构造统计量 n npi i 1 2 2 c)利用P{ n 1-(m-1)} ,
m
2 得到拒绝域{ n 12 (m-1)}。 -
记nij表示样本值中其横坐标落入Ai,纵坐 标落入Bj中的个数(i=1,2,…,m;j=1,2,…k).
记 ni.
易见
n ,n
j 1 ij m
k
.j
nij ,
i 1
m
n= nij
i 1 j=1
k
(1)
用下表表示样本元素的这种分类(称为列联表)
列 联 表
Y
Y
X
A1 A2 X
2.斯米尔诺夫检验(两个总体) 比较两个总体分布是否相同,即考虑的检
验问题 H 0:F ( x ) G ( x );H 1:F ( x ) G ( x )
a) H 0:F(x)=G(x).
b) 构造统计量Dn1 ,n2 sup | Fn1 ( x) Gn2 ( x) | x n1n2 c)令n= ,利用P{Dn1 ,n2 Dn , }=( ) , n1 n2
态度 性别 赞成 1154 1083 反对 475 442 弃权 243 362
我们要检 验原假设
男性 女性
H0:公民的态度与性别是无关的。
作业: 1.设(X1,X2,…,Xn) , (Y1,Y2,…,Yn) (Z1,
Z2,…, Zn)与是来自X~N(1,12), Y~N(2,22)
与Z~N(2,32)的三独立样本, 假设
n2 渐近 定理6 当原假设成立时,上面定义的
服从自由度为m-r-1的 2分布。其中r为分布 函数F0(x)中未知参数的个数。
2-检验的步骤如下:
(1) 把( , )分成k个互不相交的区间 ( , a1 ], (a1 , a2 ],, (ak 2 , ak 1 ], (ak 1 ,) (2) 若分布函数 F0 ( x )中包含未知参数, 需先
例3 将一颗骰子投掷了120次,结果如下: 点数:1,2,3,4,5,6;对应频数:21,28,19,24,16,12. 问这颗骰子是否匀称(0.05)? 解:依题意,即检验
H 0:pi =1/6, H1:pi 1/ (i 1, 2,..., 6) 6 2 2 计算 n =8.1,查分布表得 0.95(6-1)=11.07,
抽取次数 频数 1 43 2 31 3 15 4 6 大于等于5 5
试问该盒中黑球和白球个数是否相等?
例2 对维尼纶的纤度(表示纤维粗细的程度) 进行抽样,获得100个数据,结果如下表:
纤度 1.28 频数 1 1.31 4 1.34 7 1.37 22 1.40 23 1.43 25 1.46 10 1.49 1.52 1.55 6 1 1
3. 在社会调查中,调查人员可能怀疑男人 和女人对某种提案将会有不同的反应,他 们根据被调查的性别和对某项提案的态度 来进行分类,结果如下表(本表称为23的 列联表)。
态度 性别 赞成 1154 1083 反对 475 442 弃权 243 362
我们要检 验原假设
男性 女性
H0:公民的态度与性别是无关的。
H0:pi =pi0 H1:pi pi0 (其中pi0已知) (1)
思路:根据频率替换的思想,当然频率趋于 ni 概率,因此用 与pi0的差异程度来反映H0是 n 否成立。K.pearson提出运用统计量 2 m ( N i npi 0 ) 2 n npi 0 i 1 ni 来衡量 与pi0的差异程度,这个统计量称为 n Pearson统计量。Pearson给出了这个统计量
试问纤度是否服从正态分布?
(二)柯尔莫哥洛夫及斯米尔诺夫检验
1. 柯尔莫哥洛夫检验
a) H 0:总体的分布函数F(x)=F0(x).
b) 构造统计量Dn sup | F ( x) F ( x) |
c)利用P{Dn Dn , }=( ) ,得到拒绝 域{Dn Dn , }。
x * n
习 题 课
一、样本容量的确定
二、非参数的拟合优度检验
三、独立性检验 四、课堂及课后习题
得到拒绝域{Dn1 ,n2 Dn , }。 Fn1 ( x)和Gn2 ( x)是两个总体对应的经验分布函数
柯尔莫哥洛夫检验 当连续分布时,效率较
高,不能用于离散情形
-检验能用于离散情形,连续情形精度较差
2
(三)独立性检验 分析
需要检验H0 :两个总体X和Y是否独立 将这两个总体的取值范围分成m个和k个 互不相交的区间A1 , A2 , . . . ,Am 和B1 ,B2 ,... ,Bk 。 设从总体中抽取一个容量为n的样本 (X1,Y1), (X2,Y2), …,(Xn,Yn),
所以接受H 0.
七 非参数检验
• • • • • • 卡方检验 柯尔莫哥洛夫及斯米尔诺夫检验 符号检验 秩和检验 游程检验 独立检验
考虑假设检验问题
H 0:F ( x ) F0 ( x ),
0, k 经验分布函数 Fn ( x ) , n 1,
xx x
k 1
1 k
的极限分布,从而可以对问题(1)进行检验。
定理5 当原假设成立时,上面定义的 渐近 服从自由度为m-1的 2分布。
2 n
由定理5,当n比较大时,用 分布表求出
2
常数 (m-1),使得P{ (m-1)} ,
2 1- 2 n 2 1- 2 则{ n 12 (m-1)}便为拒绝域。 -
冯伟 数学与系统科学学院 wfeng_323@
第三章 假设检验(续2)
六、非正态总体参数的检验
七、非参数假设检验
六 非正态总体大样本的检验
(一)统计量的渐近分布
当样本容量n趋于无穷时,若统计量的分布
趋于一定的分布,则称后者为该统计量的极限
分布。它提供了统计推断的一种近似解法。所
1. H 0:pij =pi.p.j ,
i=1,2, ,m; j=1,2, ,k
由于(2),上面的假设H0中只有 m+k-2各独立参数,为了用卡方检验 来验证假设,我们首先用MLE从样 本中定出这些未知参数的值:
n. j ni. pi. , i 1, 2,..., m; p.j , j 1, 2,..., k n n
(二)多项分布的 检验
2
设总体X是仅取m个可能值的离散型随机变量, 不失一般性,设X的可能取值是1,2,...,m,记 P{X=i}=pi,i=1,2,...,m, 且 pi 1.记Ni 表示容量为
i 1 m
n的样本中事件{X=i}的频数,则(N1 ,N2 , ,Nm )
服从多项分布(m项)。需要检验假设
p.j={Y Bj}, i=1,2,…,m; j=1,2,…,k.显然有
pi. pij , p.j pij ,
j 1 i 1
k
m
p p p
i 1 j=1 ij i 1 i. j 1
m
Hale Waihona Puke kmk(2)
.j
1
如果H0成立,则pij=pi..p.j,因此列联表中 的独立性就是检验 1. H 0:pij =pi.p.j , i=1,2, ,m; j=1,2, ,k
X1,X2,…,Xn 为来自总体X的样本,则 X n F L n N (0,1) ( n ) Sn
均值的渐近分布为N ( F,
F
2
).
定理3 设(X1,X2,…,Xm) 与(Y1,Y2,…,Yn) 是来
自X~N(1,12)与Y~N(2,22)的两独立样本,
则当n趋于无穷, m趋于无穷时有
谓大样本指样本容量n>30,最好大于50或100.
定义1 对于统计量Tn,若存在常数序列{n },
{ n }( n 0) 使得
2
n
Tn n
L N (0,1)
(n )
2
n
n
则称Tn的渐近分布为 N ( n, ), n, n 分别 n n
2
称为渐近均值和渐近方差。
所以双侧检验的拒绝域为{|U|>U1- /2 }, 显然接受原假设。
例2 设总体X 的方差有界,欲检验假设
H 0:EX=0, H1:EX 0
设今从总体X中抽取了一个样本容量n=150 的样本,并且算得样本均值为0.4,方差为16, 试问原假设是否成立(0.05)?
解:用样本均值估计总体均值,由定理2,一 样得到结论。不过要注意,如果总体方差未知, n至少要大于100。
2.构造统计量
n
2 n i 1 j 1