非参数假设检验-完整版
3.3非正态总体参数的假设检验和非参数检验
§3.3 非正态总体参数的 假设检验和非参数检验
1. 非正态总体大样本检验( n充分大) 设 X1, X2,…, Xn为取自总体的一个样本
服从多项分布。
由大数定律知,当n充分大时,频 数ni与理论频数npi越来越小。故ni 与npi之间的差异可以反映出概率分 ,p , ,p 布 (p 是否为总体的真实分 1 2 r) 布。令
(ni npi ) npi i 1
2 r
2
称上述统计量为皮尔逊统计量。
定理(皮尔逊定理)设总体的真实 ,p , ,p 分布为 (p 1 2 r),则有
总体均值未知,考虑假设检验 H0 : 0.
若样本容量充分大,当总体方差已 X 0 知时,可取统计量 U ,当 / n n充分大( n 30 ) 时,U近似服从 标准正态分布,故问题归结为u检验。
若样本容量充分大,且总体方差未 X 0 知时,可取统计量 U ,当 S/ n n充分大(一般要求 n 100 )时, U近似服从标准正态分布,故问题也 归结为u检验。
与皮尔逊检验法相比,K检验更 精确,但适用范围较小。
此时的统计量为
2 i 1
r
ˆ i0 ) (ni np ˆ i0 np
2
.
当n充分大时,上述统计量近似服 从自由度为r-m-1的卡方分布。其 中的 pˆ i 0 是把 1, ,m换成极大似然 ˆ , , ˆ 后算出的 p i 。 估计 0 1 m
分布拟合检验还可用来检验随机 变量之间的独立性。 假设有一个二维总体(X,Y)。将X和Y 的取值范围分别分成r个和q个互不相 交的区间A1,A2,…,Ar和B1,B2,…,Bq。 从总体抽取一个容量为n的样本 (x1,y1),…(xn,yn),令nij表示样本值中x 落入Ai,y落入Bj的个数。
非参数假设检验.pptx
计算每分钟内通过收费站的汽车为0辆、1辆、2辆、3 辆、4辆或更多的概率。
第12页/共43页
e 各概率乘以观测总数n=100,便得到理论频数 ,具体结果见下表: i ei
计算 2统计量的值:
2 (14.96 10)2 (28.42 26)2 (27.0 35)2
H0 :汽车通过收费站的辆数服从泊松分布; H1 :不服从泊松分布。
观测值分为5组,且有 u0 10,u1 26,u2 35,u4 5
第11页/共43页
回忆泊松分布
P{X x} e x , x 0,1, 2,
x!
其中 为泊松分布的期望值,是未知的,需要用样
本观测值来估计。由于100分钟内观测到190辆汽车, 所以平均每分钟观测到190/100=1.9辆汽车,故
第9页/共43页
计算 2统计量的值:
2 6 (ui ei )2
i1
ei
(27 25)2 (18 25)2 (15 25)2 (24 25)2
25
25
25
25
(36 25)2 (30 25)2 12
25
25
在本例的情况下, 统2 计量的自由度为m-1=6-1=5。
第8页/共43页
解:本例中的观测值以月为组,共分为m=6组,
每 月的销售台数即为观测的频v数i ,观测的总次
数为n=150。现欲检验是否服从(离散的)均匀 分布,即每月的销售量是否为
ei
nPi
150 6
25(台),
Pi
1 6
,i
1,
,6
为此,设
H0 :洗衣机销售量服从均匀分布;
H1 :并不服从均匀分布;
数理统计13 非参数假设检验
均值的渐近分布为N ( F,
F
2
).
定理3 设(X1,X2,…,Xm) 与(Y1,Y2,…,Yn) 是来
自X~N(1,12)与Y~N(2,22)的两独立样本,
则当n趋于无穷, m趋于无穷时有
得到拒绝域{Dn1 ,n2 Dn , }。 Fn1 ( x)和Gn2 ( x)是两个总体对应的经验分布函数
柯尔莫哥洛夫检验 当连续分布时,效率较
高,不能用于离散情形
-检验能用于离散情形,连续情形精度较差
2
(三)独立性检验 分析
需要检验H0 :两个总体X和Y是否独立 将这两个总体的取值范围分成m个和k个 互不相交的区间A1 , A2 , . . . ,Am 和B1 ,B2 ,... ,Bk 。 设从总体中抽取一个容量为n的样本 (X1,Y1), (X2,Y2), …,(Xn,Yn),
, , 未知但 = = .
2 1 2 2 2 3 2 1 2 2 2 3
试提出三正态总体均值1 2 =3的 假设检验.
2. 某厂使用两种不同的工艺生产同一类型的产 品。现对产品进行分析比较,抽取第一种工艺 生产的样品120件,测得均值为1.25 (kg),标准 差为0.52(kg);抽取第二种工艺生产的样品60 件,测得均值为1.32(kg),标准差为0.45 (kg)。 设产品的质量都服从正态分布,试判断在检验 水平0.05下,能否认为两种生产工艺的方差相 等?如果能认为两种工艺质量的方差相等,再 进一步判断能否认为使用第二种工艺生产的产 品的平均质量较使用第一种生产的为大?
记nij表示样本值中其横坐标落入Ai,纵坐 标落入Bj中的个数(i=1,2,…,m;j=1,2,…k).
假设检验 - 非参数假设检验
• 确定统计量T
– T为正秩次及负秩次和中绝对值较小者
• 统计推断
– 令正负差值的总个数为n – T>T0.05(n),P>0.05,不能否定H0,两个处理差异不显著 – T0.01(n)<T≤T0.05(n),0.01<P≤0.05,否定H0,接受H1,两个处理
差异显著 – T≤T0.01(n),P≤0.01,否定H0,接受H1,两个处理差异极显著
零假设:每天心脏病猝死人数分布同预期分布相同
备择假设:每天心脏病猝死人数分布同预期分布不同
(2)构造和计算统计量
日期
周一 周二 周三 周四 周五 周六 周日 合计
怎么计算得到的 呢?
实际频数 期 望 频 差
fi
率 npi
f i - npi
55
53.5
1.5
23
19.1
3.9
18
19.1
-1.1
11
– 令n = n++n- – K>K0.05(n),P>0.05,不能否定H0,样本中位数与已知总体中位
数差异不显著
– K0.01(n)<K≤K0.05(n),0.01<P≤0.05,否定H0,接受H1,样本中位数 与已知总体中位数差异差异显著
– K≤K0.01(n),P≤0.01,否定H0,接受H1,样本中位数与已知总体中 位数差异差异极显著
现在收集到168个观察数据,其中星期一至星期日的死亡人数分别为:55, 23,18,11,26,20,15。
现在利用这批数据,推断心脏病人猝死人数与日期的关系是否成立?
解:该问题可以转化为检验心脏病猝死人数在一周时间内的分布是否同预期 分布相同,可以使用卡方检验进行处理,过程如下: (1)建立零假设和备择假设
非参数假设检验
§ 7.4 非参数假设检验在§7.2中讨论了母体分布类型为已知时的参数假设检验问题.一般在进行参数假设检验之前,需要对母体的分布进行推断.本节将讨论母体分布的假设检验问题.因为所用的方法适用于任何分布或者仅有微弱假定分布,实质上是不依赖于分布的.在数理统计学中不依赖于分布的统计方法统称为非参数统计方法.这里所讨论的问题就是非参数假设检验问题.这里所研究的检验是如何用子样去似全母体分布,所以又称为分布拟合扰度检验,一般有两种:一是拟合母体的分布函数;另一是拟合母体分布的概率函数.这里我们只介绍三种检验方法:概率图纸法. 2χ-拟合优度检验和柯尔莫哥洛夫斯米尔诺夫检验.一, 概率图纸法这是一种比较直观和简便的检验方法.它适合于在现场使用.目前常见的概率图纸有正态,对数正态,二项分布,指数分布和威布尔分布概率图纸等.这里我们只介绍正态概率图纸,关于其它分布的概率图纸的构造原理和使用方法都是类似的1. 正态概率图纸的构造原理设母体ξ有分布函数F(x),{N(μ,2σ)}表示正态分布族.需要检验假设)},({)(:20σμN x F H ∈这里μ和2σ均为未知常数.在原假设0H 为真时,通过中心化变换)(2121)(22)(222σμπσπσμμσμ-Φ===⎰⎰-∞--∞---x du edt e x F x xt即σμξξμ-=)(服从正态N(0,1).函数u(x)是x 的线性函数.σμξξμ-=)( (7.13)在(x,u(x))直角坐标平面上是一条直线.这条直线过(μ,0),且斜率为σ1.2. 检验步骤.事实上,我们知道的不是母体ξ取出的一组子样观察值n x x ,,1 由格里汶科定理知道子样的经验分布函数)(x F n 依概率收剑于母体分布函数F(x).所以在检验母分体布函数F(x)是否属于正态分布族时,我们以大子样的经验分布函数)(x F n 作为母体分布的近似.若0H :F(x)∈{N(μ,2σ)}为真,那末点,,,1)),(,(n i x F x i i =在正态概率图纸上应该在一条直线上.所以根据上述经验分布函数)(x F n 是母体分布函数F(x)很好的近似,点,,,1)),(,(n i x F x i i =在正态概率图纸上也应该近似地在一条直线附近.倘若点列)),(,(i i x F x 不是近似地在一条直线附近,那末只能说明F(x)不属于正态分布族.根据上述想法,用正态概率图纸去检验假设0H 的具体步骤如下.(1) 整理数据(2) 描点(3) 目测这些点的位置, 3. 未知参数μ与2σ的估计.若通过概率图纸检验已经知道母体服从正态分布,我们就凭目测在概率图纸上画出最靠近各点,,,1)),(,()()(n i x F x i n i =的一条直线l,因为σμξξμ-=)(服从正态N(0,1),所以当0)(=-=σμξμx ,即x=μ时对应的概率F=0.5.因此,只要在概率图纸上面一条F=0.5的水平直线.这条直线与直线l 的交点的横坐标5.0x 就可以作为参数为μ的估计.又由μ(x)=1时所对应的概率F=0.8413的水平直线,这条直线与直线l 的交点的横坐标为8413.0x .这个8413.0x 显然满足18413.08413.0=-=σμμx 即μσ-=8413.0x 因此可以用差5.08413.0x x -估计σ.例 7.8 (略)见P 338 二, 2χ的似体检验法前面介绍了直观而简便的概率图纸法,它不需要很多计算就能对母体分布族作出一个统计推断,并且还能对分布所含的参数作出估计.但是这种方法因人而异,且精度不高,又不能控制犯错误的概率.这里介绍2χ-拟合检验法,它能够像各种显著性检验一样控制犯第一类错误的概率.设母体ξ的分布函数为具有明确表达式的F(x),.我们把随机变量ξ的值域R 分成k 个互不相容的区间[][][]k k k a a A a a A a a A ,,,,,,1212101-=== 这些区间不一定有相同的长度.设n x x ,,1 是容量为n 的子样的一组观测值.i n 为子样观测值n x x ,,1 中落入i A 的频数.n n ni i =∑=1在这n 次事件i A 出现的频率为nn i .我们现在检验原假设)()(:00x F x F H =.设在原假设0H 成立下,母体ξ落入区间i A 的概率为i P ,即k i a F a F A P P i i i i ,1),()()(100=-==- (7.14)此时n 个观察值中,恰有1n 个值落入1A 内,2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k nn n n k P P P n n n n 212121!!!!这是一个多项分布.按大数定理,在0H 为真时,频率nn i 与概率i P 的差异不应太大.根据这个思想构造一个统计量2χ=∑=-ki ii i nP nP n 12)( (7.15)称做2χ-统计量.往后可以看到,用2χ表示这一统计量不是没有原因的.因为它的极限分布就是自由度为k-1的2χ-分布.为了能够把2χ-统计量用来作检验的统计量,我们必须知道它的抽样分布.我们先k=2的简单情形.在0H 成立下,221)(,)(P A P P A P i ==其中121=+P P这时,频数n n n =+21我们考察222212112)()(nP nP n nP nP n -+-=χ(7.16)令222111,nP n Y nP n Y -=-= (7.17)显然0)(212121=+-+=+P P n n n Y Y (7.18)由此可见1Y 与2Y 不是线性独立,且21Y Y -=.于是21212221212P nP Y nP Y nP Y =+=χ21111)1(⎥⎥⎦⎤⎢⎢⎣⎡--P nP nP n (7.19) 根据德莫弗-拉普拉斯极限定理,当n 充分大时,随机变量)1(1111P nP nP n --的分布是接近于正态的,从而推得k=2情形的分布,当n 充分大时,是接近于自由度为1的2χ-分布.对于一般情形有如下的定理.定理 7.1 当0H 为真时,即k P P ,,1 为母体的真实概率时,由(7.15)式所定义的统计量2χ的渐近分布是自由度为k-1的2χ-分布,即密度函数为⎪⎪⎩⎪⎪⎨⎧⎪⎭⎫ ⎝⎛-Γ=---,0,2121)(22321xk k e x k x f (7.20) 证 因为在n 个观测值中恰有1n 个观测值落入1A 内, 2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k nn nnk P P P n n n n 212121!!!!这里n n n n k =+++ 21.其特征函数nk j it j k je P t t ⎪⎪⎭⎫⎝⎛=∑=112),,( ϕ (7.21) 令k j nP nP n Y jjj j ,2,1, =-=(7.22)于是有∑∑===-=kj jkj jj j YnP nP n 12122)(χ(7.23)和∑=kj j jP Y1=0 (7.24)由此式看出,诸随机变量j Y 不是线性独立的.(k Y Y ,,1 )的联合分布的特征函数具有形状2111exp exp ),,(⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛∙⎪⎪⎭⎫ ⎝⎛-=∑∑==kj j j j kj j jk nP it P nP itt t ϕ (7.25) 两边取对数得⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛+-=∑∑==k j j j j kj j jn nP it P n P t n i t t 111exp ln ),,(ln ϕ (7.26) 利用指数数函和对数函在0=j t 处的泰勒展开:⎪⎭⎫ ⎝⎛+-=-⎥⎥⎦⎤⎢⎢⎣⎡n nP t nP itnp itj jjjjj121exp 2ο 和)(2)1ln(22x xx x ο+-=+于是)1(21211211ln ),,(ln 11212111211οοϕ+⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛--+-=⎪⎪⎭⎫⎝⎛⎪⎭⎫ ⎝⎛+-++-=∑∑∑∑∑∑∑=======kj kj kj j jjj jkj j j kj kj jj jkj j jk P tnit n P tn i n P t n i n t n P tn i n P t n i t t当∞→n 时⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--→∑∑==k j kj j jj k P t t t t 1212121),,(ln ϕ 即⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛--=∑∑==∞→kj k j j jj k n P t t t t 1212121exp ),,(limϕ (7.26) 作一正交变换:⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j k j kj lj l Y P Z k l Y a Z 111,,1, (7.27) 其中lj a 应该满足1,,1,,0,11-=⎩⎨⎧≠==⋅∑=k r l r l r l a a kj rj lj 和1,,1,01-==∑=k l P akj j lj由⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j j k kj y ij l t P u k l t a u 111,1, (7.28) 得到∑∑∑-====⎪⎪⎭⎫⎝⎛-1122112k j jkj i kj jj uP t t (7.29)由(7.26)知,当∞→n 时,(k Z Z ,,1 )的特征函数⎭⎬⎫⎩⎨⎧-=∑-=∞→112121exp ),,(limk j j k n u u u ϕ.这意味着11,,-k Z Z 的分布弱收剑于相互独立的正态N(0,1)分布,而k Z 依概率收剑于0.因此∑∑====kj jkj jZY12122χ的渐近分布是自由度为k-1的2χ-分布.如果原假设0H 只确定母体分布类型,而分布中还含有未知参数m θθ,,1 则我们还不能用定理7.1来作为检验的理论依据.费歇证明了如下定理.从而解决了含未知参数情形的分布检验问题.定理 7.2 设F(x; m θθ,,1 )为母体的真实分布,其中m θθ,,1 为m 个未知参数.在F(x;m θθ,,1 )中用m θθ,,1 的极大似然估计mθθ∧∧,代替m θθ,,1 并且以F(x; m θθ∧∧,)取代(7.4)中的F(x)得到),,1;(),,1;(1m a F m a F i i i P θθθθ∧∧-∧∧∧-= (7.30)则将(7.30)代入(7.15)所得的统计量∑=∧∧-=kj i ini nn p p 122()χ(7.31)当∞→n 时有自由度为k-m-1的2χ-分布.例 7.9 (略)见P 345由例子来总结一下利用2χ-检验分布假设的步骤:(1)把母体ξ的值域划分为k 个互不相交的区间[,,,1),,1k i a a i i =+其中k a a ,1可以分别取∞∞-,;(2) 在0H 成立下,用极大似然估计法估计分布所含的未知参数; (3)在0H 成立下,计算理论概率)()(010i i i a F a F p -=+并且算出理论频数i nP ; (4)按照子样观察值n x x x ,,,21 落在区间),[1+i i a a 中的个数,即实际频数,,,1,k i n i =和(3)中算出的理论频数i nP ,计算ii i nP nP n )(2-=χ的值;(5)按照所给出的显著性水平α,查自由度k-m-1的2χ-分布表得)1(21---m k αχ,其中m 是未知参数的个数; (6)若2χ21αχ-≥,则拒绝原假设0H ,若212αχχ-<,则认为原假设0H 成立.三 柯尔莫哥洛夫似合检验------n D 检验2χ-似合检验是比较子样频率与母体的概率的.尽管它对于离散型和连续型母体分布都适用.但它是依赖于区间的划分的.因为即使原假设)()(:00x F x F H =不成立,在某种划分下还是可能有k i P a F a F a F a F i i i i i ,,1,)()()()(1001 ==-=---从而不影响(7.5)中2χ的值,也就是有可能把不真的原假设0H 接受过来.由此看到,用2χ-检验实际上只是检验了,,,1,)()(100k i P a F a F i i i ==--是否为真,而并未真正地检验母体分布F(x)是否为)(0x F .柯尔莫哥洛夫对连续母体的分布提出了一种方法.一般称做柯尔莫哥洛夫检验或n D -检验.这个检验比较子样经验分布函数)(x F n 和母体分布函数F(x)的.它不是在划分的区间上考虑)(x F n 与原假设的分布函数之间的偏差.而是在每一点上考虑它们之间的偏差.这就克服了2χ-检验的依赖于区间划分的缺点.但母体分布必须假定为连续.根据格里汶科定理,我们可以把子样经验分布函数看作实际母体分布函的缩影.如果原假设成立,它与F(x)的差距一般不应太大.由此柯尔莫哥洛夫提出一个统计量|)()(|supx F x F D n xn -=(7.32)并且得到这统计量n D 的精确分布和极限分布K(λ).它们都不依赖于母体的分布.这里我们不加证明地引入柯尔莫哥洛夫定理.定理 7.3 设母体ξ有连续分布函数F(x),从中抽取容量为n 的字样,并设经验分布函数为)(x F n ,则|)()(|supx F x F D n xn -=的分布函数⎪⎭⎫ ⎝⎛+<n D P n 21λ =n n n n dy y y f n nn n nn n n n 2120212,1,),,(0,021********22121-<≤⎪⎪⎪⎩⎪⎪⎪⎨⎧-≥<⎰⎰⎰+-+-+---λλλλλλλλλ 当 (7.33)其中⎩⎨⎧<<<=其它当,010!),(11n n y y n y y f在∞→时有极限分布函⎪⎩⎪⎨⎧≤>--=→<∑-∞=0,00),2exp()1()()(22λλλλλ当当n j j n j K D n P (7.34) 在应用柯尔莫哥洛夫检验时,应该注意的是,原假设的分布的参数值原则上应是已知的.但在参数为未知时,近年来有人对某些母体分布如正态分布和指数分布用下列两种方法估计.()可用另一个大容量子样来估计未知参数,(2)如果原来子样容量很大,也可用来估计未知参数.不过此n D -检验是近似的.在检验时以取.较大的显著性水平为宜,一般取α=0.10-0.12.n D -检验检验母体有连续分布函数F(x)这个假设的步骤如下:(1) 从母体抽取容量为n 的子样,并把子样观察值按由小到大的次序排列;(2) 算出经验分布函⎪⎪⎩⎪⎪⎨⎧≤=<≤<=+x n j x x x nx n x x x F k j j jn 当当当,1,,1,,)(,0)()1()()1((3) 在原假设0H 下,计算观测值处的理论分布函数F(x)的值; (4) 对每一个i x 算出经验分布函数与理论分布函数的差的绝对值||)()(||)()()()1()()(i i n i i n x F x F x F x F --+与(5) 由(4)算出统计量的值(6) 给出显著性水平α,由柯尔莫哥洛夫检验的临界值表查出α=≥)(,n n D D P的临界值α,n D ;当n>100时,可通过n D n /1,ααλ-≈查n D 的极限分布函数数值表得αλ-1从而求出α,n D 的近似值.(7) 若由(5)算出的α,n n D D ≥则拒绝原假设0H ;若α,n n D D <则接受假设,并认为原假设的理论分布函数与子样数据是似合得好的. 例 7.10 略) 见P 351定理 7.4 当样本容量21n n 和分别趋身于∞时,统计量|)()(|212121,supx F x F D n n xn n -=有极限分布函数)(212121λλK D n n n n P n n →⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧<+⎪⎩⎪⎨⎧≤>--=∑∞-∞=0,00),2exp()1(22λλλ当当j j j (7.35) 例 7.11 (略)见P 353。
非参数检验 PPT
分类
参数检验(parametric tests) - 对总体参数(平均数、成数、方差等) 所作得假设进行检验
非参数检验(自由分布检验) -对总体分布形式得假设进行检验
问题得提出
我们想去检验得论述如下: 1、经过西弗吉尼亚公路150号里程碑得汽车平均时速为68 英里/小时。 2、租用雪佛龙Trail Blazer (一款中型SUV车)三年,平均行驶里 程为32000英里。 3、美国家庭居住在一座独幢住宅得平均时间为11、8年。 4、2005年四年制大学毕业生得平均起薪为37 130美元/年。 5、中西部偏北地区35%得退休人员会在退休后得1年内卖掉 她们得住房,搬到气候温暖得地方居住。 6、80%得经常购买州彩票得彩民,从未在一次下注中赢得超 过100美元得奖金。
原假设
如果公司所在市平均受教育年限为:13
问:就是否有所不同 就是否高于
数据集3
如果公司所在市平均薪水为:35000
问:就是否有所不同 就是否低于
大家学习辛苦了,还是要坚持
继续保持安静
设计检验统计量
所设计得检验统计量与原假设相关, 即 与待检验得参数相关。 我们需要知道当原假设为真时该统计量 得具体分布。
问:就是否有显著不同?
区间估计 x t (n 1) s 499.5 2.797 2.63/ 25 498.03 ~ 500.97
2
n
问:就是否能断定饮料厂商欺骗了消费者?
区间估计
x t (n 1)
s 499.5 2.492 2.63/ n
25 500.81
(,500.81)
假设检验五步法
n1 n2
z X1 X2 s12 s22 n1 n2
t
经典非参数假设检验方法全
就意味着,对三种品牌的商品喜好比例 p1, p2 , p3相等。
即pi0 13,i1,2,3 假H 设 0:pipi01 3 H 1:pipi01 3中至少有 . 一 此是 m = 3, n1 = 61, n2= 53, n3 = 36,n=150
另外,用该统计量对总体分布律进行检验,还必须知道 其分布。 Pearson给出了其渐近分布。
定理1 若 X 的分:P 布 (X i)律 p i0,i 真 1 ,2 , ,m 为 ,
则统2 计 im 1(n i量 nn i0p i0p )2渐近服从 m 1 的 自 2分 由 .布
即 l n iP m im 1 ( n i n n i0 i0 ) p 2 p x 0 x2 ( y ,m 1 ) d ,( x y 0 )
在本节我们将介绍几种最常用的非参数检验方法: 符号检验、秩和检验和游程检验。
非参数检验
• 非参数检验的方法有很多种,如下几种检验: • 正态慨率纸检验; • 皮尔逊(Pearson)χ2拟合检验; • 柯尔莫哥洛夫与斯米尔诺夫检验; • Shapiro-Wilk W检验; • D’Agostion’s D检验; • Wilcoxon秩和检验。 • 符号检验 • 秩和检验 • 游程检验。
例3 验证一枚骰子是否均匀。 电话号码的数字出现的概率等等问题。
将两样本的数据按某一规则配对然后将各组配对值相减得到一系列差值如果两组样本来自同一总体或者不存在显著性差异则所得的为正的差值个相差不多如果二者相差较远的话则有理由拒绝原假下面通过例题来介绍配对样本符号检验法的具体步骤
非参数假设检验
在前面的课程中,我们已经了解了假设检验的基本思 想,并讨论了当总体分布为正态时,关于其中未知参数的 假设检验问题 .
非正态总体参数的假设检验和非参数检验
分布类型,此时F0可能含有未知参数,
上述方法不再适用。此时若要检验假
设
H0 : F (x) F0 (x;1,L ,,m由) 于
未于知 是pi0,可故以上用述估检计验量法(不极能大直似接然使估用计,)
来代替未知参数。
此时的统计量为
2 r (ni npˆi0 )2 .
i 1
npˆ i0
当n充分大时,上述统计量近似服
服从多项分布。
由大数定律知,当n充分大时,频 数ni与理论频数npi越来越小。故ni 与npi之间的差异可以反映出概率分 布 ( p1, p2,L , pr )是否为总体的真实分 布。令
2 r (ni npi )2
i1
npi
称上述统计量为皮尔逊统计量。
定理(皮尔逊定理)设总体的真实 分布为( p1, p2,L , pr ) ,则有
实际上,还可以用皮尔逊统计量检 验任意的一个总体是否具有某个指 定的分布函数 F0 (x)。
若我们要检验假设 H0 : F (x) F0 (x). 可选取r-1个不相等的实数 y1 L yr1 把实数轴分成r个区间,令
p1 F ( y1), pi F ( yi ) F ( yi1),i 2,L , r 1, pr 1 F ( yr1).
缺点:由于采用分组处理样本,实 际上检验的只是若干特殊点的值, 这就导致很可能犯第二类错误(取 伪错误)。
2. Kolmogorov检验法
出发点:考虑经验分布函数 Fn*(x) 和原假设H0 : F (x) F0 (x)成立时总 体分布函数之间偏差的最大值。
2 ~& 2 (r 1)
由上述定理,当样本容量较大时,
统计量 2近似服从自由度为r-1的卡
方分布。
非参数假设检验方法
品牌
甲
乙
丙
所购买的人数 61
53
36
依据这些数据,是否可以断定顾客对此三种品牌的商品喜好
确实存在着显著的差异?( = 0.05 )
解 若对此三种品牌的商品喜好确实不存在着显著的差异
就意味着,对三种品牌的商品喜好比例 p1, p2 , p3相等。
上页 下页 返回
此是 m = 3, n1 = 61, n2= 53, n3 = 36,n=150
由于6.52 > 5.991 故有理由拒绝H0 认为顾客对此三种品牌的商品喜好确实存在着显著的差异.
上页 下页 返回
例2 64只某种杂交的几内亚猪的后代,其中34只红色,10只 黑色,20只白色,根据遗传模型,它们之间的比例应为 9:3:4,问以上数据在0.05的水平下体现的与遗传模型是否 吻合。 认为基本吻合
定理1
则统计量
2
m
(ni
i 1
npi0 npi0
)2渐近服从自由度为m
1的
2分布.
由此可以建立 H0 的拒绝域
只要给定一组样本观察值,代入检验统计量计算后,就 能得出结论。
上页 下页 返回
例1 某商场为了研究顾客对一类商品的某三种品牌商品的喜 好比例,以便为下次进货提供较科学的依据。现随机观 察购买此商品的150名顾客,并记录下其所买的品牌,统 计人数如下:
抽取次数X 1
2
3
4 5
试验累计数 43 31 15 6
5
解 若两色球个数相等,则每次取到白球的概率为1/2 以抽取次数X为考查对象,则X服从几何分布,即
计算得
上页 下页 返回
此是 m = 5, n1 = 43, n2= 31, n3 =15, n4 = 6,n5= 5, n=100
非参数假设检验方法课件
非参数假设检验具有灵活性、稳 健性和适用范围广等优点,能够 处理更广泛的数据类型和分布情 况,不受特定参数假设的限制。
与参数检验的区别与联系
区别
参数检验基于对总体分布的参数假设 ,如正态分布等,而非参数检验则不 依赖于这些假设。
联系
非参数检验和参数检验都是为了对总 体进行推断,只是所依据的假设不同 。在实际应用中,可以根据具体情况 选择合适的检验方法。
大,可能会导致误判。
与参数检验的优缺点比较
适用范围
参数检验方法通常需要假定数据分布的形式,适用范围相对较窄 ;而非参数检验方法无需假定分布形式,适用范围更广。
解释性
参数检验方法通常可以提供具体的参数估计和效应量估计,解释性 较强;而非参数检验方法的解释性相对较差。
计算复杂性
参数检验方法的计算过程通常较为复杂,需要使用复杂的数学公式 和推导;而非参数检验方法的计算过程相对简单。
详细描述
符号检验通过计算两组数据中正例和负例的差异数,并利用二项分布的概率公 式来计算差异显著的p值。该方法适用于小样本数据,并且对数据的分布没有严 格要求。
威尔科克森符号秩检验
总结词
威尔科克森符号秩检验是用于比较两个独立样本的差异是否显著的统计方法。
详细描述
该方法通过比较两个样本的秩和,利用威尔科克森符号秩公式计算差异显著的p 值。该方法适用于处理数据量较小的情况,并且对数据的分布没有严格要求。
05
非参数假设检验的未来 发展与展望
现有研究的不足与局限性
方法适用范围有限
01
目前非参数假设检验方法主要适用于特定类型的数据和问题,
对于复杂数据或特定领域的适用性有待提高。
理论基础尚不完备
02
3-3 非参数假设检验方法
,m
由前面的分析可以看出,选择皮尔逊统计量
cn2
i 1
m
N i npi 0
npi 0
m
2
2 k N 2 i n 或c n i 1 npi 0
拒绝域为
W { x : cn
2
( N i npi 0 ) c 2 (m 1)} npi 0 i 1
(2)计算概率
pi F0 (ai 1 ) F0 (ai ) P{ai X ai 1 }
并计算 npi ,称为理论频数。 (3)计算样本 x1 ,, xn 落在 (ai , ai 1 ]中的个数 Ni 称为实际频数。
(4)计算检验统计量的值
组数
2
( N i npi ) c npi i 1
i Ni Ai 0 1 A0 1 2 3 17 A3 4 5 6 9 A6 7 9 A7 8 2 A8 9 1 A9 10 2 A10 11 1 A11 12 0 A12 5 16 A1 A2 26 11 A4 A5
其中 N i 是观察到有 i 个 粒子的次数. 从理论上 e i 考虑 X 应服从泊松分布P X i i 0,1, 2, i! e i 问 PX i 是否符合实际?( 0.05) i!
2
例1 把一颗骰子重复抛掷 300 次, 结果如下:
出现的点数 1 2 3 4 5 6 出现的频数 40 70 48 60 52 30
试检验这颗骰子的六个面是否匀称? (取 0.05 )
解
根据题意需要检验假设
H0: 这颗骰子的六个面是匀称的. 1 (或 H 0 : P{ X i } ( i 1,2,,6)) 6 其中X表示抛掷这骰子一次所出现的点数 (可能值 只有6个),
非参数假设检验
结果分析:
P值>0.05,接受Ho,两套问卷测试的数据服从同样的分布。
实例演示:检验一组样本的总体分布是否与猜想的分布(任 意分布)相同:拟合优度 2 检验法 Eg3.六个企业生产汽车,每小时的产量如图:
问:这些企业的生产水平,有无显著差异? 零假设Ho:六个企业的生产能力是相同的(即产量服从均匀 分布)。 备泽假设H1:六个企业的生产能力是不全相同的(产量不服 从均匀分布)
非参数假设检验
郑丽娜
非参数假设检验(Nonparametric tests) 非参数检验与参数检验共同构成统计推断的基本内容。 参数检验是在总体分布形式已知的情况下,对总体分布的参 数如均值、方差等进行推断的方法。 但在数据分析过程中,人们往往无法对总体分布形态作简单 假定,此时参数检验的方法就不再适用了。 非参数检验是在总体方差未知或知道甚少的情况下,利用样 本数据对总体分布形态等进行推断的方法。 由于非参数检验方法在推断过程中不涉及有关总体分布的参 数,因而得名为“非参数”检验。
数据输入: 数据输入见右图:
存放数据是一列 一分钟内观察到得个数 为变量值
数据分析: 步骤1 分析 非参数检验 (Nonparametric) 1样本 K-S( 1 sample k - s )
数据分析: 步骤2 放入右边的检验变量 列表(test variable list)
数据分析: 步骤3 下面的检验分布( test distribution) 都选,因为不知道 服从什么分布。 选择选项里选择所需 的。 点确定
数据分析: 步骤4 检验类型(test type) 有四种 系统默认的是MannWhitney U检验 (序号和<铁和>检 验法) 点确定,看结果
结果分析:
假设检验-参数检验非参数检验-置信区间
假设检验-参数检验⾮参数检验-置信区间1. 假设检验⼩概率事件和反证法的应⽤。
H0:原假设H1:备选假设解释:假设在H0前提下,我们得到⽬前⼿头上的样本,定义为⼀个概率事件,概率为α(0.05, 0.01, 0.001),是⼩概率事件。
通过公式计算P值,P<α, 则确认我们得到⽬前⼿头上的样本是⼀个⼩概率事件,⽽⼩概率事件在⼀次试验中是不可能发⽣的,但事实发⽣了,则原假设错误,接受备选假设。
正经解释:H0:只存在抽样误差,不存在系统误差H1:存在抽样误差和系统误差在只存在抽样误差的前提下,我们得到⽬前样本的概率为P,如果P<α,则证明不只是存在抽样误差,还存在系统误差。
在参数检验中,像t分数,F统计量,卡⽅统计量等,它的分布是什么形式的,统计学家已经算出来。
之所以有分布,是因为变异的存在,分布就是描述变异的规律。
Z分布是均值,率分布规律T分布是均值差的分布规律F分布是⽅差⽐的分布规律x2是⽅差、实际频数和理论频数的分布规律接着来:1. 参数检验思想以 t 分布为例,t 分布是说从均值为u, ⽅差为 sigma⽅的正态分布总体中,随机抽取样本量为n的样本,⽤均值差 / 标准误,抽⼀次得到⼀个 t 分数,抽⼀万次得到⼀万个 t 分数(这只是描述,实际密度函数是⼈家推导出来的),从⽽得到 t 分布规律。
这就是说,在只有抽样误差的时候(因为这就是进⾏的反复抽样,像正态分布是对样本不停抽样,计算均值⼀样),95% 的 t 分数是( x1, x2)之间。
提前设定⼀个拒绝⽔平(也就是概率值),也就是犯错概率,就是阿尔法,当 t 分数落到拒绝域对应的区间,我们认为只有抽样误差的时候,我们认为 t 是不可能落在这个范围。
alpha这么⼩,如果我们还犯错,我们认了。
95%解释:1. 在只有抽样误差的时候,抽样⼀百次,95个 t 分数是( x1, x2)之间。
如果样本 t 分数不属于这95个之⼀,我们拒绝原假设。