数学建模方法-非参数假设检验
非参数检验
举例
书上P88,例3.3.7
二、秩和检验法
符号检验法的缺点:没有充分利用数据 符号检验法的缺点 没有充分利用数据 本身提供的信息, 本身提供的信息,而且必须在数据成对时 使用。 使用。 如果两样本数据不成对, 如果两样本数据不成对,则可用秩和检 验法。 验法。
秩和检验法
秩和检验法的做法: 秩和检验法的做法: 建立H 将两组数据依从小到大次序( 建立 0和H1;将两组数据依从小到大次序( 秩号)排列成表,如果有两个以上重复的数, 秩号)排列成表,如果有两个以上重复的数,则 取秩号平均数作为其秩。 取秩号平均数作为其秩。 取样本容量小的一组(样本容量相同时, 取样本容量小的一组(样本容量相同时,取平 均数小的一组),其数据个数记为n 则另一组数 ),其数据个数记为 均数小的一组),其数据个数记为 1,则另一组数 据个数记为n 据个数记为 2,将样本容量小的一组所对应的秩 相加称为该组的秩和( 记为T。 相加称为该组的秩和(Sum of Ranks),记为 。 ) 记为
计算出
npi 查表得: 查表得:1.35<9.448 接受H 认为盒中5种球的个数相等 种球的个数相等。 接受 0,认为盒中 种球的个数相等。
χ
2
∑( f =
i
− npi )
2
= 1.35
拟合优度检验举例2 拟合优度检验举例2
书P82,例3.3.5
二、列联表的独立性检验
独立性检验是对两个总体,或两组资料, 独立性检验是对两个总体,或两组资料, 或一总体的两种指标(分类、特性、 或一总体的两种指标(分类、特性、特征 等之间的独立性所进行的检验。因此, )等之间的独立性所进行的检验。因此, 若设X和 是两个总体 是两个总体( 若设 和Y是两个总体(或一个总体的两个 指标),则其假设应为: ),则其假设应为 指标),则其假设应为: H0:两总体 与Y相互独立 两总体X与 相互独立 H1:两总体 与Y不独立 两总体X与 不独立
非参数检验的场景与方法
非参数检验的场景与方法非参数检验是一种统计方法,用于对数据进行假设检验,而不需要对数据的分布做出任何假设。
相比于参数检验,非参数检验更加灵活,适用于更广泛的场景。
本文将介绍非参数检验的场景和常用的方法。
一、非参数检验的场景非参数检验适用于以下场景:1. 数据不满足正态分布:在一些实际问题中,数据的分布可能不满足正态分布假设,例如长尾分布、偏态分布等。
此时,非参数检验可以更好地适应数据的特点。
2. 样本量较小:参数检验通常要求样本量较大,以保证统计推断的准确性。
而非参数检验对样本量的要求较低,即使样本量较小,也可以进行有效的假设检验。
3. 数据类型不确定:非参数检验可以适用于各种数据类型,包括连续型数据、离散型数据、有序数据等。
而参数检验通常对数据类型有一定的要求。
二、常用的非参数检验方法1. Wilcoxon符号秩检验:适用于两个相关样本的比较。
该方法将两个样本的差异转化为秩次,通过比较秩次的大小来进行假设检验。
2. Mann-Whitney U检验:适用于两个独立样本的比较。
该方法将两个样本的观测值合并后,通过比较秩次的大小来进行假设检验。
3. Kruskal-Wallis检验:适用于多个独立样本的比较。
该方法将多个样本的观测值合并后,通过比较秩次的大小来进行假设检验。
4. Friedman检验:适用于多个相关样本的比较。
该方法将多个样本的观测值转化为秩次,通过比较秩次的大小来进行假设检验。
5. Kolmogorov-Smirnov检验:适用于两个样本的分布比较。
该方法通过比较两个样本的累积分布函数来进行假设检验。
三、非参数检验的优缺点非参数检验相比于参数检验具有以下优点:1. 不需要对数据的分布做出任何假设,更加灵活。
2. 对样本量的要求较低,适用于小样本数据。
3. 适用于各种数据类型,更加通用。
然而,非参数检验也存在一些缺点:1. 相对于参数检验,非参数检验的统计效率较低。
2. 非参数检验通常需要更多的计算资源和时间。
非参数假设检验
§ 7.4 非参数假设检验在§7.2中讨论了母体分布类型为已知时的参数假设检验问题.一般在进行参数假设检验之前,需要对母体的分布进行推断.本节将讨论母体分布的假设检验问题.因为所用的方法适用于任何分布或者仅有微弱假定分布,实质上是不依赖于分布的.在数理统计学中不依赖于分布的统计方法统称为非参数统计方法.这里所讨论的问题就是非参数假设检验问题.这里所研究的检验是如何用子样去似全母体分布,所以又称为分布拟合扰度检验,一般有两种:一是拟合母体的分布函数;另一是拟合母体分布的概率函数.这里我们只介绍三种检验方法:概率图纸法. 2χ-拟合优度检验和柯尔莫哥洛夫斯米尔诺夫检验.一, 概率图纸法这是一种比较直观和简便的检验方法.它适合于在现场使用.目前常见的概率图纸有正态,对数正态,二项分布,指数分布和威布尔分布概率图纸等.这里我们只介绍正态概率图纸,关于其它分布的概率图纸的构造原理和使用方法都是类似的1. 正态概率图纸的构造原理设母体ξ有分布函数F(x),{N(μ,2σ)}表示正态分布族.需要检验假设)},({)(:20σμN x F H ∈这里μ和2σ均为未知常数.在原假设0H 为真时,通过中心化变换)(2121)(22)(222σμπσπσμμσμ-Φ===⎰⎰-∞--∞---x du edt e x F x xt即σμξξμ-=)(服从正态N(0,1).函数u(x)是x 的线性函数.σμξξμ-=)( (7.13)在(x,u(x))直角坐标平面上是一条直线.这条直线过(μ,0),且斜率为σ1.2. 检验步骤.事实上,我们知道的不是母体ξ取出的一组子样观察值n x x ,,1 由格里汶科定理知道子样的经验分布函数)(x F n 依概率收剑于母体分布函数F(x).所以在检验母分体布函数F(x)是否属于正态分布族时,我们以大子样的经验分布函数)(x F n 作为母体分布的近似.若0H :F(x)∈{N(μ,2σ)}为真,那末点,,,1)),(,(n i x F x i i =在正态概率图纸上应该在一条直线上.所以根据上述经验分布函数)(x F n 是母体分布函数F(x)很好的近似,点,,,1)),(,(n i x F x i i =在正态概率图纸上也应该近似地在一条直线附近.倘若点列)),(,(i i x F x 不是近似地在一条直线附近,那末只能说明F(x)不属于正态分布族.根据上述想法,用正态概率图纸去检验假设0H 的具体步骤如下.(1) 整理数据(2) 描点(3) 目测这些点的位置, 3. 未知参数μ与2σ的估计.若通过概率图纸检验已经知道母体服从正态分布,我们就凭目测在概率图纸上画出最靠近各点,,,1)),(,()()(n i x F x i n i =的一条直线l,因为σμξξμ-=)(服从正态N(0,1),所以当0)(=-=σμξμx ,即x=μ时对应的概率F=0.5.因此,只要在概率图纸上面一条F=0.5的水平直线.这条直线与直线l 的交点的横坐标5.0x 就可以作为参数为μ的估计.又由μ(x)=1时所对应的概率F=0.8413的水平直线,这条直线与直线l 的交点的横坐标为8413.0x .这个8413.0x 显然满足18413.08413.0=-=σμμx 即μσ-=8413.0x 因此可以用差5.08413.0x x -估计σ.例 7.8 (略)见P 338 二, 2χ的似体检验法前面介绍了直观而简便的概率图纸法,它不需要很多计算就能对母体分布族作出一个统计推断,并且还能对分布所含的参数作出估计.但是这种方法因人而异,且精度不高,又不能控制犯错误的概率.这里介绍2χ-拟合检验法,它能够像各种显著性检验一样控制犯第一类错误的概率.设母体ξ的分布函数为具有明确表达式的F(x),.我们把随机变量ξ的值域R 分成k 个互不相容的区间[][][]k k k a a A a a A a a A ,,,,,,1212101-=== 这些区间不一定有相同的长度.设n x x ,,1 是容量为n 的子样的一组观测值.i n 为子样观测值n x x ,,1 中落入i A 的频数.n n ni i =∑=1在这n 次事件i A 出现的频率为nn i .我们现在检验原假设)()(:00x F x F H =.设在原假设0H 成立下,母体ξ落入区间i A 的概率为i P ,即k i a F a F A P P i i i i ,1),()()(100=-==- (7.14)此时n 个观察值中,恰有1n 个值落入1A 内,2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k nn n n k P P P n n n n 212121!!!!这是一个多项分布.按大数定理,在0H 为真时,频率nn i 与概率i P 的差异不应太大.根据这个思想构造一个统计量2χ=∑=-ki ii i nP nP n 12)( (7.15)称做2χ-统计量.往后可以看到,用2χ表示这一统计量不是没有原因的.因为它的极限分布就是自由度为k-1的2χ-分布.为了能够把2χ-统计量用来作检验的统计量,我们必须知道它的抽样分布.我们先k=2的简单情形.在0H 成立下,221)(,)(P A P P A P i ==其中121=+P P这时,频数n n n =+21我们考察222212112)()(nP nP n nP nP n -+-=χ(7.16)令222111,nP n Y nP n Y -=-= (7.17)显然0)(212121=+-+=+P P n n n Y Y (7.18)由此可见1Y 与2Y 不是线性独立,且21Y Y -=.于是21212221212P nP Y nP Y nP Y =+=χ21111)1(⎥⎥⎦⎤⎢⎢⎣⎡--P nP nP n (7.19) 根据德莫弗-拉普拉斯极限定理,当n 充分大时,随机变量)1(1111P nP nP n --的分布是接近于正态的,从而推得k=2情形的分布,当n 充分大时,是接近于自由度为1的2χ-分布.对于一般情形有如下的定理.定理 7.1 当0H 为真时,即k P P ,,1 为母体的真实概率时,由(7.15)式所定义的统计量2χ的渐近分布是自由度为k-1的2χ-分布,即密度函数为⎪⎪⎩⎪⎪⎨⎧⎪⎭⎫ ⎝⎛-Γ=---,0,2121)(22321xk k e x k x f (7.20) 证 因为在n 个观测值中恰有1n 个观测值落入1A 内, 2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k nn nnk P P P n n n n 212121!!!!这里n n n n k =+++ 21.其特征函数nk j it j k je P t t ⎪⎪⎭⎫⎝⎛=∑=112),,( ϕ (7.21) 令k j nP nP n Y jjj j ,2,1, =-=(7.22)于是有∑∑===-=kj jkj jj j YnP nP n 12122)(χ(7.23)和∑=kj j jP Y1=0 (7.24)由此式看出,诸随机变量j Y 不是线性独立的.(k Y Y ,,1 )的联合分布的特征函数具有形状2111exp exp ),,(⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛∙⎪⎪⎭⎫ ⎝⎛-=∑∑==kj j j j kj j jk nP it P nP itt t ϕ (7.25) 两边取对数得⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛+-=∑∑==k j j j j kj j jn nP it P n P t n i t t 111exp ln ),,(ln ϕ (7.26) 利用指数数函和对数函在0=j t 处的泰勒展开:⎪⎭⎫ ⎝⎛+-=-⎥⎥⎦⎤⎢⎢⎣⎡n nP t nP itnp itj jjjjj121exp 2ο 和)(2)1ln(22x xx x ο+-=+于是)1(21211211ln ),,(ln 11212111211οοϕ+⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛--+-=⎪⎪⎭⎫⎝⎛⎪⎭⎫ ⎝⎛+-++-=∑∑∑∑∑∑∑=======kj kj kj j jjj jkj j j kj kj jj jkj j jk P tnit n P tn i n P t n i n t n P tn i n P t n i t t当∞→n 时⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--→∑∑==k j kj j jj k P t t t t 1212121),,(ln ϕ 即⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛--=∑∑==∞→kj k j j jj k n P t t t t 1212121exp ),,(limϕ (7.26) 作一正交变换:⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j k j kj lj l Y P Z k l Y a Z 111,,1, (7.27) 其中lj a 应该满足1,,1,,0,11-=⎩⎨⎧≠==⋅∑=k r l r l r l a a kj rj lj 和1,,1,01-==∑=k l P akj j lj由⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j j k kj y ij l t P u k l t a u 111,1, (7.28) 得到∑∑∑-====⎪⎪⎭⎫⎝⎛-1122112k j jkj i kj jj uP t t (7.29)由(7.26)知,当∞→n 时,(k Z Z ,,1 )的特征函数⎭⎬⎫⎩⎨⎧-=∑-=∞→112121exp ),,(limk j j k n u u u ϕ.这意味着11,,-k Z Z 的分布弱收剑于相互独立的正态N(0,1)分布,而k Z 依概率收剑于0.因此∑∑====kj jkj jZY12122χ的渐近分布是自由度为k-1的2χ-分布.如果原假设0H 只确定母体分布类型,而分布中还含有未知参数m θθ,,1 则我们还不能用定理7.1来作为检验的理论依据.费歇证明了如下定理.从而解决了含未知参数情形的分布检验问题.定理 7.2 设F(x; m θθ,,1 )为母体的真实分布,其中m θθ,,1 为m 个未知参数.在F(x;m θθ,,1 )中用m θθ,,1 的极大似然估计mθθ∧∧,代替m θθ,,1 并且以F(x; m θθ∧∧,)取代(7.4)中的F(x)得到),,1;(),,1;(1m a F m a F i i i P θθθθ∧∧-∧∧∧-= (7.30)则将(7.30)代入(7.15)所得的统计量∑=∧∧-=kj i ini nn p p 122()χ(7.31)当∞→n 时有自由度为k-m-1的2χ-分布.例 7.9 (略)见P 345由例子来总结一下利用2χ-检验分布假设的步骤:(1)把母体ξ的值域划分为k 个互不相交的区间[,,,1),,1k i a a i i =+其中k a a ,1可以分别取∞∞-,;(2) 在0H 成立下,用极大似然估计法估计分布所含的未知参数; (3)在0H 成立下,计算理论概率)()(010i i i a F a F p -=+并且算出理论频数i nP ; (4)按照子样观察值n x x x ,,,21 落在区间),[1+i i a a 中的个数,即实际频数,,,1,k i n i =和(3)中算出的理论频数i nP ,计算ii i nP nP n )(2-=χ的值;(5)按照所给出的显著性水平α,查自由度k-m-1的2χ-分布表得)1(21---m k αχ,其中m 是未知参数的个数; (6)若2χ21αχ-≥,则拒绝原假设0H ,若212αχχ-<,则认为原假设0H 成立.三 柯尔莫哥洛夫似合检验------n D 检验2χ-似合检验是比较子样频率与母体的概率的.尽管它对于离散型和连续型母体分布都适用.但它是依赖于区间的划分的.因为即使原假设)()(:00x F x F H =不成立,在某种划分下还是可能有k i P a F a F a F a F i i i i i ,,1,)()()()(1001 ==-=---从而不影响(7.5)中2χ的值,也就是有可能把不真的原假设0H 接受过来.由此看到,用2χ-检验实际上只是检验了,,,1,)()(100k i P a F a F i i i ==--是否为真,而并未真正地检验母体分布F(x)是否为)(0x F .柯尔莫哥洛夫对连续母体的分布提出了一种方法.一般称做柯尔莫哥洛夫检验或n D -检验.这个检验比较子样经验分布函数)(x F n 和母体分布函数F(x)的.它不是在划分的区间上考虑)(x F n 与原假设的分布函数之间的偏差.而是在每一点上考虑它们之间的偏差.这就克服了2χ-检验的依赖于区间划分的缺点.但母体分布必须假定为连续.根据格里汶科定理,我们可以把子样经验分布函数看作实际母体分布函的缩影.如果原假设成立,它与F(x)的差距一般不应太大.由此柯尔莫哥洛夫提出一个统计量|)()(|supx F x F D n xn -=(7.32)并且得到这统计量n D 的精确分布和极限分布K(λ).它们都不依赖于母体的分布.这里我们不加证明地引入柯尔莫哥洛夫定理.定理 7.3 设母体ξ有连续分布函数F(x),从中抽取容量为n 的字样,并设经验分布函数为)(x F n ,则|)()(|supx F x F D n xn -=的分布函数⎪⎭⎫ ⎝⎛+<n D P n 21λ =n n n n dy y y f n nn n nn n n n 2120212,1,),,(0,021********22121-<≤⎪⎪⎪⎩⎪⎪⎪⎨⎧-≥<⎰⎰⎰+-+-+---λλλλλλλλλ 当 (7.33)其中⎩⎨⎧<<<=其它当,010!),(11n n y y n y y f在∞→时有极限分布函⎪⎩⎪⎨⎧≤>--=→<∑-∞=0,00),2exp()1()()(22λλλλλ当当n j j n j K D n P (7.34) 在应用柯尔莫哥洛夫检验时,应该注意的是,原假设的分布的参数值原则上应是已知的.但在参数为未知时,近年来有人对某些母体分布如正态分布和指数分布用下列两种方法估计.()可用另一个大容量子样来估计未知参数,(2)如果原来子样容量很大,也可用来估计未知参数.不过此n D -检验是近似的.在检验时以取.较大的显著性水平为宜,一般取α=0.10-0.12.n D -检验检验母体有连续分布函数F(x)这个假设的步骤如下:(1) 从母体抽取容量为n 的子样,并把子样观察值按由小到大的次序排列;(2) 算出经验分布函⎪⎪⎩⎪⎪⎨⎧≤=<≤<=+x n j x x x nx n x x x F k j j jn 当当当,1,,1,,)(,0)()1()()1((3) 在原假设0H 下,计算观测值处的理论分布函数F(x)的值; (4) 对每一个i x 算出经验分布函数与理论分布函数的差的绝对值||)()(||)()()()1()()(i i n i i n x F x F x F x F --+与(5) 由(4)算出统计量的值(6) 给出显著性水平α,由柯尔莫哥洛夫检验的临界值表查出α=≥)(,n n D D P的临界值α,n D ;当n>100时,可通过n D n /1,ααλ-≈查n D 的极限分布函数数值表得αλ-1从而求出α,n D 的近似值.(7) 若由(5)算出的α,n n D D ≥则拒绝原假设0H ;若α,n n D D <则接受假设,并认为原假设的理论分布函数与子样数据是似合得好的. 例 7.10 略) 见P 351定理 7.4 当样本容量21n n 和分别趋身于∞时,统计量|)()(|212121,supx F x F D n n xn n -=有极限分布函数)(212121λλK D n n n n P n n →⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧<+⎪⎩⎪⎨⎧≤>--=∑∞-∞=0,00),2exp()1(22λλλ当当j j j (7.35) 例 7.11 (略)见P 353。
非参数假设检验
(, t1 ], (t1 , t 2 ], , (t k 1 ,)
…,
t1
t2
tk-1
对随机变量取值数轴的分割
记 pi为总体在第 i 个区间上的概率值, 则有
p1 = P (X t1) = F(t1) p2 = P (t1 < X t2) = F(t2) - F(t1)
……
pk-1 = P (tk-2 < X tk-1) = F(tk-1) - F(tk-2) pk = P (X > tk-1) =1 - F(tk-1)
是由 n, m, (显著性水平)所决定的. 威尔可逊 ( Wilcoxon ) 给出了 W 的概率分布表, 对于给定 的显著性水平 , 可以由威尔可逊概率分布表, 依据n, m, 查出 W1 , W2 . 若W W1 或 W W2 , 则拒绝H0: F(x) = G(x) (认为两个 总体分布不同) 反之, 若W1 < W < W2 , 则接受H0: F(x) = G(x) (认为两 个总体分布相同).
U1 nm n(n 1) w1 2
U 2 nm
m(m 1) w2 2
对给定 , 查U 值表, 得 U. 若U < U , 则总体分布相同. 注意: 方法 (1), (2), (3) 是两个总体分布的比较, 与分布的具 体形式无关, 所以, 理论上可以用来检验两个任意形式的分 布是否相同.
(2) 大样本情况下, 正负号个数检验法的处理
在大样本情况下( 即 mp 10 ), 可以近似地用正态分布 来处理. 现在 p =0.5, 所以只要 m 20 即可. 用统计量:
Z U p ~ N (0,1) p (1 p ) m
非参数假设检验方法
品牌
甲
乙
丙
所购买的人数 61
53
36
依据这些数据,是否可以断定顾客对此三种品牌的商品喜好
确实存在着显著的差异?( = 0.05 )
解 若对此三种品牌的商品喜好确实不存在着显著的差异
就意味着,对三种品牌的商品喜好比例 p1, p2 , p3相等。
上页 下页 返回
此是 m = 3, n1 = 61, n2= 53, n3 = 36,n=150
由于6.52 > 5.991 故有理由拒绝H0 认为顾客对此三种品牌的商品喜好确实存在着显著的差异.
上页 下页 返回
例2 64只某种杂交的几内亚猪的后代,其中34只红色,10只 黑色,20只白色,根据遗传模型,它们之间的比例应为 9:3:4,问以上数据在0.05的水平下体现的与遗传模型是否 吻合。 认为基本吻合
定理1
则统计量
2
m
(ni
i 1
npi0 npi0
)2渐近服从自由度为m
1的
2分布.
由此可以建立 H0 的拒绝域
只要给定一组样本观察值,代入检验统计量计算后,就 能得出结论。
上页 下页 返回
例1 某商场为了研究顾客对一类商品的某三种品牌商品的喜 好比例,以便为下次进货提供较科学的依据。现随机观 察购买此商品的150名顾客,并记录下其所买的品牌,统 计人数如下:
抽取次数X 1
2
3
4 5
试验累计数 43 31 15 6
5
解 若两色球个数相等,则每次取到白球的概率为1/2 以抽取次数X为考查对象,则X服从几何分布,即
计算得
上页 下页 返回
此是 m = 5, n1 = 43, n2= 31, n3 =15, n4 = 6,n5= 5, n=100
非参数检验的概念与过程
非参数检验的概念与过程导言在统计学中,非参数检验是一种不依赖于总体分布假设的方法,用于对数据进行统计推断。
与参数检验相比,非参数检验更加灵活,适用于各种数据类型和样本量的情况。
本文将介绍非参数检验的基本概念及其应用过程。
什么是非参数检验?在传统的统计推断中,我们通常需要假设数据的总体分布满足某种特定的参数化模型(如正态分布)。
然而,在实际应用中,我们并不总是了解或能够准确描述数据的分布。
此时,非参数检验成为一种有力的工具。
非参数检验不依赖于总体分布的假设,而是在不对数据做过多假设的情况下,通过对样本数据的排序、秩次转换等操作,进行统计推断。
非参数检验的应用场景非参数检验广泛应用于多个领域,特别是当数据不满足参数化分布假设时。
下面列举几个常见的应用场景:1. 样本量较小在样本量较小的情况下,参数化方法可能对数据分布的假设过于苛刻,导致结果不够准确。
而非参数检验则不对数据分布做过多要求,能够更灵活地处理小样本数据。
2. 数据不满足正态分布假设正态分布假设是很多参数检验方法的基础前提。
但在实际问题中,数据往往并不服从正态分布。
非参数检验不需要对数据做分布假设,因此更适用于处理不满足正态分布假设的数据。
3. 数据有序或等级性质对于无法直接度量或比较数值大小的数据,如排名数据、生活满意度评价等,非参数检验提供了一种适用的方法。
通过对数据的秩次进行比较,我们可以推断出两组数据是否存在显著差异。
非参数检验的基本过程非参数检验通常包括以下几个基本步骤:1. 建立原假设和备择假设在进行非参数检验之前,我们需要明确所研究的问题,并建立原假设(H0)和备择假设(H1)。
原假设通常是指两组样本没有显著差异,而备择假设则相反。
2. 选择合适的非参数检验方法根据实际问题和数据类型的特点,选择合适的非参数检验方法。
常用的非参数检验方法包括Wilcoxon秩和检验、Mann-Whitney U检验、Kruskal-Wallis单因素方差分析等。
非参数假设检验方法
按 =0.05,自由度为1,查2分布表得
自由度为m-1=1
上页 下页 返回
例4 验证一枚骰子是否均匀。 电话号码的数字出现的概率等等问题。 采用分组离散化方法
若X的分布函数F(x)的具有明确表达式F0(x),不含未知参数。 根据样本信息推断X的分布函数是否为F0(x).
第一步:
第二步:计算
上页 下页 返回
第三步:记数
第四步:检验 其中m为分组数
H0的拒绝域为 一般有 n > 50,npi > 5最好 npi >10,否则应重新分组。 使得npi > 5最好 npi >10.
抽取次数X 1
2
3
4 5
试验累计数 43 31 15 6
5
解 若两色球个数相等,则每次取到白球的概率为1/2 以抽取次数X为考查对象,则X服从几何分布,即
计算得
上页 下页 返回
此是 m = 5, n1 = 43, n2= 31, n3 =15, n4 = 6,n5= 5, n=100
计算有
结论:接受H0
奥地利生物学家孟德尔进行了长达八年之 久的豌豆杂交试验,并根据试验结果,运用他 的数理知识, 发现了遗传的基本规律.
孟德尔
…
…
黄色纯系
子一代 绿色纯系
子二代
上页 下页 返回
根据他的理论,子二代中, 黄、绿之比 近似为3:1,
他的一组观察结果为: 黄70,绿27 近似为2.59:1,与理论值相近.
由于随机性,观察结果与3:1总有些差距,因此有 必要去考察某一大小的差异是否已构成否定3:1理论的 充分根据,这就是如下的检验问题.
为了进行检验,还必须知道其分布,否则进行不了
6非参数假设检验
x 0.081, y 0.062, s1 0.025, s2 0.062
能否认为这两台机床加工的轴承的平均椭圆度是相 同的(α=0.05)
解 设这两台机床加工的轴承的椭圆度分别为X,Y
且 1 EX , 2 EY
近似地
p0 (1 p0 ) / n
服从标准正态分布N(0,1).
=>该假设检验问题的拒绝域为
u
x p0 p0 (1 p0 ) / n
u / 2
例1 某种产品在通常情况下次品率为5%. 现在从 生产出的一批产品中随机地抽取50件进行检验, 发 现有4件次品. 问能否认为这批产品的次品率为5%? (α=0.05)
n2
都充分大时,
U
X
Y
1
2
12
n1
2 2
n2
近似地服从标准正态分布.由于样本方差 S12 和
S
2 2
分别为
2 1
和
2 2
的无偏估计量,因此 可以
分别用
S12
和
S
2 2
近似代替
2 1
和
2 2
,并且当
n1 和 n2 都充分大时,
U X Y 1 2
2 1
n1
2 2
n2
近似地服从标准正态分布 ,从而当原假设 H 0
X n1 i1 X i ,
S12
1 n1 1
n1 i1
(Xi
X )2
Y
1 n2
n2
Yi ,
i 1
S22
1 n2 1
n2 i1
(Yi
Y
非参数假设检验方法
非参数假设检验方法
非参数假设检验方法,那可真是个超棒的统计利器!咱先说说它的步骤吧。
嘿,你想想看,就像搭积木一样,第一步得先明确问题,确定咱要检验啥。
然后收集数据,这数据就像是建筑材料,得好好收集。
接着计算检验统计量,这就如同给积木搭出形状。
最后根据统计量判断是否拒绝原假设。
这步骤简单易懂吧?
注意事项也不少呢!数据得有代表性,不然就像盖房子用了劣质材料,那可不行。
样本量也不能太小,不然就像小娃娃搭的积木城堡,风一吹就倒啦。
说到安全性和稳定性,那可是杠杠的!它不像有些方法那么娇气,对数据的分布要求不高。
就好比一辆越野车,能在各种路况下行驶,不用担心路况不好就抛锚。
应用场景那可多了去啦!当数据不满足参数检验的条件时,非参数假设检验方法就大显身手啦。
比如研究不同年龄段的人对某种产品的喜好,数据可能乱七八糟的,这时候非参数检验就像救星一样。
它的优势也很明显啊,操作简单,容易理解,不需要太多高深的数学知识。
就像玩游戏,不需要看厚厚的说明书就能上手。
给你举个实际案例吧。
有个公司想知道新推出的广告有没有效果,就用了非参数假设检验方法。
结果发现广告确实提高了产品的知名度。
这效果,哇塞,杠杠的!
非参数假设检验方法就是这么牛!它简单易用,安全稳定,应用场景广泛,优势明显。
赶紧用起来吧!。
研九讲非参数假设检验1
ˆ X 0.69
按参数为0.69的泊松分布,计算事件X=i 的 概率pi , pi的估计是
pˆi e0.690.69i i ! ,i=0,1,2,3,4
将有关计算结果列表如下:
战争次数 x
0 1 234
实测频数 fi 223 142 48 15 4
然而可能遇到这样的情形,总体服从何种理 论分布并不知道,要求我们直接对总体分布提出 一个假设 .
例如,从1500到1931年的432年间,每年爆发战 争的次数可以看作一个随机变量,椐统计,这432年 间共爆发了299次战争,具体数据如下:
战争次数X 发生 X次战争的年数
0
223
1
142
2
48
3
15
89 91 88 86 83 96 81 79 97 78 75 67 69
68 84 83 81 75 66 85 70 94 84 83 82 80
78 74 73 76 70 86 76 90 89 71 66 86 73
80 94 79 78 77 63 53 55
试问考试成绩是否服从正态分布 ( 0.10)
检验孟德尔的3:1理论: 提出假设H0: p1=3/4, p2=1/4
这里,n=70+27=97, k=2, 理论频数为: np1=72.75, np2=24.25 实测频数为70,27.
自由度为
统计量 2 2 ( fi npi )2 ~ 2 (1)
i 1
npi
k-1=1
按 =0.05,自由度为1,查 2分布表得
我们只介绍理论分布类型完全已知的情况
分布拟合的 2检验法 的基本原理和步骤如下:
数学建模-非参数检验
2、统计量的分布 (1)当 n1 , n2 较小时,U 有游程检验表; (2)当 n1 , n2 较大时,U 近似服从正态分布,即 U −µ Z= N (0,1) 其中
2n1n2 2n1n2 (2n1n2 − n1 − n2 ) 2 µ= ,σ = n1 + n2 (n1 + n2 ) 2 (n1 + n2 − 1) , 表示
第一节
一、基本问题
卡方检验
设总体 X 的分布函数为 F ( x) ,而 F ( x) 是一个 未知的分布函数,F0 ( x) 为某一给定(即已知)的分 布函数。欲检验:
H 0 : F ( x) = F0 ( x)
数据资料是从总体 X 中抽取的样本 x1 , x2 ,L , xn 。
二、基本原理
1 、基本思想: 若样本的频率分布与总体概率分布相差不大 时,则认为 H 0 成立;反之,H 0 不成立。 2、具体做法: (1)问题的转换 取 −∞ = b0 < b1 < b2 < L < bk −1 < bk = +∞ ,把 x1 , x2 ,L , xn 分为 k 组,记第 i 组的频数为 f i , 要求 f i ≥ 5 (否则合并相邻组);于是得第 i 组 的频率为: fi i = 1, 2 , L , k . n fi ≈ F ( x) 在第 i 段的概率。 n
(2)构造统计量
Dn = sup F ( x) − F0 ( x)
−∞< x <+∞
∗ n
(3)统计量的分布 可证明,当 H 0 成立时
nDn
Q (λ )
n→∞
(4)具体判断 若 p = Sig . = P ( nDn > nDn 值 ) < 0.05 ,则 拒绝 H 0 ;否则,接受 H 0 。
第三节 非参数假设检验
,由于χ = 12 > 11.07
所以拒绝H0,说明下半年各月销售量与均
匀分布有差别,这些差别尚不能完全归结为随机 原。
【例6.11】在高速公路收费站100分钟内观测到通过 收费站的汽车共190辆,每分钟通过的汽车辆 数分布如下表:
用显著性水平a=0.05检验这些数据是否来自泊松分布。 解:设
H0 :汽车通过收费站的辆数服从泊松分布;
【例6.14】为了比较两个小学贯彻素质教育的情况,现从甲学 校抽15名学生,乙学校抽25名学生,按素质教育的要求进 行测试并评分,按评分高低顺序排队并编上等级,其结果 如下:
W2 W1 为 ,第二个样本的等级和为 ,则有
第三步:计算曼-惠特尼U检验统计量
W1 + W2 = n(n + 1) / 2
从
U和 中选择较小者并称其为 U2 1
n1 (n1 + 1) U1 = n1n2 + − W1 2 n2 (n2 + 1) U 2 = n1n2 + − W2 2
。
U
第四步:作出判断 对于
2
个数。
2 χ分布表求相应的 第四步:根据显著性水平a查
临界值——
2 2
χ
2 a
χ > χ a 时,拒绝原假设,说明样本观测并非来
自该理论分布。
【例6.10】某百货公司的电器部下半年各月洗衣机 的销售数量如下:
该电器部经理想了解洗衣机的销售数量是否在各 月是均匀分布的,也就是说各月中销售数量的差别 可以归结为随机原因,这样可以为以后的进货提供 依据。要求以a=0.05 的显著性水平进行检验。
U − E (U ) Z= D(U )
近似地服从标准正态分布。
非参数假设检验方法课件
非参数假设检验具有灵活性、稳 健性和适用范围广等优点,能够 处理更广泛的数据类型和分布情 况,不受特定参数假设的限制。
与参数检验的区别与联系
区别
参数检验基于对总体分布的参数假设 ,如正态分布等,而非参数检验则不 依赖于这些假设。
联系
非参数检验和参数检验都是为了对总 体进行推断,只是所依据的假设不同 。在实际应用中,可以根据具体情况 选择合适的检验方法。
大,可能会导致误判。
与参数检验的优缺点比较
适用范围
参数检验方法通常需要假定数据分布的形式,适用范围相对较窄 ;而非参数检验方法无需假定分布形式,适用范围更广。
解释性
参数检验方法通常可以提供具体的参数估计和效应量估计,解释性 较强;而非参数检验方法的解释性相对较差。
计算复杂性
参数检验方法的计算过程通常较为复杂,需要使用复杂的数学公式 和推导;而非参数检验方法的计算过程相对简单。
详细描述
符号检验通过计算两组数据中正例和负例的差异数,并利用二项分布的概率公 式来计算差异显著的p值。该方法适用于小样本数据,并且对数据的分布没有严 格要求。
威尔科克森符号秩检验
总结词
威尔科克森符号秩检验是用于比较两个独立样本的差异是否显著的统计方法。
详细描述
该方法通过比较两个样本的秩和,利用威尔科克森符号秩公式计算差异显著的p 值。该方法适用于处理数据量较小的情况,并且对数据的分布没有严格要求。
05
非参数假设检验的未来 发展与展望
现有研究的不足与局限性
方法适用范围有限
01
目前非参数假设检验方法主要适用于特定类型的数据和问题,
对于复杂数据或特定领域的适用性有待提高。
理论基础尚不完备
02
数学建模优秀课件非参数统计
0 1 1 0 0 0 1 0 0 1 0 0 0 0 1 1 0 0 1 0 0 0 0 1 0 1
问病户的分布排列是呈聚集趋势,还是随机分布?
实验步骤
1.建立数据文件。 (定义住户变量为epi。按住户顺序输入数据,发病的 住户为1 ,非发病的住户为0。) 2.选择菜单“Analyze→Nonparametric Tests→Runs Test”,弹出 “Runs Test”对话框。在 对话框左侧的变量列表中选择变量epi,使之进入 Test Variable List框。在临界割点“Cut Point”框中 选“Custom”项,在其方框中键入1(根据需要选项, 本例是0、1二分变量,故临界割点值用1)。 3.单击“OK”按钮,得到输出结果。
非参数检验的概念
非参数检验是指在总体不服从正态分布且分 布情况不明时,用来检验数据资料是否来自同 一个总体假设的一类检验方法。由于这些方法 一般不涉及总体参数故得名。
注:这类方法的假定前提比参数性假设检验方 法少的多,也容易满足,适用于计量信息较弱 的资料且计算方法也简单易行,所以在实际中 有广泛的应用。
结果分析
K-S正态性检验的结果显示,Z值=0.718,双侧P值 =0.681,可认为该地正常成年男子的红细胞计数符 合正态分布
5. 2 independent Samples Test 两个独立样本检验
例题
调查某厂的铅作业工人7人和非铅作业工人10 人的血铅值(μg / 100g)如下,问两组工人的 血铅值有无差别?
结果分析
二项分布检验表明,女婴12名,男婴28名,观察概 率为0.70(即男婴占70%),检验概率为0.50,二 项分布检验的结果是双侧概率为0.018,可认为男女 比例的差异有高度显著性,即与通常0.5的性比例相 比,该地男婴比女婴明显为多。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
两相关样本的非参数检验(2 Related Samples Test)
【例12】clinical trial.sav 比较试验药组(group=1) 治疗前血红蛋白含量(hb1)和治疗后血红蛋白含量(hb2) 有无差异.
这是两组相关计量资料的比较. 结论:P=0.018,有显著性差异.
多个相关样本的非参数检验(K Related Samples Test) 【例13】nonpara_7.sav 分析药物是否有效
两相关样本的非参数检验(2 Related Samples Test) 多个相关样本的非参数检验(K Related Samples Test)
两独立样本的非参数检验(2 Independent Samples Test) 检验两个独立样本间是否具有相同的分布. 【例8】nonpara_3.sav 比较两组人群的RD值有无差别 这是两组计量资料的比较. 选择要检验的变量和分 类变量,定义分类值(1-2),其它使用默认选项即可.从负二项分 布的结论.
单样本的K_S拟合优度检验
检验一计量资料是否服从某种理论分布,这里的分布可以 是正态分布(Normal),均匀分布(Uniform),泊松分布(Poisson), 指数分布(Exponential).
【例7】diameter_sub.sav 检验是否服从正态分布
多个独立样本的非参数检验(K Independent Samples Test) 【例10】nonpara_5.sav 比较三种药物的效果有无差别 这是三组计量资料的比较. 选择要检验的变量和分 类变量,定义分类值(1-3),其它使用默认选项即可. 结论:三组的秩和12.6,7.6,3.8,P=0.008,三种药物的 效果有显著性差异,以甲药效果最好. 【例11】nonpara_6.sav 比较三种固定钉治疗骨折的疗效 这是三组等级/频数资料的比较. 先说明频数变量, 再选择要检验的变量和分类变量,定义分类值(1-3),其它 使用默认选项即可. 结论:P=0.129,故三组无显著性差异.
秩 PASI 评 分 ( 术 前 ) PASI评 分 ( 后 2W) PASI评 分 ( 后 4W) PASI评 分 ( 后 6W) PASI评 分 ( 后 8W) 秩均值 3.27 3.16 3.05 2.99 2.53
a 检验统计量
N 卡方 df 渐 近 显著 性
44 28.229 4 .000
.430
.215
b. 0 单 元 格 (.0%) 的 期 望 计 数 少 于 5 。 最 小 期 望 计 数 为 12.00 。
配对四格表资料的χ2检验(McNemar's test)
【例3】配对四格表资料的χ2检验.sav
教材P107页.
结果解释:P=0.00,治疗前细菌阳性由43人变为治疗后 的16人,差异显著,说明抗生素治疗是有效的.
检验步骤中加入选择分层变量,其它步骤同前.
结果解释:对男性,P=0.00,差异显著,即男性吸烟与肺癌显著相关.
对女性,P=0.016,差异显著,即女性吸烟与肺癌显著相关.
三、分布的拟合优度检验
分布的χ2检验
检验观察频数与期望频数是否吻合. 【例6】nonpara_1.sav 检验是否服从负二项分布 注意:先说明频数变量.
结论:两组的秩和141.5,111.5,P=0.08,即两组人群 RD值的分布无显著性差异.
【例9】nonpara_4.sav 比较两组的强度值有无差别 这是两组等级/频数资料的比较. 先说明频数变量, 再选择要检验的变量和分类变量,定义分类值(1-2),其它 使用默认选项即可. 结论:两组的秩和1140.5,1643.5,P=0.016,故两组的 强度值的分布有显著性差异,以DNA-组较强.
单 样 本 Kolmogorov-Smirnov 检 验 AP diameter (mm) 216 14.4421 .71728 .058 .032 -.058 .859 .451
N a,b 正 态参 数
均值 标 准差 绝 对值 正 负
最 极端 差 别
Kolmog orov-Smirnov Z 渐 近显 著 性 ( 双 侧 ) a. 检 验分 布 为 正态 分 布 。 b. 根 据数 据 计 算得 到 。
四、秩和检验
秩和检验(rank sum test):一类常用的非参数统计 分析方法;它是通过对数据依小到大排列秩次,求秩和来 进行假设检验的方法. 两独立样本的非参数检验(2 Independent Samples Test)
多个独立样本的非参数检验(K Independent Samples Test)
本讲结构
一、非参数假设检验概述 二、列联表资料的χ2检验
三、分布的拟合优度检验
四、秩和检验
一、非参数假设检验概述
参数检验(Parametric Test) 已知总体分布类型,对未知参数进行假设检验. 适用于 正态总体或大样本的计量资料. 非参数检验(Nonparametric Test) 假设检验中不对参数作明确的推断,也不涉及样本取自 何种分布的总体。它的适用范围较广,可用于任何类型资 料. 常用的非参数检验方法有卡方检验,秩和检验等。 对于符合参数假设检验分析条件者,采用非参数假设检 验,其检验效能较低.
a. Friedma n 检 验
这是五组相关等级资料的比较.
结论:P=0.000,故五组间有显著性差异.从秩和看,随治疗 时间的延长,皮损面积逐渐减小,表明药物是有效的.
卡方 检验 值 1.111 b .625 1.115 1.093 60 渐 进 Sig. (双 侧 ) .292 .429 .291 .296 精 确 Sig. (双 侧 ) 精 确 Sig. (单 侧 )
df 1 1 1 1
结果解释:P=0.292,结论是 两组的性别分布无差异显著.
Pearson 卡 方 a 连续校 正 似然比 Fisher 的 精 确 检 验 线性和 线性组合 有效案 例中的 N a. 仅 对 2x2 表 计 算
χ2检验的基本公式(检验统计量)
2 ( A T ) 2 i i , ( R 1)(C 1) Ti i 1 k
其中Ai为实际频数, Ti为理论频数, v为自由度, R为行数,C为列数.
上述基本公式由Pearson提出,因此软件上常 称这种检验为Peareson卡方检验,其他卡方检验 公式都是在此基础上发展起来的。它不仅适用于 四格表资料,也适用于其它的“行×列表”。
df 3 3 1
Pears on 卡 方 似 然比 线 性和 线 性 组合 有 效案 例 中 的 N
a. 0 单 元格 (.0%) 的 期望 计 数 少于 5。 最 小期 望 计 数 为 20.69。
结果解释:P=0.034,差异显著,原因是小于1岁的阳性率较低.
分层资料的χ2检验
【例5】分层资料的χ2检验.sav
四格表资料的χ2检验
【例1】教材P104表7-1 : 四格表资料的χ2检验.sav
检验步骤(检验两总体率是否有差别,即比较两种药物的有效性)
1. 说明频数变量Data→Weight Cases; 2. 选择Crosstabs; 3. 选择行分类变量和列分类变量; 4. 设置统计量选项中Chi-square;
5. 设置你自己需要的其它选项;
P=0.000,结论见书P105!
【例2】四格表资料的χ2检验(原始数据格式).sav 需要比较两组药间的性别分布有无差异. 由于是原始数 据, 所以无需说明频数变量,其它的步骤同四格表资料.
分组 * 性别 交叉 制表 性别 男 分组 试验药 安慰剂 合计 计数 分组 的 % 计数 分组 的 % 计数 分组 的 % 20 66.7% 16 53.3% 36 60.0% 女 10 33.3% 14 46.7% 24 40.0% 合计 30 100.0% 30 100.0% 60 100.0%
R×C表资料的χ2检验
【例4】R×C表资料的χ2检验.sav 检验步骤完全同四格表资料.
卡方检验 值 8.688a 8.800 3.956 504 渐 进 Sig . (双 侧 ) .034 .032 .047
年龄 组 <1岁 1岁 - 3岁 - 6- 13岁 合计 年 龄 组 *病 原 学 交 叉 制 表 病 原学 阴性 计数 年 龄组 计数 年 龄组 计数 年 龄组 计数 年 龄组 计数 年 龄组 的% 的% 的% 的% 的% 30 68.2% 50 45.5% 88 45.1% 69 44.5% 237 47.0% 阳性 14 31.8% 60 54.5% 107 54.9% 86 55.5% 267 53.0% 合计 44 100.0% 110 100.0% 195 100.0% 155 100.0% 504 100.0%
二、列联表资料的χ2检验
χ 2 检验 (Chi-square test) 是现代统计学的创始人 之一,英国人K . Pearson(1857-1936)于1900年提 出的一种具有广泛用途的统计方法. χ 2检验可用于两 个或多个总体率(样本率)或构成比间的比较(列联表资 料),计数资料的关联度分析,拟合优度检验等等。 列联表资料是指两个或多个分类变量的频数分布 表,简称交叉表. 具体又可以分位:四格表资料,行x列表 ,χ 2检验是分析列联表资料常用的假设检验方法.