数学建模方法-非参数假设检验

合集下载

非参数检验

举例
书上P88，例3.3.7
二、秩和检验法
符号检验法的缺点:没有充分利用数据符号检验法的缺点没有充分利用数据本身提供的信息，本身提供的信息，而且必须在数据成对时使用。使用。如果两样本数据不成对，如果两样本数据不成对，则可用秩和检验法。验法。
秩和检验法
秩和检验法的做法：秩和检验法的做法：建立H 将两组数据依从小到大次序（建立 0和H1；将两组数据依从小到大次序（秩号）排列成表，如果有两个以上重复的数，秩号）排列成表，如果有两个以上重复的数，则取秩号平均数作为其秩。取秩号平均数作为其秩。取样本容量小的一组（样本容量相同时，取样本容量小的一组（样本容量相同时，取平均数小的一组），其数据个数记为n 则另一组数），其数据个数记为均数小的一组），其数据个数记为 1,则另一组数据个数记为n 据个数记为 2，将样本容量小的一组所对应的秩相加称为该组的秩和（记为T。相加称为该组的秩和（Sum of Ranks）,记为。）记为
计算出
npi 查表得：查表得：1.35<9.448 接受H 认为盒中5种球的个数相等种球的个数相等。接受 0，认为盒中种球的个数相等。
χ
2
∑( f =
i
− npi )
2
= 1.35
拟合优度检验举例2 拟合优度检验举例2
书P82,例3.3.5
二、列联表的独立性检验
独立性检验是对两个总体，或两组资料，独立性检验是对两个总体，或两组资料，或一总体的两种指标（分类、特性、或一总体的两种指标（分类、特性、特征等之间的独立性所进行的检验。因此，）等之间的独立性所进行的检验。因此，若设X和是两个总体是两个总体（若设和Y是两个总体（或一个总体的两个指标），则其假设应为：），则其假设应为指标），则其假设应为： H0：两总体与Y相互独立两总体X与相互独立 H1：两总体与Y不独立两总体X与不独立

非参数检验的场景与方法

非参数检验的场景与方法非参数检验是一种统计方法，用于对数据进行假设检验，而不需要对数据的分布做出任何假设。

相比于参数检验，非参数检验更加灵活，适用于更广泛的场景。

本文将介绍非参数检验的场景和常用的方法。

一、非参数检验的场景非参数检验适用于以下场景：1. 数据不满足正态分布：在一些实际问题中，数据的分布可能不满足正态分布假设，例如长尾分布、偏态分布等。

此时，非参数检验可以更好地适应数据的特点。

2. 样本量较小：参数检验通常要求样本量较大，以保证统计推断的准确性。

而非参数检验对样本量的要求较低，即使样本量较小，也可以进行有效的假设检验。

3. 数据类型不确定：非参数检验可以适用于各种数据类型，包括连续型数据、离散型数据、有序数据等。

而参数检验通常对数据类型有一定的要求。

二、常用的非参数检验方法1. Wilcoxon符号秩检验：适用于两个相关样本的比较。

该方法将两个样本的差异转化为秩次，通过比较秩次的大小来进行假设检验。

2. Mann-Whitney U检验：适用于两个独立样本的比较。

该方法将两个样本的观测值合并后，通过比较秩次的大小来进行假设检验。

3. Kruskal-Wallis检验：适用于多个独立样本的比较。

该方法将多个样本的观测值合并后，通过比较秩次的大小来进行假设检验。

4. Friedman检验：适用于多个相关样本的比较。

该方法将多个样本的观测值转化为秩次，通过比较秩次的大小来进行假设检验。

5. Kolmogorov-Smirnov检验：适用于两个样本的分布比较。

该方法通过比较两个样本的累积分布函数来进行假设检验。

三、非参数检验的优缺点非参数检验相比于参数检验具有以下优点：1. 不需要对数据的分布做出任何假设，更加灵活。

2. 对样本量的要求较低，适用于小样本数据。

3. 适用于各种数据类型，更加通用。

然而，非参数检验也存在一些缺点：1. 相对于参数检验，非参数检验的统计效率较低。

2. 非参数检验通常需要更多的计算资源和时间。

非参数假设检验

§ 7.4 非参数假设检验在§7.2中讨论了母体分布类型为已知时的参数假设检验问题.一般在进行参数假设检验之前,需要对母体的分布进行推断.本节将讨论母体分布的假设检验问题.因为所用的方法适用于任何分布或者仅有微弱假定分布,实质上是不依赖于分布的.在数理统计学中不依赖于分布的统计方法统称为非参数统计方法.这里所讨论的问题就是非参数假设检验问题.这里所研究的检验是如何用子样去似全母体分布,所以又称为分布拟合扰度检验,一般有两种:一是拟合母体的分布函数;另一是拟合母体分布的概率函数.这里我们只介绍三种检验方法:概率图纸法. 2χ-拟合优度检验和柯尔莫哥洛夫斯米尔诺夫检验.一, 概率图纸法这是一种比较直观和简便的检验方法.它适合于在现场使用.目前常见的概率图纸有正态,对数正态,二项分布,指数分布和威布尔分布概率图纸等.这里我们只介绍正态概率图纸,关于其它分布的概率图纸的构造原理和使用方法都是类似的1. 正态概率图纸的构造原理设母体ξ有分布函数F(x),{N(μ,2σ)}表示正态分布族.需要检验假设)},({)(:20σμN x F H ∈这里μ和2σ均为未知常数.在原假设0H 为真时,通过中心化变换)(2121)(22)(222σμπσπσμμσμ-Φ===⎰⎰-∞--∞---x du edt e x F x xt即σμξξμ-=)(服从正态N(0,1).函数u(x)是x 的线性函数.σμξξμ-=)( (7.13)在(x,u(x))直角坐标平面上是一条直线.这条直线过(μ,0),且斜率为σ1.2. 检验步骤.事实上,我们知道的不是母体ξ取出的一组子样观察值n x x ,,1 由格里汶科定理知道子样的经验分布函数)(x F n 依概率收剑于母体分布函数F(x).所以在检验母分体布函数F(x)是否属于正态分布族时,我们以大子样的经验分布函数)(x F n 作为母体分布的近似.若0H :F(x)∈{N(μ,2σ)}为真,那末点,,,1)),(,(n i x F x i i =在正态概率图纸上应该在一条直线上.所以根据上述经验分布函数)(x F n 是母体分布函数F(x)很好的近似,点,,,1)),(,(n i x F x i i =在正态概率图纸上也应该近似地在一条直线附近.倘若点列)),(,(i i x F x 不是近似地在一条直线附近,那末只能说明F(x)不属于正态分布族.根据上述想法,用正态概率图纸去检验假设0H 的具体步骤如下.(1) 整理数据(2) 描点(3) 目测这些点的位置, 3. 未知参数μ与2σ的估计.若通过概率图纸检验已经知道母体服从正态分布,我们就凭目测在概率图纸上画出最靠近各点,,,1)),(,()()(n i x F x i n i =的一条直线l,因为σμξξμ-=)(服从正态N(0,1),所以当0)(=-=σμξμx ,即x=μ时对应的概率F=0.5.因此,只要在概率图纸上面一条F=0.5的水平直线.这条直线与直线l 的交点的横坐标5.0x 就可以作为参数为μ的估计.又由μ(x)=1时所对应的概率F=0.8413的水平直线,这条直线与直线l 的交点的横坐标为8413.0x .这个8413.0x 显然满足18413.08413.0=-=σμμx 即μσ-=8413.0x 因此可以用差5.08413.0x x -估计σ.例 7.8 (略)见P 338 二, 2χ的似体检验法前面介绍了直观而简便的概率图纸法,它不需要很多计算就能对母体分布族作出一个统计推断,并且还能对分布所含的参数作出估计.但是这种方法因人而异,且精度不高,又不能控制犯错误的概率.这里介绍2χ-拟合检验法,它能够像各种显著性检验一样控制犯第一类错误的概率.设母体ξ的分布函数为具有明确表达式的F(x),.我们把随机变量ξ的值域R 分成k 个互不相容的区间[][][]k k k a a A a a A a a A ,,,,,,1212101-=== 这些区间不一定有相同的长度.设n x x ,,1 是容量为n 的子样的一组观测值.i n 为子样观测值n x x ,,1 中落入i A 的频数.n n ni i =∑=1在这n 次事件i A 出现的频率为nn i .我们现在检验原假设)()(:00x F x F H =.设在原假设0H 成立下,母体ξ落入区间i A 的概率为i P ,即k i a F a F A P P i i i i ,1),()()(100=-==- (7.14)此时n 个观察值中,恰有1n 个值落入1A 内,2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k nn n n k P P P n n n n 212121!!!!这是一个多项分布.按大数定理,在0H 为真时,频率nn i 与概率i P 的差异不应太大.根据这个思想构造一个统计量2χ=∑=-ki ii i nP nP n 12)( (7.15)称做2χ-统计量.往后可以看到,用2χ表示这一统计量不是没有原因的.因为它的极限分布就是自由度为k-1的2χ-分布.为了能够把2χ-统计量用来作检验的统计量,我们必须知道它的抽样分布.我们先k=2的简单情形.在0H 成立下,221)(,)(P A P P A P i ==其中121=+P P这时,频数n n n =+21我们考察222212112)()(nP nP n nP nP n -+-=χ(7.16)令222111,nP n Y nP n Y -=-= (7.17)显然0)(212121=+-+=+P P n n n Y Y (7.18)由此可见1Y 与2Y 不是线性独立,且21Y Y -=.于是21212221212P nP Y nP Y nP Y =+=χ21111)1(⎥⎥⎦⎤⎢⎢⎣⎡--P nP nP n (7.19) 根据德莫弗-拉普拉斯极限定理,当n 充分大时,随机变量)1(1111P nP nP n --的分布是接近于正态的,从而推得k=2情形的分布,当n 充分大时,是接近于自由度为1的2χ-分布.对于一般情形有如下的定理.定理 7.1 当0H 为真时,即k P P ,,1 为母体的真实概率时,由(7.15)式所定义的统计量2χ的渐近分布是自由度为k-1的2χ-分布,即密度函数为⎪⎪⎩⎪⎪⎨⎧⎪⎭⎫ ⎝⎛-Γ=---,0,2121)(22321xk k e x k x f (7.20) 证因为在n 个观测值中恰有1n 个观测值落入1A 内, 2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k nn nnk P P P n n n n 212121!!!!这里n n n n k =+++ 21.其特征函数nk j it j k je P t t ⎪⎪⎭⎫⎝⎛=∑=112),,( ϕ (7.21) 令k j nP nP n Y jjj j ,2,1, =-=(7.22)于是有∑∑===-=kj jkj jj j YnP nP n 12122)(χ(7.23)和∑=kj j jP Y1=0 (7.24)由此式看出,诸随机变量j Y 不是线性独立的.(k Y Y ,,1 )的联合分布的特征函数具有形状2111exp exp ),,(⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛∙⎪⎪⎭⎫ ⎝⎛-=∑∑==kj j j j kj j jk nP it P nP itt t ϕ (7.25) 两边取对数得⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛+-=∑∑==k j j j j kj j jn nP it P n P t n i t t 111exp ln ),,(ln ϕ (7.26) 利用指数数函和对数函在0=j t 处的泰勒展开:⎪⎭⎫ ⎝⎛+-=-⎥⎥⎦⎤⎢⎢⎣⎡n nP t nP itnp itj jjjjj121exp 2ο 和)(2)1ln(22x xx x ο+-=+于是)1(21211211ln ),,(ln 11212111211οοϕ+⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛--+-=⎪⎪⎭⎫⎝⎛⎪⎭⎫ ⎝⎛+-++-=∑∑∑∑∑∑∑=======kj kj kj j jjj jkj j j kj kj jj jkj j jk P tnit n P tn i n P t n i n t n P tn i n P t n i t t当∞→n 时⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--→∑∑==k j kj j jj k P t t t t 1212121),,(ln ϕ 即⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛--=∑∑==∞→kj k j j jj k n P t t t t 1212121exp ),,(limϕ (7.26) 作一正交变换:⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j k j kj lj l Y P Z k l Y a Z 111,,1, (7.27) 其中lj a 应该满足1,,1,,0,11-=⎩⎨⎧≠==⋅∑=k r l r l r l a a kj rj lj 和1,,1,01-==∑=k l P akj j lj由⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j j k kj y ij l t P u k l t a u 111,1, (7.28) 得到∑∑∑-====⎪⎪⎭⎫⎝⎛-1122112k j jkj i kj jj uP t t (7.29)由(7.26)知,当∞→n 时,(k Z Z ,,1 )的特征函数⎭⎬⎫⎩⎨⎧-=∑-=∞→112121exp ),,(limk j j k n u u u ϕ.这意味着11,,-k Z Z 的分布弱收剑于相互独立的正态N(0,1)分布,而k Z 依概率收剑于0.因此∑∑====kj jkj jZY12122χ的渐近分布是自由度为k-1的2χ-分布.如果原假设0H 只确定母体分布类型,而分布中还含有未知参数m θθ,,1 则我们还不能用定理7.1来作为检验的理论依据.费歇证明了如下定理.从而解决了含未知参数情形的分布检验问题.定理 7.2 设F(x; m θθ,,1 )为母体的真实分布,其中m θθ,,1 为m 个未知参数.在F(x;m θθ,,1 )中用m θθ,,1 的极大似然估计mθθ∧∧,代替m θθ,,1 并且以F(x; m θθ∧∧,)取代(7.4)中的F(x)得到),,1;(),,1;(1m a F m a F i i i P θθθθ∧∧-∧∧∧-= (7.30)则将(7.30)代入(7.15)所得的统计量∑=∧∧-=kj i ini nn p p 122()χ(7.31)当∞→n 时有自由度为k-m-1的2χ-分布.例 7.9 (略)见P 345由例子来总结一下利用2χ-检验分布假设的步骤:(1)把母体ξ的值域划分为k 个互不相交的区间[,,,1),,1k i a a i i =+其中k a a ,1可以分别取∞∞-,;(2) 在0H 成立下,用极大似然估计法估计分布所含的未知参数; (3)在0H 成立下,计算理论概率)()(010i i i a F a F p -=+并且算出理论频数i nP ; (4)按照子样观察值n x x x ,,,21 落在区间),[1+i i a a 中的个数,即实际频数,,,1,k i n i =和(3)中算出的理论频数i nP ,计算ii i nP nP n )(2-=χ的值;(5)按照所给出的显著性水平α,查自由度k-m-1的2χ-分布表得)1(21---m k αχ,其中m 是未知参数的个数; (6)若2χ21αχ-≥,则拒绝原假设0H ,若212αχχ-<,则认为原假设0H 成立.三柯尔莫哥洛夫似合检验------n D 检验2χ-似合检验是比较子样频率与母体的概率的.尽管它对于离散型和连续型母体分布都适用.但它是依赖于区间的划分的.因为即使原假设)()(:00x F x F H =不成立,在某种划分下还是可能有k i P a F a F a F a F i i i i i ,,1,)()()()(1001 ==-=---从而不影响(7.5)中2χ的值,也就是有可能把不真的原假设0H 接受过来.由此看到,用2χ-检验实际上只是检验了,,,1,)()(100k i P a F a F i i i ==--是否为真,而并未真正地检验母体分布F(x)是否为)(0x F .柯尔莫哥洛夫对连续母体的分布提出了一种方法.一般称做柯尔莫哥洛夫检验或n D -检验.这个检验比较子样经验分布函数)(x F n 和母体分布函数F(x)的.它不是在划分的区间上考虑)(x F n 与原假设的分布函数之间的偏差.而是在每一点上考虑它们之间的偏差.这就克服了2χ-检验的依赖于区间划分的缺点.但母体分布必须假定为连续.根据格里汶科定理,我们可以把子样经验分布函数看作实际母体分布函的缩影.如果原假设成立,它与F(x)的差距一般不应太大.由此柯尔莫哥洛夫提出一个统计量|)()(|supx F x F D n xn -=(7.32)并且得到这统计量n D 的精确分布和极限分布K(λ).它们都不依赖于母体的分布.这里我们不加证明地引入柯尔莫哥洛夫定理.定理 7.3 设母体ξ有连续分布函数F(x),从中抽取容量为n 的字样,并设经验分布函数为)(x F n ,则|)()(|supx F x F D n xn -=的分布函数⎪⎭⎫ ⎝⎛+<n D P n 21λ =n n n n dy y y f n nn n nn n n n 2120212,1,),,(0,021********22121-<≤⎪⎪⎪⎩⎪⎪⎪⎨⎧-≥<⎰⎰⎰+-+-+---λλλλλλλλλ 当 (7.33)其中⎩⎨⎧<<<=其它当,010!),(11n n y y n y y f在∞→时有极限分布函⎪⎩⎪⎨⎧≤>--=→<∑-∞=0,00),2exp()1()()(22λλλλλ当当n j j n j K D n P (7.34) 在应用柯尔莫哥洛夫检验时,应该注意的是,原假设的分布的参数值原则上应是已知的.但在参数为未知时,近年来有人对某些母体分布如正态分布和指数分布用下列两种方法估计.()可用另一个大容量子样来估计未知参数,(2)如果原来子样容量很大,也可用来估计未知参数.不过此n D -检验是近似的.在检验时以取.较大的显著性水平为宜,一般取α=0.10-0.12.n D -检验检验母体有连续分布函数F(x)这个假设的步骤如下:(1) 从母体抽取容量为n 的子样,并把子样观察值按由小到大的次序排列;(2) 算出经验分布函⎪⎪⎩⎪⎪⎨⎧≤=<≤<=+x n j x x x nx n x x x F k j j jn 当当当,1,,1,,)(,0)()1()()1((3) 在原假设0H 下,计算观测值处的理论分布函数F(x)的值; (4) 对每一个i x 算出经验分布函数与理论分布函数的差的绝对值||)()(||)()()()1()()(i i n i i n x F x F x F x F --+与(5) 由(4)算出统计量的值(6) 给出显著性水平α,由柯尔莫哥洛夫检验的临界值表查出α=≥)(,n n D D P的临界值α,n D ;当n>100时,可通过n D n /1,ααλ-≈查n D 的极限分布函数数值表得αλ-1从而求出α,n D 的近似值.(7) 若由(5)算出的α,n n D D ≥则拒绝原假设0H ;若α,n n D D <则接受假设,并认为原假设的理论分布函数与子样数据是似合得好的. 例 7.10 略) 见P 351定理 7.4 当样本容量21n n 和分别趋身于∞时,统计量|)()(|212121,supx F x F D n n xn n -=有极限分布函数)(212121λλK D n n n n P n n →⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧<+⎪⎩⎪⎨⎧≤>--=∑∞-∞=0,00),2exp()1(22λλλ当当j j j (7.35) 例 7.11 (略)见P 353。

非参数假设检验

(, t1 ], (t1 , t 2 ], , (t k 1 ,)
…,
t1
t2
tk-1
对随机变量取值数轴的分割
记 pi为总体在第 i 个区间上的概率值, 则有
p1 = P (X t1) = F(t1) p2 = P (t1 < X t2) = F(t2) - F(t1)
……
pk-1 = P (tk-2 < X tk-1) = F(tk-1) - F(tk-2) pk = P (X > tk-1) =1 - F(tk-1)
是由 n, m, (显著性水平)所决定的. 威尔可逊 ( Wilcoxon ) 给出了 W 的概率分布表, 对于给定的显著性水平 , 可以由威尔可逊概率分布表, 依据n, m, 查出 W1 , W2 . 若W W1 或 W W2 , 则拒绝H0: F(x) = G(x) (认为两个总体分布不同) 反之, 若W1 < W < W2 , 则接受H0: F(x) = G(x) (认为两个总体分布相同).
U1 nm n(n 1) w1 2
U 2 nm
m(m 1) w2 2
对给定 , 查U 值表, 得 U. 若U < U , 则总体分布相同. 注意: 方法 (1), (2), (3) 是两个总体分布的比较, 与分布的具体形式无关, 所以, 理论上可以用来检验两个任意形式的分布是否相同.
(2) 大样本情况下, 正负号个数检验法的处理
在大样本情况下( 即 mp 10 ), 可以近似地用正态分布来处理. 现在 p =0.5, 所以只要 m 20 即可. 用统计量:
Z U p ~ N (0,1) p (1 p ) m

非参数假设检验方法

品牌
甲
乙
丙
所购买的人数 61
53
36
依据这些数据，是否可以断定顾客对此三种品牌的商品喜好
确实存在着显著的差异？( = 0.05 )
解若对此三种品牌的商品喜好确实不存在着显著的差异
就意味着，对三种品牌的商品喜好比例 p1, p2 , p3相等。
上页下页返回
此是 m = 3， n1 = 61， n2= 53， n3 = 36，n=150
由于6.52 > 5.991 故有理由拒绝H0 认为顾客对此三种品牌的商品喜好确实存在着显著的差异.
上页下页返回
例2 64只某种杂交的几内亚猪的后代，其中34只红色，10只黑色，20只白色，根据遗传模型，它们之间的比例应为 9:3:4，问以上数据在0.05的水平下体现的与遗传模型是否吻合。认为基本吻合
定理1
则统计量
2
m
(ni
i 1
npi0 npi0
)2渐近服从自由度为m
1的
2分布.
由此可以建立 H0 的拒绝域
只要给定一组样本观察值，代入检验统计量计算后，就能得出结论。
上页下页返回
例1 某商场为了研究顾客对一类商品的某三种品牌商品的喜好比例，以便为下次进货提供较科学的依据。现随机观察购买此商品的150名顾客，并记录下其所买的品牌，统计人数如下：
抽取次数X 1
2
3
4 5
试验累计数 43 31 15 6
5
解若两色球个数相等，则每次取到白球的概率为1/2 以抽取次数X为考查对象，则X服从几何分布，即
计算得
上页下页返回
此是 m = 5, n1 = 43, n2= 31, n3 =15, n4 = 6,n5= 5， n=100

非参数检验的概念与过程

非参数检验的概念与过程导言在统计学中，非参数检验是一种不依赖于总体分布假设的方法，用于对数据进行统计推断。

与参数检验相比，非参数检验更加灵活，适用于各种数据类型和样本量的情况。

本文将介绍非参数检验的基本概念及其应用过程。

什么是非参数检验？在传统的统计推断中，我们通常需要假设数据的总体分布满足某种特定的参数化模型（如正态分布）。

然而，在实际应用中，我们并不总是了解或能够准确描述数据的分布。

此时，非参数检验成为一种有力的工具。

非参数检验不依赖于总体分布的假设，而是在不对数据做过多假设的情况下，通过对样本数据的排序、秩次转换等操作，进行统计推断。

非参数检验的应用场景非参数检验广泛应用于多个领域，特别是当数据不满足参数化分布假设时。

下面列举几个常见的应用场景：1. 样本量较小在样本量较小的情况下，参数化方法可能对数据分布的假设过于苛刻，导致结果不够准确。

而非参数检验则不对数据分布做过多要求，能够更灵活地处理小样本数据。

2. 数据不满足正态分布假设正态分布假设是很多参数检验方法的基础前提。

但在实际问题中，数据往往并不服从正态分布。

非参数检验不需要对数据做分布假设，因此更适用于处理不满足正态分布假设的数据。

3. 数据有序或等级性质对于无法直接度量或比较数值大小的数据，如排名数据、生活满意度评价等，非参数检验提供了一种适用的方法。

通过对数据的秩次进行比较，我们可以推断出两组数据是否存在显著差异。

非参数检验的基本过程非参数检验通常包括以下几个基本步骤：1. 建立原假设和备择假设在进行非参数检验之前，我们需要明确所研究的问题，并建立原假设（H0）和备择假设（H1）。

原假设通常是指两组样本没有显著差异，而备择假设则相反。

2. 选择合适的非参数检验方法根据实际问题和数据类型的特点，选择合适的非参数检验方法。

常用的非参数检验方法包括Wilcoxon秩和检验、Mann-Whitney U检验、Kruskal-Wallis单因素方差分析等。

非参数假设检验方法

按 =0.05，自由度为1，查2分布表得
自由度为m-1=1
上页下页返回
例4 验证一枚骰子是否均匀。电话号码的数字出现的概率等等问题。采用分组离散化方法
若X的分布函数F(x)的具有明确表达式F0(x)，不含未知参数。根据样本信息推断X的分布函数是否为F0(x).
第一步：
第二步：计算
上页下页返回
第三步：记数
第四步：检验其中m为分组数
H0的拒绝域为一般有 n > 50，npi > 5最好 npi >10，否则应重新分组。使得npi > 5最好 npi >10.
抽取次数X 1
2
3
4 5
试验累计数 43 31 15 6
5
解若两色球个数相等，则每次取到白球的概率为1/2 以抽取次数X为考查对象，则X服从几何分布，即
计算得
上页下页返回
此是 m = 5, n1 = 43, n2= 31, n3 =15, n4 = 6,n5= 5， n=100
计算有
结论：接受H0
奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验，并根据试验结果，运用他的数理知识，发现了遗传的基本规律.
孟德尔
…
…
黄色纯系
子一代绿色纯系
子二代
上页下页返回
根据他的理论，子二代中, 黄、绿之比近似为3:1，
他的一组观察结果为：黄70，绿27 近似为2.59:1，与理论值相近.
由于随机性，观察结果与3:1总有些差距，因此有必要去考察某一大小的差异是否已构成否定3:1理论的充分根据，这就是如下的检验问题.
为了进行检验，还必须知道其分布，否则进行不了

6非参数假设检验

的轴承中分别随机地抽取200根和100根，测量其椭圆度（单位：mm），经计算得
x 0.081, y 0.062, s1 0.025, s2 0.062
能否认为这两台机床加工的轴承的平均椭圆度是相同的(α=0.05)
解设这两台机床加工的轴承的椭圆度分别为X,Y
且 1 EX , 2 EY
近似地
p0 (1 p0 ) / n
服从标准正态分布N(0,1).
=>该假设检验问题的拒绝域为
u
x p0 p0 (1 p0 ) / n
u / 2
例1 某种产品在通常情况下次品率为5%. 现在从生产出的一批产品中随机地抽取50件进行检验, 发现有4件次品. 问能否认为这批产品的次品率为5%? (α=0.05)
n2
都充分大时，
U
X
Y
1
2
12
n1
2 2
n2
近似地服从标准正态分布．由于样本方差 S12 和
S
2 2
分别为
2 1
和
2 2
的无偏估计量，因此可以
分别用
S12
和
S
2 2
近似代替
2 1
和
2 2
，并且当
n1 和 n2 都充分大时，
U X Y 1 2
2 1
n1
2 2
n2
近似地服从标准正态分布，从而当原假设 H 0
X n1 i1 X i ,
S12
1 n1 1
n1 i1
(Xi
X )2
Y
1 n2
n2
Yi ,
i 1
S22
1 n2 1
n2 i1
(Yi
Y

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

两相关样本的非参数检验(2 Related Samples Test)
【例12】clinical trial.sav 比较试验药组(group=1) 治疗前血红蛋白含量(hb1)和治疗后血红蛋白含量(hb2) 有无差异.
这是两组相关计量资料的比较. 结论:P=0.018,有显著性差异.
多个相关样本的非参数检验(K Related Samples Test) 【例13】nonpara_7.sav 分析药物是否有效
两相关样本的非参数检验(2 Related Samples Test) 多个相关样本的非参数检验(K Related Samples Test)
两独立样本的非参数检验(2 Independent Samples Test) 检验两个独立样本间是否具有相同的分布. 【例8】nonpara_3.sav 比较两组人群的RD值有无差别这是两组计量资料的比较. 选择要检验的变量和分类变量,定义分类值(1-2),其它使用默认选项即可.从负二项分布的结论.
单样本的K_S拟合优度检验
检验一计量资料是否服从某种理论分布,这里的分布可以是正态分布(Normal),均匀分布(Uniform),泊松分布(Poisson), 指数分布(Exponential).
【例7】diameter_sub.sav 检验是否服从正态分布
多个独立样本的非参数检验(K Independent Samples Test) 【例10】nonpara_5.sav 比较三种药物的效果有无差别这是三组计量资料的比较. 选择要检验的变量和分类变量,定义分类值(1-3),其它使用默认选项即可. 结论:三组的秩和12.6,7.6,3.8,P=0.008,三种药物的效果有显著性差异,以甲药效果最好. 【例11】nonpara_6.sav 比较三种固定钉治疗骨折的疗效这是三组等级/频数资料的比较. 先说明频数变量, 再选择要检验的变量和分类变量,定义分类值(1-3),其它使用默认选项即可. 结论:P=0.129,故三组无显著性差异.
秩 PASI 评分 ( 术前 ) PASI评分 ( 后 2W) PASI评分 ( 后 4W) PASI评分 ( 后 6W) PASI评分 ( 后 8W) 秩均值 3.27 3.16 3.05 2.99 2.53
a 检验统计量
N 卡方 df 渐近显著性
44 28.229 4 .000
.430
.215
b. 0 单元格 (.0%) 的期望计数少于 5 。最小期望计数为 12.00 。
配对四格表资料的χ2检验（McNemar's test）
【例3】配对四格表资料的χ2检验.sav
教材P107页.
结果解释:P=0.00,治疗前细菌阳性由43人变为治疗后的16人,差异显著,说明抗生素治疗是有效的.
检验步骤中加入选择分层变量,其它步骤同前.
结果解释:对男性,P=0.00,差异显著,即男性吸烟与肺癌显著相关.
对女性,P=0.016,差异显著,即女性吸烟与肺癌显著相关.
三、分布的拟合优度检验
分布的χ2检验
检验观察频数与期望频数是否吻合. 【例6】nonpara_1.sav 检验是否服从负二项分布注意:先说明频数变量.
结论:两组的秩和141.5,111.5,P=0.08,即两组人群 RD值的分布无显著性差异.
【例9】nonpara_4.sav 比较两组的强度值有无差别这是两组等级/频数资料的比较. 先说明频数变量, 再选择要检验的变量和分类变量,定义分类值(1-2),其它使用默认选项即可. 结论:两组的秩和1140.5,1643.5,P=0.016,故两组的强度值的分布有显著性差异,以DNA-组较强.
单样本 Kolmogorov-Smirnov 检验 AP diameter (mm) 216 14.4421 .71728 .058 .032 -.058 .859 .451
N a,b 正态参数
均值标准差绝对值正负
最极端差别
Kolmog orov-Smirnov Z 渐近显著性 ( 双侧 ) a. 检验分布为正态分布。 b. 根据数据计算得到。
四、秩和检验
秩和检验（rank sum test）：一类常用的非参数统计分析方法；它是通过对数据依小到大排列秩次，求秩和来进行假设检验的方法. 两独立样本的非参数检验(2 Independent Samples Test)
多个独立样本的非参数检验(K Independent Samples Test)
本讲结构
一、非参数假设检验概述二、列联表资料的χ2检验
三、分布的拟合优度检验
四、秩和检验
一、非参数假设检验概述
参数检验（Parametric Test）已知总体分布类型，对未知参数进行假设检验. 适用于正态总体或大样本的计量资料. 非参数检验（Nonparametric Test）假设检验中不对参数作明确的推断，也不涉及样本取自何种分布的总体。它的适用范围较广,可用于任何类型资料. 常用的非参数检验方法有卡方检验,秩和检验等。对于符合参数假设检验分析条件者，采用非参数假设检验，其检验效能较低.
a. Friedma n 检验
这是五组相关等级资料的比较.
结论:P=0.000,故五组间有显著性差异.从秩和看,随治疗时间的延长,皮损面积逐渐减小,表明药物是有效的.
卡方检验值 1.111 b .625 1.115 1.093 60 渐进 Sig. (双侧 ) .292 .429 .291 .296 精确 Sig. (双侧 ) 精确 Sig. (单侧 )
df 1 1 1 1
结果解释:P=0.292,结论是两组的性别分布无差异显著.
Pearson 卡方 a 连续校正似然比 Fisher 的精确检验线性和线性组合有效案例中的 N a. 仅对 2x2 表计算
χ2检验的基本公式(检验统计量)
2 ( A T ) 2 i i ， ( R 1)(C 1) Ti i 1 k
其中Ai为实际频数, Ti为理论频数, v为自由度, R为行数,C为列数.
上述基本公式由Pearson提出，因此软件上常称这种检验为Peareson卡方检验，其他卡方检验公式都是在此基础上发展起来的。它不仅适用于四格表资料，也适用于其它的“行×列表”。
df 3 3 1
Pears on 卡方似然比线性和线性组合有效案例中的 N
a. 0 单元格 (.0%) 的期望计数少于 5。最小期望计数为 20.69。
结果解释:P=0.034,差异显著,原因是小于1岁的阳性率较低.
分层资料的χ2检验
【例5】分层资料的χ2检验.sav
四格表资料的χ2检验
【例1】教材P104表7-1 : 四格表资料的χ2检验.sav
检验步骤(检验两总体率是否有差别,即比较两种药物的有效性)
1. 说明频数变量Data→Weight Cases; 2. 选择Crosstabs; 3. 选择行分类变量和列分类变量; 4. 设置统计量选项中Chi-square;
5. 设置你自己需要的其它选项;
P=0.000,结论见书P105!
【例2】四格表资料的χ2检验(原始数据格式).sav 需要比较两组药间的性别分布有无差异. 由于是原始数据, 所以无需说明频数变量,其它的步骤同四格表资料.
分组 * 性别交叉制表性别男分组试验药安慰剂合计计数分组的 % 计数分组的 % 计数分组的 % 20 66.7% 16 53.3% 36 60.0% 女 10 33.3% 14 46.7% 24 40.0% 合计 30 100.0% 30 100.0% 60 100.0%
R×C表资料的χ2检验
【例4】R×C表资料的χ2检验.sav 检验步骤完全同四格表资料.
卡方检验值 8.688a 8.800 3.956 504 渐进 Sig . (双侧 ) .034 .032 .047
年龄组 <1岁 1岁－ 3岁－ 6－ 13岁合计年龄组 *病原学交叉制表病原学阴性计数年龄组计数年龄组计数年龄组计数年龄组计数年龄组的% 的% 的% 的% 的% 30 68.2% 50 45.5% 88 45.1% 69 44.5% 237 47.0% 阳性 14 31.8% 60 54.5% 107 54.9% 86 55.5% 267 53.0% 合计 44 100.0% 110 100.0% 195 100.0% 155 100.0% 504 100.0%
二、列联表资料的χ2检验
χ 2 检验 (Chi-square test) 是现代统计学的创始人之一，英国人K . Pearson（1857-1936）于1900年提出的一种具有广泛用途的统计方法. χ 2检验可用于两个或多个总体率(样本率)或构成比间的比较(列联表资料)，计数资料的关联度分析，拟合优度检验等等。列联表资料是指两个或多个分类变量的频数分布表,简称交叉表. 具体又可以分位:四格表资料,行x列表 ,χ 2检验是分析列联表资料常用的假设检验方法.