经典非参数假设检验方法全
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四步:检验
其中m为分组数 H0的拒绝域为
一般有 n > 50,npi > 5最好 npi >10,否则应重新分组。 使得npi > 5最好 npi >10.
例4 在一个暗盒中存放有白色与黑色两色乒乓球,问该盒中的 白、黑球的个数是否相等?为此作以下试验,用不返回抽 取发式从此盒中取球,直到取出的球是白色球为止,并记 录下抽取的次数。共重复独立试验了100次,结果如下:
为什么用非参数方法?
• 在实际生活中,总体的分布信息并不是容 易得到的。有时,数据并不是来自所假定 的总体;或者,数据根本不是来自同一个 总体;还有可能,数据因为种种原因被严 重“污染”。这样,在假定总体分布的情 况下进行推断的做法就可能产生错误的或 者甚至灾难性的结论。 • 于是,人们希望在不假定总体分布的情况 下,尽量从数据本身来获得所需要的信息, 这就是非参数统计的宗旨。
斯米尔诺夫检验、独立性检验方法。
除此还有:符号检验、游程检验、秩和检验等等。
为什么用非参数方法?
• 经典统计的多数检验都假定了总体的背景 分布。 • 在那里,总体的分布形式或分布族往往是 给定的或者是假定了的。所不知道的仅仅 是一些参数得知或它们的范围。于是,人 们的主要任务就是对一些参数,比如均值 和方差(或标准差)进行估计或检验。 • 如检验正态分布的均值是否相等或等于零 等等。最常见的检验是和正态总体有关的 t-检验、F-检验、X2检验和最大似然比检 验等。
为什么用非参数方法?
• 正是由于非参数检验要求的信息少,检验 条件比较宽松,因此它具有很强的适应性, 应用的范围比起参数检验更宽广。非参数 检验不仅可以应用于定距、定比数据的检 验而且也适用于定类、定序数据的假设检 验。对于那些不能直接进行加减乘除四则 运算的数据,运用符号检验、秩和检验都 能起到比较好的效果。
解
若对此三种品牌的商品喜好确实不存在着显著的差异
就意味着,对三种品牌的商品喜好比例 p1, p2 , p3相等。
此是 m = 3, n1 = 61, n2= 53, n3 = 36,n=150
由于6.52 > 5.991
故有理由拒绝H0
认为顾客对此三种品牌的商品喜好确实存在着显著的差异.
例2 64只某种杂交的几内亚猪的后代,其中34只红色,10只 黑色,20只白色,根据遗传模型,它们之间的比例应为 9:3:4,问以上数据在0.05的水平下体现的与遗传模型是否 吻合。 认为基本吻合 解 若基本吻合,则p1=9/16, p2 =3/16 ,p3 =4/16
为什么用非参数方法?
• 根据样本又分成
单样本检验 两独立样本检验
• 非参数检验 多个独立样本检验
多个相关样本检验 列联表某一变量各水平比例检验
在本节我们将介绍几种最常用的非参数检验方法: 符号检验、秩和检验和游程检验。
非参数检验
• • • • • • • • • • 非参数检验的方法有很多种,如下几种检验: 正态慨率纸检验; 皮尔逊(Pearson)χ2拟合检验; 柯尔莫哥洛夫与斯米尔诺夫检验; Shapiro-Wilk W检验; D’Agostion’s D检验; Wilcoxon秩和检验。 符号检验 秩和检验 游程检验。
抽取次数X 试验累计数
解
1 43
2 31
3 15
4 6
5 5
若两色球个数相等,则每次取到白球的概率为1/2 以抽取次数X为考查对象,则X服从几何分布,即
计算得
此是 m = 5, n1 = 43, n2= 31, n3 =15, n4 = 6,n5= 5, n=100
结论:接受H0
计算有
(3) 若X的分布函数F(x)的具有明确表达式F0(x;),但含 r 个 未知参数。根据样本信息推断X的分布函数是否为F0(x).
为什么用非参数方法?
• 非参数检验同样也有其缺点。由于它对总体的 分布没有严格的要求,因此在检验过程中会失 去许多有用的信息,在方法上就缺乏针对性。 而且非参数检验是通过处理样本数据的秩或等 级来检验假设的,而不是利用原始数据,这又 会失去一些信息,因而检验的有效性有时会比 较差。 • 当然,如果我们事先对总体的分布信息一无所 知或难下定论,那么建立在数据本身基础上的 非参数检验结果要比建立在一个可疑的总体分 布基础上得到的参数检验结果要可靠的多。
非参数假设检验
在前面的课程中,我们已经了解了假设检验的基本思 想,并讨论了当总体分布为正态时,关于其中未知参数的 假设检验问题 .
然而可能遇到这样的情形,总体服从何种理论分布并 不知道,要求我们直接对总体分布形式提出种种假设,然 后利用样本信息对假设进行检验。 在统计学中把不依赖于分布形式的统计方法称为非参数 统计。对总体的分布形式的检验就是非参数检验。
战争次数 x 实测频数 fi pi npi
0 1 2 223 142 48 0.58 0.31 0.18 216.7 149.5 51.6
3 4 15 4 0.01 0.02 12.0 2.16
14.16 ( f i npi )2 0.183 0.376 0.251 1.623 npi 因H0所假设的理论分布中有一个未知参数,
类似于以前的检验方法,取一个标准化的度量。
为此在1900年,英国统计学家 Karl Pearson 首先提出
从该统计量直观上判断有,
另外,用该统计量对总体分布律进行检验,还必须知道 其分布。 Pearson给出了其渐近分布。
定理1
由此可以建立 H0 的拒绝域
只要给定一组样本观察值,代入检验统计量计算后,就 能得出结论。
第四步:检验 H0的拒绝域为 定理2 (R.A.Fisher)
让我们回到检验每年爆发战争次数分布是否服从泊松分布. 假设H0: X~P()
根据观察结果,得参数 的极大似然估计为 ,i=0,1,2,3,4
=0.69
按参数为 =0.69的泊松分布,计算事件X= i 的概率 pi , pi的估计是 将有关计算结果列表如下:
为什么用非参数方法?
• 但是在总体分布形式已知时,非参数检验 就不如传统方法效率高。这是因为非参数 方法利用的信息要少些。往往在传统方法 可以拒绝零假设的情况,非参数检验无法 拒绝。 • 但非参数统计在总体未知时效率要比传统 方法要高,有时要高很多。是否用非参数 统计方法,要根据对总体分布的了解程度 来确定。
例如,从1500到1931年的432年间,每年爆发战争的 次数可以看作一个随机变量,椐统计,这432年间共爆发 了299次战争,具体数据如下: 战争次数X 0 1 2 3 4 发生 X次战争的年数 223 142 48 15 4
在概率论中,大家对泊松分布产生的一般条件已有所了 解,容易想到,每年爆发战争的次数,可以用一个泊松随机 变量来近似描述 . 也就是说,我们可以假设每年爆发战争次 数分布X近似泊松分布. 现在的问题是:上面的数据能否证实X 具有泊松分布的假设 是正确的?
解决这类问题的工具是英国统计学家K.皮尔逊在1900年
发表的一篇文章中引进的所谓 2检验法. 这是一项很重要的工作,不少人把它视 为近代统计学的开端.
2检验法是在总体X 的分布未知时,
根据来自总体的样本,检验关于总体分布 的假设的一种检验方法 K.皮尔逊
本章只介绍2拟合优度检验、柯尔莫哥洛夫以及
非参数假设检验方法
一、2拟合优度检验 二、柯尔莫哥洛夫 三、斯米尔诺夫检验 四、独立性检验
一、2拟合优度检验
适用范围广:一个离散、连续、正态总体都适用。
1、多项分布的2检法
离散总体
对一次抽样来说,
现在对总体X进行假设,即对X的分布律进行假设
由于频率是概率的近似表现,
那么当容量 n 较大时,
为什么用非参数方法?
• 那么,如何在不知道总体分布的情况下利用数据 本身的信息来进行假设检验呢? • 我们知道,一组数据最基本的信息就是次序。我 们把样本中各个数据按从小到大的顺序排列起来, 则每个数据都会在这个顺序数列中有它的位置或 次序,这个位置或次序就叫做秩。数据有多少个 观察值,就有多少个秩。 • 在一定的假设下,这些秩和它们的统计量的分布 是可以求出来的,而且和原来的总体分布无关。 这样就可以进行所需要的统计推断了。这就是本 节所讲的非参数假设检验的基本思想。
…
黄色纯系 子一代
…
绿色纯系
孟德尔
子二代
根据他的理论,子二代中, 黄、绿之比 近似为3:1, 他的一组观察结果为: 黄70,绿27 近似为2.59:1,与理论值相近. 由于随机性,观察结果与3:1总有些差距,因此有 必要去考察某一大小的差异是否已构成否定3:1理论的 充分根据,这就是如下的检验问题. 检验孟德尔的3:1理论:
又如,某钟表厂对生产的钟进行精确性检查,抽取100 个钟作试验,拨准后隔24小时以后进行检查,将每个钟的 误差(快或慢)按秒记录下来.
问该厂生产的钟的误差是否服从正态分布?
再如,某工厂制造一批骰子,声称 它是均匀的. 也就是说,在投掷中,出现1点,2 点,…,6点的概率都应是1/6.
为检验骰子是否均匀,要把骰子实地投掷若干次,统 计各点出现的频率与1/6的差距. 问题是:得到的数据能否说明“骰子均匀”的假设是可信的?
假设H0: p1=3/4, p2=1/4 H1: p1=3/4, p2=1/4至少一不成立
这里,n=70+27=97, k=2, 理论频数为: np1=72.75, np2=24.25 实测频数为70,27.
( fi npi )2 统计量 2 ( 2 1) npi i 1 按 =0.05,自由度为1,查2分布表得
此是 m = 3, n1 = 34, n2= 10, n3 = 20,n=64
例3 验证一枚骰子是否均匀。 电话号码的数字出现的概率等等问题。 采用分组离散化方法 若X的分布函数F(x)的具有明确表达式F0(x),不含未知参数。 根据样本信息推断X的分布函数是否为F0(x).
第一步:
第二步:计算
第三步:记数
第一步: 由样本进行参数的点估计后,将参数估计值代入分 布函数中,使得分布函数成为已知函数F0(x;) 。 第二步: 仿造情形 (2) 分组离散。令
第三步: 其中 m 为分组数,r 为分布函数中待估参数数.
一般有 n > 50,npi > 5最好 npi >10,否则应重新分组。 使得npi > 5最好 npi >10.
例1 某商场为了研究顾客对一类商品的某三种品牌商品的喜 好比例,以便为下次进货提供较科学的依据。现随机观 察购买此商品的150名顾客,并记录下其所买的品牌,统 计人数如下:
Βιβλιοθήκη Baidu
品 牌
甲
乙
丙
所购买的人数
61
53
36
依据这些数据,是否可以断定顾客对此三种品牌的商品喜好 确实存在着显著的差异?( = 0.05 )
2 2
自由度为m-1=1
20.05(1) =3.841
由于统计量2的实测值
2=0.4158<3.841, 未落入否定域.
故认为试验结果符合孟德尔的3:1理论. 这些试验及其它一些试验,都显 示孟德尔的3: 1理 论与实际是符合的. 这本身就是统计方法在科学中的一 项重要应用.
用于客观地评价理论上的某个结论是否与观察结果相符, 以作为该理论是否站得住脚的印证.
为什么用非参数方法?
• 非参数检验是针对参数检验而言的。从检验步 骤上讲,二者是一致的:它们都是对总体的某 种数量特征建立相应的原假设和备择假设,都 是在给定的显著性水平下,根据实际统计量来 判断对原假设的取舍。 • 二者的不同之处在于:参数检验需要对总体分 布作限制性的假定。这种假定实际就是要求总 体的分布类型已知,所不知道的只是其中的某 个参数,如均值或方差。而非参数检验并不要 求已知总体的分布信息,而是根据数据本身来 推断总体参数。
按=0.05,自由度为4-1-1=2查2分布表得 由于统计量的实测值
2.43
<5的要合并,即将发生3次及4次战争的组归并为一组.
2 =2.43<5.991, 未落入否定域.
故认为每年发生战争的次数X服从参数为0.69的泊松分布.
在此,我们以遗传学上的一项伟大发现为例,说明统计 方法在研究自然界和人类社会的规律性时,是起着积极的、 主动的作用. 奥地利生物学家孟德尔进行了长达八年之 久的豌豆杂交试验,并根据试验结果,运用他 的数理知识, 发现了遗传的基本规律.