§3-3 非参数假设检验方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0.0118 0.032 0.100 0.2235 0.3294 0.1941 0.0647 0.0294 0.0151
14 18 22 26 30 34 38 42 46
-2.2388 -1.6798 -0.9807 -0.2817 0.4173 1.1164 1.8154 2.5144 3.2134
第四步:检验 H0的拒绝域为 定理2 (R.A.Fisher)
让我们回到检验每年爆发战争次数分布是否服从泊松分布. 假设H0: X~P()
根据观察结果,得参数 的极大似然估计为 ,i=0,1,2,3,4
=0.69
按参数为 =0.69的泊松分布,计算事件X= i 的概率 pi , pi的估计是 将有关计算结果列表如下:
为此在1900年,英国统计学家 Karl Pearson 首先提出
从该统计量直观上判断有,
另外,用该统计量对总体分布律进行检验,还必须知道 其分布。 Pearson给出了其渐近分布。
定理1
由此可以建立 H0 的拒绝域
只要给定一组样本观察值,代入检验统计量计算后,就 能得出结论。
例1 某商场为了研究顾客对一类商品的某三种品牌商品的喜 好比例,以便为下次进货提供较科学的依据。现随机观 察购买此商品的150名顾客,并记录下其所买的品牌,统 计人数如下:
按=0.05,自由度为4-1-1=2查2分布表得 由于统计量的实测值
2.43
<5的要合并,即将发生3次及4次战争的组归并为一组.
2 =2.43<5.991, 未落入否定域.
故认为每年发生战争的次数X服从参数为0.69的泊松分布.
在此,我们以遗传学上的一项伟大发现为例,说明统计 方法在研究自然界和人类社会的规律性时,是起着积极的、 主动的作用. 奥地利生物学家孟德尔进行了长达八年之 久的豌豆杂交试验,并根据试验结果,运用他 的数理知识, 发现了遗传的基本规律.
例5 某种动物的后代按体格的属性分为三类,据观察某一群此 类动物其中各类的数目分别为10,53,46. 按照遗传模型其各 类的频率应为 p2:2p(1-p):(1-p)2,问这些数据是否与此模型 相吻合。在=0.05的显著性水平。 解 (1) 用最大似然估计法估计参数p.
例5 某种动物的后代按体格的属性分为三类,据观察某一群此 类动物其中各类的数目分别为10,53,46. 按照遗传模型其各 类的频率应为 p2:2p(1-p):(1-p)2,问这些数据是否与此模型 相吻合。在=0.05的显著性水平。 解 (1) 用最大似然估计法估计参数p (2) 计算 (3) 假设 (4) 计算2
(4) 2拟合优度检验法的特点
1) 适用面广,离散和连续总体均可以使用,是考察实测 频率与理论频率的差异。 2) 此法从本质上看,只是检验了理论分布函数的 而未真正检验
然而虽然样本与分组情况都具有随机性,但是当分布函 数较为光滑时,即使F(x)与F0(x)有差异,也不应该太大。 故此法虽有误差,但是常用的方法之一。 3) 2拟合优度检验法依赖于区间的划分,即依赖与分组情况。 即使 ,但若恰好在分组点处的两函数值相 差不大,即便H0是不真,但2的检验统计值不改变。从而 2拟合优度检验法的精度不高,容易范取伪错误。
第一步: 由样本进行参数的点估计后,将参数估计值代入分 布函数中,使得分布函数成为已知函数F0(x;) 。 第二步: 仿造情形 (2) 分组离散。令
第三步: 其中 m 为分组数,r 为分布函数中待估参数数.
一般有 n > 50,npi > 5最好 npi >10,否则应重新分组。 使得npi > 5最好 npi >10.
…
黄色纯系 子一代
…
绿色纯系
孟德尔
子二代
根据他的理论,子二代中, 黄、绿之比 近似为3:1, 他的一组观察结果为: 黄70,绿27 近似为2.59:1,与理论值相近. 由于随机性,观察结果与3:1总有些差距,因此有 必要去考察某一大小的差异是否已构成否定3:1理论的 充分根据,这就是如下的检验问题. 检验孟德尔的3:1理论:
斯米尔诺夫检验、独立性检验方法。
除此还有:符号检验、游程检验、秩和检验等等。
一、2拟合优度检验
适用范围广:一个离散、连续、正态总体都适用。
1、多项分布的2检法
离散总体
对一次抽样来说,
现在对总体X进行假设,即对X的分布律进行假设
由于频率是概率的近似表现,
那么当容量 n 较大时,
pi0
类似于以前的检验方法,取一个标准化的度量。
例如,从1500到1931年的432年间,每年爆发战争的 次数可以看作一个随机变量,椐统计,这432年间共爆发 了299次战争,具体数据如下: 战争次数X 0 1 2 3 4 发生 X次战争的年数 223 142 48 15 4
在概率论中,大家对泊松分布产生的一般条件已有所了 解,容易想到,每年爆发战争的次数,可以用一个泊松随机 变量来近似描述 . 也就是说,我们可以假设每年爆发战争次 数分布X近似泊松分布. 现在的问题是:上面的数据能否证实X 具有泊松分布的假设 是正确的?
类别 一 12.2189 2.2189 0.4029
二
三
48.5595
48.2216
4.4405
-2.2216
0.4061
0.1024
例5 某种动物的后代按体格的属性分为三类,据观察某一群此 类动物其中各类的数目分别为10,53,46. 按照遗传模型其各 类的频率应为 p2:2p(1-p):(1-p)2,问这些数据是否与此模型 相吻合。在=0.05的显著性水平。 解 (1) 用最大似然估计法估计参数p. (2) 计算 (3) 假设 (4) 计算2 (5) H0的拒绝域 (6) 结论 接受H0,认为此数据基本符合模型的。
假设H0: p1=3/4, p2=1/4 H1: p1=3/4, p2=1/4至少一不成立
这里,n=70+27=97, k=2, 理论频数为: np1=72.75, np2=24.25 实测频数为70,27.
( fi npi )2 统计量 2 ( 2 1) npi i 1 按 =0.05,自由度为1,查2分布表得
品 牌
甲
乙
丙
所购买的人数
61
53
36
依据这些数据,是否可以断定顾客对此三种品牌的商品喜好 确实存在着显著的差异?( = 0.05 )
解
若对此三种品牌的商品喜好确实不存在着显著的差异
就意味着,对三种品牌的商品喜好比例 p1, p2 , p3相等。
此是 m = 3, n1 = 61, n2= 53, n3 = 36,n=150
又如,某钟表厂对生产的钟进行精确性检查,抽取100 个钟作试验,拨准后隔24小时以后进行检查,将每个钟的 误差(快或慢)按秒记录下来.
问该厂生产的钟的误差是否服从正态分布?
再如,某工厂制造一批骰子,声称 它是均匀的. 也就是说,在投掷中,出现1点,2 点,…,6点的概率都应是1/6.
为检验骰子是否均匀,要把骰子实地投掷若干次,统 计各点出现的频率与1/6的差距. 问题是:得到的数据能否说明“骰子均匀”的假设是可信的?
二、柯尔莫哥洛夫检验
为了进一步提高精度,柯尔莫哥洛夫针对一个总体的分 布函数,在采用分组离散化后利用经验分布函数的性质的方 法,较完整的考察了经验分布函数Fn(x)与理论分布函数F(x) 的差异。提高了检验的精度。但假定分布函数是连续的。 设总体X的分布函数F(x)连续,
故可以选用
定理3 设分布函数F(x)连续,则
抽取次数X 试验累计数
解
1 43
2 31
3 15
4 6
5 5
若两色球个数相等,则每次取到白球的概率为1/2 以抽取次数X为考查对象,则X服从几何分布,即
计算得
此是 m = 5, n1 = 43, n2= 31, n3 =15, n4 = 6,n5= 5, n=100
结论:接受H0
计算有
(3) 若X的分布函数F(x)的具有明确表达式F0(x;),但含 r 个 未知参数。根据样本信息推断X的分布函数是否为F0(x).
0.0118 0.0438 0.1438 0.3673 0.6967 0.8906 0.9555 0.9845 1.0000
0.0126 0.0465 0.1635 0.3897 0.6628 0.8686 0.9656 0.9940 0.9993
§3.3 非参数假设检验方法
一、2拟合优度检验 二、柯尔莫哥洛夫 三、斯米尔诺夫检验 四、独立性检验
在前面的课程中,我们已经了解了假设检验的基本思 想,并讨论了当总体分布为正态时,关于其中未知参数的 假设检验问题 .
然而可能遇到这样的情形,总体服从何种理论分布并 不知道,要求我们直接对总体分布形式提出种种假设,然 后利用样本信息对假设进行检验。 在统计学中把不依赖于分布形式的统计方法称为非参数 统计。对总体的分布形式的检验就是非参数检验。
战争次数 x 实测频数 fi pi npi
0 1 2 223 142 48 0.58 0.31 0.18 216.7 149.5 51.6
3 4 15 4 0.01 0.02 12.0 2.16
14.16 ( f i npi )2 0.183 0.376 0.251 1.623 npi 因H0所假设的理论分布中有一个未知参数,
38~42 42~46
组间值
株数
12
4
16
11
20
34
24
76
28
112
32
66
36
22
49
10
44
5
试用柯尔莫哥洛夫检验法检验该林区的树木胸径是否服从正态 分布(=0.05) 解 (1)
解
频率 组号 分组值 组上限 标准化 经验函数 理论函数
1 2 3 4 5 6 7 8 9
10~14 14~18 18~22 22~26 26~30 30~34 34~38 38~42 42~46
此是 m = 3, n1 = 34, n2= 10, n3 = 20,n=64
例3 验证一枚骰子是否均匀。 电话号码的数字出现的概率等等问题。 采用分组离散化方法 若X的分布函数F(x)的具有明确表达式F0(x),不含未知参数。 根据样本信息推断X的分布函数是否为F0(x).
第一步:
第二步:计算
第三步:记数
由于6.52 > 5.991
故有理由拒绝H0
认为顾客对此三种品牌的商品喜好确实存在着显著的差异.
例2 64只某种杂交的几内亚猪的后代,其中34只红色,10只 黑色,20只白色,根据遗传模型,它们之间的比例应为 9:3:4,问以上数据在0.05的水平下体现的与遗传模型是否 吻合。 认为基本吻合 解 若基本吻合,则p1=9/16, p2 =3/16 ,p3 =4/16
定理4 设分布函数F(x)连续,则
1、选用Dn为检验统计量,假设H0的拒绝域为:
2、当n>40或100时,可得一近似求Dn,值方法
假设H0的拒绝域仍为: 即 此种方法虽较精确,但计算量较大。
例6 某林区中,随机抽取340株树木组成的样本,测其胸径, 经整理后数据统计如下:
胸径分 10~14 14~18 18~22 22~26 26~30 30~34 34~38 组(cm)
2 2
自由度为m-1=1
20.05(1) =3.841
wenku.baidu.com
由于统计量2的实测值
2=0.4158<3.841, 未落入否定域.
故认为试验结果符合孟德尔的3:1理论. 这些试验及其它一些试验,都显 示孟德尔的3: 1理 论与实际是符合的. 这本身就是统计方法在科学中的一 项重要应用.
用于客观地评价理论上的某个结论是否与观察结果相符, 以作为该理论是否站得住脚的印证.
第四步:检验
其中m为分组数 H0的拒绝域为
一般有 n > 50,npi > 5最好 npi >10,否则应重新分组。 使得npi > 5最好 npi >10.
例4 在一个暗盒中存放有白色与黑色两色乒乓球,问该盒中的 白、黑球的个数是否相等?为此作以下试验,用不返回抽 取发式从此盒中取球,直到取出的球是白色球为止,并记 录下抽取的次数。共重复独立试验了100次,结果如下:
解决这类问题的工具是英国统计学家K.皮尔逊在1900年
发表的一篇文章中引进的所谓 2检验法. 这是一项很重要的工作,不少人把它视 为近代统计学的开端.
2检验法是在总体X 的分布未知时,
根据来自总体的样本,检验关于总体分布 的假设的一种检验方法 K.皮尔逊
本章只介绍2拟合优度检验、柯尔莫哥洛夫以及