《数理统计》第8章§6分布拟合检验
《概率论与数理统计》第八章 讲义
在统计学中把平方和中独立偏差个数称为该平方 和的自由度,常记为f,如Q的自由度为fQ=k1。 自由度是偏差平方和的一个重要参数。
Page 19
Chapter 8 方差分析与回归分析
四、总平方和分解公式
各yij间总的差异大小可用总偏差平方和 r m
ST ( yij y )2
Page 11
Chapter 8 方差分析与回归分析
单因子方差分析的统计模型:
yij i ij , i 1, 2,..., r , j 1, 2,..., m (8.1.3) 2 诸 相互独立,且都服从 N (0, ) ij
总均值与效应:
称诸
1 1 r i i 的平均 r (1 ... r ) r i 1
(8.1.19)
一般可将计算过程列表进行。
Page 27
Chapter 8 方差分析与回归分析
例8.1.2 采用例8.1.1的数据,将原始数据减去1000, 列表给出计算过程: 表8.1.4 例8.1.2的计算表
水 平 A1 A2 A3 73 107 93 数据(原始数据-1000) 9 92 29 60 1 2 90 22 12 74 32 9 122 29 28 1 48 Ti 194 585 354 1133 Ti
Page 6
Chapter 8 方差分析与回归分析
8.1.2 单因子方差分析的统计模型
在例8.1.1中我们只考察了一个因子,称其为 单因子试验。
通常,在单因子试验中,记因子为 A, 设其 有r个水平,记为A1, A2,…, Ar,在每一水平下 考察的指标可以看成一个总体 ,现有 r 个水 平,故有 r 个总体, 假定:
概率论课件分布拟合检验
基因表达分析
通过分布拟合检验,可以 对基因表达数据进行统计 分析,了解基因表达模式 和功能。
临床试验数据分析
在临床试验中,分布拟合 检验可用于分析药物疗效、 疾病发病率等数据。
其他应用场景
环境监测
在环境监测领域,分布拟合检验可用 于分析空气质量、水质等环境指标的 分布特征。
社会调查
在社会调查中,分布拟合检验可用于 分析人口普查、民意调查等数据,了 解社会现象和趋势。
本研究还发现,不同分布拟合检验方法在拟合效 果上存在差异,其中QQ图和概率图在判断分布拟 合优劣方面表现较好,而直方图在可视化展示方 面更具优势。
研究展望
在未来的研究中,可以进一步 探讨其他理论分布与实际数据 的拟合程度,以寻找更合适的
分布模型。
可以结合机器学习和人工智能 算法,对数据进行更深入的挖 掘和分析,以提高分布拟合检
分析结果表明,所选理论分布与实际数据存在一 定的拟合程度,但也存在一定的偏差。其中,正 态分布和指数分布与实际数据的拟合效果较好, 而泊松分布和威布尔分布的拟合效果相对较差。
在本研究中,我们采用了多种分布拟合检验方法 ,包括直方图、QQ图、概率图和统计检验等方法 ,对实际数据进行了深入的分析和比较。
通过绘制直方图和QQ图,可 以直观地观察数据分布与理论 分布的拟合程度。同时,计算 峰度系数和偏度系数等统计指 标,可以量化地评估分布拟合 程度。
案例二:人口普查数据分布拟合检验
• 总结词:人口普查数据分布拟合检验是评估人口数据质量和预测人口发 展趋势的重要手段。
• 详细描述:通过对人口普查数据进行分布拟合检验,可以判断人口数据 是否符合预期的分布形态,如年龄、性别、地区分布等,从而评估数据 质量和预测未来人口发展趋势。
概率论与数理统计 第8章
现在的问题就是要判别新产品的寿命是服从 μ >1500 的
正态分布,还是服从 μ ≤1500的正态分布? 若是前者,我们 就说新产品的寿命有显著性提高;若是后者,就说新产品的 寿命没有显著性提高。
定义 1 将对总体提出的某种假设称为原假设,记为 H 0 ; 将与原假设矛盾的假设称为备择假设,记为 H 1 。
在例 8-1 中,我们把涉及的两种情况用假设的形式表示
出来,第一个假设 μ ≤1500 表示采用新工艺后产品平均寿命没 有显著性提高,第二个假设 μ >1500 表示采用新工艺后产品平
均寿命有显著性提高。第一个假设为原假设,即“ H 0 :μ
定义 8 给定犯第一类错误的概率不大于 α 所作的假设 检验称为显著性检验,称 α 为显著性水平。 例 8-2 某车间用一台包装机包装食盐,每袋食盐的净 重是一个随机变量,它服从正态分布。当包装机正常时,其 均值为 0.5kg ,标准差为 0.015kg 。某日开工后为检查包装 机工作是否正常,随机地抽取它所包装的食盐 9 袋,称得样 本均值 ������ X =0. 511kg ,问在显著性水平 α =0.05 下,这 天包装机工作是否正常。
由于无论是第一类错误还是第二类错误都是作假设检验 时的随机事件,因此在假设检验中它们都有可能发生。我们 当然希望尽可能使犯两类错误的概率都很小,但一般来说, 当样本的容量固定时,若刻意地减少犯一类错误的概率,则 犯另一类错误的概率往往会增大。若要使两类错误的概率都 减小,就需增大样本的容量。在给定样本容量的情况下,我 们总是对犯第一类错误的概率加以控制,使它不大于 α , 而不关心犯第二类错误的概率 β是增大了还是减小了,这样 的假设检验就是显著性检验。
分布拟合
在前面的课程中,我们已经了解了假 设检验的基本思想,并讨论了当总体分布 为正态时,关于其中未知参数的假设检验 问题 .
然而可能遇到这样的情形,总体服从何 种理论分布并不知道,要求我们直接对总体 分布提出一个假设 .
例如,从1500到1931年的432年间,每年 爆发战争的次数可以看作一个随机变量,椐统 计,这432年间共爆发了299次战争,具体数据 如下:
若有r个未知参数需用相应的估计量来代 替,自由度就减少r个. 此时统计量 渐近(k-r-1)个自由度的 分布.
2 2
根据这个定理,对给定的显著性水平 , 2 2 查 分布表可得临界值 ,使得
P ( )
2 2
得拒绝域:
( k 1) (不需估计参数)
例1
在一个正二十面体的二十个面上,分别标有
数字0, 1, 2, …, 9. 每个数字在两个面上标出.
为检验其均匀性,作了800次投掷试验,数字0, 1,
2, …, 9朝正上方的次数如下: 数字 0 频数 74 1 92 2 83 3 79 4 80 5 73 6 77 7 75 8 76 9 91
2
使用 2检验法对总体分布进行检验时,
我们先提出原假设:
H0:总体X的分布函数为F(x) 然后根据样本的经验分布和所假设的理论分 布之间的吻合程度来决定是否接受原假设. 这种检验通常称作拟合优度检验,它是一 种非参数检验.
在用 2检验法 检验假设H0时,若在H0下 分布类型已知,但其参数未知,这时需要先 用极大似然估计法估计参数,然后作检验.
K-S检验的优势和劣势
• • • • 作为一种非参数方法,具有稳健性; 不依赖均值的位置; 对尺度化不敏感; 适用范围广(不像 t 检验仅局限于正态分布, 当数据偏离正态分布太多时t 检验会失效; • 比卡方更有效; • 如果数据确实服从正态分布,没有 t 检验敏感 (或有效)。
概率论与数理统计教案第八章
例8为比较新老品种的肥料对作物的效用有无显著差别,选用了各方面条件差不多的10个地块种上此作物.随机选用其中5块施上新肥料,而剩下的5块施上老肥料.等到收获时观察到施新肥的地块,平均年产333(单位:千斤),样本方差为32,施老肥的地块平均年产330,样本方差为40.假设作物产量服从正态分布,检验新肥是否比老肥效用上有显著提高(显著性水平 ).
点面朝上
1
2
3
4
5
6
出现次数
23
26
21
20
15
15
在 水平下,请问,这颗骰子是否是均匀的
例2在某细纱机上进行断点率测定,测验锭子总数为440,测得断头次数记录如下表:
每锭断头数
0
1
2
34Βιβλιοθήκη 5678
锭数(实测)
269
112
38
19
3
1
0
0
3
试问在显著性水平 下能否认为锭子的断头数服从泊松分布
例3某高校研究在校学生的体重,现随机抽取了100位学生,测得他们的体重(单位:kg)为
检验参数
原假设与备择假设
检验统计量
拒绝域
方差
已知
;
当 时,
或
;
;
未知
;
当 时,
或
;
;
3、两个正态总体均值差的假设检验问题可汇总如下表
检验参数
抽样分布
检验统计量
拒绝域
均值差
已知
;
当 时,
;
;
未知
;
当 时,
;
;
4、两个正态总体方差比的假设检验问题可汇总如下表
分布拟合检验
ˆ ˆ ˆ 大似然估计θ 1 ,θ 2 ,⋯,θ r ;
ˆ (2) 在 F ( x ,θ 1 ,θ 2 ,⋯,θ r ) 中用 θ i 代替θ i ( i = 1, 2,⋯, r ),
则 F ( x ,θ 1 ,θ 2 ,⋯,θ r ) 就变成完全已知的分布函数
ˆ ˆ ˆ F ( x ,θ 1 ,θ 2 ,⋯,θ r );
ˆ λ = x = 0.69.
按参数为0.69的泊松分布, 计算事件 X = i 的概率 pi , 的泊松分布, 按参数为 的泊松分布 pi 的估计是 pi = e −0.69 0.69i / i! , i = 0,1,2,3,4 ˆ 根据引例所给数表, 将有关计算结果列表如下: 根据引例所给数表, 将有关计算结果列表如下:
H 0 : 总体 X 的分布律为 P{ X = xi } = pi , i = 1,2,⋯;
如果总体分布为连续型, 如果总体分布为连续型, 则假设具体为 连续型
Hale Waihona Puke H 0 : 总体 X 的概率密度函数为 f ( x ).
然后根据样本的经验分布和所假设的理论分布之间 的吻合程度来决定是否接受原假设, 这种检验通常 的吻合程度来决定是否接受原假设 称作拟合优度检验, 称作拟合优度检验, 它是一种非参数检验. 拟合优度检验 它是一种非参数检验 非参数检验 一般地, 我们总是根据样本观察值用直方图和经验 一般地, 分布函数, 推断出可能服从的分布, 然后作检验. 分布函数, 推断出可能服从的分布, 然后作检验
χ 2 检验法 1900年发表的一篇文章中引进的所谓 年发表的一篇文章中引进的所谓
不少人把此项工作视为近代统计学的开端. 不少人把此项工作视为近代统计学的开端
年的432年间 年间, 到 年的 一 引例 从1500到1931年的 年间 每年爆发战争的 次数可以看作一个随机变量, 椐统计, 次数可以看作一个随机变量 椐统计 这432年间共 年间共 爆发了299次战争 具体数据如下: 次战争, 具体数据如下: 爆发了 次战争
第八章__假设检验(分布拟合检验)
2 0.05
(1)
=3.841
由于统计量 2的实测值
=2 0.4158<3.841,
未落入否定域.
故认为试验结果符合孟德尔的3:1理论.
这些试验及其它一些试验,都显 示孟德尔的3: 1理论与实际是符合的. 这本身就是统计方法在科学中的一项 重要应用.
用于客观地评价理论上的某个结论是否 与观察结果相符,以作为该理论是否站 得住脚的印证.
Σ
fi
pˆ i
npˆ i
50 0.2788 45.1656
npˆ i fi (npˆi fi )2 / npˆi
-4.8344 0.5175
31 0.2196 35.5752
ቤተ መጻሕፍቲ ባይዱ
4.5752 0.5884
26 0.1527 24.7374
-1.2626 0.0644
17 0.1062 17.2044
按 =0.05,自由度为4-1-1=2查 2 分布表得
2 0.05
(2)=5.991
由于统计量 2 的实测值
2=2.43<5.991,
未落入否定域.
故认为每年发生战争的次数X服从 参数为0.69的泊松分布.
例2. 我们以遗传学上的一项伟大发现为 例说明统计方法在研究自然界和人类社会的规 律性时,是起着积极的、主动的作用.
第八章 假设检验(续)
§4. 分布拟合检验
在前面的课程中,我们已经了解了假 设检验的基本思想,并讨论了当总体分布为 正态时,关于其中未知参数的假设检验问 题.
然而可能遇到这样的情形,总体服从何 种理论分布并不知道,要求我们直接对总体 分布提出一个假设 .
例1. 从1500到1931年的432年间,每年 爆发战争的次数可以看作一个随机变量,椐统 计,这432年间共爆发了299次战争, 数据如下:
分布拟合检验
随机变量 x 的偏度和峰度指的是 x 的标准化变 量[x-E(x)]/ D( x ) 的三阶中心矩和四阶中心矩: x - E(x) 3 E[( x E ( x )) 3 ] v1=E[( ) ]= , 3/ 2 ( D( x )) D(x) x - E(x) 4 E[( x E ( x )) 4 ] v2=E[( ) ]= . 2 ( D( x )) D(x) 当随机变量 x 服从正态分布时,v1=0 且 v2=3. 设 x1,x2,…,xn 是来自总体 x 的样本,则 v1,v2 的矩估 计分别是 g1=B3/B 3/2 , g2=B4/B 2 . 2 2 其中 Bk(k=2,3,4)是样本 k 阶中心矩,并分别称 g1, g2 为样本偏度和样本峰度.
例 1 在一实验中,每隔一定时间观察一次由某 种铀所放射的到达计数器上的 粒子数 x,共观察了 100 次,得结果如下表所示: 表 8.2 铀放射的 粒子数的实验记录 i 0 1 2 3 4 5 6 7 8 9 10 11 12 fi 1 5 16 17 26 11 9 9 2 1 2 1 0 Ai A0 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 其中 fi 是观察到有 i 个 粒子的次数。从理论上考虑 知 x 应服从泊松分布
155 149 141 142 141 147 149 140
158 158 140 137 149 146 138 142
解 为了粗略了解这些数据的分布情况,我们先根 据所给的数据画出直方图,下面就来介绍直方图。 上述数据的最小值、最大值分别为126、158,即所 有数据落在区间[126,158]上现取区间[124.5,159.5] ,它能覆盖区间[126,158]。将区间[124.5,159.5]等 分为7个小区间,小区间的长度记为 , (159.5 124.5) / 7 5. 称为组距。小区间的端点称为组限。数出落在每个 小区间内的数据频数 f i ,算出频率 f i / n / n( n 84, i 1,2,,7) 如下表
《概率论与数理统计》课程教案
现在2=363. 37-360=3.37,k=4,20.1(4-1)=6. 251>3.37,故接受H0,认为两性状符合孟德尔遗传规律中9:3:3:1的遗传比例.
第三部分分布族的2拟合检验法(40分钟)
(二)分布族的2拟合检验
在(一)中要检验的原假设是H0:总体X的分布函数是F(x),其中F(x)是已知的,这种情况是不多的.我们经常遇到的所需检验的原假设是
H0:总体X服从泊松分布
解因在H0中参数未具体给出,所以先估计.由最大似然估计法得 .在H0假设下,即在X服从泊松分布的假设下,X所有可能取的值为Ω ={0,1,2,…},将Ω分成如表8-4所示的两两不相交的子集A0,A1,…A12.则P{X=i}有估计
例如
表8-5例3的2拟合检验计算表
Ai
fi
A0
皮尔逊定理及其应用
教学方法
提问、讲授、启发、讨论
工具仪器
多媒体教具、教材、教案、教学课件、考勤表、平时成绩登记表
教学安排
考勤、复习相关知识点、新课内容概述、组织教学、布置作业、课后小结
教学过程
教学组织、具体教学内容及教学方法、手段、时间分配及其它说明
备 注
第一部分:旧知识点复习和新课内容概述(5分钟)
(6.2)
的统计量来度量样本与H0中所假设的分布的吻合程度,其中Ci(i=1,2,…k)为给定的常数。皮尔逊证明,如果选取Ci=n/pi(i=1,2,…k),则由(6.2)定义的统计量具有下述定理中所述的简单性质。于是我们就采用
2= = (6.3)
作为检验统计量。
定理若n充分大,则当H0为真时统计量(6.3)近似服从2(k-1)分布。(证略)
表8-3例2的2检验计算表
分布拟合检验简介
分布拟合检验简介重点:分布拟合检验方法在很多场合下,我们连总体服从什么分布也无法知道,这时我们需要对总体的分布进行检验,这正是分布拟合检验要解决的问题。
一、 分布拟合检验的方法二、 例题例1 在某一实验中,每隔一定时间观测一次某种铀所放射的到达计数器上的α粒子数X ,共观测了100次,得结果如下表所示其中n i 为观测到i 个粒子的次数。
从理论上考虑,X 应服从泊松分布,问这种理论上的推断是否符合实际(取显著性水平α=0.05)解:原假设H 0:X 服从泊松分布 ,1,0,!}{===-i i e i X P iλλλ的极大似然估计值为2.4ˆ==x λ。
当H 0为真时,P{X=i}的估计值为 ,1,0,!2.4ˆ2.4==-i i e p i 。
2χ的计算如下表所示。
查表可得592.12205.0=χ由于592.128215.62<=χ,故在显著性水平α=0.05下接受H 0,即认为理论上的推断符合实际例2 自1965年1月1日至1971年2月9日共2231天中,全世界记录到的里氏震级4级和4级以上地震计162次,统计如下:试检验相继两次地震间隔天数是否服从指数分布?取显著性水平α=0.05解:原假设H 0:X 的概率密度为⎪⎩⎪⎨⎧<>=-0 x 00 x )(x e x f λλλ的极大似然估计值为0726.0ˆ=λX 是连续性随机变量,将X 可能取值的空间(0,+∞)分为k=9个互不重叠的子区间921,,,A A A当H 0为真时,X 的分布函数为⎪⎩⎪⎨⎧≤>-=-0 x 00 x 1)(ˆ0726.0x e x F 由上式可得概率p i =P{X ∈A i }的估计值i pˆ,将计算结果列表如下查表可得067.14)7(205.0=χ067.145631.12<=χ故在显著性水平α=0.05下接受H 0,即认为X 服从指数分布。
分布拟合检验
例 有 1000 人按性别和是否色盲分类如下: 男 正常 色盲 女
442
514
38
6
按照遗传学模型,这些数字应有下列相对的概率:
p , 2
p2 pq, 2
q , 2
q2 , 2
其中 q 1 p .问数据是否与模型相符合?
16
本题所要检验的假设为
p H 0 : p1 , 2
其中 p1,
i 1 r
在 H 0 成立时, n 个个体中属于 Ai 类的“期望个数”应当为
n pi , i 1, 2, , r .在统计学中, n pi 称为理论频
数; ni 称为实际频数.在假设 H 0 为真时,实际频数 ni 应接近 于理论频数 n pi .
7
Pearson 提出用
由于 1 r 1 0.95 3 7.81 0.47 ,所以不拒绝 H 0 ,可
2 2
315 312.75
2
2
108 104.25
2
以认为 Mendel 的理论是正确的.
12
为方便计算,可列出如下的表格: 表1 Mendel 豌豆试验的 2 检验计算表
2 i 1
r
ni n pi
n pi
2
作为衡量实际频数与理论频数的偏差的综合指标.在假设
H 0 为真时, 2 的值倾向于较小;否则,就倾向于取较大
的值.因此检验的拒绝域应当为
W1 x1, x2 , , xn : c .
2
8
Pearson 证明了下面的极限定理,根据这个 定
因此检验的拒绝域为
W1 x1, x2 , , xn : 2 5.991 .
分布拟合检验
8
p ˆ9F ˆ(A 9)1 F ˆ(A i)0.05,68
i1
216 .53 61 36 3 12 .56, 3k 38,r1,
2(k r 1 )0 2 .0(5 6 ) 1.5 29 1 .5 26 , 33
故在水平 0.05 下接受 H0 ,
认为样本服从指数分布.
例4 下面列出了84个依特拉斯坎人男子的头颅的最大宽度(mm), 试验证这些数据是否来自正态总体?
H0
:
X的概率密f度 (x)
1ex
,
0,
x 0, x 0.
由H 于 0 中在 参 未数 具 ,故 体 先 .给 估 出
由最大似然估计法得
ˆx22311.37,7
162
X 为连续型随机变量,
将 X可能取 [0 ,值 )分 区 k为 9 间 个互不 的子 [ai,区 ai1)i,间 1,2, ,9. (见下页表)
16.3
0.114
11.4
0.069
6.9
0.036
3.6
0.017
1.7
0.007
0.7
0.003
0.002
0.3 0.2
fi2 / npˆi
19.394 15.622 34.845 7.423 7.105 11.739
其中有 npˆi 些 5的组予,以 使合 得并 每组均 nip5,如表中第四示 列 . 化括号所
2. 2检验法的基本思想
将随机试验可能结果的 全体 分为 k 个互不
k
相容的事件 A1 , A2 ,, An ( Ai , Ai Aj , i j,
i1
i, j 1, 2,, k ). 于是在假设 H 0 下, 我们可以计算
分布拟合检验
分布拟合检验1.检验数据是否服从正态分布一、图示法1、P-P图以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。
如果资料服从整体分布,则样本点应围绕第一象限的对角线分布。
2、Q-Q图以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。
如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。
以上两种方法以Q-Q图为佳,效率较高。
3、直方图判断方法:是否以钟形分布,同时可以选择输出正态性曲线。
4、箱式图判断方法:观测离群值和中位数。
5、茎叶图类似与直方图,但实质不同。
二、计算法1、偏度系数(Skewness)和峰度系数(Kurtosis)计算公式:g1表示偏度,g2表示峰度,通过计算g1和g2及其标准误σg1及σg2然后作U检验。
两种检验同时得出U<U0.05=1.96,即p>0.05的结论时,才可以认为该组资料服从正态分布。
由公式可见,部分文献中所说的“偏度和峰度都接近0……可以认为……近似服从正态分布”并不严谨。
2、非参数检验方法非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro- Wilk(W 检验)。
SAS中规定:当样本含量n≤2000时,结果以Shapiro – Wilk(W检验)为准,当样本含量n >2000时,结果以Kolmogorov – Smirnov(D检验)为准。
SPSS中则这样规定:(1)如果指定的是非整数权重,则在加权样本大小位于3和50之间时,计算Shapiro-Wilk统计量。
对于无权重或整数权重,在加权样本大小位于3和5000之间时,计算该统计量。
由此可见,部分SPSS教材里面关于“Shapiro –Wilk适用于样本量3-50之间的数据”的说法是在是理解片面,误人子弟。
(2)单样本Kolmogorov-Smirnov检验可用于检验变量(例如income)是否为正态分布。
《数理统计》第8章§6分布拟合检验
§6
分布拟合检验
7/7
11,13,18,19, 11,13,18,19,23
第八章 假设检验
�
第八章 假设检验
§6
分布拟合检验
2/7
χ2
通常认为一个班的某课程的考试成绩 X 服从正态 分布,但事实是否真的如此? 分布,但事实是否真的如此?有必要检验假设 H0 : ~ N(,σ 2 ) X 考察某台电子仪器的无故障时间 12 次,得数据
28, 42, 54, 92, 138, 159, 169, 181, 210, 234, 236, 266
i =1
第八章 假设检验
§6
分布拟合检验
4/7
设 X1, X 2,, Xn为离散型总体 X的样本 , X 的分布律 未知, 未知,要检验假设
H0: {X = ai} = pi , H1: {X = ai} ≠ pi (i =1,2,, k ) P P k 均已知, 其中 a i , pi (1, 2, , k)均已知,且 ∑ pi =1
§6
2 k
分布拟合检验
5/7
( f i npi )2 统计量 χ = ∑ npi 的近似分布是 χ2 (k r 1) ,其中 r i =1 是被估计参数的个数. 是被估计参数的个数. 一般当 n ≥ 50 就认为 χ2 ~ χ2 (k r 1)
H0的拒绝域是 k ( f np )2 i ∑ npi i > χ12α (k r 1) i =1
§6
分布拟合检验
1/7
设 X1, X2 , , Xn 是总体 X ~ f (x ,θ ) 的样本 的形式已知, 未知, 如果 f 的形式已知,只有参数 θ 未知,则可通过点估 计,区间估计,参数假设检验等方法对 θ 进行统计推断 区间估计, 如果 f 的形式未知,怎样对总体进行统计推断 的形式未知,
分布拟合检验-PPT课件
i1
(xi x)2
( 0 W 1 )
正态性W检验方法
3、计算样本观测统计量值 4、判断
由于0<W<1,在H0为真时,W接近1,W值过小应拒 绝H0
当 p , 拒 绝 H ; p , 不 能 拒 绝 H 0 0
p PW ( W ) 1 H 0 0
请看SAS实现部分
当 p , 拒 绝 H ; p , 不 能 拒 绝 H 0 0
p P ( ( l k1 ) )
2 2 0
经验分布拟合检验方法
2 拟合优度检验是针对, pF () a F ( a ) , i 1 , 2 , … , l i 0 i 0 i 1
即对各段概率正确性的检验,而经验分布拟合检验 是直接针对H0:F(x)=F0(x)的检验。 理论依据:经验分布函数Fn(x)依概率收敛于分 布函数F(x) 出发点:经验分布函数Fn(x)与原假设中理论 分布函数F0(x)之间的距离。 1、假设
数据的分布拟合检 验与正态性检验
总体分布服从正态分布或总体分布已知 条件下的统计检验,称为参数检验。 但是在数据探索分析中,我们需要拟合的 正是数据的分布。这就要用到非参数假设检 验——分布拟合检验(用于检验样本观测值 是否来自某种给定分布)。 常用的分布拟合检验方法有 2 检验, 经验分布拟合检验法,以及正态性W检验法 。
1、提出假设
H0:F(x)=F0(x),H1:F(x)≠F0(x)
2、构造检验统计量
其中, m i 和 np i 频数 p F a ) 1 0( 1
2 ( m np ) i 2 = i npi i1 分别为第i组的样本频数和理论 l
p F a F a ) ,i 23... , , , l 1 i 0( i) 0( i 1 p 1 F a ) l 0( l 1
8.6分布拟合检验与独立性检验
k = 8, r = 1,
2 χ α ( k − r − 1) = χ 02.05 (6) = 12.592 > 1.5633,
故在水平 0.05 下接受 H0 , 认为样本服从指数分布. 认为样本服从指数分布
例4 下面列出了 个依特拉斯坎人男子的头颅 下面列出了84个依特拉斯坎人男子的头颅 的最大宽度(mm), 试验证这些数据是否来自正 的最大宽度 (α = 0.1) 态总体? 态总体 141 148 132 138 154 142 150 146 155 158 150 140 147 148 144 150 149 145 149 158 143 141 144 144 126 140 144 142 141 140 145 135 147 146 141 136 140 146 142 137 148 154 137 139 143 140 131 143 141 149 148 135 148 152 143 144 141 143 147 146 150 132 142 142 143 153 149 146 149 138 142 149 142 137 134 144 146 147 140 142 140 137 152 145
(4) 在使用 χ 2检验法检验假设 H 0 时, 若 F ( x ) 的 形式已知, 但其参数值未知 , 需要先用最大似 然估计法估计参数 , 然后作检验 .
2. χ 2检验法的基本思想
将随机试验可能结果的 全体 Ω 分为 k 个互不 相容的事件 A1 , A2 ,⋯, An ( ∑ Ai = Ω , Ai A j = ∅ , i ≠ j ,
取 Ω i = { i } , ( i = 1, 2,⋯,6 )
则事件 Ai = {X ∈ Ω i } = { X = i } ( i = 1,2,⋯,6) 为 互不相容事件 .
第八章 分布检验和拟合优度 检验
2
其中 n ( x) S ( x) F0 ( x) 在零假设下, W 2 ,U 2 的分布和F0 ( x)的分布无关. 注: nD2 2 和 U 2 的渐近分布一样; 4nD2 2 和 两个独立的 W 2 统计量的和的渐近分布一样.
关于正态分布的一些其他检验和相应的R程序
S ( x)
i
n
针对上面三种检验,检验统计量分别为 :
D sup x ( F0 ( x) S ( x)) D sup x F0 ( x) S ( x) D sup x ( S ( x) F0 ( x))
在零假设下,统计量D的分布对于一切连续分布F0 ( x) 是一样的
min i ni
分 时,Q趋于 (k 1)
2
例题
例8.3 某饭店想知道他的顾客用电话是否服从 Possion分布,在他们计算机上(n=908)获得一 个小时内打电话得数据:
打电话次数 相应的人数 0 1 2 3 490 334 68 16
15.04 15.36 14.57 14.53 15.57 14.69 15.37 14.66 14.52 15.41 15.34 14.28 15.01 14.76 14.38 15.87 13.66 14.97 15.29 14.95
按照设计要求,内径应该为15±0.2mm。 问题:检验一下这个数据是否来自均值为15,方差为0.04 的正态分布?
8.1 Kolmogrov-Smirnov单样本检验及一些正态性检验
设真实分布为F(x),假设问题:
F ( x) F0 ( x) H 0 : F ( x) F0 ( x) H1 : F ( x) F0 ( x) F ( x) F ( x) 0
第8章 假设检验8.6 分布拟合检验
χ2 ≥ G
(G为正常数 ) .
对于给定的显著性水平 α , 确定 使 确定G P {当H 0为真时拒绝 H 0 } = PH 0 { χ 2 ≥ G } =α
2 由上述定理得 G = χ 0 ( k − 1).
即当样本观察值使 式中的 χ 2的值有
有差异, 但一般来说 , 若 H 0 为真 , 且试验次数又多 fi 这种差异不应太大, 时 , 这种差异不应太大 因此 ( − p ) 2 不应太大 , n 我们采用形如
fi C i ( − p) 2 ∑ n i =1 的统计量来度量样本与 H 0 中所假设的分布的
k
吻合程度 , 其中C i 为给定的常数 .
X pk
1
9 16
2
3 16
3
3 16
4
1 16
取显著性水平为0.1. 所需计算列表如下 所需计算列表如下(n=360) 取显著性水平为
Ai A1
fi
192 78 72 18
pi
9 16 3 16 3 16 1 16
npi
360 × 9 16 = 202.5 360 × 3 16 = 67.5
A2 A3 A4
ˆ 求出pi的估计值 pi = P ( Ai ), k f i2 χ2 = ∑ −n i =1 np i
可以证明, 作为检验假设 H 0的统计量 . 可以证明 在某些条 件下, 件下, H 0为真时近似地有 在
fi χ =∑ − n ~ χ 2 ( k − r − 1) i =1 np i
2
k
2
与在一中一样可得假设检验问题的拒绝域为
第六节
分布拟合检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
f
2 i
npi
k
2n i 1
fi pi npi
n2
k
i 1
pi2 npi
k
i 1
f
2 i
npi
n
对连续型总体可离散化处理 第八章 假设检验
§6 分布拟合检验
6/7
一箱子中有 种球10分别标有号码 从1箱~ 1中0.有放回
地摸球 次,得2如00下数据:
种类 ai 1 2 3 4 5 6 7 8 9 10
频数 f i 35 16 15 17 17 19 11 16 30 24
问能否认为箱中各种球的个数相同?( 0.05)
设若X表箱示中摸各出种球球的的种个类数,则相同这的X,三那取种么值球每为明次显摸1,偏出2, 多任 ,1何0
依题意要检验一假种设球是等可能的
Pears箱o现n中k2各统 1种记计0,球n量X表的H观示20个:0察每0P数,值{r次X相为摸0同,i出}pi 的1/1球110P0,{的nXp(号ii=i码2}10,21,(,110则,1(i0i )
H0:F(x) F0(x) , H1:F(x) F0(x)
其中 F0(x) 1 ex (x 0) 为指数分布函数.
2
第八章 假设检验
§6 分布拟合检验
3/7
设总体 X ~ F(x) (F(x)未知),要检验假设
H0:F(x) F0(x) , H1:F(x) F0(x)
其中 F0(为x) 某已知分布函数. 若 F0(含x) 未知参数 1,2,,r,则用 ML代E之,即
§6 分布拟合检验
1/7
设 X1, X2, , Xn 是总体 X ~ f (x , ) 的样本
如果 的f形式已知,只有参数 未知 ,则可通过点估计、 区间估计、参数假设检验等方法对 进行统计推断
如果 f 的形式未知,怎样对总体进行统计推断
第八章 假设检验
§6 分布拟合检验
2/7
2
通常认为一个班的某课程的考试成绩 服从X正态分布, 但事实是否真的如此?有必要检验假设
统计量
2
k
i 1
(
fi
npi )2 npi
的近似分布是
2 (k 1)
,其中 k
是被估计参数的个数.
一般当 n 5就0 认为 2 ~ 2 (k 1)
H0的拒绝域是
k
(
f
i
i 1
npnipi )2
2 1
(k
1)
2的计算
称为 Pearson 2
2
k
i 1
(
fi
npnipi )2
拟合优度检验
k
i 1
10) 1, 2,
,10)
2
k
i 1
f
2 i
npi
n
1 20
10
i 1
f
2 i
n
224.9
200
24.9
16.919
2 0.95
(9)
故拒绝 H即0 , 认为箱中各种球的个数不相同第八. 章 假设检验
F0(x) F0(x ,ˆ1,ˆ2,,ˆr)
X ~ f (x) (密度函数 f (未x) 知 ),要检验
H0:f (x) f0(x) ,H1:f (x) f0(x)
其中 f0(为x) 某已知的密度函数. X (X 的分布律未知 ),要检验假设
H0:P{X ai} pi , H1:P{X ai} pi (i 1, 2,, k)
H0:X ~ N (, 2 ) 考察某台电子仪器的无故障时间 12次,得数据
28, 42, 54, 92, 138, 159, 169, 181, 210, 234, 236, 266
问该仪器的无故障时间服从什么分布? 设仪器的无故障时间 X ~ F(x) (F(x) 未知 )
通常认为寿命服从指数分布,故提出假设
ai} 1
pi
(i 1, 2,,k)
fi X1, X2, , Xn 中取 a值i 的个数 (i 1, 2, , k)
频数 f是i r.v (1 i k),且 f1 f 2 fk n
若 H成0 立,即 P{X ai} pi (1 i k ),依大数定律有
事 发则件生的{Xf频i /n率ai}pi
其中 a i , pi (1,2均, 已, k知) ,且
k
pi
1
i 1
第八章 假设检验
§6 分布拟合检验
4/7
设 X1, X 2,, Xn为离散型总体 X的样本 ,的X分布律 未知,要检验假设
其中 a i ,
pi
H0:P{X ai}
(1,2均, 已, k知) ,且 记
pi
,
H1:P{X
k
pi
i 1
fi n
P
pi
(n )
f i npi 事|件f i {nXpi |a应i}偏小
若 的2 值偏大Pe实,a则r际so要n频拒数2统绝计2 量Hik01理(2f服i论n发从pn频ip生什i )数2的么应概分第偏称 统八布率小为 计章 量P假ea设rs检on验2
§6 分布拟合检验
5/7
不论总体服从什么分布, Pearson 2