数据分布拟合
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据分布拟合检验的数学模型
摘 要
假设检验的基本思想,讨论当总体分布为正态时,关于其中未知参数的假设
检验问题,可能遇到这样的情形,总体服从何种理论分布并不知道,要求我们直
接对总体分布提出一个假设 。
一般的各种检验法, 是在总体分布类型已知的情况下, 对其中的未知参数
进行检验, 这类统计检验法统称为参数检验. 在实际问题中, 有时我们并不能
确切预知总体服从何种分布, 这时就需要根据来自总体的样本对总体的分布进
行推断, 以判断总体服从何种分布。
这类统计检验称为非参数检验. 解决这类问题的工具之一是英国统计学家
K. 皮尔逊在1900年发表的一篇文章中引进的——2χ检验法。
关键词:数据检验 分布拟合 2χ检验法
一、问题重述
①、问题背景:
自1965年1月1日至1971年2月9日共2231天中,全世界记录到里氏震
级4级和4级以上地震计162次,统计如下:
相继两次地震记录表:
8
6681017263150403935343029252420191514109540出现的频率间隔天数--------x 试检验相继两次地震间隔的天数X 服从指数分布(=α0.05)。
在概率论中,大家对泊松分布产生的一般条件已有所了解,容易想到,每年
的次数,可以用一个泊松随机变量来近似描述。也就是说,我们可以假设每年爆
发战争次数分布X 近似泊松分布。
现在的问题是:上面的数据能否证实X 具有泊松分布的假设是正确的?
②、检验法的基本思想
检验法是在总体X 的分布未知时, 根据来自总体的样本, 检验总体分布的
假设的一2χ种检验方法。具体进行检验时,先提出原假设:
0H : 总体X 的分布函数为)(x F
然后根据样本经验分布和所假设的理论分布之间的吻合程度来决定是否接
受原假设。
这种检验通常称作拟合优度检验. 它是一种非参数检验. 一般地, 我们总
是根据样本观察值用直方图和经验分布函数, 推断出总体可能服从的分布, 然
后作检验.
1、 通过提出的方案和计算来决定给出数据分布拟合检验的数学模型的的
情况。
2、 对此模型和方案进行评价和推广。
二、模型的假设
①、检验法的基本原理和步骤
1) 提出原假设:
0H :总体X 的分布函数为)(x F
如果总体分布为离散型, 则假设具体为
0H :总体X 的分布律为Λ,2,1,}{===i p x X P i i
如果总体分布为连续型, 则假设具体为
0H :总体X 的概率密度函数).(x f
2) 将总体X 的取值范围分成k 个互不相交的小区间, 记为k A A A ,,2,1Λ,如可
取为:
);,(],(,],,(],,(11,22110k k k k a a a a a a a a ---Λ
其中0a 可取-∞,可取+∞;区间的划分视具体情况而定,使每个小区间所含
样本值个数不小于5,而区间个数k 不要太大也不要太小;
3) 把落入第个小区间的样本值的个数记作,称为组频数,所有组频数之和
k f f f +++Λ21等于样本容量n ;
4) 当0H 为真时,根据所假设的总体理论分布,可算出总体X 的值落入第i
个小区间i A 的概率i p , 于是i np 就是落入第i 个小区间i A 的样本值的理论频数。
5) 当0H 为真时, n 次试验中样本值落入第i 个小区间i A 的频率n f i /与概率
i p 应很接近, 当0H 不真时, 则n f i /与i p 相差较大. 基于这种思想, 皮尔逊引进
如下检验统计量 .)(122
∑=-=k i i
i i np np f χ 并证明了下列结论:
当n 充分大)50(≥n 时, 则统计量2χ近似服从)1(2-k χ分布.
根据该定理, 对给定的显著性水平a, 确定值, 使
αχ=>}{2l P
查2χ分布表得:
),1(2-=k l α
χ 所以拒绝域为:
).1(22->k α
χχ 若由所给的样本n x x x ,,,21Λ算得统计量2χ的实测值落入拒绝域, 则拒绝原
假设0H , 否则就认为差异不显著而接受原假设0H 。
三、总体含未知参数的情形
在对总体分布的假设检验中, 有时只知道总体X 的分布函数的形式, 但其
中还含有未知参数, 即分布函数为),,,,,(21r x F θθθΛ
其中r θθθ,,,21Λ为未知参数. 设n X X X ,,,21Λ是取自总体X 的样本, 现要用此样本
来检验假设:
0H :总体X 的分布函数为),,,,,(21r x F θθθΛ
此类情况可按如下步骤进行检验:
1) 利用样本n X X X ,,,21Λ,求出r θθθ,,,21Λ的最大似然估计r θθθˆ,,ˆ,ˆ21Λ,
2) 在),,,,,(21r x F θθθΛ中用i θˆ代替),,,2,1(r i i Λ=θ则),,,,,(21r x F θθθΛ就变成完全
已知的分布函数).ˆ,,ˆ,ˆ,(21r x F θθθΛ
3) 计算i p 时, 利用).ˆ,,ˆ,ˆ,(21r x F θθθΛ 计算的估计值);,,2,1(ˆk i p
i Λ= 4) 计算要检验的统计量
∑=-=k
i i i i p n p n f 1
22ˆ/)ˆ(χ 当n 充分大时,统计量2χ近似服从)1(2--r k αχ分布; 5) 对给定的显著性水平α, 得拒绝域).1(ˆ/)ˆ(2122
-->-=∑=r k p n p n f k
i i i i αχχ
四、模型建立与求解
①、自1965年1月1日至1971年2月9日共2231天中,全世界记录到里
氏震级4级和4级以上地震计162次,统计如下:
相继两次地震记录表
8
6681017263150403935343029252420191514109540出现的频率间隔天数--------x 试检验相继两次地震间隔的天数X 服从指数分布(=α0.05).
②、模型的的求解: