实验6 分布拟合检验
实验6 分布拟合检验
实验6 分布拟合检验在对总体参数作区间估计和假设检验之前,常常需要判断总体分布是否为正态分布。
检验数据是否来自正态分布总体,应用中常用分布拟合图、QQ 图、分布检验等方法。
6.1 实验目的掌握使用SAS 对总体分布情况进行判断以及正态性检验的方法。
6.2 实验内容一、在INSIGHT 模块中研究分布 二、在“分析家”中研究分布三、使用UNIV ARIATE 过程对总体分布进行正态性检验6.3 实验指导一、在INSIGHT 模块中研究分布【实验6-1】表6-1是一组鸟巢高度数据(sy6_1.xls ),试用分布拟合图、QQ 图和分布检验三种方法说明其是否服从正态分布。
表6-1 鸟巢高度数据15 3.5 3.5 7 1 7 5.75 27 15 84.75 7.5 4.25 6.255.75 58.5 9 6.25 5.5 47.58.75 6.5 4 5.25 312 3.75 4.75 6.25 3.25 2.51. 绘制分布拟合图假设上述数据存放在数据集Mylib.sy6_1中,高度变量名为height ,如图6-1所示。
图6-1 数据集Mylib.sy6_1(1) 在INSIGHT 中打开Mylib.sy6_1,选择菜单“Analyze (分析)”→“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框。
在数据集Mylib.sy6_1的变量列表中,选择height ,然后单击“Y ”按钮,height 被选为分析变量,如图6-2左所示。
(2) 单击“Output (输出)”按钮,在打开的对话框中单击“Density Estimation (密度估计)”按钮(图6-2右),打开“Density Estimation ”对话框,选中“Parametric Estimation (参数估计)”栏下的“Normal (正态)”复选框,如图6-3左所示。
图6-2 “Distribution (Y)”对话框图6-3 密度估计与拟合图三次单击“OK”按钮,即可得到变量height的正态分布密度拟合图和参数估计,如图6-3右与图6-4所示。
概率论课件分布拟合检验
基因表达分析
通过分布拟合检验,可以 对基因表达数据进行统计 分析,了解基因表达模式 和功能。
临床试验数据分析
在临床试验中,分布拟合 检验可用于分析药物疗效、 疾病发病率等数据。
其他应用场景
环境监测
在环境监测领域,分布拟合检验可用 于分析空气质量、水质等环境指标的 分布特征。
社会调查
在社会调查中,分布拟合检验可用于 分析人口普查、民意调查等数据,了 解社会现象和趋势。
本研究还发现,不同分布拟合检验方法在拟合效 果上存在差异,其中QQ图和概率图在判断分布拟 合优劣方面表现较好,而直方图在可视化展示方 面更具优势。
研究展望
在未来的研究中,可以进一步 探讨其他理论分布与实际数据 的拟合程度,以寻找更合适的
分布模型。
可以结合机器学习和人工智能 算法,对数据进行更深入的挖 掘和分析,以提高分布拟合检
分析结果表明,所选理论分布与实际数据存在一 定的拟合程度,但也存在一定的偏差。其中,正 态分布和指数分布与实际数据的拟合效果较好, 而泊松分布和威布尔分布的拟合效果相对较差。
在本研究中,我们采用了多种分布拟合检验方法 ,包括直方图、QQ图、概率图和统计检验等方法 ,对实际数据进行了深入的分析和比较。
通过绘制直方图和QQ图,可 以直观地观察数据分布与理论 分布的拟合程度。同时,计算 峰度系数和偏度系数等统计指 标,可以量化地评估分布拟合 程度。
案例二:人口普查数据分布拟合检验
• 总结词:人口普查数据分布拟合检验是评估人口数据质量和预测人口发 展趋势的重要手段。
• 详细描述:通过对人口普查数据进行分布拟合检验,可以判断人口数据 是否符合预期的分布形态,如年龄、性别、地区分布等,从而评估数据 质量和预测未来人口发展趋势。
分布拟和检验法的基本原理与步骤
的概率
的估计是
根据引例所给数表, 将有关计算结果列表如下:
战争次数 实测频数
0
1
223 142 0.5016 0.3460
216.7 149.5
0.183 0.376
2 48 0.119 51.6 0.251
3
4
15
4
0.0278 0.05
12.0 2.16
1.654
例2 检验引例中对战争次数 提出的假设 参数为 的泊松分布.
序号 1
23
4
种类 鲑鱼 鲈鱼 竹夹鱼 鲇鱼
数量(条) 132 100 200 168
试取
检验各类鱼的数量的比例较10前是否
有显著改变.
解 以 记鱼种类的序号, 按题意需检验假设:
的分布律为
12 34
0.20 0.15 0.40 0.25
以 记鱼种类的序号, 按题意需检验假设:
的分布律为
12 34
则当 充
检验法的基本原理和步骤
分大
时, 则统计量 近似服从
分
布.
对给定的显著性水平 确定 值, 使
查 分布表得
所以拒绝域为
若由所给的样本值
算得统计量的实测值
落入拒绝域, 则拒绝原假设, 否则就认为差异不显著
而接受原假设.
0.20 0.15 0.40 0.25
所需计算列在下表中. 现在
但
故拒绝 认为各鱼类
数量之比较10年前有显著改变.
完
例4 在一实验中, 每隔一定时间观察一次由某种铀 所放射的到计数器上的 粒子数 共观察了100次, 得结果如下表所示:
其中 是观察到有 个 粒子的次数. 从理论上考虑 知 应服从泊松分布
分布拟合检验
分布拟合检验
可建立统计假设
1 1 1 1 H 0 : p1 = , p2 = , p3 = , p4 = p5 = 2 4 8 16 依题意n=100,k=5,因此
(ν i − npi ) χ =∑ = 3.2 npi i =1
2 5 2
给定 α = 0.05, 查表 χ 0.95 ( 4) = 9.488 由于 χ < χ 0.95 ( 4)
H 0 : F ( x ) = F0 ( x); H1 : F ( x ) ≠ F0 ( x)
这是分布检验问题,属于非参数假设检验 问题。从解决实际问题的角度来看,在获 得样本 (ξ1,L, ξn ) 的观察值后,应设法找 到一个分布函数,把它作为总体的分布是 与观察值相吻合的。这就是所谓的分布拟 合问题。因此,检验总体分布是否是某一 个确定的分布,也称为分布拟合检验。很 明显,分布拟合问题是难度很大的问题, 2 因为已知的东西太少,下面只介绍 χ 拟合 检验法,但不给出理论证明。
2 2
2
故不能拒绝原假设 H 0 ,即认为黑盒中白球与 黑球的个数相等。
例 根据63年的观察资料,上海每年夏季(5月 至9月)发生的暴雨的天数记录如下:
暴雨 天数
0 4
1 8
2
3
4
5
6 2
7 1
8 1
9 0
年 份 数
14 19 10 4
能否由此表明上海夏季发生暴雨的天数服从泊松 分布? 解:总体 ξ 是上海夏季发生暴雨的天数。待检 验的假设是
ˆ i = F0 ( a i ; θˆ1 , L , θˆr ) − F0 ( a i −1 ; θˆ1 , L , θˆr ) p
令
ˆi ) (ν i − n p νi =∑ −n χ =∑ ˆi ˆi np i =1 i =1 n p
分布拟合检验-PPT课件
i1
(xi x)2
( 0 W 1 )
正态性W检验方法
3、计算样本观测统计量值 4、判断
由于0<W<1,在H0为真时,W接近1,W值过小应拒 绝H0
当 p , 拒 绝 H ; p , 不 能 拒 绝 H 0 0
p PW ( W ) 1 H 0 0
请看SAS实现部分
当 p , 拒 绝 H ; p , 不 能 拒 绝 H 0 0
p P ( ( l k1 ) )
2 2 0
经验分布拟合检验方法
2 拟合优度检验是针对, pF () a F ( a ) , i 1 , 2 , … , l i 0 i 0 i 1
即对各段概率正确性的检验,而经验分布拟合检验 是直接针对H0:F(x)=F0(x)的检验。 理论依据:经验分布函数Fn(x)依概率收敛于分 布函数F(x) 出发点:经验分布函数Fn(x)与原假设中理论 分布函数F0(x)之间的距离。 1、假设
数据的分布拟合检 验与正态性检验
总体分布服从正态分布或总体分布已知 条件下的统计检验,称为参数检验。 但是在数据探索分析中,我们需要拟合的 正是数据的分布。这就要用到非参数假设检 验——分布拟合检验(用于检验样本观测值 是否来自某种给定分布)。 常用的分布拟合检验方法有 2 检验, 经验分布拟合检验法,以及正态性W检验法 。
1、提出假设
H0:F(x)=F0(x),H1:F(x)≠F0(x)
2、构造检验统计量
其中, m i 和 np i 频数 p F a ) 1 0( 1
2 ( m np ) i 2 = i npi i1 分别为第i组的样本频数和理论 l
p F a F a ) ,i 23... , , , l 1 i 0( i) 0( i 1 p 1 F a ) l 0( l 1
分布拟合检验简介
分布拟合检验简介重点:分布拟合检验方法在很多场合下,我们连总体服从什么分布也无法知道,这时我们需要对总体的分布进行检验,这正是分布拟合检验要解决的问题。
一、 分布拟合检验的方法二、 例题例1 在某一实验中,每隔一定时间观测一次某种铀所放射的到达计数器上的α粒子数X ,共观测了100次,得结果如下表所示其中n i 为观测到i 个粒子的次数。
从理论上考虑,X 应服从泊松分布,问这种理论上的推断是否符合实际(取显著性水平α=0.05)解:原假设H 0:X 服从泊松分布Λ,1,0,!}{===-i i e i X P iλλλ的极大似然估计值为2.4ˆ==x λ。
当H 0为真时,P{X=i}的估计值为Λ,1,0,!2.4ˆ2.4==-i i e p i 。
2χ的计算如下表所示。
查表可得592.12205.0=χ由于592.128215.62<=χ,故在显著性水平α=0.05下接受H 0,即认为理论上的推断符合实际例2 自1965年1月1日至1971年2月9日共2231天中,全世界记录到的里氏震级4级和4级以上地震计162次,统计如下:试检验相继两次地震间隔天数是否服从指数分布?取显著性水平α=0.05解:原假设H 0:X 的概率密度为⎪⎩⎪⎨⎧<>=-0 x 00 x )(x e x f λλλ的极大似然估计值为0726.0ˆ=λX 是连续性随机变量,将X 可能取值的空间(0,+∞)分为k=9个互不重叠的子区间921,,,A A A Λ当H 0为真时,X 的分布函数为⎪⎩⎪⎨⎧≤>-=-0 x 00 x 1)(ˆ0726.0x e x F 由上式可得概率p i =P{X ∈A i }的估计值i pˆ,将计算结果列表如下查表可得067.14)7(205.0=χ067.145631.12<=χ故在显著性水平α=0.05下接受H 0,即认为X 服从指数分布。
第四章分布拟合检验
判别准则: D d0 则原假设不成立 D d0 则接受原假设
解决这类问题的方法最早由英国统计学 家K. Pearson (皮尔逊) 于1900年在他发表的 一篇文章中给出, 该方法后被称为Pearson χ 2
检验法,简称χ 2检验。
这是一项非常重要的工作, 许多学者视它为近代统计学的
样本的反映与假设的分布是有差异的,差异来源:
一是分布假设不正确,假设分布不是总体分布; 二是抽样的随机性所带来的抽样误差,成为随机误差, 随机误差总是不可避免的;
如果样本的偏差明显大于随机误差,说明存在分布假设 偏差,分布假设不正确;反之,如果样本的偏差与随机误 差相差不大,说明分布假设正确,可以按照假设的分布进 行数据分析和处理。
检验假设 H0:X服从泊松分布 P(λ) .
其中 fi 是观测到有 i 个α 粒子的次数。 注:X~P(λ)表示 ie
P{X i} , i 0,1, 2,L . i!
解: 因H参0中数含。有由未极知大参似数然估λ,所计以法ˆ 应,x先得估4计.2.该
在H0成立前提下,X 可能的取值为{0,1,2, …}, 将该集合分成A0={0},A1={1},…, A11={11},
来估计npi (θ),ˆ 为θ的极大似然估计。 (3). 计算各子区间 Ii 上的实际频数 fi 。
fi =﹟{ X1, X2, …, Xn ∈ Ii } , i=1, 2, …, k .
计数符号,取集 合中元素的个数
(4). 计算理论频数与实际频数的偏差平方和。
2
k i 1
[
fi
npi (ˆ)]2 npi (ˆ)
基本思想:在分布假设正确的条件下,研究偏差随机变量 D的分布,根据样本计算偏差D的实现值d,再有D的分布与
分布拟合检验
例 有 1000 人按性别和是否色盲分类如下: 男 正常 色盲 女
442
514
38
6
按照遗传学模型,这些数字应有下列相对的概率:
p , 2
p2 pq, 2
q , 2
q2 , 2
其中 q 1 p .问数据是否与模型相符合?
16
本题所要检验的假设为
p H 0 : p1 , 2
其中 p1,
i 1 r
在 H 0 成立时, n 个个体中属于 Ai 类的“期望个数”应当为
n pi , i 1, 2, , r .在统计学中, n pi 称为理论频
数; ni 称为实际频数.在假设 H 0 为真时,实际频数 ni 应接近 于理论频数 n pi .
7
Pearson 提出用
由于 1 r 1 0.95 3 7.81 0.47 ,所以不拒绝 H 0 ,可
2 2
315 312.75
2
2
108 104.25
2
以认为 Mendel 的理论是正确的.
12
为方便计算,可列出如下的表格: 表1 Mendel 豌豆试验的 2 检验计算表
2 i 1
r
ni n pi
n pi
2
作为衡量实际频数与理论频数的偏差的综合指标.在假设
H 0 为真时, 2 的值倾向于较小;否则,就倾向于取较大
的值.因此检验的拒绝域应当为
W1 x1, x2 , , xn : c .
2
8
Pearson 证明了下面的极限定理,根据这个 定
因此检验的拒绝域为
W1 x1, x2 , , xn : 2 5.991 .
分布拟合检验
8
p ˆ9F ˆ(A 9)1 F ˆ(A i)0.05,68
i1
216 .53 61 36 3 12 .56, 3k 38,r1,
2(k r 1 )0 2 .0(5 6 ) 1.5 29 1 .5 26 , 33
故在水平 0.05 下接受 H0 ,
认为样本服从指数分布.
例4 下面列出了84个依特拉斯坎人男子的头颅的最大宽度(mm), 试验证这些数据是否来自正态总体?
H0
:
X的概率密f度 (x)
1ex
,
0,
x 0, x 0.
由H 于 0 中在 参 未数 具 ,故 体 先 .给 估 出
由最大似然估计法得
ˆx22311.37,7
162
X 为连续型随机变量,
将 X可能取 [0 ,值 )分 区 k为 9 间 个互不 的子 [ai,区 ai1)i,间 1,2, ,9. (见下页表)
16.3
0.114
11.4
0.069
6.9
0.036
3.6
0.017
1.7
0.007
0.7
0.003
0.002
0.3 0.2
fi2 / npˆi
19.394 15.622 34.845 7.423 7.105 11.739
其中有 npˆi 些 5的组予,以 使合 得并 每组均 nip5,如表中第四示 列 . 化括号所
2. 2检验法的基本思想
将随机试验可能结果的 全体 分为 k 个互不
k
相容的事件 A1 , A2 ,, An ( Ai , Ai Aj , i j,
i1
i, j 1, 2,, k ). 于是在假设 H 0 下, 我们可以计算
分布拟合检验
分布拟合检验分布拟合检验是一种统计方法,用于验证一个随机变量是否符合某个特定的概率分布。
在许多实际问题中,我们常常需要根据观测数据来推断数据的分布情况,而分布拟合检验可以帮助我们判断观测数据是否与我们假设的分布相符合。
我们需要明确什么是分布拟合检验。
分布拟合检验通过计算观测数据与理论分布之间的差异程度,来判断观测数据是否服从某个特定的概率分布。
常用的分布拟合检验方法有卡方检验和Kolmogorov-Smirnov检验。
卡方检验是一种基于频数的检验方法,它将观测数据根据某个分布的概率密度函数进行分组,并计算观测频数与理论频数之间的差异。
通过比较观测频数和理论频数之间的差异程度,我们可以判断观测数据是否符合某个特定的概率分布。
Kolmogorov-Smirnov检验是一种基于累积分布函数的检验方法,它通过计算观测数据的经验分布函数与理论分布的累积分布函数之间的最大差异,来判断观测数据是否符合某个特定的概率分布。
下面以一个例子来说明分布拟合检验的具体步骤。
假设我们有一组观测数据,表示某种产品的寿命。
我们想要验证这些数据是否符合指数分布。
我们需要根据观测数据计算出经验分布函数。
经验分布函数是指在某个点上,小于或等于该点的观测值的比例。
通过计算观测数据的经验分布函数,我们可以得到一个累积分布函数的曲线。
然后,我们需要计算出指数分布的理论累积分布函数。
指数分布是一种常见的连续概率分布,它描述了独立随机事件发生的时间间隔的概率分布。
根据指数分布的参数估计,我们可以计算出理论累积分布函数的曲线。
接下来,我们使用Kolmogorov-Smirnov检验来比较观测数据的经验分布函数与指数分布的理论累积分布函数之间的差异。
具体来说,我们计算出两个分布函数之间的最大差异,并根据该差异值和显著性水平,来判断观测数据是否符合指数分布。
我们还可以使用卡方检验来验证观测数据是否符合指数分布。
卡方检验通过计算观测频数与理论频数之间的差异,来判断观测数据是否符合指数分布。
分布拟合检验
分布拟合检验1.检验数据是否服从正态分布一、图示法1、P-P图以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。
如果资料服从整体分布,则样本点应围绕第一象限的对角线分布。
2、Q-Q图以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。
如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。
以上两种方法以Q-Q图为佳,效率较高。
3、直方图判断方法:是否以钟形分布,同时可以选择输出正态性曲线。
4、箱式图判断方法:观测离群值和中位数。
5、茎叶图类似与直方图,但实质不同。
二、计算法1、偏度系数(Skewness)和峰度系数(Kurtosis)计算公式:g1表示偏度,g2表示峰度,通过计算g1和g2及其标准误σg1及σg2然后作U检验。
两种检验同时得出U<U0.05=1.96,即p>0.05的结论时,才可以认为该组资料服从正态分布。
由公式可见,部分文献中所说的“偏度和峰度都接近0……可以认为……近似服从正态分布”并不严谨。
2、非参数检验方法非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro- Wilk(W 检验)。
SAS中规定:当样本含量n≤2000时,结果以Shapiro – Wilk(W检验)为准,当样本含量n >2000时,结果以Kolmogorov – Smirnov(D检验)为准。
SPSS中则这样规定:(1)如果指定的是非整数权重,则在加权样本大小位于3和50之间时,计算Shapiro-Wilk统计量。
对于无权重或整数权重,在加权样本大小位于3和5000之间时,计算该统计量。
由此可见,部分SPSS教材里面关于“Shapiro –Wilk适用于样本量3-50之间的数据”的说法是在是理解片面,误人子弟。
(2)单样本Kolmogorov-Smirnov检验可用于检验变量(例如income)是否为正态分布。
分布拟合检验例
例1 为检验某一骰子是否均匀,现将它投掷100次,记录各点出现的次数如下:问这枚骰子是否均匀?(10.0=α)解 设随机变量X ,i X =表示投掷这枚骰子出现点数i ,6,,2,1 =i ,若骰子均匀,则各点数出现的概率应相等,即应有{}16==P X i . 因此,设要检验的假设为 0H : {}1,1,2,,66=== P X i i 在0H 成立的条件下,统计量()5~6626122χχ∑=⎪⎭⎫ ⎝⎛-=i i n n n 由已知,()20.10100,0.10,59.236n αχ===计算可得2 1.49.236χ=<,即0H 是相容的,可以认为这枚骰子是均匀的.例2随机抽取某地50名新生男婴,测其体重如下表(单位:克):2520 3510 2600 3320 3120 3400 2900 2420 3220 3100 2980 3160 3150 3460 2740 3060 3700 3460 3500 1600 3080 3700 3280 2880 3120 3800 3740 2940 3550 2980 3700 3460 2940 3300 2980 3480 3220 3060 3400 2680 3340 2500 2960 2900 4600 2710 3340 2500 3300 3640 试在显著水平05.0=α下,检验该地新生男婴体重是否服从正态分布?解 要检验的假设为0H :总体X 服从正态分布.这里,由于假设没有给出X 的均值与方差,而仅说明它服从正态分布,因此需要先估计正态分布的两个参数2,μσ.在应用上,常使用易于计算的估计量,如用样本均值和样本方差来估计总体均值和方差,即采用22ˆ,ˆS X ==σμ根据测量数据计算得223160,465.5X S ==.在2χ检验中,一般要求对数据分组时每组中的观察个数不少于5个,现在我们选取6个数:2450,2700,2950,3200,3450,3700将()+∞∞-,分为7个区间,相应地将数据分为7组,得到各组的频数如下:下面计算相应的7,,2,1,ˆ =i pi 当0H 成立时,X 近似服从分布()25.465,3160N ,故 ()()()()()()()()()()()()()123.05.46531603700137001ˆ145.05.465316034505.4653160370034503700ˆ196.05.465316032005.4653160345032003450ˆ210.05.465316029505.4653160320029503200ˆ165.05.465316027005.4653160295027002950ˆ098.05.465316024505.4653160270024502700ˆ063.053.115.465316024502450ˆ7654321=⎪⎭⎫ ⎝⎛-Φ-=-==⎪⎭⎫ ⎝⎛-Φ-⎪⎭⎫ ⎝⎛-Φ=-==⎪⎭⎫ ⎝⎛-Φ-⎪⎭⎫ ⎝⎛-Φ=-==⎪⎭⎫ ⎝⎛-Φ-⎪⎭⎫ ⎝⎛-Φ=-==⎪⎭⎫ ⎝⎛-Φ-⎪⎭⎫ ⎝⎛-Φ=-==⎪⎭⎫ ⎝⎛-Φ-⎪⎭⎫ ⎝⎛-Φ=-==-Φ=⎪⎭⎫ ⎝⎛-Φ==F p F F p F F p F F p F F p F F p F p 将以上计算结果代入(8.16)式,计算得统计量38.42=χ,自由度为4217=--,对水平05.0=α,查表得临界值()4988.94205.0=χ.由于4988.938.42<=χ,故接受假设0H ,即认为该地新生男婴的体重服从正态分布.。
云南师范大学 概率论实验报告 分布的拟合检验
实验序号 6 班级 实验 名称 问题的背景: 在解决实际问题中 ,我们往往假定总体的分布形式是已知的 ,但许多时候我们对 总体总是了解不多 ,总体分布是什么 ,不太清楚 ,这时我们只根据样本推断总体 .如 一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障 .故障是完全 随机的,并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定 工序是否出现故障的.现积累有 100 次故障纪录, 故障出现时该刀具完成的零件数如下: 459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 49 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851 试观察该刀具出现故障时完成的零件数属于哪种分布. 实验目的: 1. 学习和掌握 Excel 的有关命令. 2. 理解分布的拟合检验思想. 3. 掌握检验的步骤. 实验原理与数学模型: 实验原理:数据的正态性检验实际上是检验已知数据是否来自正态总体,也就是考察 由已知数据作出的概率分布图是不是正态分布。PP 图是这样一种散点图,其中一个坐 标为根据已知数据得到的累计百分比,而另一个坐标是来自标准分布的累计百分比。 如果来自某一总体的数据的分布只与标准分布相差仅一个位置或尺度常数,那么最终 PP 图将近似为一条直线,极端偏离直线表明该数据不是来自所指定的分布。QQ 图同 样可以用于检验数据的分布,所不同的是,QQ 图是用变量数据分布的分位数与指定 12 级 B 班 分布的拟合检验 姓名 日期: 2014 年 6 学号 月 17 日
《数理统计》第8章§6分布拟合检验
§6
分布拟合检验
7/7
11,13,18,19, 11,13,18,19,23
第八章 假设检验
�
第八章 假设检验
§6
分布拟合检验
2/7
χ2
通常认为一个班的某课程的考试成绩 X 服从正态 分布,但事实是否真的如此? 分布,但事实是否真的如此?有必要检验假设 H0 : ~ N(,σ 2 ) X 考察某台电子仪器的无故障时间 12 次,得数据
28, 42, 54, 92, 138, 159, 169, 181, 210, 234, 236, 266
i =1
第八章 假设检验
§6
分布拟合检验
4/7
设 X1, X 2,, Xn为离散型总体 X的样本 , X 的分布律 未知, 未知,要检验假设
H0: {X = ai} = pi , H1: {X = ai} ≠ pi (i =1,2,, k ) P P k 均已知, 其中 a i , pi (1, 2, , k)均已知,且 ∑ pi =1
§6
2 k
分布拟合检验
5/7
( f i npi )2 统计量 χ = ∑ npi 的近似分布是 χ2 (k r 1) ,其中 r i =1 是被估计参数的个数. 是被估计参数的个数. 一般当 n ≥ 50 就认为 χ2 ~ χ2 (k r 1)
H0的拒绝域是 k ( f np )2 i ∑ npi i > χ12α (k r 1) i =1
§6
分布拟合检验
1/7
设 X1, X2 , , Xn 是总体 X ~ f (x ,θ ) 的样本 的形式已知, 未知, 如果 f 的形式已知,只有参数 θ 未知,则可通过点估 计,区间估计,参数假设检验等方法对 θ 进行统计推断 区间估计, 如果 f 的形式未知,怎样对总体进行统计推断 的形式未知,
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验6 分布拟合检验
在对总体参数作区间估计和假设检验之前,常常需要判断总体分布是否为正态分布。
检验数据是否来自正态分布总体,应用中常用分布拟合图、QQ 图、分布检验等方法。
6.1 实验目的
掌握使用SAS 对总体分布情况进行判断以及正态性检验的方法。
6.2 实验内容
一、在INSIGHT 模块中研究分布 二、在“分析家”中研究分布
三、使用UNIV ARIATE 过程对总体分布进行正态性检验
6.3 实验指导
一、在INSIGHT 模块中研究分布
【实验6-1】表6-1是一组鸟巢高度数据(sy6_1.xls ),试用分布拟合图、QQ 图和分布检验三种方法说明其是否服从正态分布。
表6-1 鸟巢高度数据
15 3.5 3.5 7 1 7 5.75 27 15 8
4.75 7.5 4.25 6.25
5.75 5
8.5 9 6.25 5.5 4
7.5
8.75 6.5 4 5.25 3
12 3.75 4.75 6.25 3.25 2.5
1. 绘制分布拟合图
假设上述数据存放在数据集Mylib.sy6_1中,高度变量名为height ,如图6-1所示。
图6-1 数据集Mylib.sy6_1
(1) 在INSIGHT 中打开Mylib.sy6_1,选择菜单“Analyze (分析)”→“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框。
在数据集Mylib.sy6_1的变量列表中,选择height ,然后单击“Y ”按钮,height 被选为分析变量,如图6-2左所示。
(2) 单击“Output (输出)”按钮,在打开的对话框中单击“Density Estimation (密度估计)”按钮(图6-2右),打开“Density Estimation ”对话框,选中“Parametric Estimation (参数估计)”栏下的“Normal (正
态)”复选框,如图6-3左所示。
图6-2 “Distribution (Y)”对话框
图6-3 密度估计与拟合图
三次单击“OK”按钮,即可得到变量height的正态分布密度拟合图和参数估计,如图6-3右与图6-4所示。
图6-4 height变量的参数密度估计
2. 绘制QQ图
如果在图6-2右所示的“Distribution (Y)”对话框中选中“Normal QQ Plot(正态QQ图)”复选框,如图6-5左所示,两次单击“OK”,则可以得到正态QQ图,如图6-5右所示。
图6-5 正态QQ图
选择菜单“Curves(曲线)”→“QQ Ref Line(QQ参考线)”,打开“QQ Ref Line”对话框。
选择“Method(方法)”栏下的“Least Squares(最小二乘)”,如图6-6左,单击“OK”按钮得到带参考线的QQ图(图6-6右)。
图6-6 带参考线的QQ图
3. 正态性检验
在INSIGHT中继续上述操作:选择菜单“Curves(曲线)”→“Test for Distribution(分布检验)”,打开“Test for Distribution”对话框;
对话框中显示可做的检验有:Normal(正态分布)、Lognormal(对数正态分布)、Exponential (指数分布)和Weibull,缺省做正态分布检验,如图6-7左所示。
图6-7 做正态分布检验
单击“OK”按钮,得到变量height的经验分布和拟合的正态累计分布曲线图(图6-7右),以及正态分布检验表(图6-8)。
图6-8 正态分布检验表
4. 结果分析
从分布拟合图(图6-3右)和QQ图(图6-6右)可以看出height样本数据与正态分布有一定的差距。
正态分布检验结果汇总在分布检验表(图6-8)中,其中列举了拟合正态分布的均值6.8788(即样本均值)和标准差4.7918(即样本标准差),并提供了Kolmogorov D统计量的数值0.2078,而相应的p值 <0.01< 0.05 =α,所以应拒绝原假设,不能认为变量height 的总体分布为正态分布。
二、在“分析家”中研究分布
【实验6-2】现测得16只某种电子元件的寿命如表6-2(sy6_2.xls)所示。
试检验这种元件的寿命是否服从正态分布。
表6-2 某种电子元件的寿命(单位:小时)
159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170
1. 绘制分布拟合图和QQ图
假设上述数据存放在数据集Mylib.sy6_2中,元件寿命用变量life表示,如图6-9所示。
(1) 在“分析家”中打开Mylib.sy6_2,选择主菜单“Statistics(统计)”→“Descriptive (描述性统计)”→“Distributions…(分布)”,打开“Distributions”对话框,选择变量列表中的life,单击“Analysis”按钮,选定分析变量,如图6-10所示。
图6-9 数据表Mylib.sy6_2 图6-10 设置分析选项
(2) 单击“Plots”按钮,打开“Distributions:Plots”对话框,选中“Histogram”和“Quantile quantile plot”复选框,如图6-11左所示。
(3) 单击“OK”按钮返回,然后单击“Fit(拟合)”按钮,在打开的对话框中选择拟合分布类型:Normal,然后填入分布的参数,缺省为用样本估计量(Sample estimates)。
如图6-11右所示;
图6-11 分布拟合设置
两次单击“OK”按钮,可以在分析家窗口的项目管理器中看到结果,用鼠标双击有关文件,便可看到带有拟合分布密度曲线的直方图和QQ图,如图6-12所示。
图6-12 带拟合分布密度曲线的直方图与QQ图
2. 分布检验
继续上述步骤。
在分析家窗口的项目管理器中双击“Fitted Distributions of Yjsm”项,得到对life数据的分布检验结果如图6-13所示。
图6-13 分布检验结果
3. 结果分析
从分布拟合图(图6-12左)和QQ图(图6-12右)可以看出life样本数据与正态分布很接近,可以初步判断life样本数据来自正态总体。
图6-13中三种经验分布的检验结果:
Kolmogorov统计量的值为0.16077986,相应的p值 >0.15 >0.05 =α;
Cramer统计量的值为0.8408117,相应的p值>0.175 > 0.05 = α;
Anderson统计量的值为0.51440250,相应的p值> 0.17> 0.05 = α;
三种检验都不能拒绝原假设,均可认为变量life的分布与正态分布无显著差异。
因此不能拒绝变量life服从正态分布的假设。
三、使用UNIV ARIATE过程对总体进行正态性检验
【实验6-3】使用UNIVARIATE编程实现实验6-1中鸟巢高度的正态性检验
proc univariate data = Mylib.sy6_1 normal; var height; run;
运行结果如图6-14所示。
图6-14 正态性检验
结果表明,四种统计量的检验结果p 值均很小( < 0.05),应拒绝原假设,即不能认为height 服从正态分布。
6.4 上机演练
【练习6-1】对数据集SASUSER.GPA 中有关数据作正态性检验。
【练习6-2】从年北京大学总数为352名学生的“普通统计学”课程的考试成绩中,随机地抽取60名学生的考试成绩如表6-3(lx6-2.xls )所示。
试用分布拟合图、QQ 图和分布检验三种方法说明其是否服从正态分布。
表6-3 “普通统计学”课程的考试成绩
63 75 83 91 458193 3072 8082838176678472 58 83 64 93 63 75 99 747695 9183 6182858344887266 94 68 78 88 71 94 85 82
79
100 90
83 88
84
48
72
80
85
80
87 76 62 96
6.5 实验报告
请按练习内容写出包括如下内容的实验报告: 一、 实验目的;
二、 实验内容及结果(详细写出练习2的操作步骤及结果分析); 三、 实验体会(问题、评价、感想与建议等)。