关于Poisson分布的检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录
承诺保证书 (I)
1 引言 (1)
1.1 研究背景 (1)
1.2 研究方法及目的 (1)
2 Poisson分布检验的步骤和基本理论 (2)
2.1 检验步骤 (2)
2.2 检验的基本原理 (3)
3 关于Poisson分布检验的三个案例及实际研究 (7)
3.1 案例分析 (7)
3.2 对单位时间到来顾客数的实际研究 (13)
参考文献 (18)
英文摘要 (19)
关于Poisson分布的检验
肖秋光
摘要:Poisson分布是概率论中的一种重要离散分布,在许多实际问题中都有着广泛应用.本文概括了检验样本数据是否服从泊松分布的一般方法,主要是对随机数据进行图像模拟估计和利用假设检验原理对给定的临界值进行估计.其中2χ检验是众所周知的拟合优度检验,它能适用于任意的备择假设.另外,通过三个例子进行说明,最后用该方法对实测数据进行了分析和检验,并得出了结论.
χ统计量
关键词:Poisson分布假设检验独立变量2
1 引言
1.1 研究背景
改革开放三十年来随着社会的发展、经济的增长,科学技术日新月异、人民拥有的物质日益丰富、感受到的文化也更加多元、社会的各种法规制度日臻成熟,无论是住房、保险、交通、旅游、高质量产品还是教育、饮食等.其结果是构成了大量的随机数据,而这些数据有没有什么规律可循呢?就需要我们对它进行研究.在现实生活中的许多数据经过人们大量的研究是服从泊松分布的.若通过观察记录得到了一组数据,它是否服从泊松分布,则需要我们对其进行检验.
泊松分布是1837年由法国数学家泊松(Poisson S.D.1781--1840)首次提出的.它是概率论中的一种重要的离散型随机变量的概率分布,在理论上和实践中都有广泛的应用.如110报警台24小时接到的报警次数、一定时间内发生的意外事件次数或灾害次数、布匹上的疵点数目、放射性物质放射出的粒子数目等.
1.2 研究方法及目的
由于向110报警台的报警是一次次到来的;自然灾害是一次次发生的;放射性粒子是一个个射出的;进入商场的人是一个个到来的……它们都可以看成
是一种于随机时刻到来的“质点流”.要对其进行研究,首先,必须收集到有效的数据.其次,由于得到的样本数据通常是实验或统计而来,因此它不能完全的反映事物的本质.我们主要对部分数据进行抽取分析,根据部分数据对全体数据做出推断及判断.
因此,研究单位时间内产生的诸多随机变量有助于当事者们对各种新措施、新技术作出更为科学合理的决策.例如,商场每个时段到达的人数不一,通过调查可以确定哪个时段是人流的高峰期,可以在这个时段做一些宣传或促销产生的效益就会比其他时段高,并有效控制成本,使其用最小的投入换来最大的收益.
2 Poisson 分布检验的步骤及基本理论 2.1 检验步骤 2.1.1 数据整理
进行Poisson 分布的检验时,首先要对收集到的数据进行整理.假设收集到单位时间的量为n x x x x 321,,,然后把这些量按从小到大顺序排列起来,并查出其频数稍加整理制成表格如下: 表 1
其中满足:i i n p x p p x x x ⨯++⨯+⨯=+++ 102110 2.1.2 用图像对样本数据进行模拟
由于图形比较直观,而且样本数据在一定程度上能有效反映总体的分布规律,故可以用样本数据的图像模拟通过对比,对该分布进行初步判断.
泊松分布的图形一般为左偏,但随λ数值的增大,图形趋于对称.
图1
2.1.3 检验得出结论
2.2检验的基本理论
2.2.1 假设检验
假设检验是对总体的分布函数形式或分布的某些参数作出某些可能的假设,然后根据所得的样本数据,对假设的正确性作出判断.
假设检验的步骤:
①根据问题建立原假设和备择假设
原假设是设总体参数等于某一数值,而备则假设是根据研究的目的来确定:可采用双侧检验,也可采用单侧检验.确定单、双侧检验的同时,也就确定了接受域和拒绝域的位置.
H为真时的抽样分布
②选择适当的样本统计量,并确定以
这一步是假设检验的关键,需要根据已知条件找到一个包含待检验总体参数和样本数据的已知分布,并计算出统计量的数值.
③选定显著性水平α,确定临界值
α应在抽样之前就确定下来,根据单、双侧检验的情况,将α放置一侧或双侧.然后根据第二步骤中所选择统计量服从的分布,查相应分布表,确定临界值.
④进行判别,得出结论
将第二步计算的数值与第三步得到的临界值进行比较,根据判别原则,作出结论.
2.2.2最大似然估计及拟合优度2χ检验
最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立
2.2.3 P 值检验
所谓P 值,是指在一个假设检验问题中,利用观测值能够做出拒绝原假设选择的最小显著性水平,如果p 值小于显著性水平α,则相应的检验统计量的值落入拒绝域中.其检验规则为:若p ≥α值,则拒绝原假设0H ;
若p <α值,则接受原假设0H . 2.2.4 Poisson 分布检验
设总体X 服从具有参数为0>λ的泊松分布,n X X X X ,,,,321 为其样本.
考虑检验问题:0H λ:010:;λλλ≠=H ,现有
∏∑∏∏
∏==-=--==⎭
⎬⎫⎩⎨⎧=∑===n
i i
n i i n n
i i
x n n
i i x n i i x x e
x e
e
x x p n
i i
i
1
11
1
1
)
!(1
ln )(ex p )
!(1
!
);(1
λλ
λ
λλ
λ
λ
其中()λλln )(,,,,1
21==∑=b x x x x T n
i i n
λλn n
i i
n e c x x x x h -===
∏)(,)
!(1
),,,(1
21
因此⎪⎩
⎪
⎨⎧<<==><=212121,02,1,,&,1),,,(c
T c j c T b c c T x x x j i n ϕ
则[]⎪⎩
⎪⎨⎧==⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡∑∑==),,,(),(),,,(21001211000n n
i i n n i i x x x E M x x x x E X E ϕλαϕαλλλ 当0H 为真时,统计量∑==n
i i X T 1
服从参数为0λn 的泊松分布,0)(λn T E =,则
02010201)(!)(!!)(!)(0220111
0100λλλλλλλλαn c n c n c j j n c j j e n c b e n c b e j n e j n ---∞
+=--=+++=∑∑
02010201)(!)(!!)(!)(022201111
010
00λλλλλλλλαλn c n c n c j j n c j j e n c c
b e n
c c b e j n j e j n j n ---∞+=--=+++=∑∑
在一般情况下上述方程不易求解,但当0λ不接近于零而n 又不很小时,统计量
1
λλn n X
U n
i i
∑=-=
的渐进分布为正态分布)1,0(N ,则
⎭
⎬⎫⎩⎨⎧>-=⎭⎬⎫⎩⎨⎧-<-∑∑==n i i n i i u n X P u n X P 101000λλλλ 对一切实数u 都渐近地成立(这是因为正态分布具有对称性).因此,2
121,,,c c b b 由下式确定:
02020101)(!)()(!
!)(2022
1
0011
100λλλλλλλλα
n c n c j j n c n c j j e n c b e j n e n c b e j n --∞
+=---=+=+=∑∑ 3
关于Poisson 分布检验的三个案例及实际研究
3.1 案例分析
3.1.1 论反腐败与泊松分布
腐败现象作为当今社会的一种非常态,它的发生、出现引起了广大群众的
关注.调查显示最近几年科级腐败正在加剧,小官受贿成隐患.据悉,某检察院工作人员对某经济较落后省的320个底层官员在一年时间内的受贿金额调查纪录如下表所示.根据这些数据(金额0表示未受贿,金额1表示受贿金额大于0小于等于1,其余类同)检验受贿金额是否服从泊送分布.
表 2 1年内320个官员受贿金额(万元)统计表
来源于参考文献[6]
用折线图像模拟数据如下:
图2
从图形走势看,为左偏凸值分布,与泊松分布较为相似,可初步判定为泊松分布.
在理论上,这里我们需要检验的是在一年的时间段内受贿官员的受贿金额是否服从泊送分布,所以可以假设
0H :一年的时间内受贿官员的受贿金额服从泊送分布; 1H : 一年的时间内受贿官员的受贿金额不服从泊送分布; 我们知道泊送分布的概率密度函数为 !
)(x e x X f x λ
λ-•=
=,式中:λ是未知参数.
如果假设为真时,可以根据本数据估计λ.由上表的数据可以的到在320个底层官员中,平均每一官员受贿的金额(万元),即
0.3320
1019471150ˆ=⨯+⨯++⨯+⨯= λ
因此,可以用λ
ˆ作为λ的估计值,即得到为真时的概率密度函数 !
3)(3
x e x X f x -•==
根据该密度函数,就可以计算出在每一个官员的受贿金额为各个类别出现的概率,这些概率值可通过泊送分布表查得.例如,在一年内受贿金额为0万元的官员人数的概率是498.0)0(==X f ,受贿金额为1万元的概率是1494.0)1(==X f 等.然后用查出的概率分别乘以样本容量)320(=n n ,就可以得到各类别期望的频数.例如,在320个官员中受贿金额为0万元的期望频数是936.153200498.0=⨯.下表列出了2χ统计量的计算过程.
表 3 2χ统计量的计算过程
我们注意到表中,受贿金额为8,9和10万元次及以上金额的期望频数都小于5,所以将这三类归于受贿金额为7万元的合并为一类,所以合并之后的类别数8=k .这时2χ统计量为
0068.5)(8
12
2
=-=∑=i i
i i e e n χ
需要注意的是:根据Pearson 定理,上式的2χ统计量服从自由度为1--r k 的2χ分布,其中k 时类别的个数,r 是估计的总体参数的个数.在这里1,8==r k (只估计了一个参数λ),所以自由度为61181=--=--r k .于是,当05.0=α时,
查表可得592.12)6(205.0=χ.对于样本的2
χ值,因为)6(205.02χχ<落在接受域中.所
以接受0H ,拒绝1H ,即在一年的时间中该地区官员的受贿金额是服从泊松分布的.
大家熟知当n 很大,p 很小时的二项分布趋于泊松分布.按照泊松分布的规律,一项非正常态现象的出现除了在总体中的概率很小外,其最明显的特征则是常常集中分布.通过上面检验和大量案例表明,腐败现象作为社会现象中的一种非正常态,其发生和发展呈泊松分布规律,特点是总体上的稀有性和局部的密集性加偶然性,具体表现有“前腐后继案”、“串案”、“窝案”等形式.因此治理腐败:一是要尽早发现,尽快惩前毖后;二是不能搞扩大化;三是要综合治理.
其次表明,泊松分布密集出现的概率跟社会体制有关,尤其是在经济转型、社会发生变革的时期容易出现。
比如我国正处于向社会主义市场经济的过渡时期,法制不健全,各项改革和管理措施还跟不上形势发展的需要,所以腐败现象就表现得比较明显和集中。
若从历史长河中看,这种过程还是短暂的,从全局来看它也只集中在某些特定的行业和领域,而大部分时间和大部分领域都是正常的,都是非腐败的。
3.1.2 卢瑟福散射实验
卢瑟福散射是近代物理科学发展史中最具影响力的重要实验之一。
1909年卢瑟福(L.E. Rutherford )和其合作者盖革(H. Geiger )与马斯(E. Marsden )进行的α粒子散射实验,为原子的核式模型奠定了实验基础。
他们在云雾实验室观察镭所发射出的α粒子数目.记录了2608个相等时间间隔(他们以7.5秒为一个时间段)内观测了一放射性物质镭放射的α粒子数x ,
表 4
来源于参考文献[7]
在上表中的i n 是观测到i 个粒子的时间间隔数(最后一项已经合并).若要检验观测的数据服从泊松分布这一假设(05.0=α),则: 因为对参数为λ的泊松分布是: 2,1,0,!
)(==
=-k e k k X P k
λλ
根据上表原始数据可以算得λ最大似然估计870.3ˆ==x λ
而870.3ˆ=λ
的泊松分布通过计算机计算及查表(泊松分布函数表)可得下表: 表 5
因此,8967.122=χ其自由度为12-1-1=10,对05.0=α查(2χ分布分位数
)(2n p χ表)得307.18)10(205.0=χ,所以我们接受0H ,认为观测数据服从泊松分布.
另外,根据数据模拟图像如下:
图3
卢瑟福等人经过两年时间综合多方面因素的分析,在1911年提出原子的核式模型,原子中的正电荷集中在原子中心很小的区域内,而且原子的全部质量也集中在这个区域内.原子核的半径近似为10,约为原子半径的千万分之一.卢瑟福散射实验确立了原子的核式结构,为现代物理的发展奠定了基石.这充分表明研究泊松分布具有重大意义. 3.1.3 对印刷错误个数的检验
一个检验员检查了一本书的100页,并仔细记录各页中印刷错误的个数,其结果为:
表 6
其频数模拟如下图:
图 4
若要检验一页的印刷错误个数是否服从泊松分布.(取05.0=α)则:
假设 0H :总体X 服从泊松分布; 1H :总体X 不服从泊松分布 从表中数据可得:1100
7
061524032219140036=⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯=
x
当0H 成立时,λ的最大似然估计为1ˆ==x λ
,检验的拒绝域为: )1(ˆˆ2
2
2
-->-=∑r k n p n f i
i αχχ
由给出的条件可知 100=n
3679.0!0)0(ˆ10====-e X p p , 3679.0!11)1(ˆ1
11====-e X p p
18397.0!21)2(ˆ122====-e X p p , 0613.0!31)3(ˆ1
33====-e X p p
01533.0!41)4(ˆ144====-e X p p
, 003066.0!
51)5(ˆ1
55====-e X p p 000511.0!61)6(ˆ1
66====-e X p p , 000023.0ˆ1)7(ˆ6
7=-=≥=∑=i i p X p p
而对于5ˆ,3<>j p
n j 有,将其合并得 023.8ˆ7
3
=∑=j j p n ,合并后 4=k ,查2χ分布
分位数)(2
n p χ表可得:991.5114205
.0=--)(χ 而 444.1100023
.85397.181979.364079.36362
2222
=-+++=
χ 由 991.5444.1<,故在05.0=α下,我们接受0H ,即可认为一页的印刷错误个数服从泊松分布.
通过对印刷错误的研究,我们可知每页印刷错误在一个左右时是正常的,所以在使用书刊时发现错误不用大惊小怪. 3.2 对单位时间到来顾客数的实际研究
在2011-3-11日星期五,通过实际采样,记录了上午10:55——12:05的70分钟内每分钟到达联合书城的人数,记录如下:
4 8 7
5 0 1 1 5 9 4 2 1
6 5
7 4 0 7
8 5 5 1
9 1 4 1 3 0 3 7 5 2 1 0 5 3 2 5 1 7 4 5 9 1 1 3 4 9 4 6 11 10 12 1 2 4 4 3 9 6 8 8 13 8 3 0 4 5 7 8
通过整理可以得到下表:
表 7
显然,可以初步认为进入书城的顾客流是相互独立的随机数.首先用图像初步模拟一下,其散点图如下:
图 5
如上图所示,这些点很凌乱,看不出其规律.下面将其用折线图展示如下:
图 6
上图和普通的泊松分布图相比差别比较大,有两处凹陷的地方,初步判断不是泊松分布.
基于以上内容,下面用假设检验原理对其检验.首先,假设顾客数是服从Poisson 分布的.即
0H :每分钟进入的人数服从泊松分布; 1H :每分钟进入的人数不服从泊松分布.
根据前文内容可知,Poisson 分布的最大似然估计λ
λˆ=,则计算平均数 70
1
1111059686736105104634211150ˆ⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⋅=λ
6571.470113112≈⨯+⨯+
由于泊松分布表提供的λ 整数位后只有一位小数,而 λˆ介于4.6到4.7之间 所以可以: ①用 6.4ˆ=λ
作为λ 的估计值 ②用 7.4ˆ=λ
作为λ 的估计值, 因此,用λˆ作为λ的估计值,即得到0
H 为真时的概率密度函数 3.4.1 当取6.4=λ时,有()!
6.46.4x e x X f x -•==,查泊松分布表计算得下表,其
中2χ统计量按四舍五入取小数点后四位.
表 8
从表中观察进入人数为0,1,8及其以上的期望频数都小于5,所以将进入人数为0,1的与进入2个的合并为一类,进入 8个及以上与进入7的合并为一类,那么合并后的类别数6=k ,其2
χ统计量为: ()5399.466
1
2
2
=-=∑
i
i i e e n χ
根据Pearson 定理,2χ统计量服从自由度为1--r k 的2χ分布,在这里
1,6==r k ,所以自由度为4.于是,当05.0=α时,查2χ分布表得()488
.942
05.0=χ对于样本的2χ值,有2χ>()4205.0χ落在拒绝域内.所以拒绝0H ,接受1H ,即每分
钟进入书城的人数不服从泊松分布,与用图像模拟得到的初步结论一致.
3.4.2 当取7.4=λ时,有()!
7.47
.4x e x X f x -•==,查泊松分布表计算得下表
表 9
其余同上,当05.0=α时,查2χ分布表得()488.94205.0=χ对于样本的2
χ值,仍然
有2χ>()4205.0χ落在拒绝域内,结论也一致.
按照众多学者研究,在一般情况下对于这种随机变量的检验应该服从Poisson 分布.在这里为什么得到了相反的结论?我认为可能有两点原因:一是所采集到的样本数据可能具有特殊性,不能完全反映总体的分布,若多测几组数据进行检验结果可能会改变;二是我们假设的前提是每个人相互独立,而实际情
况有许多人是有关联的,例如一个家庭四个人同时进入、两个好朋友陪同一个朋友买书等诸多情况,这个因素可能也会对结果有影响.
结束语:随着社会的发展和可研究案例的增多,把自然科学领域的原理用到社会现象的研究、分析上来,对发现问题解决问题有许多益处.
参考文献:
[1] 茆诗松等.概率论与数理统计教程[M].北京:高等教育出版社,2008.
[2] 朱洪文.应用统计[M]. 北京:高等教育出版社,2006.
[3] 王荣华等.概率论与数理统计(习题精选).北京:北京大学出版社,2010.
[4] 谢民育,吴茗,熊明.多元分布下单边备择假设的两步检验.武汉 2009
[5] 徐亮,丁先文等.基于经验似然的部分线性模型的统计诊断.南京,2009
[6] /g/20110401/10129630369.shtml
[7] /advlab/nuclear/10.htm
POISSON DISTRIBUTION ON THE INSPECTION
XIAO Qiuguang
Abstract: Poisson distribution is one of the important discrete probability distribution, have widely used in many practical problems. This article summarizes
the general method of whether the random data of testing sample answer to the Poisson distribution, it mainly use image simulation to estimate the random data and the principle of hypothesis test to estimate the given critical value. Chi-square testing is famous known as the goodness-of-fit testing among these tests, and it
can be applied to any reference hypothesis. In addition, I have illustrated it by
three examples .At last,I have measured the data analysis and inspection with this method and reach a conclusion.
Keywords: Poisson distribution test of hypothesis independent variable Chi-square statistic variable
19。