Poisson分布的参数估计
泊松分布因子
泊松分布因子全文共四篇示例,供读者参考第一篇示例:泊松分布因子(Poisson distribution parameter)是泊松分布中的一个重要参数,它决定了随机事件发生的速率或频率。
泊松分布是描述单位时间内事件发生次数的概率分布,通常应用于描述稀有事件的发生情况,如地震发生的次数、电话呼叫的次数等。
泊松分布因子的大小影响着泊松分布曲线的形状和特征。
一般来说,泊松分布因子越大,表示事件发生的速率越快,泊松分布曲线也越陡峭,事件发生的可能性也越高。
反之,泊松分布因子越小,表示事件发生的速率越慢,曲线也越平缓,事件发生的可能性也越低。
在实际应用中,泊松分布因子的确定往往依赖于具体的问题和样本数据。
一般来说,可以通过历史数据或实验结果来估计泊松分布因子,从而预测未来事件的发生情况。
根据泊松分布的数学性质,泊松分布因子可以通过均值和方差来计算,从而精确地描述事件发生的规律和趋势。
除了影响泊松分布的形状和特征外,泊松分布因子还可以用来比较不同事件之间的发生频率。
通过比较不同事件的泊松分布因子,可以评估事件的重要性和影响力,从而有针对性地制定相应的应对措施和策略。
泊松分布因子在风险管理、运筹学、统计分析等领域都有重要的应用价值。
在实际应用中,我们需要注意泊松分布因子的取值范围和边界条件。
泊松分布因子通常为非负实数,且不应过大或过小,否则可能引发模型不稳定或失真的问题。
在确定泊松分布因子时,需要充分考虑数据的精确性和可靠性,以确保模型的准确性和可靠性。
泊松分布因子是泊松分布的一个重要参数,它影响着泊松分布曲线的形状和特征,决定了事件发生的速率和频率。
通过合理确定泊松分布因子,我们可以更好地理解事件的发生规律和趋势,从而做出更准确的预测和决策。
希望通过本文的介绍,读者能够对泊松分布因子有一个更深入的理解,并在实际应用中能够灵活运用。
第二篇示例:泊松分布因子是指在泊松分布中的一个参数,用来描述事件在一定时间或空间范围内出现的频率。
泊松过程 参数估计
泊松过程参数估计全文共四篇示例,供读者参考第一篇示例:泊松过程是一种常见的随机过程,其在很多领域都有着广泛的应用,比如通信网络、金融市场、医学统计学等。
泊松过程最基本的特点就是事件在时间上是随机地不断发生的,且事件之间是相互独立的。
泊松过程的一个关键参数就是事件的发生率,即单位时间内事件发生的次数,通常用λ来表示。
在实际应用中,我们常常需要对泊松过程的参数进行估计,以便更好地理解、分析和预测事件的发生情况。
参数估计的目的就是通过已有的样本数据,来估计未知的参数值。
泊松过程的参数估计方法有很多种,比如极大似然估计、贝叶斯估计等,下面我们就来详细介绍一下这些方法。
首先我们来介绍一下极大似然估计(Maximum Likelihood Estimation,简称MLE)。
极大似然估计是一种常用的参数估计方法,其目标是选择最能够使观测到的数据出现的概率最大的参数值。
对于泊松过程来说,假设我们有一组事件的发生时间数据,我们可以通过计算这些事件的时间间隔来得到事件发生的频率,然后通过极大似然估计的方法来估计λ的值。
具体来说,设有n个事件发生,分别在时间t1,t2,...,tn发生,时间间隔分别为Δt1=t1,Δt2=t2-t1,...,Δtn=tn-tn-1。
假设事件发生率为λ,那么事件发生时的概率密度函数为P(Δt)=λe^(-λΔt),当所有事件都发生时的联合概率密度函数为L(λ)=∏(i=1,n)λe^(-λΔti)。
然后通过最大化L(λ)来得到λ的估计值。
除了极大似然估计外,贝叶斯估计也是一种常见的参数估计方法。
贝叶斯估计是一种基于贝叶斯定理的方法,其核心思想是先验概率和后验概率的更新。
对于泊松过程来说,我们可以引入一个先验分布作为事件发生率λ的先验信息,然后通过贝叶斯定理来更新这个先验分布,得到后验分布,从而估计λ的值。
我们可以假设λ服从一个指数分布,即先验分布为P(λ)=exp(-λ),那么在得到观测数据后,我们可以根据贝叶斯定理得到后验分布为P(λ|data)∝L(λ)×P(λ),然后通过后验分布来估计λ的值。
刻度平方误差损失下Poisson分布参数的Bayes估计
Ab ta t s r c :Th a e s i to f h is n ds rb to a a t ru d rs aes u r d e r rl s u e eB y se t main o ePos o itiu in p r mee n e c l q a e ro o sf n — t
讨 论参 数 0的 B ys 计 , 于任 一 先 验分 布 , ae 估 对
倒数 的 B y s a e 估计 , 本文研究在刻度平方误差损失 函数 下 , oso P i n分 布 参 数 的 B ys估 计 及 可 容 许 s ae 性, 并给出了参数多层 B ys ae 估计的表达式. X , 。…, X , X 是其容量为 的简单随机样本 , 2 , ”, X1X2… , 。 2 z 为 , , Xl的实 现值 , 时 X1 此 ,
第3 4卷 第 5 期 20 0 8年 1 0月
兰
州
理
工
大
学
学
报
Vo . 4 13 No 5 |
Oc. 0 8 tnv r i fTe h oo y o r a fLa z o ie st o c n lg y
文章 编 号 : 35 9 (0 8 0 —1 20 1 7— 16 2 0 ) 50 5 —3 6
^ : :
在刻 度 平方误 差 损失 I 3 ]
( : ( 8 2 , : 0- ) =— () 2
意义 下 考虑 参数 0的估 计 , 中 愚为非 负整 数 , 其 特别 的当 k =0时该 损 失 函数恰 为 平方 损失 函数 , 是
Poisson分布的统计分析
Poisson分布的概率分布规律
X取值范围为非负整数,即0,1,…; 其相应取值概率为 k
P X k k! e
式中e:自然对数的底,e≈2.7182;是大于0的常数。 X服从以为参数(X的总体均数)的Poisson分布可记 为X~P()
5
Poisson分布的特性
7
正态分布与Poisson分布的关系
=3
=5
8
=10
=20
Poisson分布的特性
Poisson分布与二项分布的关系
设X~B (n , ),则当n→∞且n保持不变时,可以 证明X的极限分布是以n 为参数的Poisson分布 由以上性质可得,当n很大,很小时,二项分布近似 Poisson分布。当n很大时,二项分布概率的计算量相 当大。因此可以利用二项分布的Poisson近似这一性质, 当n很大且很小时,可以用Poisson分布概率计算替代 二项分布的概率计算
拒绝
H0
,接受
,可认为该地新生儿出生缺陷发生率高于全国。
21
Poisson分布两样本均数 的比较
方法原理
当两个样本计数均较大时,可根据Poisson分布 近似正态分布的性质作u检验。当两样本计数中有 一个较小或两个均较小时,可先作变量转换,然 后再作适当的检验。本节仅介绍两个样本计数均 较大时的u检验。根据两个样本观察单位是否相同, 所采用的计算公式又分为两种。
0
0X
X!
,计算
2 3 4 . 2 4 . 2 4 . 2 e 4.2 e 4.2 e 4.2 1! 2! 3!
= 0.014996+0.062981+0.132261+0.185165=0.395403 故按 0.05 水准,不拒绝 H 0 ,尚不能认为该地孕产妇的死亡率 低于一般。
Poisson分布的参数估计
Poisson 分布的参数估计作者:高晨 指导老师:戴林送摘要 泊松分布是概率统计学科中一种重要的离散分布,在参数估计这块,对点估计,矩估计,最大似然估计以及近似的区间估计等,该文中对泊松分布的相关知识,包括其性质,参数的相关估计,研究了泊松分布的一些性质,参数的估计,以及一些在生活中的简单应用。
关键词 Poisson 分布 参数估计 性质 简单应用1 引言Poisson 分布是离散型随机变量X 作为大量试验中稀有事件出现的频数的概率分布的数学模型,其中X 可能取值为0,1,2,……而取各个值的概率为:{},0,1,2!k e P x k k k λλ-===其中0λ>是常数,称X 服从参数为λ的泊松~(;)X P k x .1.1相关定义1. 离散型随机变量X 的函数分布律{},0,1,2k k P X x P k ===,若级数1kk k xp ∞=∑绝对收敛,称级数1kk k xp ∞=∑为随机变量X 的数学期望[]E x ,[]E x =1k k k x p ∞=∑.2. 定理:Y 是随机变量X 的函数,(),(Y g x g =是连续函数),X 是离散型随机变量,若1()kkk g x p∞=∑绝对收敛,则[][()]E Y E g x ==1()k k k g x p ∞=∑.3. 随机变量X ,若2{[()]}E X E X -存在,则称2{[()]}E X E X -为X 的方差,记为()D x 或()Var x ,即()D x =()Var x =2{[()]}E X E X -.()x σ=X 有相同的量纲),称为标准差或均方差。
注记:()D x 是刻画X 取值分散程度的一个量,也可以看成是函数()g x =2[()]X E X -的数学期望。
离散型随机变量X ,()D x =21[()]k k k x E X p ∞=-∑.其中{},1,2,3k k P X x p k ===是X 的分布律。
泊松分布参数的稳健估计_NoRestriction
学士学位论文论文题目:泊松分布参数的稳健估计作 者: 常晋源导 师: 崔恒建教授系别、年级: 数学科学学院 05级学科、专业: 统计学完成日期:09年05月北京师范大学教务处北京师范大学学士学位论文(设计)诚信承诺书本人郑重声明:所呈交的学士学位论文(设计),是本人在导师的指导下,独立进行研究工作所取得的成果。
除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到本声明的法律结果由本人承担。
本人签名:常晋源 09年05月6日北京师范大学学士学位论文(设计)使用授权的说明本人完全了解北京师范大学有关收集、保留和使用学士学位论文(设计)的规定,即:本科生在校攻读学位期间论文(设计)工作的知识产权单位属北京师范大学。
学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许学位论文(设计)被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。
保密的学位论文在解密后遵守此规定。
本论文(是、否√)保密论文。
保密论文在年解密后适用本授权书。
本人签名:常晋源09年05月6日导师签名:崔恒建09年05月6日泊松分布参数的稳健估计常晋源摘要本文主要以非对称分布中泊松分布为研究对象, 探讨了其参数的稳健估计方法. 在本文中, 作者以截断似然估计为基础, 结合Cizek的工作, 提出了适用于泊松分布参数的一种稳健估计方法. 该方法避免了事先选取截断比例的麻烦, 通过数据自身的信息给出在平均似然最大准则下的最优截断比例. 在文中的模拟部分, 分别就未受污染和受污染的泊松分布数据进行了模拟, 得到了不错的效果.关键词:自适应极大截断似然估计、泊松分布、崩溃点、稳健估计Robust estimation of parameter in Poisson distributionJinyuan ChangAbstractIn this paper, the author takes the Poisson distribution as representative of unsymmetrical distributions and studies the robust estimation method of the parameter. The author suggests a robust estimation method for the parameter in Poisson distribution based on the work of Cizek and the method of maximum trimmed likelihood estimation. The method mentioned in this paper avoids to choose the trimmed proportion of data in advance, and gives the optimum proportion by the information of data under the criterion of maximum average likelihood function. In simulation part, the data of Poisson distribution which be contaminated and not be contaminated has carried out a simulation respectively, has got good effect.Key words: adaptive maximum trimmed likelihood estimator, Possion distribution, breakdown point, robust estimation目录1. 介绍 12. 泊松分布的参数估计 22.1 极大似然估计 (2)2.2 M估计 (2)2.3 极大截断似然估计 (4)2.4 自适应极大截断似然估计 (4)3. 自适应极大截断似然估计的性质 53.1 自适应极大截断似然估计的渐近性质 (5)3.2 自适应极大截断似然估计的崩溃点 (6)4. 有限样本的性质 74.1 未受污染数据的模拟 (7)4.2 受污染数据的模拟 (8)5. 结论 116. 附录 11参考文献 16致谢 171. 介绍对于一个给定的分布(;f x)λ而言, 我们常常关心它的位置参数. 因为位置参数往往从一定程度上反映了该分布的平均水平. 在对位置参数进行估计的时候, 主要选取的方法有: 极大似然估计, 矩估计, M估计等. 其中极大似然估计最为常用; 但是极大似然估计由于强烈依赖于每个数据, 因此其稳健性较差. 当有一个坏数据时, 极大似然估计会与真实值有较大的差异. 为了提高估计量的稳健性, Huber[1]在1964年首次提出了M估计的概念. 极大似然估计可以看成是特殊的M估计. M估计较极大似然估计而言, 稳健性有所提高, 但是估计的有效性却比不上极大似然估计. 基于极大似然估计的有效性, Neykov和Neytchev[2]在1990年提出了极大截断似然估计的方法. 由于极大截断似然估计在实际计算时比较麻烦, Hadi和Luceno[3]在1997年给出了计算极大截断似然估计的方法. 但是截断比例的选取是一个比较困难的问题. 究竟应该选择多大, 并没有一个一致的准则. 我们只知道截断比例选取得越大, 那么得到的估计稳健性就越好, 但是估计的有效性却越差. 对于对称分布而言, 极大截断似然估计和切尾均值是一致的. Jureckova等[4]在1994年通过渐近方差达到最小的准则给出了选择截断数据的比例. 但是当分布不是对称分布的时候, Jureckova等的方法就不再适用.对于非对称分布中的泊松分布而言, 其在实际生活中有着十分重要的地位. 很多的实际模型都是基于泊松过程提出的, 然而在某个确定时刻, 泊松过程就相当于是一个泊松分布. 因此, 如何估计泊松分布的参数在理论和实际中都有着重要意义. 理论上, 我们可以在估计泊松分布参数的方法基础上, 考虑其是否适合于其它非对称分布的位置参数估计; 实际中, 较为准确地估计出泊松分布的参数对未来情况的预测有着重要作用.Cizek[5]在解决广义线性模型——Binary-Choice回归模型时, 提出了一种通过数据自身情况决定截断比例的方法. 本文就是在这个想法的基础上, 通过一定的改进, 提出了一种估计泊松分布参数的方法; 并说明了该方法在估计泊松分布参数时的可行性.在本文的第2章中, 我们通过比较已有估计的优缺点, 提出了自适应极大截断似然估计的概念; 在第3章中, 我们就泊松分布假设下, 自适应极大似然估计的极限情况和稳健性进行了探讨; 在第4章中, 我们通过Monte Carlo方法进行模拟, 比较了自适应极大截断似然估计和其它已有方法在估计泊松分布参数时的表现; 在最后一章中, 我们就文中的引理与定理给出了相应的证明.2. 泊松分布的参数估计在本章中, 我们首先给出估计泊松分布参数的常用方法: 极大似然估计, M 估计以及极大截断似然估计; 然后就这三种估计各自的优缺点进行分析; 最后基于这三种估计方法的不足之处, 提出一种名叫自适应极大截断似然估计的方法.2.1 极大似然估计对于分布而言, 其密度函数记为F ();f x λ, 其中λ为待估的参数. 假设1,,n X X L 是服从分布的独立样本. 称由(2.1)式确定的F ()MLE λ为参数λ的极大似然估计.()(MLE 1arg max log ;ni i f x λ)λλ∈==∑%%R (2.1) 对于泊松分布而言, (){}()0,1,;!xf x e x λλλ−=1L x . 因此由(2.1)确定的极大似然估计为()MLE 1nx x nλ++=L (2.2) 因此, 在泊松分布中, 其参数的极大似然估计就是统计量X .从该表达式, 我们可以发现当数据中有一个坏数据(即离群值)的时候, 该表达式会与真实结果之间产生较大的偏差.对于泊松分布参数λ的极大似然估计()MLE λ而言, 其方差为n λ. 另一方面, 由Rao-Cramer 不等式可知: 对于λ的任何无偏估计而言, 其方差的下界为n λ. 因此, 在对泊松分布参数进行估计时, ()MLE λ是最有效的估计(即最小方差无偏估计). 进一步, 由极大似然估计的近似分布性质可知: ()MLE λ具有近似分布(,N λλ)n . 这也就是为什么在估计泊松分布的参数时常用极大似然估计的原因.2.2 M 估计对于分布而言, 其密度函数记为F ();f x λ, 其中λ为待估的参数. 假设1,,n X X L 是服从分布的独立样本. 在正则条件下, F λ的极大似然估计()MLE λ等价于方程(2.3)的解.()()1;0;ni i if x f x λλ=′=∑%%(2.3) 对于泊松分布而言, (2.3)式即为()10nii xλ=−=∑% (2.4) 令, 则泊松分布参数()0u Ψ=u λ的极大似然估计()MLE λ就是(2.5)的解.()10nii xλ=Ψ−=∑% (2.5) 对于(2.4)式而言, 我们可以发现大数据i x 对其影响很大. 换而言之, 如果数据被污染, 有离群值在里面的话, 那么用(2.4)式得到的估计会与真实值有较大偏差. Huber [1]提出我们可以选择对大数据不敏感的()u Ψ代替上面给出的,以减小离群值对估计的影响. 我们称(2.6)式的解()0u Ψ()ME λ为M 估计.()10nii xλ=Ψ−=∑% (2.6) 进一步, 考虑到数据的尺度问题, 将(2.6)改进为10ni i x λσ=⎛⎞−Ψ=⎜⎟⎝⎠∑% (2.7)其中2σ为方差. 因此, 在泊松分布中, 其参数λ的M 估计()ME λ是(2.8)的解.10ni =⎛⎞Ψ=∑ (2.8) 由M 估计的近似分布性质可知: ()ME λ具有近似分布22,E N n E λλ⎛⎞⎡⎤⎜⎟Ψ⎢⎥⎜⎟⎣⎦⎜⎟⎧⎫⎜⎟⎡⎤⎪⎪′Ψ⎨⎬⎜⎟⎢⎥⎜⎟⎪⎪⎣⎦⎩⎭⎝⎠Huber 建议在(2.7)中取和d 如下:()u Ψ()(), sign , u k u k u u k −≤≤⎧⎪Ψ=⎨⋅>⎪⎩u k()median median 0.6745i i x x d −= 其中用d 作为σ的估计.Hampel [6]在自己的博士论文中给出了估计泊松分布参数的最优方法. 由于其给出的最优方法中性质并不太好, Simpson 等()u Ψ[7]在1987年给出了一个性质更好的用于估计泊松分布的参数.()u Ψ2.3 极大截断似然估计基于上面提到的极大似然估计和M 估计的性质, 我们可以发现: 极大似然估计虽然是最小方差无偏估计, 但其受离群值的影响很大, 其稳健性较差; M 估计虽然具有较好的稳健性, 但是函数()u Ψ的选取较为麻烦, 即便是Hampel 和Simpson 等给出的也较为麻烦, 这为实际操作带来了不小的麻烦. Neykov 和Neytchev ()u Ψ[2]基于极大似然估计的优良性质, 提出通过似然函数截断一些可能的坏数据后再进行估计的方法. 这种方法既保留了似然函数的部分性质, 又提高了估计量的稳健性.对于分布而言, 其密度函数记为F ();f x λ, 其中λ为待估的参数. 我们称(2.9)所对应的估计()MTLE,h λ为参数λ的极大截断似然估计. ()[]([]MTLE,1arg max;nh i j j nh l x λ)λλ∈Λ=+=∑%% (2.9) 其中()(;log ;l x f x )λλ=%%, [](;i j l x )λ%表示(){}1;ni i l x λ=%中的第j 次序统计量, 为Λλ%的取值范围. 要使估计()MTLE,h λ与真实结果相差不太大的话, 我们可以从Λ入手进行考虑. 在估计泊松分布参数的时候, 我们可以通过如下的定理, 给出Λ.定理1 若()~i x P λ, 则{}[]median i x λ⎯⎯→P.证明见附录.通过这个定理, 我们可以发现: 只要让{}{}median ,median 1i i x x κΛ=+−⎡⎤⎣⎦, 其中充分小. 那么0κ>()MTLE,h λ与λ就不会相差太大.2.4 自适应极大截断似然估计基于2.3小节中提到的极大截断似然估计而言, 它有一些不错的性质. 但是截断比例的选取并没有一致的方法. 通常情况下, 截断比例的选取依赖于一些先验知识. 当取得越大, 则h h ()MTLE,h λ受坏数据的影响越小, 但有效性会降低. 因此, 我们考虑用平均似然达到最大的方法来确定截断比例. 称(2.10)所对应的h截断比例为最优截断比例.*h [)[]((MTLE,*[]0,[]11arg max ;nh j ih j nh h l n nh λδλ∈=+=−∑))x (2.10) 其中()MTLE,h λ的定义如(2.9)所示, λδ为对截断比例上限的限制.令()()*MTLE,AMTLE h λλ=, 称估计量()AMTLE λ为自适应极大截断似然估计. 在实际操作中, 我们可以用下面的方法来给出λδ.对于给定的样本{}, 我们首先用样本的中位数1ni i x ={}median i x 作为位置参数λ的估计, 记{}median i u =x ; 然后令1!u uu e u λδ−=−. 我们来解释为什么这样选取λδ.根据定理1, 我们可以看出受数据影响较小的中位数在样本量趋于无穷的时候, 虽然不是无偏估计, 但其和真实值之间的差异并不太大. 在样本量充分大的时候, 用上面所给的λδ作为截断上限可以保证得到的估计与λ相差不大.3. 自适应极大截断似然估计的性质在本章中, 我们首先对于自适应极大截断似然估计考虑它的极限性质, 然后给出该估计的崩溃点.3.1 自适应极大截断似然估计的极限性质根据(2.10)关于自适应极大截断似然估计中最优截断比例的定义, 我们可以知道: 当样本量的时候, 会以概率1趋于, 有(3.1)式确定.n →∞*h 0h 0h )()()()()()()()MTLE,MTLE,MTLE,100,arg max ;;h h h h h E l x l x G λλδλλ−⎡∈⎣=>%%%%h )(3.1) 其中表示变量()1G h λ−%(;l x λ%分布的下分位点, 即h ()()()1Pr ;1l x G h h λλ−>=%%−; ()MTLE,h λ%表示当样本量的时候, n →∞()MTLE,h λ依概率收敛的极限, λδ%表示当样本量n 的时候, →∞λδ依概率收敛的极限.为了说明当样本量的时候, n →∞()AMTLE λ依概率收敛的极限. 我们首先给出如下引理.引理1 对于确定的0+λ∈R , ()()()()100;;E l x l x G h λλλ−>关于是不降的函数.h 证明见附录.根据引理1, 我们可以得到()AMTLE λ依概率收敛的极限, 即下面的定理.定理2 若()~x P λ, 则()[]AMTLE λλ⎯⎯→P.证明见附录.通过定理2, 我们可以发现: 在估计泊松分布的参数时, ()AMTLE λ是渐近有偏的估计; 但是该估计具有较好的稳健性(我们在下一小节中将进行阐述). 对比定理1和定理2, 我们可以发现: 用中位数和自适应极大截断似然估计对泊松分布参数进行估计的时候, 这二者的极限是相同的; 但是在第4章中, 我们将看到在有限样本的时候, 用自适应极大截断似然估计会比中位数更好.3.2 自适应极大截断似然估计崩溃点对于一个估计而言, 我们常常考虑它受坏数据影响的情况. 我们称一个估计是稳健的, 是指它受坏数据影响较小, 即数据集中有坏数据和没有坏数据时的估计结果相差不大. 但这种定义只是一个描述性的定义, 对问题的分析没有太大的作用. Müller 和Neykov [8]给出了一种描述一个估计稳健性的指标. 在本文中, 我们也用这个定义来描述估计的稳健性. 定义: 对于估计而言, 给定样本:ng →Ωk{}1ni i x ==x 时, 可以得到.()g ∈Ωx 令(){}{}:card :nM j j (j x x M =∈≠≤k kx x , )()()M M g g =k x x ).称(3.2)式确定的为该估计的崩溃点.(*,g εx (){*1,min g nε=x :M 不存在紧集()0int Ω⊆Ω, 使得()}0M g ⊆Ωx (3.2) 定理3 在估计泊松分布参数时, ()AMTLE λ的崩溃点接近0.5 证明见附录.从定理3, 我们可以看出()AMTLE λ的崩溃点很高, 这说明该估计的稳健性很好. 虽然该估计并非渐近无偏的, 但是其高崩溃点的性质非常良好; 同时, 该估计与真实值之间相差并不太大, 因此我们有理由预期: 在实际操作中, 该估计方法具有良好的表现. 我们在第4章中会通过模拟的方法来说明这一点.4. 有限样本的性质在本章中, 我们将通过模拟的方法来说明自适应极大截断似然估计在有限样本时的表现. 本章分为两个小节, 第一小节采用的是未受污染的数据; 第二小节采用的是受污染的数据.在这两个小节中, 我们考虑的样本量n 分别为100, 200和400. 对于相同样本量的数据, 我们分别用极大似然估计, M 估计, 极大截断似然估计, 自适应极大截断似然估计和中位数对泊松分布的参数进行估计. 对于某一种估计结果ˆλ, 我们考虑它的均方误差MSE 和平均偏差EB. 这二者的定义如(4.1)所示.()()2ˆˆMSE E λλλ=− ()ˆˆEB E λλλ=− (4.1) 在实际计算这两个指标时, 我们采用Monte Carlo 方法, 用多次模拟的平均值近似真值. 这由大数定律是可以保证的. 为了提高估计的精度, 在Monte Carlo 方法的基础上, 我们用Hammersley 等[9]减少方差的方法对模拟方法进行改进.4.1 未受污染数据的模拟取不同的λ得到的模拟结果如表1所示.表1 未受污染数据的模拟情况0.5λ=1λ=100n =200n =400n =100n =200n =400n =估计方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EBMLE 0.0049 0.00060.0024 -0.00030.0013-0.00010.00980.00050.0050-0.0005 0.0025 0.0001ME0.0342 -0.15850.0308 -0.16920.0303-0.17160.0147-0.07120.0101-0.0730 0.0077 -0.0731MTLE(0.1) 0.0730 -0.24870.0689 -0.25800.0676-0.25820.0007-0.00110.00000.0001 0.0000 0.0001MTLE(0.2) 0.1679 -0.39030.1669 -0.40450.1683-0.40870.0011-0.00190.00000.0001 0.0000 0.0001AMTLE 0.0090 -0.06590.0069 -0.06820.0059-0.06850.0015-0.00210.00000.0001 0.0000 0.0001MEDIAN 0.2480 -0.48290.2499 -0.49890.2500-0.50000.0022-0.00260 0 0 03.5λ=4λ=100n =200n =400n =100n =200n =400n =估计方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EBMLE 0.0353 0.00260.0177 0.00250.00870.00010.03980.00200.0202-0.0025 0.0100 -0.0001ME0.0982 -0.04350.0683 -0.06930.0441-0.10170.0485-0.07600.0282-0.0809 0.0170 -0.0794MTLE(0.1) 0.1267 -0.10800.0976 -0.14030.0708-0.17160.0455-0.03160.0121-0.0109 0.0013 -0.0015MTLE(0.2) 0.2136 -0.23700.2192 -0.31970.2236-0.39680.0738-0.05790.0218-0.0206 0.0026 -0.0026AMTLE 0.0404 -0.07070.0225 -0.07100.0138-0.07260.04120.00890.01160.0126 0.0021 0.0096MEDIAN 0.2344 -0.26680.2418 -0.34640.2466-0.42240.0866-0.08540.0266-0.0289 0.0034 -0.0038(附表) 10.5λ=11λ=100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EBMLE 0.1053 0.00330.0514 -0.00630.02520.00250.11120.00190.0548-0.0031 0.0268 0.0006ME0.1601 0.04660.1071 0.02340.09450.02210.13490.04100.05260.0219 0.0260 0.0230MTLE(0.1) 0.2092 -0.05510.1598 -0.10440.1339-0.14440.1829-0.04090.0842-0.0474 0.0259 -0.0213MTLE(0.2) 0.2488 -0.10880.2042 -0.16500.1953-0.22150.2214-0.09160.1134-0.0902 0.0380 -0.0420AMTLE 0.1149 -0.06990.0594 -0.08080.0307-0.07120.1213-0.07220.0635-0.0789 0.0339 -0.0752MEDIAN 0.2769 -0.17380.2424 -0.22820.2431-0.29740.2434-0.14740.1357-0.1176 0.0498 -0.0515λ20.5=21λ=100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EBMLE 0.2054 -0.00860.1033 0.00330.05070.00270.20990.00410.1058-0.0014 0.0525 0.0040ME0.2626 0.05770.1495 0.05590.10150.05500.26940.07430.12670.0444 0.0612 0.0400MTLE(0.1) 0.3396 -0.04090.2035 -0.05720.1624-0.09280.3463-0.02180.1794-0.0494 0.0758 -0.0372MTLE(0.2) 0.3983 -0.08580.2412 -0.09970.1926-0.13260.4021-0.06290.2204-0.0826 0.1008 -0.0510AMTLE 0.2192 -0.08290.1110 -0.07010.0571-0.07120.2221-0.06830.1157-0.0757 0.0599 -0.0709MEDIAN 0.4158 -0.17960.2720 -0.17800.2452-0.21540.4174-0.16230.2474-0.1578 0.1211 -0.1075注: λ1=的时候, 样本量等于200和样本量等于400的时候, 出现的0.0000表示的是, 模拟结果的量级比小数点后四位还要小.从表1中, 我们可以发现: 当数据未受污染时, 自适应极大截断似然估计的MSE 是较其他稳健方法而言, 是最小的; 并且EB 也不是太大, 也就是说在未受污染的情况下, 自适应极大截断似然估计有良好的表现; 对于中位数估计而言, 当位置参数很小或者非整数时, 其估计效果不佳, 比如在0.5λ=的时候, 中位数估计的结果和零非常的接近, 在很多样本中中位数就是0, 这与实际是不相符合的. 从这一点也能看出, 自适应极大截断似然估计就中位数估计而言, 有一定的改进作用.4.2 受污染数据的模拟在本小节中, 我们主要对两类污染下各估计方法的好坏进行模拟. 第一类是混合泊松分布()()()1P P ελελ′−+, 第二类是点污染()()1x P ελεδ−+, 其中ε表示污染数据的比例.模拟第一类污染下各估计方法的好坏, 得到的模拟结果如表2所示; 模拟第二类污染下各估计方法的好坏, 得到的模拟结果如表3所示.0.5λ=, 5λ′=0.1ε=0.2ε=100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EB MLE 0.2379 -0.3610 0.2256 -0.43970.2089-0.48430.25900.49930.25480.4997 0.2523 0.4998ME0.1289 -0.2287 0.1154 -0.28060.1097-0.28720.15680.04000.15440.0570 0.1595 0.0883MTLE(0.1) 0.0348 0.0073 0.0171 -0.02030.0066-0.03820.12850.28680.13600.3043 0.1463 0.3256MTLE(0.2) 0.0653 -0.1133 0.0491 -0.15490.0397-0.18010.13240.18930.13850.2115 0.1471 0.2396AMTLE 0.0111 0.0632 0.0073 0.06110.00540.05930.06380.23580.06050.2370 0.0595 0.2394MEDIAN 0.0702 0.2507 0.0664 0.25050.06410.24950.16150.12230.16500.1460 0.1714 0.17633λλ′=7.5, =0.1ε=0.2ε=100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EB MLE 0.2363 0.4484 0.2204 0.45050.21060.44930.84430.89750.83130.9014 0.8074 0.8988ME0.0834 0.2166 0.0654 0.21700.05660.21740.34550.55400.32850.5567 0.3160 0.5536MTLE(0.1) 0.0386 0.0773 0.0084 0.03970.00210.02060.27630.39540.21310.3538 0.1399 0.3013MTLE(0.2) 0.0317 0.0368 0.0039 0.01160.00020.00250.23800.29400.17300.2404 0.0971 0.1812AMTLE 0.0490 0.1099 0.0185 0.08070.01050.06520.22810.24640.16160.1716 0.0826 0.0872MEDIAN 0.0309 0.0182 0.0030 0.00310.27190.37350.20560.3288 0.1298 0.275810.5λλ′=18, =0.1ε=0.2ε=100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EB MLE 0.4296 0.5569 0.3956 0.55900.38980.55040.92940.95290.86860.9508 0.8358 0.9487ME0.2993 0.3896 0.2272 0.39930.21450.42640.64150.72130.57740.7187 0.5445 0.7172MTLE(0.1) 0.2839 0.2809 0.2171 0.29950.21170.35250.63770.66190.47360.6185 0.3618 0.5788MTLE(0.2) 0.2968 0.2309 0.2349 0.25010.23340.30880.60490.61310.43980.5811 0.3297 0.5500AMTLE 0.2082 0.2243 0.1494 0.22440.12100.22470.48050.52590.35750.5277 0.2684 0.5262MEDIAN 0.2884 0.1780 0.2418 0.21870.24340.29190.54530.55990.39550.5404 0.2891 0.516021λ=, 30λ′=0.1ε= 0.2ε= 100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EB MLE 0.5525 0.4986 0.2636 0.49770.21540.48370.85030.85410.75940.8462 0.6994 0.8507ME0.3117 0.2970 0.1972 0.29570.14660.30290.69000.67720.58790.6881 0.5255 0.6854MTLE(0.1) 0.4552 0.3189 0.2687 0.28180.16980.24290.85510.69010.66950.6758 0.6329 0.6884MTLE(0.2) 0.4748 0.2786 0.2763 0.24850.16780.21280.85240.64870.64770.6312 0.6102 0.6397AMTLE 0.3601 0.3011 0.2476 0.30700.13390.30610.74880.51340.59350.5093 0.5514 0.5218MEDIAN 0.4273 0.1820 0.2502 0.17340.14210.13430.72960.55370.57920.5606 0.5792 0.58640.5λ=, 5x =0.1ε=0.2ε=100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EBMLE 0.2372 -0.33740.2444 -0.41340.2487-0.47480.25490.60090.25280.6008 0.2511 0.6001ME0.0161 0.09150.0122 0.08990.00990.08920.11760.32840.11280.3287 0.1097 0.3278MTLE(0.1) 0.0378 0.05270.0210 0.02920.00680.00790.16950.38660.18330.4082 0.1978 0.4292MTLE(0.2) 0.0676 -0.09150.0521 -0.13230.0390-0.16680.15230.27450.16620.3132 0.1828 0.3535AMTLE 0.0671 0.15030.0648 0.15010.06370.15020.17780.20190.18690.2508 0.1990 0.3020MEDIAN 0.1284 -0.20470.1152 -0.25470.1060-0.29940.22900.14010.23590.1876 0.2401 0.24849x λ=3, =0.1ε=0.2ε=100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EBMLE 0.2803 0.50360.2633 0.49990.25620.4995 1.03250.9998 1.0118 1.0001 1.0051 0.9996ME0.1152 0.27920.0948 0.27540.08550.27560.59330.73910.56790.7382 0.5549 0.7371MTLE(0.1) 0.0449 0.09030.0116 0.05160.00380.03320.56900.68470.50460.6610 0.4411 0.6293MTLE(0.2) 0.0592 0.07460.0116 0.02340.00130.00520.31650.34920.26720.2932 0.1922 0.2128AMTLE 0.0388 0.05090.0063 0.01920.00070.00710.32440.34960.26910.2998 0.2005 0.2078MEDIAN 0.0373 0.02960.0047 00047 0.00010.00020.31420.33610.26580.2800 0.1911 0.199419x λ=10.5, =0.1ε=0.2ε=100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EBMLE 0.6212 0.52760.5209 0.54970.48450.5936 2.4007 1.4787 2.3686 1.5133 2.3052 1.5075ME0.2960 0.44770.2439 0.44360.21930.44260.97310.94340.93340.9448 0.9131 0.9449MTLE(0.1) 0.4889 0.57500.3939 0.56960.35100.5674 1.7089 1.2541 1.6573 1.2602 1.6686 1.2767MTLE(0.2) 0.4017 0.53010.3127 0.51660.27880.5141 1.3066 1.0687 1.2341 1.0594 1.2012 1.0544AMTLE 0.3017 0.30490.2506 0.30150.22670.30110.89470.85020.85280.8509 0.8323 0.8510MEDIAN 0.3416 0.30370.2645 0.34410.24650.35131.06550.87810.94180.8494 0.8541 0.807410x 21λ=, =0.1ε= 0.2ε= 100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EBMLE 1.4179 -1.1074 1.3121 -1.1031 1.2480-1.0959 5.0439-2.2079 4.9377-2.2028 4.8713 -2.1975ME1.1494 -0.95451.0208 -0.94960.9490-0.9433 4.4050-2.0369 4.2707-2.0350 4.1836 -2.0295MTLE(0.1) 0.4522 -0.27520.2452 -0.24550.1410-0.22913.0026-1.6043 2.8809-1.6139 2.8738 -1.6265MTLE(0.2) 0.9557 -0.76590.8224 -0.77820.8301-0.8325 1.0486-0.73220.7406-0.6779 0.6415 -0.6627AMTLE 0.4762 -0.31910.2948 -0.31290.2036-0.3125 2.8728-1.0548 2.7845-1.0830 2.8060 -1.1076MEDIAN 1.0719 -0.80920.8838 -0.80070.8535-0.84243.0596-1.61512.9017-1.6178 2.8758 -1.6269通过上面的表2和表3, 我们可以发现: 在这两类污染下, 自适应极大截断似然估计具有良好的性质, 对于不同的污染比例, 其估计结果都是不错的.5. 结论通过上面的分析, 我们可以发现: 自适应极大截断似然估计在估计泊松分布参数的时候, 具有较好的稳健性质, 并且该估计不用事先给定截断数据的比例, 在实际运用中较为方便.6. 附录为了证明定理1, 我们首先给出如下引理. 引理: 令()()21210,1mm jj j m j g m p C p p +−+==−∑, 则()0, 0.5lim ,0.5, 0.51, 0.5m p g m p p p →∞>⎧⎪==⎨⎪<⎩当时, 结论显然. 下面证明的情形. 0.5p =0.5p >假设12,,m 1ξξ+L 独立同分布于()1,B p , 则()()21121210,1Pr 2121mm jj j m m j m g m p C p p m m ξξ+−++=++⎛⎞=−=≤⎜⎟++⎝⎠∑L 从而()1211,Pr 212m g m p m ξξ+++⎛⎞≤≤⎜⎟+⎝⎠L因为, 所以存在0.5p >0ε>使得0.5p ε−>, 则()121121,Pr Pr 2121m m g m p p p m m ξξξξεε++++⎛++⎛⎞⎞≤≤−≤−≥⎜⎟⎜⎟++⎝⎠⎝⎠L L由大数定理可知: 121Pr 021m p m ξξε+⎛++⎞−≥→⎜⎟+⎝⎠L , 当时.m →∞从而当时, 0.5p >(),0g m p →又()()()21212121211,111m mjjj m jj m m m j m j g m p Cpp C p p ++−+−++=+==−=−−∑∑j j 所以时, 由可知0.5p <()2121010mjj m m j C p p +−+=−→∑(),g m p →1. □定理1的证明:首先考虑样本数为奇数的情形.假设1,,~()n X X P λL , 其中2n m 1=+为偶数. 下面我们考虑的分布.()1m X +()()()()()11Pr 1Pr 1Pr m m X k X k A ++==−≠=−U B其中至少{A =1m +个数, 1k ≤−}{B =至少1m +个数 1k ≥+}则()()()()1Pr 1Pr Pr m X k A +==−−B其中()212112110Pr !!j m u u m k ju u m j m u u k A C e e u u λλj+−+−∞−−+=+==⎛⎞⎛⎞=⎜⎟⎜⎟⎝⎠⎝⎠∑∑∑()212121101Pr !!m jju u m k ju m j m u u k B C e e u u λλ+−+∞−−+=+==+⎛⎞⎛=⎜⎟⎜⎝⎠⎝∑∑∑u ⎞⎟⎠要证()[]1m X λ+⎯⎯→P, 只用证明()[]10m E X λ+−→即可.又()[][]()()()[][]()()()[]11Pr Pr m m k k E X k X k k X k λλλλλ++≤>−=−⋅=+−⋅=∑∑1m +所以有()[][]()()()[]()()112Pr m m k E X k X k E X λλλ++≤−=−⋅=+∑1m +下面我们来说明()()[]1m E X λ+→.因为()()()()()()1101Pr Pr m m k k E X k X k k X k ∞∞++===⋅==⋅=∑∑1m +21211211102121211011!! !!j m u u m k ju u m k j m u u k m jju u m k j u m j m u u k k C e e u u Ce e u u λλλλ+−∞+−∞−−+==+==+−+∞−−+=+==+⎡⎛⎞⎛⎞=−⎢⎜⎟⎜⎟⎢⎝⎠⎝⎠⎣⎤⎛⎞⎛−ju ⎞⎥⎜⎟⎜⎟⎥⎝⎠⎝⎦∑∑∑∑∑∑∑⎠211211002121=001!! !!j m u u m k j u u m k j u u k j m u u mk ju u m j u u k k C e e u u Ce e u u λλλλ+−∞−∞−−+====+−∞−−+==+⎡⎛⎞⎛⎞=⎢⎜⎟⎜⎟⎢⎝⎠⎝⎠⎣⎤⎛⎞⎛⎞−j j⎥⎜⎟⎜⎟⎥⎝⎠⎝⎠⎦∑∑∑∑∑∑∑令1!uk uk u p e u λ−−==∑, 1!uuk u k q eu λ∞−=+=∑, 则1!kk k k x p q e k λλ−=−−=则()()()21212121110001m m m j j jj j m j k m k k k m k k m k j j k E X k x C p x q C p q x ∞+−+−+++===⎡⎤=⋅⋅+−⎢⎥⎣⎦∑∑∑+≥+对于, .k ∀()212121211000m m m j j j j jm j m k k k m k k j j k C p x q C p q +−+−+++==⎡⎤+−⎢⎥⎣⎦∑∑从而由Fatou 定理可知:()()()2121212111000inf lim inf lim m mm j j j j jm j m k k k m k k m m m k j j E X k C p x q C p q ∞+−+−+++→∞→∞===⎡⎤≥+−⎢⎥⎣⎦∑∑∑ 考虑k 满足: {}{}1:0.5:0.5k k k S k p p k p +=<<=U 当k 时, 由上述引理有S ∉()()2121212100mmm jjjj j m jm kk k m k k k j j Cpx q C x p q +−+−++==+−+∑∑→又由于对于给定的λ而言, !kk x e k λλ−=在[]k λ=时达到最大从而{}[]{}1:0.5k k k p p λ+<<=另一方面, 在λ+∈R 时, 使{}:0.5k k p =≠∅的λ的集合在Lebesgue 测度下为0 所以()()[]212121210001lim m mm j j j jj m j k m k k k m k k k m k j j k k x C p x q C x p q x λ∞+−+−++→∞===⎡⎤⋅⋅+−+=⎢⎥⎣⎦∑∑∑ 对几乎处处λ+∈R 成立. 则()()[]1inf lim m m E X λ+→∞≥.对于固定的m 和k 而言,对函数()()212121210mmm jjj j j m m kk m k k j j Cpx q C p x q +−j +−++==+−+∑∑使用中值定理有()()()()2121221212101mmm jjj j j m j m mm m kk m k k m k k j j Cpx q C p x q x C p m q O x +−+−+++==+−+=⋅++∑∑ 对于给定的λ而言, , lim 1k k p →∞=lim 0k k q →∞=.则, 存在, 使得(0,0.5ε∀∈)0K 0k K ∀>均有k x ε<, 并且10k p .5ε>−> 从而()()()()()()01111Pr Pr K m m m k k K E X k X k k X k ∞++==+=⋅=+⋅=∑∑1+进一步, 有()()()()()()0002111111Pr 1K mm m k m kkk k m m k k K k K E X k X k k x C pm qk x O x ∞∞+++==+=+=⋅=+⋅⋅++⋅⋅∑∑∑由于, 则存在与0k k k x λ∞=⋅=<∞∑ε无关的, 使得10M >()01k k k K k x O x M ε∞=+⋅⋅<∑.又因为, 所以1k k p q +<20.5m mm k k p q <则()()()()()002211111Pr 10.5K m mk m m m k k K E X k X k k x C m M ε∞+++==+≤⋅=+⋅⋅++∑∑. 又由于()()222121!10.50.5!!m m m m C m m m +++=⋅m由String公式!~mm m e ⎞⎟⎠, 有()22110.5~m m m C m ++从而()()()()111sup lim sup lim Pr K m m m m k E X k X k M ε++→∞→∞=≤⋅=∑+.根据的选取可知, 0K {}[]{}{}10:0.51,2,,k k k p p K λ+<<=⊆L . 所以()()[]011sup lim Pr K m m k k X k λ+→∞=⋅==∑.令0ε→可知: ()()[]1sup lim m m E X λ+→∞≤.综上所述有[]()()()()[]11inf lim sup lim m m m m E X E X λλ++→∞→∞≤≤≤.即()()[]1lim m m E X λ+→∞=对几乎处处的λ+∈R 成立.又由引理知[]()()()[][]12Pr m k k X k λλλ+≤−⋅=→−∑.所以()[]10m E X λ+−→, 则()[]1m X λ+⎯⎯→P.对于样本数为偶数时, 用类似方法可得相同的结论. □引理1的证明:记()()()()()100;;g h E l x l x G h λλλ−=>. 根据的定义可知: 当增加时, ()1G h λ−h ()01G h λ−也增加.取, 并且令1h h <2()(){}01101:;A x l x G h λλ−=>()(), {}01202:;A x l x G h λλ−=>22, 则.21A A ⊆若, 则; 1A A =()()12g h g h =若, 则1A A Ù()()()()()()()()21212111Pr Pr \;,Pr Pr A A A g h g h E l x x A x A A A λ=+∈2∉.又()()()12;,2E l x x A x A g h λ∈∉≤, 则()()12g h g h ≤.从而, ()()()(100;;E l x l x G h λλλ−>)关于是不降的函数. □ h定理2的证明: 首先计算(3.1)中的.0h 因为()()MTLE,MTLE,h h λλ⎯⎯→P %, 而{}(){}MTLE,median median 1h i ix x λκ≤<+−. 所以由定理1可知: []()[]MTLE,1h λλλκ[≤≤+−%对)0,h λδ∀∈成立. 由)()()()()()()()MTLE,MTLE,MTLE,100,arg max ;;h h h h h E l x l x G λλδλλ−⎡∈⎣=>%%%%h 可知 )()()()()()()()()()()()()()()MTLE,00MTLE,0MTLE,MTLE,10,MTLE,MTLE,10 max ;;;;h h h h h h h E l x l x G h E l x l x G h λλδλλλλλ−⎡∈⎣−>=>%%%%%%%对于()()()()()()()00MTLE,0MTLE,MTLE,10;;h h h E l x l x Gh λλλ−>%%%而言, 有引理1可知()()()()()()()()()()()()()()00MTLE,00MTLE,0MTLE,MTLE,10MTLE,MTLE,1;;;;h h h h h h E l x l x G h E l x l x Gλλλλλλλδ−−>≤>%%%%%%% 由于()~x P λ, []()[]0MTLE,1h λλλκ≤≤+−%[], [][][]!e λλλδλ−=%λ 所以, ()()()(){}[]{}0MTLE,0MTLE,1:;h h x l x G λλλδλ−>=%%%从而有)()()()()()()()[][]()[][]MTLE,MTLE,MTLE,10,;max ;;1!h h h h l E l x l x Gh e hλλλλδλλλλλλ−−⎡∈⎣>≤−%%%%.另一方面,)()()()()()()()[][]()[][]MTLE,MTLE,MTLE,10,;max ;;1!h h h h l E l x l x Gh e hλλλλδλλλλλλ−−⎡∈⎣>≥−%%%%是显然的.则0h λδ=%, 故()[]AMTLE λλ→. □定理3的证明:根据()AMTLE λ及()MTLE,h λ的定义, 我们可以知道{}(){}AMTLE median median 1i i x x λ≤<+由中位数{}median i x 的崩溃点接近0.5, 那么()AMTLE λ的崩溃点也接近0.5 □参考文献[1] P. J. Huber. Robust estimation of a location parameter. Ann. Math. Statist . 1964, 35: 73-101. [2] N. Neykov and P. Neytchev. A robust alternative of the maximum likelihood estimators. COMPSTAT 1990-Short Communications, 99-100.[3] A. S. Hadi and A. Luceno. Maximum trimmed likelihood estimators: a unified approach,examples, and algorithms. Computational Statistics & Data Analysis . 1997, 25: 251-272. [4] J. Jureckova, R. Koenker and A. H. Welsh. Adaptive choice of trimming proportions. Ann. Inst. Statist. Math. 1994, 46: 737-755.[5] P. Cizek. Robust and efficient adaptive estimation of binary-choice regression models. Journal of the American Statistical Association . 2008, 103: 687-696.[6] F. Hampel. Contributions to the theory of robust estimation. Ph.D. thesis, Univ. California,Berkeley. 1968.[7] D. G. Simpson, R. J. Carroll and D. Ruppert. M-estimation for discrete data: Asymptoticdistribution theory and implication. Ann. Statist. 1987, 15: 657-669.[8] C. H. Müller and N. Neykov. Breakdown points of trimmed likelihood estimators and relatedestimators in generalized linear models. Journal of Statistical Planning and Inference. 2003, 116: 503-519.[9] J. M. Hammersley and D. C. Handscomb. Monte Carlo Method. Wiley, New York, 1964.致谢在本文的写作过程中, 得到了崔恒建教授及其博士生胡涛师兄的大力帮助, 在此向他们表示感谢! 在模拟数据的过程中, 左恒同学和袁朝慧同学也给予了大力的支持, 在此也向这两位同学表示感谢!。
二项分布和泊松分布参数的区间估计
二项分布和泊松分布参数的区间估计一、二项分布的参数估计:二项分布描述了在给定n次独立的伯努利试验中成功的次数。
其中,n表示试验次数,p表示每次试验成功的概率。
在实际问题中,n和p通常是未知的,我们需要使用样本数据来对它们进行估计。
1.估计p的置信区间:当估计二项分布参数p时,我们通常需要计算p的置信区间。
常用的方法有矩估计法和最大似然估计法。
矩估计法假设样本均值等于总体均值,样本方差等于总体方差除以样本大小。
计算公式为:p̂=x/n其中,x表示成功的次数,n表示试验的总次数。
利用矩估计法可以得到p̂的标准误差为:se(p̂) = sqrt(p̂(1-p̂)/n)我们可以根据样本数据和分位数来计算p的置信区间。
例如,95%的置信区间可以通过以下公式计算:p̂± Z*se(p̂)其中,Z是标准正态分布的分位数。
2.估计n的置信区间:当估计二项分布参数n时,我们假设p是已知的。
计算n的置信区间的方法有多种,例如最大似然估计法、滞后估计法等。
最大似然估计法假设样本数据是来自二项分布,通过极大化似然函数来估计参数n。
计算公式为:n̂=x/p̂其中,x表示成功的次数,p̂表示每次试验成功的概率。
利用最大似然估计法可以得到n̂的标准误差为:se(n̂) = sqrt(x/p̂^2)我们可以根据样本数据和分位数来计算n的置信区间。
例如,95%的置信区间可以通过以下公式计算:n̂± Z*se(n̂)其中,Z是标准正态分布的分位数。
二、泊松分布的参数估计:泊松分布描述了单位时间或单位面积内发生事件的次数。
其中,λ表示单位时间或单位面积内事件的平均发生率。
在实际问题中,λ通常是未知的,我们需要使用样本数据来对其进行估计。
1.估计λ的置信区间:在估计泊松分布参数λ时,我们通常需要计算λ的置信区间。
常用的方法有矩估计法和最大似然估计法。
矩估计法假设样本均值等于总体均值,样本方差等于总体方差。
计算公式为:λ̂=x̂其中,x̂表示样本均值。
统计学与研究方法试题答案
统计学与研究方法试题答案第一章绪论1单选题1、总体是指()A.全部研究对象B.全部研究对象中抽取的一份C.全部样本D.全部研究指标E.全部同质研究对象的某个变量的值2、统计学中所说的样本是指()A.随意抽取的总体中任意部分B.有意识的选择总体中的典型部分C.依照研究者要求选取总体中有意义的一部分D.依照随机原则抽取总体中有代表性的一部分E.有目的的选择总体中的典型部分3、下列资料属等级资料的是()A.白细胞计数B.住院天数C.门急诊就诊人数D.病人的病情分类E.ABO血型分类4、为了估计某年华北地区家庭医疗费用的平均支出,从华北地区的5个城市随机抽样调查了1500户家庭,他们的平均年医疗费用支出是997元,标准差是391元。
该研究中研究者感兴趣的总体是()A.华北地区1500户家庭B.华北地区的5个城市C.华北地区1500户家庭的年医疗费用D.华北地区所有家庭的年医疗费用E.全国所有家庭的年医疗费用5、欲了解研究人群中原发性高血压病(EH)的患病情况,某研究者调查了1043人,获得了文化程度、高血压家族史、月人均收入、吸烟、饮酒、打鼾、脉压差、心率等指标信息。
则构成计数资料的指标有()A.文化程度、高血压家族史吸烟、饮酒、打鼾B.月人均收入、脉压差、心率C.文化程度、高血压家族史、、打鼾D.吸烟、饮酒E.高血压家族史、饮酒、打鼾第二章计量资料统计描述及计数资料统计描述1、描述一组偏态分布资料的变异度,以()指标较好。
A.全距B.标准差C.变异系数D.四分位数间距E.方差2、用均数和标准差可以全面描述()资料的特征。
A.正偏态分布B.负偏态分布C.正态分布D.对称分布E.对数正态分布3、各观察值均加(或减)同一数后()。
A.均数不变B.几何均数不变C.中位数不变D.标准差不变E.变异系数不变4、比较某地1~2岁和5~5.5岁儿童身高的变异程度。
宜用()。
A.极差B.四分位数间距C.方差D.变异系数E.标准差5、偏态分布宜用()描述其分布的集中趋势。
数理统计6:泊松分布,泊松分布与指数分布的联系,离散分布参数估计
数理统计6:泊松分布,泊松分布与指数分布的联系,离散分布参数估计前两天对两⼤连续型分布:均匀分布和指数分布的点估计进⾏了讨论,导出了我们以后会⽤到的两⼤分布:β分布和Γ分布。
今天,我们将讨论离散分布中的泊松分布。
其实,最简单的离散分布应该是两点分布,但由于在上⼀篇⽂章的最后,提到了Γ分布和泊松分布的联系,因此本⽂从泊松分布出发。
由于本系列为我独⾃完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢!⽬录Part 1:泊松分布简介泊松分布是⼀种离散分布,先给出其概率分布列。
若X∼P(λ),则P(X=k)=λkk!e−λ,k=0,1,⋯它的取值是⽆限可列的。
为什么泊松分布会与指数分布、Γ分布有联系呢?这是因为,它们三个都是随机事件发⽣的⼀种描述。
实际上,指数分布的参数λ是⼀种速率的体现,它刻画了随机事件发⽣的速率。
⽽指数分布随机变量的取值,就代表某⼀事件在⼀定的速率下发⽣的时刻距离计时原点的长度。
Y∼E(λ),就代表Y对应的事件事件的发⽣速率是λ,所以平均发⽣时间就在在1/λ处。
这也可以作为E(Y)=1/λ的⼀种解释。
指数分布具有⽆记忆性,这与随机事件的发⽣相似,即已经发⽣历史事件对未来不产⽣影响,⽤数学语⾔说就是P(Y>s+t|Y>s)=P(Y>t)。
这指的是,如果⼀个事件平均会在s时间后发⽣,但是⽬前经过了t时间还没有发⽣,则事件的平均发⽣时间就移动到t+s时间后。
它不会因为你已经等了t时间,就会更快地发⽣。
⽽如果把n个独⽴同分布于E(λ)指数分布随机变量相加,得到的⾃然就是恰好发⽣k个事件的平均时间,这个时间Z∼Γ(n,λ),本质还是⼀种时间的度量。
但Z就不具有⽆记忆性了,这是因为,经过t时间后可能已经发⽣了n−1个事件就差最后⼀个没有发⽣,也可能⼀个事件都没发⽣还需要n个才能凑齐。
泊松分布则刚好相反,指数分布和Γ分布都是限定了发⽣次数,对发⽣时间作度量;泊松分布则是限定了时间1,求随机事件在这⼀段时间内发⽣的次数服从的概率分布。
随机分布函数 泊松分布
泊松分布泊松分布概率质量函数累积分布函数参数支撑集概率質量函數累积分布函数期望值中位数众数方差偏度峰度信息熵动差生成函数特性函数Poisson分布又称泊松小数法则(Poisson law of small numbers),是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年时发表。
泊松分布适合于描述单位时间内随机事件发生的次数。
如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等等。
泊松分布的概率质量函数为:泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。
性质服从泊松分布的随机变量,其数学期望与方差相等,同为参数λ: E(X)=V(X)=λ动差生成函数:泊松分布的来源在二项分布的伯努力试验中,如果试验次数n很大,二项分布的概率p很小,而乘积λ= n p比较适中,则事件出现的次数的概率可以用泊松分布来逼近。
这在现实世界中是很常见的现象,如DNA 序列的变异、放射性原子核的衰变、电话交换机收到的来电呼叫、公共汽车站候车情况等等。
证明如下。
首先,回顾e的定义:二项分布的定义:如果令p = λ / n, n趋于无穷时P的极限:[编辑] 最大似然估计给定n个样本值k i,希望得到从中推测出总体的泊松分布参数λ的估计。
为计算最大似然估计值, 列出对数似然函数:对函数L取相对于λ的导数并令其等于零:解得λ从而得到一个驻点(stationary point):检查函数L的二阶导数,发现对所有的λ 与k i大于零的情况二阶导数都为负。
因此求得的驻点是对数似然函数L的极大值点:[编辑] 例子对某公共汽车站的客流做调查,统计了某天上午10:30到11:47来到候车的乘客情况。
假定来到候车的乘客各批(每批可以是1人也可以是多人)是互相独立发生的。
Poisson分布的参数估计
Poisson分布的参数估计参数估计是统计学中的重要任务之一,它用于通过样本数据来估计总体分布的参数值。
当我们有一个随机变量服从其中一种特定分布时,我们希望通过样本数据来估计该分布的参数。
在本文中,我们将重点讨论Poisson分布的参数估计。
Poisson分布是一个离散型的概率分布,常用于描述一定时间或空间内随机事件发生的次数。
在Poisson分布中,只有一个参数,λ(lambda),它代表了单位时间(或单位空间)内平均发生事件的次数。
我们的目标是通过样本数据估计出λ的值。
对于Poisson分布的参数估计,常用的方法有矩估计和最大似然估计。
首先,我们先介绍矩估计法。
该方法基于样本矩的性质进行参数估计。
矩估计法的步骤如下:1.计算样本的矩:根据给定的样本数据,计算出样本的均值和方差。
2. 设定参数与矩的关系方程:由于Poisson分布只有一个参数λ,我们设定λ与均值和方差之间的关系方程。
3.求解方程得到参数估计值:将方程代入矩的样本值,解方程得到λ的估计值。
矩估计法的思想简单且直观,但需要样本的一、二阶矩都存在才能得到可靠的估计结果。
接下来,我们介绍最大似然估计法。
该方法是基于样本的似然函数来进行参数估计。
最大似然估计法的步骤如下:1. 建立似然函数:设定Poisson分布的似然函数,该函数描述了给定参数λ下观察到样本的概率。
2.取对数并求导:对似然函数取对数,然后对λ求导数。
3.求解似然方程:将导数置零,并求解方程,得到λ的解,即参数的估计值。
最大似然估计法是一种常用的参数估计方法,它的估计结果具有良好的统计性质。
但需要注意的是,该方法在计算上可能较为复杂,并且需要样本数据的连续性和充分性。
在实际应用中,根据实际情况选择适当的参数估计方法。
如果样本数据充分并且满足连续性要求,最大似然估计法是一个合适的选择。
而如果样本数据较少或不连续,可以考虑使用矩估计法。
最后需要注意的是,参数估计只是对总体参数的近似值,不同的样本可能会得到不同的估计结果。
Poisson泊松分布及应用
P(0) e 8 80 3.354 10 4 0!
P(1) e8 81 2.684 10 3 1!
Poisson分布可视为观察例数n很大,发生 的概率π很小时二项分布B( n,π)的极限 情形。
当n很大时,二项分布概率的计算相当复杂, 利用二项分布的Poisson近似这一性质,当 n很大且π(π≤0.01)很小时,可以用 Poisson分布的概率计算近似代替二项分布 的概率计算。
6 2
P X 3 P X 0.062
X 0
0! X 0
0!
1!
2!
该培养皿中菌落数大于1个的概率
PX 1 1 PX 0 PX 1 1 e 6 6 0 e 6 6 1 0.983
0! 1!
三、 Poisson分布的正态近似法
当λ≥20时,依据Poisson分布近似正态分布的原理,可以对其总体 均数进行推断。
二、 Poisson分布的特征
(1) Poisson分布的总体均数与总体方差相等,均为λ。 若从该河中随机抽取无数个1毫升水,显然1毫升水中的细菌
数X各不相同,这些细菌数X的总体均数即Poisson分布的参数λ, 而且这些细菌数X的总体方差也等于此参数λ。
(2) Possion分布的观察结果有可加性。若从
至多有4人患先天性心脏病的概率为
P(X
4)
4
P( X )
4
e 0.96
0.96X
X 0
X 0
X!
e 0.96 0.960 e 0.96 0.961 e 0.96 0.962
0!
1!
2!
e 0.96 0.963 e 0.96 0.964
0.997
3!
4!
如何理解泊松分布(Poisson Distribution)
如何理解泊松分布(PoissonDistribution)【泊松分布是以其发表者Poisson命名的】随机变量X服从参数为λ的泊松分布,记作 X ∼ π ( λ )X\sim\pi(\lambda) X∼π(λ)其分布律为P { X = k } = λ k e − λ k ! , k = 0 , 1 , 2 , …P\{X=k\}=\frac{\lambda^k e^{-\lambda}}{k!}, k=0,1,2,… P{X=k}=k!λke−λ,k=0,1,2,…其中λ>0注意k取值哟,k是从0到∞!!证明分布律对于上式,我们需要证明其满足分布律的条件,即各值概率求和为1, 即:∑ k = 0 ∞ P { X = k } = 1\sum_{k=0}^{\infty}P\{X=k\}=1 k=0∑∞P{X=k}=1证明如下:∑ k = 0 ∞ P { X = k } = ∑ k = 0 ∞ λ k e −λ k ! = e − λ ∑ k = 0 ∞ λ k k ! = e − λ × e λ = 1\sum_{k=0}^{\infty}P\{X=k\}=\sum_{k=0}^{\infty}\frac{\ lambda^k e^{-\lambda}}{k!}=e^{-\lambda}\sum_{k=0}^\infty\frac{\lambda^k}{k!}=e^{-\lambda}\times e^{\lambda}=1 k=0∑∞P{X=k}=k=0∑∞k!λke−λ=e−λk=0∑∞k!λk=e−λ×eλ=1这个求和用到了函数f(x)=e^x的带有拉格朗日余项的n阶麦克劳林公式哈哈,其实这里只是推导一下就好,更严谨,以后使用公式时候用不到泊松定理这是一种用泊松分布逼近二项分布的定理,可以看作泊松分布分布律从二项分布律的推导,具体内容如下:n为任意正整数,np=λ,λ>0,对任意非负整数k,都有 lim x → ∞ C n k p n k ( 1 − p ) n − k = λ k e −λ k ! \lim_{x \to \infty}C_n^k p_n^k (1-p)^{n-k}=\frac{\lambda^k e^{-\lambda}}{k!} x→∞limCnkpnk(1−p)n−k=k!λke−λ证明思路:让式子只剩下λ,消去n,p1.消去n:使n趋近于∞2.消去p:p=λ/n证明如下: C n k p n k ( 1 − p ) n − k = n ( n −1 ) . . . ( n − k + 1 ) k ! ( λ n ) k ( 1 − λ n ) n − k C_n^k p_n^k (1-p)^{n-k}=\frac{n(n-1)...(n-k+1)}{k!}{(\frac \lambda n)}^k (1-\frac \lambda n)^{n-k} Cnkpnk(1−p)n−k=k!n(n−1)...(n−k+1)(nλ)k(1−nλ)n−k观察右项,尽量配出来原式= λ k k ! [ 1 × ( 1 − 1 n ) × … × ( 1 − k − 1 n ) ] ( 1 − λ n ) n ( 1 − λ n ) − k 原式=\frac {\lambda^k}{k!}[1\times(1-\frac1n)\times…\times(1-\frac {k-1}n)](1-\frac \lambdan)^n(1-\frac \lambda n)^{-k} 原式=k!λk[1×(1−n1)×…×(1−nk−1)](1−nλ)n(1−nλ)−k令n趋近于正无穷,则[ 1 × ( 1 − 1 n ) × … × ( 1 − k − 1 n ) ] → 1 [1\times(1-\frac 1n)\times…\times(1-\frac {k-1}n)] \to 1 [1×(1−n1)×…×(1−nk−1)]→1 ( 1 − λ n ) n → e − λ (1-\frac \lambda n)^n\to e^{-\lambda} (1−nλ)n→e−λ上式为对自然常数e的定义的代换,实质上用到了复合函数的极限运算法则 ( 1 − λ n ) − k → 1 (1-\frac \lambda n)^{-k}\to 1 (1−nλ)−k→1因此,得证 lim x → ∞ C n k p n k ( 1 − p ) n − k = λ k e − λ k ! \lim_{x \to \infty}C_n^k p_n^k (1-p)^{n-k}=\frac{\lambda^k e^{-\lambda}}{k!} x→∞limCnkpnk(1−p)n−k=k!λke−λnp=λ,n很大,p很小时,有近似式: C n k p n k ( 1 − p ) n − k ≈ λ k e − λ k ! C_n^k p_n^k (1-p)^{n-k}\approx \frac{\lambda^k e^{-\lambda}}{k!} Cnkpnk(1−p)n−k≈k!λke−λ即用泊松分布概率值作二项分布概率值的近似一般来说,n>=20,p<=0.0.5,近似效果不错λ的意义从二项分布可知,E(X)=np,而在泊松定理中λ=np,所以λ是否是数学期望呢?已知一个分布,可以求其数学期望(用定义求),我们求出泊松分布的数学期望,看它是否是我们预测的λ即可。
泊松分布表3篇
泊松分布表第一篇:泊松分布的定义和应用泊松分布(Poisson distribution)是一种常见的离散型概率分布,描述的是在一段时间或区域内,某事件发生的次数。
它由法国数学家西蒙·卓别林·泊松(Siméon Denis Poisson)在1837年提出,被广泛应用于科学、工程和金融分析中。
泊松分布的概率质量函数如下:P(X=k)=e^(-λ)λ^k/k!其中,λ为事件发生的平均次数,k为事件发生的次数,e为自然常数,约等于2.718。
P(X=k)表示事件发生了k次的概率。
泊松分布的应用非常广泛,举几个例子:1. 网络流量:在一个网络中,某一时刻内主机发出的数据包数量就可以看做泊松分布。
这对于网络监控和优化非常有帮助。
2. 自然灾害:例如地震、火山爆发、洪水等,其发生次数在一段时间内也可以用泊松分布来描述。
3. 电话呼叫中心:客户呼叫中心的电话次数也可以看做泊松分布。
这对于呼叫中心的规划和优化非常重要。
以上只是泊松分布应用的几个例子,实际上还有很多领域都用到了这个分布。
因为泊松分布有很好的理论基础,同时又比较简单易懂,所以被广泛应用。
第二篇:泊松分布的性质和推导泊松分布有许多特性和性质,有些可以通过直观的方式理解,有些则需要一定的推导。
1. 期望:泊松分布的期望为λ,即事件发生的平均次数。
2. 方差:泊松分布的方差也为λ。
3. 独立性:如果在一段时间内,事件发生的次数符合泊松分布,那么在不同时间段内的事件发生次数也是独立的,即泊松过程是独立的。
接下来,我们尝试推导一下泊松分布的概率质量函数。
首先,设ξ为一个事件发生的次数,p为发生一个事件的概率,n为在一段时间内事件发生的次数。
则有:P(ξ=n)=C(n,λ)p^n(1-p)^{λ-n}其中,C(n,λ)表示组合数,即从λ个事件中取n个事件的组合方式数,p是每个事件发生的概率,1-p是不发生事件的概率。
我们将p设为趋近于0,n趋近于无穷大,以使得事件发生的概率很小,但是有很多事件可以发生。
poisson回归的原理_解释说明以及概述
poisson回归的原理解释说明以及概述1. 引言1.1 概述Poisson回归是一种用于建立离散计数数据和解释变量之间关系的统计方法。
它基于泊松分布,旨在预测事件在给定时间或空间区域内发生的次数。
这种回归分析方法被广泛应用于医学、经济、环境科学等领域,对于了解和解释离散事件发生的规律具有重要意义。
1.2 文章结构本文将首先介绍Poisson回归的原理,包括Poisson分布的简介、线性回归与Poisson回归的区别以及参数估计方法。
接着,我们将详细说明Poisson回归模型的假设和进行假定检验的方法,同时展示该方法在不同领域中的应用示例。
此外,我们还将讨论常见问题,并提供相应的解决方法。
最后,我们将对当前Poisson回归研究进展进行综述,并探讨未来其发展方向和应用前景。
1.3 目的本文旨在全面而系统地介绍Poisson回归的原理、解释说明以及概述,并从历史发展到当前研究热点再到未来发展方向进行深入探讨。
通过本文的阐述,读者将能够全面了解Poisson回归的基本原理和应用方法,并能够在实际问题中灵活运用此回归模型进行数据分析和预测。
2. Poisson回归的原理2.1 Poisson分布简介Poisson分布是一种离散概率分布,用于描述在一定时间或空间范围内发生某事件的次数的概率。
它假设事件在时间或空间上是独立且均匀分布的,并且事件的平均发生率是恒定的。
Poisson分布的概率质量函数如下:P(x;λ) = (e^(-λ) * λ^x) / x!其中,x表示事件发生次数,λ表示单位时间或单位空间内事件的平均发生率。
2.2 线性回归与Poisson回归的区别线性回归和Poisson回归都是统计学中常用的回归方法,但二者有着明显的区别。
线性回归假设因变量与自变量之间存在线性关系,并通过拟合直线来预测连续型因变量。
而Poisson回归则适用于因变量为计数型数据,它通过模拟Poisson 分布来进行预测和推断。
【doc】零截尾Poisson分布和零截尾负二项分布的参数估计及其应用
零截尾Poisson分布和零截尾负二项分布的参数估计及其应用申国卫生统计1993年第1o卷第3期零截尾Poisson分布和零截尾负二项分布的参数估计及其应用第四军医大学蒙{鏊品耋詈萎囊雷泽着6摄耍本文蛤出了零截尾Poisson分布和零截尾负二项分布的特征值,并利用Newton-Raphson选代给出了两种分布参数的矩估计与最大似然估计.应用这两种分布分别配台了零截尾的肝遍家族分布的资料,探讨了肝癌的家族寨集性关■{可截尾分布Poisson分布负二项分布最大供然估计家族聚集性引言PDissor吩布和负二项分布在群体遗传学和肿癌流行病上应用十分广泛,被用来探讨疾病的家族聚集性"".当人群的每个个体患某病的概率相等,则不具有家族聚集性,该病的家族分布服从Poisson分布,否则呈负二项分布,说明该病有家族聚集性.疾病家族分布的资料一般是通过疾病普查,整群抽样调查获得的.因此获得完整的痰病家族分布十分困难.近十几年来病铡对照研究,作为一种疾病病因学研究手段已被广泛运用.病例对照研究一般是从先证者入手调查,在家系调查中每个家族必有一人(先证者)患病,收集的疾病家族分布属零截尾形式,不能用Poisson分布和负二项分布来配台以探讨疾病的家族聚集性.但可甩零截尾PoiSSon分布和零截尾负二项分布配台零截尾资料以考察疾病的家族聚集现象.用零截尾Poisson分布和零截尾负二项分布来配合零截尾资料比用Poisson分布和负二项分布配合非截尾资料要困难的多,关键是要绐出截尾分布的参数估计,下面将结出两种截尾分布的参数估计.零截尾Poisson分布和零戤尾负=项分布的特征值及其参数估计零截~Poisson分布的分布函数IcI>.:—;薯,=,z,…c其均虢和方差分gq为tT(2)1等一1一口一'(一r)0=U4-1)fz-(3)由(3)得t:生一l(4)零截尾负二项分布的分布函数(一1);1,2, (5)其均数和方差分别为':㈩軎["I一(+l】g1](7)根据样本可以对零截尾Poiseon分布的参数和零截尾负二项分布的参数进行估计,估计方法如下?零截尾PciSSon分布叁数^的估计1.矩估计,用样本均数∑,/,(为家族个数)来估计均数,代入(2),得方程'6?m)=1-e-1一睾=0(8),(^)是非线性方程,应用Nev~on-Raphson迭代求解给出A的估计值^,迭代初值由(4)确定,式中的和a分别用样本均数和方差估计之,即^.=:+Sz)瓦s.=∑"一..第i+l步迭代结果为t¨,一(一÷)..)(9)当^I十1与^之差小于给定精度时,^¨就是^的矩估计.2.最大似然估计,样本,:,….的似然函数t:({)'∑/n川㈣)剔去与^无关的项,得对数似然函数tlogL=一n^一nlog(1一e-')+1Og^E(1i).一=0fc斩一^的最大似然估计由求解下列方程获得=一+∑T11ea^"一一I~^=0(12)即1一e-一一:0由此知^的最大似然估计^与矩估计相等价.根据最大似然估订原理,^的方差为S;=/(1一xe)(13)当目充分大时,^的容许区间为^±(2)S20(a/Z)为标准正态分布的alz位点.零截尾负二项分布参数以^的估计1.矩估计,根据(6),(7),用样本均数与方差代替0.,得出关于,x的非线性方程组(+1)x+1]=0(14)确定适当的初值后,,可用Newto玎一Ra-2.最大似然估计,对样本值,:,…, phson迭代求解(")得到..构造似然函数:(一)一1)州1一;):(十,)A,1.(1一)∑/(1一f-l,I,t-●I-l剔去上式中与,^无关的项,得出对数似然函数■illogL=:Alog(+r)十nklogx+∑Ilog(1一靠)一nlog(1一)(15)其中a=max{xi),,为大于r的样本值的个I'1_●数.根据似然函数,运用Mewton—Raph~on迭代,可求出,的最大似然估计及其容许区间.实倒计算启东地区肝癌家族分布资料见表1,表中列出了1065个先证者家庭患】扦癌的人数.对表中资料分别配合了零截尾Poisson分布和零截尾负二项分布.两种截尾分布的参数估计值见表1下端.经拟合优度检验,显示本资料不服从零截尾Poiss0n分布'=32.35,<0.005).从拟台优度来看,本资料服从零截尾负二项分布;矩估计配合结果(x=0.83,P>0.9)}最大似然估计配合结果(x=0.79,P>0.9).最大似然估计略优于矩估计,因此认为启东地区】扦癌家族分布呈零截尾负二项分布, 说明该地】扦癌患者具有家族聚集性.值得注意的是,拟合优度x检验的自由度为组数减1再减去分布中特估参数的个数.讨论零截尾Poisson分布不再具有Polsson分布的形式,同样零截尾负二项分布也不再具有囊1零截尾负二项分布和零截尾Poisson分布配台肩东地区肝癌家族分布毫者实氰零截尾负=硕分布零藏..∞十盏瓤敦};l蔫'最要蕞蓉蓉计)盈论撕敦负二项分布的形式.用零截尾Poisson分布和零截尾负二项分布配合零截尾的某家族分布资料能否用来研究疾病的家族聚集性,还有待于进一步研究.现用实例说明用零截尾Poisson分布和零截尾负二项分布配合零截尾资料与用Poisson分布和负二项分布配合非零截尾资辩,得出的关于家族聚集性的结论相一致.表2给出了北京密云胃癌相对死亡水平的频数分布,以研究胃癌的聚集现象.本资料系非零截尾资料,龚惠心(负二相分布在肿瘤流行病中的应用.陕西省医学成果选编(1979~1980))将本资料用Po/SSOn分布和负二项分布配合后得出了密云胃癌分布有聚集现象的囊2北京密云胃癌分布与负二项分布和零截尾负二项分布的配台招耐死亡宴席=项分布配音零毂尾负=项分布配音承平箱额数理论额敦理论囊敦e__——音计280l4345198^^^^奎散估计k=1.7361Ⅱ:0.7162k=0.7873:O.6099Xl2.2778O.67自由度v6—3=35一2P怔0.6<P<0.7o.6<P<o.7结论.为了说明问题,不妨将相对死亡水平为零的组从资料中删去,形成零截尾资料.再分别配合零截尾Poisson分布和零截尾负二项分布,计算结果见表2,表3.经拟合优度x'检验知该截尾资料服从零截尾负二项分布(x'=0.67,=2,0.6<P<O.7)而不服从零截尾Po/sson~布僻.=O.79,"=2,P<O.005),因此认为密云胃癌有聚集现象,与非零截尾资料的分析结果一致.由此说明用零截尾Poisson分布和零截尾负二项分布探讨疾病的家族聚集现象是可取的.囊5北京密云胃癌分布与Poisson~j-布和零截尾Poisson:b~布的配合Zere--truncatedPo[ssonD[str|but[onand zero—truncatedNegativeBInomiaID[stribu—t[on:ParameterEstimationanditsApplic-ation,XiaJielal,Dept.ofMedicals扣tf|一tl∞,The,0urthMt~itaryMcdicuZuH,XidnInthisl~per—Zero-trun~tedPoissondistri? butionandzero-truncatedNegallveBL~omisl dimribudonwereintroduced.Theedge~value. expectationandvarianceofthesetwotrtm~teddi啦ributionswerededuced.1tkeliheodestimator ofparameterofzero-trtmcatedNegatlvebinom—iaIdlstribuflonwasobtainedbymeansofNLW.ton-Raph~onitar8t.Applyjngthesetwotru—ncat~ldistribunionin行咖gaze砷一扫uncured datasetoflivercanoBr,Wegottheresultthat台BdB$一O辊帆~674930OⅢmⅡn..=罩8livmeQttlCe~isoffamilyA略嗍ml锄. Keywordstrl~cateddistributionPoi—S,~OI1distributionNegativeBinomialdistri—butionMaximumlikelihoodestimation Familyaggregation'寿文蕾1.拓村前主墒.中国层学百辑盘书?甚学羟计丹嚣.第一版.上海I上海辩拉出葳社,l082I24"--'28.2.ShelemyahuZacks.Parametricst毗嘣cBlfer∞.e-lIBsicTheoryandMor~maA口西-oQch~.P唧m鼬Pr嘲,Fir吐D血断1.19Sl,2卜—22'l制卜I2l6.3.囊立是,胨蔓田.启求肝癌采麓囊囊藕●韧析.中串砷囊杂蛊19881T<')I4O8.医院工作报表中的估计'问题应该纠正新县人民医院余伦继计的未出院者占用总床日数和统计的几项数据-问i的提出表中-估计数栏,未出院者占用总床日数-比下面是某县医院1991年第2季度工作报表中估统计数栏¨未出院者占用总床日数'多lOO.导致与附毫某县医院1991年第2季度工作报表中的几项指标其相关的9项指标分别发生不同变化?实际占用总床日数'增加】O0,平均病床工作日增加0.蚰,实际病床使用率提高0.53.可见,.未出院者占用总床日数不是逐人统计'出来的,而是估计的.为什么会出现这个问题呢?曩园分析依据《疾病分类卡片》做医院工作报表的,对出院者占用总床日数统计准确,但对未出院者占用总床日数有的就不够重视,因为期末未出院者没有疾病分类卡片》,统计未出院者占用总床日数,需要查阅百多份病历,廓爝费时,为了省事,任意估计一个数,同出院者占用总床日数相加,只要实际占用总床日数大于出院者占用总床日数'就行.对医疗统计工作缺乏正确认识和实事求是的态度.不能正确反映医院病床工作的负荷状况和使用程度.纠正办涪统计未出院者占用总床日数时,要依据病人住院登记》或其他原始资料,对期<指季)末未出院者期内占用床日数逐人统计,按下列三种情况准确计算.一,未出院者占用床日数,超过一个季度及其以上的,只计算本季度的,不计算其他季度的.二,未出院者占用床日数,在本季度以内的,如实计算.三,未出院者季末最后一天住院的,不计算占用床日数.把季束每个留院者期内占用的床日数,加在一起,所得之和即是未出院者占用总床日数.这样,才能保障"实际占用总床日数,平均病床工作日和实际病床使用率的准确性,提高医疗统计质量.。
泊松分布参数λ的矩估计量
泊松分布参数λ的矩估计量
对于泊松分布,参数λ表示单位时间(或单位面积、单位体积等)发生事件的平均次数。
为了估计泊松分布的参数λ,我们可以使用矩估计方法,其中利用样本矩来估计总体参数。
具体而言,使用矩估计法估计泊松分布的参数λ的步骤如下:
1.计算样本均值:计算样本观测值的算术平均值,即样本率。
2.将均值与理论分布的矩相等:泊松分布的均值和方差均为
λ。
因此,设定样本的均值等于λ,得到一个方程。
3.解方程得到估计值:将方程求解,以求得λ的估计值。
这样,通过将样本均值设定为理论分布的均值,我们可以用样本数据来估计泊松分布的参数λ。
需要注意的是,矩估计方法是一种常用估计方法,但其估计值在小样本情况下可能存在偏差。
此外,泊松分布的参数λ必须是非负的,因此在进行估计时需要对数值进行限制,例如使用最小二乘法或限制估计值的范围。
另外,矩估计法仅提供了参数的点估计,没有给出估计值的置信区间。
如果需要估计的可信度区间,可以考虑使用更复杂的方法,如极大似然估计法或贝叶斯估计法。
这些方法可以提供更详细和准确的参数估计以及置信区间的计算。
泊松分布的吃累积分布函数
泊松分布的吃累积分布函数泊松分布是一种概率分布,其在统计学中起着重要的作用。
它使用一个参数λ来描述事件发生次数的期望值。
泊松分布是对一段时间内事件发生次数的估计,如在一天内有多少人会乘坐公交车,或一家医院在一周内会有多少紧急手术。
它也经常用于模拟真实世界中的一些过程,如交通流量、电话呼叫数量等。
泊松分布的概率密度函数如下:P(k) = (λ^k * e^(-λ)) / k!其中,k是事件发生的次数,λ是事件发生的平均次数,e是自然对数的底数,k!是数学中的阶乘。
阶乘是从1到k的所有整数的乘积。
例如,5!= 5 x 4 x 3 x 2 x 1 = 120。
除了概率密度函数,还有一个重要的概念是累积分布函数,即事件发生次数小于等于k的概率。
泊松分布的累积分布函数可以用下面的公式来计算:其中,Σ是求和符号,i从0到k表示对所有i做求和,e是自然对数底数。
这个公式可以看作是计算事件发生次数小于等于k的概率。
例如,在一段时间内,有10个人乘坐汽车走过一个路口,发生事故的期望次数是3,则P(X≤3)表示没有事故或者发生1-3次事故的概率。
在实际应用中,我们通常会使用计算机来计算泊松分布的累积分布函数,因为各个数值可能太大,不适合手动计算。
例如,利用Python语言中scipy库的poisson.cdf函数可以计算泊松分布的累积分布函数。
下面是一个Python程序示例,计算泊松分布在x=2时的累积分布函数值:from scipy.stats import poissonmu = 4 #事件发生的平均次数k = 2 #事件发生次数result = poisson.cdf(k, mu)print("P(X≤2) = {:.4f}".format(result))在结果中,{:.4f}的格式化字符串是输出小数点后四位数字。
泊松分布的累积分布函数可以帮助我们更好地了解一个随机事件的概率,例如,我们可以使用泊松分布来估计一项任务需要多长时间才能完成,或者一段时间内有多少人需要到医院接受急诊治疗。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Poisson 分布的参数估计
作者:高晨 指导老师:戴林送
摘要 泊松分布是概率统计学科中一种重要的离散分布,在参数估计这块,对点估计,矩估计,最大似然
估计以及近似的区间估计等,该文中对泊松分布的相关知识,包括其性质,参数的相关估计,研究了泊松 分布的一些性质,参数的估计,以及一些在生活中的简单应用。
安庆师范学院数学与计算科学学院 2011 届毕业论文
由上知,Poisson 分布的数学期望为参数 , E[ X 2 ] E[ X ( X 1) X ] = E[ X ( X 1)] E[ X ]
E[X (X 1)] E(X )
k(k 1) ke
k 0
k0 k !
k0 k !
即 P{x k} 满足 Pk 0, k 0,1, 2; Pk 1. k 1
我们知道,无论是离散型或是非离散型的随机变量 都可以借助分布函数 F (x) P{X x}, x 来描述, X 落在任意区间[x1, x2 ] 的概率
P{xn
k}
n(n 1)(n k k!
1) [ ]n[1 ]nk nn
=
n
{1 [1
1 ] [1
2 ] [1 Fra bibliotekk1]} [1
n nk
]n
k!
n
n
n
n
显然当 k=0 时,故 P{xn k} e 。当 k 1 且 k 时,有
证明 有引理 1,
第 6 页 共 16 页
安庆师范学院数学与计算科学学院 2011 届毕业论文
E ( g1 (
))
E ( g1 (
))
E(e
X
)
E(e
1(n n
X
)
)
X
e n P(n X X )
X
en
(n)e n e .
X 0
X 0
X!
而
E(2Xi )
x0
x)
(2) X X!
e 2,
X X1 X 2 ~ P(2) .
n
n X X i ~ P(n) . i 1
结 论 1 设 函 数 g1( ) g1() e , 可 以 证 明 g1() 的 无 偏 估 计 为 2Xi , 而 不 是
g1( ) e X .
k 0
k!
2e
k2
k2 (k 2)!
2ee 2
D( X ) E( X 2) [E(x)]2 .
Poisson 分布 E[x] = D(x) = ,也就是说在 Poisson 分布中只含有一个参数 ,只要知道一
个 Poisson 分布的数学期望或者方差就能够完全确定它的分布。
为估计母体的参数 值的大小,具体抽取样本值 x1, x2 , xn 。再把样本值 x1, x2 , xn 放
第 4 页 共 16 页
安庆师范学院数学与计算科学学院 2011 届毕业论文
入原来的样本 1,2 ,n 。构造统计量 1,2 ,n 。把 x1, x2 , xn 代入得 的统计 值q(x1 xn ) 用作 的近似值,用来计算参数 的估计值的统计量 1,2 ,n 称为参数
E[x] = k ke e k1 e e .
k0 k !
k1 (k 1)!
2.22 方差
Poisson 分布:
P{x k} ke , k 0,1, 2 , 0 的方差 D(x) . k!
第 2 页 共 16 页
2
D(x) = [xk E( X )] pk .
k 1
其中 P{X xk} pk , k 1, 2,3 是 X 的分布律。 D(x) = E(x2 ) [E(x)]2.
2 性质
2.1.Poisson 分布中 P{x k} 0, k 0,1, 2
具有
P{x k} ke e k e e 1
的极大似然估计量
L (1,n )
。
设
的函数 u
u
,
具有单值反函数
u ,u U
,又设
是
X
的概率分布中
参数 的最大似然估计,则 u u 为 u 最大似然估计。
易知,由 e 的单调性,得 e 的一个最大似然估计为 u1 e X
x1 !
xn !
xi
i1 x1 !
x
e !
n
n
n
ln L n xi ln ln xi !
i 1
i 1
L
是
的可导函数,用导数求极值
ln L
n
1
xi 0 得 x
2 ln L 2
x
0
得
使
L
达到极大值,从而得
1. 离散型随机变量 X 的函数分布律 P{X xk} Pk , k 0,1, 2 ,若级数 xk pk 绝 k 1
对收敛,称级数 xk pk 为随机变量 X 的数学期望 E[x] , k 1 E[x]= xk pk . k 1 2. 定理:Y 是随机变量 X 的函数,Y g (x), (g 是连续函数),X 是离散型随机变量,
P{x1 X x2} F (x2 ) F (x1) .
P{X k} k e, 0, k 0,1, 2 , X ~ P(k; x) . k!
2.2 数字特征 2.21 数学期望
Poisson 分布:
P{x k} ke , k 0,1, 2 k!
若 g(xk )pk 绝对收敛,则 k 1 E[Y ] E[g(x)] = g(xk )pk . k 1 3. 随机变量 X ,若 E{[ X E( X )]2} 存在,则称 E{[ X E( X )]2} 为 X 的方差,记
为 D(x) 或Var(x) ,即
D(x) =Var(x) = E{[ X E( X )]2} .
u1 e X ,u2
1 n
n
1( Xi 0)
i 1
.
由于前者利用了泊松分布的信息,而后者没有利用分布信息,所以称前者为“参数的最大似 然估计”,后者为“非参数的最大似然估计”。
4.3 参数的无偏估计 当总体为泊松分布 P() 时,即
P{X x} x e, x 0,1, 2 , x!
的估计量。
4.2 参数的两个最大似然估计 P{x k} ke , k 0,1, 2 0 为未知参数 k!
设 x1, x2 xn 为子样 1,2 ,n 一组观测值
似然函数
n
L
L ; x1, x2,xn
x1 e xn e
关键词 Poisson 分布 参数估计 性质 简单应用
1 引言 Poisson 分布是离散型随机变量 X 作为大量试验中稀有事件出现的频数的概率分布的 数学模型,其中 X 可能取值为 0,1,2,……而取各个值的概率为: P{x k} ke , k 0,1, 2 k!
其中 0 是常数,称 X 服从参数为 的泊松 X ~ P(k; x) . 1.1 相关定义
)e e i t
e it 1
对任意的 t,有
it
e
1
it
t2 2!
1
.
于是
it e 1 i
t
t2 2
1
t2 2
从而对任意的点列 ,有
t2
lim
2xP(X i
x0
x)
2x
x0
x e x!
.
e (2)x ee 2 e
x0 x!
结论 2 已知函数 g2 ( ) g2 () e2
可以证明 g2 () 的无偏估计为
t(
X
i
)
1, 1
(
X
i
取偶数值时为
1,
X
i
未知参数
0
,可以证明样本均值
X
和样本方差
S2
1 n 1
n i 1
(X i
X
)
都是总体参
数 的无偏估计。推广到一般情况,对任意的实数 , 0 1, X (1 )S 2 也都是
的无偏估计,即 X 或 S 2 或 X (1 )S 2 。
1 [1
1 ] [1
2 ] [1
k
1] 1
, [1
nnk ]n
e
n
n
n
n
从而
P{xn
k}
k e k!
,
故
第 3 页 共 16 页
安庆师范学院数学与计算科学学院 2011 届毕业论文
lim
n
P{xn
k}
k e k!
3 相关定理
定理【1】 随机变量 xn (n 1, 2, 3) 服从二项分布,其分布律为 P{xn k} Cnk pnk (1 pn )nk , k 0,1, 2 , n.