负二项分布的性质特征及在流行病学研究中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
负二项分布的性质特征及在流行病学研究中的应用
【摘要】给出了负二项分布的分解定理,进一步研究了负二项分布的有关性质及参数的无偏一致估计,以及在流行病学该分布的生物学意义。
【关键词】负二项分布;无偏一致估计;应用
负二项分布是概率论中常用的重要的离散型随机分布,它在医学中主要用于聚集性疾病及生物、微生物、寄生虫分布模型等的研究。具体地说,当个体间发病概率不相等可以拟合负二项分布,如单位人数内某传染病的发病人数,某地方病、遗传病的发病人数等,这些均可通过负二项分布进行处理。本文从概率论的角度阐述负二项分布的性质及参数的最小方差无偏估计,并且以该分布在流行病学中应用为例证讨论了其生物学意义。
1 负二项分布的概率模型
负二项分布又称帕斯卡分布(Pascal),它有两种基本模型[1]:
模型Ⅰ:假定每次试验可能的结果只有两个:可归结为成功或失败,每次试验之间是独立,每次成功的概率均为π,直到恰好出现r(指定的一个自然数)次成功所需试验次数X,则X的概率分布为:
p(X=K)=πCr-1k-1πk-1(1-π)k-r=Cr-1k-1π-(1-π)k-r
k=r,r+1 (1)
模型Ⅱ:假定每次试验可能的结果只有两个:可归结为成功或失败,每次试验之间是独立,每次成功的概率均为π,试验进行到r次成功为止,记X为试验共进行的次数,则X 的概率分布为[3]:
p(X=k)=Cr-1k+r-1πk(1-π)k k=0,1,2, (2)
此分布的概率是πr(1-(1-π))-r 的幂级数展开式的项,负二项分布由此而得名记作 X~f(k,r,π) ,或 X~NB(r,π)
一个重要的特例是 r=1。这时(2)成为
p(X=k)=π(1-π)k k=0,1,2, (3)
称为几何分布。
2 性质特征
为研究负二项分布的性质,我们先给出一个重要的结论:
引理:设X~NB(r,π),则其特征函数为ψx(t)=πr(1-(1-π)eit)-r
证明:ψx(t)=E(eitx)=∑∞i=0Cr-1i+r-1πr(1-π)i eitr
=∑∞i=0Cr-1i+r-1πr((1-π) e)rti
=πr∑∞i=0Cr-1i+r-1((1-π) ert)i
=πr(1-(1-π)eit)-r
定理1 设: X1,X2,…,Xr(3)的iid样本,如果
X=∑ri=1Xi, 则X=∑ri=1Xi~NB(r,π)
证明:因为X1,X2,…,Xr独立同分布,又有引理知X=∑ri=1Xi的特征函数为:φ(t)=πr(1-(1-π) eit)-r
=πr∑∞k=0(-r)(-r01)…(-r-k+1)k! ((1-π) eit)k(-1)keitr
=πr∑∞k=0(r+k-1)!(r-1)!k! (1-π)k eit(k+1)
=∑∞k=0πr(1-π)k eit(k+r) Cr-1r+k-1
这正是 p(X=k)=Cr-1r+k-1(1-π)k 的概率分布
则X=∑ri=1Xi~NB(r,π)
定理2 设:X=X1,X2,…,Xn)是(1)的iid样本,则T(X)=∑ni=0Xi~NB(nr,π),则有
p(T=k)=Cnr-1k-1πnr(1-π)k-nr k=nr,nr+1, (4)
证明:设ξ的特征函数为f(t) ,那么
f(t)=∑∞x=reitxCr-1N-1πN(1-π)N-r =πeit1-(1-π)eitr
因为x是ξ的iid样本,所以Xi 的特征函数fi(t)=f(t),i=1,2,…,n
有特征函数的性质得T的特征函数为:
∏ni=1fi(t)πeit1-(1-π)eitr
由于特征函数与概率分布唯一对应,所以T~f(k,nr,π) ,其概率分布便是(4)。
定理3 设:X=(X1,X2,…,Xn)是(1)的iid样本,则
T(X)=nr-1∑ni=1Xi-1,则它是π的最小方差无偏估计。
证明:由定理2可知
E(T(X))=∑∞k=nrnr-1k-1Cnr-1k-1πnr(1-π)k-nr
=π∑∞k-1=nr-1 C(nr-1)-1(K-1)-1 πnr-1×(1-π)(k-1)-(nr-1)
=π
所以T(X)是π的无偏估计。
又由于E(T(X))=π ,有切贝晓夫不等式,对 ε>0, 有
p(|T(X)-π|≥ω)≤V(T(X))ε 2 而
V(T(X)=∑∞k=nrnr-1k-12Cnr-1k-1πnr(1-π)k-nr
=π2 ∑∞k=nrnr-1k-1×k-2nr-2-1×C(nr-2)-1(k-2)-1πnr-2(1-π)k-nr
=π2 ∑∞k=nr1(k-1) (k-nr)(nr-2)×C(nr-2)-1(k-2)-1πnr-2(1-π)k-nr <
π2nr-2 ∑∞k=nr C(nr-2)-1(k-2)-1πnr-2(1-π)(k-2)-(nr-2)
=π2nr-2
所以,对 ε>0, 都有linn→∞p(|T(X)-π|≥ω)=0 ,可见T(X)是π的一致估计。
又因为E(T(X))=π,根据 Lehmann scheff定理,π的最小方差无偏估计必存在,而
T(X)=nr-1 ∑ni=1Xi-1,只依赖T(X)= ∑ni=1Xi , 即 T(X)=nr-1 ∑ni=1Xi-1 是π的一致最小方差无偏估计。
3 负二项分布的最可能数和概率的最大值
如果X~k=p(X=k)=Cr-1k-1πrqk-r k=r+1,r+2,…,其中q=1-π,则当r-q1-q不为整数时,k0=r-q1-q时为负二项分布的唯一最可能的数,即 k=k0时,p(X=k0)达到最大值。
证明:∵ pkpk-1=Cr-1k-1πrqk-rCr-1k-2πrqk-1-r=q(k-1)k-r
=>1时,kpk-1,随k增大,概率增大
r-q1-q, pk =1时,k=r-q1-q, pk=pk-1
∴当r-q1-q不为整数时,则存在唯一k0=r-q1-q 满足 r-q1-q-1<
k0 使 pk0-1< pk0>pk0+1,从而k0=r-q1-q是唯一最可能的数,即 k=k0时,p(X=k0)达到最大值。
4 流行病中实例分析