负二项分布NB (r, p) 参数的点估计

合集下载

负二项分布(研究生)

负二项分布(研究生)
X
负二项分布均数和方差
k 1
2 k 1
2
福建医科大学流行病与统计教研室(胡志坚)
5
若令P=μ/k,q=1+P 则
P0 qk
X=0
PX k X 1p PX 1 X≥1
也可变为
Xq
kp
2 2
k
7张
福建医科大学流行病与统计教研室(胡志坚)
6
负二项分布的参数估计
负二项分布有两个参数即μ和k。
检验条件: (1) f0/N=30/60=0.5>1/3
(2) X 1.033 10
均数
X 0.17 f0 0.32 0.217 0.20 条件
N
福建医科大学流行病与统计教研室(胡志坚)
13
零频数法
先尝试K1=0.90
k1
lg1
X k1
0.90lg1
1.033Leabharlann 0.900.299下一张
22
步骤:
计算两组的均数和方差
X1
X
N
7 10
0.70...................X. 2
X
N
4 0.40 10
S12
X2
X
N 1
2/N
0.90...S2 2
X2
X 2/N
0.49
N 1
计算Kc KC
计算转按值
X1 S12 X1 X 2 S22 X 2 S12 X1 2 S22 X 2 2
X f X 62 1.033
S 2
N
60
fX2
fX 2 / N
N 1
186 622 / 60 2.067 60 1

二项分布和泊松分布参数的区间估计

二项分布和泊松分布参数的区间估计
x/n
令:
n
X
X

xi x
i 1
n
(近似服从) (近似服从)
(近似服从)
u X / n ~ N (0,1), n
X /n
对于给定的 查标1 准正态分布双侧临界值表:
(近似服从)
P{u / 2 u u / 2 } 1
P{u / 2
解: Q X 12, 0.01
查附表9可得总菌落数nλ的置信区间的上限: 上限:24.14,下限:4.94 所以同样条件下该菌落数的99%置信区为:
(4.94,24.14)
小结
1.二项分布总体率 P 的置信区间

p(1 p)
p u / 2
n , p u / 2
1 D(
n
n i 1
xi )


n
x

1 n
n i 1
xi
~
N ( , ),
n
n
(近似服从)
x

1 n
n i 1
xi
~
N ( , ),
n
n
u x ~ N(0,1), n /n

Q

x

1 n
n i 1
xi
u x ~ N(0,1), n
1.总体率与样本率的定义
总体率:设总体的容量为N,其中具有某种特点的个体数为M,则称
P M N
为具有某种特点的个体的总体率。
置信区间
样本率:设总体中抽取容量为n的样本,其中具有某种特点的个体数为m,则 称
p m n
为具有某种特点的个体的样本率。

负二项分布(研究生)

负二项分布(研究生)
K为聚集指数:其大小用来衡量分布的离散程度 即聚信趋向的程度。按公式(6-30)
2 2
k
2
1
k
福建医科大学流行病与统计教研室(胡志坚)
7
矩法
K的估计:
2 2
k

2

2
X
2 X
S2 X
计算
5张
福建医科大学流行病与统计教研室(胡志坚)
8
例---矩法
在研究某种毒物的致死作用时,对60 只小白鼠进行了显性致死试验,得到资 料见表.若服从负二项分布,试估计参 数μ和K.
lg
N f0
lg
60 30
0.301
K2取1.1
k2
lg1
X k2
1.1lg1
1.033 1.1
0.316
lg
N f0
lg
60 30
0.301
计算K
kˆ 1.1 0.90 1.1 0.301 0.316 0.924
0.299 0.316
福建医科大学流行病与统计教研室(胡志坚)
14
最大似然法
2.34
Yi=ln(Xi+0.5Kc)
对转换值进行t检验: t=0.827 ν=20-2=18
P>0.05 不拒绝H0,尚不能认为两组胚胎死亡
数有差别
上一张
福建医科大学流行病与统计教研室(胡志坚)
23
End of slides for Lectures
Autumn, 2004
福建医科大学流行病与统计教研室(胡志坚)
X
负二项分布均数和方差
k 1
2 k 1
2
福建医科大学流行病与统计教研室(胡志坚)

负二项分布的数学期望和方差的一种求法

负二项分布的数学期望和方差的一种求法

(上接第 54 页)
参考文献:
[1] 刘春麟.构造性方法在矩阵证明题中的应用[J].数学学习与研究,2017(19):14-15 [2] 史秀英.构造法在高等代数中的应用研究[J].赤峰学院学报:自然科学版,2013,29(6):11-13 [3] 王玉华.高等代数中构造方法的应用[J].乐山师范学院学报,2013,28(12):14-15 [4] 姚裕丰.高等代数中的几类数学思想方法[J].高师理科学刊,2016,36(5):62-65 [5] 北京大学数学系.高等代数[M].3 版.北京:高等教育出版社,2003 [6] 同济大学应用数学系.高等代数与解析几何[M].北京:高等教育出版社,2005 [7] 于增海.高等代数考研选讲[M].北京:国防工业出版社,2016 [8] 周金土.高等代数解题思想与方法[M].杭州:浙江大学出版社,2008 [9] 李志慧,李永明.高等代数中的典型问题与方法[M].北京:科学出版社,2008 [10] 刘洪星.考研高等代数辅导——精选名校真题[M].北京:机械工业出版社,2013
rpr Crri (1 p)i i0
令 k r i ,则 E( X ) rpr
C r11 r 1i1
(1
p)i
i0
rpr
1 (1 p)
(r 1)
rpr p(r1)
r p

E X2
k
C 2 r1 k 1
pr
(1
p)kr
kr
k(k 1 1)Ckr11 pr (1 p)kr
(1 r)!
p)kr
E( X
)
r(r 1) pr Ckr11(1 p)k r E( X )
k r
令 i k r ,有 k r i, i 0, 1, 2, L ,则 E X 2 r(r 1) pr

负二项分布和伽马分布

负二项分布和伽马分布

负二项分布和伽马分布负二项分布和伽马分布是概率论和统计学中的两个经典分布。

它们各有其特点,分别在不同的领域有着重要的应用。

本文将着重介绍这两个分布的性质、应用以及相关的公式和推导。

一、负二项分布负二项分布是二项分布的推广。

在二项分布中,我们考虑了固定的试验次数,但是在每次试验中,我们只有两个结果中的一个出现的可能性。

如果将试验次数进行扩展,同时考虑到多次试验中发生某一次成功所需要的次数,我们就得到了负二项分布。

具体来说,设试验次数为n,每次试验成功的概率为p,那么发生r次成功所需要的试验次数x就是负二项分布。

其概率质量函数为:P(X=r) = C(r-1, x-1) * p^x * (1-p)^(r-x)其中,C(r-1, x-1)表示从r-1个位置中选择x-1个位置的组合数。

负二项分布的期望和方差分别为:E(x) = r * p / (1-p) Var(x) = r * p / (1-p)^2对于负二项分布,我们需要注意一些与二项分布不同的性质。

首先,负二项分布中,试验次数可以取任意正整数,而不是只能取到某个固定值。

其次,负二项分布是一个无记忆的分布,即不同的试验结果之间不会互相影响。

负二项分布在实际应用中有着广泛的应用。

例如,我们可以利用负二项分布来计算某家企业在进行营销活动时,需要向多少个客户发放优惠券才能让销售额增加到一定程度。

同时,负二项分布也可以用来模拟二项分布模型中的随机过程。

二、伽马分布伽马分布是一种连续性分布,用于描述正值随机变量的分布情况。

具体来说,伽马分布定义域为正实数集R+,概率密度函数为:f(x) = (x^(α-1) * e^(-x/β)) / (β^α *Γ(α))其中,α和β均为正实数,Γ(α)表示伽马函数。

伽马分布的期望和方差分别为:E(x) = α * β Var(x) = α * β^2伽马分布有着许多重要的性质。

首先,它可以用来描述某些随机事件发生的时间间隔。

伽马分布 泊松混合 负二项分布

伽马分布 泊松混合 负二项分布

伽马分布、泊松混合和负二项分布是统计学和概率论中的重要概念,它们在各自领域具有广泛的应用和重要的理论意义。

接下来,我将分别介绍这三个概念,并探讨它们在实际中的应用和意义。

一、伽马分布伽马分布是连续概率分布的一种,它常用于描述随机变量的等待时间或寿命。

伽马分布的概率密度函数形式为:f(x|α,β) = (1/(β^αΓ(α))) * x^(α-1) * exp(-x/β)其中,α和β是分布的参数,Γ(α)是伽马函数。

伽马分布具有一定的特点,比如它是右偏的,具有实际的应用价值。

在实际中,伽马分布可以用来描述诸多现象,比如等待时间、寿命分布等。

比如在工程领域,伽马分布常用来描述零部件的寿命分布;在金融领域,伽马分布则可以用来描述股票价格的波动。

二、泊松混合泊松分布是描述随机事件在一定时间内发生次数的概率分布,而泊松混合就是指若干泊松分布的线性组合。

泊松混合在实际中有广泛的应用,比如在人口统计学中,可以用泊松混合来描述不同芳龄段的人口增长情况。

泊松混合的概率质量函数可以表示为:P(X=k) = Σi(pi * f(k|λi))其中,pi为混合系数,λi为不同的泊松分布参数,f(k|λi)表示泊松分布的概率质量函数。

泊松混合在模式识别和聚类分析中也有广泛的应用,它可以用来描述复杂的数据分布,从而更好地理解和处理数据。

三、负二项分布负二项分布是描述试验成功次数服从二项分布并进行第k次成功时所需的独立试验次数的概率分布。

负二项分布的概率质量函数为:P(X=k) = (k-1)C(r-1) * p^r * (1-p)^(k-r)其中,r为成功次数,p为成功的概率。

在实际中,负二项分布常用来描述离散事件的发生次数,比如在放射性衰变实验中,可以用负二项分布来描述放射性元素的衰变次数。

结语伽马分布、泊松混合和负二项分布是统计学和概率论中重要的概念,它们在实际中有广泛的应用和重要的理论意义。

通过深入理解这些概念,可以更好地处理实际问题,并且丰富了我们对概率分布的认识。

负二项分布离散型随机变量的分布特性

负二项分布离散型随机变量的分布特性

负二项分布离散型随机变量的分布特性负二项分布是概率论中常见的离散型随机变量分布,用来描述重复进行独立的二项试验,直到出现一定数量的成功次数的情况。

在负二项分布中,我们关注的是达到指定数量的成功之前,所需进行的试验次数。

1. 定义负二项分布是定义在非负整数集上的概率分布。

设X为负二项分布随机变量,n为进行试验的次数,p为每次试验成功的概率,则X的概率函数为:P(X=k) = C(k-1, r-1) * p^r * (1-p)^(k-r),其中C(k-1, r-1)为组合数,表示从k-1个试验中选出r-1次成功的组合方式,r为所需达到的成功次数。

2. 期望和方差负二项分布的期望和方差可以通过分布的定义计算得到。

期望E(X) = r/p,在进行试验的每一次中,成功的期望次数为1/p。

方差 Var(X) = r(1-p)/p^2,每次成功或失败的结果都是独立的,因此方差为r(1-p)/p^2。

3. 特性3.1. 概率质量函数的性质负二项分布的概率质量函数具有如下性质:- P(X=k) ≥ 0,对于任意的k ≥ r;- ΣP(X=k) = 1,其中Σ表示求和运算,和为从r到∞的所有概率之和。

3.2. 概率累积函数的性质负二项分布的概率累积函数是指随机变量取值小于等于某个值的概率,可以通过对概率质量函数进行累积得到。

- F(X=k) = P(X≤k) = ΣP(X=i),其中i为从r到k的整数。

- 概率累积函数是递增的,即F(X=k)≤F(X=k+1)。

3.3. 随机变量的取值范围负二项分布随机变量X的取值范围为正整数集合{r, r+1, r+2, ...},表示达到所需成功次数之前的试验次数。

3.4. 与二项分布的关系负二项分布可以看作是二项分布的推广形式。

在二项分布中,我们关注在指定次数的试验中成功的次数,而在负二项分布中,我们关注在达到指定成功次数之前所需进行的试验次数。

4. 应用负二项分布在实际问题中具有广泛的应用,例如:- 在市场调研中,我们可能需要进行多次问卷调查才能达到一定的有效样本量;- 在质量控制中,我们可能需要进行多次检验才能发现一定数量的次品;- 在客户服务中,我们可能需要进行多次电话沟通才能达到一定数量的满意反馈。

负二项分布参数的贝叶斯区间估计问题

负二项分布参数的贝叶斯区间估计问题
第 1 3卷 第 2期 2 01 4年 6月

南通大学学报( 自然 科 学 版 ) J o u r n a l o f N a n t o n g U n i v e r s i t y( N a t u r l a S c i e n c e E d i t i o n )
o n t he Pa r a me t e r o f Ne g a t i v e Bi no mi a l Di s t r i b ut i o n
J I ANG P e i hu a, J I Xi x i ,WU L i n g
( S c h o o l o f Ma t h e m a i t c s a n d P h y s i c s , A n h u i P o l y t e c h n i c U n i v e r s i t y , Wu h u 2 4 1 0 0 0, C h i n a )
文献标志码 : A
文 章 编 号 :1 6 7 3 — 2 3 4 0 { 2 0 1 4 ) 0 2 — 0 0 8 5 — 0 6
Re s e a r c h o f t h e Ba y e s i a n I n t e r v a l Es t i ma t e
Ab s t r a c t : I n t e r ms o f p r i o r d i s t r i b u i t o n o f Be t a d i s t r i b u i t o n,t he Ba y e s i a n e s i t ma i t o n me ho t d o n he t u n k n o wn p a r a me - t c 0 o f n e g a i t v e b i n o mi a l is d t r i b u i t o n wa s s t u d i e d . By me ns a o f t h e r e l a t i o n s b e t we e n Be a t is d t r i b u io t n a n d he t F is d — t r i b u i f o n he t g e n e r l a p o s t e r i o r i n t e r v a l e s i t ma i t o n o f p a r a me t e r 0 wa s g i v e n,a nd he t s h o r t e s t p o s t e io r r i n t e r v a l e s i t ma - t i o n b y me ns a o f c o n d i i t o n a l e x t r e me wa s g mn e d . By c o mp a r i n g he t d i s c u s s i o n na a l y s i s nd a n u me ic r a l e x a mp l e s d e n — s i t y C u ve r s h a p e o f he t d i f f e r e n t p a r m e a t e r s ,i t wa s c o n c l u d e d ha t t i n he t c a s e o f s ma l l s m p a l e s ,t he s h o t r e s t c o n i f — d e n c e i n t e va r l e s i t ma i t o n me t h o d i s wo r t h u s i n g .

负二项分布的分布函数

负二项分布的分布函数

负二项分布的分布函数
负二项分布是一种离散概率分布,常用于描述重复独立的伯努利试验中,第r个成功事件出现时所需要进行的试验次数X的概率分布。

其概率质量函数为:
P(X=k) = (k-1)C(r-1) * p^r * (1-p)^(k-r)
其中p为单次试验成功的概率,k为成功事件出现时所需要进行的试验次数,C为组合数。

负二项分布的分布函数可以表示为:
F(X=k) = 1 - B(k-r+1, r, 1-p)
其中B为不完全贝塔函数。

在实际应用中,负二项分布可用于预测需要进行多少次试验才能达到一定的成功次数,例如预测需要进行多少次购买才能获得一定数量的优惠券等。

- 1 -。

泊松分布 负二项分布 曲线特征

泊松分布 负二项分布 曲线特征

泊松分布负二项分布曲线特征泊松分布、负二项分布和曲线特征是概率论与数理统计中重要的概念。

本文将分别解释这三个概念,以及它们与实际应用的关系。

泊松分布是一种用于描述离散随机变量的概率分布模型。

它适用于事件在一段连续时间或空间上的独立性,并且事件发生的平均率是固定的。

泊松分布的概率质量函数是一个实数到非负实数的函数。

泊松分布的参数是事件发生率的平均值(λ)。

泊松分布的特点是,它的均值和方差都等于λ。

负二项分布是一种用于描述在独立重复试验中成功次数的概率分布模型。

与泊松分布不同的是,负二项分布描述的是进行一定次数的实验,直到出现固定次数的成功为止。

负二项分布的概率质量函数是一个正整数到非负实数的函数。

负二项分布的参数是成功次数(r)和成功概率(p)。

负二项分布的特点是,它的均值为r/p,方差为r(1-p)/p^2。

曲线特征是指用来描述一条曲线形态的统计特性。

常见的曲线特征包括对称性、峰度和尖度。

对称性是指曲线左右两侧关于中心对称;峰度是指曲线的陡峭程度,高峰陡峭的曲线具有较高的峰度;尖度是指曲线的尖锐程度,具有尖峰的曲线具有较高的尖度。

这些特征能够帮助我们判断数据的分布形态,对于统计推断和模型拟合有重要的意义。

泊松分布、负二项分布和曲线特征在实际应用中都有各自的用途。

泊松分布常用于描述计数型数据,如单位时间内电话呼叫次数、事故发生次数等,它可以指导我们进行事件频率的估计和预测。

负二项分布常用于描述成功次数的分布,如在交易中的连续失败次数,它有助于我们评估风险和制定投资策略。

曲线特征则可以帮助我们了解数据集的形态特点,指导我们在数据建模和模型评估中选择合适的方法。

综上所述,泊松分布、负二项分布和曲线特征是概率论与数理统计中重要的概念。

它们在实际应用中都具有一定的价值和作用,能够帮助我们分析和解释数据及其特征,从而做出合理的决策和预测。

负二项分布在统计学中的应用

负二项分布在统计学中的应用

负二项分布在统计学中的应用统计学作为一门研究数据收集、分析和解释的学科,广泛应用于各个领域。

而负二项分布作为统计学中的一种重要概率分布,也在实际问题中发挥着重要的作用。

本文将从实际案例出发,探讨负二项分布在统计学中的应用。

一、市场调研市场调研是企业制定战略和决策的重要依据。

在进行市场调研时,我们常常需要对一定数量的样本进行调查,以了解人群的喜好、购买意愿等信息。

而负二项分布可以用来描述样本中成功次数的分布情况。

以某手机品牌为例,假设该品牌在某地区推出了一款新手机,并希望了解该地区消费者购买该手机的概率。

为此,该品牌进行了一次市场调研,随机选择了1000名消费者进行问卷调查。

调查结果显示,有200名消费者表示愿意购买该手机。

假设购买该手机的概率为p,那么这个问题可以转化为负二项分布的问题。

负二项分布可以表示为:P(X=k) = C(k-1, r-1) * p^r * (1-p)^(k-r),其中X表示成功次数,k表示总试验次数,r表示成功次数,p表示每次试验成功的概率。

在这个例子中,k=200,r=1000,p为未知。

通过对数据进行分析,可以估计出p的值,从而为品牌决策提供依据。

二、质量控制质量控制是生产过程中的一项重要任务,通过对产品的抽样检验,可以评估产品质量是否符合要求。

而负二项分布可以用来描述产品在一定次数的抽样检验中合格品的数量。

以某汽车制造厂为例,为了保证汽车的质量,该厂每天从生产线上抽取一定数量的汽车进行检验。

假设每天抽取100辆汽车进行检验,成功的定义为合格品,不成功的定义为不合格品。

通过对一段时间内的抽样检验数据进行分析,可以得到合格品的数量的分布情况。

假设在某一天的抽样检验中,共抽取了100辆汽车,其中有10辆不合格。

那么这个问题可以转化为负二项分布的问题。

通过对数据进行分析,可以估计出不合格品的概率,从而为质量控制提供依据。

三、风险评估风险评估是金融、保险等领域中的一项重要工作,通过对风险事件的概率和影响进行评估,可以帮助机构制定风险管理策略。

负二项分布 二阶矩

负二项分布 二阶矩

负二项分布二阶矩一、负二项分布概述负二项分布是一种离散概率分布,可用于描述在多次重复的伯努利试验中,出现r次成功时需要进行k次试验的概率分布。

在实际应用中,负二项分布常用于预测出现某种结果所需进行的试验次数,例如在网站推广中,预测需要向多少人发送广告邮件才能获得n 个用户的注册。

1、概率密度函数负二项分布的概率密度函数如下:$$ P(X=k)={k+r-1\choose k}p^rq^k $$其中,p为单次试验中成功的概率,q为失败的概率,r为成功的次数。

计算负二项分布时,我们需要先确定r和p的值,并根据所求问题的具体情况计算出q的值。

2、期望值负二项分布的期望值(一阶矩)为:$$ E(X)=\frac{r}{p} $$其中,r为成功的次数,p为单次试验中成功的概率。

期望值可以理解为在重复n次试验中出现某个结果的平均次数。

例如,如果我们想在10次试验中出现6次成功,那么期望值为:即在重复10次试验的结果中,我们可以预期会出现12次成功。

3、方差即结果与期望值的偏离程度为12。

三、应用场景负二项分布常用于计算某个结果在多次试验中出现的概率,从而帮助我们制定合理的决策和计划。

一些具体的应用场景如下:1、预测试验次数在网站推广和电商营销中,我们往往需要预测向多少用户发送广告邮件或短信才能获得期望的注册或购买量。

此时,我们可以利用负二项分布计算所需发送的邮件或短信数量。

2、质量管理在质量管理中,我们需要进行一系列的测试和检验以确保产品或工艺的合格。

负二项分布可以帮助我们计算所需的测试次数,从而提高质量管理的效率。

3、风险管理在金融风险管理中,我们需要对某些事件风险进行概率分析。

负二项分布可用于计算某种风险事件发生的可能性,从而制定适当的风险管理策略。

四、小结负二项分布是一种非常重要的离散概率分布,在上述应用场景中有着广泛的应用。

因此,熟练掌握负二项分布的计算方法和应用技巧对我们提高决策和管理效率非常有帮助。

负二项分布参数估计的MM算法

负二项分布参数估计的MM算法

负二项分布参数估计的MM算法刘寅【摘要】同时求解负二项分布的参数(r,p)的极大似然估计并不是一件容易的事情,该文利用Tian、Huang和Xu提出的组装分解技术来导出负二项分布中关于未知参数(r,p)的极大似然估计的MM算法迭代式,并给出该方法的收敛率的计算公式.随机模拟的结果表明(r,p)的MM迭代结果收敛到其极大似然估计,并且随着样本容量的增加,估计的准确性和精确性以及估计的速度均有显著提高.【期刊名称】《华中师范大学学报(自然科学版)》【年(卷),期】2019(053)003【总页数】5页(P319-323)【关键词】负二项分布;极大似然估计;组装分解技术;MM算法;收敛率【作者】刘寅【作者单位】中南财经政法大学统计与数学学院,武汉430073【正文语种】中文【中图分类】C81负二项分布又称为Pascal分布,是概率统计中的一种非常重要的离散分布.该分布与Poisson具有相同的观测数据类型,但能够有效克服Poisson分布要求总体均值与总体方差相等这一局限,因此可以更好的模拟实际计数数据中可能存在的过离散现象.令X~NBinomial(r,p)(r>0,0<p<1),则其相应的概率质量函数为假设为其相应的观测值.令Yobs={x1,…,xn},则(r,p)的观测数据似然函数为L(r,p|Y{obs})=其中,故相应的对数似然函数为(r,p|Yobs)=(1)其中,c*为与(r,p)无关的标准化常数.在对负二项分布的参数进行估计时,普遍做法主要有以下几种:1) 将r当做常数仅对p进行估计[1];2) 用矩方法估计r,即其中,s2为样本方差[2],再基于估计p;3) 求解方程组∂(r,p|Yobs)/∂r=∂(r,p|Yobs)/∂p=其中,ψ(x)=Γ′(x)/Γ(x)称为digamma函数.然而上述方法在实际应用中存在一定的局限性:1)实际中往往并不知道确切的r是多少,因此将其当做常数并不合适;2)尽管一般对于单参数指数分布族来说,矩估计和极大似然估计相等,但是对于双参数指数分布族而言,极大似然估计往往要优于矩估计;3) 理论上使得∂(r,p|Yobs)/∂r=0的解r存在,但是求解包含digamma函数的方程往往并不容易.虽然牛顿二分法是一个不错的逼近方法,但找到一个符合二分法使用条件的求解区间可能存在困难.Adamids通过将负二项分布看成是对数级数随机变量的Poisson和,并借助于对数级数随机变量与定义在(0,1)上的截断的指数分布随机变量的符合来构造负二项分布参数估计的EM算法[3],但是该算法较为复杂,对于初学者来说理解上较为困难.MM算法[4-5]是处理优化问题的一个重要且实用性强的工具,具有概念简单、操作容易且迭代结果具有稳定性等优点,在统计分析问题中有着广泛的应用[6-10].MM算法的基本思想在于建立一套单调收敛的优化算法[11-12].构造一般的MM算法的核心在于找到一个恰当的替代函数Q(θ|θ(t)),使得(2)其中,θ为定义在参数空间Θ上的向量,θ(t)为极大似然估计的第t次逼近结果.通过极大化替代函数Q(θ|θ(t))得到θ(t+1)=arg maxθ∈ΘQ(θ|θ(t)),(3)作为的第t+1次逼近结果.因由公式(3)定义的迭代式具有上升性质,故在紧致性和连续型的条件成立下,能保证该方法最终收敛到目标值因此,该文利用Tian、Huang和Xu提出的组装分解技术[13]的思想来导出负二项分布中关于未知参数(r,p)的极大似然估计的MM算法.1 基于MM算法的负二项分布参数的极大似然估计为了导出负二项分布关于(r,p)的极大似然估计的MM算法,首先需要引入log-beta函数族和log-gamma函数族的定义.定义1[13] (log-beta函数族) 如果定义在区间[0,1]上的函数g(λ)满足g1(λ)=c*+alog(λ)+blog(1-λ),λ∈[0,1],(4)其中,c*∈为与λ无关的常数且a,b≥0,则称g1(λ)为log-beta函数族的一员,记为g(λ)∈LB(λ).因此,log(λ)和log(1-λ)称为log-beta函数族的两个组装元.定义2[13] (log-gamma函数族) 如果定义在正实数集+上的函数g(λ)满足g(λ)=c*+alog(λ)+b(-λ),λ∈+,(5)其中,c*为与λ无关的常数且a,b≥0,则称g(λ)为log-gamma函数族的一员,记为g(λ)∈LG(λ).因此,log(λ)和-λ称为log-gamma函数族的两个组装元.基于上述定义,可以导出下面同时计算负二项分布中未知参数(r,p)的极大似然估计的MM算法.由公式(1)可知,对于给定的r,p的条件对数似然函数(p|Yobs,r)为(p|Yobs,r)=(6)其中,cr为与p无关的常数.因此,给定r的第t次迭代结果r=r(t),根据公式(6)立即可得(7)另一方面,由公式(1)可知,给定p=p(t),r的条件对数似然函数(r|Yobs,p(t))为1(r)(r|Yobs,r(t)),(8)其中,cr(t)为与r无关的常数,(9)假设观测数据的最大值为s,记0~s的观测频数如下表1所示.表1 负二项分布观测数据及相应的频数Tab.1 Observed counts and corresponding frequencies of the negative binomial distributionxi012…s总计频数m0m1m2…msnx注:s=max1≤i≤nxi.显然,更进一步,还有下述结论成立.定理1 由公式(9)定义的1(r)等价于(10)其中,证明由于xi=0,→log[Γ(xi+r)/Γ(r)]=0,xi=1,→log[Γ(xi+r)/Γ(r)]=log(r),xi=2,→log[Γ(xi+r)/Γ(r)]=log(r)+log(r+1),xi=3,→log[Γ(xi+r)/Γ(r)]=log(r)+log(r+1)+log(r+2),⋮xi=s,→log[Γ(xi+r)/Γ(r)]=log(r)+…+log(r+s-1).因此,1(r)=m1log(r)+m2[log(r)+log(r+1)]+m3[log(r)+log(r+1)+log(r+2)]+…+ms[log(r)+…log(r+s-1)]=(m1+m2+m3+…+ms)log(r)+(m2+m3+…+ms)log(r+1)+(m3+…+ms)log(r+2)+…+证毕.注意到(11)其中,为与r无关的常数.结合定理1的结论,有因此,由公式(8)定义的r的条件对数似然函数(r|Yobs,r(t))满足下述不等关系:其中,Q(r|Yobs,r(t))=对于给定的r=r(t),令dQ(r|Yobs,r(t))/dr=0,立即可得未知参数r的MM迭代式为(12)当|r(t+1)-r(t)|≤10-6且|p(t+1)-p(t)|≤10-6时,迭代过程停止,认为此时已经收敛到极大似然估计值.2 MM算法的收敛率负二项分布参数(r,p)的极大似然估计中,由公式(7)所定义的参数p的迭代结果可知,p的第t次迭代结果仅依赖于r的第t次逼近结果,一旦r的估计确定,p的估计也就唯一确定.另一方面,由公式(12)所定义的参数r的MM迭代式可知,参数r的第t+1次迭代结果仅依赖于它的第t次逼近结果,而与参数p无关.因此,尽管负二项分布要利用MM算法同时对参数(r,p)进行估计,但其收敛的速度仅取决于未知参数r的MM迭代的收敛速度.故对于所提出的MM算法的效果,仅讨论由公式(12)所分别定义的关于未知参数r的MM迭代式的收敛率即可.为了导出未知参数r的MM迭代式的收敛率的计算公式,现将公式(12)改写为r(t+1)=h(r(t)),(13)其中,容易验证,(14)其中,令表示r的极大似然估计.利用公式(13)和h(r(t))在附近的一阶Taylor展式,有(15)其中,θ(t)为介于r(t)和的一个点.根据公式(14)和(15),且未知参数r的MM迭代式的收敛率可由下式计算得到:一般来说,C R∈(0,1).C R越小,收敛的速度越快.3 随机模拟该节通过随机模拟的方法,在不同的(r,p)组合下,分别产生L=1000组来自于负二项分布的随机样本,每一组样本容量均为n.对于每一组随机样本,利用公式(7)和(12)所定义的MM算法来计算(r,p)的极大似然估计,估计结果如下面表2所示.表2 不同(r,p,n)组合下(r,p)的极大似然估计、标准差及平均收敛次数Tab.2 The MLEs,standard deviations and average iteration numbers of (r,p) for different combinations of (r,p,n)样本容量r=2,p=0.2r=5,p=0.4^r^p迭代次数^r^p迭代次数n=202.547 40.233 91529.755 30.463 1467(1.622 9)(0.091 0)(15.952 6)(0.160 1)n=502.204 90.215 01295.993 10.427 1390(0.6448)(0.051 7)(3.138 4)(0.091 6)n=1002.079 80.205 71205.468 50.4151352(0.388 7)(0.032 4)(1.486 7)(0.063 8)n=2002.039 70.202 71185.240 20.408 2331(0.259 1)(0.022 4)(0.953 3)(0.043 2)n=5002.007 10.200 11165.069 40.402 0317(0.168 0)(0.014 5)(0.578 0)(0.027 6)表2分别给出了不同(r,p,n)组合下(r,p)的极大似然估计、标准差及1 000组样本所需收敛次数的平均值.其中,(r,p)的极大似然估计分别为1 000组样本得到的估计的平均值,标准差为1 000组样本得到的估计的样本标准差.从估计结果可以看出,随着样本容量n的增加,(r,p)的极大似然估计值越来越接近其真实值,而相应的标准差越来越小,所需迭代次数越来越少.另一方面,从表2中也可以看出,当r的真实值较小时,样本容量n较小时也能收敛到接近于真实值的结果.然而,当r的真实值较大时,样本容量n越小,所获得的信息越少,因此对于r的估计结果越差.所以,为了得到r的较好的估计结果,往往需要较大的样本容量.4 实证分析Bliss 和Fisher[2]考虑用负二项分布来对从一个果园中6棵相近的苹果树上分别随机挑选的25片树叶上所观测到的一种欧洲成年雌性红色小虫的数量的分布进行拟合,其观测数据见表3.如果采用Bliss和Fisher所提出的估计方法,则有而如果采用本文所提出的MM算法进行估计,则(r,p)的极大似然估计经过64次迭代收敛至表3分别从估计的频数以及拟合优度两个方面对这两种估计方法的结果进行比较.表3 负二项分布拟合苹果树叶上欧洲成年雌性红色小虫数量结果比较Tab.3 Comparison of fitting the negative binomial counts of European red mites on apple leaves via Bliss & Fisher’s metho d and our proposed method每片叶子上小虫的数量01234567χ2p值叶子数实际观测频数703817109321----叶子数估计频数a67.539.021.011.05.72.91.50.73.190.67叶子数估计频数b69.537.620.110.75.73.01.60.82.590.76注:a表示由Bliss和Fisher估计方法所得;b表示由公式(7)和(12)定义的MM算法所得.由表3结果可知,基于公式(7)和(12)定义的MM算法所得到的(r,p)的极大似然估计无论是从估计频数方面还是从拟合优度方面,其估计效果显著优于基于Bliss和Fisher提出的估计方法所得到的极大似然估计结果.5 结论基于经验似然的极大似然估计方法是对观测数据进行统计推断的一个重要方面,该文利用Tian、Huang和Xu提出的组装分解技术[13]给出了同时计算负二项分布的未知参数(r,p)的极大似然估计的MM算法,该算法弥补了现阶段绝大多数研究只侧重于讨论成功概率p的估计的不足;同时克服了通过直接求解方程组∂(r,p|Yobs)/∂r=0,∂(r,p|Yobs)/∂p=0时由于涉及到digamma函数求解而实际操作困难的问题.并且该算法操作容易,简单易懂.值得注意的是,模拟结果显示,当真实的r取值较大时,如果样本容量较小往往难以得到较为准确的估计.因此,在实际问题中,为了得到关于r的较为精确的估计,可能首先需要借助一些先验信息来对r的实际取值进行大致判断.如果r的取值较大,需要适当扩充样本容量或者采用bootstrap自助方法来提高估计的精度.参考文献:【相关文献】[1] 徐伟.负二项分布统计推断及应用[D].长春:吉林大学,2008.XU W.Statistical Inference for Negative Binomial Distribution withApplications[D].Changchun:Jilin University,2008.(Ch).[2] BLISS C I,FISHER R A.Fitting the negative binomial distribution to biologicaldata[J].Biomrtrics,1953,9(2):176-200.[3] ADAMIDIS K.An EM algorithm for estimating negative binomialparameters[J].Australian & New Zealand Journal of Statistics,1999,41(2):213-221.[4] ORTEGA J M,RHEINBOLDT W C.Iterative Solutions of Nonlinear Equations in Several Variables[M].New York:Academic,1970:253-255.[5] HUNTER D R,LAN GE K.Rejoinder to discussion of “Optimization transfer using surrogate objective functions”[J].Journal of Computational and Graphical Statistics,2000,9:52-59.[6] YEN T J.A majorization-minimization approach to variable selection using spike andslab priors[J].The Annals of Statistics,2011,39(3):1748-1775.[7] LEE S,HUANG J Z.A coordinate descent MM algorithm for fast computation of sparse logistic PCA[J].Computational Statistics & Data Analysis,2013,62:26-38.[8] CHI E C,LANGE K.A look at the generalized heron problem through the lens of majorization-minimization[J].The American Mathematical Monthly,2014,121(2):95-108.[9] CHI E C,ZHOU H,LANGE K.Distance majorization and itsapplications[J].Mathematical Programming,Series A,2014,146(1-2):409-436.[10] LANGE K,ZHOU H.MM algorithms for multicategory vertex discriminantanalysis[J].Journal of Computational and Graphical Statistics,2014,17(3):527-544.[11] HUNTER D R,LANGE K.A tutorial on MM algorithms[J].The American Statistician,2004,58(1):30-37.[12] LANGE K.Numerical Analysis for Statisticians[M].2nd Ed.New York:Springer,2010:189-218.[13] TIAN G L,HUANG X F,XU J F.An assembly and decomposition (AD) approach for constructing seperable minorizing functions in a class of MM algorithms[J].Statistica Sinica,2019,29:961-982.。

负二项分布参数的贝叶斯区间估计问题

负二项分布参数的贝叶斯区间估计问题

负二项分布参数的贝叶斯区间估计问题姜培华;纪习习;吴玲【摘要】In terms of prior distribution of Beta distribution, the Bayesian estimation method on the unknown parame-ter θ of negative binomial distribution was studied. By means of the relations between Beta distribution and the F dis-tribution the general posterior interval estimation of parameter θ was given, and the shortest posterior interval estima-tion by means of conditional extreme was gained. By comparing the discussion analysis and numerical examples den-sity curve shape of the different parameters, it was concluded that in the case of small samples, the shortest confi-dence interval estimation method is worth using.%研究了在先验分布为贝塔分布下,负二项分布未知参数θ的贝叶斯区间估计方法。

借助Beta分布与F分布的关系给出了参数θ的一般后验区间估计,并给出了参数θ的最短后验区间估计的条件极值解法。

通过对参数取值不同的密度曲线形状的讨论分析和数值实例对比,得出结论:在小样本情况下,最短置信区间估计方法值得采用。

【期刊名称】《南通大学学报(自然科学版)》【年(卷),期】2014(000)002【总页数】6页(P85-90)【关键词】负二项分布;贝叶斯估计;贝塔分布;区间估计【作者】姜培华;纪习习;吴玲【作者单位】安徽工程大学数理学院,安徽芜湖 241000;安徽工程大学数理学院,安徽芜湖 241000;安徽工程大学数理学院,安徽芜湖 241000【正文语种】中文【中图分类】O212.1负二项分布是统计学中一种重要的离散型随机分布,具有较好的统计特性,在生物、医学、排队论和风险管理中都有诸多应用.文献[1]和[2]中研究了参数P 的3种区间估计,即精确区间估计、大样本下的近似区间估计和参数P 较小条件下的近似区间估计.文献[3]和[4]研究了负二项分布参数的贝叶斯估计.对于区间估计问题,贝叶斯方法具有处理方便和含义清晰的优点,当获得参数θ的后验分布π(θ x)以后,若给定水平1-α,要找一个区间[a,b],使 P(a≤θ≤b x)=1- α 成立,这样求得的区间就是θ的贝叶斯区间估计.文献[5-8]分别研究了泊松分布、二项分布参数的贝叶斯区间估计和几类非正态总体未知参数的贝叶斯假设检验问题.置信水平和区间长度是评价贝叶斯区间估计的2个指标,在置信水平给定的情况下,置信区间的长度越短越好.对给定的置信水平1-α,从后验分布π(θ x)获得的置信区间不唯一,常用的方法是把α等分,取等尾的一般置信区间,但一般置信区间大都不是最短的.由于后验密度函数为单峰非对称的,本文用条件极值法给出负二项分布成功率θ的最短后验置信区间,并将其与θ的一般后验置信区间进行比较.1 负二项分布参数θ的一般后验置信区间定义1 若随机变量X 具有如下密度函数:则称X 服从贝塔分布,记作X~Be(a,b),其中a>0,b>0 都是形状参数.定义2 若X 的概率分布律为则称X 服从负二项分布,记作X~NB(r,θ),其中0<θ<1为成功率,r>0为成功次数.为了方便推证下文的定理1,我们引入以下几个引理.引理 1[9] 若ξ~Be(a, b),则η =bξ/a(1 -ξ)~F(2a, 2b),其中 2a,2b为自然数.引理2[10] 下列恒等式成立:定理1 设负二项分布NB(r,θ)中参数θ的先验分布为 Be(a, b).x1,x2,…, xn为来自该总体的一个样本,对给定置信水平1-α,参数θ的一般后验区间估计为其中,Fα/2 和 F1-α/2 分别为概率分布 F[2(nr+a),的下侧α/2 和1-α/2 分位数.证明:设总体X~NB(r,θ),从中获得的样本观测值为x1,x2,…,xn.取参数θ的先验分布为Be(a, b),则θ的后验验分布为即参数θ的后验分布为π(θ x1, x2,…, xn)~Be(nr+利用引理1可知:查F 分布表,可得由此可得θ的置信水平为1-α的后验区间估计为综上所述,定理成立.推论1 设几何分布Ge(θ)中参数θ的先验分布为 Be(a, b).x1, x2,…,xn为来自该总体的一个样本,对给定置信水平1-α,参数θ的一般后验区间估计为其中,Fα/2 和 F1-α/2 分别为概率分布 F[2(n+a),的下侧α/2 和1-α/2 分位数.证明:因为几何分布是对应负二项分布r=1时的特例,即 Ge(θ) =NB(1,θ),在定理1 中令r=1 即可得到推论1.2 负二项分布参数θ的最短后验置信区间由于概率分布F 的密度函数为非对称的单峰曲线,故上述所得的一般后验区间估计并非是最短的.下面我们寻求参数θ的最短后验置信区间.定理2 设负二项分布NB(r,θ)中参数θ的先验分布为 Be(a, b).x1,x2,…, xn为来自该总体的一个样本,对给定置信水平1-α,参数θ的最短后验置信区间为[θ1,θ2],其中θ1 和θ2 由和所唯一确定.证明:由定理1 的证明过程可知在参数θ的先验分布为Be(a,b)时,其后验分布为对给定的置信水平 1-α,选取θ1,θ2(θ1<θ2)∈(0, 1),使其中, F(x), f(x)分别为的分布函数和密度函数.于是得到θ的置信水平为1 -α 的后验区间估计[θ1,θ2],其长度为L=θ2-θ1.因此参数θ的最短后验区间估计问题究转化为如下条件极值问题对式(1)两边关于θ1 求导可得:dθ2/dθ1=f(θ1)/f(θ2).由L=θ2-θ1,对其两边关于θ1 求导并令其等于零可得:dθ2/dθ1=1,从而则有 f(θ1)=f (θ2)成立,将函数 f(x)带入并化简得式(3)的解即是满足式(2)的解.下面只需证明式(2)、(3)有唯一解.因为当时,可保证b-nr>1,此时 Be(nr+a分布的密度函数f(x)为单峰非对称曲线,且在,处达到最大值.当x<x0时,f(x)单调递增;当x≥x0时, f(x)单调递减;而当 x 趋向 0 或 1时, f(x)趋向于零.为保证θ1<θ2 和式(3)成立,应有θ1< x0 且θ2>x0.这样对于任意的θ1可以唯一地解出θ2=u(θ1).另外,当θ1 趋于 0时,θ2 则趋于 1;当θ1 从x0 左侧趋于x0时,θ2 则从x0 右侧趋于x0.因此,有由连续函数的介值性定理可知,对于给定的置信水平1-α存在唯一的使式(1)成立.推论2 设几何分布Ge(θ)中参数θ的先验分布为 Be(a, b).x1, x2,…,xn为来自该总体的一个样本,对给定置信水平1-α,参数θ的最短后验置信区间为[θ1,θ2],其中θ1 和θ2 由所唯一确定.证明:因为几何分布是对应负二项分布r=1时的特例,即 Ge(θ)=NB(1,θ),在定理2 中令 r=1 即可得到推论2.3 数值例子与比较我们利用统计软件(Minitab 和MATLAB)对第一参数a 和第二参数b 取值不同分类进行了密度曲线的模拟描绘,如图1~4所示,可以得出下述几点结论:1)不论参数a 和b 取值多大(满足都大于1),只要 a=b, Be(a, b)的密度曲线 p(x)都是单峰上凸的对称曲线,其对称轴为x=0.5,此点也是密度函数的峰值点.图1 两参数相等时的曲线比较图2)当参数a 和b 取值较小时(满足都大于1)且a≠b, Be(a, b)的密度曲线p(x)都是单峰上凸非对称的曲线.具体的说,当a<b时密度曲线呈现右偏,密度函数的峰值点x0<0.5;当a>b时密度曲线呈现左偏,密度函数的峰值点x0>0.5.图2 两参数不等时的曲线比较图3)当参数a 和b 取值较大时,不论a 和b 是否相等, Be(a, b)的密度曲线p(x)都是单峰上凸的渐近对称曲线.具体的说,当a<b时,密度曲线渐近对称,密度函数的峰值点x0<0.5,亦即其渐近对称轴;当a>b时密度曲线渐近对称,密度函数的峰值点x0>0.5,亦即其渐近对称轴.4)当参数a 和b 取值较小时(满足都大于1),密度曲线呈现出矮而阔,峰值小;当参数a 和b 取值较大时,密度曲线呈现出陡而峭,峰值大;当a+b 固定时,a 和b 差异越大密度曲线的偏度越明显,峰值也会逐渐变大.图3 两参数较大且不等时的曲线比较图图4 两参数和相等时的曲线比较图对于参数的最短区间估计问题主要是针对概率密度曲线非对称的分布来研究,若密度曲线是对称的,传统的等尾置信区间即为其最短区间估计.在定理2 中,给定参数θ的先验分布为Be(a,b)时,其后验分布为:π(θ x1, x2,…, xn)~Be(nr+分别记其第一参数为a*=nr+a,第二参数为b*对于后验密度曲线Be(a*,b*)做如下讨论(见图 5):1)对于给定的a,b 和r,当样本容量n 较大时,a*,b*也会变得较大,这时候后验密度曲线Be(a*,b*)呈现出单峰上凸渐近对称的,所以此时其最短区间估计和传统的等尾区间估计基本一致,无优越性可言,故没有研究的意义.图5 大样本与小样本的后验密度曲线比较图2)对于给定的a,b 和r,当样本容量n 较小时,a*,b*也会较小,这时候后验密度曲线Be(a*,b*)呈现出单峰上凸非对称的,并且a*,b*差别越大偏度越明显,此时传统的等尾区间估计显然不是最短的,所以此时研究其最短区间估计才有意义,才能凸显最短区间估计的优越性.在产品的可靠性试验中,试验之前它的成功次数r 是预定的,所需的试验次数却是随机的,这种情况在军工产品试验中也较为普遍.例如在弹箭的装备研制阶段,弹箭的命中率是一个重要指标,企业经常通过试验来推断其命中率的区间估计等指标.某军工企业为了推断一类弹箭命中率的区间估计,设计如下,根据预先结果设定应有5 发成功的子样,对此类弹箭做了5 组重复试验,获得试验次数样本数据如下:取命中率θ的先验分布π(θ)~Be(1, 1),求命中率θ的95%的后验置信区间.在本例中,a=1,b=1,n=5,r=5,60,由 Minitab 软件经过数值计算可知F0.025(52,72)=0.594 585,F0.975(52, 72)=1.646 66,故利用定理1 可得命中率θ的95%的常用后验置信区间为 [0.300 4,0.543 3],该区间不是最短区间.为此,寻找最短置信区间.利用引理2 中的结论 i),满足式(2)的解等价于利用软件MATLAB 或Lingo 求解,可得唯一的驻点=0.298 7, =0.541 4;从而可得最短后验置信区间为 [0.298 7,0.541 4],比一般后验置信区间短.可见,对于小样本数据,得到的最短后验区间估计比一般后验区间估计有较好的改进,这和文中的理论分析也是吻合的.参考文献:[1]姜培华,范国良.负二项分布参数的两种区间估计[J].科学技术与工程,2012,12(2):387-389.[2]姜培华.负二项分布参数的一类近似区间估计[J].菏泽学院学报, 2012, 34(2):1-4.[3]魏玲,师义民.巴斯卡分布参数的Bayes 估计[J].纯粹数学与应用数学,1999, 15(2):13-16.[4]王德辉,牛晓宁.熵损失函数下巴斯卡分布参数的Bayes估计[J].吉林大学自然科学学报, 2001(1):19-22.[5]李中恢,任海平.泊松分布参数的最高后验概率密度区间的估计方法[J].统计与决策, 2009(19):146-147.[6]张静.二项分布参数的Bayes 区间估计问题研究[J].统计与决策, 2011(18):37-38.[7]姜培华,范国良.几种非正态总体未知参数的贝叶斯假设检验问题[J].南通大学学报:自然科学版, 2013, 12(1):82-85.[8]杨兴琼,张德然,周伟萍.一类非正态总体未知参数的Bayes 假设检验[J].绵阳师范学院学报, 2007, 26(8):14-16.[9]茆诗松.贝叶斯统计[M].北京:中国统计出版社,1999:66-67.[10]郑明,陈子毅,汪嘉冈.数理统计讲义[M].上海:复旦大学出版社,2005:49-50.。

二项分布和泊松分布参数的区间估计

二项分布和泊松分布参数的区间估计

P{u/2
pP p(1p)
u/2}1
n
P {p u /2 p ( 1 n p ) P p u /2 p ( 1 n p )} 1
所以总体率P的 1 的置信区间为:
医药数理统计方法
p (1p )
p (1p )
p u /2 n P pu /2 n
p(1p)
p(1p)
pu /2 n ,pu /2 n
每分钟平均脉冲数的95%置信区间为:
X
XX
X
n u 0 .0 5 /2 n,n u 0 .0 5 /2 n (5 5 3 .9 ,5 7 4 .7 )
二、小样本精确估计法
医药数理统计方法
1.二项分布总体率 P 的区间估计 例5-14.给10只同品系的动物分别注射某药物,结 果有4只死亡,试求总体死亡率的99%置信区间.
X u /2 X ,X u /2 X
大样本正态近似法
样本死亡率: p 80 0.80 100
总体死亡率: P
95%置信区间
1.总体率与样本率的定义
医药数理统计方法
总体率:设总体的容量为N,其中具有某种特点
的个体数为M,则称 P M N
为具有某种特点的个体的总体率。
置信区间
样本率:设总体中抽取容量为n的样本,其中具 有某种特点的个体数为m,则称
p m n
为具有某种特点的个体的样本率。
2.二项分布总体率 P 的区间估计
医药数理统计方法
推导过程:
pm~N(P,P(1P))
n
n
u pP ~ N(0,1) P(1 P)
n
m
P p
n
u pP ~ N(0,1) p(1 p) n

负二项分布的性质特征及在流行病学研究中的应用

负二项分布的性质特征及在流行病学研究中的应用

负二项分布的性质特征及在流行病学研究中的应用负二项分布的性质特征及在流行病学研究中的应用【摘要】给出了负二项分布的分解定理,进一步研究了负二项分布的有关性质及参数的无偏一致估计,以及在流行病学该分布的生物学意义。

【关键词】负二项分布;无偏一致估计;应用负二项分布是概率论中常用的重要的离散型随机分布,它在医学中主要用于聚集性疾病及生物、微生物、寄生虫分布模型等的研究。

具体地说,当个体间发病概率不相等可以拟合负二项分布,如单位人数内某传染病的发病人数,某地方病、遗传病的发病人数等,这些均可通过负二项分布进行处理。

本文从概率论的角度阐述负二项分布的性质及参数的最小方差无偏估计,并且以该分布在流行病学中应用为例证讨论了其生物学意义。

1 负二项分布的概率模型负二项分布又称帕斯卡分布(Pascal),它有两种基本模型[1]:模型Ⅰ:假定每次试验可能的结果只有两个:可归结为成功或失败,每次试验之间是独立,每次成功的概率均为π,直到恰好出现r (指定的一个自然数)次成功所需试验次数X,则X的概率分布为:p(X=K)=πCr-1k-1πk-1(1-π)k-r=Cr-1k-1π-(1-π)k-rk=r,r+1 (1)模型Ⅱ:假定每次试验可能的结果只有两个:可归结为成功或失败,每次试验之间是独立,每次成功的概率均为π,试验进行到r次成功为止,记X为试验共进行的次数,则X 的概率分布为[3]:p(X=k)=Cr-1k+r-1πk(1-π)k k=0,1,2, (2)此分布的概率是πr(1-(1-π))-r 的幂级数展开式的项,负二项分布由此而得名记作 X~f(k,r,π) ,或 X~NB(r,π)一个重要的特例是 r=1。

这时(2)成为p(X=k)=π(1-π)k k=0,1,2, (3)称为几何分布。

2 性质特征为研究负二项分布的性质,我们先给出一个重要的结论:引理:设X~NB(r,π),则其特征函数为ψx(t)=πr(1-(1-π)eit)-r 证明:ψx(t)=E(eitx)=∑∞i=0Cr-1i+r-1πr(1-π)i eitr=∑∞i=0Cr-1i+r-1πr((1-π) e)rti=πr∑∞i=0Cr-1i+r-1((1-π) ert)i=πr(1-(1-π)eit)-r定理1 设: X1,X2,…,Xr(3)的iid样本,如果X=∑ri=1Xi, 则X=∑ri=1Xi~NB(r,π)证明:因为X1,X2,…,Xr独立同分布,又有引理知X=∑ri=1Xi 的特征函数为:φ(t)=πr(1-(1-π) eit)-r=πr∑∞k=0(-r)(-r01)…(-r-k+1)k! ((1-π) eit)k(-1)keitr=πr∑∞k=0(r+k-1)!(r-1)!k! (1-π)k eit(k+1)=∑∞k=0πr(1-π)k eit(k+r) Cr-1r+k-1这正是 p(X=k)=Cr-1r+k-1(1-π)k 的概率分布则X=∑ri=1Xi~NB(r,π)定理2 设:X=X1,X2,…,Xn)是(1)的iid样本,则T(X)=∑ni=0Xi~NB(nr,π),则有p(T=k)=Cnr-1k-1πnr(1-π)k-nr k=nr,nr+1, (4)证明:设ξ的特征函数为f(t) ,那么f(t)=∑∞x=reitxCr-1N-1πN(1-π)N-r =πeit1-(1-π)eitr因为x是ξ的iid样本,所以Xi 的特征函数fi(t)=f(t),i=1,2,…,n 有特征函数的性质得T的特征函数为:∏ni=1fi(t)πeit1-(1-π)eitr由于特征函数与概率分布唯一对应,所以T~f(k,nr,π) ,其概率分布便是(4)。

负二项分布的期望推导

负二项分布的期望推导

负二项分布的期望推导
负二项分布是一种随机变量概率分布,它可以用来描述博弈数据,以及互联网应用和金融领域的多种随机现象。

本文将介绍如何推导负二项分布的期望值,即均值。

首先,我们从定义开始,负二项分布的概率密度函数是:
f(x;n,p)=C(n,x)p^x(1-p)^(n-x),
其中x是随机变量,n和p是参数,C(n,x)是样本空间的一种组合,表示取x个物件的方法数为C(n,x)。

接下来,我们可以推导负二项分布的期望值,也就是均值,表示随机变量x的期望值E(x):
E(x)=∑xP(x)=∑xC(n,x)p^x(1-p)^(n-x)
可以将上述公式数学化:
E(x)=np
其中p表示每次试验发生成功的概率,而np表示随机变量x期
望值。

推导负二项分布期望值的应用:
1)可以用来评估负二项实验:
假设有一次实验,把n个物件放在一起,让它们每次发生成功的概率为p,如果实验重复进行m次,则可以用负二项分布来描述随机变量x,其期望值为np。

此时可以利用推导的公式来预测实验成功的次数x的期望值。

2)可以用来预测投票行为:
假设有一次投票活动,让n个选民投票,每个选民投票行为的发生概率为p。

若采用负二项分布,则可以推导出随机变量x的期望值为np,也就是说可以预估投票行为的结果。

本文通过推导的方式,讨论了负二项分布的期望值,以及其应用。

负二项分布广泛应用于随机数据领域,可以有效预测博弈数据、投票行为等多种随机现象,是一种重要的概率密度函数。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档