负二项分布参数估计的MM算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

华中师范大学学报(自然科学版)

Vol. 53 No. 3

JOURNAL OF CENTRAL CHINA NORMAL UNIVERSITY(Nat . Sci. ) Jun. 2019

第53卷第3期2019年6月

DOI : 10. 19603/j. cnki. 1000-1190. 2019. 03. 001 文章编号:1000-1190(2019)03-0319-05

负二项分布参数估计的MM 算法

刘寅*

*收稿日期:2018-10-02.

基金项目:国家自然科学基金项目(11601524.61773401);中南财经政法大学青年教师资助项目(31721811206).* 通讯联系人.E-mail : yliu_1031@ .

(中南财经政法大学统计与数学学院,武汉430073)

摘 要:同时求解负二项分布的参数的极大似然估计并不是一件容易的事情,该文利用 Tian, Huang 和Xu 提出的组装分解技术来导出负二项分布中关于未知参数(r,p )的极大似然估

计的MM 算法迭代式.并给出该方法的收敛率的计算公式.随机模拟的结果表明的MM

迭代结果收敛到其极大似然估计.并且随着样本容量的增加,估计的准确性和精确性以及估计的

速度均有显著提高.

关键词:负二项分布;极大似然估计;组装分解技术;MM 算法;收敛率

中图分类号:C81 文献标识码:A

负二项分布又称为Pascal 分布,是概率统计 中的一种非常重要的离散分布.该分布与Poisson 具有相同的观测数据类型,但能够有效克服

Poisson 分布要求总体均值与总体方差相等这一局

限,因此可以更好的模拟实际计数数据中可能存在 的过离散现象.

令 X 〜NBinomiaKr, />)(;-〉0,0< p < 1),

则其相应的概率质量函数为

iid

假设 X,〜NBinomiaKr,p )异=1,…皿,{x. }?=i 为

其相应的观测值.令丫必、={工】,…,无”},则 (厂,P )的观测数据似然函数为

灯)=口

巩黑和(,'(1-以P

n

口 r (x ;+r )/r (r ),

1 = 1

其中& = 2L x '/n -故相应的对数似然函数为

0(厂,p | Y 必)=c * + zzrlog (p ) + log (l — p ) +

n

工 iog [『a + 厂)]—wiog [r (r )],

(1)

其中,「为与o ,p )无关的标准化常数.

在对负二项分布的参数进行估计时,普遍做法 主要有以下几种:

1)将r 当做常数仅对进行估计⑴;2) 用矩方法估计r.即

r = jc 2/(52 — x ),

其中,孑为样本方差図,再基于;•估计p ;

3) 求解方程组

3Kr,p I Y,a , )/3r =

「0(心 + r ) np (r') + nlog ( 1 — />) = 0 ,

df (r,p I Y i A s ~)/ap =

(工:=]Xi/p )— Ttr/{ \ — p ) =0,

其中,0(_r ) = r (x )/r (a:)称为 digamma 函数.

然而上述方法在实际应用中存在一定的局

限性:

1) 实际中往往并不知道确切的r 是多少,因此

将其当做常数并不合适;

2) 尽管一般对于单参数指数分布族来说.矩 估计和极大似然估计相等,但是对于双参数指数分

布族而言,极大似然估计往往要优于矩估计;

3) 理论上使得a 心p | Y “,)/"= 0的解广存 在,但是求解包含digamma 函数的方程往往并不 容易.虽然牛顿二分法是一个不错的逼近方法,但 找到一个符合二分法使用条件的求解区间可能存

在困难.

Adamids 通过将负二项分布看成是对数级数

随机变量的Poisson 和,并借助于对数级数随机变

量与定义在(0,1)上的截断的指数分布随机变量

的符合来构造负二项分布参数估计的EM 算法⑶,

但是该算法较为复杂,对于初学者来说理解上较为

320华中师范大学学报(自然科学版)第53卷

困难.

MM算法〔“】是处理优化问题的一个重要且实用性强的工具,具有概念简单、操作容易且迭代结果具有稳定性等优点,在统计分析问题中有着广泛的应用

*遡.MM算法的基本思想在于建立一套单调收敛的优化算法构造一般的MM算法的核心在于找到一个恰当的替代函数Q(齐严),使得

fQ(0I i9(/)XZ(0|Y<*s),

为极大似然估计D的第r次逼近结果•通过极大化替代函数Q(0"">)得到

&<,+1>=arg maXeeeQ((9|),(3)作为9的第t+1次逼近结果.因由公式(3)定义的迭代式具有上升性质,故在紧致性和连续型的条件成立下,能保证该方法最终收敛到目标值久因此,该文利用Tian,Huang和Xu提出的组装分解技术的思想来导出负二项分布中关于未知参数(cp)的极大似然估计的MM算法.

1基于MM算法的负二项分布参数的极大似然估计

为了导出负二项分布关于(厂,P)的极大似然估计的MM算法,首先需要引入log-beta函数族和log-gamma函数族的定义.

定义1“(log-beta函数族)如果定义在区间[0,1]上的函数gQ)满足

gi(A)=c*+6zlog(A)+blog(l—入),入E[0,1],

(4)其中,八E臥为与入无关的常数且则称gi(A)为log-beta函数族的一员,记为g(A)6 ILB(A).因此,log(入)和log(l—入)称为log-beta函数族的两个组装元.

定义2*(log-gamma函数族)如果定义在正实数集咫+上的函数gQ)满足

g(A)=c*+alog(A)+6(—A)G IR+,(5)其中,八为与入无关的常数且则称gQ)为log-gamma函数族的一员,记为g(/O€LG(A).因此»log(A)和一入称为log-gamma函数族的两个组装元.

基于上述定义,可以导出下面同时计算负二项分布中未知参数(厂")的极大似然估计的MM 算法.

由公式(1)可知,对于给定的r.p的条件对数似然函数0(P I Y血,厂)为

/(〃I Y必,厂)=

c r+wrlog(p)+nr log(l—p)W LB(A)?(6)其中心为与p无关的常数.因此,给定厂的第/次迭代结果厂=厂⑺,根据公式(6)立即可得

另一方面,由公式(1)可知,给定p=p",r的条件对数似然函数Kr|Y必"⑺)为

(7)

0(厂丨Y血,p®)=

3)—??[log(厂⑺+jc)—log(r(/>)]•厂+01(厂)全Ar I W>),(8)其中,c®为与厂无关的常数,

n

=工log[r(q+/)/「&)].(9)

i=\

假设观测数据{乂,的最大值为S,记0〜s 的观测频数如下表1所示.

表1负二项分布观测数据及相应的频数

Tab.1Observed counts and corresponding frequencies of the negative binomial distribution

Hi012••S总计频数mo Ul2•'m s nx 注:s=maxiQw”,.

显然,nr=工;=严=AS

*

.更进一步,还有下述结论成立.

定理1由公式(9)定义的&G)等价于

幺(广)=工;“®l°g(r+j一1),(1°)其中,©=艺;=/"

*,)=1,…,s.

证明由于

如=o,f iog[r(j?,+厂)/『&)]=o,

•Zi=1,f log[r(x,+r)/r(r)]=log(r),

九=2,log[r(^z+r)/r(r)]=

log(r)+log(r+1),

不=3,f log[r(^,+r)/r(r)]=

log(r)+log(厂+1)+log(r+2),

乙=s,f log[r(*r,+r)/T(r)]=

log(r)+•••+log(r+5—1).

因此,

0\(r)=m x log(r)+

m2[log(r)+log(厂+1)]+

m3[log(r)+log(r+1)+log(r+2)]+•・•+

相关文档
最新文档