负二项分布参数估计的MM算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
华中师范大学学报(自然科学版)
Vol. 53 No. 3
JOURNAL OF CENTRAL CHINA NORMAL UNIVERSITY(Nat . Sci. ) Jun. 2019
第53卷第3期2019年6月
DOI : 10. 19603/j. cnki. 1000-1190. 2019. 03. 001 文章编号:1000-1190(2019)03-0319-05
负二项分布参数估计的MM 算法
刘寅*
*收稿日期:2018-10-02.
基金项目:国家自然科学基金项目(11601524.61773401);中南财经政法大学青年教师资助项目(31721811206).* 通讯联系人.E-mail : yliu_1031@ .
(中南财经政法大学统计与数学学院,武汉430073)
摘 要:同时求解负二项分布的参数的极大似然估计并不是一件容易的事情,该文利用 Tian, Huang 和Xu 提出的组装分解技术来导出负二项分布中关于未知参数(r,p )的极大似然估
计的MM 算法迭代式.并给出该方法的收敛率的计算公式.随机模拟的结果表明的MM
迭代结果收敛到其极大似然估计.并且随着样本容量的增加,估计的准确性和精确性以及估计的
速度均有显著提高.
关键词:负二项分布;极大似然估计;组装分解技术;MM 算法;收敛率
中图分类号:C81 文献标识码:A
负二项分布又称为Pascal 分布,是概率统计 中的一种非常重要的离散分布.该分布与Poisson 具有相同的观测数据类型,但能够有效克服
Poisson 分布要求总体均值与总体方差相等这一局
限,因此可以更好的模拟实际计数数据中可能存在 的过离散现象.
令 X 〜NBinomiaKr, />)(;-〉0,0< p < 1),
则其相应的概率质量函数为
iid
假设 X,〜NBinomiaKr,p )异=1,…皿,{x. }?=i 为
其相应的观测值.令丫必、={工】,…,无”},则 (厂,P )的观测数据似然函数为
灯)=口
巩黑和(,'(1-以P
n
口 r (x ;+r )/r (r ),
1 = 1
其中& = 2L x '/n -故相应的对数似然函数为
0(厂,p | Y 必)=c * + zzrlog (p ) + log (l — p ) +
n
工 iog [『a + 厂)]—wiog [r (r )],
(1)
其中,「为与o ,p )无关的标准化常数.
在对负二项分布的参数进行估计时,普遍做法 主要有以下几种:
1)将r 当做常数仅对进行估计⑴;2) 用矩方法估计r.即
r = jc 2/(52 — x ),
其中,孑为样本方差図,再基于;•估计p ;
3) 求解方程组
3Kr,p I Y,a , )/3r =
「0(心 + r ) np (r') + nlog ( 1 — />) = 0 ,
df (r,p I Y i A s ~)/ap =
(工:=]Xi/p )— Ttr/{ \ — p ) =0,
其中,0(_r ) = r (x )/r (a:)称为 digamma 函数.
然而上述方法在实际应用中存在一定的局
限性:
1) 实际中往往并不知道确切的r 是多少,因此
将其当做常数并不合适;
2) 尽管一般对于单参数指数分布族来说.矩 估计和极大似然估计相等,但是对于双参数指数分
布族而言,极大似然估计往往要优于矩估计;
3) 理论上使得a 心p | Y “,)/"= 0的解广存 在,但是求解包含digamma 函数的方程往往并不 容易.虽然牛顿二分法是一个不错的逼近方法,但 找到一个符合二分法使用条件的求解区间可能存
在困难.
Adamids 通过将负二项分布看成是对数级数
随机变量的Poisson 和,并借助于对数级数随机变
量与定义在(0,1)上的截断的指数分布随机变量
的符合来构造负二项分布参数估计的EM 算法⑶,
但是该算法较为复杂,对于初学者来说理解上较为
320华中师范大学学报(自然科学版)第53卷
困难.
MM算法〔“】是处理优化问题的一个重要且实用性强的工具,具有概念简单、操作容易且迭代结果具有稳定性等优点,在统计分析问题中有着广泛的应用
*遡.MM算法的基本思想在于建立一套单调收敛的优化算法构造一般的MM算法的核心在于找到一个恰当的替代函数Q(齐严),使得
fQ(0I i9(/)XZ(0|Y<*s),
•为极大似然估计D的第r次逼近结果•通过极大化替代函数Q(0"">)得到
&<,+1>=arg maXeeeQ((9|),(3)作为9的第t+1次逼近结果.因由公式(3)定义的迭代式具有上升性质,故在紧致性和连续型的条件成立下,能保证该方法最终收敛到目标值久因此,该文利用Tian,Huang和Xu提出的组装分解技术的思想来导出负二项分布中关于未知参数(cp)的极大似然估计的MM算法.
1基于MM算法的负二项分布参数的极大似然估计
为了导出负二项分布关于(厂,P)的极大似然估计的MM算法,首先需要引入log-beta函数族和log-gamma函数族的定义.
定义1“(log-beta函数族)如果定义在区间[0,1]上的函数gQ)满足
gi(A)=c*+6zlog(A)+blog(l—入),入E[0,1],
(4)其中,八E臥为与入无关的常数且则称gi(A)为log-beta函数族的一员,记为g(A)6 ILB(A).因此,log(入)和log(l—入)称为log-beta函数族的两个组装元.
定义2*(log-gamma函数族)如果定义在正实数集咫+上的函数gQ)满足
g(A)=c*+alog(A)+6(—A)G IR+,(5)其中,八为与入无关的常数且则称gQ)为log-gamma函数族的一员,记为g(/O€LG(A).因此»log(A)和一入称为log-gamma函数族的两个组装元.
基于上述定义,可以导出下面同时计算负二项分布中未知参数(厂")的极大似然估计的MM 算法.
由公式(1)可知,对于给定的r.p的条件对数似然函数0(P I Y血,厂)为
/(〃I Y必,厂)=
c r+wrlog(p)+nr log(l—p)W LB(A)?(6)其中心为与p无关的常数.因此,给定厂的第/次迭代结果厂=厂⑺,根据公式(6)立即可得
另一方面,由公式(1)可知,给定p=p",r的条件对数似然函数Kr|Y必"⑺)为
(7)
0(厂丨Y血,p®)=
3)—??[log(厂⑺+jc)—log(r(/>)]•厂+01(厂)全Ar I W>),(8)其中,c®为与厂无关的常数,
n
=工log[r(q+/)/「&)].(9)
i=\
假设观测数据{乂,的最大值为S,记0〜s 的观测频数如下表1所示.
表1负二项分布观测数据及相应的频数
Tab.1Observed counts and corresponding frequencies of the negative binomial distribution
Hi012••S总计频数mo Ul2•'m s nx 注:s=maxiQw”,.
显然,nr=工;=严=AS
*
.更进一步,还有下述结论成立.
定理1由公式(9)定义的&G)等价于
幺(广)=工;“®l°g(r+j一1),(1°)其中,©=艺;=/"
*,)=1,…,s.
证明由于
如=o,f iog[r(j?,+厂)/『&)]=o,
•Zi=1,f log[r(x,+r)/r(r)]=log(r),
九=2,log[r(^z+r)/r(r)]=
log(r)+log(r+1),
不=3,f log[r(^,+r)/r(r)]=
log(r)+log(厂+1)+log(r+2),
乙=s,f log[r(*r,+r)/T(r)]=
log(r)+•••+log(r+5—1).
因此,
0\(r)=m x log(r)+
m2[log(r)+log(厂+1)]+
m3[log(r)+log(r+1)+log(r+2)]+•・•+