EM算法在删失数据分布和混合分布参数估计中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计与决策2011年第15期(总第339期

为容易,有些国家统计数据的获取则相对较难。从数据搜集的整体情况来看,能够搜集到的较为详尽的统计数据目前只有1995年到2008年数据,有些国家的数据已经更新到2009年,加上从有关互联网络获取的一些数据,我们完全能够获得足够的原始数据来支持本研究。为了很好地测度中国资源产业集群的发展水平,拟采用面板数据来进行分析,即既考虑区域间的横向对比,又考虑时间序列的纵向变化,因此本研究选用了各区域2003年至2008年的相关数据进行分析。考虑到数据的可获取性,所用数据都来源于《中国统计年鉴》、《中国互联网信息中心》、《国际统计年鉴》、《中国钢铁行业分析报告》、《世界统计年鉴》的2003年—2008年版。4

进行实证分析

因子分析法是用以测算指标权重的一项科学研究方法。本研究采用因子分析法对各区域的资源产业集群水平进行评估。因子分析法利用多元统计分析及线性代数,将多指标转化为少数几个指标,剔除了解释能力较弱的成分,通过对主因子的重点分析,达到对原始变量进行分析的目的。[4]其运用步骤如下:

第一步,将原始数据进行标准化处理,避免指标计量单位及数量级的影响;第二步,计算样本相关矩阵;第三步,求相关矩阵的特征值、特征向量及贡献率;最后,用每个主因子的贡

献率作权重,进行加权求和即得综合值。

评价指标体系内所有原始数据X 1,X 2…X 13的录入和分析工作均在SPSS 统计分析软件中完成。在SPSS 软件支持下,利用其数学运算功能,将选定的指标按照我们的研究需要进行相关处理,得出运算结果。我们在软件运算结果的基础上,得出评估结论。

通过上述分析过程,不仅可以测算出二级指标权重值α、β…ν,还将在计算机支持下高效准确地评估资源产业集群水平评价模型,不仅能测算出各区域的资源产业集群水平Y 值。还能通过Y 值的对比,得出各区域资源产业群集群发展水平的得分排名,并找出影响各自得分的原因所在,因此也能帮助我们找到影响中国资源产业集群水平的主因子。并在此基础上,采取针对性措施。

参考文献:

[1]张莉.我国软件产业集群发展水平评价指标体系研究[J].经济师,2008,(6).

[2]李瑾,秦向阳,马明远.县域信息化水平测度及对经济影响的实证研究[J].广东农业科学,2009,(10).

[3]蒋自强,史晋川.当代西方经济学流派[M].上海:复旦大学出版社,2008.[4]袁灵.湖南区域竞争力评价指标体系及其综合评估[J].湖南第一师范学报,2006,(1).

(责任编辑/浩天)

EM 算法在删失数据分布和混合分布参数估计中的应用

木拉提.吐尔德,胡锡健

(新疆大学数学与系统科学学院,乌鲁木齐830046)

要:EM 算法是一种迭代算法,主要采用后验分布的众数或极大似然估计,广泛的应用于删

失数据,截尾数据,成群数据,带有讨厌参数的数据等。文章介绍EM 算法,并对删失数据的对数正态分布参数估计和混合正态分布参数的极大似然估计进行了模拟,模拟结果表明对删失数据分布的参数估计和复杂的极大似然估计,EM 算法是有效的,估值精度满足要求。

关键词:极大似然估计;EM 算法;对数正态分布;混合正态分布中图分类号:O21

文献标识码:A

文章编号:1002-6487(2011)15-0161-03

基金项目:新疆大学科学基金资助项目(07020428008)1EM 算法

自从1977年丹穆斯特等人提出EM 算法

[1]

的概念,到目

前为止,EM 算法在生物、化学、物理、材料科学、医学、金融以及计算机科学中获得了广泛应用。EM 算法的每一次迭代都

有两步组成:E 步(求期望)和M 步(极大化)。记Y 为不完全

数据,Z 为潜在数据,以p (θ|Y )表示θ的基于观测数据的似然

密度函数,称为观测后验分布,以p (θ|Y ,Z )表示添加数据Z 后得到的关于θ的似然密度函数,称为增加后验分布。p (θ|Y ,Z )表示在给定θ和观测数据Y 下潜在数据Z 的条件密

度函数,这个条件密度函数不容易求出,在实际问题中常用

161

DOI:10.13546/ki.tjyjc.2011.15.011

统计与决策2011年第15期(总第339期

P (Y ,Z |θi )来代替(θi 表示给定第i+1次迭代开始时的似然函

数的估计值)。

E 步:在给定θi 和不完全数据Y 下的条件期望,从而把Z 积掉,即Ω(θ|θi ,Y )=E z [log p (θ|Y ,Z )|θi ,Y ]=∫log[p (θ|Y ,Z )]p (Z |θi ,Y )dZ

M 步:找一个点θi +1使Ω(θ|θi ,Y )极大化,即

Ω(θi +1|θi ,Y )=m θa x Ω(θ|θi ,Y ),如此形成了一次迭代θi →θi +1。将上述E 步和M 步进行迭代直至||θi +1-θi ||或||Ω(θi +1|θi ,Y )-Ω(θi |θi ,Y )||充分小就停止。

EM 算法在每一次迭代后均提高极大似然密度函数的值,具有良好的的全局收敛性[2]

,而且收敛速度较快的特性。

2

基于EM 算法的对数正态分布参数估计

2.1对数正态分布的EM 算法

如果生存时间变量服从对数正态分布,则其对数Y =ln T 服从正态分布。基于这个一关系,下面的分析中仅

考虑随机删失数据下正态分布的参数估计问题[3]

。假设我

们对真实数据Y =(y 1,…,y k +1,…,y n )做观测,

Y 服从正态分布。正态分布的密度函数为

f (t )

éëêêùûúú

-(t -μ)22σ2(1)

由于各种原因,Y 没有被观测到,观测到的只是Y 的函

数Z =(z 1,…,z k ,z +k +1,…,z +n ),其中z +k +1,…,z +n 表示数据

有删失。Y 与Z 有如下关系:

ìíîy j =z j j =1,…,k y j

≥z j j =k +1,…,n

(2)

我们需要在得到不完全数据Z 的情况下,使用EM 算法

估计模型参数θ=(μ,σ)。注意到

ln f (Y |θ)=-n ln 2π-n ln σ-12σ2∑j =1

n

(y i -μ)2

记μ*,σ*为第i+1次迭代开始时参数的估计值,由EM 算法,则第i+1次迭代的两步如下。

E 步:计算对数似然函数的条件期望:

Q (θ|θ*)=-n ln 2π-n ln σ-12σ

∑E [(y i -μ)2|z ,μ*,σ*]

(3)

为方便,对i =1,2…,以及j =k +1,…,对(3)式中的期望求和部分,我们有

∑j =1

n

E [(y i -μ)2|Z ,μ*,σ*]

=∑(z j -μ)2+∑

j +1n

∫ℑ

+∞

(y -μ)2f (y ,μ*,σ*)d y

∫ℑ

+∞

f (y ,μ*,σ*)d y

=∑j =1

k

(z j -μ)2+

∑j =j +1

n

(b ij -2μa ij +μ2)

(4)

M 步:求Q (θ|θ*)的最大值点。为此分别对μ和σ求偏导并令其为零,联立求得,

ìí

î

ïïïïïïïïμ(i +1)=1n æèççö

ø

÷÷∑j =1k z j +∑j =k +1n a ij σ(i +1)2=1n æèççöø÷÷∑j =1

k z 2j +∑j =i +1n b ij -nμ(i +1)2(5)

由此我们得到第i+1此迭代后的参数估计值。注意到如果没有数据删失即k=n 则a ij 和b ij 并不出现;另一方面,由(4)易知a ij ,

b ij 是在y i >z i 以及第i 步估计结果的条件下的条件期望和条件二阶矩,即

a ij =E (y |y >z j ,μ*,ω*)

b ij =E (y 2|y >z j ,μ*,σ*)进一步对i =1,2…以及j =k +1,…,n 记

τij

éëêêùû

úú-(z j -μ*)22σ*2(6)

通过一定的积分计算,由(6)容易得到a ij =τij +μ*,b ij =(z j +μ*)τij +σ*2+μ*2

由(6)式可以相应地写为

ìí

î

ïïïïïïïïμ(i +1)=1n éëêêù

û

úú∑j =1k z j +(n -k )μ*+∑j =k +1n τij σ(i +1)2=1n éëêêùûúú∑j +1k z 2j +(n -k )σ*2+μ*2∑j =k +1n (z j +μ*)τij -nμ(i +1)2(7)

由此,对服从对数正态分布的随机删失数据Z

͂基于EM 算法的参数估计过程可以用下面的算法表示。2.2算法

(1)Z =ln Z

͂初始化参数μ*,σ*,i=1;(2)对j =k +1,…n ;由(7)式计算τij 由式(6)计算

μ

(i +1)

(i +1)

(3)如果||

μ(i +1)

-μ*<ε1,并且|

|

σ

(i +1)

-σ*<ε2则

μ

̂=μ(i +1)

̂=σ(i +1)

,算法终止;否则i=i+1转到(2)。

2.3实例分析

下面是模拟产生的删失数据所占的比例为10%的20个

服从标准正态N =(0,1)的随机数,括号中的带星号数据是在相应位置的删失观测;

-0.5412,-1.3335,1.0727,-0.7121,-0.0113,-0.0008,-0.2494,0.3966,-0.2640,-1.6640,-1.0290,0.2431,(-0.5803*),-1.2566,-0.3472,-0.9414,(-1.4095*),1.1746,-1.0211,-0.4017,0.1737,-0.1161

由完全数据Y 使用极大似然方法得到的参数估计(μ̂d ,σ̂d )=(-0.4589,0.6847),而由删失数据Z 使用上面的算法的到参数估计为(μ

̂E ,σ̂E )=(-0.4421,0.6678)一般地,为评价算法的效果,我们定义如下标准。

定义:假设在算法的第1次运行中,每个θ

̂d 是由完全数据Y =(y 1,y 2,…,y n ),使用极大似然方法得到的参数估计,

θ̂E 是由删失数据使用EM 算法得到的参数估计,则两种估计结

162

相关文档
最新文档