最大期望值EM算法

合集下载

EM算法简介精品PPT课件

在EM算法正式提出以来，人们对EM算法的性质有更加深入的研究.并且在此基础上，提出了很多改进的算法.
在数理统计，数据挖掘，机器学习以及模式识别等领域有广泛的应用.
3
问题提出
给定一些观察数据y，假设y符合如下的高斯分布
K
p(y) kN(y|k,k). k1
需要求出混合高斯分布的三组参数 k,k,k
即
||i1 i || ||Q (i 1| i)Q (i|. i)||
重复上面两个步骤直至
或
充分小时，停止.
11
EM例子
• 有公式(1)(3)以及贝叶斯公式可得
p(Z|Y,,,)
∝
NK
[kN(yn|k,k)z]nk
n1 k1
其中N表示观察样本数.
• 公式中 znk 是未知的，需要求出它的期望
12
推论L 1(.M(假*设)) 存L在(一)些,
并
且Q (M ()|)Q (，|那么),有
a) k(x|y ,M ( ) )k(x|y , )
b)
c)
几乎处处成立.
17
GEM算法性质
推论2.对于一 , ,L ()L ()
些
，其中
，
那么对于GEM算M 法有().
(p), p0,1,2,...
EM的M-step可能比较复杂
• M-step
定义映M射()
Q (M ( 满)|) Q (|)
足,其中是参数空 . 间，
i1 M(
即
16
GEM算法性质
引理1.
对于任意 (',一 ) 对 ,其参中是数参数空间，
H ('|)H (|),
4
问题简化

最大期望值EM算法

最大期望值EM算法最大期望值(Expectation-Maximization, EM)算法是一种统计学习方法，用于解决带有隐变量的概率模型参数估计问题。

EM算法的主要思想是通过迭代求解局部最优解，并且能够保证每次迭代过程中目标函数值不减。

EM算法广泛应用于数据挖掘、图像处理、自然语言处理等领域，在金融、医学和社会科学等领域也有许多实际应用。

本文将对EM算法的基本原理、迭代过程、理论基础和应用进行详细介绍。

一、基本原理EM算法是一种迭代算法，包含两个步骤：E步和M步。

其中，E步是求期望(expectation)的过程，用于更新隐变量对观测数据的条件概率分布；M步是求最大化(maximization)的过程，用于更新模型的参数。

通过不断交替进行E步和M步，直到收敛为止，即可得到最优的参数估计。

二、迭代过程1.初始化参数：随机给定模型参数的初始值。

2.E步：根据当前参数估计，计算隐变量对观测数据的条件概率分布。

3.M步：根据当前隐变量的条件概率分布，最大化观测数据的对数似然函数，更新模型的参数估计。

4.计算目标函数值：根据当前参数估计，计算目标函数的值。

5.判断是否满足停止条件：如果满足停止条件，则算法结束；否则，返回第2步。

三、理论基础EM算法基于两个基本定理：数据的似然函数下界和KL散度的非负性。

1.数据的似然函数下界：对于给定的观测数据，EM算法通过求解数据的似然函数的下界来进行参数估计。

这个下界是通过引入隐变量来扩展数据模型得到的，因此可以利用EM算法求解。

2.KL散度的非负性：KL散度是衡量两个概率分布之间的差异程度的指标。

在EM算法中，通过最大化观测数据的对数似然函数来更新模型的参数，相当于最小化KL散度。

四、应用领域EM算法在许多领域都有广泛的应用。

以下是一些典型的应用实例：1.聚类分析：EM算法可以用于高斯混合模型的参数估计，从而实现聚类分析。

2.隐马尔可夫模型(HMM)：EM算法可以用于HMM模型参数的估计，应用于自然语言处理、语音识别等领域。

em算法

最大期望算法（Expectation-Maximization algorithm, EM），或Dempster-Laird-Rubin算法，是一类通过迭代进行极大似然估计（Maximum Likelihood Estimation, MLE）的优化算法，通常作为牛顿迭代法（Newton-Raphson method）的替代用于对包含隐变量（latent variable）或缺失数据（incomplete-data）的概率模型进行参数估计。

EM算法的标准计算框架由E步（Expectation-step）和M步（Maximization step）交替组成，算法的收敛性可以确保迭代至少逼近局部极大值。

EM算法是MM算法（Minorize-Maximization algorithm）的特例之一，有多个改进版本，包括使用了贝叶斯推断的EM算法、EM梯度算法、广义EM算法等。

由于迭代规则容易实现并可以灵活考虑隐变量，EM算法被广泛应用于处理数据的缺测值，以及很多机器学习（machine learning）算法，包括高斯混合模型（Gaussian Mixture Model, GMM）和隐马尔可夫模型（Hidden Markov Model, HMM）的参数估计。

EM算法是一种迭代优化策略，由于它的计算方法中每一次迭代都分两步，其中一个为期望步（E步），另一个为极大步（M步），所以算法被称为EM算法（Expectation-Maximization Algorithm）。

EM算法受到缺失思想影响，最初是为了解决数据缺失情况下的参数估计问题，其算法基础和收敛有效性等问题在Dempster、Laird和Rubin三人于1977年所做的文章《Maximum likelihood from incomplete data via the EM algorithm》中给出了详细的阐述。

其基本思想是：首先根据己经给出的观测数据，估计出模型参数的值；然后再依据上一步估计出的参数值估计缺失数据的值，再根据估计出的缺失数据加上之前己经观测到的数据重新再对参数值进行估计，然后反复迭代，直至最后收敛，迭代结束。

EM学习

m (i )

我们知道： L( ) J (Q, ) 坐标上升法：

E步：固定θ，优化Q M步：固定Q，优化θ 交替将极值推向最大

EM就是迭代的最大似然估计
三、 EM算法的特点

优点：

数值稳定，每次迭代都单调增加似然函数值迭代花销少，易于编程实现，易于应用，易于拓展

循环依赖：
先有“鸡” Or 先有“蛋”
三、EM算法
如何解决：

循环依赖：总得有一方要先打破僵局，说，不管了，我先随便整一个值出来，看你怎么变，然后我再根据你的变化调整我的变化，然后如此迭代着不断互相推导，最终就会收敛到一个解。
EM算法基本思想：

假设我们想估计知道A和B两个参数如果知道了A的信息就可以得到B的信息，反过来知道了B也就得到了 A。可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，这个过程一直持续到收敛为止。

三、EM算法
EM算法（Expectation-maximization）：

期望最大算法是一种从不完全数据或有数据丢失的数据集（存在隐含变量）中求解概率模型参数的最大似然估计方法。 EM的算法流程: 初始化分布参数θ ；重复直到收敛：

E步骤:根据参数初始值或上一次迭代的模型参数来计算出隐性变量的后验概率，其实就是隐性变量的期望。作为隐藏变量的现估计值
这个人是男的还是女的？男生和女生对应的身高的高斯分布的参数是多少？
三、EM算法
分析：

只有当我们知道了哪些人属于同一个高斯分布（即同属于一个类别）的时候，我们才能够对这个分布的参数作出靠谱的预测反过来，只有当我们对这两个分布的参数作出了靠谱的估计的时候，才能知道到底哪些人属于第一个分布，哪些人属于第二个分布。

EM算法

P x i , z i ; C Q i z i
i i z i z i
(i ) Q ( z Z i ) 1 Qi ( z ) 0

Q i 表示隐含变量Z的某种分布，Qi 满足的条件是
z P x i , z i ; C

EM算法
i i z(i )
EM算法
(i ) (i ) (i ) ln p ( x ; ) ln p ( x , z ; ) i i 种分布，Qi 满足的条件是
(i ) Q ( z Z i ) 1 Qi ( z ) 0
p ( x ( i ) , z ( i ) ; ) ln Qi ( z ) (i ) ( i ) Q ( z ) i z i
根据数学期望的相关定理：E[ f ( X )] f ( xi ) p( xi )
p ( x , z ; ) p ( x ( i ) , z ( i ) ; ) (i ) Q ( z ) 是 ( z )的数学期望 i (i ) Qi Qi ( z ) z(i ) p ( x ( i ) , z ( i ) ; )
(i ) (i ) (i )
i
ln(E[
i
Qi ( z )
(i )
])
(3)
EM算法
根据Jensen不等式：
f ( x) ln x是凹函数 f ( EX ) E f ( x)
lnE[ X ] Eln X
p( x ( i ) , z ( i ) ; ) ln(E[ ]) (i ) Qi ( z ) i (3)
至与此 t 对应的L t 的值相等。

只有当此时的下界等于当前的对数似然函数时，我才能保证当我优化这个下界的时候，才真正优化了目标函数。

EM算法详细例子+推导

首先来明确一下我们的目标：我们的目标是在观察变量 X 和给定观察样本 x1, x2, ..., xn 的情况下，极大化对数似然函数
∑n
l(θ) = ln P (Xi = xi)
(5)
i=1
其中只包含观察变量的概率密度函数
∑
P (Xi = xi) = P (Xi = xi, Z = zj)
(6)
j
1这里因为参数 θ 的写法与条件概率的写法相同，因此将参数 θ 写到下标以更明确的表述
如果我们这个时候有某种方法（比如，正确的猜到每次投掷硬币是 A 还是 B），这样的话我们就可以将这个不完整的数据估计变为完整数据估计。
当然我们如果没有方法来获得更多的数据的话，那么下面提供了一种在
这种不完整数据的情况下来估计参数 θ 的方法。我们用迭代的方式来进行：
(1) 我们先赋给 θ 一个初始值，这个值不管是经验也好猜的也好，反正我们给它一个初始值。在实际使用中往往这个初始值是有其他算法的结果给出的，当然随机给他分配一个符合定义域的值也可以。这里我们就给定 θA = 0.7, θB = 0.4
1
1 简介
期望最大化 (Expectation Maximization) 算法最初是由 Ceppellini[2] 等人 1950 年在讨论基因频率的估计的时候提出的。后来又被 Hartley[3] 和 Baum[4] 等人发展的更加广泛。目前引用的较多的是 1977 年 Dempster[5] 等人的工作。它主要用于从不完整的数据中计算最大似然估计。后来经过其他学者的发展，这个算法也被用于聚类等应用。
2 一个例子 [6]
本章节希望通过一个例子来解释期望最大化算法的来由以及合理性。
考虑一个投掷硬币的实验：现在我们有两枚硬币 A 和 B，这两枚硬币和普通的硬币不一样，他们投掷出正面的概率和投掷出反面的概率不一定相

最大期望算法

EM算法--数学基础
1 .极大似然估计：
设总体样本X为一个离散型随机变量，概率函数为 P(X=x)=f(x,θ),x=0,1,2,...,n,其中θ为未知参数，X1,X2,...Xn是来自总体X 的样本，x1,x2,...,xn是来自总体X的样本的一组观察值。则参数θ的取值应该使得概率 P(X1=x1,X2=x2,...,Xn=xn) =P(X1=x1)P(X2=x2)...P(Xn=xn) =∏(i=1,2,...,n)f(xi,θ) 取最大值。我们称θ的函数 L(θ)=∏(i=1,2,...,n)f(xi,θ) 为θ的似然函数。
i1
1 p q 1 q s p 1 p 1 s
si pi
i yj 1 y j i i yj 1 y j i i yj
1 y j
M步：计算模型参数的新估计值
p
i
1

j 1 n j 1
L(θ)-- L(θ(i))=㏒(∑zP(Y|Z,θ)P(Z|θ))--㏒P(Y|θ(i))
利用JenSen不等式得到其下界：
L(θ)-- L(θ(i))=㏒源自∑zP(Y|Z,θ)P(Z|θ))--㏒P(Y|θ(i)) =㏒((∑zP(Y|Z,θ)P(Z|θ))|P(Y|θ(i)) >=∑zP(Z|Y,θ(i))㏒(P(Y|Z,θ)P(Z|θ)/P(Z|Y,θ(i)P(Y|θ(i)))) 令 B(θ,θ(i))= L(θ(i))+∑zP(Z|Y,θ(i))㏒(P(Y|Z,θ)P(Z|θ)/P(Z|Y,θ(i))P(Y|θ(i)) 则 L(θ)>=B(θ,θ(i))
EM算法--简介
1 .背景介绍：
EM算法最初是由Ceppellini等人1950年在讨论基因频率的估计的时候提出的。后来又被Hartley[3]和Baum[4]等人发展的更加广泛。目前引用的较多的是1977年Dempster[5]等人的工作。它主要用于从不完整的数据中计算最大似然估计。后来经过其他学者的发展，这个算法也被用于聚类等应用。它是一种迭代算法，用于含有隐变量（latent variable）的概率参数模型的最大似然估计或极大后验概率估计。它可以从非完整数据集中对参数进行估计，是一种非常简单实用的学习算法。这种方法可以广泛地应用于处理缺损数据，截尾数据，带有噪声等所谓的不完全数据(incomplete data)。

em算法

em算法是指期望最大化算法（期望最大化算法，也翻译为期望最大化算法），是一种迭代算法，用于包含潜在变量概率估计的概率参数模型的最大似然估计或最大后验。

在统计计算中，最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。

最大期望经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。

最大期望算法经过两个步骤交替进行计算:第一步是计算期望(E)，利用概率模型参数的现有估计值，计算隐藏变量的期望;第二步是最大化(M)，利用E 步上求得的隐藏变量的期望，对参数模型进行最大似然估计。

M 步上找到的参数估计值被用于下一个E 步计算中，这个过程不断交替进行。

总体来说，EM的算法流程如下:1.初始化分布参数2.重复直到收敛:E步骤:估计未知参数的期望值，给出当前的参数估计。

M步骤:重新估计分布参数，以使得数据的似然性最大，给出未知变量的期望估计。

迭代使用EM步骤，直至收敛。

可以有一些比较形象的比喻说法把这个算法讲清楚。

比如说食堂的大师傅炒了一份菜，要等分成两份给两个人吃，显然没有必要拿来天平一点一点的精确的去称分量，最简单的办法是先随意的把菜分到两个碗中，然后观察是否一样多，把比较多的那一份取出一点放到另一个碗中，这个过程一直迭代地执行下去，直到大家看不出两个碗所容纳的菜有什么分量上的不同为止。

EM算法就是这样，假设我们估计知道A和B两个参数，在开始状态下二者都是未知的，并且知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。

可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，这个过程一直持续到收敛为止。

EM 算法是Dempster，Laind，Rubin 于1977 年提出的求参数极大似然估计的一种方法，它可以从非完整数据集中对参数进行MLE 估计，是一种非常简单实用的学习算法。

EM算法简介

GMM中的EM算法

高斯分布：代入高斯分布的密度函数，计算得到如下的迭代公式：第t次的估计为则第t+1次的估计为
GMM中EM算法的迭代过程

GMM_EM求的参数为 (0.5958,-2.0767,1.9973,0.4042,2.9956,1.0044) 答案为 ( 1 , 1 , 1 , 2 , 2 , 2 ) ( 0 . 6 , 2 , 2 , 0 . 4 , 3 ,1) 调用的接口为： estS = gmmb_em(rawdata', 'init', 'cmeans1', 'components', 2, 'thr', 1e-8); Matlab程序包的网址： http://www.it.lut.fi/project/gmmbayes/downloads/src/gmmbayest b/gmmbayestb-v1.0.tar.gz
极大似然估计(MLE)
独立同分布(IID)的数据 ( X , X , , X 其概率密度函数为 f ( x | ) 似然函数定义为 L ( | ) f ( | ) f ( X | ) log似然函数定义为l ( | ) log L ( | )
f ( X i , Yi | ) f ( X i , Yi | ) f ( X i | Y i , ) f ( Y i | ))

log
i 1 n

log(
i 1
EM—Expectation
观测数据X已知，参数的当前值已知，在完整似然函数中，缺失数据(隐含变量) Y未知，完整log似然函数对Y求期望。定义

EM算法

Company Logo
背景及简介
EM 算法经过两个步骤：第一步是计算期望（E），利用对隐藏变量的现有估计值，计算其最大似然估计值第二步是最大化（M），最大化在 E 步上求得的最大似然值来计算参数的值。通过对以上两步的不断交替迭代，当结果收敛到某一值时终止迭代

Company Logo
举例
经过29步迭代数据就已基本收敛，最终结果如下

Company Logo
Contents
1 2 3
背景及简介算法及实举例改进算法
4

Company Logo
改进算法
MCEM算法：
在某些情况下，EM算法的E-Step有可能会很复杂，或者没有解析解，在这种情况下可采用蒙特卡洛的方法来近似求解由于MC的方法引入MC误差，因此EM算法的单调性质丢失，但在某些情况下， MCEM算法可以以很高的概率接近最优解
Company Logo
Company Logo
Contents
1 2 3
背景及简介算法及实举例改进算法
4

Company Logo
举例
在此以混合高斯分布为例，对该算法进行进一步说明混合分布的概率密度函数可表示为：

Company Logo
算法及实现
理论上已经证明每次迭代都是数值稳定的，且满足即每次迭代均可使似然值增加。在某些情况下我们通过EM算法得到的仅是局部最优解，为了得到全局最优解，我们通常采用广义的EM算法（GEM），就是在M-Step估计时应满足Q函数增加，即：
它主要解决以下几个问题:EM算法初值设置、规定标准差、选择混合分布的个算法及实现

em算法

em算法EM算法是英文expectation-maximization算法的英文简写,翻译过来就是期望最大化算法,其实是一种根据求参的极大似然估计的一种迭代的优化策略,EM算法可以广泛估计是因为他可以从非完整的数据集中对于参数进行极大似然的估计,这样的方法对于处理残缺数据,截尾数据和一些带有噪声的数据来说是很有效的.在写这篇文章之前,我看了很多篇博客,学习了很多的知识,也参照了很多的资料,希望可以从EM算法的迭代优化理论和一般的步骤中出发,然后能够举一个例子来使我们理解这个EM算法,然后在对其收敛性进行证明,目的是为了说明EM算法每一次迭代都是能够提高似然函数值然后收敛到一个稳定的点,再引出EM算法的收敛速度.大概通过上述部分,我们可以得到基于其简单,收敛,稳定上升的优势,但是也会产生一些缺点,比如收敛速度过慢的加速方法等,在第二篇文章中将会介绍这个处理缺点的方法,然后会写一些关于EM算法的重要应用,包括EM算法在二元正态分布上的参数估计的应用,混合高斯分布参数估计方面的应用,以及EM算法在隐马尔科夫模型上参数的应用(一种EM算法的特殊情形),希望通过这一系列的文章可以让大家理解好EM算法的明显优势以及原理,让我们开始吧!背景:极大似然估计和贝叶斯统计其实是作为现在的统计领域中非常热门的领域了,其实来说他们的计算过程是有一定的相似成分的,比如极大似然函数估计在计算的方法上跟贝叶斯的后验概率的计算是非常相似的,学过统计学习的我们知道,贝叶斯是分为两种的大类的,一种是拥有显式的后验分布,这样的一般用于简单的似然函数,另外一种是数据添加的算法,有些时候我们的数据可能会存在缺失或者是似然函数不是显性的,数据添加类在这时候就可以很好的应用,他可以将已经观测到的数据基础上加上一些”潜在数据”,从而使得变得更简单,完成极大化的工作,然后我们常用的一种数据添加法其实就是我们今天介绍的EM算法.EM算法是一种迭代的优化策略,他的计算方法是分为期望步(E步)和极大步(M 步)的,所以这个算法的名字是这样来的,EM算法受到了缺失算法的影响,最初就是为了解决上边提到的数据缺失的问题,基本的思想就是首先根据已经观测出来的数据估计出模型参数的值,然后再根据上一步估计出的参数值来估计缺失数据的值,然后再根据估计中缺失的数据加上之前的已经观测到的数据重新在对参数值进行估计,然后反复的进行迭代,直到最后收敛,迭代结束.而现在EM算法发展了几十年了,在当时的数据快速增长得那个时代,那时候处理数据很困难,经常会出现数据缺失或者不可用的情况,当时无非就是用用神经网络拟合,添补法,卡尔曼滤波法等等,但是最后还是EM脱颖而出,最主要还是他的算法步骤简单,稳定上升可以很可靠的找到最优的收敛值,但是运用这种思想,我们拓展到了简化问题策略,有时候缺失数据并非真的缺少了,这时候EM引入恰当的数据添加技术,这样的数据被称为”潜在数据”,复杂问题通过引入潜在数据,能够有效的解决我们的问题“潜在数据”可以解释为数据本身并不存在缺失变量，但观察数据比较难以处理，如果添加上额外的变量，处理起来会变得比较简单。

最大期望算法（Expectation-Maximizationalgorithm，EM）

最⼤期望算法（Expectation-Maximizationalgorithm，EM）最⼤期望算法(Expectation-Maximization algorithm，EM) 最⼤期望算法，也被译作最⼤化算法（Minorize-Maxization,MM）,是在概率模型中寻找参数最⼤似然估计或者最⼤后验估计的算法，其中概率模型依赖于⽆法观测的隐性变量。

最⼤期望算法就是E-step和M-step交替进⾏计算，直⾄满⾜收敛条件。

所以它是⼀种迭代算法。

EM算法适⽤场景：当数据有缺失值时，即数据不完整时。

还有很多机器学习模型的求解经常⽤到Em，⽐如GMM（⾼斯混合模型）、HMM（隐马尔科夫模型）等等。

⼀、EM算法的⼴义步骤 E-step:利⽤可⽤的数据来估算（猜测）潜在变量的值； M-step：根据E步骤中⽣成的估计值，使⽤完整的数据更新参数。

要证明其收敛，就是要证明当θ(t)→θ(t+1)，P(X|θ(t))→P(X|θ(t+1))时P(X|θ(t))≤P(X|θ(t+1))。

EM(最大期望算法)极大似然估计PPT课件

• 原理：一个随机试验如果有若干个可能的结果A， B，C，…。若在一次试验中，结果A出现，则一般认为试验条件对A出现有利，也即A出现的概率很大
• 思想：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值
极大似然估计
设总体X是离散型随机变量，其分布中含有未知参数θ，设x （x1，x2.....xn）是取自总体X的一个样本，（x1，x2.....xn）是其观察值。则取到这组样本观察值的概率是：
的概率分别为
令z1和y1-z1分别表示落入这两部分的次数；再假设第
三种结果分成两部分，其发生的概率分别为
令z2和y3-z2分别表示落
入这两部分的次数。显然z1,z2是我们认为引入的，它是不可观测的，数据
（y , z）为完全数据，而观测到的数据称之为不完全数据，此时完全数据
的似然函数为：
EM算法
Expectation-maximization algorithm
定义似然函数为：
这里x1，x2.....xn是观测值，且独立同分布，L(θ) 看做参数θ的函数，它可作为θ已多大可能性产生样本值X1，X2，....Xn的一种度量
极大似然估计
最大似然估计法就是使用L（θ）达到最大值的去估计θ
称为θ的最大似然估计值。而相应的统计量θ（X1， X2，....Xn）称为θ的最大似然估计量。同理，设总体X是连续型随机变量，密度函数为f(x;θ), 其中θ为未知参数，则定义似然函数为：
极大似然估计
上式，其中x1，x2.....xn是样本观察值，
称为θ的最大似然估计值。而相应的统计量θ（X1，X2，....Xn）称为θ的最大似然估计量。

机器学习中的EM算法详解及R语言实例

机器学习中的EM算法详解及R语言实例最大期望算法（EM）来自WXin gong zhong 号datadwK均值算法非常简单（可参见之前发布的博文），详细读者都可以轻松地理解它。

但下面将要介绍的EM算法就要困难许多了，它与极大似然估计密切相关。

1 算法原理不妨从一个例子开始我们的讨论，假设现在有100个人的身高数据，而且这100条数据是随机抽取的。

一个常识性的看法是，男性身高满足一定的分布（例如正态分布），女性身高也满足一定的分布，但这两个分布的参数不同。

我们现在不仅不知道男女身高分布的参数，甚至不知道这100条数据哪些是来自男性，哪些是来自女性。

这正符合聚类问题的假设，除了数据本身以外，并不知道其他任何信息。

而我们的目的正是推断每个数据应该属于哪个分类。

所以对于每个样本，都有两个需要被估计的项，一个就是它到底是来自男性身高的分布，还是来自女性身高的分布。

另外一个就是，男女身高分布的参数各是多少。

既然我们要估计知道A和B两组参数，在开始状态下二者都是未知的，但如果知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。

所以可能想到的一种方法就是考虑首先赋予A某种初值，以此得到B的估计，然后从B的当前值出发，重新估计A的取值，这个过程一直持续到收敛为止。

你是否隐约想到了什么？是的，这恰恰是K均值算法的本质，所以说K均值算法中其实蕴含了EM算法的本质。

EM算法，又称期望最大化（Expectation Maximization）算法。

在男女身高的问题里面，可以先随便猜一下男生身高的正态分布参数：比如可以假设男生身高的均值是1.7米，方差是0.1米。

当然，这仅仅是我们的一个猜测，最开始肯定不会太准确。

但基于这个猜测，便可计算出每个人更可能属于男性分布还是属于女性分布。

例如有个人的身高是1.75米，显然它更可能属于男性身高这个分布。

据此，我们为每条数据都划定了一个归属。

接下来就可以根据最大似然法，通过这些被大概认为是男性的若干条数据来重新估计男性身高正态分布的参数，女性的那个分布同样方法重新估计。

em算法

Em算法，是指期望最大化算法，是一种迭代算法，用于统计中，以找到概率模型中参数的最大似然估计，该估计依赖于不可观察的隐藏变量。

EM算法由dempster，laind和Rubin于1977年提出，是一种非常简单实用的学习算法，可以通过MLE从不完整的数据集中估计参数。

此方法可广泛用于处理不完整的数据，例如缺陷数据，截断的数据和嘈杂的数据。

可能会有一些生动的隐喻可以清楚地解释该算法。

例如，食堂的厨师炒了一道菜，不得不将它分成两部分，以便两个人一起吃。

显然，没有必要以很小的平衡来精确称量它。

最简单的方法是将一个盘子随机分成两个碗，然后观察是否有很多盘子，然后再取其中的一些放到另一个碗中。

这个过程是反复进行的，直到每个人都看不到两个碗中所盛菜肴的重量差异。

EM算法就是这样。

假设我们知道两个参数a和b，它们在初始状态下是未知的。

如果我们知道a的信息，那么我们可以得到b的信息，如果我们知道b，那么我们可以得到a。

可以考虑给定某个初始值以获得b的估计值，然后从b的当前值重新估计a的值，直到当前值收敛为止。

在统计中，最大期望（EM）算法是一种算法，用于根据概率模型中的参数来找到参数的最大似然估计或最大后验估计。

在机器学习和计算机视觉的数据集群领域中经常使用最大期望值。

EM算法及其应用实例

Gaussian Mixture Model -Generative Model
Gaussian Mixture Model-Generative Model
Gaussian Mixture Model-Generative Model
Gaussian Mixture Model-Generative Model
Probabilistic Latent Semantic Analysis Model -Generative Model • 问题提出 • 如果时间回到2006年，马云和杨致远的手还会握在一起吗/阿里巴巴集团和雅虎就股权回购一事签署了最终协议
• 讲解：两个文本的完全不相关，但是事实上，马云和阿里巴巴集团，杨致远和雅虎有着密切的联系，从语义上看，两者都和“阿里巴巴"有关系。
几个EM应用实例
• Gaussian Mixture Model • Probabilistic Latent Semantic Analysis Model • Latent Dirichlet Allocation Model
Gaussian Mixture Model-Generative Model
The LC Cluster Models
• Includes a K-category latent variable, each category representing a cluster. • Each cluster contains a homogeneous group of persons(cases) who share common interests, values, characteristics, and/or behavior(i.e. share common model parameters). • Note: Advantages over more traditional ad-hoc types of cluster analysis methods include selection criteria and probability-based classification. Posterior membership probabilities are estimated directly from the model parameters and used to assign cases to the modal class – the class for which the posterior probability is highest.

EM算法简介

9
(4) (5) (6) (7)
EM算法
定义函数 H (φ ' | φ ) = E (log(k ( x | y, φ ' )) | y, φ ) 则有(4),(5),(7)式可得 Q(φ ' | φ ) = L(φ ' ) + H (φ ' | φ )
(8) (9)
10
EM算法
目的：计算后验分布 g ( y | φ ) 的众数.
17
GEM算法性质
推论2.对于一些 ∈ , 那么对于GEM算法有
φ
φ ∈ , L(φ ) ≥ L(φ ) ，其中 φ ≠ φ ，
M (φ ) = φ .
定理2.假设 φ , p = 0,1,2,... 是GEM算法的一个迭代序列，并且满足 ( p) a) 在闭包中φ 收敛到 φ ， b) D10Q (φ ( p +1) | φ ( p ) ) = 0 ， c) D 20Q (φ ( p +1) | φ ( p ) ) 负定的，并且特征值都远离0. 那么
11
EM例子
有公式(1)(3)以及贝叶斯公式可得 p ( Z | Y , , Σ, π ) ∝
[π k N ( yn | k , Σ k )]znk ∏∏
n =1 k =1 N K
其中N表示观察样本数. 公式中 z nk 是未知的，需要求出它的期望
12
Z nk 的期望估计
E ( z nk | yn ) = ∑ z nk p( z nk | yn )
根据(12)式 (13) Jamshidian和Jenrish（1993）指出Aitken方法等价于运用Newton-Raph son方法来找 δ (θ ) = M (θ ) θ 的根.

EM算法详细例子+推导

M 步骤极大化 Q，往往这一步是求导，得到由旧的 θ 值 θ′ 来计算新的 θ 值的
公式
∂Q
=0
(4)
∂θ
总结一下，期望最大化算法就是先根据参数初值估计隐藏变量的分布，然后根据隐藏变量的分布来计算观察变量的似然函数，估计参数的值。前者通常称为 E 步骤，后者称为 M 步骤。
3 数学基础 [7]
∑n
∑
f ( λixi) ≤ nλif (xi))2
(8)
i=1
i=1
对于严格凸函数，上面的等号只有在 x1 = x2 = ... = xn 的时候成立。关于凸函数的其他性质不再赘述。对数函数是一个严格凸函数。因而我们可以
有下面这个结果：
l(θ)
=
∑n ln ∑ αj P (Xi
i=1
j
=
xi, Z αj
=
zj )
≥
∑n ∑ αj
i=1 j
ln
P (Xi
=
xi, Z αj
=
zj )
(9)
现在我们根据等号成立的条件来确定 αj 即
P (Xi = xi, Z = zj) = c
(10)
αj
其中
c
是一个与
j
无关的常数。因为
∑
j
αj
=
1，稍作变换就可以得到
αj
=
P (Xi = xi, Z = P (Xi = xi)
期望最大化算法
binary_seach December 3, 2012
Contents
1 简介
2
2 一个例子 [6]
2
3 数学基础 [7]
4
3.1 极大似然估计 [1] . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

9
期望最大化思想
利用当前参数值计算数据j 由第i个类生成的概率
N
收敛？
Y
最后参数值
10
期望最大化思想

11
期望最大化思想

EM
12
期望最大化思想

13
期望最大化思想

14

这里有10个样例，每个样例两个特征, 第一步，分别求x和y的平均值，然后对于所有的样例，都减去对应的均值。
15
16
期望最大化推导
17
Convex functions

Definition 1
琴生不等式
若对于[ a，b ]内任意两点x1和x2，且任意λ ∈ [0, 1] 都满足 f (λx1 + (1 - λ)x2) ≤ λf(x1) + (1 - λ)f(x2) 通常称函数f(x)在区间（a，b）内是“下凸函数”。特别情形取λ=1/2
期望最大化算法
汇报人：喻定

目录

期望最大化思想期望最大化推导
2
最大化似然估计
在已知试验结果（即是样本）的情况下，用来估计满足这些样本分布的参数，把可能性最大的那个参数作为真实的参数估计。目的：根据样本值估计参数=>模型=>结果例如：money= k1*x+k2*y+k3*z X:面积 y:地段 z:楼层 k:参数 money:房价根据某一单元的10户房的样本x,y,z,money 。根据已知10组数据用最大似然法求出k1,k2,k3这三个参数为0.6，0.3，0.1，得出模型套用模型 money = 0.6*x+0.3*y+0.1*z 只要知道小区里某个房子的面积、地段、楼层=>房价 3
期望最大化推导

19
期望最大化推导
固定其他参数θ后，Qi(z (i))的计算公式就是后验概率
20
期望最大化推导

21
期望最大化推导

假定θ(t) 和θ(t+1)是EM第t次和t+1次迭代后的结果。选定θ (t) 后，我们得到E步

Jensen不等式中的等式成立
22
期望最大化推导

琴生不等式
E步求出来的L(θ(t))
23
期望最大化推导
一种收敛方法是l(θ)不再变化，还有一种就是变化幅度很小。那么最终我们会到达最大似然估计的最大值。

24
谢谢
25

最大化似然估计

此表达式不是条件概率，因为此时参数看作变量
4
最大化似然估计
求最大似然函数估计值的一般步骤：（1）写似然函数；（2）取对数；（3）求导数，令导数为0，得到似然方程；（4）解似然方程，得到的参数即为所求。

5
期望最大化思想
机器学习十大算法之一——期望最大化算法(EM) 用来干嘛的？——解决参数估计问题

7
期望最大化思想

K-means聚类例子
期望步（E-步）：给定当前的簇中心，每个对象都被指派到簇中心离该对象最近的簇，期望每个对象都属于最近的簇。最大化步（M-步）：对于每个簇，算法调整其中心，使得到该新中心的距离之和最小化。将指派到一个簇的对象的相似度最大化。
8
期望最大化思想
GMM混合高斯模型例子：班上学生的身高就是一个GMM混合高斯模型，由男生身高的高斯分布和女生身高的高斯分布组成。估计每个样例是男生还是女生=>分别估计均值和方差。

EM很简单，简单在于它的思想，仅包含了两个步骤就能完成强大的功能；（E步骤， M步骤） EM又很复杂，复杂在于它的数学推理涉及到比较繁杂的概率公式等。（凸函数，琴生不等式，拉格朗日中值定理，贝叶斯，最大似然估计等）
6

期望最大化思想

EM算法是一种有效的迭代过程。 EM
E步骤：根据上一次迭代的参数来计算出隐藏变量的后验概率，其实就是隐藏变量的期望。=> p(θ|x)值 =>p( z |x,θ) M步骤：将似然函数最大化以获得新的参数值。估计的模型参数使得观察的数据出现概率是最大的。=> 更新θ值 EM算法有很多的应用，最广泛的就是clustering、GMM、HMM等等。