聚类EM算法解读
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
k f ( xi | k , k )
K
k f ( xi | k , k )
k 1
N
易知nk vˆik
i 1
(2)
M 步:对(1)采用极大似然估计求参数 {k , k , k2}
k
1
N
N
vˆik xi
vˆik i1
i 1
2 k
1
N
N
vˆik ( xi k )2
vˆik i1
i 1
k
1’、样本标签已被隐藏,可假设隐藏标签已知,写出(对数)似然函数 表达式对隐藏的标签取期望后,再采用极大似然估计的均值与方差 ;
•给定N个观测样本,满足如下混合形式的概率:
K
p(x) k f (x | k , k ),
k 1
K
其中 k =1,f ( x | k , k )
k 1
1 exp( ( x k )2 )
k
1
N
N
vˆik xi
vˆik i1
i 1
2 k
1
N
N
vˆik ( xi k )2
vˆik i1
i 1
k
1 N
N
vˆik
i 1
4、返回第2步,直到各参数的值变化小于指定精度e
一般的EM算法
给定一组观测样本X {x1, x2 xn},其未观测到的向量为Z,
待估参数向量是: 1、给定迭代的初始向量,
2、假定Z已知写出(对数)似然函数
L( ) P( X | Z,)或log P( X | Z,);
3、E步:对未观测到的向量Z取期望得
Q( ) E(L( )) P( X | Z,)p(Z | );
Z
4、M步:关于Q( )求最大似然解,转2;
EM算法改进
关于初始点的选择
a) 初始值的获取可以通过k-means算法,层次聚类算法或者是对 数据进行随机的分割.[1]
i1 k 1
K
=
nk k
f
vik
( xi
|
k , k )
k 1
对数似然函数
K
n
log L( )= [nk logk vik ( log
k 1
i 1
1
2
Hale Waihona Puke Baidu
( xi k
2
2 k
)2
logk )]。
N
E步:关于隐藏标签vik(nk vik )取期望得
i 1
KN
N
E( log L( ))= [ E(vik ) logk E(vik )( log
2 k
2
2 k
求混合分布的三组参数
k
,
k
,
2 k
,
k
1
K
记隐藏标签为vik,当xi属于第k类时值为1,否则值为0。
于是第k类样本点数nk
N
vik,
i 1
且k
nK N
记 {k , k , k2}, 假定vik已知,则观测到上述N个样本点的似然函数
NK
L( )
[k f ( xi | k , k )]vik
例3:若例1中男女生数据混合无法区分,即只知总人数,试确定男女生 对应的均值与方差。
分析:该问题含两个正态分布,每个样本有2种参数需要估计: 第一、每个样本源于1还是2(隐藏的标签)? 第二、每一类样本的均值与方差?
1、若隐藏的标签已知,则由极大似然估计易得均值与方差; 2、 若均值与方差已知,则可以进一步调整样本标签;
)2
),
(
1,
1
)应使此概率(似然函数)最大。
n
亦等价于对数似然函数log L(1)= [log
i 1
1
2
(
xi 1)2 212
log1]最大。
n
n
xi
(xi 1)2
解得1=
i 1
n
,
2 1
=
i 1
n
.
例2:设某组零件的不合格率p,抽样n个零件,其中t个不合格零件, 试估计不合格率p。
解 : 设每次抽样是两点分布(整体两项分布B(1, p)),则似然函数
n
n
L( p) pxi (1 p)1xi , xi {1, 0},且 xi t
i1
i 1
n
对数似然函数log L( p)= xi log p (1 xi ) log(1 p)
i 1
求其最大值对应的p t n
EM(expectaion-maximization) 期望--最大化方法 混合Gauss模型
11
EM属于聚类算法,其主要缺点 1. 收敛速度慢; 2. 算法高度依赖初始值的选择.
12
例:
极大似然估计
例1:为了调查学校学生身高,随机抽样n个男生和m个女生,设身高 服从正态分布,试确定男女生对应的均值与方差。
解:设待估计参数k (k , k ), k 1, 2,则
p(x|k )
1
2 k
exp(
(x k
2
2 k
)2
)
抽到上述n个男生的概率是
n
L(1)
i 1
1
2
1
exp(
(
xi 1 212
b) 重复利用EM,CEM和SEM进行初始点的选择.[2]
[1] McLachlan, G.J. and Ng, S.K. (2008). The EM algorithm. [2] Christophe Biernachi,Gilles Celeux,Gerard
Govaert.(2003).Choosing starting values for the EM algorithm for getting the highest likelihood in multivariate Gaussian mixture models.
1 N
N
vˆik
i 1
EM算法流程:
1、任意给出高斯分布的参数,需要保证
K
k 1
k 1
2、Expectation 步:
vˆik
k
K
f
( xi
|
k , k
)
(第k类对第i个观测样本的响应度)
k f ( xi | k , k )
k 1
3、 Maximum 步:用最大似然估计重新估计均值、方差和权重。
k 1 i1
i 1
1
2
( xi k
2
2 k
)2
log k )](1)
令vˆik E(vik ) vik p(vik | xi , )
vik
vik
vik
p(vik
| ) p( xi | vik , ) p(xi | )
p(vik 1 | ) p(xi | vik 1, )
p(xi | )