EM算法在高斯混合模型中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
EM 算法在高斯混合模型中的应用
1.定义
对于一个随机信号生成器,假设他的模型参数为Θ,我们能观测到的数据输出为X ,不能观测到的数据输出为Y ,且随机系统模型结构的概率密度函数为
(,|)p x y Θ (1)
能够观测到的一部分数据输出数据12{,,...,}N x x x ,模型的另一部分输出数据 未知,模型的参数Θ也未知。EM 算法就是要求我们从观测数据12{,,...,}N x x x 中估计出参数Θ。 2.EM 算法的描述
假设每一对随机系统的输出样本(,)n n x y 对于不同的n 相互独立,这样当
(,,)p x y Θ,x 和y 都已知的情况下,概率(,,)p x y Θ也已知。未观测的输出y 的概率分布也属于待求参数Θ。
根据独立性假设有:
1(,|)(,|)N
n n n p x y p x y =Θ=Θ∏ (2)
3.EM 算法的基本思路
基本问题是求解下面的方程的解:
arg max (,|)p x y Θ=Θ (3) 由于X 是确定量,Y 是未知的,因此即使给定了Θ,也无法求得(,|)p x y Θ的值,因此我们只能退一步求:
arg max (|)p x Θ=Θ (4)
其中
(|)(,|)[(|),(|,)]y Y y Y p x p x y p y p x y ∈∈Θ=Θ=ΘΘ∑∑ (5) 表示考虑了未知数据y 的所有可能的取值Y 后对(|,)p x y Θ求平均值。 最后根据log 函数的单调性得到(4)的等效形式:
arg max log (|)p x Θ=Θ (6) 对于(6)给出的最优化问题,考虑用下面的递推算法解决,即:先给定一个估值k Θ并计算(|)k p x Θ,然后更新k Θ得到1k +Θ并且有
1log (|)log (|)k k p x p x +Θ>Θ (7)
()log (|)log [(|)(|,)]
|(|,)log (|,)(|,)(|)(|,)(|,)log (|,)(,)
y Y k k
y Y k k
y Y k p x p y p x y p y p x y p y x p y x p y p x y p y x p y x B ∈∈∈Θ=ΘΘΘΘ⎡
⎤=Θ⎢⎥Θ⎣⎦⎧⎫
⎡⎤ΘΘ≥Θ⎨⎬⎢⎥Θ⎣⎦⎩
⎭=ΘΘ∑∑∑ (8) 其中,等号在(,)k k B ΘΘ时成立,即:
(,)log (|)k k k B p x ΘΘ=Θ (9)
于是对log (|)p x Θ的递推算法(7)可通过(,)k B ΘΘ进行,步骤为: 1) 令k=0,先给出估值 k Θ
2) 然后找出1k +Θ满足 1(,)(,)k k k k B B +ΘΘ>ΘΘ (10) 3) k 更新为k+1并返回步骤2)直到收敛
令 1arg max (,)k k B +Θ=ΘΘ (11) 处理后
[]{}[]{}
1arg max (,)
(|)(|,)arg max (|,)log (|,)arg max (|,)log (|)(|,)(|,)log (|,)arg max (|,)log (|)(|,)arg max (,)
k k k k
y Y k k k y Y k y Y k B p y p x y p y x p y x P y x p y p x y p y x p y x p y x p y p x y C +∈∈∈Θ=ΘΘ⎧⎫
⎡⎤ΘΘ=Θ⎨⎬⎢⎥Θ⎣⎦⎩
⎭=ΘΘΘ-ΘΘ=ΘΘΘ=ΘΘ∑∑∑ (12)
其中
[]{}(,)(|,)log (|)(|,)k k y Y C p y x p y p x y ∈ΘΘ=ΘΘΘ∑ (13) 4.EM 算法与高斯混合模型
在随机系统模型中,假设m θ是通道m 的随机信号生成器的概率密度函数的参数,()p y m =是选中通道m 的概率。记为m a 。
假设M 个随机信号生成器和通道选择随机生成器是相互独立的,从通道m 输出的数据x 的概率是:
(|)m m m a p x θ (14)
不考虑通信信息,输出x 的概率为:
1(|)(|)M
m m m m p x a p x θ=Θ=∑ (15)
其中:
m θ:是第m 个通道随机信号生成器的参数。 Θ:参数集合{}1,2...,,m m m M a θ=。
观测数据为一批随机产生的输出信号,并且每个输出都是相互独立的,而每个输出来自哪个通道不可测。于是系统模型参数估计问题就变为通过有限的输出样本12{,,...,}N x x x 估计M 个通道参数{},(1,2,...,)m m a m M θ=.
应用(12)求解,其中(,)k C ΘΘ可以简化为:
11
11
12(,)log()(|,)log((|))(|,)
(,)(,)
M N M N
k
k
k m n m m m n m n m n k k C a p m x p x p m x C C θ====ΘΘ=Θ+Θ=ΘΘ+ΘΘ∑∑∑∑(16)
其中:
111(,)log()(|,)
M N
k
k m n m n C a p m x ==ΘΘ=Θ∑∑
211(,)log((|))(|,)M
N
k k m m m n m n C p x p m x θ==ΘΘ=Θ∑∑
这样我们把m a 和m p 分别放在两项里面,他们不相关,可以独立考虑。
在(,)k C ΘΘ中应用约束条件:
1
1M
m
m a
==∑
用拉格朗日乘子优化m a 得到:
1
1
1(|,)N
k k m
n n a p m x N +==Θ∑
上式的含义是,选中m 号通道的概率估计1
k m a +是每个观测数据n x 来自于m 通
道的条件概率(根据上一次估值Θ估算)的平均。其中的(|,)k n p m x Θ通过下式得出。
'''1
(|)(|,)(|)k
k
m m n m n M
k n m m m
m a p x p m x a p x θθ=Θ=∑ 2(,)k C ΘΘ中的m θ的优化取决于分布函数的类型,对于(|)m m m p x θ为高斯分
布时,
{},m m m θμσ=
其中m μ是分布的均值,m σ是方差。再经过推导,有:
1
1
1(|,)N
k k
m
n
n a
p m x N
+==Θ
∑ ①
111
(|,)
(|,)
N k n
n k n m N
k n
n x
p m x p m x μ+==Θ=
Θ
∑∑ , ②
1/2
121
1
1(|,)||=(|,)N k k n n m k n m N
k n n p m x x p m x μσ++==⎛⎫Θ- ⎪ ⎪ ⎪Θ ⎪
⎝⎭∑∑ ③
m 通道参数{},m m μσ得更新可以看作是对n x 的加权,加权系数(|,)
k m p m x Θ可以看成是根据上一次的参数估计k Θ算出来得n x 率属于m 通道的概率。 最后,上面的EM 算法可能收敛到局部极大点,因此需要选择多个参数Θ的初始值进行迭代计算,并选择使得(|)p x Θ最大的解,(|)p x Θ最大的解可由下式算出: