盲源分离之极大似然ICA算法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

极大似然独立成分分析算法

一、似然度

极大似然估计可以解释为：采纳那些使观测向量具有最大概率的估计参数

值。

设()x p x ∧

是对观测向量x 的概率密度()x p x 的估计，源信号的概率密度函数为

()s p s ，根据线性变换下两个概率密度函数之间的关系，观测数据x 的概率密度函数的估计()x p x ∧

与源信号概率密度函数()s p s 满足

1()

()det s x p A x p x A

-∧

对于给定的模型，观测数据x 的似然函数是模型参数A 的函数，定义为

{

}

1222()log ()()log ()log det x x s L A E p x p x p A x dx A ∧

-==-⎰

当模型参数为分离矩阵1W A -=时，对数似然函数为

{}221

1()log (())log det T

s t L W p Wx t W T =≈+∑

式中，T 为独立同分布观测数据的样本数，最大化此似然函数就可获得关于

参数W 的最优估计。

二、Infomax 算法

Infomax 算法即为信息传输极大化算法。

图1 Infomax 算法框图

由图1可知，Infomax 算法是一种基于信息论的前向反馈自组织神经网络的

算法，其中x 为多路观测信号向量，它是由n 个独立源线性混合而成，网络输出

u Wx =是对真实源s 的逼近。12()((),(),

,())T n g g g g ∙=∙∙∙为可逆单调非线性函

数，非线性输出为12(,,,)T n y y y y =。独立性判据为最大信息传输准则，即通过

对分离矩阵W (神经网络的连接权值矩阵)的调整寻找优化的W ，使网络输出y 和输入x 之间的互信息(;)I x y 达到最大。由信息论可知

(;)()(|)I x y H y H y x =-

式中，()H y 为网络联合输出熵；(|)H y x 为输出的条件熵。若系统存在噪声

N ，即()()y g u N g Wx N =+=+，有(|)()H y x H N =，则上式可表示为

(;)()()I x y H y H N =-

于是，y 和x 之间的互信息(;)I x y 最大等价于网络联合输出熵()H y 最大(噪

声N 与系统无关)。以网络输出的联合熵()H y 作为目标函数，由信息熵理论可知

1212()()()()(,,,)n n H y H y H y H y I y y y =++

式中，()i H y 为非线性输出的边缘熵；12(,,,)n I y y y 为非线性输出之间的互

信息，其值总是非负的，只有当非线性输出i y 之间彼此相互独立时，

12(,,,)0n I y y y =。由互信息可知，单调可逆非线性映射对互信息没有影响，所

以()I y 取最小值0时，()I u 也同时达到最小值零，于是各成分间相互统计独立，ICA 问题得以解决。此时

{}2()()()()(())i n y H y H y H y H y E In p y =++

+=-

式中，()y p y 为输出y 的概率密度函数，因此最大化()H y 包含了最大化边缘

熵和最小化互信息两个内容。选择熵作为目标函数是因为熵是一个随机变量无序性的度量及信息量大小(不确定信息的多少)的测度，y 的各成分统计独立性越高则相应的y 熵()H y 越大，所含信息也越多。可以证明，当非线性函数()i g ∙为源

的概率密度函数的积分——累积分布函数时，边缘熵()i H y 最大。由于在系统中

()()y g u g Wx ==，所以

()

()x y p x p y J

其中，J 为分离矩阵W 的雅克比行列式的绝对值，即

11122221211

det (det )n n

i n i i n n n n y y y x x x y y y y x x x J W u y y y x x x =∂∂∂⎡⎤⎢⎥

∂∂∂⎢⎥∂∂∂⎢⎥∂⎢⎥∂∂∂==⎢

⎥∂⎢⎥⎢⎥∂∂∂⎢⎥⎢⎥∂∂∂⎣

⎦

∏

得到

{}{}()(())x H y E In J E In p x =-

由上式可知，当x 已知时，()H y 的大小随{}E In J 而变，即随权值矩阵而变，

将J 代入上式并求梯度，可得

i i i

y H W In J In W In W W W W u =∂∂∂∂∂

∆∝==+∂∂∂∂∂∏ (1)

对于(1)式的第一项，将权值W 按行i 展开为i ii i

W w A =∑，ii A 为对应元素的

代数余子式，由于

det det ii i A In W W W

∂

∂ 所以

1()()det T T W In W W W W

*-∂==∂ 式中，W *表示W 的伴随矩阵。

对于(1)式的第二项，可以将对数项展开，而对于某一个i w ，展开项中只有一个与其相关，令

1()/()/()/(),

,()()()T

n n n p u u p u u p u u u p u p u p u ϕ⎡⎤

∂∂∂∂∂∂=-=--⎢⎥⎣⎦

显然，第二项与()g ∙有关，这样得到分离矩阵调整算法公式为

1()()T T W W u x ϕ-∆∝-

()i g ∙可以选择取值在0,1之间的单调递升函数，如Sigmod 函数和tanh 函数

等。考虑语音信号一般为超高斯信号，采用固定形式为函数的非线性函数

()1u

y g u e -==+

参数调节公式为

1()(12)T T W W y x -∆∝+- (2)

(1)()()W n W n W n μ+=+∆ (3)

式中，n 为迭代次数；μ为学习率(通常是一个小于1的正数)。Infomax 算法就按式(2)和(3)进行分离矩阵W 的迭代求解，知道算法收敛。采用自然梯度(或相对梯度)对式(2)进行化简，即在其右边乘以T W W ，于是式(2)化为

1[()(12)](12)T T T T W W y x W W I y u W -⎡⎤∆∝+-=+-⎣⎦

(4)

由于T

W W 为正定矩阵，并不影响随机梯度下降算法的收敛，同时式(4)避免

了矩阵的求逆过程，因而计算量明显降低，收敛速度加快。缺点：由于Sigmod 函数的微分所表示的概率分布函数是超高斯的(峰度为正)，因此Infomax 算法只适用于超高斯源信号的盲分离。

三、扩展Infomax 算法

实际观测信号通常是超高斯源和亚高斯源的混合信号，因此在传统Infomax 算法基础上采用双概率模型，并在盲分离算法迭代过程中，根据分离结果的统计特性变化，动态切换概率模型，最终实现概率模型与真实源信号概率分布类型的统一，实现最佳的盲分离效果。

图2所示为扩展Infomax 算法的原理框图，其中亚高斯概率密度模型为 22

122221()(,)(,)21()()222p u N N u u μσμσμμσσ⎡⎤=

+-⎣

⎦⎤-+=⎥⎦

(5)