第3章基于信息论的独立分量分析算法

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第3章基于信息论的独立分量分析算法

3.1 引言

由于没有任何参照目标，学习只能是自组织的。学习过程的第一步：建立一个以W 为变元的目

标函数()W L ,如果某个W

ˆ能使()W L 达到极大（小）值，该W ˆ即为所需的解。第二步：用一种有效的算法求W

ˆ。按照()W L 定义的不同和求W ˆ的方法不同可以构成各种ICA 算法。ICA 方法可归结为如下式子：ICA 方法＝目标函数＋优化算法。由ICA 的性质可知ICA 以统计独立为基本原则，统计独立的衡量为ICA 算法的关键。因此需选择一个恰当的目标函数。目标函数给定后，可以采用经典的优化算法最优化目标函数，如梯度法、拟牛顿法等。ICA 方法的特性取决于目标函数和优化算法两项。ICA 方法的统计特性（如一致性、鲁棒性）取决于目标函数的选取；算法特性（收敛速度、内存要求）取决于优化算法的选择。对于同一个目标函数可以有不同的优化算法，同一个优化算法可应用于不同的目标函数。衡量一个优化算法的主要性能指标有收敛速度，占用内存情况，稳定性等。算法的研究可分为基于信息论准则的迭代估计方法和基于统计学的代数方法两大类，从原理上来说，它们都是利用了源信号的独立性和非高斯性。基于信息论的方法研究中，各国学者从最大熵、最小互信息、最大似然和负熵最大化等角度提出了一系列估计算法。如FastICA 算法, Infomax 算法，最大似然估计算法等。基于统计学的方法主要有二阶累积量、四阶累积量等高阶累积量方法。在此我们主要讨论基于信息论的几种独立分量分析算法。

3.2 数据的预处理

一般情况下，所获得的数据都具有相关性，所以通常都要求对数据进行初步的白化或球化处理，因为白化处理可去除各观测信号之间的相关性，从而简化了后续独立分量的提取过程，而且，通常情况下，数据进行白化处理与不对数据进行白化处理相比，算法的收敛性较好。

若一零均值的随机向量()T M Z Z Z ,,1 =满足{}I ZZ E T =，其中：I 为单位矩阵，我们称这个向量为白化向量。白化的本质在于去相关，这同主分量分析的目标是一样的。在ICA 中，对于为零均值的独立源信号()()()[]T N t S t S t S ,...,1=，有：{}{}{}

j i S E S E S S E j i j i ≠==当,0，且协方差矩阵是单位阵()I S =cov ，因此，源信号()t S 是白色的。对观测信号()t X ，我们应该寻找一个线性变换，使()t X 投影到新的子空间后变成白化向量，即：

()()t X W t Z 0= （3.1）其中，0W 为白化矩阵，Z 为白化向量。

利用主分量分析，我们通过计算样本向量得到一个变换

T U W 2/10-Λ=

其中U 和Λ分别代表协方差矩阵X C 的特征向量矩阵和特征值矩阵。可以证明，线性变换0W 满足白化变换的要求。通过正交变换，可以保证I UU U U T T ==。因此，协方差矩阵：

{}{}{}I U XX E U U XX U E ZZ E T T T T T =ΛΛΛ=ΛΛ=ΛΛ=------2/12/12/12/12/12/1 （3.2）再将()()t AS t X =式代入()()t X W t Z 0=，且令A A W ~0=,有

()()()t S A t AS W t Z ~0== （3.3）由于线性变换A ~连接的是两个白色随机矢量()t Z 和()t S ，可以得出A ~

一定是一个正交变换。如果把上式中的()t Z 看作新的观测信号，那么可以说，白化使原来的混合矩阵A 简化成一个新的正交矩阵A ~。证明也是简单的：

{}{}{}I A A A SS E A A SS A E ZZ E T T T T T T ====~

~~~~~ （3.4）其实正交变换相当于对多维矢量所在的坐标系进行一个旋转。

在多维情况下，混合矩阵A 是N N ⨯的，白化后新的混合矩阵A ~

由于是正交矩阵，其自由度降为()2/1-⨯N N ，所以说白化使得ICA 问题的工作量几乎减少了一半。

白化这种常规的方法作为ICA 的预处理可以有效地降低问题的复杂度，而且算法简单，用传统的PCA 就可完成。用PCA 对观测信号进行白化的预处理使得原来所求的解混合矩阵退化成一个正交阵，减少了ICA 的工作量。此外，PCA 本身具有降维功能，当观测信号的个数大于源信号个数时，经过白化可以自动将观测信号数目降到与源信号维数相同。

3.3 基于信息论的独立分量分析算法

3.3.1 FastICA 算法[1][30][31]

FastICA 算法，又称固定点(Fixed-Point)算法，是由芬兰赫尔辛基大学Hyvärinen 等人提出来的。是一种快速寻优迭代算法，与普通的神经网络算法不同的是这种算法采用了批处理的方式，即在每一步迭代中有大量的样本数据参与运算。但是从分布式并行处理的观点看该算法仍可称之为是一种神经网络算法。FastICA 算法有基于峭度、基于似然最大、基于负熵最大等形式，这里，我们介绍基于负熵最大的FastICA 算法。它以负熵最大作为一个搜寻方向，可以实现顺序地提取独立源，充分体现了投影追踪（Projection Pursuit ）这种传统线性变换的思想。此外，该算法采用了定点迭代的优

化算法，使得收敛更加快速、稳健。

因为FastICA 算法以负熵最大作为一个搜寻方向，因此先讨论一下负熵判决准则。由信息论理论可知：在所有等方差的随机变量中，高斯变量的熵最大，因而我们可以利用熵来度量非高斯性，常用熵的修正形式，即负熵。根据中心极限定理，若一随机变量X 由许多相互独立的随机变量()N i S i ,...3,2,1=之和组成，只要i S 具有有限的均值和方差，则不论其为何种分布，随机变量X 较i S 更接近高斯分布。换言之，i S 较X 的非高斯性更强。因此，在分离过程中，可通过对分离结果的非高斯性度量来表示分离结果间的相互独立性，当非高斯性度量达到最大时，则表明已完成对各独立分量的分离。

负熵的定义：

()()()Y H Y H Y N Gauss g -= （3.5）式中，Gauss Y 是一与Y 具有相同方差的高斯随机变量，()⋅H 为随机变量的微分熵

()()()ξξξd p p Y H Y Y lg ⎰

-= （3.6）根据信息理论，在具有相同方差的随机变量中，高斯分布的随机变量具有最大的微分熵。当Y 具有高斯分布时，()0=Y N g ；Y 的非高斯性越强，其微分熵越小，()Y N g 值越大，所以()Y N g 可以作为随机变量Y 非高斯性的测度。由于根据式（3.6）计算微分熵需要知道Y 的概率密度分布函数，这显然不切实际，于是采用如下近似公式

()()[]()[]{}2

Gauss g Y g E Y g E Y N -= （3.7）其中，[]⋅E 为均值运算；()⋅g 为非线性函数，可取())tanh(11y a y g =，或()()

2/e x p 22y y y g -=或()33y y g =等非线性函数，这里，211≤≤a ，通常我们取11=a 。

快速ICA 学习规则是找一个方向以便()X W Y X W T T =具有最大的非高斯性。这里，非高斯性

用式（3.7）给出的负熵)(X W N T g 的近似值来度量,X W T

的方差约束为1，对于白化数据而言，这等于约束W 的范数为1。FastICA 算法的推导如下。首先，X W T 的负熵的最大近似值能通过对

(){}X W G E T 进行优化来获得。根据Kuhn-Tucker 条件，在(){}122==W X

W E T 的约束下，

(){}X W G E T 的最优值能在满足下式的点上获得。 (){}

0=+W X W Xg E T β （3.8）