独立分量分析方法及其比较
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i =1
n
其中 H ( x) 为熵,定义为: H ( x) = − ∫ p( x)log p ( x)dx 。由此,可以建立基于互信息 的目标函数: J MI ( B) = H ( x)− | det B | −∑ ∫ p( yi )log p( yi )dyi ,(11)
i =1 n
kurt(y)可定义为:
22
化算法,如(随机)梯度算法和牛顿方法。 2.1 极大化非高斯性的 ICA 估计方法 “非高斯性意味着独立”[1]。 非高斯性一般用峭度和负熵来度量 。 峭度是随机变量的四阶累积量的另一种叫法。y 的峭度
[2]
I ( y ) = H ( x) − log | det B | −∑ ∫ p( yi )log p( yi )dyi , (10)
ML 估计会得到完全错误的结果。 分的先验知识是不正确的,
T
我们比较 ML 估计的自然梯度算法式和非线性去相关算 法式,即:
∆ B ∝ ( I + E { g ( y ) y T }) B (ML 估计的自然梯度算法)和
∆ B = µ [ Λ − f ( y ) g ( y )] B (非线性去相关算法)
x(t ) = As (t ) = B −1s (t ) 。
非线性 PCA 算法可以从常规的 PCA 算法引入合适的非 线性函数直接得到。在常规的 PCA 算法的目标函数中引入 非线性得到非线性 PCA 的目标函数,即: wi = arg max E{ f (W T X )2} ,
||W || =1
勤(1958-) ,男,教授,主要研究方向为现
R 为独立的源信号向量,即 s 的概率密度函数( pdf )
p(s) = ∏ pi (si ) , pi (⋅) 为边缘 pdf;n∈ R 为噪声向量,而 s,A,n
m
i =1
都是未知的。则 x 可以表示成:
收稿日期:2008-10-11。 作者简介:王 科(1983-) ,男,硕士研究生,主要研究方向为现代信号处理,无线传感器;舒 代信号处理。
式中,µ 是学习速率,Λ 是对角矩阵, 其元素决定 y 的 各元素的幅值尺度(典型地, Λ 可以选为单位矩阵 I ),f 和 g 是两个非线性标量函数,作者选择了一个多项式和一 个双曲正切函数。 f ( y ) 表示一个元素为 f ( y1 ),L, f ( yn ) 的 列向量。 从形式上看,它们是一样的。于是 ML 估计给出了一个 选择非线性去相关中的非线性函数的原则性的方法。使用的 非线性函数由独立成分的概率密度函数(pdf)的特定函数决 定。再由于上面我们讨论过的等价性,互信息当然做了一样 的事情。 在参考文献[5]中给出了非线性主成分分析(NLPCA) 和 ML 估计(和其它更多方法)本质上等价的。 前面的原理和基于累积量的指标的关系可以通过方 程式:
考 虑 当 yi 不 相 关 且 为 单 位 方 差 的 情 形 : 这 意 味 着
E{ yy T } = BE{xx T }B T = I ,于是有: det I = 1 = det( BE{xx T }B T ) = (det B )(det( E{xx T })det( B T )
1 T ∑ log p( Bx(i)) + log | det B | 则基于似然函数的目标函数: T i =1
23
p( x) 为X的概率密度函数,pi ( xi ) 为 xi 的边缘密度函数。
由K—L距离的性质可知 I ( x) ≥ 0 , 当且仅当 p( x) = ∏ pi ( xi )
i =1 n
时取等号, 即当X的分量完全相互独立时 I ( x) 取全局最小点。 则 I ( x) 非常适合作为独立性度量的。结合ICA问题,其输出 y = Bx ,它的互信息为:
这说明 det B 必须是常量,因为 det( E{xxT } 不依赖于 B 。然 熵和负熵只差一个常量和符号, 即: 而, 因为 yi 为单位方差,
J ( y ) = H ( ygauss ) − H ( y ) 。
J ML ( B ) =
1 T p ( Bx (i )) 1 T log = ∑ log p ( Bx (i )) + log | det B | , ∑ | det B | T i =1 T i =1
(5)
3 估计原理之间的比较
互信息是一组随机变量的成员具有的该集合中其它随 机变量的信息的度量。它为说明不同估计原理之间的相似性 提供了一个方便的出发点。 对于一个可逆的线性变换 y = Bx ,我们有:
I ( y1 , y2 ,L , yn ) = ∑ H ( yi ) − H ( x) − log | det B | , (15)
Methods and Comparisons of Principal Component Analysis
WANG Ke, SHU Qin
(Sichuan University, Chengdu Sichuan 610065, China)
【Abstract】This paper starts from the definition of ICA, explains the applications and how to solve the correlative questions. Some independent component analysis algorithms and their features are discussed, and the priors used in independent component analysis are summarized in this paper, including the mathematical definition of ICA,the assumptions made about ICA problems, and the mathematical theory and methods commonly used in ICA, etc. Finally, this paper gives equivalences and differences of the methods mentioned, and discuss where is the best place belonging to the methods. 【Key words】independent component analysis; optimized criteria; comparisons of ICA methods
kurt ( y ) = E{ y } − 3( E{ y }) 。
4 2 2
(随机变量假定都是零均值的)
2 2
(3)
通过求其全局最小点,解其变换矩阵B。
2.4 非线性主分量分析
而高斯变量四阶矩是 3( E{ y }) , 则高斯变量的峰度为 零。峭度为负则随机变量称为亚高斯信号, 峭度为正则随机 变量称为超高斯信号。峭度作为统计独立性的度量应用时, 它最大的优点就是简单易实现, 存在的问题是,峭度可能对 野值极其敏感。 负熵是一种重要的非高斯性度量方法[3]。其定义如下: J ( y ) = H ( ygauss ) − H ( y ) , (4) 其中: H ( y ) = − ∫ p y (η ) log p y (η )d η , y gauss 是与具有相同相 关(和协方差)矩阵的高斯随机变量。 负熵是度量非高斯性最好的标准 , 但是由于计算负熵 需要计算概率密度 , 因而计算复杂 , 有必要引入负熵的近 似计算。 2.2 ICA的极大似然(ML)估计 使得 BA = 1 ,则可 盲源分离的目的就是求出分离矩阵 B, 以得到 y (t ) = s (t ) ,实现源信号的分离。由此可以得到:
(8) 2.3 极小化互信息的 ICA 估计方法 对于随机向量 x ∈ R n ,互信息被定义为: p ( x) I ( x) = ∫ p ( x) log n dx , ∏ pi ( xi )
i =1
所以得到: I ( y1 , y2 ,L, yn ) = 常量 − ∑ J ( yi )
i
(9)
然而,当变量的方差一定时,当为高斯分布时具有最大 熵[4]。于是我们看到:极小化互信息意味着极大化估计成分 的负高斯之和。如果我们利用梯度算法或快速不动点算法来 近似这些熵(或者相应的负熵)的话,那么这样的方法其实 也就等同于极大化非高斯性的 ICA 估计方法,即:极大化非 高斯性。 另外,我们可以用参数化的方法来近似估计独立成分 的密度,从而近似互信息,并使用熵定义中对数密度的近 似。这样我们就得到了本质上等价于极大似然(ML)估计
0 引言
盲源分离 BSS (Blind Source Separation)是在源信号和传 输通道参数未知的情况下,根据输入源信号的统计特性,仅由 观测信号恢复出源信号的过程。当源信号各个成分具有独立 性 时 , 此 过 程 又 称 独 立 分 量 分 析 (Independent Component Analysis)。 常见的估计 ICA 模型的指标: 互信息, 似然函数, 非高斯度量,累积量和非线性主成分分析指标。
x = As + n , ICA 的目标是寻找到一个矩阵 B∈ R
m× n
(1) ,使得: (2)
y = Bx ,
信号的恢复。
的各个分量 yi 之间尽可能的独立,这时的 y 可以看作是对源
2 ICA 问题的求解
ICA 问题的求解有两种思路,一是将它看作是一个最优 化的问题,解 ICA 可以归结为两步:先建立目标函数,再寻
(12)
选取不同的目标函数可以得到不同的非线性 PCA 算法。 一种较为简单的目标函数为:
J = ∑ E{ f ( yi )} ,
j =1 n
(13)
取 f ( y ) = y 4 ,则
J = ∑ E{ yi 4 } ,
j =1 n
(14)
为输出数据四阶矩之和,对分离矩阵 B 来说,亚高斯信 号使上式取最小值,超高斯信号使上式取最大值。
Communications Technology
独立分量分析方法及其比较
王 科, 舒 勤
(四川大学,四川 成都 610065)
【摘 要】文中主要从独立分量分析的定义出发,并解释其用途以及如何解决相关问题,再引出对应的估计方法:即常 用的优化方法与目标函数。文章最后,作者对各种方法进行了比较,出互信息出发,用 ML 进行联系,得出其相同点,也就是 他们从相同的地方出发,只是考察的重点不同,找的标准不同而已,也讨论了各种方法的不同点,及其适应地方的不同之处。 【关键词】独立分量分析;优化准则;独立分量分析方法比较 【中图分类号】TN911.23 【文献标识码】A 【文章编号】1002-0802(2009)07-0022-03
i
若已知源信号 s(t)的概率密度
ps ( s ) = ∏ p得:
px ( x) =| det B | ∏ pi ( si ) ,
i
n
(7)
记 B = [b1 ,L, bn ]T ,似然度函数可 L( B) =
1 T p ( Bx(i )) ∑ log | det B | = T i =1
因此使用这些近似是不会有太多问题结语盲信号分离在很多领域具有广阔的应用前景研究时应在继续学习经典算法的同时努力找新的品质函数努力探索新的算法对算法进行比较总结找出其最适应的环境工程
2009 年第 07 期,第 42 卷 总第 211 期
通
信
技
术
Vol.42,No.07,2009 No.211,Totally
的方法。 然而和其它估计原理的联系容易用似然函数得到。
3.1 考虑和非线性去相关的联系。
(3)许多估计原理中,对独立成分的估计约束不相关 的。这稍微减少了做估计的空间。如互信息,没有道理恰好 分解给出不相关的成分时,互信息是最小的。因此,不相关 约束略微降低了估计方法的理论上的性能。在实际中,这个 可以忽略的[7]; (4)实际中的一个重要差异是,在 ML 估计中,独立 成分的密度经常是使用先验知识事先固定的。这是可能的, 因为对独立成分的概率的了解不需要很精确:实际上,知道 它们是次高斯还是超高斯就足够了。然而,如果对于独立成
1 ICA 的定义
对观察向量 x,x∈ R 。假设 A∈ R
n
n
m
m× n
为混合矩阵,s∈
求求解该目标函数的算法;然后是经验式的建立算法。 本文中对目标函数的构造和优化它的算法做了区分。可 以用下面的“方程”来表达这一点: ICA 方法=目标函数+优化算法 在目标函数明确的情况下,我们可以使用任何经典的优
n
其中 H ( x) 为熵,定义为: H ( x) = − ∫ p( x)log p ( x)dx 。由此,可以建立基于互信息 的目标函数: J MI ( B) = H ( x)− | det B | −∑ ∫ p( yi )log p( yi )dyi ,(11)
i =1 n
kurt(y)可定义为:
22
化算法,如(随机)梯度算法和牛顿方法。 2.1 极大化非高斯性的 ICA 估计方法 “非高斯性意味着独立”[1]。 非高斯性一般用峭度和负熵来度量 。 峭度是随机变量的四阶累积量的另一种叫法。y 的峭度
[2]
I ( y ) = H ( x) − log | det B | −∑ ∫ p( yi )log p( yi )dyi , (10)
ML 估计会得到完全错误的结果。 分的先验知识是不正确的,
T
我们比较 ML 估计的自然梯度算法式和非线性去相关算 法式,即:
∆ B ∝ ( I + E { g ( y ) y T }) B (ML 估计的自然梯度算法)和
∆ B = µ [ Λ − f ( y ) g ( y )] B (非线性去相关算法)
x(t ) = As (t ) = B −1s (t ) 。
非线性 PCA 算法可以从常规的 PCA 算法引入合适的非 线性函数直接得到。在常规的 PCA 算法的目标函数中引入 非线性得到非线性 PCA 的目标函数,即: wi = arg max E{ f (W T X )2} ,
||W || =1
勤(1958-) ,男,教授,主要研究方向为现
R 为独立的源信号向量,即 s 的概率密度函数( pdf )
p(s) = ∏ pi (si ) , pi (⋅) 为边缘 pdf;n∈ R 为噪声向量,而 s,A,n
m
i =1
都是未知的。则 x 可以表示成:
收稿日期:2008-10-11。 作者简介:王 科(1983-) ,男,硕士研究生,主要研究方向为现代信号处理,无线传感器;舒 代信号处理。
式中,µ 是学习速率,Λ 是对角矩阵, 其元素决定 y 的 各元素的幅值尺度(典型地, Λ 可以选为单位矩阵 I ),f 和 g 是两个非线性标量函数,作者选择了一个多项式和一 个双曲正切函数。 f ( y ) 表示一个元素为 f ( y1 ),L, f ( yn ) 的 列向量。 从形式上看,它们是一样的。于是 ML 估计给出了一个 选择非线性去相关中的非线性函数的原则性的方法。使用的 非线性函数由独立成分的概率密度函数(pdf)的特定函数决 定。再由于上面我们讨论过的等价性,互信息当然做了一样 的事情。 在参考文献[5]中给出了非线性主成分分析(NLPCA) 和 ML 估计(和其它更多方法)本质上等价的。 前面的原理和基于累积量的指标的关系可以通过方 程式:
考 虑 当 yi 不 相 关 且 为 单 位 方 差 的 情 形 : 这 意 味 着
E{ yy T } = BE{xx T }B T = I ,于是有: det I = 1 = det( BE{xx T }B T ) = (det B )(det( E{xx T })det( B T )
1 T ∑ log p( Bx(i)) + log | det B | 则基于似然函数的目标函数: T i =1
23
p( x) 为X的概率密度函数,pi ( xi ) 为 xi 的边缘密度函数。
由K—L距离的性质可知 I ( x) ≥ 0 , 当且仅当 p( x) = ∏ pi ( xi )
i =1 n
时取等号, 即当X的分量完全相互独立时 I ( x) 取全局最小点。 则 I ( x) 非常适合作为独立性度量的。结合ICA问题,其输出 y = Bx ,它的互信息为:
这说明 det B 必须是常量,因为 det( E{xxT } 不依赖于 B 。然 熵和负熵只差一个常量和符号, 即: 而, 因为 yi 为单位方差,
J ( y ) = H ( ygauss ) − H ( y ) 。
J ML ( B ) =
1 T p ( Bx (i )) 1 T log = ∑ log p ( Bx (i )) + log | det B | , ∑ | det B | T i =1 T i =1
(5)
3 估计原理之间的比较
互信息是一组随机变量的成员具有的该集合中其它随 机变量的信息的度量。它为说明不同估计原理之间的相似性 提供了一个方便的出发点。 对于一个可逆的线性变换 y = Bx ,我们有:
I ( y1 , y2 ,L , yn ) = ∑ H ( yi ) − H ( x) − log | det B | , (15)
Methods and Comparisons of Principal Component Analysis
WANG Ke, SHU Qin
(Sichuan University, Chengdu Sichuan 610065, China)
【Abstract】This paper starts from the definition of ICA, explains the applications and how to solve the correlative questions. Some independent component analysis algorithms and their features are discussed, and the priors used in independent component analysis are summarized in this paper, including the mathematical definition of ICA,the assumptions made about ICA problems, and the mathematical theory and methods commonly used in ICA, etc. Finally, this paper gives equivalences and differences of the methods mentioned, and discuss where is the best place belonging to the methods. 【Key words】independent component analysis; optimized criteria; comparisons of ICA methods
kurt ( y ) = E{ y } − 3( E{ y }) 。
4 2 2
(随机变量假定都是零均值的)
2 2
(3)
通过求其全局最小点,解其变换矩阵B。
2.4 非线性主分量分析
而高斯变量四阶矩是 3( E{ y }) , 则高斯变量的峰度为 零。峭度为负则随机变量称为亚高斯信号, 峭度为正则随机 变量称为超高斯信号。峭度作为统计独立性的度量应用时, 它最大的优点就是简单易实现, 存在的问题是,峭度可能对 野值极其敏感。 负熵是一种重要的非高斯性度量方法[3]。其定义如下: J ( y ) = H ( ygauss ) − H ( y ) , (4) 其中: H ( y ) = − ∫ p y (η ) log p y (η )d η , y gauss 是与具有相同相 关(和协方差)矩阵的高斯随机变量。 负熵是度量非高斯性最好的标准 , 但是由于计算负熵 需要计算概率密度 , 因而计算复杂 , 有必要引入负熵的近 似计算。 2.2 ICA的极大似然(ML)估计 使得 BA = 1 ,则可 盲源分离的目的就是求出分离矩阵 B, 以得到 y (t ) = s (t ) ,实现源信号的分离。由此可以得到:
(8) 2.3 极小化互信息的 ICA 估计方法 对于随机向量 x ∈ R n ,互信息被定义为: p ( x) I ( x) = ∫ p ( x) log n dx , ∏ pi ( xi )
i =1
所以得到: I ( y1 , y2 ,L, yn ) = 常量 − ∑ J ( yi )
i
(9)
然而,当变量的方差一定时,当为高斯分布时具有最大 熵[4]。于是我们看到:极小化互信息意味着极大化估计成分 的负高斯之和。如果我们利用梯度算法或快速不动点算法来 近似这些熵(或者相应的负熵)的话,那么这样的方法其实 也就等同于极大化非高斯性的 ICA 估计方法,即:极大化非 高斯性。 另外,我们可以用参数化的方法来近似估计独立成分 的密度,从而近似互信息,并使用熵定义中对数密度的近 似。这样我们就得到了本质上等价于极大似然(ML)估计
0 引言
盲源分离 BSS (Blind Source Separation)是在源信号和传 输通道参数未知的情况下,根据输入源信号的统计特性,仅由 观测信号恢复出源信号的过程。当源信号各个成分具有独立 性 时 , 此 过 程 又 称 独 立 分 量 分 析 (Independent Component Analysis)。 常见的估计 ICA 模型的指标: 互信息, 似然函数, 非高斯度量,累积量和非线性主成分分析指标。
x = As + n , ICA 的目标是寻找到一个矩阵 B∈ R
m× n
(1) ,使得: (2)
y = Bx ,
信号的恢复。
的各个分量 yi 之间尽可能的独立,这时的 y 可以看作是对源
2 ICA 问题的求解
ICA 问题的求解有两种思路,一是将它看作是一个最优 化的问题,解 ICA 可以归结为两步:先建立目标函数,再寻
(12)
选取不同的目标函数可以得到不同的非线性 PCA 算法。 一种较为简单的目标函数为:
J = ∑ E{ f ( yi )} ,
j =1 n
(13)
取 f ( y ) = y 4 ,则
J = ∑ E{ yi 4 } ,
j =1 n
(14)
为输出数据四阶矩之和,对分离矩阵 B 来说,亚高斯信 号使上式取最小值,超高斯信号使上式取最大值。
Communications Technology
独立分量分析方法及其比较
王 科, 舒 勤
(四川大学,四川 成都 610065)
【摘 要】文中主要从独立分量分析的定义出发,并解释其用途以及如何解决相关问题,再引出对应的估计方法:即常 用的优化方法与目标函数。文章最后,作者对各种方法进行了比较,出互信息出发,用 ML 进行联系,得出其相同点,也就是 他们从相同的地方出发,只是考察的重点不同,找的标准不同而已,也讨论了各种方法的不同点,及其适应地方的不同之处。 【关键词】独立分量分析;优化准则;独立分量分析方法比较 【中图分类号】TN911.23 【文献标识码】A 【文章编号】1002-0802(2009)07-0022-03
i
若已知源信号 s(t)的概率密度
ps ( s ) = ∏ p得:
px ( x) =| det B | ∏ pi ( si ) ,
i
n
(7)
记 B = [b1 ,L, bn ]T ,似然度函数可 L( B) =
1 T p ( Bx(i )) ∑ log | det B | = T i =1
因此使用这些近似是不会有太多问题结语盲信号分离在很多领域具有广阔的应用前景研究时应在继续学习经典算法的同时努力找新的品质函数努力探索新的算法对算法进行比较总结找出其最适应的环境工程
2009 年第 07 期,第 42 卷 总第 211 期
通
信
技
术
Vol.42,No.07,2009 No.211,Totally
的方法。 然而和其它估计原理的联系容易用似然函数得到。
3.1 考虑和非线性去相关的联系。
(3)许多估计原理中,对独立成分的估计约束不相关 的。这稍微减少了做估计的空间。如互信息,没有道理恰好 分解给出不相关的成分时,互信息是最小的。因此,不相关 约束略微降低了估计方法的理论上的性能。在实际中,这个 可以忽略的[7]; (4)实际中的一个重要差异是,在 ML 估计中,独立 成分的密度经常是使用先验知识事先固定的。这是可能的, 因为对独立成分的概率的了解不需要很精确:实际上,知道 它们是次高斯还是超高斯就足够了。然而,如果对于独立成
1 ICA 的定义
对观察向量 x,x∈ R 。假设 A∈ R
n
n
m
m× n
为混合矩阵,s∈
求求解该目标函数的算法;然后是经验式的建立算法。 本文中对目标函数的构造和优化它的算法做了区分。可 以用下面的“方程”来表达这一点: ICA 方法=目标函数+优化算法 在目标函数明确的情况下,我们可以使用任何经典的优