非线性成分分析作为一个核的特征值问题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非线性成分分析作为一个核的特征值问题
摘要
我们用于一种新方法描述如何执行主成分分析非线性形式。通过对积分算子核函数的使用。通过一些相关的非线性映射输入空间,我们可以有效计算在高维特征空间的主成分组成部分;比如在16 *16的图像空间中所有可能的5个像素的乘积。这篇论文中我们给出了该方法的推导,连同由非线性与内核的方法形成的讨论,并且展现目前对模式识别的非线性特征提取的第一批实验结果。
1 引入
主成分分析是尽可能提取高维数据集的一种强大的配套技术.它很容易通过求解一个特征值问题或者用迭代算法来估计主成分;现有的文献(看Jolliffe(1986) and Diamataras & Kung (1996))。PCA是将我们所描述的数据的坐标系进行正交变换。用新的坐标值所表示的数据我们称为主成分。通常情况下,少数的主成分组足以说明数据的主要结构。这些少数的数据我们有时候叫做数据的因素及潜在变量。
目前的主成分分析的推广工作,我们相对投射空间的主要成分而言,对输入空间中的变量或特征更感兴趣,因为它与输入变量时非线性相关的。其中包括对输入变量之间采取高层次的相关性得到的实例变量。在图像分析的情况下,这就相当于是对输入数据所张成的空间就行寻找主要成分。
为了这个目的,我们在输入空间中依据核函数来表达特征空间中的点积。对于给出的任何一个算法我们都可以通过点积单独的被表示
出来,也就是说,即使变量本身没有明确的算法,我们也可以通过这个核函数组建不同的非线性函数。(Aizerman,Braverman,和 Rozonoer,1964;Boser,Guyon&Vapnik,1992)。尽管这个方法已被广泛的认知(Burges,1996),它的对机器学习的用途不是很大,除了在支持向量机方面。(Vapnik,1995)
在这篇论文中,我们给出了通过这种方法构造非线性函数的几个例子。第一个例子是主成分分析的非线性形式,我们将会给出方法的细节及实验结果(第2到4节),我们也将主要描绘出具体的算法(第7节)。
在下一节中,我们首先回顾一下标准PCA 的算法。为了能把它推广到非线性情况下,我们将用对应的唯一的点积的方法将PCA 算法公式化。在第3节中,我们将在特征空间中通过计算点积来讨论核方法。这两节主要是第4节的基础,第4节将提出对于非线性的PCA 得核的基本算法。第5节中将讨论基本核PCA 算法与其他推广的PCA 算法的不同。在第6节中,我们将给出在模式识别的特征值提取中的核基本算法的一些第一次实验结果。然后在第7节将探讨关于核方法在其他领域的应用,将在第8节中对于探讨给出总结。最后,一些技术性的材料,对于论据不构成主要的线索我们将放入附录中。 2 特种空间的PCA
给出一组以M 为中心的观测值1,1,...,,,0M N k k k k x k M x R x ==∈=∑
PCA 算法对角化后的协方差矩阵为
11M T j j j C x x M
==∑ (1)
为了做这个,首先解决特征值问题
v Cv λ= (2)
对于0λ≥特征值和N v R ∈{}0且11
()M
j j j Cv x v x M ==⋅∑,对于V 的值必
须依赖于 1...M x x 的跨度,因此,(2)就等价于
()()k k x v x Cv λ⋅=⋅ 1,...,k M = (3)
本节的其余部分是专门用来直接转换到非线性情况,为了在本论文中提出的方法做基础准备。我们应该现在就描述在空间F 上的另一种点集的计算方法,它通过一个可能的非线性映射将输入空间映射到F 空间
:,N R F Φ→
x X → (4) F 所代表的就是特征空间,维数可能非常的大,很可能是无限的。 这里和下面的大写字母代表空间F 中的元素而小写字母表示N R 中的元素。
接下来,我们做一个假设,我们将数据中心化,也就是说
1()0M
k k x =Φ=∑
然后我们将返回数据点。用空间F 的协方差矩阵
11()(),M T j j
j C x x M ==ΦΦ∑ (5)
_______
1更精确地说,这个协方差矩阵也被定义为T XX 的期望;为了方便,我们应该通过一个有限的例子用同样的公式计算协方差矩阵来估计下(1)的极大似然率
(如果F 是无限维的空间,我们认为通过映射X F ∈到()(())j j x x X ΦΦ⋅ 将()(()T j j x x ΦΦ作为线性算子,我们必须找到0λ≥个特征值以及 V F ∈{}0个特征向量
满足
V C V λ= (6)
和上面的讨论同理,V 的解法也依赖于1,...,()()M x x ΦΦ的跨度。对于我们,我们得到了两个有用过的结论:第一个我们得到下面的等价不等式
(())(())k k x V x CV λΦ⋅=Φ⋅1,...,k M = (7) 第二,存在系数(1,...,)i i M α=有
1()M
i i i V x α==Φ∑ (8)
结合(7)式和(8)式,我们得
1111(()())(()(())(()())M M M
i k i i k j j i
i i j x x x x x x M λαα===Φ⋅Φ=Φ⋅ΦΦ⋅Φ∑∑∑ 1,...,k M = (9)
定义一个M M ⨯矩阵K
()()()ij j j K x x =Φ⋅Φ (10) 这就写成
2M K K λαα= (11) 其中α记为用通过1,...,M αα作为向量的列。因为K 是对称矩阵,它有一
组可以长成整个空间的特征向量组成,即
M K λαα= (12)
给出方程式(11)的所有α的解法。我们记K 为半正定的,它就相当于
1,...,1,...,(()())(()())
T M M x x x x ΦΦ⋅ΦΦ (13)
它是只对于所有的X F ∈都有
21,...,()(()())0M X FX x x X ⋅=ΦΦ≥ (14)
因此,K 的特征值还都是正的,并且恰恰给出了方程式(11)的M λ的解法。我们因此只需对角化矩阵K 。令12,.,M λλλ≤≤记为特征值,并且
1,...,M αα是对应的特征向量的一组集,从而p λ是第一个非零的特征值2。
我们根据需要将,...,p M αα标准化那么对应的F 中的向量也向被标准化,也就说
()1k k V V ⋅= ,....,k p M = (15) 依赖于(8)式和(12)式,把,...,p M αα转化成标准的形式:
,11(()())M
k k i j j j i j x x αα==Φ⋅Φ∑
,1M
k k i j ij i j K αα==∑
()
k k K αα=⋅
()k k k λαα=⋅ (16) 为了提取主要成分,我们需要计算投影到F 中的特征向量k V ,(k=p,…,M )
令X 为测试点,任意一个F 上的图像()x Φ,有