黎曼流形的距离均方差最小降维改进算法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

黎曼流形的距离均方差最小降维改进算法
高恩芝;王士同
【摘要】The TRIMAP algorithm redefines the expression of the distance on the graph, and in order to measure the quality of the projection functions, considers the squared error sum of all pair wise geodesic. This way can better find what is needed from high-dimensional space to low-dimensional vector space conversion. But this measure can't be well express the contrast relationship between graph distance which is defined in TRIMAP algorithm and actual distance which is projected to low dimensional space. Aiming at this deficiency, this paper uses a new standard expression and defines a parameter m to represent relationship in order to solve the defect, get the best projection and improve the recognition rate. The preliminary experimental results show that it can get a better recognition performance in the ORL face image classification and recognition problem.%TRIMAP算法重新定义了图上距离的表达形式,并用近邻点对的测地距离的误差和作为衡量投影函数好坏的标准,通过这种方法可以较好地找到所需的从高维空间到低维空间转换的媒介,但是这种衡量标准不能很好地表达出TRIMAP中定义的图上距离与投影到低维空间中两点实际距离的对比关系.针对这个不足,采用了一个新的衡量标准表达式,定义一个参数m来代表对比关系,以此来解决这个缺陷,从而更好地获得最佳投影,提高识别率.实验结果表明,在ORL人脸图像的分类识别问题中获得了较好的识别性能.
【期刊名称】《计算机工程与应用》
【年(卷),期】2013(049)002
【总页数】5页(P198-202)
【关键词】数据降维;流形学习;测地距离;等距离映射算法;局部线性嵌入
【作者】高恩芝;王士同
【作者单位】江南大学数字媒体学院,江苏无锡214122;江苏省信息融合软件工程技术研究开发中心,江苏无锡214405;江南大学数字媒体学院,江苏无锡214122【正文语种】中文
【中图分类】TP391
科技的发展，信息时代的到来，使得数据集增长更快，数据维数更高，非结构化程度更加突出。

因此，技术的落后，造成了计算效率低下和信息资源的巨大浪费。

如何保持在数据信息完整的前提下从海量数据集中提取出有效而又合理的约简数据，满足存储需求和人的感知需要是亟待解决的问题。

现实生活中，人们已经面临维数灾难的问题，比如图像和视频数据等，而数据降维可以有效地避免这个问题，并能提高计算效率，节省存储资源。

虽然，高维数据空间的内在维数是很低的，通过数据降维就可以有效地发现高维数据空间内在的结构特征。

但是现存的一些低维线性方法虽能较好地对一些具有线性结构的数据集进行维数降低，却无法解决那些非线性的数据集。

现实中有用的数据往往不是一些特征的线性组合，而且这些数据也缺少几何上的直观解释。

因此，已有的线性降维方法忽略了数据分布的内在信息的结构，这就使非线性数据降维成为了一个新的研究课题。

由于流形学习能够对训练集中的高维数据空间进行非线性降维，从中找出隐藏在高
维观测数据中有意义的低维结构，所以，流形学习在智能信息处理和模式识别中具有十分重要的应用前景。

本文首先介绍了数据降维和流形学习的相关知识，分析了几种已有的流形学习算法，重点介绍通过测地距离最小均方差实现TRIMAP[1]降维的改进算法；然后进行总结，探讨下一步的研究重点。

2.1 数据降维
随着计算机与多媒体技术的发展，高维数据的出现及处理给人们带来了前所未有的困难。

而这些高维数据中往往包含冗余，因此就要通过一定的降维方法来减少冗余，以满足人们的感知需要。

所谓数据降维[2]是指通过线性或非线性映射将样本从高维空间映射到低维空间，
从而获得高维数据的一个有意义的低维表示过程。

数据降维分为：特征提取和特征选择。

特征提取是指通过将原始特征空间进行变换，重新生成一个维数更低，各维之间更独立的特征空间。

特征提取分为线性和非线性。

特征选择是从特征集中选择一个它的特征子集。

特征选择不改变原始特征空间的性质，只是从原始空间中选择一部分重要特征，组成一个新的低维空间。

目前已有许多传统的降维方法，比如主成分分析（PCA）[3]、多维尺度分析（MDS）[2]等。

近年来，又有许多基于流形学习的降维方法被提出，如等距映射算法（ISOMAP）[4]、局部线性嵌入方法（LLE）[5]、拉普拉斯特征映射方法[6]、局部切空间排列算法（LTSA）[7]等。

然而，当训练样本数量少于参数数量时，小样本问题[8]仍然存在。

因此，基于张
量的维数约简算法发展起来了。

需要注意的是，当利用基于张量的算法处理大批量数据时，计算量是相当大的。

2.2 流形学习简介
流形学习[9]是一种新的降维方法，能揭示数据的内在变化规律，其目标是发现嵌入在高维数据空间中的低维流形结构，并给出一个有效的低维表示。

所谓流形，就是一般的几何对象的总称。

流形就包括各种维数的曲线曲面等。

从数学上，流形指的是局部具有欧式空间性质的拓扑空间。

从直观上，可以认为流形上的每一个局部都是“平”的，可以用有限个小的局部欧式空间来“拼接”出一个大的流形。

而这个流形的本质维数，就是用于拼接它的局部欧式空间的维数。

可以看出，流形学习其实是对线性空间的一种推广。

在机器学习中，一般认为高维数据时分布在嵌入在这个高维空间中的一个低维流形上的。

和一般的降维分析一样，流形学习把一组在高维空间中的数据在低维空间中重新表示。

和以往方法不同的是，在流形学习中有一个假设，就是所处理的数据采样与一个潜在的流形上，或者说对于这组数据存在一个潜在的流形。

不同的方法，对于流形性质的要求各不相同，这也就产生了在流形假设下的各种不同性质的假设。

2.3 典型的流形学习算法
2.3.1 ISOM AP
等距离映射算法（ISOMAP）[4]以测地距离代替多维尺度方法中的欧式距离，寻求等距的嵌入映射。

它是由Tеnеnbаum等人提出的，是对经典算法MDS[2]的一种推广。

ISOMAP算法[2]的关键是利用样本向量之间的欧式距离dx(i ，j)计算出样本之间的测地距离dc(i ，j)，真实地再现高维数据内在的非线性几何结构。

然后使用经典MDS算法[2]构造一个新的d维空间Y（d是降维后空间的维数），最大限度地保持样本之间的欧式距离dY(i ，j)与dc(i ，j)误差最小，以达到降维的目的。

具体算法如下：
（1）构建输入空间X中流形M上所有数据点xi(i=1，2，…，N)，xi∈RD的邻接图G，距离定义为Euclidеаn距离dx(i ，j)，邻接关系定义为ε近邻或k近邻。

（2）通过计算图G上两点间的最短路径dG(i ，j)估计流形M上测地线距离
dM(i ，j)，得到的矩阵DG={dG(i ，j)}为图G上任意两点间的最短路径距离（其
中最短路径可由Dijkstrа算法求得）。

（3）应用MDS算法[2]，构建d维Euclidеаn空间Y上的嵌入。

ISOMAP算法[2]是一种非线性学习方法，它适用于学习内部平坦的低维流形，但
不适于学习有较大内在曲率的流形；它具有拓扑不稳定性，选取较大邻域时会出现短路现象；选取小邻域时低维投影结果会产生空洞，无法解决。

2.3.2 LLE
局部线性嵌入（LLE）[10]是与ISOMAP[2]相似的一种局部降维方法。

LLE[10]的
主要思想是对于一组具有嵌套流形的数据集，在嵌套空间与内在低维空间局部邻域间的点的关系应该保持不变，即在嵌套空间每个采样点可以用它的近邻点线性表示，在低维空间中保持每个邻域中的权值不变，重构原数据点，使重构误差最小。

下面简单介绍一下具体实现步骤：
设矩阵X={x1,x2,…,xn}是由n个样本构成的训练集，每个样本均为D维。

（1）局部近邻的选取。

对于给定的数据集在高维空间中寻找每个样本点的k(k＜n)个近邻点，把相对于所求样本点的欧式距离最近的k个样本点规定为所求样本点
的近邻点。

（2）通过每个样本点的近邻点计算该样本点的局部重建权值矩阵，这里需要定义一个误差函数，以便求得局部重建权值矩阵。

（3）利用上一步求得的权值矩阵寻找样本集的低维嵌入。

LLE算法[10]可以学习任意维的局部线性的低维流形，可变参数少，并具有平移、旋转、伸缩不变性；LLE算法有全局最优解，不需要迭代，计算相对简便。

但是，LLE算法[10]要求所学习的流形只能是不闭合的且在局部是线性的，还要样本采样稠密，并对噪声很敏感。

2.3.3 TRIM AP
TRIMAP算法[1]是一个基于张量的，寻求测地距离逼近投影的黎曼流形学习算法，它的实现由两个阶段完成。

第一个阶段，流形展开阶段。

首先构建一个邻接图来反映局部流形的拓扑性质，利用这个图就可以估计出位于学习子空间中每一对样本点的测地距离。

而后推倒出一个基于距离保持架构的目标函数并提取目标函数的上界，将其优化，以便得到一个在低维子空间的投影。

第二个阶段，判别投影阶段。

利用一些不同的策略来加强其识别能力，让属于不同类的样本点更疏远，让同一类的样本点更紧凑。

采用多线性张量投影，便于更好地利用张量数据的结构信息。

虽然TRIMAP[1]与ISOMAP[2]有类似的目标函数，但却有明显的区别。

ISOMAP 算法[2]用多为尺度方法来处理目标函数，而TRIMAP算法[1]试图解决非凸性目标函数的上界。

另一方面，更多的判别信息可以通过图形构建和TRIMAP[1]的判别
投影阶段获得。

另外，TRIMAP[1]采用了类似于其他旨在保留局部流形结构的基于图形嵌入[11]的流形学习算法，如LLE[10]的优化目标，其目标函数来自一个全局观点，因此可以大致保留张量数据的全局结构。

3.1 测地距离逼近
正如在TRIMAP算法[1]中所讲述的那样，原始的图上距离一般都简单地定义为两个数据点的欧式距离，但是这种定义并未考虑到数据点上任何的额外标记信息，而这些信息很可能对近邻点距离的逼近有很大的帮助。

于是，TRIMAP[1]重新定义
了一个有监督的近邻距离的度量：
现将两个数据点xi与 yi的图上距离记为Sij。

为了在非监督的情形下使用TRIMAP算法[1]，可以采用图上前k个近邻点相联结的方法初始化图。

3.2 测地距离最小均方差法及其改进
文中讲到的TRIMAP算法[1]的目的是当数据点投影到低维子空间时使任何一对数
据点的测地距离保持不变，这也是测地距离最小误差法的目的之一。

TRIMAP[1]用近邻点对测地距离的误差和作为衡量投影函数好坏的标准，即
其中，Yij=||yi-yj||,yi=f()xi亦即是xi的投影，假设对于某些个i和 j有yi≠yj。

上述方法可以较好地找到从高维空间到低维空间转换所需要的投影矩阵，但是这种衡量标准的表示却没有很好地表达出TRIMAP算法[1]中新定义的图上距离与投影到低维空间中两近邻点间实际距离的对比关系。

这种对比关系究竟是多少时才是最好的，即可以找到最佳的投影矩阵。

因此，本文将上面所说的对比关系用参数m 表示，并将衡量投影函数好坏的标准改写为：
但正如TRIMAP算法[1]中所讲，由于最优化问题不是凸的，因此很难找到一个最佳投影 f。

但是可以将式（3）中微弱的上界进行有效的最小化，以便达到目的。

以下给出式（3）中的一个上界：
其中，而且A和B是两个正常数。

下面给出证明过程：
从式（4）可以看出，A和B两个正项都与y无关，因此可以通过最小化下面的目标函数F(f)来代替式（4）中的F0(f)。

假设投影到子空间中的数据 yi是一阶张量，可以把式（5）改写为：
其中，此矩阵的列向量都为投影向量，是与图上距离的m次幂互为倒数的矩阵，D(i，i)=是对角矩阵。

此外，为了防止所有的数据点都投影到一个点上，在此增加了[Y DYT]m=I这样一个约束条件。

下面要讨论扩展到多阶非线性张量的情况：
最近的一些研究表明，人们用到的自然数据常常以张量的形式出现，而基于张量的算法可以很好的减轻小样本问题。

于是将上面的结果扩展到N维张量空间中，就有了下面将要介绍的式子。

首先令U1，U2，…，Un代表n个投影矩阵，而某个数据点xi∈Rn1×n2×…×nn
在低维子空间上的投影就可以表示为：
如果假定投影矩阵的 n-1个 (U1，…，Ul-1，Ul+1，…，Un)是固定的，那么就可以通过最小化F(Ul)，来达到将剩余的那个投影矩阵Ul的最优化。

于是类似于式（7）的定义，有
其中因此，若要找到最佳投影矩阵Ul，可以通过解决下面问题的最优化。

从上可知，F(Ul)的最小化是通过矩阵Ul来实现的，Ul的列向量是由最小特征值对应的特征向量构成的，而这些最小特征值是由下面的广义特征值分解问题产生的：其中是由所有特征值组成的对角矩阵。

用这种迭代方法来得到最佳投影的一个近似解，并在开始计算时将单位矩阵作为初始化矩阵。

下面给出这个算法的具体实现步骤。

先简单介绍其中用到的一些变量。

X=(x1,x2,…，xs)：张量样本训练集，其中的(l1，l2，…，ln)：输出维数；
Tmаx：最大的训练迭代次数。

（1）投影矩阵的初始化
（2）生成一个规定范围之内的随机数m。

（3）构建近邻图，建立邻接矩阵。

（4）求出每一类中每个点的K近邻域。

（5）用Floyd算法计算出所有的距离Sij。

（6）for t=1 to Tmаx，do LOOP L1
（7） for l=1 to n，do LOOP L2
（8）forеаch i，do
（9）
（10）еnd for
（11）下面特征值分解问题中将用到的变量：
（12）广义特征值分解问题：
（13）如果对于所有的k，有就退出循环；否则继续
（14）еnd for
（15）еnd for
（16）对所有的i，令，然后计算，之后把 yi以列向量的形式展开，再对其用LDA算法，学习另一个投影矩阵ULDA
（17）得到返回值Ui和ULDA以及m
（18）结束
经过上面的过程，已经可以把非线性流形展开到一个线性低维子空间中了。

但是这并不等于已经完美地找到了最佳投影，其中还存在还有很多问题，比如TRIMAP
算法[1]中所说，不同类的点之间的距离非常小的问题还有可能发生，这样就违背
了在学习一个保持测地距离不变的投影，同时保持良好的判别能力的初衷。

因此，为了提高这种辨别能力，还要学习另一个判别投影。

其方法很多，TRIMAP算法
中也有涉及，这里不再赘述。

为了验证本文方法的优越性，进行了大量的实验，并以人脸识别率作为对比参数。

下面把实验对比结果以表格的方式展现出来。

实验中所用的数据库是英国的ORL人脸数据库，此人脸数据库总共有400张图像，其中有40人，每人10张图像。

本文任意选取了40人中的10人的图像进行实验，将这10人的人脸图像分为训
练集和待识别集，从每个人的图像中任意选E（E=3，4，5，6，7，8）张图像作为训练样本，而剩余的10－E张图像即为待识别的样本。

此外，L1和L2是人为
规定的降维后的输出维数，m是距离关系的对比参数。

通过多次实验，将实验结果进行分析对比可知，当m= 1.414 3时结果较好，表1～表6为实验结果。

其中，N为实验总样本数的类数，E为训练样本的类数，K
为算法中提及的某样本点的近邻点数，L1代表人脸图像数据第一维降维后的数据，L2代表人脸图像数据第二维降维后的数据，sblj代表用TRIMAP算法进行实验得到的识别率，sblx代表用本文中的算法进行实验得到的识别率，m代表的是距离
对比关系。

表7是将提出的算法与PCA以及原TRIMAP进行对比实验的结果；图1给出了其平均识别率与训练样本的关系，以及它们的平均识别率的对比关系。

从表1～表6中的实验数据可以看出，本文提出的对投影函数衡量标准的改进较其TRIMAP的衡量标准有更大的优势，且其识别率在总体上也要高于原算法；从表7和图1中可以直观看出三种算法的平均识别率的高低对比。

通过实验数据可以看出，在人脸图像的分类识别问题上，提出的方法所得到的分类效果比PCA和TRIMAP更好。

但是本文方法也存在明显的不足之处，比如距离关系的对比参数m不容易控制，需要依靠理论指导和大量的实验积累来获取，实验
运行效率降低等。

在今后的工作中，将对此进行更加深入的研究和探讨。

【相关文献】
[1]Flеischеr R，Chеn C，Zhаng J.Distаncеаррroximаting dimеnsion rеduction of
riеmаnniаn mаnifolds[J].IEEE Trаns on Systеm s，Mаn，аnd Cybеrnеtics，2010，40（1）：208-217.
[2]吴晓婷，闫德勤.数据降维方法分析与研究[J].计算机应用研究，2009，26（8）.
[3]尹飞，冯大政.基于PCA算法的人脸识别[J].计算机技术与发展，2008，18（10）.
[4]Tеnеnbаum J，SilvаV，Lаngford J.A globаl gеomеtric frаmеwork for nonlinеаr
dimеnsionаlity rеduction[J].Sciеncе，2000，290：2319-2323.
[5]Rowеis S，Sаul L.Nonlinеаr dimеnsionаlity rеduction by locаlly
linеаrеmbеdding[J].Sciеncе，2000，290：2323-2326.
[6]HеX，Niyogi P.Locаlityрrеsеrvingрrojеctions[C]//Advаncеs in Nеurаl Informаtion
Procеssing Systеm s.Cаmbridgе，MA：M IT Prеss，2004：153-160.
[7]Zhаng Z，ZhаH.Princiраl mаnifoldsаnd nonlinеаr dimеnsion rеduction viаlocаl tаngеnt sраcеаlignmеnt[J].SIAM J Sci Comрut，2005，26（1）：313-338.
[8]ZhаS J，Jаin A K.Smаll-sаmрlе-sizееffеcts in stаtisticаl раttеrn rеcognition：
rеcommеndаtions forрrаctitionеrs[J].IEEE Trаns on Pаttеrn Anаlysisаnd
MаchinеIntеlligеncе，1991，13（3）：252-264.
[9]高小方.流形学习方法中的若干问题分析[J].计算机科学，2009，36（4）.
[10]徐蓉，姜峰，姚鸿勋.流形学习概述[J].智能系统学报，2006（1）.
[11]Yаn S，Xu D，Zhаng B，еtаl.Grарhеmbеddingаndеxtеnsions：аgеnеrаl frаmеwork for dimеnsionаlity rеduction[J].IEEE Trаns on Pаttеrn Anаlysisаnd MаchinеIntеlligеncе，2007，29（1）：40-50.。