高维数据流形的低维嵌入问题研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第10卷 第5期大连民族学院学报
Vol .10,No .5 2008年9月
Journal of D alian N ationalities University
Septembe r 2008
文章编号:1009-315X (2008)05-0441-03
高维数据流形的低维嵌入问题研究
吴晓婷1,马玉梅2
(1.辽宁师范大学计算机与信息技术学院,辽宁大连116029;2.大连民族学院理学院,
辽宁大连116605)
摘 要:Is o m ap 是基于流形理论提出的一种非线性降维方法,用于恢复潜藏于高维空间低维子流形中数据的低维参数。Is omap 方法的一个重要前提是假设数据空间与参数空间之间存在等距映射。通过流形学习和对Iso map 方法的分析,证明了高维数据空间与参数空间之间存在一般意义下的等距映射,并引用一个基于Iso map 的实例说明Is o m ap 算法的有效性。关键词:流形;等距映射;Is o m ap;测地线距离;数据降维中图分类号:TP18
文献标志码:A
The Resea rch on the M ean i n gfu l L ow -D i m en siona l Em bed of
H igh -d i m en siona l Da ta M an i f old
W U X i a o -t i n g 1
,M A Yu -m e i
2
(1.College of Compute r and Infor ma tion Technol ogy,L i aoning No r ma l University,Da lian Liaoning 116029,China;2.Coll ege of Sc ience,Da lian Na ti onalities University,Da lian L i aoning 116605,China)
Ab stra ct :Is om ap is a non -linear di mensi onality reducti on m ethod based on the theory of man 2if old to r ecover a low -di m ensi onal para m ete rs lying on a l ow -di m ensional sub -m anifold in high -di m ensional s pace .The i mportant p r econditi on of Iso m ap is supposing that there is an i 2som etric mapp ing bet ween the data s pace and the para m ete r space .This paper pr oved the exist 2ence of is om etric m a pp ing bet ween high -di m ensi onal data space and the para m eter s pace .And we als o use some exa mp les based on I som ap t o expla in the effectiveness of I som ap.
Key word s:m anifold;is om etric m apping;is om ap;geodesic distance;data di mensi ona l reduc 2tion
1 概 述
在不同距离、不同方向,或在不同姿态和光照强度下,同一个对象能够形成多种不同的图像。一个对象所有图像的集合可以看作是以位置、尺
度、姿态、光照等为参数的一个高维空间数据流形,其维数由引起图像变化的参数个数决定。随着信息时代的到来,科研工作者在研究过程中不可避免地会遇到大量的高维数据,如全球气候模型、人类基因分布等,通过降维可以找出隐藏在高
维数据中的低维结构。本文旨在通过流形学习,分析Is om ap 的方法,并给出文献[1](对于一个参
数化的图像族f θ∶
R 2
→R 等距映射存在性)的证明,即对于L 2
上一族平移函数存在等距映射,应用实例说明Is om ap 算法的有效性。
1.1 流形的定义
定义1 设M 是Hausdorff 空间,如果M 是局部欧氏的,即对每一点p ∈M ,都存在p 的一个开邻域U 和R m 中的一个开子集同胚,则称M 是一个m 维流形。
3收稿日期作者简介吴晓婷(5),女,内蒙古呼伦贝尔人,辽宁师范大学计算机与信息技术学院硕士研究生,主要从事模
式识别研究。
:2007-09-01
:198-
442
大 连 民 族 学 院 学 报第10卷
流形是拓扑学中的概念,其表示一个局部为欧几里得的拓扑空间,即意味着对于空间上任一点都有一个邻域,在这个邻域中的拓扑与R m空间中的开单位圆相同。也就是说,流形是一个局部可坐标化的拓扑空间,从拓扑空间的一个开集(邻域)到欧氏空间的开子集的同胚映射,使得每个局部可坐标化。
1.2 流形学习的产生及发展
流形学习方法最早提出来是用于数据降维。由于人们通常需要处理大量的高维数据,比如天气状况、星云图、人类的基因分布等,都要遇到数据降维的问题,即找出隐藏在高维的可观察数据空间里的一种有意义的低维结构,这个寻找的过程就称为流形学习(m anifold learning)。
近年来,流形学习领域产生了大量的研究成果。2000年,Ro weis和Saul提出了LLE[2]算法。此算法不仅能够有效地发现数据的非线性结构,同时还具有平移、旋转等不变特性。但LLE算法要求所学习的流形只能是不闭合的且在局部是线性的,还要求样本在流形上是稠密采样的。另外,该算法的参数选择不确定,对样本中的噪音很敏感。同年,Tenenbaum等人提出了Is om ap[3]算法。
Is om ap算法首先使用最近邻图中的最短路径得到近似的测地线距离,然后输入到多维尺度分析(MDS)中处理,进而发现嵌入在高维空间的低维坐标。
最近2年,Is om ap方法在国内引起了广泛的兴趣。赵连伟[4]等人在2005年完善了Is om ap的理论基础,给出了一般光滑流形与其低维参数空间等距映射的存在性证明,并给出一种有效的环状流形发现算法。
2 Iso map算法及等距映射存在性
2.1 Is om ap的主要思想及算法步骤
Is om ap算法的主要思想是使用流形上测地线距离代替不能表示内在流形结构的Euclidean 距离,然后应用MD S算法,进而发现潜入在高维空间的低维坐标。所谓任意两点在流形上的测地线距离是两点之间沿着流形的最短路径。如图1[5]的A中样本分布于s wiss-r oll上,两点间的欧氏距离(虚线)不能表征两点的实际距离,分布于流形面上的曲线是两点的测地线距离;B,C是Is om ap降维后两点和两条路径(测地线和短程拼接)的投影结果。
图1 Is oa mp基本思想 Is om ap算法的标准步骤有三步:
(1)构建输入空间X中流形M上所有数据点
x i ,i=1,2,……,N,x
i
,∈R D的邻接图G,距离定
义为Euclidean距离d
x
(i,j),邻接关系定义为ε球或K最近邻。
(2)通过计算图G上两点间的最短路径d
G (i,j)估计流形M上测地线距离d
M
(i,j),得到的矩阵D G={d G(i,j)}为图G上任意两点间的最短路径距离。
(3)应用MDS算法,构建d维Euclidean空间Y上的嵌入。
等距映射的存在性
定义[] M为L上的子流形。假设M上的测地线距离与参数空间Θ上的欧氏距离成比例,那么,就说(Θ,G)与(Θ,‖‖)是等距的,且Is om ap成立。
定理1[2] 假设有一个参数化的图像族fθ∶R2→R,它由一个普通原形的平移fθ(x)=f0(x-θ)定义,且f
适当的常数c>0,fθ ,fθ 1 间的测地线距离有如下形式:G(θ0,θ1)=c‖θ0-θ1‖,则等距存在且Is o2 m ap完全成立。 下面考虑一般意义下的等距映射。设(X,d 1 ), (Y,)是两个度量空间,T∶X→Y为等距映射是指(x,y)=(Tx,Ty)。事实上定义中的等距是一种与距离成比例的关系。进一步可以推出满足 2.2 212 d2 d 1 d 2 2