基于流形学习降维技术的研究概述_黄永毅
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
引言 随着信息技术的不断提高,数据呈指数级增长,对高维数据
进行降维处理成为迫切需要解决的问题。传统的降维技术如主成分 分析,独立成分分析(KICA),Fisher判别分析(Kernel Fisher Discriminant Analysis,KFDA)[1-2]等,能够对具有线性结构的数 据集进行一定的维数约简,然而现实中膨胀的高维数据使计算量迅 速上升,导致现有的线性降维方法难以直接用于分析高维的非线性 数据。目前,主要的非线性降维方法有两种,即基于核的方法[3]和 基于流形的方法[4]。前者利用Mvercer核其对应的再生核希尔伯特空 间(reproduction kernel Hilbert space,RKHS),不用创建复杂 的假设空间,通过定义Mvercer核隐式地定义特征空间。然而,基 于核的方法缺点是核函数往往需要凭经验选择。而基于流形学习的 降维方法是近年发展起来的降维方法,它的根本目的是揭示数据中 内在的非线性结构,寻找高维数据在低维空间中的紧致嵌入,能很 好的发现数据的欧式结构,而且能更好的挖掘出低维流形内在的几 何结构及内在规律,从而实现数据降维。 1 流形定义和流形学习
Hale Waihona Puke Baidu
LLE的主要优点在于保留了与邻接点之间的关系,使每个点的 近邻权值保持不变。但是,由于LLE对于等距流形,LLE不一定能很 好地恢复出同它等距的低维嵌入,从而影响嵌入结果。针对LLE方法 的不足,CHOI提出的稳健局部线性嵌入法[7],较好的解决了噪声对 数据集的影响,并且对邻域的选择也有较好的适应性。
DOI:10.3969/j.issn.1001-8972.2013.14.016
基于流形学习降维技术的研究概述
黄永毅 南阳医学高等专科学校,河南南阳 473061
摘要 流形学习是近几年发展起来的降维方法,它能够发现非线性高维数 据中的内在低维结构,从而实现非线性降维。目前,流形学习已成 为机器学习和数据挖掘领域的研究热点问题。本文主要介绍了流形 学习的基本思想,综合了几种主要的流形学习算法,分析了其优势 和不足。
结语 本论文从氡的基本性质入手,系统阐
述了操作简便、准确度高、探测下限低的闪 烁室测氡法,利用matlab软件编程,实现 了闪烁室测氡的计算机模拟,绘制曲线直观 的得出闪烁室测量氡及其子体放射出的α粒 子总计数的变化趋势,对于我们了解闪烁室 测氡的优越性,为将测氡的理论应用于实际 生活提供了理论依据。 参考文献 [1]孙世荃.人类辐射危害评价.原子能出版 社,1996 [2]赵亚民等译.环境中氡的来源及危害.中国环 境科学出版社,1990 [3]J.E.Gingrich.Radon as a geochemical exploration tool.Journal of Geochemcial Exploration,VOI.ZI.1996 [4]李素云译.住宅和工作场所氡-222的防 护.原子能出版社,1997 [5]张纯祥,罗达玲.混合Rn-222、Rn-220子体 浓度测定和最小二乘法.辐射防护,1983 作者简介 武永伟,男,1987年8月出生,大学本科毕 业,工学学士, 63666部队助理工程师,研究 方向:放射性测量。 李琦,女,1988年12月出生,中国地质大学 (北京)硕士研究生在读,研究方向:放射性 水文研究。
2.3 拉普拉斯特征映射法(Laplacian Eigenmap) Laplacian Eigenmap是由Belkin于2003年提出,其基本思想是 在高维空间中离得很近的点投影到低维空间中的像也应该离得很 近。步骤如下:
下转第56页
-51-
基础及前沿
中国科技信息2013年第14期 CHINA SCIENCE AND TECHNOLOGY INFORMATION Jul.2013
上接第47页 系列1957~2007年计51年,1962年提出后, 其他各年按连序系列处理。洪量频率计算按 绘线读点补矩法,Cs参数取2.5Cv,线型按 PⅢ型曲线,Cv参数根据适线情况确定。雹 神庙站洪量经验频率计算见表3和表4。 表3 雹神庙站W24h经验频率计算表
单位:106m3
表4 雹神庙站W三经验频率计算表 单位:106m3
近几年来,研究人员又提出了一些其它 的降维算法,包括海森局部线性嵌入(Hessian Locally Linear Embedding,HLLE),局部线 性调和(Locally Linear Coordination,LLC), 局部坐标排列(Local Coordinates Alignment,LCA)[9]等。此类算法其共性的特 征是都需要在每个样本点附近寻找一个近邻 域,并基于此邻域来刻画流形在每个样本点位 置的局部几何结构;其次在将数据映射至低维 空间时,这些算法都尽量保持所刻画的局部几 何结构尽量不变。
-56-
上接第51页
Laplacian Eigenmap在降维时将邻近点映 射到低维空间上仍然是邻近的,因此能够很好 地处理分类问题;但是其参数σ对嵌入结果有 着重要的影响,如何选择最佳的或者最合适的 是Laplacian Eigenmap的一个难题。
Belkin等人[8]对Laplacian Eigenmap进行了 改进,通过用样本点(有标记和无标记的)来 估计流形的结构,以适应于半监督学习。 3 其它方法及发展方向
可以看出,流形学习的本质是当样本空间为一个高维光滑流形 时,要从样本数据中学习出这个高维流形的内在几何结构或内在规 律,得到对应的低维数据集,实际上也就是非线性降维。这种降维 方法比传统的线性降维方法更能体现事物的本质,更利于对数据的 理解和进一步处理。 2 流形学习中的主要降维方法
在流形学习中具有代表性的算法主要分为:基于全局的方法 和基于局部的方法,前者是计算每一个数据点与所有其他数据点的 关系,从而建立全连接图;主要有:等距映射(Isomap)等。而 后者是通过从局部到整体的思想保持观测空间和内在嵌入空间的局 部几何共性,发现嵌入在高维欧氏空间中的内在低维流形;主要有 Locally Linear Embedding, Laplacian Eigenmap [5]等。
然而,现有的基于流形的降维方法大多 基于小的邻域学习,期望通过在小邻域上的学 习得到一个全局的坐标,这往往是不现实的。 此外,多数的方法也是在无监督的情况下学 习。因此,如何将全局与局部数据学习结合起 来,以及如何将其推广到半监督,监督情况 下,都是很有价值的研究课题。 4 小结
对高维数据进行维数约简是数据挖掘领 域一个重要组成部分。基于流形学习的降维方 法能很好的挖掘出数据集中低维流形的几何结 构和内在规律,近年来取得了丰厚的成果,但 由于其数学理论较为复杂,对高维数据中低维 结构的研究还有待进一步的研究。本文对流形 学习进行了阐述,着重对基于流形学习的降维 方法进行分析,评价了优缺点,并对一些优秀 的改进方法进行了介绍。目前,基于流形的降 维方法中很多问题还处于研究阶段,如现有的 方法能在多达程度上逼近流形的内在结构, 流形学习的泛化能力,等,都是值得研究的问 题。 参考文献 [1]刘海峰,王元元,张学仁等.文本分类中一种基 于正交变换的特征降维方法[J].计算机科学,2008, 35(5): 125-126. [2]吴春国,等.关于SVD与PCA等价性研究.计算机 学报[J],2004(2):286-288. [3]BRAND M.Continuous nonlinear dimensionality reduction by kernel eigenmaps[C]//CHAPELLE O,SCH LKOPF B,ZIEN A.Semisupervised learning.A capulco:MIT Press,2006:547-554. [4]SEUN G S,L EE D D.The manifold ways of percepTion[J].Science,2000,290(5500):2268-2269. [5]ZHANG Zhen-ye,ZHA Hong-yuan.Principal manifolds and nonlinear dimension reduction via local tangent space alignment[J]. SIAM Joumal of Scientific Computing,2004,26(1):313-338. [6]邵超,黄厚宽.一种新的基于ISOMAP的数据可视 化算法[J].计算机研究与发展,2007,44(7), 1137-1143. [7]CHOI,H,CHOI S.Kemel isomap[J].Electronics letters,2004,40(25):1612-1613. [8]BELKIN M,NIYOGI P,SINDHWANI V.On manifold regularization[C]//Proc of the 10th International Workshop on Artificial Inteligence and Statistics.2009:17-24. [9]高小方. 流形学习方法中的若干问题分析[J].计 算机科学,2009,4(36):25-27.
示;
图4-1 matlab软件仿真模拟闪烁室测氡结果
图4-2 排氡实验装置 其次按照图4-3将氡源与闪烁室连接形 成闭环通路,进行密闭循环10分钟;
图4-3 循环装置 最后每隔一分钟读取一个数据,连续 测量三个小时,并做好记录,绘制曲线如图 4-4所示。
图4-4 总α计数曲线 由于放射性物质衰变存在随机效应, 在误差范围内实验测得总α计数曲线与 matlab软件模拟测试结果进行比较,两条 曲线趋势大体一致,对一小时和三小时两个 点处的平均值进行比较求出k值为:
2.2 局部线性嵌入法(Locally Linear Embedding,LLE) 2000年Roweis和Saul在《Science》上提出了LLE算法。其主要 思想是对于一组具有嵌套流形的数据集,在嵌套空间与内在低维空 间局部邻域间的点的关系应该不变。 具体步骤如下:
根据流形的定义:就可以形式化地给出流形学习问题的数学描 述:
2.1 Isomap Isomap是Tenenbaum与Silva于2000年在《Science》上提出 的。它是一个利用非线性的局部变量信息学习数据集的全局几何结 构的方法,其突出的特点是用测地距离来度量高维空间中的样本点 之间的距离其主要思想是利用局部邻域距离近似计算数据点间的流 形测地线距离,通过建立原数据的测地线距离与降维数据间的空间 距离的对等关系完成数据降维。主要步骤为:
Isomap方法不仅将流形上邻近的点映射到低维空间中的邻近 点,同时保证将流形上距离远的点映射到低维空间中远距离的点; 它能够更忠实地表达数据的全局结构,易于从理论角度理解度量的 保持;然而,Isomap没有定义样本空间到嵌入空间的映射,对于一 个未知点不能直接投影到嵌入空间,Isomap的本征维数通常要经过 多次实验绘制残差曲线才能得到,这使得不仅耗时而且不能保证结 果的有效性。另外,Balasubramanian指出,Isomap对于有噪声数 据,在选取较大的邻域时,会出现短路现象。邵超等人[6]通过二阶最 小生成树等方法一定程度上解决了Isomap算法中“短路”问题。这 种方法在可视化意义下取得了较好的效果。