流形学习的理论和方法

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

流形学习的理论和方法
主要内容
研究背景几种算法研究方向
研究背景
数据降维的目的是找出高维数据中所隐藏的低维结构。高维数据：低维数据：分类
线性降维非线性降维
研究背景
线性降维
通过降维得到的低维数据能够保持高维数据点之间的线性关系，即：若存在线性映射使得，则这个高维数据点从降到低维的过程为线性降维。两种算法
流形学习的方法
ISOMAP LLE HLLE LE LTSA
主成分分析（PCA）
将方差的大小作为衡量信息量的标准，方差越大提供信息越多，反之提供信息越少。通过原分量的线性组合构造方差大、含信息量多的若干主分量，这些主分量之间不相关，并且尽可能表示原始变量包含的信息，选取最大的几个主成分进行分析，就可以在尽可能少损失原有信息的基础上，降低数据的维度，提高运算的效率。计算过程通过矩阵奇异值分解SVD来实现。
局部线性嵌入（LLE）
海赛局部线性嵌入（HLLE）
拉普拉斯特阵映射（LE）
局部切空间排列（ LTSA ）
研究方向
基本算法研究内在维数研究定量化研究监督学习算法研究范畴问题研究其他
领域因子选择问题数据流的流行学习流行学习的统一框架
内在维数研究
PCA方法基于方差比来确定约简维数 ISOMAP利用方差损失形成的拐点估计维数其他
放大因子
放大因子
wenku.baidu.com伸方向
其他研究方向
领域因子选择问题
Kouropteva等，2002，为LLE自动选择领域因子 Samko等，2004，Selection of the optimal parameter value for the Isomap algorithm，为Isomap自动选择领域因子 Wang Jing, Zhang Zhenyue, Zha Hongyuan. Adaptive Manifold Learning，2004，在每个样本点上自适应地选择领域因子张军平，通过集成的方式来改进流形学习产生的不稳定性
流形学习
基本思想：每个高维空间内的流形都有一个低维空间内的流形与之对应，只要找出一个光滑映射，就可以把高维原数据映射成其低维目标空间内的对应。流形的本质是局部化，用数学语言说，就是一个局部可坐标化的拓扑空间。“局部坐标” 可以将问题分解为局部问题进行计算，而拓扑空间又能保证将局部计算结果合理、光滑地拼接起来，揭示问题的整体结构。
PCA数学模型
PCA算法
多维尺度变换（MDS）
MDS也是一种广泛应用的线性降维方法。 MDS 原用于差异性的几何表示，用在降维上，是将高维点的欧氏距离矩阵作为差异性矩阵。
MDS数学模型
MDS算法
等距映射（Isomap ）
Isomap 建立在MDS 的基础上，力求保持数据点的内在几何性质，即保持两点间的测地距离。它同MDS 的最大区别在于，MDS 构造的距离矩阵反映的样本点之间的欧氏距离，而Isomap 构造的距离矩阵反映的是样本点之间的测地距离。测地距离的近似计算方法如下：样本点和它的邻域点之间的测地距离用它们之间的欧氏距离来代替；样本点和它邻域外的点用流形上它们之间的最短路径来代替。
数据流的流行学习
Law M H等，Nonlinear manifold learning for data stream，针对数据流的特点提出增量式的Isomap算法
流行学习的统一框架
流形学习+核函数的研究
PCA MDS
非线性降维
KPCA 流形学习
流形学习
2000年，J B Tenenbaum等，A global geometric framework for nonlinear dimensionality reduction， Science，（Isomeitric Mapping ，简称Isomap ) 2000年，S T Roweis等，Nonlinear dimensionality reduction by locally linear embedding，Science，（Locally Linear Embedding ，简称LLE ) 2000年， H S Seung等，Nonlinear dimensioinality reduction by locally linear embedding，Science
最近邻域分形维 Packing Numbers 测地线最小生成树
基于Packing Numbers的内在维数研究
定量化研究
高维数据集的内在维数如何影响高维空间的流形结构？———没有一般性研究张军平——局部放大因子和延伸方向——判别流行学习算法准确性的一种定量评估准则放大因子，就是观测空间的数据点变化趋势与在嵌入空间的变化趋势的比值，这个比值在连续模型中相当于在降维的映射下，一个高维空间映射到低维空间后的“体积”比的比例——微分几何中的”微观”放大因子——Bishop的生成式拓扑映射延伸方向，就是指嵌入空间的局部数据变化的主要方向