流形学习的理论和方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Law M H等,Nonlinear manifold learning for data stream,针对数 据流的特点提出增量式的Isomap算法
❖ 流行学习的统一框架
流形学习+核函数的研究
wenku.baidu.com
作品欣赏 谢谢观看!
流形学习的理论和方法
主要内容
❖ 研究背景 ❖ 几种算法 ❖ 研究方向
研究背景
❖ 数据降维的目的是找出高维数据中所隐藏的 低维结构。
❖ 高维数据: ❖ 低维数据: ❖ 分类
线性降维 非线性降维
研究背景
❖ 线性降维
通过降维得到的低维数据能够保持高维数据点之间的线
性关系,即:若存在线性映射 使得

流形学习的方法
❖ ISOMAP ❖ LLE ❖ HLLE ❖ LE ❖ LTSA
主成分分析(PCA)
❖ 将方差的大小作为衡量信息量的标准,方差 越大提供信息越多,反之提供信息越少。
❖ 通过原分量的线性组合构造方差大、含信息 量多的若干主分量,这些主分量之间不相关, 并且尽可能表示原始变量包含的信息,选取 最大的几个主成分进行分析,就可以在尽可 能少损失原有信息的基础上,降低数据的维 度,提高运算的效率。
❖ 2000年,S T Roweis等,Nonlinear dimensionality reduction by locally linear embedding,Science, (Locally Linear Embedding ,简称LLE )
❖ 2000年, H S Seung等,Nonlinear dimensioinality reduction by locally linear embedding,Science
流形学习
❖ 基本思想:每个高维空间内的流形都有一个 低维空间内的流形与之对应,只要找出一个 光滑映射,就可以把高维原数据映射成其低 维目标空间内的对应。
❖ 流形的本质是局部化,用数学语言说,就是 一个局部可坐标化的拓扑空间。“局部坐标” 可以将问题分解为局部问题进行计算,而拓 扑空间又能保证将局部计算结果合理、光滑 地拼接起来,揭示问题的整体结构。
❖ 延伸方向,就是指嵌入空间的局部数据变化的主要 方向
放大因子
放大因子
延伸方向
其他研究方向
❖ 领域因子选择问题
Kouropteva等,2002,为LLE自动选择领域因子 Samko等,2004,Selection of the optimal parameter value for the
❖ Isomap 建立在MDS 的基础上,力求保持数据 点的内在几何性质,即保持两点间的测地距离。
❖ 它同MDS 的最大区别在于,MDS 构造的距离 矩阵反映的样本点之间的欧氏距离,而Isomap 构造的距离矩阵反映的是样本点之间的测地距 离。
❖ 测地距离的近似计算方法如下:样本点 和它的 邻域点之间的测地距离用它们之间的欧氏距离 来代替;样本点 和它邻域外的点用流形上它们 之间的最短路径来代替。
❖ 计算过程通过矩阵奇异值分解SVD来实现。
PCA数学模型
PCA算法
多维尺度变换(MDS)
❖ MDS也是一种广泛应用的线性降维方法。 ❖ MDS 原用于差异性的几何表示,用在降维上,
是将高维点的欧氏距离矩阵作为差异性矩阵。
MDS数学模型
MDS算法
等距映射(Isomap )
Isomap algorithm,为Isomap自动选择领域因子 Wang Jing, Zhang Zhenyue, Zha Hongyuan. Adaptive Manifold
Learning,2004,在每个样本点上自适应地选择领域因子 张军平,通过集成的方式来改进流形学习产生的不稳定性
❖ 数据流的流行学习
则这个高维数据点从降到低维的过程为线性降维。
两种算法
❖ PCA
❖ MDS
❖ 非线性降维
KPCA 流形学习
流形学习
❖ 2000年,J B Tenenbaum等,A global geometric framework for nonlinear dimensionality reduction, Science,(Isomeitric Mapping ,简称Isomap )
局部线性嵌入(LLE)
海赛局部线性嵌入(HLLE)
拉普拉斯特阵映射(LE)
局部切空间排列( LTSA )
研究方向
❖ 基本算法研究 ❖ 内在维数研究 ❖ 定量化研究 ❖ 监督学习算法研究 ❖ 范畴问题研究 ❖ 其他
领域因子选择问题 数据流的流行学习 流行学习的统一框架
❖ 张军平——局部放大因子和延伸方向——判别流行 学习算法准确性的一种定量评估准则
❖ 放大因子,就是观测空间的数据点变化趋势与在嵌 入空间的变化趋势的比值,这个比值在连续模型中 相当于在降维的映射下,一个高维空间映射到低维 空间后的“体积”比的比例——微分几何中的”微 观”放大因子——Bishop的生成式拓扑映射
内在维数研究
❖ PCA方法基于方差比来确定约简维数 ❖ ISOMAP利用方差损失形成的拐点估计维数 ❖ 其他
最近邻域 分形维 Packing Numbers 测地线最小生成树
基于Packing Numbers的内在维数研究
定量化研究
❖ 高维数据集的内在维数如何影响高维空间的流形结 构?———没有一般性研究
相关文档
最新文档