基于流形学习降维技术的研究概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
里i 和 , 表 示 两 个样 本 , 下标 G 是G r a p h 缩写 ) 。
3 ) 用M D S 方法获得低维 投影。定义 为 Dc 引言
随 着 信 息技 术 的 不断 提 高 ,数 据 呈指 数 级 增长 ,对 高维 数 据 进行 降维 处理 成为 迫切需 要解 决 的问题 。传 统的 降维技 术 如主成 分 分析 ,独 立成 分分 析 ( KI c A) ,F i s h e r  ̄ q 分析 ( K e r n e l F i s h e r D i s c r i mi n a n t A n a l y s i s , KF D A) 等 ,能够 对具 有线 性结 构的 数 据 集 进行 一定 的维数 约 简 ,然 而现 实 中膨胀 的高 维数据 使计 算量 迅 速上 升 ,导致 现有 的线性 降维 方 法难 以直接 用于 分析 高维 的非线 性 数据 。 目前 ,主 要 的非 线性 降维 方 法有 两种 ,即基 于核 的方 法 和 基于 流形 的方法 。前者 利用 Mv e r c e r 核其 对应 的再生 核希 尔伯特 空 间 ( r e p r o d u c  ̄ o n k e r n e l Hf l b e r t s p a c e ,R KH S ) ,不用 创建复 杂 的假 设空 间 ,通过 定 义Mv e r c e r 核隐 式地 定 义特 征空 间 。然而 ,基 于核 的方 法缺 点是 核 函数 往往 需要 凭 经验选 择 。而基 于流形 学 习的 降维 方法 是近 年发 展起来 的 降维方 法 ,它的 根本 目的是 揭示 数据 中 内在 的非 线性 结构 ,寻找 高维 数据 在低 维空 间 中的紧致 嵌入 ,能 很 好 的 发现数 据 的欧式 结构 ,而 且能 更好 的挖 掘出低 维流 形 内在的 几 何 结构 及 内在 规律 ,从而 实现数据 降维 。
D O I :1 0 . 3 9 6 9 / j . i s s n . 1 0 0 1 - 8 9 7 2 . 2 0 1 3 . 1 4 . 0 1 6
基于流形 学习降维技 术的研究概 述
黄永毅 南阳医学高等专科 学校 , 河 南南阳 4 7  ̄ 0 6
摘 要 流形 学 习是近 几年 发展起 来 的 降维方 法 ,它能够 发现 非 线性 高维数 据 中的 内在低 维结 构 ,从 而实现 非 线性 降 维。 目前 ,流形 学 . - J已成 为机 器 学 习和 数据挖 掘领 域 的研 究热 点问题 。 本文主要 介 绍 了流形 学 习的基 本思 想 ,综合 了几种 主要 的流 形 学习算 法 ,分析 了其优 势
流形 ,简 称 为 n维 流 形 。 根 据流 形的 定义 :就 可 以形式化 地给 出流形 学 习问题 的数学 描
表示线性相关系数 。
I s o ma p 方 法 不 仅 将流 形 上 邻近 的 点 映射 到 低 维 空 间 中的 邻近 点 ,同时 保证 将 流形 上 距离远 的 点映 射 到低 维空 间 中远 距 离 的点 ; 它能够 更 忠 实地表 达 数据 的全 局 结构 ,易于从 理论 角度理 解度 量 的 保 持 ;然 而 ,I s o ma p 没有 定义 样本 空 间到嵌 入空 间 的映射 ,对 于一 个 未知 点 不能 直接 投影 到嵌 入 空间 ,I s o ma p 的本 征维 数通 常要 经过 多次实 验 绘制 残差 曲线才 能得 到 ,这 使得 不仅 耗时 而且 不 能保 证结 果 的 有效 性 。 另外 ,B a l a s u b r a ma n i a n }  ̄ 出 ,I s o ma p 对于 有噪 声 数 据 ,在 选取较 大的 邻域时 ,会 出现短 路现 象 。邵 超等 人 通过 二阶 最 小 生成 树 等方 法一 定程 度上 解决 了I s o ma p 算法中 “ 短 路 ”问题 。这 种 方法在 可视化 意义下取 得 了较 好的效 果 。 2 . 2局部 线性嵌 入法 ( L o c a l l y L ne i a r E mb e d d i n g ,L L E ) 2 0 0 0 年Ro we i s  ̄ [ 1 S a u l 在 d S c i e n c e  ̄ 上提 出了L L E 算 法 。其主要 思 想是 对 于一 组具 有嵌 套 流形 的数 据集 ,在嵌 套空 间与 内在低 维空 间局部邻 域 问的点的 关系应 该不变 。 具 体步 骤如 下 :
G L , "
,
令
S ( S = ( D ) ) , H =( H ) ( , 一 1 / Ⅳ)
4 ) I s o m a p 给 出流 确 定 降 维 的准 则 。衡 量 降 维 误 差 的残 差 :
e d 1 一R ( D ) 。 其中: D 是 d维空间的欧氏距离矩阵;
和不足。
1 ) 构造 局部邻域, 对数 据集X ቤተ መጻሕፍቲ ባይዱI x , , … ∈ R } 中的 每
一
个数据 点 X 的近邻点 X ( k邻域 )( 1 , … Ⅳ; , =1 , …, k ) 得
到邻 接 矩 阵 G 。 2 ) 计算近邻 中任意两个样本之 间的测地距离。计算两点之 间的最短路 径 d a ( f , , ) ,作 为样 本点之 间的测地距离 的近似 ( 这
1流形定 义和 流形学 习
流 形 是微 分 几 何 中 的概 念 , 其定义为: 设 M 是一 个 H a u s d o r f f
拓扑空 间,若 M 得 每一点 P都有一个开邻域 U cM , 使得 【 , 和 维欧式空间尺 中 的一 个 开子 集 同 胚 ,则 称 是 一 个 维 拓 扑