降维算法(二) 非线性降
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9
等距映射(Isomap)
流形学习算法
流形学习方法(Manifold Learning),简称流形学习,自 2000年在著名的科学杂志《Science》被首次提出以来, 已成为信息科学领域的研究热点。在理论和应用上, 流形学习方法都具有重要的研究意义
麻省理工学院计算机科学与人工智能实验室的JoshTenenbaum教授
3
如果直接把低维度的数据转化到高维度的空间 中,然后再去寻找线性分割平面,会遇到两个 大问题。 一是由于是在高维度空间中计算,导致curse of dimension问题; 二是非常的麻烦,每一个点都必须先转换到高 维度空间,然后求取分割平面的参数等等;怎 么解决这些问题?
答案是通过核方法(kernel method)
6
核函数的存在性判断和如何构造?
既然我们不关心高维度空间的表达形式,那么怎么才能判断一个函 数是否是核函数呢?
Mercer 定理:任何半正定的函数都可以作为核函数。所谓半正定
的函数f(xi,xj),是指拥有训练数据集合(x1,x2,...xn),我们定义一个矩 阵的元素aij = f(xi,xj),这个矩阵式n*n的,如果这个矩阵是半正定的, 那么f(xi,xj)就称为半正定的函数。
14
流形学习的几何图示
15
16
算法描述
17
Isomap的优点
求解过程依赖于线性代数的特征值和特 征向量问题,保证了结果的稳健性和全 局最优性; 能通过剩余方差判定隐含的低维嵌入的 本质维数; Isomap方法计算过程中只需要确定唯一 的一个参数(近邻参数k或邻域半径e)
18
5
这里还有一个问题:“为什么我们要关心向量的内积?”,一般地, 我们可以把分类的问题分为两类: 参数学习的形式和基于实例的学习形式。
参数学习的形式
就是通过一堆训练数据,把相应模型的参数给学习出来, 然后训练数据就没有用了,对于新的数据,用学习出来的参数即可以得 到相应的结论; 基于实例的学习 (又叫基于内积的学习)则是在预测的时候也会使用训练数据,如KNN算法。 而基于实例的学习一般就需要判定两个点之间的相似程度, 一般就通过向量的内积来表达。从这里可以看出,核方法不是万能的, 它一般只针对基于实例的学习。
这个mercer定理不是核函数必要条件,只是一个充分条件,即还有不满 足mercer定理的函数也可以是核函数。
7
常见的核函数有高斯核,多项式核等等, 在这些常见核的基础上,通过核函数的 性质(如对称性等)可以进一步构造出 新的核函数。
8
核函数设计和算法设计
1)收集和整理样本,并进行标准化; 2)选择或构造核函数; 3)用核函数将样本变换成为核函数矩阵, 这 一步 相当于将输入数据通过非线性函数映射到高维特征 空间; 4)在特征空间对核函数矩阵实施各种线性算法; 5)得到输入空间中的非线性模型。
4
核方法的原理
定义一个核函数K(x1,x2)=< ( x1 ), ( x2 ) > 其中x1和x2是低维度空间中点(在这里可以是 标量,也可以是向量),φ (xi)是低维度空 间的点xi转化为高维度空间中的点的表示, < , > 表示向量的内积。
注意:这里核函数K(x1,x2)的表达方式一般都不会显式 地写为内积的形式,即我们不关心高维度空间的形式。 核函数巧妙地解决了上述的问题,在高维度中向量的 内积通过低维度的点的核函数就可以计算了。
降维算法(二) 非线性降维
一、 核技巧(Kernel method) 二、等距映射(Isomap)
1
核函数发展历史
早在1964年Aizermann等在势函数方法的研究中 就将该技术引入到机器学习领域,但是直到1992年 Vapnik等利用该技术成功地将线性SVMs 推广到非线性SVMs时其潜力才得以充分挖掘。 而核函数的理论则更为古老,Mercer定理可以 追溯到1909年,再生核希尔伯特空间 (ReproducingKernel Hilbert Space, RKHS) 研究是在20世纪40年代开始的。
10
而非线性方法则是对线性方法的线性扩展,如主成分 分析(Principal component analysis,PCA),多维尺 度变换(Multidimensional scaling,MDS)等。
11
12
13
Isomap的主要目标是对于给定的高维流形,欲 找到其对应的低维嵌入,使得高维流形上数据 点间的近邻结构在低维嵌入中得以保持。 Isomap以MDS(Multidimensional Scaling)为计 算工具,创新之处在于计算高维流形上数据点 间距离时,不是用传统的欧式距离,而是采用 微分几何中的测地线距离(或称为曲线距离), 并且找到了一种用实际输入数据估计其测地线 距离的算法(即图论中的最小路径逼近测地线 距离)。
2
核方法
核方法的思想
Baidu Nhomakorabea
核方法的主要思想是基于这样一个假设:“在低维空间中不能线性分割的点集, 通过转化为高维空间中的点集时,很有可能变为线性可分的” ,例如下图
左图的两类数据要想在一维空间上线性分开是不可能的,然而通过F(x)=(x-a)(x-b) 把一维空间上的点转化为右图上的二维空间上,就是可以线性分割的了