维数约简经典方法综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主要步骤
构造一个连接邻域点的图 计算最短距离D( D描述样本点之间在流形上相对位置) 应用MDS
基本思想
对一组具有流形的数据集,在嵌套空间与内在低维空 间局部邻域问的关系应该不变,即在嵌套空间中每个采样 点可以用它的近邻点线性表示,在低维空间中保持每个邻 域中的权值不变,重构原数据点,使重构误差最小。
M ( I W )T ( I W )
END
谢谢!
n n
基本思想
当数据在n维空间中线性不可分时,通过一个映射Φ将 数据从n维空间映射到N(N>n)维空间中,使得数据在N 维空间中是线性可分的,这样,再使用PCA或者LDA在N 维空间中对数据进行降维时可以得到较好的结果。 在实践中人们发现,当对数据进行处理时,经常会 出现两个向量点积的形式,即出现Φ(Xi)TΦ(Xj),用一个函 数来代替这种点积计算,K(Xi,Xj)
基本思想是:根据数据点间的欧氏距离, 构造关系矩阵,为了尽可能地保持每对观 测数据点之间的欧氏距离,只需对此关系 矩阵进行特征分解,从而获得每个数据在 低维空间中的低维坐标。
基本思想
ISOMAP通过测地线距离来描述各点之间的相互关系, 在全局意义下,通过寻找各点在图意义下的最短路径来获得 点与点之间的距离,然后利用经典的MDS算法得到低维的嵌 入坐标。
主要步骤
(w) xi j wij x j
2
寻找每个样本点的k个近邻点 每个样本点的近邻点计算该点的局部重建权值矩阵 由该点的局部重建权值矩阵和其邻点计算该点的输出值
i wij k G ijk 1 / lm Glm
1
G ijk ( xi j )( xi k )
2011年12月5日
研究背景 经典方法介绍
举例
处理200个256*256的图片时,通常我们将图片拉成一个 向量,这样,得到了65536*200的数据,直接处理数据?
维数灾难
巨大的计算量将使我们无法忍受
数据本质
过多的数据量,不能反映出数据的本质特征,如直接对 这样的数据进行处理,很难得到理想结果
对协方差矩阵进行特征值分解,选取最大 的p个特征值对应的特征向量组成投影矩阵 对原始样本进行投影,得到维数约减后的 新样本矩阵
注意:PCA属于非监督
基本思想:投影。 首先找出特征向量,把这些数据投影到一个 低维的方向,使得投影后不同的类之间尽可能的 分开,而同一类内的的样本比较靠近,然后在新 空间中对样本进行分类。
思想: 找出最能代表原始数据的投影方法 如果理解? 维数约简后的数据不能失真 除掉噪声、冗余数据
PCA实现的关键 降噪:使留下的维度间的相关性尽可能小 去冗余:使留下来的维度含有的“能量” 尽可能大 协方差矩阵 对角化
形成样本矩阵,将样本中心化 计算样本矩阵的协方差矩阵
基本原理
高维输入空间通过线性或非线性映射投影到一个低维 空间,从而找出隐藏在高维观测数据中有意义的低维结构
Biblioteka Baidu
原始数据大量冗余
根据变量相关性
几何观点 研究重点
保留核心信息
方法:线性和非线性 线性:PCA LDA 基于核函数:KPCA 基于特征值的非线性方法:MDS ISOMAP LLE