降维特征提取流形学习方法介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最小化类内距离,最大化类间距离
目标函数:
[4] B. Yang, M. Xiang, Y. Zhang. “Multi-manifold Discriminant Isomap for visualization and classification,” Pattern Recognition, vol.55, pp.215-230, 2016.
01
PART ONE
背景介绍
Background
1.降维
降维的动机:
原始观察空间中的样本具有极大的信息冗余 样本的高维数引发分类器设计的“维数灾难” 数据可视化、特征提取、分类与聚类等任务需求
1.降维
降维的动机:
解决办法:选取尽可能多的, 可能有用的特征, 然后根据需要进行特征/维数约简.
03
PART THREE
流形学习新方法
New methods of manifold learning
MMD-Isomap模型建立[4]
Pairwise constraints
Must-link constraint
采用成对约束:ML(Must Link) & CL(Cannot Link)
Cannot-link constraint
20 15
10
1-D Helix曲线 流形
5
0 1 0.5 0 -0.5 -1 -1 -0.5 0.5 0 1
4.线性特征提取方法
线性特征提取方法的不足
真实数据中的有用信息不能由线性特征表示 • 比如: 如何获取并表示多姿态人脸的姿态信息
5.流形学习
一类借鉴了拓扑流形概念的降维方法 流形:局部与欧式空间同胚的空间,在局部具有欧氏空间的性质 直观上好比一个d维空间,在一个D (D>d) 维空间中被扭曲之后的结果 目的:从高维采样数据中恢复低维流形结构,降维,数据可视化
使得降维之后的点两两之间距离尽量不变
Isomap目标函数:
min d yi , y j dG xi , x j
Y i, j
2
测地距离
[1] J. B. Tenenbaum, V. de Silva, and J. C. Langford. “A global geometric framework for nonlinear dimensionality
Y i
j i
2
[2] S. Roweis, and L.K. Saul, “Nonlinear dimensionality reduction by locally linear embedding,” Science, vol.290, no.5500, pp.2323-2326, 2000.
11
特 征 约 简
特征选择
依据某一标准选择性质 最突出的特征 经已有特征的某种变换 获取约简特征
特征提取
实验数据分析,数据可视化(通常为2维或3维)等也需 要维数约简
2.特征提取
特征:一个数字图像中“有趣”的部分
• 是许多计算机图像分析算法的起点 • 一个算法是否成功往往由它使用和定义的特征决定 特征提取的主要任务
-2
-1
0
1
2
-2
-1
0
1
2
3
4
5
a. PCA e. SSMMC
5 4 3 0.8 1.2 1
b. LDA f. Isomap
-1.6 x 10
-12
c. LapLDA g. MMD-Isomap
-0.06 -0.08 -0.1
-1.8 -1.7
d. SSLDA h. SSMM-Isomap
2 0.6 1 0.4 0 -1 -2 -3 -4 -6 0.2 -2 -1.9
SSMM-Isomap聚类可视化实验
1.5 6 1 4 0.5 0 2 -0.5 0 -1 0 -2 -1.5 -2 -2 -4 -2.5 -2 -6 -8 -6 -4 -2 0 2 4 6 -3 -3.5 -3 -3 3 -2 -1.5 -1 -0.5 0 0.5 1 -1 -3 -4 -5 -3 -1 1 2 1 0 3 3 2 4 4
90
80
70
PCA IsoP LDA SSLDA SSMMC LapLDA SSMM-Isomap1 SSMM-Isomap2
90
80
70
PCA IsoP LDA SSLDA SSMMC LapLDA SSMM-Isomap1 SSMM-Isomap2
60
60
60
Accuracy
Accuracy
50
75 70 65 60 55 50
75
70
65
60
PCA IsoP LDA SSLDA SSMMC LapLDA SSMM-Isomap1 SSMM-Isomap2
2 3 4 5 6 7 8 9
70 65 60
PCA IsoP LDA SSLDA SSMMC LapLDA SSMM-Isomap1 SSMM-Isomap2
特征提取方法介绍
报告人: 张妍
CONTENT
01
背景介绍
Background
02
经典流形学习算法
Classical manifold learning methods
03
流形学习新方法
New methods of manifold learning
04
后续工作展望
Follow-up Prospects
Fig.2 AR-male人脸数据集上,每类有标签样本数分别为8(左)、10(中)、12(右)时的分类准确度随所降维度的变化情况
17
目标识别实验
COIL-20哥伦比亚图像数据集
100
100 95 90
100 95 90 85
95
90
85
85
80
Accuracy
80
80 75
Accuracy
Accuracy
02
PART TWO
经典流形学习算法
Classical manifold learning methods
经典流形学习算法
Isomap 等距离映射算法[1]
通过改造一种原本适用于欧式空间的算法——多维缩放(Multidimensional Scaling, MDS),达到将流形映射到一个欧式空间的目的
经典流形学习算法
存在的问题 局限于训练样本,如果要得到新增测试样本的低维坐标,必须将新增样本点带入原数据 集,重新计算所有点的低维表示。 解决:LLE → NPE(邻域保持嵌入),LE→ LPP(局部保持映射) NPE (Neighborhood Preserving Embedding) 邻域保持嵌入算法[3] • 是LLE的线性化方法
经典流形学习算法
LLE (Locally Linear Embedding) 局部线性嵌入算法[2]
假设:任一数据点均可以利用其近邻点进行线性加权组合重构得到 目标: 低维空间中保持每个邻域中的重构权值不变 保持局部近邻结构 最小化重构误差
目标函数:
Min yi j: x NN x Wij y j , Subj YY T I
xi yi AT xi
• 不仅可以映射训练集样本,还可以将新的测试数据映射到低维空间
[3] X. He, D. Cai, S. Yan. “Neighborhood preserving embedding,” In: Proceedings of the IEEE International Conference on Computer Vision, pp.1208-1213,2005.
-0.12 -0.14 -0.16 -0.18
-2.1 0 -0.2 -0.4 8 -0.5 -2.2
-0.2 -0.22 -0.24 -1.6 -0.24
x 10
-12
-4
-2
0
2
4
6
-0.4
-0.3
-0.2
-0.1
0
0.1
-2.3 0.2-2.4
-2.3
-2.2
-2.1
-2
-1.9
-1.8
-1.7
Fig.3 COIL-20数据集上,每类有标签样本数分别为20(左)、25(中)、30(右)时的分类准确度随所降维度的变化情况
感谢各位聆听
Thanks for Listening
20
GDA
kernel PCA
4.线性特征提取方法
线性特征提取方法
通过特征的线性组合来降维 本质上是把数据投影到低维线性子空间 线性方法相对比较简单且容易计算
4.线性特征提取方法
线性特征提取方法的不足
原始数据无法表示为特征的简单线性组合 • 比如:PCA无法表达Helix曲线流形
SSMM-Isomap模型建立
SSMM-Isomap目标函数
J min Y , P
Y, P
近邻保持项
2 F 2 F
1 Y , P J ML J CL Y YW T ML CL
近邻保持项:保持局部近邻信息
PX Y
特征近似错误项
特征近似错误项:学习得到线性投影P 用以解决样本外数据训练问题
2 3 4 5 6 7 8 9
PCA IsoP LDA SSLDA SSMMC LapLDA SSMM-Isomap1 SSMM-Isomap2
2 3 4 5 6 7 8 9
55
55
Reduced Dimensionality
Reduced Dimensionality
Reduced Dimensionality
50
Accuracy
3 6 9 12 15 18 21 24
50
40
40
40
30
30
30
20
20
20
10
10
10
0
0 3 6 9 12 15 18 21 24
0
3
6
9
12
15
18
21
24
Reduced Dimensionality
Reduced Dimensionality
Reduced Dimensionality
• 降维
• 提取具有鉴别性的描述
04
3.特征提取方法分类
有监督方法
/无监督方法
特征提取 方法
基于线性/非线性变换
线性方法 /非线性方法
全局方法 /局部方法
3.特征提取方法分类
„„
„„
流形学习 方法
NPE
LLE MDS
线性方法
LDA
特征提取
非线性方法
Isomap
„„ PCA 基于核函数 的降维方法
reduction,” Science, vol.290, no. 5500, pp. 2319-2323, 2000.
经典流形学习算法
Isomap 等距离映射算法
• 将 MDS 中原始空间中距离的计算从欧氏距离换为了流形上的测地距离。
• 通过将数据点连接起来构成一个邻接 Graph 来离散地近似原来的流形,而测地 距离也相应地通过 Graph 上的最短路径来近似
-0.22
-0.2
-Βιβλιοθήκη Baidu.18
-0.16
-0.14
-0.12
-0.1
-0.08
-0.06
Fig.1 COIL20哥伦比亚目标数据集上的数据可视化结果对比
人脸识别实验
AR-male人脸数据集
100 100
100
90
80
70
PCA IsoP LDA SSLDA SSMMC LapLDA SSMM-Isomap1 SSMM-Isomap2