第九章 降维

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第九章 降维

9.1k 近邻学习

k 近邻( k -Nearest Neighbor ,简称KNN )学习是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其靠近的k 个训练样本,然后基于k 个“邻居”的信息来进行预测。在分类任务中一般使用“投票法”,在回归任务中使用

“简单平均法”。还可以基于距离使用加权平均或加权投票。 9.2 低维嵌入

最近邻学习的一个重要建设:任意测试样本附近任意小的距离范围内总能找到一个训练样本,即训练样本的采样密度足够大。然而,这个假设在现实任务中通常很难满足。在低维数空间进行采样还比较容易满足一定条件,而在维数很高时,距离计算有时都面临困难。在高维情况下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习共同面临的障碍, 被称为“维数灾难”。

缓解维数灾难的一个重要途径是降维(dimension reduction ),亦称“维数简约”,即通过 某种数学变换将原始高维属性空间转变为一个低维“子空间”,在这个子空间中样本的密度大幅增高,距离计算也变得容易。为什么能降维?这是因为在很多时候,人们观测或收集到的数据样本虽是高维的,但与学习任务密切相关的也许是某个低维分布,即高维空间中的一个低维嵌入。

若要求原始空间中样本之间的距离在低维空间中得以保持,即得到“多维缩放”(Multiple Dimensional Scaling ,简称MDS )[Cox ,2001]这样一种经典的降维方法。 假定m 个样本在原始空间的距离矩阵为m

m R

D ⨯∈,其元素ij d 表示样本i x 与j x 之间的

距离,原始空间的维数为d 。目标是获得样本在d '维空间的表示d d R Z m d ≤'∈⨯'

,,且任意两个样本在d '维空间中的欧式距离等于原始空间中的距离,即ij j i d z z =-。 令m

m T

R

Z Z B ⨯∈=,其中B 为降维后样本的内积矩阵,j T

i ij z z b =,有

j T i j i ij

z z z z d 22

2

2-+=

ij jj ii b b b 2-+= (1)

为了便于讨论,令降维后的样本Z 被中心化,即01=∑

=m

i i

z 。显然矩阵B 的行与列之和

均为零,即

∑∑====m

j m i ij

bij b 110。易知 jj m

i ij

mb B tr d

+=∑=)(1

2

(2)

ii m

j ij

mb B tr d

+=∑=)(1

2 (3)

)(211

2B mtr d m i m

j ij =∑∑== (4) 其中,2

1

)(∑

==

m

i i z B tr 。令

∑==m j ij i d m d 1

2

2

.

1 (5)

∑==m i ij j

d m d 1

2

2.1 (6)

∑∑===m i m j ij d m d 11

2

22..

1 (7)

于是由(1)和式(2)-(7)可得

)(2

12

..2.2.2d d d d b j i ij ij +---=, (8)

由此即可通过降维前后保持不变的距离矩阵D 求取内积矩阵B 。

对矩阵B 做特征值分解,T

V V Λ=B ,其中),,,(21d diag λλλ =Λ为特征值构成的对角矩阵,d λλλ≥≥≥ 21,V 为特征向量矩阵。假定其中有*

d 个非零特征值,它们构成对角矩阵),,,(21*=Λ*d diag λλλ ,令*V 表示相应的特征向量矩阵,则Z 可表示为

m

d

Z ⨯**

*

∈Λ=R V T 21。

在现实应用中为了有效降维,往往仅需要降维后的距离与原始空间中的距离尽可能接近,而不必严格等待。此时可取d d ≤'个最大特征值构成的对角矩阵来表示Z 。

一般来说,欲获得低维子空间,最简单的办法是对原始高维空间进行线性变换。给定d 维空间中的样本m d m R x x x X ⨯∈=),,,(21 ,变换后得到d d ≤'维空间中的样本

X W Z T =,

其中d d R

W '

⨯∈是变换矩阵,m

d R

Z ⨯'∈是样本在低维空间中的表示。基于线性变化的降维

方法称为线性降维方法,对W 施加不同的约束形成不同的降维方法。 9.3 流形学习

流形学习(manifold learning )是一类借鉴了拓扑流形概念的降维方法,“流形”是在局部与欧式空间同胚的空间,换言之,它在局部具有欧式空间的性质,能用欧式距离来进行距离计算。这给降维方法带来了很大的启发:若低维流形嵌入到高维空间,则数据样本在高维空间的分布虽然看上去非常复杂,但在局部上仍然具有欧式空间的性质,因此,很容易地在局部建立降维映射关系,然后再设法将局部映射关系推广到全局。当维数被降至二维或三维时,能对数据进行可视化展示,因此流形学习也可被用于可视化。 9.3.1 等度量映射

等度量映射(Isometric Mapping ,简称Isomap )[Tenembaum et al.2000]的基本出发点,是认为低维流形嵌入到高维空间之后,直接在高维空间中计算直线距离具有误导性。比如, S 曲面上的两点的测地线距离是两点之间的本真距离,显然在高维空间中计算直线距离是不恰当的。测地线距离不能用高维空间的直线距离计算,但能用近邻距离来近似。这时利用流形在局部上与欧式空间同胚这个性质,对每个点基于欧式距离找出其临近点,然后就能建立一个近邻连接图,图中近邻点之间存在连接,而非近邻点之间不存在连接,于是,计算两点之间测地线距离的问题,就转变为计算近邻连接图上两点之间的最短路径问题。在得到任意亮点的距离后,就可以利用MDS 方法来获得样本点在低维空间中的坐标。

需要注意的是,Isomap 仅得到了训练样本在低维空间的坐标,对于新样本,如何将其映射到低维空间呢?这个问题的常用解决方案,是将训练样本的高维空间坐标作为输入、低维空间坐标作为输出,训练一个回归学习器来对新样本低维空间坐标进行预测。这显然是一个权宜之计,但目前似乎并没有更好的办法。

对近邻图的构建通常有两种方法,一种是指定近邻点个数,这样得到的近邻图称为k 近邻图;另一种方法是指定距离小于事先给定的阈值ε的点为近邻点,这样得到的近邻图称为ε近邻图。两种方法均有不足,例如若近邻范围指定的较大,则距离很远的点可能被误认为是近邻,这样就出现“短路”问题;近邻范围指定的较小,则可能出现“断路”问题。 9.3.2 局部线性嵌入

与Isomap 试图保持近邻样本之间的距离不同,局部线性嵌入(Locally Linear Embedding , 简称LLE )[Roweis and Saul,2000]试图保持邻域内样本之间的线性关系。假定样本点i x 的坐标能通过它的邻域样本l k j x x x ,,的坐标通过线性组合而重构出来,即

l il k ik j ij i x w x w x w x ++=

LLE 算法:

给定N 个输入向量{}D i N R x x x x O ∈=,,,,21 ,输出D d N i R y d i ≤=∈,,,2,1, 。

(1)寻找每个样本点的k 个近邻点;

(2)计算出样本点的局部重建全脂矩阵,定义误差函数

∑∑==-=N i k

j ij i j i x w x w 1

1

)(min ε

其中,),,2,1(k j x ij =为i x 的k 个近邻点,

11

=∑=k

j i j w 。 令

i i i ij

k

j i

j

x w N x

w ~1

==∑=,其中),,,(21ik i i i x x x N =是一个k D ⨯阶矩阵,

T

i k i i i w w w w ),,,(21 =,是一个1⨯k 的矩阵。令[]i i i x x x X ,,, =是k D ⨯维矩阵。

记2

2

1

)(i i i k

j ij

i j i i

w N x x w x w -=-

=∑=ε

相关文档
最新文档