第九章降维

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第九章降维

9.1k 近邻学习

k 近邻（ k -Nearest Neighbor ，简称KNN ）学习是一种常用的监督学习方法，其工作机制非常简单：给定测试样本，基于某种距离度量找出训练集中与其靠近的k 个训练样本，然后基于k 个“邻居”的信息来进行预测。在分类任务中一般使用“投票法”，在回归任务中使用

“简单平均法”。还可以基于距离使用加权平均或加权投票。 9.2 低维嵌入

最近邻学习的一个重要建设：任意测试样本附近任意小的距离范围内总能找到一个训练样本，即训练样本的采样密度足够大。然而，这个假设在现实任务中通常很难满足。在低维数空间进行采样还比较容易满足一定条件，而在维数很高时，距离计算有时都面临困难。在高维情况下出现的数据样本稀疏、距离计算困难等问题，是所有机器学习共同面临的障碍，被称为“维数灾难”。

缓解维数灾难的一个重要途径是降维（dimension reduction ），亦称“维数简约”，即通过某种数学变换将原始高维属性空间转变为一个低维“子空间”，在这个子空间中样本的密度大幅增高，距离计算也变得容易。为什么能降维？这是因为在很多时候，人们观测或收集到的数据样本虽是高维的，但与学习任务密切相关的也许是某个低维分布，即高维空间中的一个低维嵌入。

若要求原始空间中样本之间的距离在低维空间中得以保持，即得到“多维缩放”（Multiple Dimensional Scaling ，简称MDS ）[Cox ，2001]这样一种经典的降维方法。假定m 个样本在原始空间的距离矩阵为m

m R

D ⨯∈，其元素ij d 表示样本i x 与j x 之间的

距离，原始空间的维数为d 。目标是获得样本在d '维空间的表示d d R Z m d ≤'∈⨯'

,，且任意两个样本在d '维空间中的欧式距离等于原始空间中的距离，即ij j i d z z =-。令m

m T

Z Z B ⨯∈=，其中B 为降维后样本的内积矩阵，j T

i ij z z b =，有

j T i j i ij

z z z z d 22

2-+=

ij jj ii b b b 2-+= （1）

为了便于讨论，令降维后的样本Z 被中心化，即01=∑

i i

z 。显然矩阵B 的行与列之和

均为零，即

∑∑====m

j m i ij

bij b 110。易知 jj m

i ij

mb B tr d

+=∑=)(1

（2）

ii m

j ij

mb B tr d

+=∑=)(1

2 （3）

)(211

2B mtr d m i m

j ij =∑∑== （4）其中，2

)(∑

i i z B tr 。令

∑==m j ij i d m d 1

1 （5）

∑==m i ij j

d m d 1

2.1 （6）

∑∑===m i m j ij d m d 11

22..

1 （7）

于是由（1）和式（2）-（7）可得

)(2

..2.2.2d d d d b j i ij ij +---=，（8）

由此即可通过降维前后保持不变的距离矩阵D 求取内积矩阵B 。

对矩阵B 做特征值分解，T

V V Λ=B ，其中),,,(21d diag λλλ =Λ为特征值构成的对角矩阵，d λλλ≥≥≥ 21，V 为特征向量矩阵。假定其中有*

d 个非零特征值，它们构成对角矩阵),,,(21*=Λ*d diag λλλ ，令*V 表示相应的特征向量矩阵，则Z 可表示为

Z ⨯**

∈Λ=R V T 21。

在现实应用中为了有效降维，往往仅需要降维后的距离与原始空间中的距离尽可能接近，而不必严格等待。此时可取d d ≤'个最大特征值构成的对角矩阵来表示Z 。

一般来说，欲获得低维子空间，最简单的办法是对原始高维空间进行线性变换。给定d 维空间中的样本m d m R x x x X ⨯∈=),,,(21 ，变换后得到d d ≤'维空间中的样本

X W Z T =，

其中d d R

W '

⨯∈是变换矩阵，m

d R

Z ⨯'∈是样本在低维空间中的表示。基于线性变化的降维

方法称为线性降维方法，对W 施加不同的约束形成不同的降维方法。 9.3 流形学习

流形学习（manifold learning ）是一类借鉴了拓扑流形概念的降维方法，“流形”是在局部与欧式空间同胚的空间，换言之，它在局部具有欧式空间的性质，能用欧式距离来进行距离计算。这给降维方法带来了很大的启发：若低维流形嵌入到高维空间，则数据样本在高维空间的分布虽然看上去非常复杂，但在局部上仍然具有欧式空间的性质，因此，很容易地在局部建立降维映射关系，然后再设法将局部映射关系推广到全局。当维数被降至二维或三维时，能对数据进行可视化展示，因此流形学习也可被用于可视化。 9.3.1 等度量映射

等度量映射（Isometric Mapping ，简称Isomap ）[Tenembaum et al.2000]的基本出发点，是认为低维流形嵌入到高维空间之后，直接在高维空间中计算直线距离具有误导性。比如， S 曲面上的两点的测地线距离是两点之间的本真距离，显然在高维空间中计算直线距离是不恰当的。测地线距离不能用高维空间的直线距离计算，但能用近邻距离来近似。这时利用流形在局部上与欧式空间同胚这个性质，对每个点基于欧式距离找出其临近点，然后就能建立一个近邻连接图，图中近邻点之间存在连接，而非近邻点之间不存在连接，于是，计算两点之间测地线距离的问题，就转变为计算近邻连接图上两点之间的最短路径问题。在得到任意亮点的距离后，就可以利用MDS 方法来获得样本点在低维空间中的坐标。

需要注意的是，Isomap 仅得到了训练样本在低维空间的坐标，对于新样本，如何将其映射到低维空间呢？这个问题的常用解决方案，是将训练样本的高维空间坐标作为输入、低维空间坐标作为输出，训练一个回归学习器来对新样本低维空间坐标进行预测。这显然是一个权宜之计，但目前似乎并没有更好的办法。

对近邻图的构建通常有两种方法，一种是指定近邻点个数，这样得到的近邻图称为k 近邻图；另一种方法是指定距离小于事先给定的阈值ε的点为近邻点，这样得到的近邻图称为ε近邻图。两种方法均有不足，例如若近邻范围指定的较大，则距离很远的点可能被误认为是近邻，这样就出现“短路”问题；近邻范围指定的较小，则可能出现“断路”问题。 9.3.2 局部线性嵌入

与Isomap 试图保持近邻样本之间的距离不同，局部线性嵌入（Locally Linear Embedding ，简称LLE ）[Roweis and Saul,2000]试图保持邻域内样本之间的线性关系。假定样本点i x 的坐标能通过它的邻域样本l k j x x x ,,的坐标通过线性组合而重构出来，即

l il k ik j ij i x w x w x w x ++=

LLE 算法：

给定N 个输入向量{}D i N R x x x x O ∈=,,,,21 ，输出D d N i R y d i ≤=∈,,,2,1, 。

（1）寻找每个样本点的k 个近邻点；

（2）计算出样本点的局部重建全脂矩阵，定义误差函数

∑∑==-=N i k

j ij i j i x w x w 1

)(min ε

其中，),,2,1(k j x ij =为i x 的k 个近邻点，

=∑=k

j i j w 。令

i i i ij

j i

x w N x

w ~1

==∑=，其中),,,(21ik i i i x x x N =是一个k D ⨯阶矩阵，

i k i i i w w w w ),,,(21 =，是一个1⨯k 的矩阵。令[]i i i x x x X ,,, =是k D ⨯维矩阵。

记2

)(i i i k

j ij

i j i i

w N x x w x w -=-

=∑=ε

第九章 降维

第九章降维