数据降维方法分析与研究2009

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

近年来 ,数据降维在许多领域起着越来越重要的作用 。通 过数据降维可以减轻维数灾难和高维空间中其他不相关属性 , 从而促进高维数据的分类 、 可视化及压缩 。所谓数据降维是指 通过线性或非线性映射将样本从高维空间映射到低维空间 ,从 而获得高维数据的一个有意义的低维表示的过程 。数据降维 的数学描述如下 : a ) X = { x i } N i = 1是 D 维空间中的一个样本集 ,
( m < < n ) 个主成分 。m 的选取根据前 m 个主成分的累计贡
立 , 因此可用

Kij = Kij - ( 1 /N ) ∑ K il - ( 1 /N ) ∑ K jl - ( 1 /N 2 )
l=1 l=1
N
N
l, m = 1
∑ K lm
N
( 9)
代替式 ( 8 ) 中的 K。为了获取低维表示 , 数据被投影到协方差 矩阵的特征向量 vi 上 , 投影结果 (即低维数据表示 Y) 由
射 , M : X →Y, x →y =M ( x) , 称 y 为 x 的低维表示 。 目前已经提出了许多降维方法 [ 1~6 ] ,主要包括主成分分析 ( PCA ) 、 多维尺度分析 ( multidim ensional scaling, MDS) 以及近 年来提出的基于流形学习的算法 , 如 Isomap、 局部线性嵌入 (LLE) 、 拉普拉斯特征映射 ( Lap lacian Eigenmap s) 等 。对现有 的降维方法 ,可以从不同角度进行分类 。从待处理的数据的性 质角度考虑可分为线性和非线性的 ; 从算法执行的过程可分为 基于特征值求解的方法和迭代方法 ; 从几何结构的保留角度考 虑可分为全局方法和局部方法 。本文依据降维方法间的主要 区别 ,将现有的降维方法进行了系统的分类 ,如图 1 所示 ,并对 几种典型的线性和非线性降维方法进行了详细的阐述 ,最后对 这些降维方法进行了系统的分析比较 。

α =λ α K
N
( 8)
λ 其中 : Ki, j =Φ Φ 。对式 ( 8 ) 求解可获得要求 i j 为核矩阵 ,λ = N Φ ( x i ) = 0 一般情况下不成 的特征值和特征向量 。但假设 ∑
i =1
特征值对应的特征向量得到 。为了使它们所含信息互不重叠 , 通常要求它们相互独立 ,即 cov ( Y i , Y j ) = aT i C a j = 0 ( i≠ j) 。 通过上述方法就可以找到线性变换 (式 ( 1 ) ) 的一组线性 基 , 从而找到原始变量的一组综合变量 (主成分 ) 来代替原始 变量 。在实际应用中通常不会使用所有 n 个主成分 , 而选取 m
λ∑ αi (Φ kΦ i ) = ( 1 /N ) ∑ αi (Φ k ∑ Φ j ) (Φ Φ j i)
i=1 i=1 j=1 N N N
通过拉格朗日乘子法求解 ,有 C a 1 =λa 1 。设 λ =λ1 为 C 的最 大特征值 ,则相应的特征向量 a 1 即为所求 。如果 Y1 不能代表
n 个变量的绝大部分信息 , 则可以用同样的方法求得 Y2 甚至 Y3 、 Y4 等 。一般地 , 求 X 的第 i个主成分可通过求 C 的第 i大
Y = { y i } i = 1是 d ( d < < D ) 维空间中的一个数据集 ; b ) 降维 映
N
结构的研究 ,将多个变量转换为少数几个综合变量即主成分 , 从而达到降维目的的一种线性降维方法 。这些主成分能够反 映原始变量的绝大部分信息 ,它们通常表示为原始变量的线性 组合 。
线性方法
典型的降维方法
1 线性降维方法
1) PCA PCA 是通过对原始变量的相关矩阵或协方差矩阵内部
[1 ]

T YN = a1N X 1 + a2N X 2 + … + aNN XN = aN X
( 1)
若用 Y1 代替原来的 n 个变量 , 则要求 Y1 尽可能多地反映 原来 n 个变量的信息 。而方差 var ( Y1 ) 越大则表示 Y1 包含的
α1Φ ( x j )Φ ( x) , ∑ α2Φ ( x j )Φ ( x) , …, ∑ αdΦ ( x j )Φ ( x) } Y ={∑
j j j
λi / ∑ λj 来选取 。 献率 ∑
i=1 j=1
m
n
( 10 )
2) LDA Fisher在 1936 年提出著名的 Fisher准则 , 对于二类 (分别
d ( X i , X j ) = ‖X i - X j ‖2 = ( ∑ ( xk i - xk j ) 2 ) 1 / 2
k =1 D
( 3)
σ2 是 其中 : m 1 、 m 2 分别是正 、 负样本在投影方向上的均值 ;σ1 、 正、 负样本在投影方向上方差 。可将其推广到多类问题 , 此时 希望找到的优化方向是使得在低维空间中同类数据尽量靠近 , 而非同类数据尽量分离 , 从而保留丰富的辨别信息 , 使投影后 的数据具有最大的可分性 。此时 , Fisher准则可修正为
图 1 现有降维方法分类
设 X = ( X1 , X2 , …, X n ) T 是一个 n 维随机变量 , C = 1 / ( n T 1 ) ∑ ( X i - X ) ) ( X i - X ) 为样本协方差矩阵 。假设存在如下
i=1 n
线性变换 :
T Y1 = a11 X 1 + a21 X 2 + … + aN 1 XN = a1 X T Y2 = a12 X 1 + a22 X 2 + … + aN 2 XN = a2 X
Abstract: This paper gave a comp rehensive summarization of existing dim ensionality reduction methods, as well as made a classification to the rep resentative methods systematically and described some typ ical methods in detail. Furthermore, it deep ly analyzed and compared these methods by their computational comp lexity and their advantages and disadvantages . Finally, it p roposed the crucial p roblem s which needed to be resolved in future wo rk in data dim ensionality reduction. Key words: data dim ensionality reduction; p rincipal component analysis ( PCA ) ; locally linear embedding (LLE ) ; isometric mapp ing; computational comp lexity
T 信息越多 ,因此要求最大化 var ( Y1 ) , 同时限定 a1 a1 = 1 以消
收稿日期 : 2008 211 226; 修回日期 : 2009 201 224 基金项目 : 国家自然科学基金资助项目 ( 60372071) ; 中国科学院自动化研究所复杂系统 与智能科学重点实验室开放课题基金资助项目 ( 20070101) ; 辽宁省教育厅高等学校科学研究基金资助项目 ( 2004C031) 作者简介 : 吴晓婷 ( 1985 2 ) , 女 (蒙古族 ) , 内蒙古呼伦贝尔人 , 硕士研究生 , 主要研究方向为数据降维 、 模式识别等 ( xiaotingwu85 @ hotm ail .
W op t = arg max | w T SB w | / | w T Sωw |
w
( 4)
其中 : SB 、 Sω 分别是类间分散和类内分散 , 定义为
com ) ; 闫德勤 ( 1962 2) ,男 ,博士 ,主要研究方向为模式识别 、 数字水印和数据挖掘等 .
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved.
http://www.cnki.net
给出 。 2 ) MDS
MDS 是保留数据点间相似性或距离的一种非线性降维
[8 ]
称为正类和负类 )问题 ,希望投影后得到的 y = w T x 能够使得
J ( w ) 最大 :
2 J (w ) = ‖m 1 - m 2 ‖2 / (σ2 1 - σ2 )
百度文库
方法 。MDS可分为度量性 MDS和非度量性 MDS。度量 MDS 利用数据点间的距离或相似性获得数据的低维几何表示 ,而非 度量 MDS仅利用原始数据点间的顺序信息来获得其低维表 示 。前者将距离平方阵转换为内积阵 ,通过求内积阵的特征值 和特征向量获取低维表示 ; 后者采用迭代方法 。下面主要介绍 度量性 MDS。 设 X = ( X1 , X2 , …, XN ) 是 D 维空间中的一个包含 N 个样 本点的数据集 , d ( X i , X j ) 表示数据点 X i 与 X j 之间的欧式距 离 ,即
PCA LDA
基于重建权值 : LLE 数据降维 保留局部性质 邻接图 Lap lacian: Lap lacian Eigenmap s Hessian LLE 基于切空间 LTSA 非线性方法 基于欧式距离 : MDS 基于距离保持 基于测地线距离 : Isomap 保留全局性质 基于分散距离 : diffusion map s 基于核 : 核 PCA 基于神经网络 : 多层自动编码
摘 要 : 全面总结现有的数据降维方法 ,对具有代表性的降维方法进行了系统分类 , 详细地阐述了典型的降维 方法 ,并从算法的时间复杂度和优缺点两方面对这些算法进行了深入的分析和比较 。最后提出了数据降维中仍 待解决的问题 。 关键词 : 数据降维 ; 主成分分析 ; 局部线性嵌入 ; 等度规映射 ; 计算复杂度 中图分类号 : TP301 文献标志码 : A 文章编号 : 1001 23695 ( 2009 ) 08 22832 204
第 26 卷第 8 期 2009 年 8 月
计 算 机 应 用 研 究
App lication Research of Computers
Vol . 26 No. 8 Aug . 2009
数据降维方法分析与研究
吴晓婷 , 闫德勤
3
(辽宁师范大学 计算机与信息技术学院 , 辽宁 大连 116081 )
第 8期
吴晓婷 ,等 : 数据降维方法分析与研究
C v =λv
・2 8 33・
( 6)
除方差最大值的不确定性 。根据上述条件易求得 var ( Y1 ) =
a C a 1 ,因此 , 求 解 方 差 var ( Y1 ) 最 大 问 题 可 转 换 为 在 约 束 a a 1 = 1下求以下最优问题 :
T max a 1 C a1 T s . t . a1 a1 = 1 T 1 T 1
Φ k v ( k = 1, 2, …, N ) 。因为 v 是在 {Φ i }生成的 即有 Φ k C v =λ 空间中 ,所以 v可以表示为
αΦ v=∑ i i
i
( 7)
( 2)
将式 ( 7 ) 带入式 ( 6 ) , 有
doi: 10. 3969 / j . jssn. 1001 23695. 2009. 08. 008
Analysis and research on method of data dimensionality reduction
WU Xiao 2ting, YAN De2qin
( S chool of Com puter & Infor m ation Technology, L iaon ing N or m a l U n iversity, D alian L iaon ing 116081, Ch ina)
相关文档
最新文档