基于加权距离的HLLE算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
*
基金项目:国家自然科学基金(项目号:G61174163) - 17 http://www.ivypub.org/cst
法的基础上,提出了一些改进的算法[9][10][11][12],这些算法在一定程度上提高和改善了算法的性能。但是大量 的实验表明,邻域选取是否得当严重影响 HLLE 算法的性能,比如当邻域 K<6 时,算法就会完全失败。然而 在 HLLE 算法中,每一点的切空间是通过 PCA 方法估算的。通过我们的研究证明发现,当邻域中点与目标 数据点相差很远时, 就会导致流形的低维嵌入发生变形与扭曲。 基于这个发现, 本文将加权距离应用到 HLLE 算法中得到了基于加权距离的 HLLE 算法(WHLLE)。 加权距离是以数据点为中心有权重的选择每个数据点的 邻域,可以有效的避开欧式距离选择邻域的不合理性,从而有效的解决了欧式距离无法准确选取邻域中点的 问题。WHLLE 算法不仅能够有很好的数据降维效果,同时还能保持数据点的整体分布信息和内在几何结构 不变,这是现有多数数据降维方法所不具备的。
H
D.二次泛函
iso
f x H euc f
1 x
, H tan f x H euc f x
0
(2) (3)
HLLE 算法证明了:
x M , H iso f x H tan f x
#
Email: shuai_lian@qq.com
Abstract
HLLE is an effective nonlinear dimension reduction algorithm and is widely explored into machine learning, pattern recognition, data mining and etc. However, HLLE is very sensitive to the neighborhood selection and non-uniformed data sampling. In this paper, an improved HLLE based on weighted distance named WHLLE is proposed which can avoid the unreasonable neighborhood selection by using weighted Euclidean distance. Furthermore, WHLLE not only can have a better effect of dimension reduction but also can preserve the intrinsic geometry structure of the original manifolds. We validate the performances of WHLLE on the two classical artificial manifolds. The experiments on artificial manifolds confirm that WHLLE can keep the relationship of neighborhood of the data point, global distributions and intrinsic structures of the data better than other related Algorithms. Keywords: Machine Learning; Dimension Reduction; Hessian Locally Linear Embedding (HLLE) Algorithm; Weighted Distance
- 18 http://www.ivypub.org/cst
3 加权距离的 HLLE
3.1 HLLE算法理论基础
A.问题 设 M RD , M 是一个 d 维流形, Rd , 是开集, M 与 同胚,这里 d 样的同胚映射 。
fi x 表示 1 x 的第 i 个分量, i 1,
D x0 , x
定义 2:加权距离[13](weighted distance) :设 x0 R d 是畸形分布 Dd a, b, 的中心,那么从一个点 x Rd
x x0
T x x0 ab
x x0
值得注意的是,加权距离仅仅是一个距离,不是一个测度,因此 D x0 , x D x, x0 。
1. College of Information Science and Technology, Sun Yat-sen University, Guangzhou 510006, China 2. College of Mathematical Sciences, Guangxi Normal University, Guangxi 541004, China
Rd ,都有 x U x x 。因此 HLLE 就是在基于 x x M 。
C.Hessian 矩阵
M 令 W2,2 表示一个 Sobolev 空间,即它的元素都是平方可积并且两阶连续可导。 M 定义:对任意的 f W2,2 以及任意的 x M ,定义
应用于机器学习,模式识别,数据挖掘等领域。但是 HLLE 算法对邻域的选择和非均匀数据采样非常的敏感。本文提出 一种基于加权距离的 HLLE 算法(WHLLE) ,该算法采用加权距离的邻域选择方式从而避免了欧式距离选择邻域的不合 理性,而且 WHLLE 在降维的同时能够保持原始流形整体的内在几何结构。我们在两个经典的人工流形上验证了 WHLLE 算法的性能,实验结果表明 WHLLE 除了具有良好的数据降维效果之外,同时还能够保持数据的整体分布和内在几何结 构不变。 关键词:机器学习;数据降维;海赛局部线性嵌入算法;加权距离
3.2 WHLL算法步骤
HLLE 是一种恢复流形本质结构的参数化方法,定义一个泛函: f : M R ,基于 f 定义一个二次泛函 零空间。它由常函数和一个由原始等距坐标张成的 d 维函数空间。因此,低维等距坐标能够从 H f 的零空 间中恢复。在 3.1 和 3.2 部分给出பைடு நூலகம் HLLE 算法具体理论和算法关键定理的证明。加权 HLLE 算法如下: 输入: X [ x1 , x2 , 输出: Y [ y1 , y2 , 步骤如下:
基于加权距离的 HLLE 算法*
连帅彬 1,孔秋丽 2,戴宪华 1
1.中山大学信息科学与技术学院,广东 广州 5100061 2.广西师范大学数学科学学院,广西 桂林 541004 摘 要:海赛局部线性嵌入(Hessian Locally Linear Embedding,HLLE)是一种非常有效的非线性数据降维方法,被广泛
- 19 http://www.ivypub.org/cst
H f H f m dm 。如果流形 M 局部同胚于 R d 的一个连通开集,则那么 H f 就有一个 d 1 维的
2 M F
, xN ] , xi R D , i 1, 2,
, N 表示高维空间中的 N 个数据点 , N 表示低维空间中的 N 个数据点
, f d 这 d 个泛函。
矩阵,并且 U x 的列向量就是 Tx M 的标准正交基。基于 U x ,定义了一个映射: x : Rd R D 使得对任意的
对任意的 x M ,设 Tx M 表示流形 M 上一点 x 的切空间。可以证明 dim Tx M d ,令 U x 为 D d 的
Transactions on Computer Science and Technology June 2013, Volume 2, Issue 2, PP.17-23
HLLE Algorithm Based on the Weighted Distance
Shuaibin Lian1#, Qiuli Kong2, Xianhua Dai1
2 加权距离
加权距离的主要思想就是:对每一个数据样本都有一个适合于该数据点的邻域选择标准。采用合适的选 择标准选择的邻域能够更好的重构出数据点本身。图 1 显示了加权距离的优势,实线表示利用欧式距离选择 的邻域,虚线表示利用加权距离选择的邻域,加权距离通过赋予密集数据点一个低权重值而稀疏数据点一个 高权重值的方法选择的邻域比欧式距离选择的邻域更加的合理。这种选择邻域的方法可以有效的解决数据畸 形和稀疏采样的问题,对非均匀分布的数据集的邻域选择有很好的效果。
1 引言
在机器学习,模式识别,数据挖掘等邻域中经常会遇到高维数据,比如人脸图像,语音图谱等。数据降 维是处理高维数据的非常有效的方法。经典的数据降维的方法大致有主成分分析 (PCA)[1] 、多维尺度变换 (MDS)[2]、等距映射(ISOMAP)[3]、局部线性嵌入(LLE)[4]、拉普拉斯特征映射算法(LE)[5]、Hessian 局部线性嵌 入算法(HLLE)[6]等。其中 HLLE 算法被认为是非常有效的非线性数据降维方法,能够较好的恢复出高维数据 的低维结构,同时较好的保持高维数据点的邻域关系不变,从而被广泛的应用在多个领域 [7][8]。但是 HLLE 算法对邻域的选择特别敏感,而且对于非均匀分布的数据流形降维效果欠佳。多年来研究学者们在 HLLE 算
D 。我们要找 M 与 之
间的同胚映射 : M ,使得对于任意 x M , 1 x 即为 x 的低维表示。HLLE 的目标就是要找到这
, d 。因此这些泛函就与同胚映射 : M 等价。事实上,对任意的
(1)
因此 HLLE 就转化为寻找 f1 , B.切空间和局部同胚映射
T
f y
Y T ab 通过变换定义一个新的随机变量 X Y
1
2
Y 。
d 2
e
1 2 yT y
其中, Y 表示原始的标准分布, a b 0 表示整体的分布方向和伸缩参数, 是一个标准化向量表示变 形向, Y Y T Y 。从而 X 就表示在方向 上有参数 a 和 b 的变形分布,记为 X Dd a, b, 。 到 x0 的加权距离定义为:
x M ,都有
1 1 1 x x 1 , , x d f1 x , , fd x
1 基于同胚映射 ,我们定义了一个泛函 fi : M R ,使得对所有的 x M ,都有 fi x x ,这里 i
M 对任意的 f W2,2 ,定义两个二次泛函为:
Φiso f
2
M
H
iso
f m dm ; Φtan f
2
M
H
tan
f m dm
2
(4)
这里 A 表示 Frobenius 二次范数。 注:1. iso f 0 x M , H iso f x 0 ;2. tan f 0 x M , H tan f x 0
图 1 实线表示欧式距离选择的邻域,虚线表示加权距离选择的邻域。图中很容易看 出加权距离选择的邻域更加合理
定 义 1 : 畸 形 分 布 (deformed distribution) : 对 于 一 个 d 维 标 准 正 态 分 布 N 0,1 的 随 机 向 量
Y Y1 , Y2 ,..., Yd ,概率密度函数为:
基金项目:国家自然科学基金(项目号:G61174163) - 17 http://www.ivypub.org/cst
法的基础上,提出了一些改进的算法[9][10][11][12],这些算法在一定程度上提高和改善了算法的性能。但是大量 的实验表明,邻域选取是否得当严重影响 HLLE 算法的性能,比如当邻域 K<6 时,算法就会完全失败。然而 在 HLLE 算法中,每一点的切空间是通过 PCA 方法估算的。通过我们的研究证明发现,当邻域中点与目标 数据点相差很远时, 就会导致流形的低维嵌入发生变形与扭曲。 基于这个发现, 本文将加权距离应用到 HLLE 算法中得到了基于加权距离的 HLLE 算法(WHLLE)。 加权距离是以数据点为中心有权重的选择每个数据点的 邻域,可以有效的避开欧式距离选择邻域的不合理性,从而有效的解决了欧式距离无法准确选取邻域中点的 问题。WHLLE 算法不仅能够有很好的数据降维效果,同时还能保持数据点的整体分布信息和内在几何结构 不变,这是现有多数数据降维方法所不具备的。
H
D.二次泛函
iso
f x H euc f
1 x
, H tan f x H euc f x
0
(2) (3)
HLLE 算法证明了:
x M , H iso f x H tan f x
#
Email: shuai_lian@qq.com
Abstract
HLLE is an effective nonlinear dimension reduction algorithm and is widely explored into machine learning, pattern recognition, data mining and etc. However, HLLE is very sensitive to the neighborhood selection and non-uniformed data sampling. In this paper, an improved HLLE based on weighted distance named WHLLE is proposed which can avoid the unreasonable neighborhood selection by using weighted Euclidean distance. Furthermore, WHLLE not only can have a better effect of dimension reduction but also can preserve the intrinsic geometry structure of the original manifolds. We validate the performances of WHLLE on the two classical artificial manifolds. The experiments on artificial manifolds confirm that WHLLE can keep the relationship of neighborhood of the data point, global distributions and intrinsic structures of the data better than other related Algorithms. Keywords: Machine Learning; Dimension Reduction; Hessian Locally Linear Embedding (HLLE) Algorithm; Weighted Distance
- 18 http://www.ivypub.org/cst
3 加权距离的 HLLE
3.1 HLLE算法理论基础
A.问题 设 M RD , M 是一个 d 维流形, Rd , 是开集, M 与 同胚,这里 d 样的同胚映射 。
fi x 表示 1 x 的第 i 个分量, i 1,
D x0 , x
定义 2:加权距离[13](weighted distance) :设 x0 R d 是畸形分布 Dd a, b, 的中心,那么从一个点 x Rd
x x0
T x x0 ab
x x0
值得注意的是,加权距离仅仅是一个距离,不是一个测度,因此 D x0 , x D x, x0 。
1. College of Information Science and Technology, Sun Yat-sen University, Guangzhou 510006, China 2. College of Mathematical Sciences, Guangxi Normal University, Guangxi 541004, China
Rd ,都有 x U x x 。因此 HLLE 就是在基于 x x M 。
C.Hessian 矩阵
M 令 W2,2 表示一个 Sobolev 空间,即它的元素都是平方可积并且两阶连续可导。 M 定义:对任意的 f W2,2 以及任意的 x M ,定义
应用于机器学习,模式识别,数据挖掘等领域。但是 HLLE 算法对邻域的选择和非均匀数据采样非常的敏感。本文提出 一种基于加权距离的 HLLE 算法(WHLLE) ,该算法采用加权距离的邻域选择方式从而避免了欧式距离选择邻域的不合 理性,而且 WHLLE 在降维的同时能够保持原始流形整体的内在几何结构。我们在两个经典的人工流形上验证了 WHLLE 算法的性能,实验结果表明 WHLLE 除了具有良好的数据降维效果之外,同时还能够保持数据的整体分布和内在几何结 构不变。 关键词:机器学习;数据降维;海赛局部线性嵌入算法;加权距离
3.2 WHLL算法步骤
HLLE 是一种恢复流形本质结构的参数化方法,定义一个泛函: f : M R ,基于 f 定义一个二次泛函 零空间。它由常函数和一个由原始等距坐标张成的 d 维函数空间。因此,低维等距坐标能够从 H f 的零空 间中恢复。在 3.1 和 3.2 部分给出பைடு நூலகம் HLLE 算法具体理论和算法关键定理的证明。加权 HLLE 算法如下: 输入: X [ x1 , x2 , 输出: Y [ y1 , y2 , 步骤如下:
基于加权距离的 HLLE 算法*
连帅彬 1,孔秋丽 2,戴宪华 1
1.中山大学信息科学与技术学院,广东 广州 5100061 2.广西师范大学数学科学学院,广西 桂林 541004 摘 要:海赛局部线性嵌入(Hessian Locally Linear Embedding,HLLE)是一种非常有效的非线性数据降维方法,被广泛
- 19 http://www.ivypub.org/cst
H f H f m dm 。如果流形 M 局部同胚于 R d 的一个连通开集,则那么 H f 就有一个 d 1 维的
2 M F
, xN ] , xi R D , i 1, 2,
, N 表示高维空间中的 N 个数据点 , N 表示低维空间中的 N 个数据点
, f d 这 d 个泛函。
矩阵,并且 U x 的列向量就是 Tx M 的标准正交基。基于 U x ,定义了一个映射: x : Rd R D 使得对任意的
对任意的 x M ,设 Tx M 表示流形 M 上一点 x 的切空间。可以证明 dim Tx M d ,令 U x 为 D d 的
Transactions on Computer Science and Technology June 2013, Volume 2, Issue 2, PP.17-23
HLLE Algorithm Based on the Weighted Distance
Shuaibin Lian1#, Qiuli Kong2, Xianhua Dai1
2 加权距离
加权距离的主要思想就是:对每一个数据样本都有一个适合于该数据点的邻域选择标准。采用合适的选 择标准选择的邻域能够更好的重构出数据点本身。图 1 显示了加权距离的优势,实线表示利用欧式距离选择 的邻域,虚线表示利用加权距离选择的邻域,加权距离通过赋予密集数据点一个低权重值而稀疏数据点一个 高权重值的方法选择的邻域比欧式距离选择的邻域更加的合理。这种选择邻域的方法可以有效的解决数据畸 形和稀疏采样的问题,对非均匀分布的数据集的邻域选择有很好的效果。
1 引言
在机器学习,模式识别,数据挖掘等邻域中经常会遇到高维数据,比如人脸图像,语音图谱等。数据降 维是处理高维数据的非常有效的方法。经典的数据降维的方法大致有主成分分析 (PCA)[1] 、多维尺度变换 (MDS)[2]、等距映射(ISOMAP)[3]、局部线性嵌入(LLE)[4]、拉普拉斯特征映射算法(LE)[5]、Hessian 局部线性嵌 入算法(HLLE)[6]等。其中 HLLE 算法被认为是非常有效的非线性数据降维方法,能够较好的恢复出高维数据 的低维结构,同时较好的保持高维数据点的邻域关系不变,从而被广泛的应用在多个领域 [7][8]。但是 HLLE 算法对邻域的选择特别敏感,而且对于非均匀分布的数据流形降维效果欠佳。多年来研究学者们在 HLLE 算
D 。我们要找 M 与 之
间的同胚映射 : M ,使得对于任意 x M , 1 x 即为 x 的低维表示。HLLE 的目标就是要找到这
, d 。因此这些泛函就与同胚映射 : M 等价。事实上,对任意的
(1)
因此 HLLE 就转化为寻找 f1 , B.切空间和局部同胚映射
T
f y
Y T ab 通过变换定义一个新的随机变量 X Y
1
2
Y 。
d 2
e
1 2 yT y
其中, Y 表示原始的标准分布, a b 0 表示整体的分布方向和伸缩参数, 是一个标准化向量表示变 形向, Y Y T Y 。从而 X 就表示在方向 上有参数 a 和 b 的变形分布,记为 X Dd a, b, 。 到 x0 的加权距离定义为:
x M ,都有
1 1 1 x x 1 , , x d f1 x , , fd x
1 基于同胚映射 ,我们定义了一个泛函 fi : M R ,使得对所有的 x M ,都有 fi x x ,这里 i
M 对任意的 f W2,2 ,定义两个二次泛函为:
Φiso f
2
M
H
iso
f m dm ; Φtan f
2
M
H
tan
f m dm
2
(4)
这里 A 表示 Frobenius 二次范数。 注:1. iso f 0 x M , H iso f x 0 ;2. tan f 0 x M , H tan f x 0
图 1 实线表示欧式距离选择的邻域,虚线表示加权距离选择的邻域。图中很容易看 出加权距离选择的邻域更加合理
定 义 1 : 畸 形 分 布 (deformed distribution) : 对 于 一 个 d 维 标 准 正 态 分 布 N 0,1 的 随 机 向 量
Y Y1 , Y2 ,..., Yd ,概率密度函数为: