基于聚类和改进距离的LLE方法在数据降维中的应用
LLE
算法过程 第二步是计算出样本点的局部重建权值矩阵 W。首先定义重构误差 之后定义局部协方差矩阵C: x表示特定的点,η表示x的k个近邻点 其中 最小化得到
核心:这里可以直接计算得到w,然后在步骤3中假设用数据 重构得到的权重w,降维空间中的重构权重w是共享的
算法过程
第三步将所有的样本点映射到低维空间中。映射条 件满足
基本思路
对于一组具有嵌套流行的数据集,在嵌套控件与内
在低维空间局部邻域间的点的关系应该不变。
即在嵌套空间每个采样点都可以用它的近邻点线性
表示,在低维空间中保持每个邻域中的权值不变,
重构原数据点,使重构误差变小。
算法过程
(1)寻找每个样本点的k个近邻点;
(2)由每个样本点的近邻点计算出该样本点的局部
实验观察
从(A)到(b)实现了寻找每个样本点的k个近邻点,然后 使用LLE算法将三维数据(b)映射到二维(c)之 后,映射后的数据仍能保持原有的数据流形(红色 的点互相接近,蓝色的也互相接近), 说明LLE有效地保持了数据原有的流行结构。
实验观察
优点介绍
(1)LLE算法能够突破主元分析法在非线性数据的 局限,可以处理、分析非线性信号。 (2)该算法可以很好表达数据的内在流行结构,这 样可以很好的保留原有数据特征,这点在故障诊 断中有重要的意义。 (3)该算法本身参数的选择很少,故能更好的进行 特征参数优化,这为故障检测和故障诊断打下坚 实的基础。
机器学习与模式识别算法之
LLE
Outlines:
1、背景,基本思想,原理,具体过程及算法 2、相关实验及优缺点分析与应用场合 3、相关改进算法
背景资料
LLE(Locally Linear Embedding,局部线性嵌入算法),是 一种非线性降维算法,它能够使降维后的数据较 好地保持原有流形结构。LLE可以说是流形学习 方法最经典的工作之一。很多后续的流形学习、 降维方法都与LLE有密切联系。
高维数据降维算法的研究及应用
高维数据降维算法的研究及应用随着数据科学和人工智能领域的不断发展,我们可以在无数现实应用场景中找到大量的高维数据。
在这些场景中,获得和储存数据变得越来越容易。
然而,随着维度的增加,我们面临的另一个问题是数据的可视化和分析。
高维数据的可视化和分析是困难的,因为人脑无法有效地处理高维数据。
换句话说,我们需要降低数据的维度才能有效地分析和使用高维数据。
数据降维是机器学习和数据科学中的基本问题之一。
它可以通过将高维数据投影到低维子空间来减少维度。
这个过程可以通过使用各种线性和非线性算法自动完成。
在本文中,我们将研究高维数据降维算法的研究和应用。
一、高维数据降维算法的需求在实际应用中,高维数据降维有许多应用场景。
其中一些包括:● 数据可视化:数据可视化是分析数据的基本方法之一。
高维数据的可视化通常需要将其降低到二维或三维空间中。
● 特征提取:特征提取是机器学习中的一个重要步骤。
它可以将高维数据降低到低维空间,以减少计算量和增加模型的泛化能力。
● 数据压缩:高维数据通常需要更大的存储空间。
通过降低维度,可以减少存储空间的需求,从而降低存储和处理成本。
二、线性降维算法线性降维算法是最常用的降维算法之一。
下面列出了一些流行的线性降维算法:1. 主成分分析(PCA)PCA是最广泛使用的线性降维算法之一。
它通过将数据投影到一个子空间(即主成分)来降低维度。
主成分是数据中方差最大的方向。
通过选择前k个主成分(k<<n),可以将数据降低到k维空间中。
PCA是一种贪心算法,旨在最大限度地保留原始数据的方差。
它是数据降维的最佳选择之一,可以更好地表示数据,并且通常可以获得较好的结果。
2. 线性判别分析(LDA)LDA旨在找到分割两个类的最佳超平面。
它是一种监督学习算法,可以通过选择前k个线性判别变量(k<<n)将数据降低到k维空间中。
与PCA相比,LDA 仅能用于分类问题,并且通常具有比PCA更好的分类性能。
数据降维技术研究
文本摘要
利用降维技术,可以对文 本数据进行摘要处理,提 取出文本的主要信息。
语音识别
声纹识别
利用降维技术,可以对语音数据 进行声纹识别,实现身份认证等
功能。
语音特征提取
通过降维技术,可以提取出语音的 主要特征,便于分类、识别等任务 。
语音压缩
通过降维技术,可以实现语音的压 缩和存储,减小存储空间的需求, 同时保持语音的基本特征。
利用降维技术,可以对社交网络中的用户行为数 据进行降维处理,提取出主要的行为模式。
社区发现
通过降维技术,可以将社交网络中的节点聚集到 同一社区中,发现隐藏的社区结构。
网络流量分析
利用降维技术,可以对社交网络中的流量数据进 行降维处理,提取出主要的流量模式。
04
数据降维技术的挑战 与解决方案
数据缺失与异常值处理
核主成分分析(KPCA)
总结词
KPCA是一种基于核方法的数据降维方法,它将数据从原始空间映射到高维特征空间,然后在特征空间中进行 PCA降维。
详细描述
KPCA首先使用核函数将数据从原始空间映射到高维特征空间,然后在特征空间中进行PCA降维。核函数的选择 可以根据数据的特性来确定,常见的核函数有线性核、多项式核、高斯核等。KPCA能够捕捉到数据之间的非线 性关系,因此适用于处理非线性数据。
数据隐私与安全问题
总结词
数据隐私和安全问题是数据降维过程中需要重视的问 题,需要采取有效的措施进行保护。
详细描述
在数据降维过程中,需要特别关注数据隐私和安全问题 。为了保护个人隐私,可以采用差分隐私、联邦学习等 技术手段进行处理。同时,还需要加强数据的安全存储 和传输,避免数据泄露和攻击。这些措施能够有效地保 护个人隐私和数据安全,同时促进数据降维技术的发展 和应用。
非线性数据降维方法---LLE及其改进算法介绍
⾮线性数据降维⽅法---LLE及其改进算法介绍LLE及其改进算法介绍Locally linear embedding (LLE) (Sam T.Roweis and Lawrence K.Saul, 2000)以及Supervised locally linear embedding (SLLE) (Dick and Robert, 2002) 是最近提出的⾮线性降维⽅法,它能够使降维后的数据保持原有拓扑结构。
LLE算法可以有图1所⽰的⼀个例⼦来描述。
在图1所⽰中,LLE能成功地将三维⾮线性数据映射到⼆维空间中。
如果把图1(B)中红颜⾊和蓝颜⾊的数据分别看成是分布在三维空间中的两类数据,通过LLE算法降维后,则数据在⼆维空间中仍能保持相对独⽴的两类。
在图1(B)中的⿊⾊⼩圈中可以看出,如果将⿊⾊⼩圈中的数据映射到⼆维空间中,如图1(C)中的⿊⾊⼩圈所⽰,映射后的数据任能保持原有的数据流形,这说明LLE算法确实能保持流形的领域不变性。
由此LLE算法可以应⽤于样本的聚类。
⽽线性⽅法,如PCA和MDS,都不能与它⽐拟的。
LLE算法操作简单,且算法中的优化不涉及到局部最⼩化。
该算法能解决⾮线性映射,但是,当处理数据的维数过⼤,数量过多,涉及到的稀疏矩阵过⼤,不易于处理。
在图1中的球形⾯中,当缺少北极⾯时,应⽤LLE算法则能很好的将其映射到⼆维空间中,如图1中的C所⽰。
如果数据分布在整个封闭的球⾯上,LLE则不能将它映射到⼆维空间,且不能保持原有的数据流形。
那么我们在处理数据中,⾸先假设数据不是分布在闭合的球⾯或者椭球⾯上。
图1 ⾮线性降维实例:B是从A中提取的样本点(三维),通过⾮线性降维算法(LLE),将数据映射到⼆维空间中(C)。
从C图中的颜⾊可以看出通过LLE算法处理后的数据,能很好的保持原有数据的邻域特性LLE算法是最近提出的针对⾮线性数据的⼀种新的降维⽅法,处理后的低维数据均能够保持原有的拓扑关系。
基于核函数距离测度的LLE降维及其在离群聚类中的应用
题的机器学习提供了一条新 的途径 。
关键 词 : 函数 ;维 数 消减 ;非线 性 数 据 集 ; 群 数 据 ;聚类 核 离
中 图分 类 号 : P 9 T3 1 文 献标 识 码 : A 国 家标 准 学 科 分 类 代 码 : 2 .0 5 0 6
LLE i e so a iy r du to a e n ke n li d e s a c d m n i n l e c i n b s d o r e ・n uc d dit n e t m e s r m e t a t pp ia i n i l t rng wih o le s au e n nd is a l to n cus e i t uti r c
采样 和 欧 氏距 离 公 式 的 缺 陷 , 究该 算 法 的扩 展 , 研 引入 核 函数 , 将 样 本 映 射 到 高 维 特 征 空 间 , 映 射改 善 了 样 本 的空 间分 布 , 并 核 改进 的 IL J E方法 在 适 当选 取 近邻 点个 数情 况 下 , 可得 到 良好 的 效 果 。对 从 高 维 采 样 数 据 中 恢 复 得 到低 维 数 据 集 , 过 本 文 提 通
A s a tL cl na m e d g ( L bt c :oa yl ere b d i r l i n L E) i oe o e m tosit d d f i es nly rd c o . I h s n ft e d ne e o dm ni a t e u t n n te h h n r o i i
s as aa s a e o ih di n in,ise tnso sn e n lf n to n mp o e E r s a s a l si p re d t p c fh g me so t xe in u ig k r e u ci n a d i r v d LL f p r e s mpe i n- o v si ae e tg td.Usn en lf n t n,t e s mpls a c i g k r e u c i o h a e r ma p d t ih d me so a e t r s c p e o h g i n in lfa u e pa e,a d a e l si e n r ca sf d i tee h r .By k r e p i g ,t e d srbu in o a l si mp o e .W h n t mb rK ft a e tneg b r s e n lma p n h iti t fs mp e si r v d o e henu e o ne r s ih o si he s l ce ee td,i c n o a n g o e ul .I h sp pe ,we c n ta so m o i e rlr e s ae d t no ln a aa i h t a bti o d r s t n t i a r s a r n fr n nl a ag —c l aa i t i e rd t n t e n fa u e s a e, nd i to u e a n n i e rd t r n fr to o r d c t i n in. On t e ba i fo tir d t e tr p c a n r d c o ln a a a ta so main t e u e daa d me so h ss o u le aa h p tei y oh ss,o tird t sd tr ie h o g h lo ih , ih i al d c u t rn t ule sd tc in.Si - u le aa i e e n d tr u h t e a g rt m whc sc l l se i g wih o t r e e t m e i o mu lto e ut lu tae t tt i l o i m sv r f c e t ain r s lsil sr t ha h sag rt i ey ef in .Mo e v r u t o a hea v n a e o i l a a h i r o e ,o rmeh d h s t d a tg fsmp e p r m— ee si t n a d lw a a tr s n i vt . Ou t o ie e wa r te s l t n o ee to fo t e s tre tma i n o p r mee e st i o i y rmeh d gv sa n w y f h o u i fd t cin o u l r . o o i Ke r :k r e u c in;d me so ai e u to y wo ds en lf n t o i n in lt r d c in;n n i e rd ts t y o ln a aa es;o tir ;c u t rn u e s l se g l i
流形学习算法及其应用研究共3篇
流形学习算法及其应用研究共3篇流形学习算法及其应用研究1流形学习算法是一种机器学习算法,其目的是从高维数据中抽取出低维度的特征表示,以便进行分类、聚类等任务。
流形学习算法的基本思想是通过将高维数据变换为低维流形空间,从而保留数据的本质结构和信息。
近年来,流形学习算法得到了越来越多的关注和应用。
以下我们将介绍一些常用的流形学习算法及其应用。
一、常用的流形学习算法(一)局部线性嵌入(Locally Linear Embedding,简称LLE)LLE算法是一种无监督的流形学习算法,它把高维数据集映射到低维空间,保留了数据间的局部线性关系,即原始数据点集中的线性组合权重。
LLE算法的核心思想是假设所有数据样本都是从某个流形空间中采样得到的,并通过寻找最小化误差的方式来还原流形结构。
LLE算法有着较好的可解释性和良好的鲁棒性,同时可以有效地应用于图像处理、模式识别等领域。
(二)等距映射(Isomap)Isomap算法是一种经典的流形学习算法,它可以从高维数据中提取出低维流形空间,并且保留了数据间的地位关系。
它的基本思想是将高维数据转化为流形空间,从而保留了数据的全局性质。
等距映射算法可以应用于数据降维、探索数据关系等领域,并已经在生物学、计算机视觉等领域得到广泛应用。
(三)核主成分分析(Kernel Principal Component Analysis,简称KPCA)KPCA算法是一种非线性的流形学习算法,可以有效地处理非线性问题。
KPCA通过使用核函数来将数据映射到高维空间,然后应用PCA算法进行降维。
KPCA算法在图像识别、人脸识别、语音识别等领域应用广泛。
(四)流形正则化(Manifold Regularization)流形正则化算法是一种半监督学习算法,它可以有效地利用已经标记的数据和未标记的数据来进行分类或回归。
其基本思想是通过在标记数据和未标记数据之间构建连接关系,利用非线性流形学习算法对数据进行处理。
融合邻域分布LLE_算法轴承故障信号检测
该问题,学者们提出了基于更换欧氏距离和多种算法组合技术㊂由于在高维流形上欧氏距离的局限性,更换欧氏距离的方法,能实现对高维流形结构的精准度量㊂Pan 等[5]利用伽玛函数和新的加权距离公式改善LLE,在数据的分布与高斯分布差距较大时表现良好㊂Varini 等[6]将等距特征映射算法ISOMAP (Isometric Feature Mapping)中的测地线距离引入LLE 中用于构建K 最近邻法KNN(K⁃Nearest Neighbor)图,得到ISOLLE(Isometric Locally Linear Embedding)算法㊂将数据映射到不同的空间同样能达到挖掘高维数据结构的作用㊂Zhang 等[7]则利用LLE 和线性判别分析LDA(Linear Discriminant Analysis)相结合得到ULLELDA 算法(Unified Locally Linear Embedding and Linear Discriminant Algorithm)㊂Jiang 等[8]将LLE 与主成分分析(PCA:Principal Component Analysis)相结合得到LLE⁃PCA 算法㊂近年来,利用邻域拓扑关系增强对邻域结构的挖掘㊂例如,Kong 等[9]提出的迭代LLE,该算法是一种利用包含对角矩阵的强化线性嵌入的LLE 优化方法㊂Luo [10]等提出用混合图学习方法能有效地揭示高维数据之间的内在关系,Luo [11]还提出了一种多结构统一判别嵌入方法,该方法考虑高光谱图像集中每个样本的邻域㊁切向和统计特性,以实现不同特征的互补㊂但上述方法仅挖掘原始空间的拓扑关系,并未考虑邻域和邻域之间的拓扑关系,因此在很多数据中不利于维持原始数据在低维空间的结构关系㊂为充分挖掘电机轴承信号的高维空间结构,笔者提出了一种新的融合邻域分布属性的局部线性嵌入算法,即利用高斯分布将每个最近邻样本与中心样本之间的相似度转换为最近邻样本的条件概率㊂通过计算每个邻域样本与其邻域中心点临近点分布的KL (Kullback⁃Leibler)散度,度量中心点与近邻点各自邻域分布的相似度㊂最后,权重修正函数调整权重系数,实现了对高维数据邻域间结构的挖掘㊂1 局部线性嵌入算法LLE 算法是经典局部流形学习算法,其核心思想是找到每个高维流形上样本点的近邻域样本,并用其线性重构该样本点,以此挖掘高维数据局部的拓扑结构信息㊂高维样本数据集为X =[x 1,x 2, ,x N ]∈R D ×N ,其中x i (i =1,2, ,N )为第i 个样本,D 为高维样本的特征维数,N 为样本总数㊂设低维映射结果为Y =[y 1,y 2, ,y N ]∈R d ×N ,d 为低维空间的维数㊂LLE 算法具体计算步骤[12]如下㊂步骤1) 设定邻域大小超参数为K 且假设较小局部中的数据是线性的,针对每个样本点,选择与其相似度最高的前K 个样本点作为近邻点㊂步骤2) 利用样本x i 与周围K 个近邻点,通过最小化均方差计算每个样本点的重构权重w ,计算函数如下:arg min Wx i -∑j ∈n (i )w ij x j 22,s.t. ∑j ∈n (i )w ij =1,(1)其中n (i )为第i 个样本邻域㊂通过高维重构权重计算样本点的低维输出,低维空间的线性重构公式如下:J (Y )=∑N i =1y i -∑j ∈n (i )w ij y j 22,s.t. ∑N i =1y i =0, 1N ∑N i =1y i y T i =I ㊂(2)2 融合邻域分布属性的局部线性嵌入算法针对LLE 算法未能充分保持高维数据邻域之间结构的问题,笔者提出了一种融合邻域分布的属性的局部线性嵌入算法DLLE(Local Linear Embedding algorithm incorporating the properties of the neighborhood Distribution),通过加强分布属性相似邻域的权重,提高降维效果㊂首先,对每个样本点,选择相似度187第5期张彦生,等:融合邻域分布LLE 算法轴承故障信号检测最高的前K 个样本点作为最近邻点㊂计算每个样本x j 在x i邻域中对应的高斯分布概率[13]:p j i =exp(-‖x i -x j ‖2/2σ2)∑K k =1exp(-‖x i -x k ‖2/2σ2)㊂(3)则对以x j 为中心的邻域样本x jj 的高斯分布概率为p jj j =exp(-‖x j -x jj ‖2/2σ2)∑K k =1exp(-‖x j -x k ‖2/2σ2)㊂(4) 其次,将样本x i 的邻域分布设为L i ,其邻域样本x j 的邻域分布设为L j ㊂由散度计算其之间的分布差异㊂相应的散度公式为D KL (L i ‖L j )=∑K i =1p i j log p i j p jj j ㊂(5) 归一化散度函数为D G KL (L i ‖L j )=D KL (L i ‖L j )-min(D KL (L i ‖L j ))max(D KL (L i ‖L j ))-min(D KL (L i ‖L j ))㊂(6) 鉴于LLE 算法没有考虑到样本邻域分布之间的差异,通过在原始的降维过程中添加对权重w 的修图1 KL 散度度量邻域分布Fig.1 KL divergence measures neighborhood distribution 正函数,使邻域L i 与L j 分布的相似性关系信息传送到低维空间㊂修正函数如下:w rij =(1-α)w ij +αD G KL (L i ‖L j ),(7)其中α为修正系数(0<α<1),通过调整其大小可以控制高维数据邻域分布相似性关系对低维数据的影响㊂图1为KL 散度度量邻域分布的示意图㊂为满足低维数据的生成条件,每个样本的权值之和为1,因此有:w ′rij =w rij /∑k j =1w ()rij ㊂(8)3 实验仿真及结果分析为评估DLLE 算法应用在电机轴承信号检测上的效果,利用DLLE 算法对两个轴承故障数据集的实验结果数据进行评估㊂由可视化㊁定量聚类和识别精度评估3个实验验证该方法在可视化㊁数据分类与识别精度,从而验证DLLE 算法具有较强的电机轴承信号数据高维空间结构的挖掘能力㊂3.1 数据集为充分证明算法的广泛有效性,使用分别来自凯斯西储大学CWRU(Case Western Reserve University)和江苏千鹏公司生产的QPZZ⁃Ⅱ型轴承故障诊断设备实验平台采集的两组滚动轴承数据集㊂CWRU 数据集采样平台如图2所示,包括一个2马力1.5kW 的电机,一个转矩传感器,一个功率测试计与电子控制设备(图2中未显示)㊂待检测的轴承支撑着电动机的转轴,驱动端转轴为SKF6250,风扇端轴承为SKF6203㊂安装在基座上的加速度传感器在负载为0,频率为12kHz,转子转速为1720r /min 的情况下进行采集,包含正常㊁滚珠故障㊁轴承内圈故障和外圈故障4类数据,且每种数据采集100个样本,每个样本包含1024个特征㊂千鹏数据集采样平台如图3所示,平台由电机㊁轴承和齿轮箱组成,传感器在无负载,电机采样频率为10kHz,转速为1400r /min 的情况下,共采集正常㊁滚珠故障㊁轴承内圈故障和外圈故障数据,每种数据有100个样本,每个样本有1024个特征㊂287吉林大学学报(信息科学版)第41卷 图2 CWRU 数据集采样平台 图3 千鹏数据集采样平台 Fig.2 CWRU dataset sampling platform Fig.3 QianPeng dataset sampling platform3.2 效果可视化评估利用LLE㊁局部切空间排列LTSA(Local Tangent Space Alignment)㊁拉普拉斯特征映射LE(Laplacian Eigenmaps)和DLLE 4种降维算法在两种数据集上的三维效果进行对比,其中正方形代表正常数据,菱形代表内圈故障数据,五角星代表滚珠故障数据,三角形代表外圈故障数据㊂4种电机数据由于特征不同,在高维空间中处于不同的区域㊂在降维过程中,由于没有保留高维数据中邻域之间的结构,导致在低维空间不能有效反应不同种类数据之间的空间关系,即不同种类数据发生相互堆叠㊂因此,通过不同算法能否有效分离同一数据集,可以有效判断算法的保留高维数据中邻域之间的结构能力㊂不同降维算法处理CWRU 数据结果如图4所示,在多种降维算法处理CWRU 数据的三维效果中,图4a 为LLE 算法处理得到的低维结果,外圈故障数据集中,其余3种数据分散,数据堆叠情况严重,没有明显的汇集点㊂LTSA 处理效果如图4b 所示,低维结果均比较聚集,呈现柱状分布,4种数据间具有明显的汇集点㊂图4c 是LE 算法的处理的可视化效果图,能明确反映外圈故障数据,正常数据被分为两个部分,另外两种数据堆叠严重,不能有效区分㊂DLLE 算法效果如图4d 所示,同类数据均聚集为一点,且不同种类之间分散,基本没有发生数据堆叠㊂图4 不同降维算法处理CWRU 数据结果Fig.4 Different dimensionality reduction algorithms process CWRU data results 不同降维算法处理千鹏数据结果如图5所示㊂在其三维效果中,LLE 算法处理得到的低维结果如图5a 所示,4种故障汇集成柱状,有明显的交叉部分㊂LTSA 处理效果中,不同种类数据仍然集中,如图5b 所示㊂图5c 表明LE 算法难以区分正常和外圈故障数据㊂DLLE 算法效果如图5d 所示,正常和外圈故障数据呈现柱状分布,滚珠故障和内圈故障数据聚集呈点状分布,低维数据仍然无明显堆叠现象㊂综上,387第5期张彦生,等:融合邻域分布LLE 算法轴承故障信号检测LLE㊁LTSA 和LE 通过处理CWRU 数据与千鹏数据得到的4种数据发生堆叠现象,DLLE 的低维结果正确反映高维数据空间分布,表明其提高了LLE 保留高维数据中邻域之间的结构的能力㊂图5 不同降维算法处理千鹏数据结果Fig.5 Different dimensionality reduction algorithms process QianPeng data results 3.3 效果Fisher 度量评估Fisher 度量是一种常用的数据聚类效果评估的方法,该方法通过利用类间距离S b 和类内距离S w 的商反应同一类数据的分散程度和不同类之间的分离程度,进一步评估不同降维算法的分类效果㊂Fisher 度量及相关参数S b ㊁S w 的具体求解公式如下:F =tr(S b )tr(S w ),S b =∑C i =1n i (⎺x i -⎺x )(⎺x i -⎺x )T ,(9)S w =∑C i =1∑x i ∈C i (x i -⎺x i )(x i -⎺x i )T ㊂ 在LLE㊁LTSA㊁局部保留投影算法LPP(Locality Preserving Projections)㊁LE 和DLLE 算法处理的两组数据的结果上使用Fisher 度量计算公式,得到具体的相关参数S b ㊁S w 和F 如表1㊁表2所示㊂表1 不同算法对CWRU 数据的Fisher 度量的比较表2 不同算法对千鹏数据的Fisher 度量的比较487吉林大学学报(信息科学版)第41卷通过数据对比,可以观察到DLLE 在5种降维算法中的表现,表1是不同算法对CWRU 数据的Fisher 度量的比较㊂其中类间距离中DLLE 类间距离1.4807,在5种降维算法中为最大值,表现出良好的分类效果能力,类内距离为0.7749,相较LLE 聚类效果提升明显,Fisher 度量值1.9107,除LPP 算法Fisher 度量值外最高㊂不同算法对千鹏数据的Fisher 度量如表2所示㊂其中DLLE 类间距离1.8771在多种算法中仍为最大值,类内距离较小,Fisher 度量值4.9065为最大值㊂因此,DLLE 的分类效果在5种算法中表现良好,有效提高了LLE 的分类效果㊂3.4 效果识别精度评估分别在CWRU 数据集和千鹏数据集上对多种不同算法的效果识别精度做评估,对每类样本80%进行训练,20%测试,结果如图5,图6所示㊂从图5,图6中可看出,在两组数据集上,DLLE 算法在CWRU 数据集上对4类样本的识别精度均较高,平均精度维持在91%左右,该算法在特征识别上具有较高精确度㊂ 图6 CWRU 数据集类别识别精度评估 图7 千鹏数据集类别识别精度评估 Fig.6 Category recognition accuracy Fig.7 Category recognition accuracy evaluation of CWRU dataset evaluation of QianPeng dataset4 结 语为解决LLE 算法难以充分挖掘高维电机轴承数据结构的问题,笔者提出了一种融合邻域分布属性的局部线性嵌入算法㊂该算法通过计算样本邻域分布之间的散度,对权重系数进行修正,实现了在低维空间中的数据保持高维空间中的邻域相似性关系㊂该算法在CWRU 数据集和千鹏数据集上利用可视化㊁效果Fisher 度量和效应识别精度对该算法进行评估㊂其中,在Fisher 测量中,算法分别为1.9107和4.9065㊂在效果识别精度评价中,该算法保持了识别精度的91%左右,验证了该算法对轴承信号处理结果在可视化㊁分类和识别精度的优势㊂证明该算法对增强LLE 算法挖掘电机轴承检测数据高维非线性结构具有一定意义㊂参考文献:[1]SIKDER N,MOHAMMAD ARIF A S,ISLAM M M,et al.Induction Motor Bearing Fault Classification Using ExtremeLearning Machine Based on Power Features [J].Arabian Journal for Science and Engineering,2021,46(9):8475⁃8491.[2]YANG D M.The Detection of Motor Bearing Fault with Maximal Overlap Discrete Wavelet Packet Transform and Teager EnergyAdaptive Spectral Kurtosis [J].Sensors,2021,21(20):6895.[3]AYAS S,AYAS M S.A Novel Bearing Fault Diagnosis Method Using Deep Residual Learning Network [J].Multimedia Toolsand Applications,2022,81(16):22407⁃22423.[4]张朝林,范玉刚.LLTSA 特征降维与ELM 模型在单向阀故障诊断中的应用[J].机械科学与技术,2019(7):1024⁃1028.ZHANG C L,FAN Y G.Application of LLTSA Characteristic Dimensionality Reduction and ELM Model in Fault Diagnosis of Check Valve [J].Mechanical Science and Technology,2019(7):1024⁃1028.[5]PAN Y,GE S S,AL MAMUN A.Weighted Locally Linear Embedding for Dimension Reduction [J].Pattern Recognition,2009,42(5):798⁃811.587第5期张彦生,等:融合邻域分布LLE 算法轴承故障信号检测687吉林大学学报(信息科学版)第41卷[6]VARINI C,DEGENHARD A,NATTKEMPER T.ISOLLE:Locally Linear Embedding with Geodesic Distance[C]∥European Conference on Principles of Data Mining and Knowledge Discovery.Berlin,Heidelberg:Springer,2005:331⁃342.[7]ZHANG J P,SHEN H X,ZHOU Z H.Uni⁃Fified Locally Linear Embedding and Linear Discriminant Analysis Algorithm (ULLELDA)for Face Recognition[C]∥Chinese Conference on Biometric Recognition.[S.l.]:Springer,2004:296⁃304.[8]JIANG B,DING CHRIS,LUO B.Robust Data Representation Using Locally Linear Embedding Guided PCA[J]. Neurocomputing,2018,275:523⁃532.[9]KONG D G,DING CHRIS H Q,HUANG H,et al.An Iterative Locally Linear Embedding Algorithm[J/OL].[2023⁃4⁃27]. https:∥/abs/1206.6463.[10]LUO F,ZHANG L,DU B,et al.Dimensionality Reduction with Enhanced Hybrid⁃Graph Discriminant Learning for Hyperspectral Image Classification[J].IEEE Transactions on Geoscience and Remote Sensing,2020,58(8):5336⁃5353.[11]LUO F,ZOU Z,LIU J,et al.Dimensionality Reduction and Classification of Hyperspectral Image via Multistructure Unified Discriminative Embedding[J].IEEE Transactions on Geoscience and Remote Sensing,2022,60:1⁃16.[12]ANOWAR F,SADAOUI S,SELIM B.Conceptual and Empirical Comparison of Dimensionality Reduction Algorithms(PCA, KPCA,LDA,MDS,SVD,LLE,ISOMAP,LE,ICA,T⁃SNE)[J].Computer Science Review,2021,40:100378. [13]WANG Y,HUANG H,RUDIN C,et al.Understanding How Dimension Reduction Tools Work:An Empirical Approach to Deciphering t⁃SNE,UMAP,TriMap,and PaCMAP for Data Visualization[J].Journal of Machine Learning Research,2021, 22(1):9129⁃9201.(责任编辑:张洁)第41卷 第5期吉林大学学报(信息科学版)Vol.41 No.52023年9月Journal of Jilin University (Information Science Edition)Sept.2023文章编号:1671⁃5896(2023)05⁃0787⁃06基于改进占空比调制的PMSM 模型预测控制收稿日期:2022⁃10⁃10基金项目:国家自然科学基金资助项目(61873058)作者简介:王金玉(1973 ),男,济南人,东北石油大学教授,硕士生导师,主要从事电力电子与电力传动研究,(Tel)86⁃135****2418(E⁃mail)wangjydxl@;通讯作者:路鑫宇(1996 ),男,黑龙江大庆人,东北石油大学硕士研究生,主要从事电力电子与电力传动研究,(Tel)86⁃150****5917(E⁃mail)1059187461@㊂王金玉,路鑫宇,张忠伟(东北石油大学电气信息工程学院,黑龙江大庆163318)摘要:为改善永磁同步电机(PMSM:Permanent Magnet Synchronous Motor)模型预测控制系统中较高的转矩脉动与磁链脉动,通过学习永磁同步电机的基本构造和控制方法,设计了一种对占空比与电压矢量进行同步调节的模型预测控制系统方案㊂通过选择某一取样时间的最优预期电压矢量和作用时间,加上当前取样时间的最优预期电压矢量和作用时间,对采样时间的占空比系数实现调整㊂通过对仿真模型进行对比分析,验证了该方法对提升永磁同步电机控制性能的可行性和有效性㊂关键词:永磁同步电机;模型预测控制;占空比;转矩脉动;磁链脉动中图分类号:TP271文献标志码:APredictive Control of PMSM Based on Improved Duty Cycle ModulationWANG Jinyu,LU Xinyu,ZHANG Zhongwei(School of Electrical and Information Engineering,Northeast Petroleum University,Daqing 163318,China)Abstract :In order to improve the torque ripple and flux ripple in the model predictive control system of PMSM (Permanent Magnet Synchronous Motor),a control system scheme is designed by learning the basic structure and control methods of PMSM.The scheme adjusts the duty cycle and voltage vector synchronously.The optimal expected voltage vector and action time at a certain sampling time are selected,and the optimal expected voltage vector and action time at the current sampling time are added to adjust the duty cycle coefficient of the sampling time.The feasibility and effectiveness of this method in improving the control performance of PMSM are verified by comparative analysis of the simulation model.Key words :permanent magnet synchronous motor (PMSM);model predictive control;duty cycle;torque pulsation;magnetic chain pulsates 0 引 言近年来,永磁同步电机(PMSM:Permanent Magnet Synchronous Motor)以其具备高速度㊁大扭矩㊁高效率㊁可靠性高㊁成本低㊁动态响应快㊁结构简单等优点和出色的控制性能而在多方面优越于其他类型的传统电机,从而在工业生产中得到广泛应用[1⁃3]㊂对解决现代控制策略更高级的控制要求,以及对永磁同步电机的高性能控制策略的探讨也都具有极为重要的价值[4⁃5]㊂其中模型预测控制系统(Model Predictive Control)主要使用离散的系统模型,其可利用系统建模的方法预测系统中每个控制变量未来的变化情况,然后通过选择一定合理的顺序施加电压矢量,将转矩和磁链误差控制在一定范围内[6⁃8]㊂对永磁同步电机模型预测控制在转矩脉动和磁链脉动较高的问题,人们提出了许多改进方法㊂Gong 等[9]通过使用多电平变流器或增加虚拟矢量直接有效地降低永磁同步电机预测控制转矩脉动,但该方法对硬件有较高要求,并且会在一定。
基于聚类的数据降维算法
基于聚类的数据降维算法在大数据时代,数据的维度和数量呈指数级增长,这给数据分析和处理带来了巨大的挑战。
降维是解决这一问题的有效方法之一。
基于聚类的数据降维算法作为一种重要的降维技术,近年来备受关注。
一、数据降维概述数据降维是指将高维数据投影到低维空间中,同时保留原数据的重要特征。
数据降维可以大大减少处理时间和存储空间,同时可以提高分析和建模的效率和准确性。
常用的数据降维方法主要包括主成分分析(PCA)、线性判别分析(LDA)和局部线性嵌入(LLE)等。
这些方法在保留数据中重要信息方面都有很好的效果,但是也存在一些缺点。
例如,PCA只能对线性相关的数据降维,对非线性数据的处理效果不佳;LDA需要数据点之间存在标签差异;LLE算法对噪声数据敏感,且对高维数据处理效率低下。
二、基于聚类的数据降维算法基于聚类的数据降维算法是一种无监督的降维方法,通常包括以下两个步骤:1. 聚类:将数据集划分成若干个簇,同一簇内的数据点相似度较高,不同簇之间相似度较低。
2. 降维:对每个簇进行降维操作,将每个簇中的数据点投影到低维空间中。
通常采用PCA等方法进行降维。
降维后,每个簇对应的低维特征被作为该簇的代表,将代表点作为原始数据点,重复1和2两个步骤,直到满足降维终止条件。
基于聚类的数据降维算法的优点在于不需要事先对数据进行预处理,也不需要对数据进行标记。
同时,该方法在处理非线性数据方面的效果也比较好。
三、基于聚类的数据降维算法的实现基于聚类的数据降维算法实现的关键在于聚类算法。
常用的聚类算法有k-means、DBSCAN、层次聚类等。
下面以k-means算法为例进行阐述。
1. k-means聚类算法k-means算法是一种基于距离的聚类算法。
其具体实现过程如下:1. 随机生成k个初始聚类中心。
2. 将所有的数据点分配给最近的聚类中心。
3. 计算每个聚类的平均值并将其作为新的聚类中心。
4. 重复2和3两个步骤,直到聚类中心不再发生变化或达到迭代次数。
relief的算法描述
relief的算法描述(原创实用版)目录1.算法概述2.算法原理3.算法步骤4.算法优缺点5.算法应用正文1.算法概述Relief 算法是一种基于距离的聚类算法,其主要思想是通过计算数据点之间的距离来确定它们之间的相似度,并根据相似度将数据点划分为不同的簇。
与其他聚类算法相比,Relief 算法的特点在于它能够自适应地调整聚类个数,从而在处理不同形状和密度的数据集时具有更好的性能。
2.算法原理Relief 算法的原理可以概括为两个主要步骤:首先,通过计算数据点之间的距离来确定它们之间的相似度;其次,根据相似度将数据点划分为不同的簇,同时自适应地调整聚类个数。
在计算相似度时,Relief 算法采用了一种称为“距离衰减”的方法,即对于距离较近的数据点,给予较小的权重,而对于距离较远的数据点,给予较大的权重。
这样,在划分簇时,算法能够更好地识别出密集区域和稀疏区域。
3.算法步骤Relief 算法的具体步骤如下:(1) 初始化聚类个数 k 为 1,将所有数据点划分为一个簇。
(2) 对于每个数据点,计算其与其他数据点的距离,并根据距离衰减方法计算相似度。
(3) 根据相似度将数据点划分为不同的簇,更新聚类个数 k。
(4) 重复步骤 (2) 和 (3),直到聚类个数不再发生变化。
(5) 输出最终的聚类结果。
4.算法优缺点Relief 算法的优点在于它能够自适应地调整聚类个数,从而在处理不同形状和密度的数据集时具有更好的性能。
同时,该算法对于噪声数据具有一定的鲁棒性。
然而,Relief 算法也存在一定的缺点,例如计算复杂度较高、需要预先设定距离衰减参数等。
5.算法应用Relief 算法广泛应用于数据挖掘、模式识别、图像处理等领域。
流形学习算法及其应用研究
流形学习算法及其应用研究流形学习是一种数据降维的方法,用于将高维数据映射到低维流形空间中,以便更好地理解和分析数据。
它主要基于流形假设,即高维数据在低维嵌入空间中具有较好的局部结构。
流形学习算法通过保持数据之间的局部关系,寻找数据的潜在流形结构,并将其可视化或应用于其他任务,如分类、聚类和降维等。
在流形学习中,有许多经典的算法被广泛应用于不同领域的研究和实际问题中。
下面将介绍几种常见的流形学习算法及其应用。
1.主成分分析(PCA):PCA是一种线性降维方法,通过计算数据的主成分来保留数据中的最大方差。
PCA常用于图像处理、模式识别和数据压缩等领域,能够提取数据的重要特征。
2.局部线性嵌入(LLE):LLE是一种非线性降维方法,通过保持数据的局部关系来找到低维嵌入空间。
LLE能够很好地处理流行曲面和非线性数据,并广泛应用于图像处理、数据可视化和模式识别等领域。
3.等距映射(Isomap):Isomap通过计算数据点之间的测地距离来构建流形结构,并将其映射到低维空间。
Isomap广泛应用于图像处理、手写数字识别和语音信号处理等领域,能够保持数据的全局结构。
4. 局部保持嵌入(Laplacian Eigenmaps):Laplacian Eigenmaps 通过构建拉普拉斯矩阵来找到数据的潜在流形结构,并将其映射到低维空间。
它在数据可视化、图像分割和模式分类等领域具有广泛应用。
5.t-SNE:t-SNE是一种非线性降维方法,通过保持数据点之间的相似性来构建流形结构。
t-SNE广泛应用于图像识别、文本聚类和生物信息学等领域,能够提供更好的数据可视化效果。
流形学习算法在各个领域都有广泛的应用。
在计算机视觉领域,流形学习算法被应用于图像分类、人脸识别和目标检测等任务中,能够提取关键特征和减少噪声。
在生物信息学领域,流形学习算法被应用于基因表达数据分析、蛋白质结构预测和分子对接研究中,能够帮助理解生物过程和提高预测精度。
《数据降维技术》课件
1)对原始数据进行中心化处理;2)计算协方差矩阵;3 )对协方差矩阵进行特征值分解,得到主成分;4)将原 始数据投影到主成分构成的新空间中。
原理
PCA通过计算数据集的协方差矩阵,找到数据集的主成分 ,这些主成分能够最大程度地保留数据集中的信息。
应用场景
PCA广泛应用于数据预处理、特征提取、数据可视化等领 域。
降维技术的分类
根据降维的目的和降维后的数据性质,可以将数据降维技术 分为特征选择和特征提取两类。特征选择是从原始特征中选 取最重要的特征,而特征提取则是通过某种映射关系将原始 特征转换为新的特征。
数据降维技术的应用场景
数据可视化
通过将高维度的数据降维为二维或三 维,可以更好地观察数据的分布和规 律,有助于发现数据中的模式和异常 。
鲁棒性评估
评估降维算法对噪声和异常值 的鲁棒性,以确保算法在实际 应用中的稳定性。
可视化效果评估
评估降维后数据的可视化效果 ,以确保降维后的数据能够直 观地展示出数据的结构和特征
。
优化策略
选择合适的降维算法
根据实际应用场景和数据特点,选择 适合的降维算法,以提高降维效果和 计算效率。
参数优化
对降维算法的参数进行优化,以获得 更好的降维效果和计算效率。
PCA通过构建数据的主成分,将高维图像数据投影到低维空间,从而降低数据的复杂性。在图像处理中,PCA可 以用于特征提取、图像压缩和识别等任务。通过保留主要特征,PCA能够减少计算量和存储空间,同时提高图像 处理的效率和准确性。
LDA在人脸识别中的应用
总结词
LDA是一种有监督的降维技术,通过最大化类间差异和最小化类内差异,将高维人脸数据投影到低维 空间,以提高人脸识别的准确率。
LLE算法及其改进算法介绍
LLE算法及其改进算法介绍LLE(Locally Linear Embedding)算法是一种非线性降维算法,其目的是将高维数据映射到一个低维空间中,同时保持数据的局部线性结构。
LLE算法的基本思想是假设数据在局部上是线性的,即通过线性组合作为每个点的近邻来重构该点,然后通过最小化数据点在低维空间中的重构误差来确定其在低维空间的表示。
1.确定近邻:对于每个数据点,选择其k个最近邻点。
2.重构权重计算:对于每个数据点,通过最小二乘法来计算其与其近邻点的线性组合系数(重构权重)。
3.重构空间计算:通过重构权重来计算每个数据点在低维空间中的表示。
4.低维表示优化:通过最小化重构误差来优化每个数据点在低维空间中的表示。
1.LLE-BFGS算法:该算法在LLE基础上引入了拟牛顿法(BFGS)来进行低维表示的优化。
拟牛顿法通过近似目标函数的二阶导数来实现对目标函数的优化,从而提高算法的收敛速度和稳定性。
2. LLE-Newton算法:该算法也是在LLE基础上引入了牛顿法来进行低维表示的优化。
牛顿法通过精确计算目标函数的二阶导数来实现对目标函数的优化,从而更准确地找到最优解。
3. LPP算法:LPP(Locality Preserving Projections)算法可以看作是LLE算法的一种改进。
该算法通过最小化新空间中同类样本之间的距离和不同类样本之间的距离来实现对数据的降维,并且不需要求解重构权重。
LPP算法在映射到低维空间后能够保持数据的局部结构,并且具有良好的分类性能。
4. Hessian LLE算法:该算法通过近似Hessian矩阵来对低维表示进行优化。
Hessian矩阵是目标函数的二阶导数,通过近似计算Hessian 矩阵,可以提高算法的收敛速度和稳定性。
总结来说,LLE算法是一种非线性降维算法,通过保持数据的局部线性结构来进行降维。
其改进算法包括LLE-BFGS算法、LLE-Newton算法、LPP算法和Hessian LLE算法。
一种基于改进距离的LLE算法
特 征 向量 作 为低 维嵌 入坐 标 .
2 基于改进 距离 的 L E方法 L
基于 改进 距 离 的 L E方法 是在 第一 步 中求 k个 近邻点 的距离 时, 用 L 采
’- ’一 I, tlI’. , 、 , 、
如 , 角 包 顶 1^ , 应 边 别 (, , x ) ( ,和 可 别 图1 形s 含 点 ’ 三 对 的 分 为 (, 和 X 分 ) k i , )
… —。
文 章编 号 :0 32 4 (02o -320 10 -8 32 1)306 -4
一
种 基 于 改进 距 离 的 L E算 法 L
邹艳,黄 天民
( 西南交通 大学数 学学院,成都 603) 10 1
摘
要: 为解决现有局部 线性嵌入算 法处 理稀 疏不均 匀源数据 集失效 问题, 过引入 新的距 离度 量公 式来替代原有 算 通
Xi X/ ,
) =
。
() 1
M( j分 取 L 法 的 氏 离 其 , (, 为 , 两 问 测 线 离 i与M() 别表示 代LE算 中 欧 距 . 中 Gx , x ) 与 点 的 地 距 , )
X i l ,, , (=, . ) 其 点 的 离的 均 , i =, . ) j 1,, 和 他 之间 距 平 值 ( 2. X 2. . .
法中的欧 氏距 离来 改进原有 算法,在 U I数据 集上 的实验结果表明:改进后的算法对稀疏数据 集比原有 算法有 更好 的 C
降维效果.
关键词: 部线性嵌入;测地线:流形学 习 局
改进的非线性数据降维方法及其应用
摘
一
要: 局部 线性荣入算 法( oal Ln a E e dn , L 是基于 流形 学 习的非线性 降维方 法之 一。L E利用样本 点的近邻 L cl ier mbd ig L E) y L
点的线性组合对每 个样 本点进行局部 重构 , 而不同近 邻个数的选取会 产生不 同的重构误 差 , 从而影响整体 算法的 实施 。提 出了 种 L E的改进算法 , L 算法有 效地 降低 了近 邻点个数对算 法的影响, 并很好 地学 习了高维数 据的流形结构 所提 方法 的有 效性
Ho v r d f r n n mb r f n i h o s we e . i e e t u e o eg b r wi r d c d fe e t e o sr c i n ro s wh c wi ma e h r s l d f r n d — i l p o u e i r n r c n tu t e r r , i h l i o l 1 k t e e ut i e e t i f r cl . i a e sr c u e t e p r x ma e r c n t ci n o fi in k n u e f t er c t g r i f r t n wh c i b e t Th s y p p r tu t r s h a p o i t e o sr t c e fce t ma i g s o h i a e o y n o ma i i h s u o o o —
n i h o s f c e t a d h p o a i t o h d t b s i e an dTh s s o f me y x e i n s o b t s n h t a d eg b r e i n l n t e r b b l y f t e a a a e s t i e . i i i y i r c n r d b e p rme t n o h y t e i n i c
非线性降维方法在数据处理中的应用
非线性降维方法在数据处理中的应用一、引言非线性降维方法是解决高维数据问题的一种有效手段,其优劣势在于降维后数据结构的保持和原始数据的表示能力。
在数据处理领域的应用已经得到了深入的研究和开发,为数据挖掘、机器学习等领域提供了重要的技术支持和实现基础。
二、线性降维方法线性降维方法是将高维数据投影到低维子空间中,以实现降低维度的目的。
它可以通过PCA(主成分分析)等方法实现,PCA 即通过最大化各个数据点到投影超平面的投影距离平方和,来找到最合适的投影超平面。
但是这种方法存在一个限制,就是只能处理线性可分的数据问题。
三、非线性降维方法由于很多高维数据并不能通过线性方法完全描述,因此非线性降维方法逐渐成为处理高维数据的关键。
其中比较常用的方法有Kernel PCA、Isomap、LLE等。
这些方法不仅能够处理非线性可分数据,而且能够保持原始数据的主要特征,这对于数据处理的结果来说十分重要。
1、Kernel PCAKernel PCA是对PCA的一种改进方法,其核心是使用核函数对数据进行映射,而不是直接进行线性投影。
这种方法通过将数据映射到一个更高维的特征空间中,从而使得数据变得线性可分。
进而找到一个合适的投影方向,实现高维数据降维的目的。
Kernel PCA的优势在于可以处理非线性可分数据,但缺点是由于映射到更高维度的空间中,可能会导致维度增加的问题。
2、IsomapIsomap是一种基于流形学习的方法,其核心是将高维数据映射到一个低维度的流形空间中。
Isomap中的距离是通过测量数据在流形空间中的距离来计算的,可以有效的控制数据在降维后的分布,从而保持原始数据的特征和结构。
Isomap能够处理非线性可分数据,并且具有局部不变性,适用于噪声数据的处理。
3、LLELLE(局部线性嵌入)是一种局部方法,其核心是通过测量每个数据点和其邻居之间的线性依赖程度,从而对数据进行降维。
LLE能够有效的保持数据的局部结构和特征,对于高维数据的降维效果很好。
时间序列数据的流形降维方法研究
时间序列数据的流形降维方法研究在大数据时代,时间序列数据越来越受到重视。
例如,金融数据、生物医学数据、气象数据等,在这些数据中,我们往往需要寻找的是潜在的规律和模式,以便更好地预测未来的趋势。
而流形降维是一种有效的数据降维方法,通过将高维数据映射到低维空间中,帮助我们更好地理解数据的结构和规律。
本篇文章主要介绍时间序列数据的流形降维方法及其应用。
一、时间序列数据的流形降维方法流形降维的主要思想是保留数据样本的局部结构,尽可能地减少噪声和冗余信息。
常见的流形降维方法包括核主成分分析(Kernel PCA)、局部线性嵌入(Locally Linear Embedding,LLE)、等距映射(Isomap)等。
不同的流形降维方法具有不同的优缺点,应根据数据的特征选择合适的方法。
时间序列数据的流形降维方法与普通流形降维方法有所不同。
时间序列数据由时序样本组成,而流形降维方法是一种非参数方法,不适用于时序数据。
因此,时间序列数据的流形降维方法需要考虑到数据的时序性。
目前,常见的时间序列流形降维方法包括基于机器学习的方法、基于时间序列分析的方法、基于图论的方法等。
机器学习方法中,基于自编码器的流形学习方法是较常用的方法之一。
自编码器是一种深度神经网络,其主要思想是通过将数据压缩到低维空间中,再通过解码器将压缩的数据重构为原始数据。
在自编码器中,激活函数起到关键作用,一般采用非线性函数,如ReLU函数、sigmoid函数等。
时间序列分析方法中,时间序列的相似性是降维的主要考虑因素。
一些经典的时间序列相似性度量方法包括欧氏距离、动态时间规整(DTW)等。
同时,在时间序列降维中,需要保留时间序列的基本信息,例如周期性、趋势性等。
基于图论的方法是一种新兴的时间序列流形降维方法。
由于时间序列数据通常具有多重分辨率,常规的距离度量方法不一定有效。
在图论方法中,常用的相似度度量方法包括近邻法、最短路径法等。
相似度度量之后,可以通过图嵌入方法将高维时间序列数据嵌入到低维空间中。
data projection方法
data projection方法数据投影方法简介数据投影方法(data projection methods)是一种数据降维技术,用于将高维数据映射到低维空间。
通过降低数据维度,数据投影方法可以帮助我们可视化和理解复杂的数据结构。
本文将详细介绍几种常见的数据投影方法和其应用领域。
主成分分析(Principal Component Analysis, PCA)主成分分析是最常见的数据投影方法之一。
它通过寻找数据中最大方差的主成分来进行降维。
PCA的主要步骤包括:1.中心化数据:将数据的均值移到原点。
2.计算协方差矩阵:计算数据的协方差矩阵。
3.特征值分解:对协方差矩阵进行特征值分解。
4.选择主成分:选择前k个最大的特征值对应的特征向量。
5.数据投影:将数据投影到选定的主成分上。
PCA常用于数据可视化、数据压缩和特征提取等领域。
线性判别分析(Linear Discriminant Analysis, LDA)线性判别分析是一种常用的有监督降维方法。
它通过最大化类内离散度和最小化类间离散度来找到最优的投影方向。
LDA的主要步骤包括:1.计算类内均值向量:计算每个类别的样本均值向量。
2.计算类内散度矩阵:计算每个类别的样本散度矩阵。
3.计算总类内散度矩阵:计算所有类别的总类内散度矩阵。
4.计算类间散度矩阵:计算类间散度矩阵。
5.特征值分解:对总类内散度矩阵的逆矩阵与类间散度矩阵进行特征值分解。
6.选择投影方向:选择前k个最大特征值对应的特征向量作为投影方向。
7.数据投影:将数据投影到选定的投影方向上。
LDA常用于模式识别、人脸识别和生物信息学等领域。
非负矩阵分解(Non-negative Matrix Factorization, NMF)非负矩阵分解是一种广泛应用的非线性数据投影方法。
它适用于存在非负约束的数据降维问题。
NMF的主要步骤包括:1.初始化W和H:随机初始化非负矩阵W和H。
2.更新W和H:交替更新W和H,使得WH逼近原始数据矩阵。
基于改进LLE算法的机械故障特征压缩与诊断
基于改进LLE算法的机械故障特征压缩与诊断王江萍;崔锦【摘要】局部线性嵌入法(locally linear embedding,LLE)是一种典型的流形学习算法.在分析LLE算法的基本计算思路的基础上,提出了一种基于最佳分类效果的k 和d综合参数选择方法.此方法综合考虑了故障类内和类间的离散度,并以此作为LLE算法特征压缩效果的评价依据.根据LLE算法的局部线性特征保持的基本特点,提出了一种增量式LLE算法用于柴油机机械故障特征压缩与诊断中.以平均子带能量法构造特征向量空间,子带数目的确定以同种故障类型特征参数间方差最小为准则.实验中,分别使用基于最佳参数选择的LLE算法、传统的主成分分析(principal component analysis,PCA)、增量式LLE算法对柴油机特征向量进行压缩,并对这三种算法的特征压缩结果运用K近邻算法(K-nearest neighborm,KNN)进行故障诊断与分类.结果表明基于最佳参数选择的LLE算法的诊断分类效果要优于传统的PCA方法,增量式LLE算法也取得良好的分类效果.实验表明,对LLE算法进行有关改进可以很好地应用到机械故障特征压缩与诊断中.【期刊名称】《科学技术与工程》【年(卷),期】2016(016)013【总页数】6页(P86-91)【关键词】改进LLE算法;机械故障诊断;特征压缩;子带能量【作者】王江萍;崔锦【作者单位】西安石油大学机械工程学院,西安710065;西安石油大学机械工程学院,西安710065【正文语种】中文【中图分类】TP391.4现代机械状态监测和故障诊断的方法很多,其实质都是模式识别和分类问题,根据机械设备的运行信息来识别机械设备的有关状态。
机械故障诊断的关键技术是信号的特征提取。
现代机械设备越来越复杂,检测信号又表现为高维非线性。
使用有效的降维方法,使高维信号映射到低维空间中,并且保持原有信号的固有特征和结构尤为重要。
基于LLE算法的图像降维方法研究
基于LLE算法的图像降维方法研究随着现代科技的发展,图像处理技术也越来越重要。
图像降维是图像处理中一个很重要的环节,它能够有效地减少图像数据量,简化分析过程,同时保证图像信息的有效性。
LLE算法是一种基于局部最小化的非线性降维方法,它已经成为图像降维领域中的一项研究焦点。
本文将介绍LLE算法及其在图像降维方面的应用。
一、 LLE算法简介LLE(Locally Linear Embedding)算法是一种非线性降维算法,它的基本思想是保持数据的局部线性结构,并在降维后尽可能地保持这种局部结构。
在LLE算法中,我们首先找到与每个数据点最近的k个邻居。
然后,对于每个数据点,我们通过最小化它与它的邻居之间的距离差异,得到其在低维空间中的表示。
最终,我们可以通过LLE算法中的最小二乘问题,求得数据点在低维空间中的投影。
二、 LLE算法在图像降维中的应用LLE算法在图像降维方面具有很好的应用前景。
在图像处理中,像素之间的关系往往是复杂的非线性关系。
对于图像降维,我们经常需要在保证像素之间关系有效的前提下,减少图像数据量,使分析图像变得更加简单。
而LLE算法正是基于这种效果,能够在保持图像局部结构的情况下,降低图像数据维度。
为了验证LLE算法在图像降维中的应用效果,我们选取了十张随机的灰度图像,每张图像大小为$100\times 100$像素。
然后,我们使用LLE算法在保持每个图像局部结构的情况下,将图像降至两维,从而得到了处理后的图像。
三、 LLE算法处理的效果分析通过对LLE算法处理后的图像进行观察比较,我们得到了以下结论:1. LLE算法能够有效地保留图像的局部结构通过对处理后的图像比较原始图像,我们可以看到LLE算法能够在图像降维的同时,有效地保持每个像素之间的关系。
即使在二维空间中,图像的关键特征也得到了保留。
2. LLE算法能够有效地压缩图像数据对于每张$100\times 100$像素的原始图像,我们使用LLE算法将其降至两维后,得到了每个图像只需$200$个数据点就能完整表示的结果。
LLE改进文献
1 LLE方法LLE是Roweis和Saul[7]于2000年提出的一种非线性降维方法,主要利用局部的线性来逼近全局的非线性,保持局部的几何结构不变,通过相互重叠的局部邻域来提供整体的信息,从而保持整体的几何性质1 LLE方法是映射数据X={x1,x2,…,xn},xi∈Rd到数据集Y={y1,y2,…,yn},yi∈Rm(m<d)1 该方法主要包括3步: 第1步,对高维空间中的每个样本点xi(i=1,2,…,n),计算它和其他n-1个样本点之间的距离,根据距离的大小,选择前K个与xi(i=1,2,…, n)最近的点作为其近邻点,常采用欧氏距离来度量两个点之间的距离,即dij=|xi-xj|; 第2步,对每个xi(i=1,2,…,n),找到它的K个近邻点之后,计算该点和它的每个近邻点之间的权重w(i)j,即最小化: εI(W)= ∑n i=1 x i - ∑K j=1 w (i)j xj 2 , 其中, ∑n j=1 w(i ) j=1,如果xj(j=1,2,…,n)不是xi(i=1,2,…,n)的近邻,则w(i) j =0; 第3步,根据高维空间中的样点xi(i=1,2, …,n)和它的近邻xj(j=1,2,…,K)之间的权重w(i) j 来计算低维嵌入空间中的值yi和yj1由于在低维空间中尽量保持高维空间中的局部线性结构,而权重w(i)j代表着局部信息,所以固定权重w(i)j,使下面的损失函数最小化: εΓ(Y)= ∑n i=1 yi- ∑k j=1 w(i) jyj 2 =tr(YT MY), 要求∑n i=1 yi=0且1n ∑n i=1 yiyT i =1,以使εΓ(Y)对平移、旋转和伸缩变化都具有不变性1使εΓ(Y)最小化的解为矩阵M的最小几个特征值所对应的特征向量构成的矩阵Y1取M最小的m+1个特征值对应的特征向量,去掉其中最小的特征值对应的特征向量,剩余的m个特征向量组成的矩阵就是低维空间中所得特征向量1 从以上计算过程可以看到,LLE计算与样本点的个数相关1当样本点的个数较大时,带来求近邻点及M矩阵的计算量增加1需找到一个新的方法来降低求近邻点及M矩阵的计算量1 2 聚类的方法为了尽可能保持原有样本点的分类信息,使变化后的信息尽量含有原样本点的信息,可行的方法是采用聚类算法1因为聚类算法是一种多元统计分类方法,这种方法不必事先知道对象的分类结构,而是基于整个数据集内部存在若干“分组”或“聚类”为出发点产生的一种数据描述方法,每个子集中的点具有高度的内在相似性1另外,聚类的中心点含有大量的信息,可用聚类的均值向量即中心点来代表该类,这样,近邻点及矩阵M的阶数随着样本点个数减少而减少,可大大降低求近邻点及矩阵的计算量1 聚类分析的算法很多,有系统聚类法、动态聚类法、神经网络聚类法、模糊聚类法、遗传聚类法等1本文选择基于动态聚类的K均值聚类算法[8]进行实验1 3 改进距离的LLE方法实验发现特别对于分布不均匀的样本集,近邻点个数K的选取对实验结果影响较大1在样本点分布稀疏的区域,K个近邻点所组成的局部邻域显然要比在样本点分布比较密集的区域大,所以需要对LLE进行改进,降低它受样本点分布的影响1 改进距离的LLE方法是在第1步求K 个近邻点的距离时,采用dil(xi,xl)=|xi-xl | M(i)M(l) 取代计算LLE时采用的欧氏距离,其中,M(i), M(l)分别表示xi(i=1,2,…,n),xl(l=1,2,…,n)和其他点之间距离的平均值,采用改进的距离寻找每个样本点xi(i=1,2,…,n)的K个近邻点1 dil(xi,xl)的分子是普通欧氏距离,分母是数值,所以容易证明给出新的距离满足距离定义的要求,即①dil(xi,xl)≥0,当且仅当xi=xl成立,满足距离非负性; ②满足距离对称性要求dil(xi,xl)=dil(xi, xl); ③满足三角不等式要求,即dil(xi,xl)+dik(xi, xk)≥dlk(xl,xk)1 6 841计算机研究与发展2006,43(8)新的距离使处于样本点分布较密集区域的样本点之间的距离增大,而使处于样本点分布较稀疏的区域的样本点之间的距离缩小,这样会使样本点的整体分布趋于均匀化,从而降低由样本点分布对LLE的实验结果的影响1 实验图像为半圆柱面(如图1所示),半圆柱面的上半部分由5×5=25个点组成,下半部分由20×20=400个点组成: Fig11 Halfcylindricalimage1 图1 半圆柱面采用LLE方法和改进距离的LLE方法,分别将三维的半圆柱面的数据点降到二维平面1当K的取值比较小时,两种方法的效果都不好1当K=4时降维效果如图2所示: Fig12 32dimensionalhalfcylinderisreducedto22dimen2sional1(a)K=4,usingLLEand(b)theimprovedLLE withK=41 图2 三维半圆柱面的数据点降到二维平面1(a)K=4时LLE方法降维效果;(b)K=4时改进距离的LLE降维效果当K=9时,降维效果如图3所示,改进距离的LLE方法已得到比较好的结果,而LLE方法的效果依然不理想:当K=10时,降维效果如图4所示,改进距离的LLE方法依然得到较好的结果,而LLE方法效果还是不太理想1 直到K=19时,LLE方法才开始得到理想的结果(如图5所示),而此时改进距离的LLE方法一直保持着比较好的效果1 Fig13 32dimensionalhalfcylinderisreducedto22dimen2sional1(a)K=9,usingLLEand(b)theimprovedLLE withK=91 图3 三维半圆柱面的数据点降到二维平面1(a)K=9时LLE方法降维效果;(b)K=9时改进距离的LLE降维效果Fig14 32dimensionalhalfcylinderisreducedto22dimen2sional1(a)K=10,usingLLEand(b)theimprovedLLE withK=101 图 4 三维半圆柱面的数据点降到二维平面1(a)K=10时LLE方法降维效果;(b)K=10时改进距离的LLE降维效果Fig15 32dimensionalhalfcylinderisreducedto22dimen2sional1(a)K=19,usingLLEand(b)theimprovedLLE withK=191 图 5 三维半圆柱面的数据点降到二维平面1(a)K=19时LLE方法降维效果;(b)K=19时改进距离的LLE降维效果由实验不难发现,改进距离的LLE方法相对LLE 方法对多数K的取值有较好的结果,从而在一定程度上模糊了K的选取1 7 841王和勇等:基于聚类和改进距离的LLE方法在数据降维中的应用4 实验用纹理图像的特征提取验证算法的正确性,具体方法如下所述: 首先对图像的每一个像素用Q×Q个窗口覆盖(如图6所示),每一个窗口包含n×n个像素1测量是在窗口内进行的,构成了RQ2 维的特征向量1定义特征向量Z=(m1,m2,…,mQ2),其中mj是第j个窗口的度量1 Fig16 Multiwindows1 图6 多窗口度量使用的是每个窗口的灰度值的标准偏差: mj=∑n2 r=1 i 2 r n2 - ∑n2 r=1 i r n 2 2 , j=1,2,…,Q2,1≤r≤n2, 其中,ir代表像素的灰度值,并且∑n2 r=1 i2r 表示第j个窗口所有像素的平方和,∑n2 r=1 i r 表示第j个窗口所有像素的和1 本文实验图像的宽度为128个像素,高度为128个像素1取Q=5,n=7,窗口个数为25,窗口大小为49,因此对每个像素都有Z=(m1,m2,…, m25)维的向量1对图像的每个像素分别用上述所讲的多窗口来覆盖,所以图像共有128×128(m1,m2,…,m25)个向量1把128×128个像素作为样本点,每个样本点(m1,m2,…,m25)是25维向量1 按照K均值聚类的方法对128×128(m1,m2,…,m25)个向量聚类,以聚类的中心点作为新的样本点,这样近邻点的个数及M 矩阵的阶数只与样本点聚类的个数有关,大大缩减了求近邻点和求M 矩阵特征向量的计算量;同时,再利用改进距离的LLE算法进行降维,可以降低提取出的特征由于分布不均匀所带来的影响 1 非常明显,聚类的个数越多检索的效果就越好,但是也带来计算量大的麻烦,图7是聚类的个数和检索精度的分析,通过实验得到合适的聚类个数是701 Fig17 Thecomparisonbetweenthenumberofclustering andtheretrievalaccuracyrate1 图7 聚类的个数与查准率的比较对LLE方法分别与聚类和改进距离的方法组合,形成3种降维方法,即改进距离的LLE方法、基于聚类的LLE方法、基于聚类和改进距离相结合的LLE方法,对各种方法选取K=131各种方法降维时间如表1所示: Table1 TheComparisonAmongUsingFourMethodsto ReduceDimension 表1四种方法降维所用时间的比较Method Time(ms) LLE 3300ImprovedLLE3270LLEbasedonclustering 610ImprovedLLEbasedonclustering 600 各种方法效果趋势如图8所示: Fig18 Thecomparisonofretrievalaccuracyrateamong fourmethodswhiletestimagesareincreased1 图8 实验图像个数增多时的各种方法查准率比较8 841计算机研究与发展2006,43(8)从图8和表1可以看出,基于聚类和改进距离相结合的LLE方法大大提高了LLE计算的速度,而且随着图像个数的增多几乎不影响原来的检索精度1 5 结论本文首先分析了LLE 方法的不足,着重讲述了LLE针对样本点计算带来的计算量的分析,介绍了基于聚类和改进距离相结合的LLE方法,大大缩减了计算近邻点和M矩阵阶数的计算量,通过实验验证了算法的优越性 1 参考文献[1]ITJolliffe1PrincipalComponentAnalysis[M]1Berlin:Springer,1986 [2]BScholkopf,ASmola,KRMuller1Nonlinearcomponentanal2ysisasakerneleigenvalueproblem[J]1Ne uralComputation,1998,10(5):1299-1319[3]SMika,GRatsch,JWeston,etal1Fisherdiscriminantanaly2siswithkernels[J]1ProceedingsofIEEEN euralNetworksforSignalProcessingWorkshop,1999,8(9):41-48[4]IBorg,PGroenen1ModernMultidimensionalScaling:TheoryandApplications[M]1NewYork:Spri nger2Verlag,1997[5]TKohonen1Theself2organizingmap[J]1ProceedingsoftheIEEE,1990,78(9):14 64-1480 [6] JBTenenbaum,VindeSilva,CJohn1Aglobalgeometricframeworkfornonlineardimensionalityreductio n[J]1Science,2000,290:2319-2323[7]STRoweis,LKSaul1Nonlineardimensionalityreductionbylocallylinearembedding[J]1Science,20 00,290:2323-2326[8]BianZhaoqi,ZhangXuegong1PatternRecognition[M]1Bei2jing:TsinghuaUniversityPress,2001(inC hinese) (边肇祺,张学工1模式识别[M]1北京:清华大学出版社,2001) WangHeyong,bornin19731ReceivedhisMA’sdegreeintheSoftwareResearchInstitute,SunYat2senUniversity,Guangzhou,China,in20021Since200 3,hehasbeenaPhDcandi2dateintheSoftwareResearchInstitute,SunYat2senUniversity1Hiscurrentres earchinter2 estsincludepatternrecognitionanddataminning1 王和勇,1973年生,博士研究生,主要研究方向为模式识别、数据挖掘1 ZhengJie,bornin19791ReceivedhisMA’sdegreeinmathematicsfromtheSchoolofMathematicsandComputationalScience,SunYat2senUniversity, Guangzhouin 20051Hiscurrentresearchinteretsinclude dataminingandknowledgediscovery1 郑杰,1979年生,硕士,主要研究方向为数据挖掘、知识发现1 YaoZhengan,bornin19601ReceivedhisMA’sdegreeandPhDdegreeinJilinUniver2sity,China,in1988and1994respectively1Heisaprofessorandthe directorintheSchoolofMathematicsandComputationalScience, Sun Yat2sen University, Guangzhou,wherehealsoservesasasupervisorofdoctorgrad2uate1Hiscurrentresearchinterestsinclude dataminning,pat2ternrecognition,andnetsafety1 姚正安,1960年生,博士,教授,博士生导师,主要研究方向为数据分析、图像处理、计算机网络安全1LiLei,bornin19511ReceivedhisPhDde2greeincomputersciencefromClaudeBernardLyonUniversity, France,in1988,andhefin2ishedhispostdoctoralresearchincomputersci2encefromJilinUniversity,Chi na,in19901HeisaprofessorandthedirectorintheSoftwareResearchInstituteofSunYat2senUniversity,Guangzhou,wherehealsoservesasasupervisorofdoctorgra duate1Hismainresearchinterestsfocusondatabasesandlogicprogramming,softwareengi2neering,and dataminning1 李磊,1951年生,博士,教授,博士生导师,主要研究方向为数据库与知识库、软件工程、数据挖掘 1 ResearchBackground Dimensionreductionisanimportantoperationforpatternrecognition1Becausehigh2dimensionaldataha vealotofredundancies,thepurposeofthisoperationistoeliminatetheredundanciesandlessentheamounto fdatatobeprocessed1Locallylinearembedding(LLE)isoneofthemethodsintendedfordimensionalityreduction,whichrelates tothenumberKofnearest2neighborspointstobeinitiallychosen1So,clusteringandimprovedLLEfordim ensionreductionisproposed1Firstly,usingclusteringcanreducetime2consuming1Secondly,amethodof improvedLLEisgiven,whichusesanewapproachforcomputingweightofKnearestneighborpointsinLL E1Thus,evenwhenthenumberKislittle,theimprovedLLEcangetgoodresultsofdi2 9 841王和勇等:基于聚类和改进距离的LLE方法在数据降维中的应用。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
xl) ;
③满足三角不等式要求 ,即 dil ( xi , xl) + dik ( xi , xk) ≥dlk ( xl , xk) 1
王和勇等 :基于聚类和改进距离的 LL E 方法在数据降维中的应用
1487
新的距离使处于样本点分布较密集区域的样本 点之间的距离增大 , 而使处于样本点分布较稀疏的 区域的样本点之间的距离缩小 , 这样会使样本点的 整体分布趋于均匀化 , 从而降低由样本点分布对 LL E 的实验结果的影响1
实验图像为半圆柱面 (如图 1 所示) , 半圆柱面 的上半部分由 5 ×5 = 25 个点组成 ,下半部分由20 × 20 = 400 个点组成 :
直保持着比较好的效果1
Fig1 3 32dimensional half cylinder is reduced to 22dimen2 sional1 (a) K = 9 , using LL E and ( b) t he improved LL E wit h K = 91 图 3 三维半圆柱面的数据点降到二维平面1 (a) K = 9 时 LL E 方法降维效果 ; (b) K = 9 时改进距离的 LL E 降 维效果
LL E 方法是映射数据 X = { x1 , x2 , …, xn} , xi ∈ R d 到数据集 Y = { y1 , y2 , …, yn} , yi ∈R m ( m < d) 1 该方法主要包括 3 步 :
第 1 步 ,对高维空间中的每个样本点 xi ( i = 1 , 2 , …, n) ,计算它和其他 n - 1 个样本点之间的距 离 ,根据距离的大小 ,选择前 K 个与 xi ( i = 1 , 2 , …, n) 最近的点作为其近邻点 , 常采用欧氏距离来度量
1 (中山大学软件研究所 广州 510275) 2 (中山大学数学与计算科学学院 广州 510275)
(zsuwhy @hotmail1com)
Application of Dimension Reduction on Using Improved LL E Based on Clustering
| | 两个点之间的距离 ,即 dij = xi - xj ;
第 2 步 ,对每个 xi ( i = 1 ,2 , …, n) ,找到它的 K 个近邻点之后 ,计算该点和它的每个近邻点之间的
权重
w
( j
i)
,即最小化 :
n
K
∑ ∑ εI ( W ) =
xi -
w
( j
i)
xj
2
,
i =1
j =1
n
∑ 其中 ,
Key words multimedia database ; image ret rieval ; locally linear embedding
摘 要 局部线性嵌入算法 (locally linear embedding , LL E) 是解决降维的方法 ,针对 LL E 计算速度和近 邻点个数 K 的选取 ,研究了该方法的扩展 ,提出了基于聚类和改进距离的 LL E 方法1 基于聚类 LL E 方 法大大缩减了计算 LL E 方法的时间 ;改进距离的 LL E 方法在近邻点个数取值比较小时的情况下 ,可得 到良好的效果 ,而原始的 LL E 方法要达到相同的效果 ,近邻点个数 K 的取值通常要大很多1 同时 ,改进 距离的 LL E 方法可以模糊近邻点个数选取1 实验结果表明 ,基于聚类和改进距离相结合的 LL E 方法相 比原来的 LL E 方法大大提高了降维速度和扩大了参数 K 的选取1 关键词 多媒体数据库 ;图像检索 ;局部线性嵌入算法
Abstract Locally linear embedding (LL E) is one of t he met hods intended for dimension reduction1 It s ex2 tension using clustering and improved LL E for dimension reduction is investigated1 Firstly , using clustering can reduce time2consuming1 Secondly , t he improved LL E is suitable for selecting t he number K of t he nearest neighbors1 When t he number K of t he nearest neighbors is small , it can obtain good result s1 While t he original LL E algorit hm obtains t he same result s , t he number K of nearest neighbors may be much larg2 er1 Even if t he number K of t he nearest neighbors using t he improved LL E is selected to be larger , t he re2 sult is still right1 So , t he improved LL E is not sensitive to t he selection of K1 It is shown t hat t he im2 proved LL E based on clustering has less computing t han t he original LL E algorit hm and enlarges t he choice of parameter K by experiment1
计算机研究与发展 Journal of Computer Research and Development
ISSN 100021239ΠCN 1121777ΠTP 43 (8) : 1485~1490 , 2006
基于聚类和改进距离的 LL E 方法在数据降维中的应用
王和勇1 郑 杰2 姚正安2 李 磊1
收稿日期 :2005 - 06 - 10 ;修回日期 :2005 - 11 - 23 基金项目 :广东省工业攻关计划项目 (2004B10101004)
1486
计算机研究与发展 2006 , 43 (8)
1 LL E 方法
2 聚类的方法
LL E 是 Roweis 和 Saul[7 ]于 2000 年提出的一种 非线性降维方法 ,主要利用局部的线性来逼近全局 的非线性 ,保持局部的几何结构不变 ,通过相互重叠 的局部邻域来提供整体的信息 ,从而保持整体的几 何性质1
w
( j
i)
= 1 , 如果 xj ( j = 1 , 2 , …, n ) 不是
j =1
xi ( i
= 1 ,2 ,
…, n) 的近邻 ,则
w
( j
i)
= 0;
第 3 步 , 根据高维空间中的样点 xi ( i = 1 , 2 , …, n) 和它的近邻 xj ( j = 1 , 2 , …, K) 之间的权重
找每个样本点 xi ( i = 1 ,2 , …, n) 的 K 个近邻点1 dil ( xi , xl) 的分子是普通欧氏距离 , 分母是数
值 ,所以容易证明给出新的距离满足距离定义的要
求 ,即
① dil ( xi , xl ) ≥0 , 当且仅当 xi = xl 成立 , 满足 距离非负性 ;
②满足距离对称性要求 dil ( xi , xl) = dil ( xi ,
n
n
∑ ∑ 要求
i =1
yi
=
0
且
1 n
i =1
yi
y
T i
= 1 , 以使εΓ( Y) 对平
移 、旋转和伸缩变化都具有不变性1 使 εΓ ( Y) 最小
化的解为矩阵 M 的最小几个特征值所对应的特征
向量构成的矩阵 Y1 取 M 最小的 m + 1 个特征值对
应的特征向量 ,去掉其中最小的特征值对应的特征
Fig1 1 Half cylindrical image1 图 1 半圆柱面
采用 LL E 方法和改进距离的 LL E 方法 ,分别 将三维的半圆柱面的数据点降到二维平面1 当 K 的 取值比较小时 ,两种方法的效果都不好1 当 K = 4 时 降维效果如图 2 所示 :
持流形的全部几何性质 ,LL E[7 ]方法力图保持局部 几何性质1 对 LL E 方法 ,在求近邻点和根据近邻点 的权值降维时 ,与样本点个数有关 ,为了提高计算速 度 ,必须缩减样本点的个数 ,所以 ,本文提出了基于 聚类的 LL E 方法1 另外 ,LL E 方法主要与近邻点个 数 K 的选取有关 ,本文提出改进距离的 LL E 方法 , 可以模糊近邻点个数 K 的选取1
w
( j
i)
来计算低维嵌空间中的局部线性结构 , 而
权重
w
( j
i)
代表着局部信息 , 所以固定权重
w
( j
i)
,使
下面的损失函数最小化 :
n
k
∑ ∑ εΓ( Y) =
yi -
w
( j
i)
yj
2
=
t r ( YT M Y) ,
i =1
j =1
中图法分类号 TP39114
维数缩减是模式识别的重要内容1 高维数据含 有大量的冗余数据 ,维数缩减的目的是消除冗余性 , 以便提高图像的识别速度1 维数缩减有多种方法 , 传统维数缩减方法主要是线性方法 ,例如 PCA[1 ]方 法 、KM EAN S 方法[2 ]和 Fisher 判别方法[3 ]等1 文献 中介绍很多非线性方法 ,例如 MDS[4 ] , SOM[5 ] , 但 MDS 和 SOM 计算时间比较长 , ISOMAP[6 ] 力图保