自适应局部线性嵌入算法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
kmax、最小邻域大小 kmin、小世界选择概率 p。
输出数据:低维嵌入向量 yi,yi∈Rd, i =1,2,…, n, 由 n 个 向量 yi 构成的数据集记作 Y,其中 d<<D。 步骤 1 为每个样本点 xi 寻找 k 个最近邻域数据 xij (数据集 记作 Ni, j =1,2 … ,k) 和 kmax 个邻域构成的集合 Nmax,其中 k <
kmax。
步骤 2 根据定义 2 和定义 3 计算数据点 xi 的邻域个数 ki, 并设定 kmin<ki<kmax。 步骤 3 根据定义 1 计算 kmax 个邻域数据的局部集群系数
Cij (j =1,2…, kmax)。
步骤 4 当 ki<k 时,在 Ni 中剔除掉局部集群系数较小的 p ( k -ki) 个点,按照欧氏距离剔除其余 (1-p) ( k -ki) 个距离较 大的数据点;当 ki >k 时,保留 Ni 作为邻域数据,并在集合 (Nmax-Ni) 中选择局部集群系数较大的 p (ki-k) 个点,按照欧氏 距离选择其余 (1-p) (k-ki) 个距离较小的数据点。优化后的 各点的邻域数据集记作 No (xi), i =1,2,…,n。 步骤 5 用每个 xi 的优化后的邻域数据集 No ( xi) 近似表示
田兆东 1,张育林 2
( 1. 沈阳化工学院,沈阳 110142; 2. 西安交通大学机械工程学院,西安 710049) 摘 要: 局部线性嵌入算法 ( LLE )因其较低的计算复杂度和高效性适用于很多降维问题,新的自适应局部线性嵌入 ( ALLE ) 算法对数据进行非线性降维,提取高维数据的本质特征,并保持了数据的全局几何结构特征,对比实验结 果表明了该算法对于非理想数据的降维结果均优于 LLE 算法。 关键词: 局部线性嵌入; 自适应局部线性嵌入; 非线性降维
ALLE 算法从路径长度和集群系数优化数据,既考虑了数 据之间的欧式距离,又把数据之间的关系纳入评价标准;同 时根据高维采样数据的局部数据分布特点,自适应设定邻域 大小,可提高对随机采样稀疏数据和含有噪声的非理想高维 数据的降维成功率。
4
结语
针对数据维数高 、 非线性,从高维观测空间很难发现嵌
入在数据中蕴含的规律的问题,将局部线性嵌入算法引入数 据处理中,针对该算法对于非理想数据稳定性较差的特点, 提出了自适应局部线性嵌入算法,能够发现高维数据的内在 规律,改善了数据分类识别性能,从而为数据模式识别提供 了一种新的途径。
1
局部线性嵌入 ( LLE )
LLE 算法采用局部线性化方法,通过构建局部线性超平面,
要,如果 k 太小,无法保证邻域之间的整体重叠性,从而很 难保证数据的整体几何性质;如果 k 太大,可能会将流形上 相聚较远的点化为邻域,从而使降维结果扭曲图 1 (d) 。 为了 解决以上问题,提出了自适应邻域优化局部线性嵌入算法 ( ALLE )。
- 12 -
SOFTWARE DEVELOPMENT AND DESIGN
软件开发与设计
试验 的降维结果,所以 ALLE 算法解决了对 k 值敏感的问题 ( 中 ALLE 参数为:kmax=1.2k,kmin=0.7k,p=0.3 )。
xi∈RD}, i =1,2,…,n。
参数:嵌入空间维数 d、初始邻域大小 k、最大邻域大小
参考文献
[1] 张育林,庄健,李小虎. 小世界邻域优化的局部线性嵌入 算 法 [ J ] . 西 安 交 通 大 学 学 报 , 2008, 42 ( 12) : 1486 1489. [2] 王和勇,郑洁,姚正安 . 基于聚类和改进距离的 LLE 方 ( 下转到 67 页 )
- 13 -
DATABASE AND INFORMATION MANAGEMENT 代码举例: string strConn = " Data Source =EAST -W ;Initial Catalog = Web Manage System; User ID= sa;Password=sa" ; //计算机名 数据库名 用户 密码 SqlConnection conn=new SqlConnection (strConn) ; //创建连接 DataTable tbl=new DataTable () ; 查找:string SelectSql=" Select * from 数据表名 where 列 名=列值" ; 插入:string InsertSql=" Insert into 数据表名 (列名) val- ues (列值)" ; 删 除 : string DeleteSql = " Delete from 数 据 表 名 User0 where 条件" ; 修改:string UpdataSql=" Update 数据表名 set 列名=列值 where 条件" ; adapter=new SqlDataAdapter (string,conn) ; Icmd.ExecuteReader () ; //执行命令,获取数据流 adapter.Fill (tbl) ; //数据适配器 5.2 加密算法解决方案 采用简单的单密匙密码本加密算法,首先将明文分组, 分组规则是按照明文在字符串中的位置隔位分组,然后对两 组明文分别加密,加密时按照密码本中的密匙逐个字符加密, 如果密码本中的密匙用完,则回到本头重新循环,最后将两 组密文组合成最终密文存入数据库中。 private void Button_ 添 加 _Click ( object sender, System. EventArgs e) { string MingWen= this.textBox_ 正文.Text; strmishi=”this.TextBox_mishi”; char [] mishi = strmishi.ToCharArray () ; string strone = string.Empty; string strtwo = string.Empty; for (int flag=0; flag <MingWen.Length; flag ++) //循环分组 { if (flag % 2 == 0) { one = one + MingWen.Substring (flag, 1) ; } else { two = two + MingWen.Substring (flag, 1) ; } } string miwen = string.Empty; //密文字符串为空
将高维 、 非线性数据映射到全局的低维空间中,以保持邻域 点集合的结构保证具有平移、旋转不变性。LLE 算法把整个数 据空间分成 n 个局部区域,每个区域的数据可以用其邻域线 性表示,只有邻域参与重构,便可从邻域几何特征获取整个 低维流形。算法主要有 3 个步骤: 步骤 1:对于高维空间中的每个数据点 xi ( 由向量 xi 构成 的数据集记作 X, i =1,2, … ,n ),根据它与其他点的欧氏距离 大小,寻找 k 个邻域数据 xij ( j =1,2, … ,k) ,记作 Ni = { N ( xi) |
图 2 理想采样 Swiss-roll 流形降维结果 试验中分别用 LLE 算法和 ALLE 算法对随机采样 3 维 Swiss-roll 数据 ( 采样点数 n=500 ) 进行降维,部分对比结果 如图 3 所示 。 对于随机采样数据的多次试验结果表明:当采 样的数据稀疏时,流形上的邻域数据会产生弱关联 , 只采用欧 氏距离作为判据,会把相隔较远的点映射到邻近点的位置, 结果扭曲了数据的邻域结构 。 所以 LLE 的映射错误率较高, 而且对于 k 值的变化比较敏感;而 ALLE 算法根据小世界原 k=9 ) 的 50 个数据点的邻域自适 理,自适应优化邻域数据 ( 应邻域个数,可以大大提高算法稳定性 (试验中 ALLE 参数 ( 5 ) 为:kmax=1.2k,kmin=0.6k,p=0.4 )。
3
结果与分析
Swiss-roll 数据测试试验:分别用 LLE 算法和 ALLE 算法
采样点数 n=500 ) 进行降维, 对理想采样 3 维 Swiss-roll 数据 ( 不同初始 k 值的对比结果如图 2 所示。 可以看出:当 k=7 的时候,LLE 和 ALLE 均能够把 3 维流 形数据降到 2 维,并保持了高维数据的结构关系 。 当继续增 大时,LLE 算法将高维数据中较远的数据点错误的映射到低维 空间的邻近点,造成结果扭曲,导致了错误的分类关系,而 ALLE 算法中的初始 k 值在一定范围内变化时,均能得到正确
2
自适应局部线性嵌入 ( ALLE )
小世界网络是从规则网络向随机网络过渡的中间网络,
在社会网络中,如果 A 与 B 熟悉,而 B 又与 C 熟悉,则很有 可能 A 与 C 也相互认识。网络具有局部的重叠性,这种特性 称之为网络的集群性 。 现实采样数据同样具有小世界聚类特 征 。 在对近邻数据点进行连接时,那些性质相近的点之间联 系紧密,节点的局部聚集系数较高 。 如果采集到的数据点很 规则,对数据点进行邻域选择和连接时,就会形成类似规则 拓扑结构 。 当数据集噪声较大或数据稀疏时,流形上的邻域 数据会产生弱关联,近类数据在欧氏空间的分布就会产生不 规律的现象 。 对同类点进行连接时,会产生类似小世界网路 结构 。 根据小世界原理提出了一种能够根据采样数据特点自 适应选择优化算法。 初始数据:N 个 D 维实向量 xi 构成的高维数据集 X= {xi |
An Adaptive Local Linear Embedding Algorithm
TIAN Zhaodong1, ZHANG Yulin2
(1. Shenyang Institute of Chemical Technology , Shenyang 110142; 2. School of Mechanical Engineering Xi 'an Jiaotong University , Xi 'an 710049) Abstract: Locally Linear Embedding algorithm (LLE) for its low computational complexity and efficiency of dimensionality reduction applied to many problems, the new adaptive local linear embedding (ALLE) algorithm is non-linear dimensionality reduction of data, extracting high-dimensional essential characteristics of the data and maintain the global geometry of data features, compared to experimental results show that the algorithm results show that the ALLE data for the non-ideal results were better than the LLE dimensionality reduction algorithm. Key words: local linear embedding ; adaptive local linear embedding ; nonlinear dimension r形降维示意图
xi∈X}。
步骤 2:根据最小二乘的原理,计算该数据点与邻域数据 之间的权重 wij。 步骤 3:在根据权重计算低维嵌入空间数据,并尽量保持 高维空间中的局部线性结构 yi∈Rd ( i =1,2 … ,n) , Y = { y1, y2, …,yn}。 图 1 (a) 为三维 Swiss-roll 均匀采集 500 个数据点的结果, 图 1 (c) 为非理想随机采样 500 个数据点结果,图 1 (b) 为理 想采样数据下 LLE 降维结果 ( k =6 ),如果 k 选取合适, LLE 能够保证较高的降维映射的准确率。图 1 (e) 为非理想数据下 LLE 降维结果。对比可以看出,对同样的采样数量,当采样数 据理想时,LLE 算法将源数据邻域映射到了目标空间的邻域; 当采样数据非理想时,LLE 算法降维后的数据点混杂在一起的 概率很大 。 同时, LLE 算法对于邻域个数 k 的选取也至关重 本文收稿日期:2010-01-12
xi。通过最小化重构误差 ε,得到局部重构权值矩阵 Wij ( 这里
的权值矩阵只有在邻域数据点上具有非零权值 )。
该矩阵遵循 2 个约束条件: ① 即 邻域的点,Wij=0。
; ② 对于非 xi
步骤 6 保持步骤 5 中的重构系数 Wij 不变,通过求解稀疏 对称矩阵,可最小化代价函数 ( 6 ) 从而求出低维嵌入向量 yi。 式 (3 ) 遵循 2 个约束条件: ① ;② ,其中 I 为 d×d 单位矩阵。 图 3 随机采样 Swiss-roll 流形降维结果
西安交通大学机械工程学院西安710049局部线性嵌入算法lle因其较低的计算复杂度和高效性适用于很多降维问题新的自适应局部线性嵌入alle算法对数据进行非线性降维提取高维数据的本质特征并保持了数据的全局几何结构特征对比实验结果表明了该算法对于非理想数据的降维结果均优于lle算法
电脑编程技巧与维护
自适应局部线性嵌入算法