基于拉普拉斯特征映射的免疫算法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于拉普拉斯特征映射的免疫算法
韩保金;曾岳
【摘要】针对特征提取中以特征值的优先顺序来选取相应向量,在应用中发现了很多弊端,如何合理的组合特征向量是个难题,进化类算法是处理组合优化问题最适宜的方法,其中免疫克隆算法由于含有精英选择策略能够快速寻优,拉普拉斯特征映射(LE)由于是在提取特征中隐含对数据集内部相似数据进行归类较为适用于分类问题,用免疫克隆算法把拉普拉斯特征映射提取出的特征向量进行重新组合,从实验结果可以看出分类准确率得到了显著提高,对各数据集测试分类正确率也得到了提升,从而证实该方法的有效性.
【期刊名称】《哈尔滨商业大学学报（自然科学版）》
【年(卷),期】2019(035)003
【总页数】6页(P316-321)
【关键词】拉普拉斯特征映射;免疫克隆算法;特征提取;数据集
【作者】韩保金;曾岳
【作者单位】天津工业大学计算机科学与软件学院,天津300387;金陵科技学院软件工程学院,南京211169
【正文语种】中文
【中图分类】TP399
人工智能[1]，机器学习[2]，模式识别[3]最近几十年的兴起，新型处理数据的工具
正在快速地发展，随着数据量的不断增大，计算资源面临着巨大挑战，数据之间的相互关系越来越复杂，而从数据集中进行特征提取,把重要的特征提取出来.不仅可
以代表原始数据,而且使数据关系更加明晰，计算量降低.传统的数据提取方法，如PCA认为特征值越大越好,固而优先选取较大的特征值；而LE则相反固而选取的
优先顺序也相反，从实际应用中来看单一使用特征值占优顺序选取特征向量，结果使得特征矩阵分类正确率低，不利于实际应用，导致这种原因可能是由于在数据集中存在着噪声数据，特征值占优顺序靠前的，对应特征向量就有可能受噪声数据污染越严重.通过一定量的特征向量组合后(不按特征值的优先顺序选取特征向量，而是按一定的组合方式选取特征向量)，提取出来的特征向量矩阵的质量更好一些，
分类正确率得到提升.
而如何最优化的组合特征向量是一个典型的NP问题，适合用智能算法进行求解.
免疫克隆算法由于其模拟人体免疫系统，是一种典型的进化类算法，而进化类算法的特点就是能最优的解决NP问题，将特征值占优较前的一些特征向量用免疫克隆算法进行组合形成矩阵，根据分类正确率为指导，在一定条件下(迭代次数或预期值)进行最优化特征向量组合.大多数使用进化类的算法有遗传算法，免疫算法这两类算法是比较传统的直接对邻域数据搜索而没有精英保留的策略，导致在搜索效率上没有改进的免疫克隆算法快.传统的特征提取方法大多用PCA方法或ISOMAP[4]方法,这两类方法为全局搜索，计算量较大，由于PCA对于解决线性模型效果较好但是在实际中数据大多是非线性的，所以其处理后选取的特征矩阵分类效果并不好，而ISOMAP虽然处理非线性模型效果较好但是由于其自身的“测地线”距离计算
误差较大，所以对于实际数据模型也造成了误差大的特点.通过以上对比本文采用
的是拉普拉斯特征映射算法(LE)，由于LE对数据噪声过于敏感，所以在处理前对
数据进行部分噪声清除，这样就可以提高处理后特征向量的质量，防止特征向量受到污染，选取出来的特征向量组成的矩阵分类效果较好，但由于是局部搜索方法，
在实验中对于取相近邻k值就比较敏感，当相近邻k值取得恰当时，可以弥补由全局查找带来的不足，由于是局部搜索，所以较全局搜索更加的快速，本文在实验测试中多次调试k值以适应不同的数据集，以期能达到最恰当的连接邻域数据集.此外由于拉普拉斯特征映射算法本身含有找到相似样本聚合，所以在分类方面比PCA方法和ISOMAP的方法更好一些.将经过LE处理后提取的众多特征向量运用免疫克隆算法对其进行组合优化，分类正确率为指导，以期获得最优的特征向量组合，经过实验验证该方法确实可以提高特征矩阵的分类正确率.
1 具体算法描述
1.1 算法流程图
算法先经过特征选择，数据粗选减少数据噪声，防止有效数据丢失，特征选择完成后进行特征提取，这样提取出来的特征向量会受噪声污染小一些.特征向量集合形成后就运用免疫克隆算法进行选择，把最优的组合选择出来.见图1.
图1 算法流程图
由于本文连续两次用到免疫克隆算法，是因为在两次所用到的目的不同：第一次用是因为要粗选原始数据(特征选择)，利于减少对特征提取时的干扰；第二次是为了特征提取时提取出较好的特征数据，提取出的数据来较好的代表原始数据且浓缩了原始数据的大部分信息.由于进化类算法具有自我完善和学习的功能，这样做更能体现进化类算法的显著特点，且在实际应用中也得到了广泛应用，如线性规划，聚类分类问题，数据挖掘等等.
1.2 特征选择
特征选择是从原始数据集中选择出部分有代表意义的数据集，而特征提取则是将数据经过某种映射方法后可以用低维空间来尽可能表示原始空间.
本文是运用特征选择减少冗余的数据，可有效减小噪声数据对于以后提取出来的特征数据的污染，应用免疫克隆算法对此进行特征选择，亲和度函数是分类正确率，
由于是减少冗余数据，所以在运行中尽量多保留原始数据，多次运行后在正确率相同的情况下选取维数较多的一组，目的是防止有效数据被删除.设置亲和度函数为:
其中：ci和gi分别为经过特征选择处理后重新生成的类标和原有数据集中实际标有的类标.map()为最优映射函数，利用Hungarian algorithm(匈牙利算法)来匹配经过特征选择处理后重新生成的类标和原有数据集中实际标有的类标.p(ci,gi)为指示函数，当ci=gi时为1，当ci≠gi时为0，ACC为分类正确率.本文分类用的是K-means方法(下同).
1.3 LE流程与参数调试对比
1.3.1 LE流程
见图2.
1.3.2 近邻值k的选取
使用KNN算法将每个点最近的k点相连，通过选取不同k实验对比，找出一个效果较好的k值使用，如图3～8. 在各种k值情况下，用swiss-roll数据集在降维后的明显变化的情况.随着k的取值不同，得出的结果明显不同，从侧面说明当k值过于小时有可能会出现某些区域没有连接上的情况.如当k=3时，全部都集中在一点，从而形成过于集密的现象或称为坍塌现象.当k过于大时k=100,数据相互间则过于松散.
图2 LE流程
图3 LE处理前原始数据图4 当k =3 LE处理后的数据降维分布图
图5 当k =10 LE处理后的数据降维分布图图6 当k =30 LE处理后的数据降维分布图
图7 当k =50 LE处理后的数据降维分布图图8 当k =100 LE处理后的数据降维分布图
1.3.3 相似度(相近邻两点之间距离权重)
确定点与点之间相似度的大小，应用高斯型函数[5]对数据点与点之间的相关相似度进行测评.公式如下：
其中：a为归一化因子; σ为尺度因子; sij为结点间的距离; β为衡量广义高斯曲线的趋势，当0<β<2时表示用超高斯函数度量相似度，β=2时表示用高斯函数度量相似度，β>2表示用次高斯函数度量相似度，通过实验比较，由图9～11可见当k数据一定时β的不同变化会引起降维后数据的变化.如β=1时就形成了数据过于挤压于一点，多数数据聚集于一点这样形成了降维后没有反应出数据之间的相互关系，相互重影率越大越不利于表示数据在原空间中的相对位置，而β=3时就形成了中间数据过于挤压而两边数据过于松散的现象，形成中间数据重影率高，而两边数据有泛化的现象，没能更好的表现原空间中数据之间的相互联系.本文根据多次试验验证，使用高斯函数对于以后降维的效果比其他两个要好很多，故本文使用高斯函数.
图9 当k=30 ,β=1 swiss-roll数据降维
图10 当k=30 ,β=2 swiss-roll数据降维
图11 当k=30 ,β=3时swiss-roll数据降维
1.3.4 LE具体公式与产生特征向量组
LE具体公式：Ly=λDy;
其中：wji是邻近点之间的相似度权重，D是对角矩阵，满足Dii= ∑jwji ，L=D-W. y是特征向量，λ是特征值，使用最小的m个非零特征值对应的特征向量作为降维后的结果输出.
1.4 免疫克隆算法
1.4.1 编码方案
在解决特征选择问题时，其解的编码方式是直接的，其中种群中的每个抗体都代表一种组合方式，本文使用二进制编码方式，当选中相应的维度时则在抗体相对应组合上写“1”，否则写为“0”.
1.4.2 亲和度函数
亲和度函数引导整个种群的进化过程.在本文中使用是的K-means算法来处理分类问题，设置亲和度函数为即分类正确率，目的是使得所得到的分类正确率达到最大，各项参数在实验部分给出.
1.4.3 免疫克隆算子
由亲和度诱导的抗体随机映射，包含克隆操作，克隆变异和克隆选择三种操作方式.
①克隆操作
在对当前种群进行克隆时，每个抗体的克隆规模由抗体与抗原的亲和度大小按比例分配，实现种群的扩展.
②克隆变异操作
在变异概率为某一个确定数据下对克隆后的个体执行按位变异.
③克隆选择操作
在经过变异操作后，父代种群中每个抗体的n个副本按照概率进行按位变异，从
而父代种群中的每个抗体都会产生其相应的子种群，然后要从这些子种群中选择优秀个体来替代原种群中相应的个体.
本文算法采用最大进化代数作为迭代停止条件，当进化过程结束时，其亲和度函数最大的抗体就是代表具有较好的特征矩阵.
1.4.4 免疫克隆算法具体过程
Step1.初始化，产生初始化种群.
Step2.计算初始种群亲和度.
Step3.判断终止条件，是否为最大的迭代次数，若是则退出，否则继续.
Step4.选择，克隆，交叉，变异操作
Step5.从Step5的操作后选择优秀的个体，并代替原始种群中的一些个体，形成
新的种群.
Step6.计算亲和度
Step7.是否达到最大的迭代次数，若是则停止，否则迭代次数+1后转到Step4.
2 实验对比与结果分析
从UCI数据库中选择9个数据集，其属性如表1.利用免疫克隆选择算法做实验时，其种群规模为20，编码长度为其相对应的特征维数，克隆规模取为6，变异概率
为0.8，终止条件取最大进化代数为20代.通过选取经典的算法做出对比，其中对比算法KPCA, LE，LLE，LTSA，MDS，PCA[6-11],表2列出的是每次交验验证的分类正确率，每组数据共执行10次得出平均分类正确率.由图12、13可以看出在LLE,LTSA与本文算法效果上较接近，这是由于本文在选取领域近邻点时特别考虑
了这些因素对于这两类算法影响较大，所以在前期处理时特别处理了相应的近邻点[12]，导致在搜索上模仿全局搜索[13]能力可以较好的实现有区别分类.PCA作为
一种全局搜索在部分数据上表现的和本文算法类似如german，ionosphere，表
现出了对于数据清除噪声后的效果可能比没有进行清除噪声的全局搜索效果要好或者类似，相反，单纯使用局部搜索(如LE)表现则一般，由此可以看出对于数据进行清除部分噪声的作用还是明显的.
表1 数据集信息(数据集，样本总数，属性维数，正类数量，负类数量)数据集总数属性维数正类数负类数
breast277981196german100024300700heart27013120150ionospher35134 126225liver3456145200lris27014151119sonar2086011197vote4351626716
8wpbc56930357212
实验结果及分析：
表2 分类正确率(KPCA, LE，LLE，LTSA，MDS，PCA，本文算法)数据集(提取维度)\算法KPCALELLELTSAMDSPCA本文算法
breast(5)0.51700.60180.64580.63470.69280.58700.6940german(12)0.57110. 63090.59150.59850.67700.67700.6800heart(10)0.53810.56220.58630.64410 .58960.59040.6481ionosphere(12)0.69200.57610.62930.70460.71140.71140 .7262liver(5)0.58840.53010.54350.54410.55190.55070.5901Iris(8)0.51150.55 040.57810.71260.59040.58960.6367Sonar(15)0.52210.55240.63940.66200.6 1970.65720.6637vote(8)0.54440.56640.73310.54620.61610.53610.7366wpb c(10)0.56160.58590.56720.62270.60100.51010.6439
图12 breast数据集在不同算法下的表现
图13 germa数据集在不同算法下的表现
3 结语
本文提出LE与免疫克隆进化算法相结合，有效地化简了原始数据的高维复杂结构[14]，同时在处理前对于数据有较大噪声影响的数据进行清除，可以有效减少了噪声数据对LE进行特征提取时的影响从而提高了特征提取的质量，为下一步的聚类进行了良好的准备.随着数据量的日趋巨大，数据噪声越来越影响数据提取的质量，尤其对于噪声较敏感的方法[15]，如何清除噪声，如何高效利用流行学习，有待进一步的研究.
参考文献：
【相关文献】
[1] 杜新凯, 徐济铭, 王晓梅,等. 大数据开启人工智能时代[J]. 软件和集成电路, 2018(1):50-55.
[2] 崔鸿雁, 徐帅, 张利锋,等. 机器学习中的特征选择方法研究及展望[J]. 北京邮电大学学报,
2018(1):1-12 .
[3] 任鹏. 模式识别中的图结构描述方法综述[J]. 安徽大学学报:自然科学版, 2017, 41(1):3-9.
[4] QU T, CAI Z. An improved Isomap method for manifold learning[J]. International Journal of Intelligent Computing & Cybernetics, 2017, 10(1):30-40.
[5] 张文兴, 陈肖洁. 核极化优化多参数高斯核的特征选择算法[J]. 机械设计与制造, 2018(5):148-150,154.
[6] FEZAI R, MANSOURI M, TAOUALI O, et al. Fault detection for nonlinear system using dynamic KPCA methods[C]// IEEE International Conference on Sensors, Systems, Signals and Advanced Technologies. IEEE, 2018.
[7] 温志远. 拉普拉斯算子特征值与特征函数的完全连续性[D]. 北京：清华大学, 2016.
[8] 邓廷权, 刘金艳, 王宁. 高维数据离群点检测的局部线性嵌入方法[J]. 计算机工程与应用, 2018(6)：1-9.
[9] 崔鹏, 张雪婷. 基于流形学习的泛化改进的LTSA算法[J]. 计算机工程与应用, 2017, 53(3):201-204.
[10] 吕宏达, 李克清, 戴欢. 基于分而治之的快速多维尺度定位算法[J]. 计算机工程与应用, 2016,
52(19):102-106.
[11] LIN W, ZHU X, TAO T. Global and local clustering with kNN and local PCA[J]. Multimedia Tools & Applications, 2018,77(22):1-12.
[12] 王哲, 李平. 近邻点联合测距修正粒子群优化定位算法[J]. 传感器与微系统, 2016, 35(8):130-133.
[13] 范宇凌. 一种增强全局搜索能力的差分进化算法[J]. 现代计算机:专业版, 2018(15)：18-23.
[14] 佚名. 面向高维复杂数据的降维算法研究[D].西安：西安电子科技大学, 2014.
[15] 曹丹阳, 孙宁, 马楠,等. 面向噪声数据的时间序列相似性搜索研究[J]. 计算机工程与设计, 2012, 33(9):3442-3446.。