有关特征选择内容

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

特征选择和集成学习是当前机器学习中的两大研究热点,其研究成果己被广泛地应用于提高单个学习器的泛化能力。

特征选择是指从原始特征集中选择使某种评估标准最优的特征子集。其目的是根据一些准则选出最小的特征子集,使得任务如分类、回归等达到和特征选择前近似甚至更好的效果。通过特征选择,一些和任务无关或者冗余的特征被删除,简化的数据集常常会得到更精确的模型,也更容易理解。

滤波式(filter)方法的特征评估标准直接由数据集求得,而无需学习算法进行反馈,其优点是运行效率高,因此非常适用于集成学习.假设用于集成的特征选择算法有k种,,抽取产生m 个子训练集,在每个训练集上利用其中一种特征选择算法选出满足条件的属性作为个体svm训练的输入空间,并训练得到m个svm个体,然后对其他的特征选择算法重复执行上述过程,最后将得到的k*m 个子svm的预测结果集成.

特征选择是从一组数量为D 的原始特征中选出数量为d(D>d)的一组最优特征采用遗传退火算法进行特征选择.随机生成长度为

D 的二进制串个体其中1 的个数为d 。连续产生这样的个体M 个M 为种群规模其大小影响着遗传算法的最终结果及其执行效率M。

特征选择的目的是找出分类能力最强的特征组合需要一个定量准则来度量特征组合的分类能力。度量特征选择算法优劣的判据很多各样本之所以能分开是因为它们位于特征空间的不同区域如果类间

距离越大类内各样本间的距离越小则分类效果越好。

各种新搜索算法和评估标准都应用到特征选择算法中。如粗糙集算法,神经网络剪枝法,支持向量机的评估标准,特征集的模糊嫡评价,马尔可夫算法等

入侵检测系统的数据含有大量的冗余与噪音特征,使得系统耗用的计算资源很大,导致系统训练时间长,实时性差,检测效果不好,引入特征选择算法能够去除高维数据中无用和冗余的信息,保留对分类效果起关键作用的信息,在不影响分类效果的同时减少数据量,降低了数据存储复杂度,减轻系统负荷,提高入侵检测系统的检测速度,增强入侵检测系统的健壮性。

入侵检测问题从机器学习的角度看实际上是一个分类问题,分类器的性能不仅与分类器设计算法有关,而且与选择的特征子集有关。一个高度相关的特征子集可有效改进分类器的性能,因而特征选择(属性约简)具有重要的理论意义和应用价值。

集成学习(Ensemble Learning)是通过将一组学习器以某种方式组合在一起可以显著提高学习系统的泛化能力(有监督的分类器集成和半监督的分类器集成)。

神经网络集成可以显著地提高神经网络系统的泛化能力,被视为

一种非常有效的工程化神经计算方法。然而,实际应用中集成系统的个体弱学习器成员可以是任何学习算法,如最近邻法、贝叶斯方法、神经网络及支持向量机等。从这点上讲,可以说集成学习只是提供了一个广义的框架,针对具体的机器学习问题需要设计具体的集成学习模型。

基于遗传算法的特征选择算法中一般选择适配值最高的个体作为特征选择的结果,而抛弃了其他个体。我们设想,是否其他个体也会提供有用的信息,如果在不同的个体(即特征子集)上训练得到不同的个体分类器,然后将这些分类器组合起来,是否会得到很好的集成分类结果。

机器学习中的特征选择可定义为:己知一个特征集,从中选择一个子集可以使得评价标准最优。

从特征选择的定义可见,在给定学习算法、数据集及特征集的前提下,各种评价准则的定义和优化技术的应用将构成特征选择的重要内容。

特征选择作为应用于数据挖掘中消除数据噪声的一种技术,也作为根据某一准则从原有的特征中选择出最优的特征组合实现对数据进行预处理的一种常用手段。选出与结果最相关的特征,排除不相关或者冗余的特征,从而提高判断的准确率。

本文运用以具有良好泛化能力的支持向量机的特征选择和集成分类器新技术,在支持向量机分类的基础上,以特征选择和基于特征选择的集成学习方法为主要研究内容,以影响支持向量机性能的主要因素为研究对象,对正则化参数C和核函数参数的选择进行了较深入的研究,并通过对多个成员分类器结果的集成,以进一步提高对数据挖掘的学习泛化能力。

在遗传算法优化特征子集的同时,把支持向量机参数混编入遗传算法的遗传假设中,从而实现同步优化特征子集和支持向量机参数。

集成学习就是利用有限个学习器对同一个问题进行学习,某样本的输入的输出值是由构成集成的各学习器共同决定的。

集成学习方法是通过训练大量的基学习器,然后按照一定的标准

选择一部分基分类器进行集成,最终能获得较好的分类效果。

使用特征选择对数据进行预处理。采用主成分分析法先对数据进行预处理。

由于特征子集大小变化幅度很大,我们可以根据特征子集大小使用不同的搜索策略来搜索特征空间。目前,搜索策略大致分为3种:完全搜索,启发性搜索和随机搜索。完全搜索就是在事先知道特征子集大小的情况下,能够找到相对较好的特征子集。启发性搜索在搜索特征空间的时候根据启发性信息沿着一条特殊的路径处理数据,最后能够得到近似最优解。随机搜索:该方法首先随机产生一个待评价的子集,然后要求新产生的子集要在维度、准确性方面都要比当前的子集有所提高

Relief算法借用了最近邻学习算法的思想,其是根据特征对近距离样本的区分能力来评估特征,其核心思想为:一个好的特征应该使同类的样本接近,而使不同类的样本之间远离。可以对每个特征进行排序,好的特征赋予较大的权值,表示该特征的分类能力较强,反之,表示分类能力较弱。

Relief特征选择支持向量机Bagging集成学习和基于预报风险的特征选择支持向量机Bagging集成学习。它们均采用同时对输入特征空间和支持向量机的模型参数进行扰动的方式来产生个体分类器,并利用多数投票方法对它们进行组合。基于多个数据集的数值实验结果表明,这两种算法均能够显著提升SVM的泛化性能,均显著地优于Bagging、Boostin只等集成学习算法。

因Relief仅局限于解决两类的分类问题。ReliefF则可以解决多类问题以及回归问题,并补充了对缺失数据的处理办法。当有数据缺失时,如果缺失的属性为连续型夕则用该特征的平均值代替。如果缺失的属性为离散型,则用该特征中出现频率最高的值代替。

Relief法是一种特征权重算法(Feature weighting algorithms),根据各个特征和类别相关性赋给每个特征不同的权重,权重小于某个闭值的特征将被删去。Relief算法特征和类别的相关性是基于特征对近距

相关文档
最新文档