浅谈机器学习中特征选择分类方法的研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅谈机器学习中特征选择分类方法的研究

作者:李星星

来源:《大众科学·上旬》2019年第02期

摘要:近几年以来,随着科技的不断发展,数据压缩技术的不断成熟,海量信息特征的时代也随之到来。这些信息特征中却包含着大量的冗余信息特征,极大的影响了对分类模型的架构及其分类性能。因此,极大的需要在模式识别中采用特征选择技术,选择出对分类判别分析有用的信息特征,而选择出这些特征的方法也在不断地出现。

关键词:模式识别;信息特征;特征选择

一、特征选择的基本介绍

近几年以来,由于科学技术的飞速进步,世界也正快速地步入信息的新纪元。伴随着信息时代到来的同时,数据的规模也将呈现爆炸式地扩大。一方面,人们在面对海量数据信息所带来便利的同时,另一方面,人们也面临着这些信息所带来的灾难。尤其是在大型企业中,如此海量的数据信息远远地超出了现如今计算机处理信息的能力。因此,如何有效地管理和正确的分类处理这些海量的数据信息,是整个信息科学领域所需要面临的一项重点问题,同时也是一个难点所在。目前,在信息处理分类的问题上,机器学习方法则得到了很大的推广及应用。而机器学习中与特征选择相关的方法又有很多[1]。

二、特征选择的分类方法

一般而言,依据评价函数与学习算法之间的关系,特征选择方法可以被大致分成四種主要的类别:滤波式(Filters)、封装式(Wrappers)、混合式(Hybrid)以及嵌入式(Embedded)。

不一样的方法内涵不一样的性质,这些性质使得其有各自的优劣性及实用性。比如说,滤波式特征选择方法,其通常使用独立的评价函数来选择特征子集,在这过程中并不涉及到任何的学习算法,而且与分类算法的分类性能以及其他的一些参数无关。滤波式特征选择方法有时也被看作是数据的预处理过程,主要是根据数据的固有的属性来评价所选择出来的特征或特征子集,依据相关的特征选择条件来挑选出满足该条件的特征子集[2]。这类方法的几个主要优点:计算时间非常快,从而可方便用在高维数据集;由于该算法常常使用独立的评价函数而且独立于分类算法,所以只要改变评价函数,以及之前讲述的搜索方式,就可以得到各种各样的滤波式特征选择方法,因此该算法的通用性很强,可以用来解决各种特征选择相关的问题。但是这类算法也有其缺点:由于滤波式特征选择方法和分类器学习算法无关,所以其特征选择的分类性能常常要低于其他的分类方法。

对于封装式特征选择方法而言,该类方法可看作是一个黑盒子,根据特征子集的预测能力来记录相应的特征子集,从而获得最优的特征子集;此外,特征子集的分类性能函数和学习算法密切关联。该类算法将特征选择的过程以及学习算法两者相结合,从而找出能够使得学习算法的分类性能最好所对应的最有特征子集。类比于滤波式特征选择方法,改变搜索的方式以及学习算法,同样也能够获得各种各样的封装式特征选择方法。虽然封装式特征选择方法在寻找最优特征子集的过程中结合了学习算法,然而该类方法也有两个主要的缺点:1)由于该算法的特征选择过程与分类器学习算法密切相关,使得特征选择的结果通常能够提高最初所训练的分类器的性能,然而所获取最优特征子集也许无法改善其他分类器的分类性能。换言之,通过这类方法所获得的最优特征子集也许会与事先给定的机器学习任务,分类算法之间出现过拟合的情况。2)特征子集与学习算法密切相关,所以在对每个所获得特征子集进行评价时,均要运行一次所对应的学习算法,从而使得算法的运行时间非常长,计算量也是极其的大。

混合式特征选择算法则是结合了滤波式以及封装式特征选择算法各自的优点,即同时利用滤波式所对应的独立的评价函数以及封装式所对应的学习算法。首先通过独立的评价函数来挑选出一组候选的特征子集,然后再通过学习算法停止对特征的搜索,并从这些候选的特征子集中挑选出最终的、最满意的特征子集。

对于嵌入式特征选择方法而言,其也是联合封装以及滤波各自的优点。只不过该方法是将特征选择技术嵌入到学习算法中,即在分类器的诱导、构造过程中寻求最优的特征子集。其不仅与分类器模型密切关联,而且又比单一的封装式特征选择方法具有更少的计算代价。比如说,决策树算法(Decision tree algorithm),该算法的基本单元即节点,其具有选择能力,选择出那些分类能力较高的特征。如图1所示,其为决策树案例图。综合考虑,本文通过采用嵌入式特征选择方法来得到最优特征子集。

图1决策树案例

图1决策树案例用来预测贷款用户能否存在偿还贷款的能力。该决策树的每一内部节点(淡蓝色节点)均表示一个判断的条件(属性),而叶子节点(橙黄色节点)表示决策结果,以显示贷款用户能否存在偿还其贷款的能力。

综上,在本文中,为移除那些不相关以及冗余的特征,特征选择技术扮演着一个重要的角色。特征选择技术可能有以下几点用途:1)可减少数据采集的成本;2)能够增强最终分类模型的解释性;3)可快速诱导一个最终的分类模型;4)可改善分类模型的分类精度。随着特征数目的增加,可能的特征子集的数目也呈指数型增长,从而出现很多关于特征选择的问题,统称为NP-hard [3]。即使是对于某一适中的特征维度而言,要想找一个最优的特征子集,这也是非常棘手的问题,更何况对于那些高维特征的数据集。正因为如此,通常的特征选择算法均是一种近似算法,主要是寻求亚优的特征子集,即在一个合理的计算时间内,获得一个较为满意的分类性能。

参考文献

[1]杨淑莹,张桦. 模式识别与智能计算:MATLAB技术实现[M]. City:电子工业出版社, 2015.

[2]杨宏晖,申昇. 模式识别之特征选择.第1版. [M]. City:电子工业出版社, 2016.

[3]García-Torres M, Gómez-Vela F, Melián-Batista B, et al. High-dimensional feature selection via feature grouping: A Variable Neighborhood Search approach[J]. Information Sciences, 2016, 326(C): 102-118.

作者简介:李星星,1991.4,男,江西九江,广州工商学院,无,模式识别与图像处理

相关文档
最新文档