特征选择算法综述及基于某weka的性能比较
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘中的特征选择算法综述及基于WEKA的性能比较
良龙
(大学信息科学与工程学院)
摘要:自进入21世纪以来,随着信息技术的飞速发展,产生了海量的具有潜在应用价值的数据,将这些数据转换成有用的信息和知识的需求也越来越迫切,因此数据挖掘引起了信息产业界和整个社会的极大关注。特征选择作为一种常见的降维方法,在数据挖掘中起到不可忽视的作用。本文首先介绍了数据挖掘处理对象的趋势,然后概述了特征选择算法,最后通过数据挖掘软件WEKA比较了分别基于Filter和Wrapper方法的特征选择算法的性能。
关键词:数据挖掘;特征选择;WEKA;Filter;Wrapper;性能比较
A survey of feature selection algorithm in Data Mining and the
performance comparison based on WEKA
Abstract: As the mass of data which have potential application and value have been created by the rapid development of information technology since the 21st century, the needs to transferring these data into useful information and knowledge are being more and more urgent, so the Data Mining caused the whole society and the information industry of great concern. Feature selection is critical to Data Mining for that it is a common method to reduce dimensions. The tendency of Data Mining’s
handler object is first introduced in this paper, then introduction of the feature selection algorithm, and finally compared the performance of algorithms based on methods of Filter and Wrapper, respectively, by using WEKA (i.e. software used in Data Mining).
Keywords: Data Mining; Feature selection; WEKA; Filter; Wrapper; Performance comparison
1 引言
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的
。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。随着信息技术的飞速发展,越来越复杂的数据成为数据挖掘的处理对象,如文本数据、基因序列等。一般的,这些对象具有几十、几百甚至几万个属性。通过将这些对象表示成高维属性空间中的点或向量,把客观世界中的对象集用高维数据集合来。然而,随着不相关属性的增加,训练样本的数目也将急剧。一种解决的方法是建立高效的面向高维数据的算法,另外一种则是降低维度。并且由于这些属性之间很有可能存在冗余等问题,选择好的特征算法成为解决这些问题的可行方法。
特征选择(也叫属性约简)能够为特定的应用在不失去数据原有价值的基础上选择最小的属性子集,去除不相关的和冗余的属
性;它能提高数据的质量,加快挖掘的速度并且使得挖掘出的规则更容易理解。
2 特征选择算法的4个要素
一般特征选择算法必须确定以下4个要素:1)搜索起点和方向;2)搜索策略:3)特征评估函数;4)停止准则。
2.1 搜索起点和方向
搜索起点是算法开始搜索的状态点,搜索方向是指评价的特征子集产生的次序。搜索的起点和方向是相关的,他们共同决定搜索策略。一般的,根据不同的搜索起点和方向,有以下4中情况:
(1)前向搜索(SFG):从空集S开始,依据某种评价标准,随着搜索的进行,从未被包含在S里的特征集中选择最佳的属性不断加入S。
(2)后向搜索(SBG):从全集S开始,依据某种评价标准不断从S中选择最不重要的属性,直到达到某种停止标准。它是对前向搜索的补充。
(3)双向搜索(BG):双向搜索同时从两个方向开始搜索。一般搜索到特征子集空间的中部时,需要评价的子集数将会急剧增加。当使用单向搜索时,如果搜索要通过子集空间的中部就会消耗掉大量的搜索时间,所以双向搜索是比较常用的搜索方法。(4)随机搜索(RG):随机搜索从任意的方向开始,对属性的增加和删除也有一定的随机性。这样可克服局部极小。LVF算法比较有代表性。
2.2 搜索策略
假设原始特征集中有n个特征(也称输入变量),那么存在个可能的非空特征子集。搜索策略就是为了从包含个候选解的搜索空间中寻找最优特征子集而采取的搜索方法。一般分为3种搜索策略:(1)穷举式搜索:它可以搜索到每个特征子集。缺点就是它会带来巨大的计算开销,尤其是当特征数比较大时,计算时间很长。分支定界法(Branch and Bound,BB)通过剪枝处理缩短搜索时间。
(2)序列搜索:它避免了简单的穷举式搜索,在搜索过程中依据某种次序不断向当前特征子集中添加或剔除特征。从而获得优