数据挖掘分类算法研究综述终板
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘分类算法研究综述
程建华
(九江学院信息科学学院软件教研室九江332005 )
摘要:随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点。特别是其中的分类问题,由于其使用的广泛性,现已引起了越来越多的关注。对数据挖掘中的核心技术分类算法的内容及其研究现状进行综述。认为分类算法大体可分为传统分类算法和基于软计算的分类法两类。通过论述以上算法优缺点和应用范围,研究者对已有算法的改进有所了解,以便在应用中选择相应的分类算法。
关键词:数据挖掘;分类;软计算;算法
1引言
1989年8月,在第11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现(KDD,Knowledge DiscoveryDatabase)技术[1]。该技术涉及机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化和高性能计算等领域,技术难度较大,一时难以应付信息爆炸的实际需求。到了1995年,在美国计算机年会(ACM)上,提出了数据挖掘[2](DM,Data Mining)的概念,由于数据挖掘是KDD过程中最为关键的步骤,在实践应用中对数据挖掘和KDD这2个术语往往不加以区分。
基于人工智能和信息系统,抽象层次上的分类是推理、学习、决策的关键,是一种基础知识。因而数据分类技术可视为数据挖掘中的基础和核心技术。其实,该技术在很多数据挖掘中被广泛使用,比如关联规则挖掘和时间序列挖掘等。因此,在数据挖掘技术的研究中,分类技术的研究应当处在首要和优先的地位。目前,数据分类技术主要分为基于传统技术和基于软计算技术两种。
2传统的数据挖掘分类方法
分类技术针对数据集构造分类器,从而对未知类别样本赋予类别标签。在其学习过程中和无监督的聚类相比,一般而言,分类技术假定存在具备环境知识和输入输出样本集知识的老师,但环境及其特性、模型参数等却是未知的。
2.1判定树的归纳分类
判定树是一个类似流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。由判定树可以很容易得到“IFTHEN”形式的分类规则。方法是沿着由根节点到树叶节点的路径,路径上的每个属性-值对形成“IF”部分的一个合取项,树叶节点包含类预测,形成“THEN”部分。一条路径创建一个规则。
判定树归纳的基本算法是贪心算法,它是自顶向下递归的各个击破方式构造判定树。其中一种著名的判定树归纳算法是建立在推理系统和概念学习系统基础上的ID3算法。
2.2贝叶斯分类
贝叶斯分类是统计学的分类方法,基于贝叶斯公式即后验概率公式。朴素贝叶斯分类的分类过程是首先令每个数据样本用一个N维特征向量X={X1,X2,⋯X n}表示,其中X k是属性A k的值。所有的样本分为m类:C1,C2,⋯,C n。对于一个类别的标记未知的数据记录而言,若P(C i/X)>P(C j/X),1≤ j≤m,j≠i,也就是说,如果条件X下,数据记录属于C i类的概率大于属于其他类的概率的话,贝叶斯分类将把这条记录归类为C i类。
建立贝叶斯信念网络可以被分为两个阶段。第一阶段网络拓扑学习,即有向非循环图的———————————————————
作者简介:程建华(1982-),女,汉族,江西九江,研究生,主要研究方向为数据挖掘、信息安全。
学习,利用贝叶斯网络的学习算法,从实例数据建立所有属性变量和类变量构成的贝叶斯网结构。第二个阶段网络中每个变量的局部条件概率分布的学习,采用贝叶斯网的推理算法,计算给定属性变量的值时类变量的最大后验概率。采用这种分类思想的算法有TAN(tree augmented Bayes network)算法。但是统计上的贝叶斯分类对非线性样本数据,含噪声、孤立点的数据,在分类准确性上仍存在问题。
3基于软计算的数据分类方法
在数据挖掘领域,软计算的用途越来越广泛:模糊逻辑用于处理不完整、不精确的数据以及近似答案等;神经网络用于高非线形决策、泛化学习、自适应、自组织和模式识别;遗传算法用于动态环境下的高效搜索、复杂目标对象的自适应和优化;粗糙集根据“核”属性获得对象的近似描述,能有效处理不精确、不一致、不完整等各种不完备信息。当数据集表现出越来越多的无标签性、不确定性、不完整性、非均匀性和动态性特点时,传统数据挖掘算法对此往往无能为力,软计算却可为此提供一种灵活处理数据的能力,软计算内的融合和与传统数据挖掘方法的结合逐渐成为数据挖掘领域的研究趋势。
3.1粗糙集(rough set)
粗糙集理论是一种刻划不完整和不确定性数据的数学工具[3],不需要先验知识,能有效地处理各种不完备信息,从中发现隐含的知识,并和各种分类技术相结合建立起能够对不完备数据进行分类的算法。
粗糙集理论将分类能力和知识联系在一起,使用等价关系来形式化地表示分类,知识因而表示为等价关系集R对离散空间U的划分。粗糙集理论还包含求取数据中最小不变集和最小规则集的理论,即约简算法(即分类中属性约简和规则生成),其基本原理是通过求属性的重要性并排序,在泛化关系中找出与原始数据具有同一决策或分辨能力的相关属性的最小集合,以此实现信息约简,这也是粗糙集理论在分类中的主要应用。
3.2遗传算法
遗传算法在解决多峰值、非线性、全局优化等高复杂度问题时具备独特优势,它是以基于进化论原理发展起来的高效随机搜索与优化方法。它以适应值函数为依据,通过对群体、个体施加遗传操作来实现群体内个体结构的优化重组,在全局范围内逼近最优解。遗传算法综合了定向搜索与随机搜索的优点,避免了大多数经典优化方法基于目标函数的梯度或高阶导数而易陷入局部最优的缺陷,可以取得较好的区域搜索与空间扩展的平衡。在运算时随机的多样性群体和交叉运算利于扩展搜索空间;随着高适应值的获得,交叉运算利于在这些解周围探索。遗传算法由于通过保持一个潜在解的群体进行多方向的搜索而有能力跳出局部最优解。遗传算法的应用主要集中在分类算法[4]等方面。其基本思路如下:
数据分类问题可看成是在搜索问题,数据库看作是搜索空间,分类算法看作是搜索策略。因此,应用遗传算法在数据库中进行搜索,对随机产生的一组分类规则进行进化,直到数据库能被该组分类规则覆盖,从而挖掘出隐含在数据库中的分类规则。应用遗传算法进行数据分类,首先要对实际问题进行编码;然后定义遗传算法的适应度函数,由于算法用于规则归纳,因此,适应度函数由规则覆盖的正例和反例来定义。
4结语
分类算法是数据挖掘中的核心和基础技术之一,本文对基于传统算法和软计算的常见数据分类算法进行了综述;从而便于研究者对已有算法进行改进和设计新的分类算法。未来数据分类算法的研究则更多地集中在智能分类领域,如基于软计算的分类算法以及免疫算法、