基于决策树的数据挖掘-汽车评价分类的算法设计与实现

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于决策树的数据挖掘

——汽车评价分类的算法设计与实现

1 决策树技术面临的挑战及目前研究方向

随着数据挖掘技术的兴起，作为拟人决策主要方法之一，近年来决策树又重新引起了人们的兴趣，并得到更广泛的应用。目前决策树技术的主要研究方向有以下几点：

1.1决策树技术与其他技术的结合

如何将决策树技术和其他新兴的技术相结合以便取长补短一直是决策树技术研究的热点，近几年来国际上发表的有关决策树的文章也大多集中在这个方面的研究。近年关于决策树和其他技术的研究主要包括：

1.1.1决策树技术和神经网络技术相结合[1][2]。

人工神经网络的多层结构使它具有对任意输入输出进行映射的功能。同样，决策树也具有产生维空间下任意复杂的决策边界的功能。因此，可以将决策树重新构造成一个多层的神经网络。这种由决策树转化而成的神经网络具有加快神经网络训练速度等优点。另外一类方法正好相反，它研究的是由神经网络中得到所需要的决策树。这类方法解决了由神经网络得到的知识难于被人们理解的缺点。

1.1.2决策树技术和模糊集合原理的结合

决策树技术虽然有许多优点，但也存在着不稳定的缺点，即决策树带来了较大的变动。模糊集合的融通性使人们利用模糊逻辑来解决决策树的这一缺点并取得了不错的效果。最近，C.Olaru提出了一种新的模糊决策树方法-软决策树[3]。软决策树综合决策树的生成和修剪来决定其本身的结构，并利用重修（Refitting）和磨合（Backfitting）来提高树的归纳能力。软决策树比一般决策树的正确率要高。此外，M. Dong等人提出的基于前瞻（Look-Ahead）的模糊决策树也能够在得到较好的归纳特性的前提下产生较小体积的决策树[4]。

1.1.3决策树技术和进化算法，遗传算法及遗传编程的结合[5][6][7][8][9]。

基于进化算法的决策树系统具有较好的抗噪声能力，同时进化算法很容易在并行计算机上运行，因此可以期待基于进化算法的决策树的运算能力有较大的提高。此外，由于进化算法为随机算法，它可以在任何时候对同一数据集合产生不同的决策树，通过利用投票（Vote）的方法可以得到理想的分类器。因为总体分类器比单个分类器的错误率低，所以基于进化算法的决策树在减小错误率方面也有优势。同样，将决策树运用于进化计算也能够提高进化算法的性能。例如，利用决策树为进化算法播种具有较好质量的初始种群能提高进化算法的搜索能力并缩短运行时间。

将遗传算法用于分类和概念学习任务比较常见，但真正将它作为一种发展决策树的实用工具的研究还比较少。A. Papagelis 等将遗传算法直接用于产生决策树。与一般遗传算法采用二进制串的形式不同，他们采用了二进制树结构来进行问题表示。当无关属性或比较强的条件相关属性存在时，遗传算法比其他的贪婪启发方式（Greedy Heuristics）具有优势。

D. R. Carvalho提出了一个混合决策树和遗传算法的算法，一定程度地解决了低训练数据易于产生错误的规则的缺点。需要注意的是，遗传算法和决策树结合的缺点是计算量较大。将遗传编程用于决策树可以改进标准贪婪决策树归纳算法的一些局限性。遗传编程种群中的每个个体都可以是一个决策树。遗传编程中使用的函数是决策树的特性以及遗传编程中的终结

集（Terminal Set）。利用遗传编程构造决策树可以取得比较好的效果，特别是发现小数据量下的最优决策树。

1.1.4决策树技术和多智能体的结合

将决策树用于多智能体控制并不多见。但正由于多智能体系统的复杂性，而机器学习有潜力提供一个鲁棒性较强的机制来有效协调各智能体间的行为，因此对多智能体结合机器学习是一个很有前途的方向。近几年P. Stone 和M. Veloso 发表了一些这方面的文章[10][11][12]。他们提出了基于决策树C4.5 算法中置信度（Confidence Factor）下的多智能体控制，并将此应用于机器人足球控制。

1.2寻找新的构造决策树的方法

自从Quinlan提出ID3和C4.5 方法后，有不少专家提出了其他构造决策树的方法，如由Brieman 等人提出的CART 方法和由Kass 提出的CHAID 方法。最近，M. Ankerst 等提出了基于多维可视化下的交互式的决策树构造[13]。此方法在决策树构造阶段加入了专家知识，这样便于用户更深地理解产生决策树的数据及最终产生的决策树。同时此方法也显著地减小了决策树的大小。在M. Ankerst 等提出的方法中，他们主要用两类进化算法替代了传统的贪婪搜索算法以实现数值属性的任意分割。

1.3寻找更好的简化决策树的方法

简化决策树的研究工作主要有两个方面，一是对比各种不同的简化决策树方法，分析它们各自的特性、优点和缺点。另外一个就是寻找更好的与传统方法不同的简化决策树的方法，这一直是决策树技术研究的一个热点。近年来，针对不同的应用领域并且随着其他新技术的加入，陆续有这方面的文章发表。例如，D. Founrnier等提出的一种新的修剪决策树的方法-DI 修剪法[14]。此方法针对数据不确定的情况，利用特性索引（Quality Index）来权衡处理决策树深度和节点杂质。DI-修剪法将保持那些虽不能减小错误率但能指出一些特殊性质的群体的子树。D. Founrnier等认为这对于研究不确定数据是非常关键的。

1.4研究产生决策树的训练和检验数据的大小及特性与决策树特性之间的关系

与上述简化决策树不同，这类研究着眼于产生决策树的数据。训练数据的增加经常造成决策树大小的线性增加，而这种增加并没有都带来决策树准确性的提高。一些专家认为，在产生决策树前尽量减少数据量比在决策树产生后再简化决策树更加有效。实际上，这就是经常提起的数据预处理技术（Data Preprocessing），与决策树修剪技术（Pruning）相对应，也称它为数据减少技术（Data Reduction Techniques）。近几年，有关这方面的研究取得了一些进展[15][16][17]。

1.5不确定环境下决策树研究

不确定环境下的决策研究一直是一个热点，决策树技术就是其中一个重要的方法之一。前面介绍的决策树技术与模糊集合原理的结合就是一个不错的选择。此外，Z. Eloudi等人提出了一种基于置信度函数的决策树[18]。此算法利用置信度函数原理来代表分类问题中的参数不确定性，在不确定环境下决策树构造和不确定环境下的分类均取得了比较好的效果。目前正在进行决策树与专家系统相结合的研究，以便在不确定环境下更好地决策。

1.6决策树技术中时间复杂度与准确性之间的矛盾

决策树技术与神经网络技术相比所具有的最大优点就是训练决策树的时间远远低于训练神经网络的时间。决策树技术中如何处理时间复杂度和分类准确性之间的矛盾是一个令人感兴趣的问题。到底如何取舍需要具体问题具体分析。例如，0.Taner等人提出的全变量决策树（0mnivariate Decision Tree）[19]。在分类正确性方面超过了其他决策树方法，却付出了需要更多训练时间的代价。随着微处理器速度越来越快、价钱越来越便宜，以及并行计算的运用，使人们在做决定时拥有比以前更大的自由。

1.7决策树技术的软件实现