决策树分类算法的分析和比较

合集下载

算法与模型的比较：逻辑回归和决策树

算法与模型的比较：逻辑回归和决策树逻辑回归（Logistic Regression）和决策树（Decision Tree）是机器学习领域中常用的两种算法模型。

它们都是监督学习算法，用于解决分类问题。

然而，它们的工作原理、应用场景、优缺点等方面有很大的不同。

本文将对逻辑回归和决策树进行比较，以便更好地理解它们各自的特点和适用场景。

1.工作原理逻辑回归是一种线性模型，它使用逻辑函数（也称为Sigmoid函数）将输入特征的线性组合映射到一个[0,1]的概率值。

这个概率值可以表示为样本属于某个类别的概率。

在二分类问题中，逻辑回归将输入特征进行加权求和，然后通过逻辑函数将结果映射到[0,1]之间，大于0.5的样本被划分为正例，小于0.5的样本被划分为负例。

决策树是一种基于树形结构的分类模型。

它通过对特征进行递归划分，分裂样本空间，并且在每个划分点选择最优的特征和划分方式，直到满足停止条件。

在预测时，样本通过决策树的各个分支，最终到达叶子节点，叶子节点所属的类别即为该样本的预测类别。

2.模型复杂度逻辑回归是一个简单的线性模型，它的复杂度较低。

在训练过程中，逻辑回归通过最小化损失函数，更新模型参数。

由于只需要对参数进行简单的线性加权，因此逻辑回归的训练速度较快。

另外，逻辑回归不需要特别复杂的数据预处理，并且对异常值不敏感，因此具有较好的鲁棒性。

决策树在训练过程中需要进行递归划分属性和计算信息增益或基尼系数等指标来选择最优属性，因此其训练速度通常较慢。

此外，决策树对数据的特征容易产生过拟合，需要剪枝等操作来降低模型的复杂度。

因此相对于逻辑回归，决策树的训练速度较慢且模型复杂度高。

3.模型的解释性逻辑回归在模型中使用线性函数对特征进行加权，并且通过逻辑函数将结果映射到[0,1]之间，因此模型的结果具有很好的解释性。

可以清晰地得知哪些特征对分类结果的影响较大或较小。

另外，逻辑回归的参数可以直接转化为特征的权重，因此可以用于特征选择和特征工程。

决策树的算法

决策树的算法一、什么是决策树算法？决策树算法是一种基于树形结构的分类和回归方法，其本质是将训练数据集分成若干个小的子集，每个子集对应一个决策树节点。

在决策树的生成过程中，通过选择最优特征对数据进行划分，使得各个子集内部的样本尽可能属于同一类别或者拥有相似的属性。

在预测时，将待分类样本从根节点开始逐层向下遍历，直到到达叶节点并输出该节点所代表的类别。

二、决策树算法的基本流程1. 特征选择特征选择是指从训练数据集中选取一个最优特征用来进行划分。

通常情况下，选择最优特征需要考虑两个因素：信息增益和信息增益比。

2. 决策树生成通过递归地构建决策树来实现对训练数据集的分类。

具体实现方式为：采用信息增益或信息增益比作为特征选择标准，在当前节点上选择一个最优特征进行划分，并将节点分裂成若干个子节点。

然后对每个子节点递归调用上述过程，直到所有子节点都为叶节点为止。

3. 决策树剪枝决策树剪枝是指通过去掉一些无用的分支来降低决策树的复杂度，从而提高分类精度。

具体实现方式为：先在训练集上生成一棵完整的决策树，然后自底向上地对内部节点进行考察，若将该节点所代表的子树替换成一个叶节点能够提高泛化性能，则将该子树替换成一个叶节点。

三、常见的决策树算法1. ID3算法ID3算法是一种基于信息熵的特征选择方法。

其核心思想是在每个节点上选择信息增益最大的特征进行划分。

由于ID3算法偏向于具有较多取值的特征，因此在实际应用中存在一定局限性。

2. C4.5算法C4.5算法是ID3算法的改进版，采用信息增益比作为特征选择标准。

相比于ID3算法，C4.5算法可以处理具有连续属性和缺失值的数据，并且生成的决策树更加简洁。

3. CART算法CART（Classification And Regression Tree）算法既可以用来进行分类，也可以用来进行回归分析。

其核心思想是采用基尼指数作为特征选择标准，在每个节点上选择基尼指数最小的特征进行划分。

数据挖掘中的分类算法性能对比与优化分析

数据挖掘中的分类算法性能对比与优化分析数据挖掘是一种通过从大量数据中发现隐藏模式、关联和知识的过程。

在数据挖掘的过程中，分类算法是广泛应用的一种方法，它可以用来将样本分成不同的类别。

然而，不同的分类算法有不同的性能特点，因此对分类算法的性能进行对比和优化分析是非常重要的。

在数据挖掘中，常用的分类算法包括决策树、朴素贝叶斯、支持向量机等。

这些算法在应用的过程中有不同的优势和局限性。

因此，对不同算法的性能进行对比是必要的。

性能比较通常包括准确性、效率和鲁棒性等指标。

首先，准确性是评估分类算法性能的一个重要指标。

准确性可以通过交叉验证和混淆矩阵来进行评估。

交叉验证是一种常用的评估分类器性能的方法，在该方法中，数据集被划分为训练集和测试集。

通过对测试样本进行分类并与真实标签进行比较，可以计算分类器的准确性。

其次，效率是评估分类算法性能的另一个关键因素。

效率主要包括训练时间和分类时间两个方面。

训练时间是指训练模型所需的时间，而分类时间是指对新样本进行预测所需的时间。

通过对不同算法的训练和分类时间进行比较，可以选择最适合具体应用场景的分类算法。

另外，鲁棒性也是评估分类算法性能的一个重要指标。

鲁棒性是指分类算法对数据中的噪声和异常值的抵抗能力。

一种算法在处理具有噪声和异常值的数据时，能够在不丢失重要信息的情况下正确分类的程度可以反映其鲁棒性。

通过对不同算法在含有噪声和异常值的数据上的性能进行对比，可以了解其鲁棒性能力。

当进行分类算法性能对比后，我们可以根据对比结果来选择最适合具体应用场景的算法。

一般来说，没有一种算法能够在所有场景下表现最佳。

因此，根据具体的数据集和应用需求，选择性能最优的分类算法是非常重要的。

当然，在实际应用中，我们也可以通过优化算法来提高分类算法的性能。

算法优化包括优化特征选择、参数调优和集成方法等。

在特征选择中，我们可以通过选择最具区分度的特征来提高分类算法的准确性和效率。

参数调优可以通过调整算法中的参数来提高分类器的性能。

决策树分类算法的分析和比较

３３通过教育提高人的“ －能力” 所谓 “ 能力 ” 是指人们顺利实现某种活动的心理条件。研究人力资，源，根本目的是为了运用“ ” 人的这种能力。从现实应用的形态看，能力要素包括体力、智力、识、知技能４部分。体力、智力、知识、技能四者的不同组合，形成人力资源多样化的丰富内容。人力资源拥有的体力、力、智知
３农业部门要建立农业数字信息资源中心．４信息资源是整个农村信息服务体系的基础及核心，了进一步提高为农村信息资源的实用性，省农业部门应牵头各涉农单位配合以整合资源、免重复、避协调发展、实施共享为立足点和出发点，分发挥农口部充门信息资源优势，农业部门与各级政府合作，组织实施全省农业数字信
２０７—１ — ５（．００２６）
高其综合素质，提升就业技能增强其在就业能力和在市场巾的竞争能
力，唯有培养农民创造性的适应能力，才能够在这千变万化的市场部分中维持自己，立于不败之地。
［］巾国社会科学院课题组．进国民经济信息化的公共政策研究［］３推Ｊ．经济研究参考，０７１：、２０（４）２
… ● ● ●
人力资源强国，教育则是增加人力资源含金量的重要途径。
动。
我国目前农业劳动生产率与土地投入产出率的双重低下，个不容一
掩盖的原因就是农民综合素质的先天发育不足与后天优化滞后，表现在科技文化素质、思想心理素质、织协调素质、组市场竞争素质等多个层
［］姚裕群．４人力资源开发与管理［、：Ｍ］北京中国人民大学出版社，０．２７０（责任编辑：白尚平）第一作者简介：郝玉宾，，９５ｌ月生，９９毕业于山西大女１７年１１９年学，师，讲山西省委党校，省太原市学府街９号，３０６山西６０００．

决策树算法实验总结

决策树算法实验总结
决策树算法是一种常用的机器学习算法，它通过对数据集进行递归划分，构建出一棵树状的决策模型。

在实验中，我们使用了决策树算法进行分类任务，并对实验结果进行总结。

首先，我们需要准备一个带有标签的训练数据集，其中包含了多个特征和对应的类别标签。

然后，我们可以使用决策树算法对训练数据集进行训练，构建出一棵具有判断条件的决策树。

在实验中，我们可以使用不同的指标来评估决策树算法的性能，例如准确率、精确率、召回率等。

这些指标可以帮助我们了解决策树算法在分类任务中的表现。

此外，我们还可以通过调整决策树算法的参数来提高其性能。

例如，可以通过限制树的最大深度、设置叶子节点的最小样本数等来控制决策树的复杂度，避免过拟合问题。

在实验总结中，我们可以描述决策树算法在实验中的表现，比较其与其他算法的优劣势，并提出进一步改进的方向。

此外，还可以讨论决策树算法在不同数据集上的适用性，并分析其在实际应用中可能遇到的问题和局限性。

总而言之，决策树算法是一种简单而有效的机器学习算法，可以用于分类任务。

通过实验总结，我们可以更好地理解决策树算法的原理和性能，为进一步的应用和改进提供指导。

数据挖掘中的分类与回归算法比较与分析

数据挖掘中的分类与回归算法比较与分析数据挖掘是从大量的数据中提取出有价值的信息和知识的过程，是一种通过发现数据中的潜在模式和关联关系来预测未来行为、进行决策支持的技术。

数据挖掘中常用的两种主要算法是分类和回归算法，它们在数据分析和预测模型建立中具有重要作用。

本文将比较和分析几种常见的分类与回归算法，旨在帮助读者了解它们的不同特点和适用场景。

1. 分类算法1.1 决策树算法决策树是一种基于树状结构的分类模型，它通过对特征属性进行逐步划分来实现对数据集的分类。

决策树算法具有易于理解和解释的特点，可以处理离散和连续特征，并且在处理缺失数据时表现良好。

然而，决策树算法容易产生过拟合问题，需要进行剪枝处理。

1.2 朴素贝叶斯算法朴素贝叶斯算法是基于贝叶斯定理和特征条件独立性假设的分类算法。

它通过计算给定特征的条件下目标变量的后验概率来进行分类。

朴素贝叶斯算法具有简单和高效的特点，适用于处理大规模数据集。

然而，朴素贝叶斯算法假设特征之间相互独立，这在某些情况下可能不符合实际情况，会导致分类结果不准确。

1.3 支持向量机算法支持向量机算法是基于统计学习理论中的结构风险最小化原则的分类算法。

它通过构建一个最优超平面将不同类别的样本分隔开来。

支持向量机算法具有高准确率和泛化能力强的特点，适用于处理高维数据集。

然而，支持向量机算法对于大规模数据集计算复杂度高，训练时间长。

2. 回归算法2.1 线性回归算法线性回归算法是一种用于建立线性关系的回归模型的方法，它通过拟合一个线性方程来预测连续目标变量的值。

线性回归算法具有简单和快速的特点，适用于处理大规模数据集。

然而，线性回归算法对于非线性关系的数据拟合效果不好。

2.2 逻辑回归算法逻辑回归算法是一种用于建立分类模型的回归算法，它通过将线性回归模型的输出映射到[0, 1]之间的概率值来进行分类。

逻辑回归算法具有计算简单、解释性强的特点，适用于处理二分类问题。

然而，逻辑回归算法对于非线性关系的数据分类效果差。

决策树模型的优缺点分析与应用场景探讨(十)

决策树模型的优缺点分析与应用场景探讨决策树模型是一种常见的机器学习算法，它通过构建一个树状结构来对数据进行分类或预测。

在实际应用中，决策树模型具有许多优缺点，同时也适用于各种不同的场景。

本文将对决策树模型的优缺点进行分析，并探讨其在实际应用中的场景。

优点分析• 可解释性强：决策树模型可以清晰地展示出决策的过程，使人们能够直观地理解模型是如何做出预测或分类的。

这对于需要解释模型结果的场景非常有用，比如医疗诊断、金融风控等领域。

• 适用于多种数据类型：决策树模型不需要对数据做过多的预处理，可以直接处理多种类型的数据，包括数值型和类别型数据。

这使得决策树模型在处理复杂的现实数据时具有一定的优势。

• 鲁棒性强：决策树模型对数据的异常值和缺失值具有一定的鲁棒性，不会对这些情况产生过大的影响。

这使得决策树模型可以应对真实世界中的复杂数据情况。

缺点分析• 容易过拟合：决策树模型在处理复杂的数据时很容易过拟合，尤其是在树的深度较大的情况下。

过拟合会导致模型在训练集上表现良好，但在测试集上表现很差。

• 对数据噪声敏感：决策树模型对数据中的噪声和异常值非常敏感，这些干扰因素容易影响模型的生成和预测准确性。

• 不稳定性：当数据发生轻微变化时，决策树模型可能会产生较大的变化，这使得模型的稳定性相对较差。

应用场景探讨在实际应用中，决策树模型具有广泛的应用场景，以下是一些常见的场景：• 医疗诊断：决策树模型可以根据患者的各种指标和症状来帮助医生进行疾病诊断。

由于决策树模型的可解释性强，医生可以清晰地看到每一步的决策过程，这有助于提高诊断的准确性。

• 金融风控：在金融领域，决策树模型可以用于评估个人信用、预测违约风险等。

由于决策树模型对多种数据类型具有较好的适应性，可以处理各种不同类型的金融数据。

• 营销预测：在市场营销领域，决策树模型可以根据客户的属性和行为来预测其购买意愿，帮助企业做出营销决策。

• 工业生产：决策树模型可以用于预测设备的故障风险、优化生产流程等，帮助企业提高生产效率和降低成本。

人工智能开发技术中的分类算法对比分析

人工智能开发技术中的分类算法对比分析近年来，人工智能技术的迅猛发展引起了广泛关注。

在人工智能开发过程中，分类算法作为其中重要的一环，扮演了不可或缺的角色。

分类算法可以将数据样本划分到不同的类别中，从而帮助我们研究和理解数据。

本文将对几种常见的分类算法进行对比分析，旨在帮助读者了解这些算法在不同场景下的优劣势，并选择合适的算法应用于具体问题中。

一、决策树算法决策树算法是一种直观、易于理解的分类算法。

它将数据样本基于一系列特征进行划分，形成一棵树状结构。

在分类过程中，决策树会根据每个特征的值选择一个分支，最终将样本划分到相应的类别中。

决策树算法的优点是计算简单、可解释性强。

然而，决策树容易过拟合和欠拟合的问题需要重点关注。

为了解决这个问题，研究人员提出了随机森林算法。

二、随机森林算法随机森林算法是由多个决策树构成的集成算法。

随机森林通过对训练数据进行自助采样和随机特征选择，构建多个决策树，并通过投票方式进行分类。

相比于单个决策树，随机森林能够减少过拟合的风险，提高分类准确性。

此外，随机森林还可以评估变量的重要性，帮助特征选择。

然而，随机森林算法的缺点是计算复杂度高，训练时间较长。

三、支持向量机算法支持向量机算法是一种常用的分类算法。

它通过在特征空间中构建一个最优超平面，将数据样本分隔开来。

支持向量机算法采用核函数来处理非线性问题，具有较强的分类能力。

此外，支持向量机还可以处理高维数据和小样本问题。

然而，支持向量机算法的训练过程较为复杂，需要解决凸优化问题。

同时，支持向量机对大规模数据集的处理速度较慢，需要借助优化方法和近似算法。

四、朴素贝叶斯算法朴素贝叶斯算法是一种基于贝叶斯定理的分类算法。

它假设所有特征之间相互独立，并通过计算后验概率来进行分类。

朴素贝叶斯算法具有计算简单、速度快的优势，适用于处理大规模数据集。

此外，朴素贝叶斯算法对缺失数据和噪声具有较强的鲁棒性。

然而，朴素贝叶斯算法的独立性假设在某些实际应用中可能不成立，导致分类结果不准确。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

分割样本集，只能处理具有离散型属性和属性值齐全的样本，生成形如多叉树的决策树。后来出现的Ｃ４．５算法经过改进，能够直接处理连续型属性，也能够处理属性值空缺的训练样本。针对ＩＤ３系列算法和Ｃ４．５系列算法生成决策树分枝较多、规模较大的问题，又出现了根据ＧＩＮＩ系数来选择测试属性的决策树算法，使得生成的决策树可以是结构简单、易于理解的二叉树。大多数决策树算法都采用后剪枝策略，但它策略明显存在将已经生成的分枝再剪去的重复劳动，降低了决策树的生成效率，因此出现了以ＰＵＢＬＩＣ算法为代表的预剪枝决策树算法。随后，为了增
２决策树分类算法比较
２．１ＣＬＳ学习算法ＣＬＳ主要思想是从一个空决策树出发，通过添加新的判定结点来改
善原来的决策树，直到该决策树能够正确地将训练实例分类为止。它对决策树的构造过程也就是假设特化的过程，所以ＣＬＳ可以看作是只带一个操作符的学习算法，此操作符可以表示为：通过添加一个新的判定条件（新的判定结点），特化当前假设。ＣＬＳ算法递归调用这个操作符，作用在每个叶结点来构造决策树。２．２ＩＤ３算法（ＩｔｅｒａｔｉｖｅＤｉｃｈｏｔｏｍｉｚｅｒ３）
ＨＡＯＹｕ－ｂｉｎ，ＪＩＮＰｅｎｇ－ｃｈｅｎｇ
ＡＢＳＴＲＡＣＴ：Ｔｈｉｓｐａｐｅｒｅｘｐｏｕｎｄｓｔｈｅｉｍｐｏｒｔａｎｔｆｕｎｃｔｉｏｎｓｏｆｔｈｅａｇｒｉｃｕｌｔｕｒａｌｉｎｆｏｒｍａｔｉｚａｔｉｏｎｉｎｔｈｅｎｅｗｐｅｒｉｏｄ，ｐｒｏｂｅｓｉｎｔｏｔｈｅｐｒｏｂｌｅｍｏｆｈｏｗｔｏｐｒｏｍｏｔｅｔｈｅｇｒｅａｔ－ｌｅａｐ－ｆｏｒｗａｒｄｄｅｖｅｌｏｐｍｅｎｔｏｆｔｈｅｒｕｒａｌｉｎｆｏｒｍａｔｉｚａｔｉｏｎｗｉｔｈｔｈｅｃｏｍｐｒｅｈｅｎｓｉｖｅｓｅｒｖｉｃｅｏｆｍｏｄｅｒｎａｇｒｉｃｕｌｔｕｒａｌｉｎｆｏｒｍａｔｉｚａｔｉｏｎ，ａｎｄｐｏｉｎｔｓｏｕｔｔｈａｔｏｕｒｃｏｕｎｔｒｙｓｈｏｕｌｄｐｒｏｖｉｄｅｔｈｅｔａｌｅｎｔｓｓｕｐｐｏｒｔｆｏｒｔｈｅｍｏｄｅｒｎａｇｒｉｃｕｌｔｕｒｅｂｙｕｓｉｎｇｔｈｅｍｏｄｅｒｎｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ．ＫＥＹＷＯＲＤＳ：ａｇｒｉｃｕｌｔｕｒａｌｉｎｆｏｒｍａｔｉｚａｔｉｏｎ；ｃｈａｒａｃｔｅｒｉｓｔｉｃｍｏｄｅｒｎａｇｒｉｃｕｌｔｕｒｅ───────────── 第一作者简介：郝玉宾，女，１９７５年１１月生，１９９９年毕业于山西大
学，讲师，山西省委党校，山西省太原市学府街９６号，０３０００６．
ＳｐｅｅｄｉｎｇｕｐｔｈｅＣｏｎｓｔｒｕｃｔｉｏｎｏｆＡｇｒｉｃｕｌｔｕｒａｌＩｎｆｏｒｍａｔｉｚａｔｉｏｎｆｏｒＰｒｏｍｏｔｉｎｇｔｈｅＤｅｖｅｌｏｐｍｅｎｔｏｆｔｈｅＣｈａｒａｃｔｅｒｉｓｔｉｃＭｏｄｅｒｎＡｇｒｉｃｕｌｔｕｒｅ
参考文献［１］樊合文．以多方合作和资源整合推进发展［Ｎ］．经济日报，２００７－０６－０７（１３）．［２］张玉番．加快农业信息化建设，助推现代农业发展［Ｎ］．农民日报，２００７－１０－２５（６）．［３］中国社会科学院课题组．推进国民经济信息化的公共政策研究［Ｊ］．经济研究参考，２００７（１４）：２．［４］姚裕群．人力资源开发与管理［Ｍ］．北京：中国人民大学出版社，２００７．
大力开展远程教育，提高农民接受文化、科技、信息的能力。远程教育和培训的优势就在于不受时空限制，通过远程教育平台，可推动农业科技成果的转化吸收，培训出有文化、懂技术、会经营的新型农民。进而大大减轻了农民进城学习的负担，同时又推动城市教育资源向农村流
源、避免重复、协调发展、实施共享为立足点和出发点，充分发挥农口部门信息资源优势，农业部门与各级政府合作，组织实施全省农业数字信息资源共享工程，建立全省新农村信息资源中心，从而实现“数字化农业科技文献资源 ”“ 专题数据库资源 ”“ 多媒体软件资源 ”等信息资源在全省各乡镇、行政村和２０００多个新农村试点村共享。
Ｑｕｉｎｌａｎ提出的ＩＤ３算法是最早有影响的决策树算法，它是基于信息熵的决策树算法，它根据属性集的取值分类。２．２．１ＩＤ３算法原理
设Ｅ＝｛Ｖ１，Ｖ２， …，Ｖｍ｝是ｍ维有穷向量空间，其中Ｖｉ是有穷离散符号集，Ｅ中的元素ｅ＝（Ｅ１，Ｅ２， …，Ｅｎ）称为实例。其中Ｅｉ∈Ｆｉ，ｉ＝１，２， …，ｎ。设Ｐｅ和Ｎｅ是Ｅ的２个实例集，分别叫正例集和反例集。
信息资源是整个农村信息服务体系的基础及核心，为了进一步提高
科技文化素质、思想心理素质、组织协调素质、市场竞争素质等多个层
农村信息资源的实用性，省农业部门应牵头各涉农单位配合以整合资
面，因此，现代农民的培养是现代农业发展不可或缺的人力资本支撑。潜在人力资源向现实人力资源的转化，一般是一定的主体对其资源性质进行认识和作出使用的决策，这就是人力资源的发掘过程。３．３通过教育提高人的“能力”
所谓“能力”，是指人们顺利实现某种活动的心理条件。研究人力资源，根本目的是为了运用“人”的这种能力。从现实应用的形态看，能力要素包括体力、智力、知识、技能４部分。体力、智力、知识、技能四者的不同组合，形成人力资源多样化的丰富内容。人力资源拥有的体力、智力、知识和技能，使其具有推动物质资源的各种具体能力。作为政府，对农民采取“授人以鱼，不如授人以渔”，教其学会１～２门实用技术和技能，不断提高其综合素质，提升就业技能增强其在就业能力和在市场中的竞争能力，唯有培养农民创造性的适应能力，才能够在这千变万化的市场部分中维持自己，立于不败之地。
６５
刘莺迎决策树分类算法的分析和比较
本刊Ｅ－ｍａｉｌ：ｂｊｂ＠ｍａｉｌ．ｓｘｉｎｆｏ．ｎｅｔ信息工作探讨
加决策树算法的可扩展性和并行性，ＳＬＩＱ和ＳＰＲＩＮＴ等并行决策树算法被提出。最后，基于人机交互的决策树算法的提出打破了由计算机完全控制决策树生成的局面，将人工智能和人为干预加进了决策树的生成过程中。
摘要：在数据挖掘中存在多种算法，决策树分类算法是应用比较多的一种。基于决策
树分类算法的研究现状，对各种决策树分类算法的基本思想进行了阐述，并对不同的
算法进行了分析和比较。
关键词：决策树分类算法；ＩＤ３；后剪枝；ＧＩＮＩ系数
中图分类号：ＴＰ２７４；ＴＰ３１
文献标识码：Ａ
１决策树分类算法的发展
基于决策树的分类算法自提出至今，种类不下几十种。各种算法在执行速度、可扩展性、输出结果的可理解性，分类预测的准确性等方面各有千秋。
决策树分类算法的发展分如下几个阶段：首先，１９６６由Ｈｕｎｔ．Ｅ．Ｂ等人提出了ＣＬＳ（ＣｏｎｃｅｐｔＬｅａｒｎｉｎｇＳｙｓｔｅｍ）学习算法。这是第一次提出用决策树进行概念学习，随后出现的ＩＤ３算法采用信息熵原理选择测试属性
假设向量空间Ｅ中的正例集Ｐｅ和反例集Ｎｅ的大小分别为ｐ，ｎ，ＩＤ３基于如下两种假设：
在向量空间Ｅ上的一棵正确决策树对任意实例的分类概率同正反实例的概率。
一棵决策树对一实例做出正确判断所需的信息量为：Ｉ（ｐ，ｎ）＝－［ｐ（／ｐ＋ｎ）］ｌｇ［ｐ（／ｐ＋ｎ）］ ×ｌｇ［ｐ（／ｐ＋ｎ）］－［ｎ（／ｐ＋ｎ）］ ×ｌｇ［ｐ（／ｐ＋ｎ）］ ×ｌｇ［ｐ（／ｐ＋ｎ）］如果以某属性Ａ作为决策树的根，则Ａ具有ｍ个值｛Ｖ１，Ｖ２， … ，Ｖｍ｝，它将Ｅ分成ｍ个子集｛Ｅ１，Ｅ２， …，Ｅｍ｝，假设Ｅｔ中含有Ｐｔ个正例和Ｎｔ个反例，那么子集Ｅｔ所需的期望信息是Ｈ（Ｐｔ，Ｎｔ），以属性Ａ为根所需的期望熵是：Ｅ（Ａ）＝∑［（Ｐｔ＋Ｎｔ）（／Ｐ＋Ｎ）］Ｉ（Ｐｔ，Ｎｔ）以Ａ为根的信息熵增益是：Ｇａｉｎ（Ａ）＝Ｉ（Ｐ，Ｎ）－Ｅ（Ａ）ＩＤ３选择使Ｇａｉｎ（Ａ）具有最大的属性Ａ＊作为根节点，对Ａ＊的不同取值对应的Ｅ的Ｖ个子集Ｅｔ递归调用上述生成过程生成子节点。２．２．２ＩＤ３的优缺点（１）信息增益的计算依赖于特征数目较多的特征，而属性取值最多的属性并不一定最优。（２）ＩＤ３是非递增算法。（３）ＩＤ３是单变量决策树（在分枝节点只考虑单个属性），许多复杂概念的表达困难，属性相互关系强调不够，容易导致决策树中子树的重复或属性在决策树的某路径被检验多次。（４）抗噪性差，训练例子中正例和反例的比例较难控制。２．３Ｃ４．５算法Ｃ４．５算法采用了一种归纳学习的机制，它继承了ＩＤ３算法的优点，并在以下几方面对ＩＤ３算法进行了改进：（１）用信息增益率来选择属性，克服了用信息增益来选择属性时偏向选择值多的属性的不足。（２）可以处理连续数值型属性。（３）为了避免树的高度无节制地增长，避免过度拟合数据，采用了一种后剪枝方法，该方法是从一种称为“规则后修剪”（ｒｕｌｅｐｏｓｔ－ｐｒｕｎｉｎｇ）的方法演变而来。（４）对于缺失值的处理。在某些情况下，可供使用的数据可能缺少某些属性的值。然而Ｃ４．５算法在处理连续型测试属性中线性搜索阈值付出了很大代价。在２００２年，ＳａｌｖａｔｏｒｅＲｕｇｇｉｅｒｉ提出了Ｃ４．５的改进算法ＥＣ４．５算法，与Ｃ４．５相比ＥＣ４．５可将效率提高５倍，但是它的缺点是占用内存比