数据挖掘决策树算法ID3和C4.5

合集下载

决策树模型ID3C4.5CART算法比较

决策树模型ID3C4.5CART算法⽐较决策树模型在监督学习中⾮常常见，可⽤于分类（⼆分类、多分类）和回归。

虽然将多棵弱决策树的Bagging、Random Forest、Boosting等tree ensembel 模型更为常见，但是“完全⽣长”决策树因为其简单直观，具有很强的解释性，也有⼴泛的应⽤，⽽且决策树是tree ensemble 的基础，值得好好理解。

⼀般⽽⾔⼀棵“完全⽣长”的决策树包含，特征选择、决策树构建、剪枝三个过程，这篇⽂章主要是简单梳理⽐较ID3、C4.5、CART算法。

《统计学习⽅法》中有⽐较详细的介绍。

⼀、决策树的优点和缺点优点：1. 决策树算法中学习简单的决策规则建⽴决策树模型的过程⾮常容易理解，2. 决策树模型可以可视化，⾮常直观3. 应⽤范围⼴，可⽤于分类和回归，⽽且⾮常容易做多类别的分类4. 能够处理数值型和连续的样本特征缺点：1. 很容易在训练数据中⽣成复杂的树结构，造成过拟合（overfitting）。

剪枝可以缓解过拟合的负作⽤，常⽤⽅法是限制树的⾼度、叶⼦节点中的最少样本数量。

2. 学习⼀棵最优的决策树被认为是NP-Complete问题。

实际中的决策树是基于启发式的贪⼼算法建⽴的，这种算法不能保证建⽴全局最优的决策树。

Random Forest 引⼊随机能缓解这个问题⼆、ID3算法ID3由Ross Quinlan在1986年提出。

ID3决策树可以有多个分⽀，但是不能处理特征值为连续的情况。

决策树是⼀种贪⼼算法，每次选取的分割数据的特征都是当前的最佳选择，并不关⼼是否达到最优。

在ID3中，每次根据“最⼤信息熵增益”选取当前最佳的特征来分割数据，并按照该特征的所有取值来切分，也就是说如果⼀个特征有4种取值，数据将被切分4份，⼀旦按某特征切分后，该特征在之后的算法执⾏中，将不再起作⽤，所以有观点认为这种切分⽅式过于迅速。

ID3算法⼗分简单，核⼼是根据“最⼤信息熵增益”原则选择划分当前数据集的最好特征，信息熵是信息论⾥⾯的概念，是信息的度量⽅式，不确定度越⼤或者说越混乱，熵就越⼤。

机器学习--决策树算法（ID3C4.5）

机器学习--决策树算法（ID3C4.5）在⽣活中，“树”这⼀模型有很⼴泛的应⽤，事实证明，它在机器学习分类和回归领域也有着深刻⽽⼴泛的影响。

在决策分析中，决策树可以明确直观的展现出决策结果和决策过程。

如名所⽰，它使⽤树状决策模型。

它不仅仅是在数据挖掘中⽤户获取特定⽬标解的策略，同时也被⼴泛的应⽤于机器学习。

如何使⽤树来表⽰算法为此，我们考虑使⽤泰坦尼克号数据集的⽰例，以预测乘客是否会⽣存。

下⾯的模型使⽤数据集中的3个特征/属性/列，即性别，年龄和SIBSP（配偶或⼉童的数量）。

这是⼀棵体现了⼈性光辉的决策树。

树的形状是⼀棵上下颠倒的决策树，叶⼦节点在下，根节点在上。

在图像中，⿊⾊中的粗体⽂本表⽰条件/内部节点，基于树分成分⽀/边缘。

不再分裂的分⽀结束是决策/叶⼦，在这种情况下，乘客是否被死亡或幸存，分别表⽰为红⾊和绿⾊⽂本。

虽然，⼀个真实的数据集将有很多功能，这只是⼀个更⼤的树中的部分分⽀，但你不能忽略这种算法的简单性。

该特征重要性是明确的，可以轻易查看决策关系。

该⽅法更常见于来⾃数据的学习决策树，并且在树上被称为分类树，因为⽬标是将乘客分类为幸存或死亡，上⾯所展⽰的决策树就是分类树。

回归树以相同的⽅式表⽰，例如⽤于预测房⼦价格的连续价值。

通常，决策树算法被称为CART或分类和回归树。

那么，算法⽣成的背后发⽣了什么呢？如何⽣成⼀个决策树取决于选择什么特征和在何种情况下进⾏分裂，以及在什么时候停⽌。

因为⼀棵树通常是随意⽣长的，你需要修剪它，让它看起来漂亮（研究如何⽣成决策树）。

ID3算法ID3算法⽣成决策树ID3算法（Iterative Dichotomiser 3）是决策树⽣成算法的⼀种，基于奥卡姆剃⼑原理(简约原则) 1。

是Ross Quinlan发明的⼀种决策树算法，这个算法的基础就是上⾯提到的奥卡姆剃⼑原理，越是⼩型的决策树越优于⼤的决策树，尽管如此，也不总是⽣成最⼩的树型结构，⽽是⼀个启发式算法。

决策树的经典算法：ID3与C4.5

维普资讯
第１７卷第５期

四川文理学院学报（自然科学）
２００７年９月
Ｓｐ２０ｅ．０７
Ｖ１１Ｎ．ＳｃｕｎＵｉｅｓｙｏｔａｄＳｉｃｏｒａ（ｔｒｌｃｅｃｄｔｎｏ．７ｏ５ｉａｎｖｒｉｆｓｎｃｎｅＪｕｎｌＮａｕａｉｅＥｉｏ）ｈｔＡｒｅＳｎｉ
大。有大量的学者围绕该算法作了广泛的研究，并提出了
多种改进算法。下面对Ｉ３法进行详细的叙述。Ｄ算决策树的生成过程也就是一个树的节点的选择过程：Ｓｐ．算所有属性的信息增益，ｔ１计ｅ选择信息增益最大
的属性作为根节点；（）１计算给定的训练数据集分类的信息期望，记：练数据集为Ｄ，为ｋ类，即ｋ个子集：，训分也Ｄ，
ｌ６
，表示把训练数据集Ｄ，划分为类的不确定性程度。
设训练数据集分为两类：，，Ｄ，Ｄ，
若：训练数据集属于这两类的概率均为０５这时的不确．，定程度最大，则对应的期望信息：：一Ｑ５・ｏ．：，２× ｌｏ１ｇ若：训练数据集属于这两类的概率均分别为０２０８．、，．
Ｄ： … ，，，
３算法是决策树算法的代表，） …在此之后的多种决策树算法都是在Ｉ３法的基础上加以改进而实现的。它在选Ｄ算择决策树各级节点上的属性时，择标准是选用最大信其选息增益的属性，就使得在每一个非叶节点上进行测试这

机器学习总结（八）决策树ID3，C4.5算法，CART算法

机器学习总结（⼋）决策树ID3，C4.5算法，CART算法本⽂主要总结决策树中的ID3,C4.5和CART算法，各种算法的特点，并对⽐了各种算法的不同点。

决策树：是⼀种基本的分类和回归⽅法。

在分类问题中，是基于特征对实例进⾏分类。

既可以认为是if-then规则的集合，也可以认为是定义在特征空间和类空间上的条件概率分布。

决策树模型：决策树由结点和有向边组成。

结点⼀般有两种类型，⼀种是内部结点，⼀种是叶节点。

内部结点⼀般表⽰⼀个特征，⽽叶节点表⽰⼀个类。

当⽤决策树进⾏分类时，先从根节点开始，对实例的某⼀特征进⾏测试，根据测试结果，将实例分配到⼦结点。

⽽⼦结点这时就对应着该特征的⼀个取值。

如此递归对实例进⾏测试分配，直⾄达到叶结点，则该实例属于该叶节点的类。

决策树分类的主要算法有ID3，C4.5。

回归算法为CART算法，该算法既可以分类也可以进⾏回归。

（⼀）特征选择与信息增益准则特征选择在于选取对训练数据具有分类能⼒的特征，⽽且是分类能⼒越强越好，这样⼦就可以提⾼决策树的效率。

如果利⽤⼀个特征进⾏分类，分类的结果与随机分类的结果没有差异，那么这个特征是没有分类能⼒的。

那么⽤什么来判别⼀个特征的分类能⼒呢？那就是信息增益准则。

何为信息增益？⾸先，介绍信息论中熵的概念。

熵度量了随机变量的不确定性，越不确定的事物，它的熵就越⼤。

具体的，随机变量X的熵定义如下：条件熵H(Y|X)表⽰在已知随机变量X的条件下随机变量Y的不确定性，随机变量X给定的条件下随机变量Y的条件熵为H(Y|X)，定义为X给定条件下Y的条件概率分布的熵对X的数学期望：信息增益表⽰在已知特征X的情况下，⽽使得Y的信息的不确定性减少的程度。

信息增益的定义式如下：g(D,A)表⽰特征A对训练集D的信息增益，其为集合D的经验熵H(D)与在特征A给定条件下D的经验条件熵H(D|A)之差。

⼀般熵与条件熵之差，称为互信息。

在决策树中，信息增益就等价于训练数据集中的类与特征的互信息。

决策树分类ID3和C4.5原理Java实现

决策树分类ID3和C4.5原理Java实现决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。

其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。

使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

•决策树的构造:•决策树的构造就是通过属性选择来确定拓扑结构。

•构造决策树的关键步骤是分裂属性。

所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支，其目标是让各个分裂子集尽可能地“纯”。

尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。

分裂属性分为三种不同的情况：•1、属性是离散值且不要求生成二叉决策树。

此时用属性的每一个划分作为一个分支。

•2、属性是离散值且要求生成二叉决策树。

此时使用属性划分的一个子集进行测试，按照“属于此子集”和“不属于此子集”分成两个分支。

•3、属性是连续值。

此时确定一个值作为分裂点split_point，按照>split_point和<=split_point生成两个分支。

ID3ID3算法使用信息增益(IG)或者熵(Entropy)值来确定使用哪个属性进行判定，作为最佳属性。

计算熵的公式为：信息增益的公式如下：缺点：1：ID3算法在选择根节点和内部节点中的分支属性时，采用信息增益作为评价标准。

信息增益的缺点是倾向于选择取值较多的属性，在有些情况下这类属性可能不会提供太多有价值的信息。

例如ID字段等。

2：ID3算法只能对描述属性为离散型属性的数据集构造决策树C4.5C4.5算法采用信息增益率作为选择分支属性的标准，并克服了ID3算法中信息增益选择属性时偏向选择取值多的属性的不足，并能够完成对连续属性离散化是处理；还能够对不完整数据进行处理。

C4.5算法属于基于信息论Information Theory的方法，以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳和分类。

数据挖掘十大经典算法

数据挖掘十大经典算法一、 C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；2) 在树构造过程中进行剪枝；3) 能够完成对连续属性的离散化处理；4) 能够对不完整数据进行处理。

C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。

其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。

1、机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。

树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。

决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。

2、从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。

3、决策树学习也是数据挖掘中一个普通的方法。

在这里，每个决策树都表述了一种树型结构，他由他的分支来对该类型的对象依靠属性进行分类。

每个决策树可以依靠对源数据库的分割进行数据测试。

这个过程可以递归式的对树进行修剪。

当不能再进行分割或一个单独的类可以被应用于某一分支时，递归过程就完成了。

另外，随机森林分类器将许多决策树结合起来以提升分类的正确率。

决策树是如何工作的？1、决策树一般都是自上而下的来生成的。

2、选择分割的方法有好几种，但是目的都是一致的：对目标类尝试进行最佳的分割。

3、从根到叶子节点都有一条路径，这条路径就是一条―规则4、决策树可以是二叉的，也可以是多叉的。

对每个节点的衡量：1) 通过该节点的记录数2) 如果是叶子节点的话，分类的路径3) 对叶子节点正确分类的比例。

有些规则的效果可以比其他的一些规则要好。

由于ID3算法在实际应用中存在一些问题，于是Quilan提出了C4.5算法，严格上说C4.5只能是ID3的一个改进算法。

决策树的训练算法

决策树的训练算法
决策树的训练算法主要有以下几种：
1. ID3算法：ID3（Iterative Dichotomiser 3）是一种用于决策树学习的经典算法。

它基于信息熵的概念，通过计算每个特征的信息增益来选择最优的划分特征。

2. C4.5算法：C4.5算法是ID3算法的改进版，它在选择划分特征时使用信息增益比来解决ID3算法中对取值较多的特征有偏好的问题。

此外，C4.5算法还支持处理连续特征。

3. CART算法：CART（Classification and Regression Tree）算法是一种用于生成二叉决策树的算法。

它根据基尼系数来选择最优的划分特征，并使用回归树或分类树来处理连续特征。

4. CHAID算法：CHAID（Chi-square Automatic Interaction Detector）算法是一种适用于分类问题的决策树算法。

它使用卡方检验来选择最优的划分特征，并根据卡方统计量的值来评估特征的重要性。

5. 梯度提升决策树（GBDT）算法：GBDT算法是一种集成学习算法，它将多颗决策树进行级联，每颗树的输出作为下一颗树的输入。

GBDT通过梯度下降的方式逐步优化模型的预测能力。

这些算法在决策树的构建过程中采用不同的策略和指标，适用于不同类型的数据和问题。

在实际应用中，可以根据数据特点和问题需
求选择合适的算法进行训练。

决策树C4.5算法总结

数据集准备
数据清洗
去除异常值、缺失值，对数据进行预处理，使其满足算法要求。
数据分割
将数据集分为训练集和测试集，用于训练和评估决策树模型。
特征选择与划分
特征重要性评估
计算每个特征对目标变量的影响程度，选择最重要的特征作为划分标准。
特征划分
根据特征的重要性和信息增益率，将数据集划分为不同的子集，形成决策树的节点。
THANKS
感谢观看
案例二：医疗诊断分类
数据集
医疗诊断数据集包含了1452 条样本，每个样本有11个特征，目标变量为是否患有某
种疾病。
算法应用
使用C4.5算法构建决策树模型，对数据进行训练和测试，评估模型的准确率、召回
率和F1分数等指标。
结果分析
通过决策树模型，可以辅助医生进行疾病诊断，提高诊断的准确性和效率。
处理连续属性和缺失值的方法优化
• C4.5算法在处理连续属性和缺失值时采用了一些简单的策略，如将连续属性离散化或忽略缺失值。这些策略可能导致决策树无法充分利用数据中的信息。因此，一些研究者提出了更复杂的方法来处理连续属性和缺失值，如使用插值或回归方法来处理连续属性，以及使用特殊标记或填充值来处理缺失值。这些方法可以提高决策树对连续属性和缺失值的处理能力，从而提高模型的分类准确率。
2
C4.5算法采用了信息增益率、增益率、多变量增益率等更加复杂的启发式函数，提高了决策树的构建精度和泛化能力。
3
C4.5算法还引入了剪枝策略，通过去除部分分支来避免过拟合，提高了决策树的泛化性能。
决策树C4.5算法的应用场景
数据挖掘
C4.5算法广泛应用于数据挖掘领域，用于分类、回归和聚类

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

entropy(p,q,r)=entropy(p,q+r)+(q+r)*entropy(q/(q+r),r/(q+r))
我们需要一种度量来表示节点的纯度，并需要这种度量告诉我们根据一个变量的属性值将一个不纯的节点上的数据划分到其子女后，纯度提高了多少。最为广泛使用的度量是信息值(熵)。（以天气数据为例）
根节点
叶子节点
决策节点
叶子节点
叶子节点
步骤：
1.决策树的生成：由训练样本数据集（根据历史
数据生成、有一定综合程度的用于数据分析处
理的数据集）生成
2.决策树的剪枝：采用新的样本数据集（测试数
据集或者训练数据修剪集）检验决策树生成过
程中产生的初步规则，将影响预测准确性的分
支剪除。
ID3决策树算法描述
c
·· m · yes
n no
yes
由此可见，采用度量信息增益的方法会倾向于选择拥有较多可能属性值的属性。为了弥补这一缺陷，一个称之为增益率(gain ratio) 的度量修正被广范的采用。
•
上例所有的计数值均为1，因此分裂信后的信息值是： info([1,…,1])=-1/14 x log (1/14 )x 14=logl4(3.807位) 分支越多，该值越大。具有较高分支的属性，该固有的信息值较高。增益率，由信息增益除以该固有信息值得到。例：得到标志码的增益率为 0.940 / 3.807 = 0.247
yes yes yes no no no no
yes yes yes yes yes yes no
分别计算它们的信息增益为： gain(temperature)=0.029 bit gain(humidity)=0.152 bit gain(wind)=0.048 bit
将这些属性的信息增益的值进行比较，信息增益最大的属性节点将作为决策树的根节点。所以我们选择outlook属性作为根节点，它是唯一一个获得了全纯子节点，这就为超越其他所有属性赢得了相当大的优势。而湿度属性是第二个最佳选择，因为它产生了一个几乎是全纯且较大的子节点。根节点确定了，接着继续进行这种递归过程。下面是outlook属性值为sunny时的节点进一步分支的可能性：
• 1.试探性地选择一个属性放置在根节点，并对该属性的每个值产生一个分支。 • 2.分裂根节点上的数据集，并移到子女节点，产生一棵局部树。 • 3.对该划分的信息增益进行计算。 • 4.对其他属性重复该过程。 • 5.每个用于划分的属性产生一棵局部树。 • 6.根据局部树的信息增益值，选择一棵增益最大的属性的局部树。 • 7.对选定的局部树的每个子女节点重复以上1-6步。 • 8.这是一个递归过程。如果一个节点上的所有实例都具有相同的类，则停止局部树的生长。
outlook sunny temperature hot no no mild yes no cool yes sunny sunny humidity high no no no normal yes yes false yes no no outlook outlook
wind
true yes no
outlook sunny humidity high no normal yes rainy overcast yes false yes wind true no
天气数据的决策树
ID3算法的不足及改进
当一些属性拥有的可能值得数量很大，从而使分支的路径增加，产生出很多子节点时，计算信息增益就会出现一个问题。用一个极端的例子来说明：当数据集的某个属性对于每一个实例存在一个不同属性值时，比如，一个标志码属性。
多属性是连续的，不能够用一个确定的标准来对其进行划分。C4.5 使用下面的一系列处理过程来对连续的属性划分成离散的属性，进而
达到能够建立决策树的目的。
• C4.5对ID3进行了一系列改进。这些改进包括处理数值属性、残缺值、后剪枝的方法。（将训练数据增益率来选择属性 • (2)可以处理连续数值型属性
在选择某节点上的分枝属性时，对于离散型描述属性，C4.5的处理方法与ID3相同，按照该属性本身的取值个数进行计算；对于某个连续性描述属性Ac，假设在某个结点上
yes yes yes yes
因此树桩所获得的信息增益为： gain(outlook)=info([9,5])-info([2,3],[4,0],[3,2]) 在叶子节点上的yes和no类的实例数量 =0.940-0.693=0.247 bit 分别是[2,3]、[4,0]、[3,2]，因此，这些节点上的信息值分别是： info([2,3])=entropy(2/5,3/5)=0.971 bit info([4,0])=entropy(1,0)=0 bit info([3,2])=entropy(3/5,2/5)=0.971 bit
天气数据
1 2 3 4 5 6 7 8 9 10 11 12 13 14
outlook sunny sunny overcast rainy rainy rainy overcast sunny sunny rainy sunny overcast overcast rainy temperature hot hot hot mild cool cool cool mild cool mild mild mild hot mild humidity high high high high normal normal normal high normal normal normal high normal high windy FALSE TRUE FALSE FALSE FALSE TRUE TRUE FALSE FALSE FALSE TRUE TRUE FALSE TRUE play no no yes yes yes no yes no yes yes yes yes yes no
temperature、humidity、wind属性的树桩
temperature hot yes yes no no cool mild yes yes yes yes no no yes yes yes no high humidity normal false yes yes yes yes yes yes no no wind true yes yes yes no no no
再返回之前的天气数据的树桩：属性outlook将数据集分裂成3个子集，规模分别为5,4,5，因此不考虑子集中所包含的类别，产生一个内在的信息值： info([5,4,5])=1.577 bit 得到outlook属性的增益率为：(0.940-0.693)/1.577=0.157 类似的可以计算出其他属性树桩的增益率： temperature属性的增益率为：(0.940-0.911)/info(4,6,4)=0.019 humidity属性的增益率为：(0.940-0.788)/info(7,7)=0.152 wind属性的增益率为：(0.940-0.693)/1.577=0.049
• 我们希望从上面的实例中找出者若干条规则，使得能够对这些实例的类做出判断（理想情况下）（举例） • if outlook=sunny and =high then play =no • if humidity= normal then play=yes 第二条规则错分了一个实例样本
决策节点： 1.最上面的节点称为根节点，是整个决策树的开始。 2.每个节点子节点的个数与决策树在用的算法有关。（二叉树、多叉树）分支：判断过程，要么是新的决策节点，要么是叶子树叶:树的结尾，每个叶子代表一个类别
选择属性作为根
产生分支
计算信息增益
选择max增益
是数据进一步分裂？否结束算法流程图
信息值（熵）、信息增益的概念
熵：
entropy（p1,p2,...,pn）=-p1logp1-p2logp2••••-pnlogpn 使用负号是因为分数p1,p2,...,pn的对数值是负数，而熵是一个正数。熵是以位bit位单位的，公式里的 p1,p2,...,pn他们的和为1。
标志码 a b c d e f g h i j k l m n outlook sunny sunny overcast rainy rainy rainy overcast sunny sunny rainy sunny overcast overcast rainy temperature hot hot hot mild cool cool cool mild cool mild mild mild hot mild humidity high high high high normal normal normal high normal normal normal high normal high windy FALSE TRUE FALSE FALSE FALSE TRUE TRUE FALSE FALSE FALSE TRUE TRUE FALSE TRUE play no no yes yes yes no yes no yes yes yes yes yes no
对标志码属性进行分裂而产生的树桩如下，这个属性值的类别所需的信息量是： info([0,1])+info([0,1])+info([1,0])+......+info([1,0])+info([0,1])= 0 bit
标志码
标志码属性的信息增益就是在根节点上的信息量 a b 即：gain(标志码)=info([9,5])=0.940 bit它比在其他任何属性上获得的信息增益值大，毫无疑问 no no 标志码将被选为分裂属性，但是在标志码属性上的分支对预测未知实例的类别没有任何帮助，也没能够描述任何有关决策的结构。
•
由此可以看出，在上述4个属性中outlook属性的结果依然排在首位，