第9章_决策树算法

合集下载

决策树算法介绍（DOC）

决策树算法介绍（DOC）3.1 分类与决策树概述3.1.1 分类与预测分类是⼀种应⽤⾮常⼴泛的数据挖掘技术，应⽤的例⼦也很多。

例如，根据信⽤卡⽀付历史记录，来判断具备哪些特征的⽤户往往具有良好的信⽤；根据某种病症的诊断记录，来分析哪些药物组合可以带来良好的治疗效果。

这些过程的⼀个共同特点是：根据数据的某些属性，来估计⼀个特定属性的值。

例如在信⽤分析案例中，根据⽤户的“年龄”、“性别”、“收⼊⽔平”、“职业”等属性的值，来估计该⽤户“信⽤度”属性的值应该取“好”还是“差”，在这个例⼦中，所研究的属性“信⽤度”是⼀个离散属性，它的取值是⼀个类别值，这种问题在数据挖掘中被称为分类。

还有⼀种问题，例如根据股市交易的历史数据估计下⼀个交易⽇的⼤盘指数，这⾥所研究的属性“⼤盘指数”是⼀个连续属性，它的取值是⼀个实数。

那么这种问题在数据挖掘中被称为预测。

总之，当估计的属性值是离散值时，这就是分类；当估计的属性值是连续值时，这就是预测。

3.1.2 决策树的基本原理1.构建决策树通过⼀个实际的例⼦，来了解⼀些与决策树有关的基本概念。

表3-1是⼀个数据库表，记载着某银⾏的客户信⽤记录，属性包括“姓名”、“年龄”、“职业”、“⽉薪”、......、“信⽤等级”，每⼀⾏是⼀个客户样本，每⼀列是⼀个属性（字段）。

这⾥把这个表记做数据集D。

银⾏需要解决的问题是，根据数据集D，建⽴⼀个信⽤等级分析模型，并根据这个模型，产⽣⼀系列规则。

当银⾏在未来的某个时刻收到某个客户的贷款申请时，依据这些规则，可以根据该客户的年龄、职业、⽉薪等属性，来预测其信⽤等级，以确定是否提供贷款给该⽤户。

这⾥的信⽤等级分析模型，就可以是⼀棵决策树。

在这个案例中，研究的重点是“信⽤等级”这个属性。

给定⼀个信⽤等级未知的客户，要根据他/她的其他属性来估计“信⽤等级”的值是“优”、“良”还是“差”，也就是说，要把这客户划分到信⽤等级为“优”、“良”、“差”这3个类别的某⼀类别中去。

机器学习--决策树算法（ID3C4.5）

机器学习--决策树算法（ID3C4.5）在⽣活中，“树”这⼀模型有很⼴泛的应⽤，事实证明，它在机器学习分类和回归领域也有着深刻⽽⼴泛的影响。

在决策分析中，决策树可以明确直观的展现出决策结果和决策过程。

如名所⽰，它使⽤树状决策模型。

它不仅仅是在数据挖掘中⽤户获取特定⽬标解的策略，同时也被⼴泛的应⽤于机器学习。

如何使⽤树来表⽰算法为此，我们考虑使⽤泰坦尼克号数据集的⽰例，以预测乘客是否会⽣存。

下⾯的模型使⽤数据集中的3个特征/属性/列，即性别，年龄和SIBSP（配偶或⼉童的数量）。

这是⼀棵体现了⼈性光辉的决策树。

树的形状是⼀棵上下颠倒的决策树，叶⼦节点在下，根节点在上。

在图像中，⿊⾊中的粗体⽂本表⽰条件/内部节点，基于树分成分⽀/边缘。

不再分裂的分⽀结束是决策/叶⼦，在这种情况下，乘客是否被死亡或幸存，分别表⽰为红⾊和绿⾊⽂本。

虽然，⼀个真实的数据集将有很多功能，这只是⼀个更⼤的树中的部分分⽀，但你不能忽略这种算法的简单性。

该特征重要性是明确的，可以轻易查看决策关系。

该⽅法更常见于来⾃数据的学习决策树，并且在树上被称为分类树，因为⽬标是将乘客分类为幸存或死亡，上⾯所展⽰的决策树就是分类树。

回归树以相同的⽅式表⽰，例如⽤于预测房⼦价格的连续价值。

通常，决策树算法被称为CART或分类和回归树。

那么，算法⽣成的背后发⽣了什么呢？如何⽣成⼀个决策树取决于选择什么特征和在何种情况下进⾏分裂，以及在什么时候停⽌。

因为⼀棵树通常是随意⽣长的，你需要修剪它，让它看起来漂亮（研究如何⽣成决策树）。

ID3算法ID3算法⽣成决策树ID3算法（Iterative Dichotomiser 3）是决策树⽣成算法的⼀种，基于奥卡姆剃⼑原理(简约原则) 1。

是Ross Quinlan发明的⼀种决策树算法，这个算法的基础就是上⾯提到的奥卡姆剃⼑原理，越是⼩型的决策树越优于⼤的决策树，尽管如此，也不总是⽣成最⼩的树型结构，⽽是⼀个启发式算法。

决策树算法公式

决策树算法公式
决策树算法公式是机器学习中常用的分类算法，通过构建一个树形结构来实现对数据集的分类。

决策树的主要思路是将数据集分成若干个小部分，每个小部分对应一条分支，直到达到预定的终止条件。

根据数据集的属性特征，决策树算法会选择最优的属性来进行划分，从而得到最优的分类效果。

决策树算法的主要公式包括：
1.信息增益公式：$IG(D, A) = H(D) - H(D|A)$
其中，$H(D)$表示数据集$D$的经验熵，$H(D|A)$表示在属性$A$的条件下，数据集$D$的经验条件熵。

信息增益越大，说明使用属性$A$进行划分能够得到更好的分类效果。

2.基尼系数公式：$Gini(D) =
sum_{k=1}^{|mathcal{Y}|}sum_{k'
eq k}p_kp_{k'} = 1 - sum_{k=1}^{|mathcal{Y}|}p_k^2$ 其中，$|mathcal{Y}|$表示数据集$D$中不同类别的个数，
$p_k$表示数据集$D$中属于第$k$个类别的样本占总样本数的比例。

基尼系数越小，说明使用属性$A$进行划分能够得到更好的分类效果。

通过使用信息增益或基尼系数等公式，决策树算法可以自动选择最优的属性进行划分，从而得到最优的分类效果。

- 1 -。

决策树的算法

决策树的算法一、什么是决策树算法？决策树算法是一种基于树形结构的分类和回归方法，其本质是将训练数据集分成若干个小的子集，每个子集对应一个决策树节点。

在决策树的生成过程中，通过选择最优特征对数据进行划分，使得各个子集内部的样本尽可能属于同一类别或者拥有相似的属性。

在预测时，将待分类样本从根节点开始逐层向下遍历，直到到达叶节点并输出该节点所代表的类别。

二、决策树算法的基本流程1. 特征选择特征选择是指从训练数据集中选取一个最优特征用来进行划分。

通常情况下，选择最优特征需要考虑两个因素：信息增益和信息增益比。

2. 决策树生成通过递归地构建决策树来实现对训练数据集的分类。

具体实现方式为：采用信息增益或信息增益比作为特征选择标准，在当前节点上选择一个最优特征进行划分，并将节点分裂成若干个子节点。

然后对每个子节点递归调用上述过程，直到所有子节点都为叶节点为止。

3. 决策树剪枝决策树剪枝是指通过去掉一些无用的分支来降低决策树的复杂度，从而提高分类精度。

具体实现方式为：先在训练集上生成一棵完整的决策树，然后自底向上地对内部节点进行考察，若将该节点所代表的子树替换成一个叶节点能够提高泛化性能，则将该子树替换成一个叶节点。

三、常见的决策树算法1. ID3算法ID3算法是一种基于信息熵的特征选择方法。

其核心思想是在每个节点上选择信息增益最大的特征进行划分。

由于ID3算法偏向于具有较多取值的特征，因此在实际应用中存在一定局限性。

2. C4.5算法C4.5算法是ID3算法的改进版，采用信息增益比作为特征选择标准。

相比于ID3算法，C4.5算法可以处理具有连续属性和缺失值的数据，并且生成的决策树更加简洁。

3. CART算法CART（Classification And Regression Tree）算法既可以用来进行分类，也可以用来进行回归分析。

其核心思想是采用基尼指数作为特征选择标准，在每个节点上选择基尼指数最小的特征进行划分。

决策树计算公式

决策树计算公式
决策树是一种监督学习算法，用于解决分类问题。

其计算公式如下：
1.特征选择：根据某个特征的信息增益、信息增益比、基尼系数等指标，选择最优的特征进行划分。

2.划分节点：根据选择的最优特征，将数据集划分成多个子集或子节点。

3.递归构建：对每个子节点，重复步骤1和步骤2，直到满足终止条件（例如，节点只含有一类样本，或者达到最大深度等）。

4.终止条件：可以是以下情况之一：
-节点只包含一类样本，无需继续划分；
-达到预设的最大深度；
-无法选择一个特征进行划分。

5.样本分类：根据叶子节点的类别标签进行分类。

需要注意的是，决策树的计算过程是一个递归的过程，通过选择最优特征进行划分，将数据集分成更小的子集，最终得到树形结构的分类模型。

决策树还有其他一些拓展形式，例如随机森林、梯度提升树等。

这些拓展形式在计算公式上可能会有一些差异，但核心的思想和基本的计算过程与原始决策树相似。

Chap9_决策树

Boosting技术
Boosting技术用于机器学习中的有指导学习算法，包括建模和投票两个阶段建模阶段建立第一个模型时，训练样本集中的每个观测有相同的权重，即每个观测对模型的影响程度是相同的。模型建立后，需要调整各个观测的权重，对第一个模型未能正确预测的样本给予较高的权重，正确预测的样本给以较低的权重准备建立第二个模型，根据权重重新构造训练样本集，权重越大的样本出现在训练样本集中的可能性越高。因此，第二个模型重点关注的是第一个模型未能正确预测的样本同理，准备建立第三个模型，着重考虑第二个模型未能正确预测的样本。依次进行下去。投票阶段不同的模型具有不同的权重，权重的大小与模型的误差成反比。误差较小的模型有较高的投票权重，误差较大的模型有较低的投票权重权重越高的模型，对决策结果的影响越大
无
无无有有无无无有有无有
Yes
Yes Yes No Yes No Yes Yes Yes Yes Yes No
决策树的算法
C5.0：以信息增益率为标准确定决策树的分枝准则，寻找最佳分组变量和分割点。 CART：以基尼系数和方差确定最佳分组变量和分割点，目标变量可以是分类型也可以是数值型，只能建立二叉树。 CHAID：从统计显著性角度确定当前最佳分组变量和分割点。 QUEST：最佳分组变量和分割点的确定方式吸纳了许多统计学的经典方法。
第九章决策树
第九章决策树
9.1 9.2 9.3 9.4 9.5 决策树算法基本原理 C5.0算法及应用分类回归树算法（CART）及应用 CHAID算法及应用 QUEST算法及应用
9.1 决策树算法基本原理
决策树最早源于人工智能的机器学习技术，用以实现数据内在规律的探究和新数据对象的分类预测。其核心算法较为成熟，很早就被各类智能决策系统所采纳。由于决策树算法具有出色的数据分析能力和直观易懂的结果展示等特点，因此被纳入数据挖掘范畴，成为备受广大数据挖掘用户青睐、使用最为广泛的分类预测算法之一。

决策树(完整)

无缺失值样本中在属性上取值的样本所占比例
无缺失值样本中在属性上取值的样本所占比例
ቤተ መጻሕፍቲ ባይዱ
谢谢大家！
举例：求解划分根结点的最优划分属性
根结点的信息熵：
用“色泽”将根结点划分后获得3个分支结点的信息熵分别为：
属性“色泽”的信息增益为：
若把“编号”也作为一个候选划分属性，则属性“编号”的信息增益为：
根结点的信息熵仍为：
用“编号”将根结点划分后获得17个分支结点的信息熵均为：
则“编号”的信息增益为：
三种度量结点“纯度”的指标：信息增益增益率基尼指数
1. 信息增益
香农提出了“信息熵”的概念，解决了对信息的量化度量问题。香农用“信息熵”的概念来描述信源的不确定性。
信息熵
信息增益
一般而言，信息增益越大，则意味着使用属性a来进行划分所获得的“纯度提升”越大。决策树算法第8行选择属性
著名的ID3决策树算法
远大于其他候选属性信息增益准则对可取值数目较多的属性有所偏好
2. 增益率
增益率准则对可取值数目较少的属性有所偏好著名的C4.5决策树算法综合了信息增益准则和信息率准则的特点：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。
3. 基尼指数
基尼值
基尼指数
著名的CART决策树算法
过拟合：学习器学习能力过于强大，把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，导致泛化性能下降。欠拟合：学习器学习能力低下，对训练样本的一般性质尚未学好。
过拟合无法彻底避免，只能做到“缓解”。
不足：基于“贪心”本质禁止某些分支展开，带来了欠拟合的风险
预剪枝使得决策树的很多分支都没有“展开”优点：降低过拟合的风险减少了训练时间开销和测试时间开销

决策树算法原理(三种最优属性划分方法)

决策树算法原理（三种最优属性划分方法）决策树是一种用于分类和回归的机器学习算法，其原理是基于历史数据进行学习，并通过一系列判断条件将数据集划分为不同的类别或者预测目标值。

决策树的主要思想是通过一系列属性值来对数据进行逐层划分，直到达到终止条件为止。

在每一次划分时，决策树需要选择最优的属性来进行划分，以使得划分后的数据纯度最高或者信息增益最大。

三种最优属性划分方法包括信息增益、增益率和基尼指数。

1.信息增益：信息增益是用来衡量划分后数据集纯度提高的程度。

它基于信息论中的熵的概念，计算的是划分前后数据集的信息熵之差。

信息熵可以衡量数据集的不确定性，即数据集中的混乱程度。

在选择划分属性时，我们希望划分后的数据集的不确定性最小，即使得信息增益最大。

2.增益率：增益率是信息增益的一种改进，用于解决信息增益在选择具有较多取值的属性上的偏好问题。

增益率通过考虑属性的分裂信息来衡量属性的纯度提升程度。

分裂信息反映了数据集分裂后的数据集的不确定性。

3.基尼指数：基尼指数是通过测量在给定数据集中随机选择一些样本后，错误分类该样本的概率。

基尼指数可以用于二分类或多分类问题。

在选择划分属性时，我们希望划分后的数据集的基尼指数最小，即使得纯度提高的程度最大。

以上三种最优属性划分方法在决策树学习的过程中都有着重要的应用。

在实际应用中，决策树算法可以通过先验知识或者经验来选择最优属性划分方法。

此外，由于决策树算法在高维数据上容易过拟合的问题，可以通过剪枝等技术来避免过拟合。

决策树算法的优势在于易于理解和解释，但也存在局限性，比如对于处理缺失数据、处理连续数据和处理类别不平衡等问题仍然存在挑战。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

9.2.2.1 C4.5的分裂属性选择度量
ID系列的算法为什么会产生归纳偏置呢？归纳偏置是一系列前提，这些前提与训练数据一起演绎论证未来实例分类。如果给定一个训练数据集，那么通常有很多决策树与这些样例一致。所以，要描述ID系列算法的归纳偏置，应找到它从所有一致假设中选择一个的根据。
第9章决策树算法
SplitI A ( D) = ∑
j =1 v
er D
× log 2 (
er D
)
第9章决策树算法
25
9.2.2.1 C4.5的分裂属性选择度量
增益比率的公式如下所示：
Gain( A) GainRatio( A) = SplitI ( A)
第9章决策树算法
26
9.2.2.2 C4.5对连续数据的处理
只要生成了决策树后，就可以把树转换成一个IF-THEN规则的集合。当然，每种算法生成的决策树都可以转换成相应的if-then规则，C4.5算法处理规则与其他算法不同在于它把规则存储在一个二维数组中，每一行都代表着树中的一个规则，即从树根到叶子之间的一个路径 .
第9章决策树算法
30
9.2.3 CART算法
第9章决策树算法
24
9.2.2.1 C4.5的分裂属性选择度量
为了避免这个偏置，弥补ID系列算法的不足就要舍弃信息增益这个度量而选择别的决策属性作为度量标准。Quinlan在他1986年中的论文中提出了一种可以使用的度量标准：增益比率。增益比率通过加入一个被称为分裂信息（split information）的项来惩罚类似Date这样的属性，分裂信息用来衡量属性分裂数据的广度和均匀性，它由如下公式所示：
第9章决策树算法 31
9.2.3 CART算法
Gini指标主要是度量数据划分或训练数据集D的不纯度为主，系数值的属性作为测试属性，Gini值越小，表明样本的“纯净度” 越高。Gini指标定义为如下公式：
Gini ( D ) = 1 ∑ pi2
i =1
m
第9章决策树算法
32
9.2.3 CART算法
ID3算法最初的定义是假设属性值是离散值，但在实际环境中，有很多属性是连续的，不能够用一个确定的标准来对其进行划分。 C4.5使用下面的一系列处理过程来对连续的属性划分成离散的属性，进而达到能够建立决策树的目的。
第9章决策树算法
27
9.2.2.2 C4.5对连续数据的处理
Step1 根据训练数据集D中各个属性的值对该训练数据集进行排序； Step2 利用其中各属性的值对该训练数据集动态地进行划分； Step3 在划分后的得到的不同的结果集中确定一个阈值，该阈值将训练数据集数据划分为两个部分； Step4 针对这两边各部分的值分别计算它们的增益或增益比率，以保证选择的划分使得增益最大。
工作过程：
决策树分类模型的工作过程图
第9章决策树算法 6
9.1 决策树算法原理
定义 9.1 给定一个训练数据集D＝，其中每个实例，称为例子，训练数据集中包含以下属性A=。同时给定类别集合C。对于训练数据集D，决策树决策树是指具有以下性质的树：决策树每个内部节点都被标记一个属性Ai。每个弧都被标记一个值，这个值对应于相应父结点的属性。每个叶节点都被标记一个类Cj。
第9章决策树算法 7
9.1 决策树算法原理
定义9.2 分裂准则定义为在决策树算法中定义将训练数据集D中的元组划分为个体类的最好的方法与策略，它告诉我们在节点N上测试哪个属性合适，如何选择测试与测试的方法，从节点N上应该生长出哪些分支。定义9.3 分裂属性分裂属性Xi定义为决策树中每个内定义部节点都对应的一个用于分裂数据集的属性。Xi A= { A1 , A2 ,L , Ah }
第9章决策树算法
11
9.1 决策树算法原理
X ∈Y
i
颜色 ∈ { 红 , 绿 }
图9-4
按照分裂子集划分而成的决策树（只能是二叉树）图与相关的具体例子图
第9章决策树算法
12
9.1 决策树算法原理
目前主要使用如下几个量化评估标准 (1)预测准确性 (2)模型强健性 (3)描述的简洁性 (4)计算复杂性 (5)处理规模性
23
9.2.2.1 C4.5的分裂属性选择度量
ID系列的搜索策略为：（1）优先选择较短的树而不是较长的；（2）选择那些信息增益高的属性离根节点较近的树。结论：ID系列算法的归纳偏置是因为它在选的时候较短的树比较长的树优先所产生的，也就是那些信息增益高的属性更靠近的根节点将会有优先生成树的特权。
由于二叉树不易产生数据碎片，精确度往往也会高于多叉树，所以在CART算法中，统计学家们采用了二元划分，在分支节点上进行Gini值的测试，如果满足一定纯度则划分到左子树，否则划分到右子树，最终生成一棵二叉决策树。在只有二元分裂的时候，对于训练数据集D中的属性A将 D分成的D1和D2，则给定划分D的Gini指标如下公式所示：
第9章决策树算法
18
9.2.1 ID3算法
假设训练数据集D中的正例集PD和反例集ND的大小分别为p和n，则ID3基于下面两个假设给出该决策树算法中信息增益的定义，因为信息是用二进制编码的，所以在下面的公式定义中都用以2为底的对数。（1）在训练数据集D上的一棵正确决策树对任意例子的分类概率同D中正反例的概率一致；（2）一棵决策树能对一个例子做出正确类别判断所需的信息量如下公式所示：
设训练数据集D一共有m类样例，每类样例数为： pi , i = 1,2,L, m 。同样以属性A作为决策树的根，具有v个值 v1 , v 2 , L v v ，它将D分为v 个子集 {e1 , e2 ,L, ev } ，假设子集中任意元组属于类C的概率 p i 用表示，并用 Ci ,D / D 估计。那么，该子集的信息量定义如下所示：
第9章决策树算法 4
9.1 决策树算法原理
传统的数据分类操作通常有以下两个步骤: 模型训练阶段：根据给定的训练集，找到合适的映射函数H:→C的表示模型。使用上一步训练完成的函数模型预测数据的类别，或利用该函数模型，对数据集中的每一类数据进行描述，形成分类规则。
第9章决策树算法
5
9.1 决策树算法原理
第9章决策树算法
13
9.2 常用决策树算法
ID3算法
ID3是Quinlan于1986年提出的，是机器学习中一种广为人知的一个算法，它的提出开创了决策树算法的先河，而且是国际上最早最有影响的决策树方法，在该算法中，引入了信息论中熵的概念，利用分割前后的熵来计算信息增益，作为判别能力的度量。
I (er ) = ∑ p i log 2 ( p i )
那么以A为根分类后所需的信息期望如下面公式所示：
i =1 m
E ( A) = ∑
j =1
v
er D
× I (e r )
21
第9章决策树算法
9.2.2 C4.5算法
（1）分裂（2）连续数据（3）缺失数据（4）规则
第9章决策树算法
22
第9章决策树算法
14
9.2.1 ID3算法
定义9.6 信息熵定义自信息量只能反映符号的不确定性，而信息熵可以用来度量整个信源X整体的不确定性。设某事物具有n种相互独立的可能结果(或称状态)：x1 , x 2 , L, x n ，每一种结果出现的概率分别为 P( x1 ), P( x2 ),L P( xn ), 且有：（9.1） 9.1 ∑ p(x ) = 1
第9章决策树算法 8
9.1 决策树算法原理
定义9.4 如果Xi是连续属性，那么分裂准则定义的形式为Xi，其中，就称为节点n的分裂点分裂点。分裂点定义9.5 如果Xi是离散属性，那么的形式为，定义其中，就称为节点n的分裂子集分裂子集。分裂子集注意：注意：分裂准则与分裂属性、分裂点、分裂子集并不等同，它们是四个不同的概念，并且分裂子集分裂点分裂属性分裂准则
第9章决策树算法 16
9.2.1 ID3算法
Quinlan的首创性工作主要是在决策树的学习算法中第一次引入了信息论中的互信息（称之为信息增益），以之作为属性选择的标准，并且将建树的方法嵌入在其中，其核心是在决策树的各级节点上选择属性，用信息增益作为属性选择标准
第9章决策树算法
17
9.2.1 ID3算法
第9章决策树算法
9
9.1 决策树算法原理
将上面的定义结合实际的决策树例子可得决策树图如下图9-1，图9-2，图9-3所示，图中设X为分裂属性，是属性X的已知值。
图9-2 按照分裂点划分而成的决策树图与相关的具体例子图
第9章决策树算法 10
9.1 决策树算法原理
图9-3 按照分裂子集划分而成的决策树图与相关的两个具体例子图
E ( A) = ∑
i =1
v
p i + ni I ( p i , ni ) p+n
因此，以A为根的信息增益如下公式所示：
gain ( A) = I ( p, n) E ( A)
第9章决策树算法
20
9.2.1 ID3算法
上面给出的ID3中的信息论的相关定义主要是在两类分类问题的前提下，下面给出将其扩展到多类后的相关定义描述。
第9章决策树算法
3
9.1 决策树算法原理
优点：使用者不需要了解很多背景知识，只要训练事例能用属性→结论的方式表达出来，就能用该算法学习；决策树模型效率高，对训练集数据量较大的情况较为适合；分类模型是树状结构，简单直观，可将到达每个叶结点的路径转换为IF→THEN形式的规则，易于理解；决策树方法具有较高的分类精确度。