决策树分类器课件

合集下载

数据挖掘-决策树PPT资料48页

info([2,3],[4,0],[3,2])=0.693位计算信息增益 info([9,5])- info([2,3],[4,0],[3,2]) =
0.247位选择获得最大信息增益的属性进行划分
划分过程的终止
当所有叶节点都是纯的。
因训练集包含两个具有相同属性集，但具有不同类的实例。
ID3代表归纳决策树(induction decision—tree)版本 3，它是一种用来由数据构造决策树的递归过程。
lD3算法的步骤
1. 试探性地选择一个属性放置在根节点，并对该属性的每个值产生一个分支。
2. 分裂根节点上的数据集，并移到子女节点，产生一棵局部树(partial tree)。
决策树作用(2)
决策树的主要作用是揭示数据中的结构化信息。决策树汇总了数据，并揭示了其中隐藏的结构：
规则：
如果血压高，则采用药物A。
如果血压低，则采用药物B。
如果血压正常。年龄小于或等于 40，则采用药物 A，否则采用药物B。
准确率、支持度、错误率
该例得到的规则和对应的准确率和支持度是：
如果血压高，则采用药物A(准确率100％，支持度 3／12)。
如果血压低，则采用药物B(准确率100％，支持度 3／12)。
如果血压正常并且年龄小于或等于40，则采用药物A(准确率100％，支持度3／12)。
如果血压正常并且年龄大于40。则采用药物B(准确率100％，支持度3／12)。
3. 对该划分的质量进行评估。 4. 对其他属性重复该过程。 5. 每个用于划分的属性产生一棵局部树。 6. 根据局部树的质量，选择一棵局部树。 7. 对选定的局部树的每个子女节点重复以上1-6步。 8. 这是一个递归过程。如果一个节点上的所有实例

决策树--PPT

母亲：26。女儿：长的帅不帅？ (长相) 母亲：挺帅的。女儿：收入高不？ (收入情况) 母亲：不算很高，中等情况。女儿：是公务员不？ (是否公务员) 母亲：是，在税务局上班呢。女儿：那好，我去见见。
1.1.2 决策树与if-then规则
• 由决策树的根结点到叶结点的每一条路径构建一条规则； • 路径上内部结点的特征对应着规则的条件，而叶结点的类对应着规则的结论。 • If-then规则集合的一重要性质：互斥并且完备
• （3）否则，计算A中各特征对D的信息增益，选择信息增益最大的特征�� ;
• （4）如果�� 的信息增益小于阈值ε，则置T为单结点树，并将D中实例数最大的类�� 作为该结点的类标记，返回T; • （5）否则，对�� 的每一个可能值�� , 依�� =�� 将D分割为若干个非空子集�� , 将�� 中实例数最大的类作为标记，构建子结点，由结点及其子结点构成树T，返回T; • （6）对第�� 个子结点，以�� 为训练集，以�� − {�� }为特征集，递归地调用步(1)~(5),得到子树 �� , 返回�� .
决策树学习算法的特点
决策树学习算法的最大优点是，它可以自学习。在学习的过程中，不需要使用者了解过多背景知识，只需要对训练实例进行较好的标注，就能够进行学习。显然，它属于有监督学习。从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则。
决策树学习的主要算法
建立决策树的关键，即在当前状态下选择哪个

高中信息技术浙教版：决策树教学课件(共27张PPT)

第五步：使用Python库测试结果可视化
第一步：收集数据
第三步：向Python导入数据
第四步：使用Python库sklearn训练
第二步：分割数据
课堂小结
一、2017年度重点工作项目完成情况
1 决策树分类概念 2 构建决策树
3 举例说明：鸢尾花分类
备未用来：的深深度度学学习习：人工智能
展望与挑战
“温度”是多余的特点
如何判断某一天游客是否会来游乐场游玩？
天气、温度、湿度
2.4.1决策树分类概念
建立决策树的过程选择一个属性值，基于这个属性对样本集进行划分，得到子集划分结果。
再选择其他属性，对得到的划分结果进行划分，直至最后所得划分结果中每个样本为同一个类别。
2.4.2构建决策树
构建决策树来解决实际生活中的问题时，需按照一定的顺序选择划分属性。通常，性能好的决策树随着划分不断进行，决策树分支节点的“纯度” 会越来越高，即其所包含样本尽可能属于相同类别。为了逐次选出最优属性，可以采用信息增益(informationgain)这一指标。
2.4.2构建决策树
练一练： 1.计算表2.4.1中温度高低、湿度大小、风力强弱三个气象特点的信息增益。
思考：将天气状况、温度高低、湿度大小、风力强弱作为分支点来构造图2.4.1决策
树时，是否信息增益大的气象特点离根节点越近?
【练一练】：如下表所示，每朵鸢尾花有萼片长度、萼片宽度、花瓣长度、花瓣宽度四个
4个属性 1个标签 1 Label 4 Features 用来标记种类
序号 Index 0-149，一共150个样本
基于鸢尾花数据集
例：鸢尾花数据集是常用的分类实验数据集，由Fisher1936收集整理。 Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含 150个数据样本，分为3类，每类50个数据，每个数据包含4个属性。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Sentosa 0，Versicolor 1，Virginia 2）三个种类中的哪一类。

决策树和决策规则概述课件

例如：一个改进了的C4.5决策树的方法。数据集见表7-2。
该例有14个样本，属性1有一个丢失值，用“?”表示。只有13个样本数据完整。分区前的熵是： Info(T)=-8/13log2(8/13)-5/13log2(5/13) =0.961属性1检验的信息： infox1(T)=5/13(-2/5log2(2/5)-3/5log2(3/5)) +3/13(-3/3log2(3/3)-0/3log2(0/3)) +5/13(-3/5log2(3/5)-2/5log2(2/5)) =0.747
对根节点下的T3子集进行同样的计算，按属性3=真和属性3=假检验，产生两个叶节点。图7-5表示数据库T的最终决策树。
另外，决策树可以用可执行代码（或伪代码）的形式表示。图7-6用伪代码给出了上面例子的决策树。
增益标准对具有许多输出的检验有严重的偏差，根据info(S)的定义，指定一个附加的参数：这表示通过把集T分区成n个子集Ti而生成的潜在信息。现在，定义一个新的增益标准： Gain-radio(X)=gain(X)/Split-info(X)
对应属性2的检验3(属性2≤80和属性2＞80)的信息增益计算： infox3(T)=9/14(-7/9log2(7/9)-2/9log2(2/9)) +5/14(-2/5log2(2/5)-3/5log2(3/5)) =0.837 相应的增益: Gain(x3)=0.94-0.837=0.103属性1的增益最高，选择该属性进行首次分区。每个属性值具有一个分枝，产生3个分枝，如图7-4所示.
7.1 决策树
从数据中生成分类器的一个特别有效的方法是生成一个决策树。它是一种基于逻辑的方法，通过一组输入-输出样本构建决策树的有指导学习方法。决策树包含属性已被检验的节点，一个节点的输出分枝和该节点的所有可能的检验结果相对应。

分类决策树_ID3算法(精华-理论加实例)PPT课件

A2
A3
类
应用模型
1
Y
100
L
？
2
N
125
S
？
推论
3
Y
400
L
？
42021/3/25 N
415 M
？
授课：XXX
模型
7
第6章决策树
决策树
决策树基本概念
决策树是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
2021/3/25
授课：XXX
8
第6章决策树
决策树基本概念
决策树的优点
1、推理过程容易理解，决策推理过程可以表示成If Then形式；
2、推理过程完全依赖于属性变量的取值特点；
3、可自动忽略目标变量没有贡献的属性变量，也为判断属性变量的重要性，减少变量的数目提供参考。
2021/3/25
授课：XXX
2021/3/25
已知三角形ABC，A角等于76度，
B角等于89度，则其C角等于15度
授课：XXX
11
第6章决策树
决策树基本概念
关于归纳学习(3)
归纳学习由于依赖于检验数据，因此又称为检验学习。归纳学习存在一个基本的假设：
任一假设如果能够在足够大的训练样本集中很好的逼近目标函数，则它也能在未见样本中很好地逼近目标函数。该假定是归纳学习的有效性的前提条件。
否
飞行动物
否
有腿是
冬眠否
海龟冷血鳞片
否
半
否
是
否
鸽子恒温羽毛

决策树ppt课件

决策树在分类问题中应用
分类问题背景介绍
分类问题是机器学习中一类重要的问题，旨在将数据划分为不同
的类别。
在现实世界中，分类问题广泛存在，如垃圾邮件识别、疾病诊断、
信用评分等。
分类算法的目标是通过学习训练数据中的特征与类别之间的关系，从而对新的未知数据进行类别预
测。
决策树在分类问题中优势
直观易理解
决策树在处理缺失值和异常值时容易受到干扰，可能导致模型性能下降。可以通过数据预处理等方法减少缺失值和异常值对模型的影响。
CART算法实例演示
实例背景
假设有一个关于信用卡欺诈的数据集，包含多个特征（如交易金额、交易时间、交易地点等）和一个目标变量（是否欺诈）。我们将使用CART算法构建一个分类模型来预测交易是否属于欺诈行为。
构建决策树时间较长
C4.5算法在构建决策树时需要计算每个特征的信息增益比，当数据集较大或特征较多时，构建决策树的时间可能会较长。
C4.5算法实例演示
数据集介绍
以经典的鸢尾花数据集为例，该数据集包含150个样本，每个样本有4个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度）和1个标签（鸢尾花的类别）。
建造年份等特征。
选择合适的决策树算法（如CART、ID3等），
对数据进行训练。
模型评估与优化
采用均方误差等指标评估模型性能，通过调整参数、集成学习等方法
优化模型。
结果展示与解读
展示决策树图形化结果，解释每个节点含义及预
测逻辑。
08
CATALOGUE
总结与展望
决策树模型总结回顾
模型原理
决策树通过递归方式将数据集划分为若干个子集，每个子集对应一个决策结果。通过构建树形结构，实现分类或回归任务。

分类挖掘之决策树(ppt版)

income
其他(qítā)属性的信息率可类似求出。
第二十六页，共六十六页。
将输出变量(biànliàng)〔是否购置〕看作信源发出的信息U
输入变量看作是信宿接收到的一系列信息V
•在实际通信之前〔决策树建立之前〕，输出变量对信宿来讲是完全随机的，其平均不确定性为：
En(Ut)
i
P(ui)lo2gP(1ui)i
(6) FOR EACH由结点N长出的新结点{
IF 该结点对应的样本子集只有(zhǐyǒu)唯一的一种决策类别，那么将该结点标记为该类别的叶结点; ELSE 在该结点上执行ID3Tree (T’，T’-attributelist)，对它继续进行分裂;} 其中，T’为由结点N划分而来的子集，T’-attributeslit为去除被选分裂属性后的属性集。
• 基尼指数——Gini index (SLIQ，SPRINT)
•
•
…………
第十二页，共六十六页。
2002222//11//33
信息论的根本(gēnběn)概念
1、信息是用来(yònɡ lái)消除随机不确定性的度量。信息量的大小可由所消除的不确定性大小来计量。
信息量的数学定义：
I(ui)lo2g P(1 ui)lo2g P(ui)
= 0.94
下年面龄=计“算<=每3个0属〞性：I的(p ,n 熵) 。p 从 pn 年lo g 龄2 pp 1开 p1n始=p 2计n ，n 算lo ng 。2 1p 1n =n3 I (p11，n11)=0.971
年龄=“30~40〞：
p12=4，n12=0 I (p12，n12)=0
年龄=“>40〞： p13=3，n13=2 I (p13，n13)=0.971

(完整版)ENVI决策树分类

遥感专题讲座——影像信息提取（三、基于专家知识的决策树分类）基于专家知识的决策树分类可以将多源数据用于影像分类当中，这就是专家知识的决策树分类器，本专题以ENVI中Decision Tree为例来叙述这一分类器。

本专题包括以下内容：∙ ∙●专家知识分类器概述∙ ∙●知识（规则）定义∙ ∙●ENVI中Decision Tree的使用概述基于知识的决策树分类是基于遥感影像数据及其他空间数据，通过专家经验总结、简单的数学统计和归纳方法等，获得分类规则并进行遥感分类。

分类规则易于理解，分类过程也符合人的认知过程，最大的特点是利用的多源数据。

如图1所示，影像+DEM就能区分缓坡和陡坡的植被信息，如果添加其他数据，如区域图、道路图土地利用图等，就能进一步划分出那些是自然生长的植被，那些是公园植被。

图1 专家知识决策树分类器说明图专家知识决策树分类的步骤大体上可分为四步：知识（规则）定义、规则输入、决策树运行和分类后处理。

1.知识（规则）定义规则的定义是讲知识用数学语言表达的过程，可以通过一些算法获取，也可以通过经验总结获得。

2.规则输入将分类规则录入分类器中，不同的平台有着不同规则录入界面。

3.决策树运行运行分类器或者是算法程序。

4.分类后处理这步骤与监督/非监督分类的分类后处理类似。

知识（规则）定义分类规则获取的途径比较灵活，如从经验中获得，坡度小于20度，就认为是缓坡，等等。

也可以从样本中利用算法来获取，这里要讲述的就是C4.5算法。

利用C4.5算法获取规则可分为以下几个步骤：（1）多元文件的的构建：遥感数据经过几何校正、辐射校正处理后，进行波段运算，得到一些植被指数，连同影像一起输入空间数据库；其他空间数据经过矢量化、格式转换、地理配准，组成一个或多个多波段文件。

（2）提取样本，构建样本库：在遥感图像处理软件或者GIS软件支持下，选取合适的图层，采用计算机自动选点、人工解译影像选点等方法采集样本。

（3）分类规则挖掘与评价：在样本库的基础上采用适当的数据挖掘方法挖掘分类规则，后基于评价样本集对分类规则进行评价，并对分类规则做出适当的调整和筛选。

数据分类-决策树(PPT 71页)

no fair no excellent no fair no fair yes fair yes excellent yes excellent no fair yes fair yes fair yes excellent no excellent yes fair no excellent
属性
G a in (A ) I n fo (D ) I n fo A (D )
信息增益例子
类 P: buys_computer = “yes” 类 N: buys_computer = “no”
5
4
Infoage(D)

14
I(2,3)
14
I(4,0)
In fo (D ) 1 9 4 lo g 2 (1 9 4 ) 1 5 4 lo g 2 (1 5 4 ) 0 .9 4 0
16
分类的评价准则-约定和假设
给定测试集 X test {( xi , yi ) | i 1,2, , N }, 其中 N 表示测试集中的样本个数； xi表示测试集中的数据样本； yi表示数据样本 xi的类标号；假设分类问题含有 m 个类别，则 yi {c1, c2 , , cm } 对于测试集的第 j个类别，设定：被正确分类的样本数量是 TP j 被错误分类的样本数量是 FN j 其他类别被错误分类为该类的样本数量是 FP j
适合的描述属性作为分支属性 ▪ 并根据该属性的不同取值向下建立分支
26
决策树示例-购买保险
A1-公司职员
否否否否是是是否是是是否是否
A2-年龄
<=40 <=40 41~50 >50 >50 >50 41~50 <=40 <=40 >50 <=40 41~50 41~50 >50

决策树基本概念教材模板ppt

模型使用(分类阶段): 用于分类未知对象评估模型的准确性检验样本的已知标签与模型的分类结果比较准确率是被模型正确分类的检验样本所占的百分比检验集是独立于训练集的 (否则过分拟合) 如果准确性是可接受的，则使用模型来分类新的数据
4
监督和无监督学习
监督学习 (分类) 监督:提供了每个训练元组的类标号即分类器的学习在被告知每个训练元组属于哪个类的 “监督”下进行的新的数据基于训练集被分类
A是离散值的: 结点N的测试输出直接对应于A的已知值 A是连续值的: 结点N的测试有两个可能的输出，分别对应于条件
(Jeff, Professor, 4)
Tenured?
7
分类: 基本概念
分类: 基本概念决策树基于规则分类贝叶斯分类方法提高分类准确率的技术小结
8
决策树
从有类标号的训练元组中学习决策树
树结构
每个内部结点（非树叶结点）表示在一个属性上的
测试
每个分枝代表该测试的一个输出
2
yes
Jim Associate Prof 7
yes
Dave Assistant Prof 6
no
Anne Associate Prof 3
no
学习：用分类算法分析训练数据
分类器 (模型)
IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’
每个树叶结点存放一个类标号
ห้องสมุดไป่ตู้的最顶层结点是根结点
如何使用决策树分类？
给定一个类标号未知的元组X，在决策树上测试该
元组的属性值。跟踪一条由根到叶结点的路径，该
叶结点就存放着该元组的类预测。

决策树课件PPT精品文档61页

Clementine的决策树
主要内容
决策树算法概述从学习角度看，决策树属有指导学习算法目标：用于分类和回归
C5.0算法及应用分类回归树及应用 CHAID算法及应用 QUEST算法及应用模型的对比分析
决策树算法概述：基本概念
得名其分析结论的展示方式类似一棵倒置的树
C5.0算法：熵
例如：二元信道模型
P(u1|v1) P(u1|v2)
P P((u u2 2||vv12))P P 1 12 1P P 2 21 2
C5.0算法：熵
先验不确定性：通信发生前，信宿对信源的状态具有不确定性
后验不确定性：通信发生后，信宿收到发自信源的信息，先验不确定性部分被消除，信宿对信源仍有一定程度的不确定性后验不确定性等于先验不确定性，表示信宿没有收到信息；后验不确定性等于零，表示信宿收到了全部信息信息是用来消除随机不确定性的，信息量的大小可由所消除的不确定性大小来计量
C5.0算法：熵
信息熵是信息论(C.E.Shannon,1948)中的基本概念。信息论主要用于解决信息传递过程中的问题，也称统计通信理论
信息论的基本出发点认为：
信息传递通过由信源、信道和信宿组成的传递系统实现
信源(发送端) 信道
信宿(接收端)
C5.0算法：熵
信息论的基本出发点认为：传递系统存在于一个随机干扰环境之中将发送的信息记为U，接收的信息记为V，那么信道可看作为信道模型，记为P(U|V)
决策树算法概述：核心问题
第一，决策树的生长利用训练样本集完成决策树的建立过程
第二，决策树的剪枝利用测试样本集对所形成的决策树进行精简
决策树算法概述：树生长

第四章-决策树PPT课件

34
可解释性
➢ 决策边界是平行坐标轴的 ➢ 对于过于复杂的问题，会导致很多小的划分
35
总结
优点
生成可理解的规则
分类时计算代价很小
能够选出对分类比较重要的属性
对长方形分布的样本处理很好
缺点
+++----------------+++----------------+++--------+++-------- ++++++++---++++++++------++++++++------+++++++++++++++----+++----++++----+++----+++++++----++++
纹理(15个样本) :{1, 2, 3, 4, 5, 6, 7, 9, 11, 12, 13, 14, 15, 16, 17} 稍糊(5个样本): {7,9,13,14,17} 清晰(7个样本): {1,2,3,4,5,6,15} 模糊(3个样本): {11,12,16} 缺失纹理属性取值的样本：{8,10}
• Wikipedia page for decision tree: /wiki/Decision_tree_learning

决策树完整PPT课件

第7页/共39页
信息增益
一般而言，信息增益越大，则意味着使用属性a来进行划分所获得的“纯度提升”越大。
决策树算法第8行选择属性著名的ID3决策树算法
第8页/共39页
举例：求解划分根结点的最优划分属性
数据集包含17个训练样例：
8个正例（好瓜）占 9个反例（坏瓜）占
8 p1 17
p2
9 17
对于二分类任务
1,2,3,4,5 6,8,15
10
6
8,15
8
15
第（2）种情形：设定为该结点所含样本最多的类别利用当前结点的后验分布
第（3）种情形：设定为其父结点所含样本最多的类别把父结点的样本分布作为当前结点的先验分布
第4页/共39页
决策树学习的关键是算法的第8行：选择最优划分属性
什么样的划分属性是最优的？
我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”越来越高，可以高效地从根结点到达叶结点，得到决策结果。
三种度量结点“纯度”的指标： 1. 信息增益 2. 增益率 3. 基尼指数
第5页/共39页
1. 信息增益信息熵
香农提出了“信息熵”的概念，解决了对信息的量化度量问题。
第28页/共39页
现实任务中，尤其在属性数目较多时，存在大量样本出现缺失值。出于成本和隐私的考虑
第29页/共39页
1. 属性值缺失时，如何进行划分属性选择？（如何计算信息增益） 2. 给定划分属性，若样本在该属性上的值缺失，如何对样本进行划分？
（对于缺失属性值的样本如何将它从父结点划分到子结点中）
包含14个样例：
14
17
好瓜(6个)
坏瓜(8个)

ENVI-13基于专家知识的决策树分类ppt课件

规则定义
第一步：规则获取规则如下描述： Class1（朝北缓坡植被）:NDVI>0.3, slope<20, aspect<90 or aspect>270 Class2（非朝北缓坡植被）：NDVI>0.3, slope<20, 90<=aspect<=270 Class3（陡坡植被）：NDVI>0.3, slope>=20, Class4（水体）：NDVI<=0.3, 0<b4<20 Class5（裸地）：NDVI<=0.3, b4>=20 Class6（无数据区，背景）: NDVI<=0.3, b4=0 也可以按照二叉树描述方式：第一层，将影像分为两类，NDVI大于0.3，NDVI小于或等于0.3；第二层，NDVI高的，分为坡度大于或等于20度和坡度小于20度。以此往下划分。
第一层节点根据NDVI的值划分为植被和非植被，如果不需要进一步分类的话，这个影像就会被分成两类：class0和class1。对NDVI大于0.3，也就是class1，根据坡度划分成缓坡植被和陡坡植被。在class1图标上右键，选择Add Children。单击节点标识符，打开节点属性窗口，Name为Slope<20，在Expression中填写：{Slope} lt 20。同样的方法，将所有规则输入，末节点图标右键Edit Properties，可以设置分类结果的名称和颜色，最后结果如图所示。
关系/逻辑
LT、LE、EQ…. and、or、not…. 最大值、最小值
mnf
lpc
最小噪声变换
局部主成分分析
其他符号
指数（^）、exp 对数alog 平方根（sqrt）、绝对值（adb）如：{ndvi} LT 0.3……

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Classification_Error = 1 – Max{0.4, 0.3, 0.3} = 1 - 0.4 = 0.60
2022/3/23
Guilin
31
分类误差的性质
与熵和Gini索引一样，一个纯的训练数据集合（只有一个类）的分类误差值是0，这是因为概率1的分类误差值是1-max(1) = 0
Gender 如果Gender = male，Transportation mode = bus 如果Gender = female，决策树需要检查下一个节点Car
ownership
如果Car ownership = 0，Transportation mode = bus，否则 Transportation mode = train
2022/3/23
Guilin
19
不纯度的定义
给定一个训练数据集（决策表），我们能根据类属性度量它的同构性（或异构性heterogeneity）
如果一个训练数据集的类属性只取一个类值，它是纯的或者同构的
如果一个训练数据集的类属性取多个类值，它是不纯的或者异构的
2022/3/23
Guilin
2022/3/23
Guilin
16
举例说明（预测）
根据上面的决策树或者规则，回答前面的问题就很简单、直接
Alex：Travel cost = standard，所以，无论其它属性取什么值，可以预测他的交通工具是train
Buddy：Travel cost = cheap并且Gender = male，则可以预测他的交通工具是bus
20
如何度量不纯度
有多种量化方法度量不纯度最常用的三种方法如下
Entropy p j log2 p j j
Gini _ Index 1
p
2 j
j
Classification _ error 1 max{p j }
上面所有的度量方法都含有类j的概率pj
2022/3/23
Guilin
Cherry：Travel cost = cheap并且Gender = female 并且Car ownership = 1，则可以预测他的交通工具是train
2022/3/23
Guilin
17
决策树的缺点
多数决策树算法采用贪心策略：按照设定的启发式信息搜索最佳树
无回溯
非穷近搜索，但可能剪枝
2022/3/23
Guilin
9
构造决策树分类器的原则
目标：最大化预测新数据的精度（实现困难）通常将给定的已知数据随机分成训练集合和测
试集合。训练数据用于归纳分类器，测试数据用来评估分类器训练分类器时的目标是最大化预测测试数据的精度，即，该分类器基本上体现两个（训练和测试）集合的共同结构过度拟合（overfitting）问题：拟合训练数据的效果很好，拟合测试数据的效果很差
2022/3/23
Guilin
10
举例说明（训练数据）
2022/3/23
Guilin
11
举例说明（决策树）
2022/3/23
Guilin
12
举例说明（测试数据）
决策树是用于预测一个数据的类问题：Alex, Buddy and Cheery使用哪种交通工具？
2022/3/23
Guilin
13
一个纯的训练数据集合（只有一个类）的Gini索引值是0，这是因为概率1的Gini索引值是1-(1)^2 = 0
与熵一样， Gini索引在每个类的概率相等时达到最大值
下面的图描出了不同的类个数n的Gini索引的最大值，这里，p=1/n
注意：无论有多少个类值，Gini索引值总是在0和 1之间
2022/3/23
Guilin
29
图示Gini索引的性质
2022/3/23
Guilin
30
举例说明（用分类误差计算概率）
计算训练数据集合的不纯度的第三个方法是采用分类误差（classification error）
Classification _ error 1 max{p j }
已知p(Bus) = 0.4, p(Car) = 0.3和p(Train) = 0.3，分类误差值的计算如下：
No
Large
No
Medium
Yes
Large
No
Small
No
Medium
No
Small
Attrib3 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
Training Set
Class No No No No Yes No No Yes No Yes
Tid 11 12 13 14 15
举例说明（决策树的运用）
从根节点Travel cost per km开始如果Travel Cost = expensive，Transportation mode =
car 如果Travel Cost = standard，Transportation mode =
train 如果Travel Cost = cheap，决策树需要检查下一个节点
预测：用分类器预测新数据的类
这种从有标记的数据种归纳分类器的方法叫监督学习
决策树、回归是最常用的分类器
2022/3/23
Guilin
3
分类任务图例
Tid 1 2 3 4 5 6 7 8 9 10
10
Attrib1 Attrib2
Yes
Large
No
Medium
No
Small
Yes
Medium
2022/3/23
Guilin
14
举例说明（决策树）
2022/3/23
Guilin
15
举例说明（决策树产生的规则）
每个叶节点产生一条规则
Rule 1：If Travel cost = expensive then Mode = car Rule 2：If Travel cost = standard then Mode = train Rule 3：If Travel cost = cheap Gender = male then
有了每个类的概率，我们就可以用前面的方法计算训练数据集合的不纯度
2022/3/23
Guilin
24
举例说明（用熵计算概率）
计算训练数据集合的不纯度的一个方法就是采用熵（entropy）
Entropy p j log2 p j
j
已知p(Bus) = 0.4, p(Car) = 0.3和p(Train) = 0.3，熵的计算如下：
分类误差值总是在0和1之间对于给定类的个数， Gini索引的最大值总是与
21
举例说明（训练数据）
2022/3/23
Guilin
22
举例说明（类的频率）
在训练数据集合中，类属性Transportation mode 有三个类值Bus、Car和Train
我们的例子中，每个值出现的次数如下
4 buses 3 cars 3 trains 简单记为4B, 3C, 3T
2022/3/23
Guilin
8
决策树分类器的解释
一棵决策树是训练数据的一个划分
树的一个非叶节点是对一个属性上的测试
一个属性的一条枝是测试该属性的一个结果
一个叶节点是一个类标记
在每个非叶节点，一个属性被选中，它将训练数据分裂成尽可能不同类的子集合（划分）
对于一个新数据，根据它的每个属性值从根节点一直匹配到叶节点，这个叶节点的标记就用来预测新数据的类
2022/3/23
Guilin
7
决策树的结构
决策树是层次的树结构
由一些节点和枝（边）组成，一棵决策树至少有一个节点
枝的两端是节点
一棵决策树通常是从左到右，或从上到下画图
树的第一个节点称为根节点，“根-枝-节点...–节点”的最后一个节点是叶节点，其它节点叫中间节点
非叶节点至少有一条枝
Deduction
Model
分类任务例子
Predicting tumor cells as benign or malignant
Classifying credit card transactions as legitimate or fraudulent
Classifying secondary structures of protein as alpha-helix, beta-sheet, or random coil
下面的图描出了不同的类个数n的熵的最大值，这里，p=1/n
熵的最大值是-n*p*log p 注意：当类个数n>2时，熵>1
2022/3/23
Guilin
26
图示熵的性质
2022举例说明（用Gini索引计算概率）
计算训练数据集合的不纯度的第二个方法是采用Gini索引（Gini index）
Entropy = – 0.4 log (0.4) – 0.3 log (0.3) – 0.3 log (0.3) = 1.571
对数的底是2
2022/3/23
Guilin
25
熵的性质
一个纯的训练数据集合（只有一个类）的熵是 0，这是因为概率1的对数log (1) = 0
在多个类的情况下，熵在每个类的概率相等时达到最大值
Mode = bus Rule 4：If Travel cost = cheap Gender = female Car
ownership = 0 then Mode = bus Rule 5：If Travel cost = cheap Gender = female Car