第6章:决策树学习
决策树学习讲义
n
I ( X ) P( X i ) log 2 P( X i )
i 1
熵 比较多的用于信源编码,数据压缩,假设
是最有效的编码方式是使用 位编码
X i
于是对于随即变量的最有效编码位之和:
决策树学习原理简介—(ID3, C4.5算法)
表示训练集合中的样本
p 表示训练集合中反例样本的比例
弱
去
14
下雨
适中
高
强
不去
决策树学习原理简介—(ID3, C4.5算法)
S: (9+, 5)
湿度
高
(3+, 4-)
S: (9+, 5)
风
正常
(6+, 1-)
弱
(6+, 2-)
问题:哪一个属性(特征)更好?
强
(3+, 3-)
决策树学习原理简介—(ID3, C4.5算法)
熵:物理学概念
宏观上:热力学定律—体系的熵变等于可逆过程吸收
根据起因分类设备故障
根据拖欠支付的可能性分类贷款申请
分类问题
核心任务是把样例分类到各可能的离散值对应的类别
基本的决策树学习算法
大多数决策树学习算法是一种核心算法的变体
采用自顶向下的贪婪搜索遍历可能的决策树空间
ID3是这种算法的代表
9、要学生做的事,教职员躬亲共做; 要学生 学的知 识,教 职员躬 亲共学 ;要学 生守的 规则, 教职员 躬亲共 守。21.6.2821.6.28M onday, June 28, 2021
3、Patience is bitter, but its fruit is sweet. (Jean Jacques Rousseau , French thinker)忍耐是痛苦的,但它的果实是甜蜜的。10:516.17.202110:516.17.202110:5110:51:196.17.202110:516.17.2021
高中信息技术浙教版:决策树教学课件(共27张PPT)
第一步:收集数 据
第三步:向Python导入 数据
第四步:使用Python库sklearn训练
第二步:分割数据
课堂小结
一、2017年度重点工作项目完成情况
1 决策树分类概念 2 构建决策树
3 举例说明:鸢尾花分类
备未用来:的深深度度学学习习:人工智能
展望与挑战
“温度”是多余的特点
如何判断某一天游客是否会来游乐场游玩?
天气、温度、湿度
2.4.1决策树分类概念
建立决策树的过程 选择一个属性值,基于这个属性对样本集进行划分,得到子集划分结果。
再选择其他属性,对得到的划分结果进行划分,直至最后所得划分结果中每 个样本为同一个类别。
2.4.2构建决策树
构建决策树来解决实际生活中的问题时,需按照一定的顺序选择划分属 性。通常,性能好的决策树随着划分不断进行,决策树分支节点的“纯度” 会越来越高,即其所包含样本尽可能属于相同类别。为了逐次选出最优属 性,可以采用信息增益(informationgain)这一指标。
2.4.2构建决策树
练一练: 1.计算表2.4.1中温度高低、湿度大小、风力强弱三个气象特点的信息增益。
思考: 将天气状况、温度高低、湿度大小、风力强弱作为分支点来构造图2.4.1决策
树时,是否信息增益大的气象特点离根节点越近?
【练一练】: 如下表所示,每朵鸢尾花有萼片长度、萼片宽度、花瓣长度、花瓣宽度四个
4个属性 1个标签 1 Label 4 Features 用来标记种类
序号 Index 0-149, 一共150个样本
基于鸢尾花数据集
例:鸢尾花数据集是常用的分类实验数据集,由Fisher1936收集整理。 Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含 150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通 过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于 (Sentosa 0,Versicolor 1,Virginia 2)三个种类中的哪一类。
决策树(完整)
无缺失值样本中在属性 上取值 的样本所占比例
ቤተ መጻሕፍቲ ባይዱ
谢谢大家!
举例:求解划分根结点的最优划分属性
根结点的信息熵:
用“色泽”将根结点划分后获得3个分支结点的信息熵分别为:
属性“色泽”的信息增益为:
若把“编号”也作为一个候选划分属性,则属性“编号”的信息增益为:
根结点的信息熵仍为:
用“编号”将根结点划分后获得17个分支结点的信息熵均为:
则“编号”的信息增益为:
三种度量结点“纯度”的指标:信息增益增益率基尼指数
1. 信息增益
香农提出了“信息熵”的概念,解决了对信息的量化度量问题。香农用“信息熵”的概念来描述信源的不确定性。
信息熵
信息增益
一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升”越大。决策树算法第8行选择属性
著名的ID3决策树算法
远大于其他候选属性信息增益准则对可取值数目较多的属性有所偏好
2. 增益率
增益率准则对可取值数目较少的属性有所偏好著名的C4.5决策树算法综合了信息增益准则和信息率准则的特点:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。
3. 基尼指数
基尼值
基尼指数
著名的CART决策树算法
过拟合:学习器学习能力过于强大,把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,导致泛化性能下降。欠拟合:学习器学习能力低下,对训练样本的一般性质尚未学好。
过拟合无法彻底避免,只能做到“缓解”。
不足:基于“贪心”本质禁止某些分支展开,带来了欠拟合的风险
预剪枝使得决策树的很多分支都没有“展开”优点:降低过拟合的风险减少了训练时间开销和测试时间开销
机器学习之决策树学习
机器学习之决策树学习决策树学习是机器学习中的一种常用方法,它可以根据已有的数据集构建一个决策树模型,用于分类和回归问题的预测。
决策树学习方法简单直观,易于理解和解释,因此在实际应用中被广泛使用。
决策树是一种类似于流程图的树状结构,它由一个根节点、若干个内部节点和若干个叶节点组成。
每个内部节点都代表一个特征或属性,叶节点则代表一个类别或数值。
决策树通过从根节点开始顺着一些特征向下分割数据集,不断生成新的节点,直到达到一些停止条件为止。
每个节点的分割依据是该节点上的特征的一些取值,根据这个取值将数据集分割成若干个子集,然后递归地对子集继续进行分割,直到满足停止条件。
决策树学习的基本算法有ID3、C4.5、CART等。
以ID3算法为例,其主要思想是利用信息增益来选择最优的特征进行分割。
信息增益可以度量一个特征对于数据集划分的纯度提升程度。
具体来说,对于一个特征A,数据集D可以根据A的不同取值分割成若干个子集D1,D2,…,Dn。
信息增益定义为数据集D的熵H(D)与特征A划分后的条件熵H(D,A)之差,即信息增益=H(D)-H(D,A)。
信息增益越大,则特征A对于数据集的划分纯度提升程度越高,因此选择信息增益最大的特征作为当前节点的分割标准。
决策树的学习过程可以概括为以下几个步骤:1.选择最优特征划分数据集:根据一些准则选择最优的特征用于划分数据集,比如信息增益、信息增益比、基尼指数等。
2.划分数据集:根据选择的特征将数据集划分成若干个子集,每个子集对应于特征的一些取值。
3.递归构建子树:对每个子集递归地进行步骤1和步骤2,直到满足终止条件,比如节点中的样本个数小于一些阈值,或者节点中的样本都属于同一类别。
4.生成决策树:将步骤3中递归得到的子树连接起来,构成一个完整的决策树。
决策树学习具有很好的可解释性和可解读性。
由于决策树是一种树状结构,可以通过可视化的方式展示出来,用于解释和分析模型的决策过程。
此外,决策树还可以根据特定的阈值将连续特征离散化,从而处理连续特征的问题。
决策树学习培训讲义(PPT38张)
Attrib2 Large Medium Small Medium Large Medium Large Small Medium Small
Attrib3 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
Class No No No No Yes No No Yes No Yes
Attrib2 Small Medium Large Small Large
Attrib3 55K 80K 110K 95K 67K
Class ? ? ? ? ?
演绎
测试集
9
决策树应用
测试数据 从根节点开始
R e f u n d M a r it a l S t a t u s N o M a r r ie d T a x a b le h e a t In c o m e C 8 0 K ?
T a x a b le In c o m e 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
C heat No No No No Yes No No Yes No Yes
基本算法
Don’t Cheat
1 2 3 4
Yes No No Yes No No Yes No No No
i 1
其中p是在S中正例的比例,pΘ是在S中负例的比例。在有关熵的所 有计算中我们定义0log0为0。
22
例子
C 1 C 2
C1 C2
0 6
1 5
Entropy = -(0/6)log(0/6)-(6/6)log(6/6)=0
Entropy = 1-(1/6)log(1/6)-(5/6)log(5/6)=0.650
决策树学习
决策树
决策树(decision tree)也称判定树,它是由对象的 若干属性、属性值和有关决策组成的一棵树。其中 的节点为属性(一般为语言变量),分枝为相应的 属性值(一般为语言值)。从同一节点出发的各个 分枝之间是逻辑“或”关系;根节点为对象的某一 个属性;从根节点到每一个叶子节点的所有节点和 边,按顺序串连成一条分枝路径,位于同一条分枝 路径上的各个“属性-值”对之间是逻辑“与”关系, 叶子节点为这个与关系的对应结果,即决策。
飞机起飞的简单决策树
描述“兔子”概念的决策树
决策树学习的基本方法和步骤:
首先,选取一个属性,按这个属性的不同取
值对实例集进行分类;并以该属性作为根节 点,以这个属性的诸取值作为根节点的分枝, 进行画树。
决策树学习的基本方法和步骤:
然后,考察所得的每一个子类,看其中的实
例的结论是否完全相同。如果完全相同,则 以这个相同的结论作为相应分枝路径末端的 叶子节点;否则,选取一个非父节点的属性, 按这个属性的不同取值对该子集进行分类, 并以该属性作为节点,以这个属性的诸取值 作为节点的分枝,继续进行画树。 如此继续,直到所分的子集全都满足:实例 结论完全相同,而得到所有的叶子节点为止。
其中每个元组表示一个实例,前面的数字为实例序号,后面的字母为实 例的决策项保险类别。
用 分别代表 “<21”、“≥21且≤25”、“>25” 这三个年龄段。 “小”、“中”、“大”
对于S,我们按属性“性别”的不同取值将其分类。由 表9.1 可见,这时S应被分类为两个子集:
S1= {(3,C), (4,B), (7,C), (8,B), (11,B), (12,B)} S2={(1,C), (2,C), (5,A), (6,A), (9,A), (10,A)} 于是,我们得到以性别作为根节点的部分决策树(见 下图)。
决策树法专题教育课件
小结
1)对连续性的字段比较难预测。
2)对有时间顺序的数据,需要很多 预处理的工作。
3)当类别太多时,错误可能就会增 加的比较快。
4)一般的算法分类的时候,只是根 据一个字段来分类。
决策树旳简介
决策树(Decision Tree)是在已知多种情况发生 概率旳基础上,经过构成决策树来求取净现值旳期 望值不小于等于零旳概率,评价项目风险,判断其 可行性旳决策分析措施,是直观利用概率分析旳一 种图解法。因为这种决策分支画成图形很像一棵树 旳枝干,故称决策树。
决策树旳构造
• 决策树是以实例为基础旳归纳学习算法。它从一组 无顺序、无规则旳元组中推理出决策树表达形式旳 分类规则;
小结
决策树易于理解和实现,人们在在学习 过程中不需要使用者了解很多的背景知 识,这同时是它的能够直接体现数据的 特点,只要通过解释后都有能力去理解 决策树所表达的意义。
对于决策树,数据的准备往往是简单或 者是不必要的,而且能够同时处理数据 型和常规型属性,在相对短的时间内能 够对大型数据源做出可行且效果良好的 结果。
点
决策者在这里对各
行动方案进行选择.
方案枝:由决策点引出旳代
表行动方案旳线段.
机会点:方案枝末端旳圆.
状态枝:由机会点引出旳代
表可能发生旳状态
旳线段.
后果点:状态枝末端旳三角
形.
决策树旳一般表达:
d1 d2
d3
P(h1) P(h2) P(h1) P(h2) P(h1) P(h2)
l(d1,h1)
l(d1,h2) l(h2)
决策树学习
笔记Tom M.Mitchhell所著的机器学习,一本是数据挖掘导论,这两本书皆分别是机器学习& 数据挖掘领域的开山or杠鼎之作决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。
在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBC)。
在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。
分类与聚类,监督学习与无监督学习在讲具体的分类和聚类算法之前,有必要讲一下什么是分类,什么是聚类,以及都包含哪些具体算法或问题。
一、Classification (分类),对于一个classifier ,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做supervised learning (监督学习),二、而Clustering(聚类),简单地说就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此clustering 通常并不需要使用训练数据进行学习,这在Machine Learning 中被称作unsupervised learning (无监督学习).百度百科:决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
分类树(决策树)是一种十分常用的分类方法。
他是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。
机器学习之决策树学习ppt课件
23
信息增益(1)
• 上式中第二项的值应该越小越好,因为越小说明S相对于 属性A作分解以后而造成的熵下降越快(根据前面的解释, 熵下降越快就是不确定性减少越快),换句话说
Gain(S,A)越大越好
• 决策树建树算法的要点是——在构造决策树的每一层次
时,从尚未检测的属性中选择信息增益Gain(S,A)大的属
c
Entropy(S ) pi log 2 ( pi ) i 1
20
熵和决策树(4)
• 熵值计算举例:
例如:“PlayTennis”中S是一个关于某布尔概念的14个 样例的集合,包括9个正例和5个反例[9+,5-]。那么S 相对于这个布尔分类的熵为:训练数据集
Entropy([9,5]) (9 /14) log2 (9 /14) 5 /14 log2 (5 /14) 0.940
2
决策树学习示例
• 例子:星期六上午是否适合打网球
–属性={outlook,Temperature, humidity,wind} –属性值={sunny, overcast, rain, hot, mild, cool,
high, normal, strong, weak}
3
决策树学习示例——训练样例
S:[9+, 5] E=0.940
wind weak strong
[6+, 2] [3+, 3] E=0.811 E=1.00 Gain(S,Wind)
=0.940(8/14)0.811(6/14)1.0
–信息增益
Gain(S ,Wind )
Entropy(S)
v{weak , strong }
–熵刻画了任意样例集的纯度 –给定包含关于某个目标概念的正反样例的样例集S,那
决策树学习
决策树原理
决策树方法首先对数据进行处理,利用归纳算法生成可读的 规则和决策树,然后使用决策对新数据进行分析。 归纳学习 决策树技术发现数据模式和规则的核心是归纳算法。归 纳算法是从特殊到一般的过程。归纳推理从若干个事实中表征 出的特征、特性或属性中,通过比较、总结、概括而得出一个 规律性的结论。归纳推理视图从对象的一部分或整体的特定观 察中得到一个完备且正确的描述,即从特殊事实得出普遍规律 性的结论。归纳对于认识的发展完善具有重要的意义。 归纳学习的过程就是寻找一般化描述的过程。这种一般 化描述能够解释给定的输入数据,并可以用来预测新的数据。 归纳学习存在一个基本的假定:任一假设如果能够在足够大的 训练样本集中很好的逼近目标函数,则他也能在未见样本中很 好地逼近目标函数。这个假定是归纳学习的前提条件。
分类问题
9
决策树算法
大多数决策树学习算法是一种核心算法 的变体 采用自顶向下的贪婪搜索遍历可能的决 策树空间
贪心算法
算法代表: ID3
10
基本的决策树学习算法(2)
ID3的思想
自顶向下构造决策树 从“哪一个属性将在树的根节点被测试”开始 使用统计测试来确定每一个实例属性单独分类训练 样例的能力 分类能力最好的属性被选作树的根节点 根节点的每个可能值产生一个分支 训练样例排列到适当的分支 重复上面的过程
32
数据分成3个子集
训练样例,形成决策树 验证样例,修剪决策树 测试样例,精度的无偏估计
如果有大量的数据可供使用,那么使用分离的数据集 合来引导修剪
33
规则后修剪
从训练集合推导出决策树,增长决策树直到尽 可能好地拟合训练数据,允许过度拟合发生 将决策树转化为等价的规则集合,方法是为从 根节点到叶节点的每一条路径创建一条规则 通过删除任何能导致估计精度提高的前件来修 剪每一条规则 按照修剪过的规则的估计精度对它们进行排序, 并按这样的顺序应用这些规则来分类后来的实 例
XX第6次课决策树new
PPT文档演模板
XX第6次课决策树new
•第6章 决策树
•半监督学习( semi-supervised learning )
•其它半监督学习方法还包括: • 生成式模型(generative models); • • 最大化分离(maximizing separation); • 基于图的方法(graph-based methods).
PPT文档演模板
XX第6次课决策树new
•第6章 决策树
•决策树
•决策树基本概念
• 决策树是一种典型的分类方法,首先对数据进行处理,利用 •归纳算法生成可读的规则和决策树,然后使用决策对新数据进行 •分析。本质上决策树是通过一系列规则对数据进行分类的过程。
PPT文档演模板
XX第6次课决策树new
•第6章 决策树
•第6章 决策树
•关于分类问题
•决策树基本概念
• 分类(Classification)任务就是通过学习获得一个目标函数 •(Target Function)f, 将每个属性集x映射到一个预先定义好的类 •标号y。
• 分类任务的输入数据是纪录的集合,每条记录也称为实例 •或者样例。用元组(X,y)表示,其中,X 是属性集合,y是一个 •特殊的属性,指出样例的类标号(也称为分类属性或者目标属性)
•的假设
。一般H表示所有可能假设。H中每个假设h表
•示X上定义的布尔函数。由于对c仅有的信息只是它在训练样例上
•的值,因此归纳学习最多只能保证输出的假设能与训练样例相拟
•合。若没有更多的信息,只能假定对于未见实例最好的假设就是
•训练数据最佳拟合的假设。
• 定义 归纳学习假设:任一假设如果在足够大的训练样例中很 •好地逼近目标函数,则它也能在未见实例中很好地逼近目标函数。 •(Function Approximation)。
决策树统计学习方法概述(PPT66页)
是
否
非常好
是
15
老年
否
否
一般
否
决策树统计学习方法概述(PPT66页)
1.2.2 信息增益
决策树统计学习方法概述(PPT66页)
决策树统计学习方法概述(PPT66页)
熵-就分类而言,所有成员都属于一类,熵为零;不同类别
数目相等,则熵等于1,类别数目不等,则熵介于0,1之间。
决策树统计学习方法概述(PPT66页)
也即确定选择特征的准则。
决策树统计学习方法概述(PPT66页)
决策树统计学习方法概述(PPT66页)
例1.2 右表是一个由15个样本组成的贷 款申请训练数据。数据包括贷款申请人 的四个特征。表的最后一列是类别,是 否同意贷款,取2个值:是、否。 希望通过所给的训练数据学习一个贷款 申请的决策树,用以对未来的贷款申请 进行分类。 特征选择是决定用哪个特征来划分特征 空间。
一般
否
6 中年 否
一般
否
7 中年 否
好
否
13 老年 是
好
是
14 老年 是 非常好 是
15 老年 否
一般
否
表2
决策树统计学习方法概述(PPT66页) 决策树统计学习方法概述(PPT66页)
决策树统计学习方法概述(PPT66页)
有自己的房子
是
否
有工作
是
是
否
ID 年龄 信贷情况 类别
3 青年
好
是
13 老年
• 现实中决策树学习通常采用启发式方法,即局部最优。 • 具体做法:每次选择feature时,都挑选择当前条件下最优的那个
feature作为划分规则,即局部最优的feature。
分类算法(决策树学习)
由决策树提取分类规则(1)
当决策树很大时,IF-THEN规则容易理解。
从根到树叶的每条路径创建一个规则。沿着给
定路径上的每一个属性-值对形成规则前件(“IF”部 分)的一个合取项。叶节点包含类预测,形成规则 后件(“THEN”部分)。
由决策树提取分类规则(2)
Age ? <=30 Student ? no no yes 31…40
错误率降低修剪(1)
• 方法评述 – 第一种方法是最普通的,常被称为训练和验 证集法。 – 可用数据分成两个样例集合: • 训练集合,形成学习到的假设 • 验证集合,评估这个假设在后续数据上的 精度 – 方法的动机:即使学习器可能会被训练集合 误导,但验证集合不大可能表现出同样的随 机波动 – 验证集合应该足够大,以便它本身可提供具 有统计意义的实例样本。 – 常见的做法是,样例的三分之二作训练集合, 三分之一作验证集合。
Ni 3 2 0
I(pi,ni) 0.971 0.971 0
E(役龄)=(5/14)*I(2,3)+(4/14)*I(4,0)+(5/14)*I(3,2) =0.6936 则 Gain(役龄)=I(p,n)-E(役龄)=0.2464 同理 Gain(价格)=0.2098 Gain(关键部件)=0.2098 Gain(可靠性)=0.2098
实例
•根据下列数据,决策是否更换某一设备。
役龄 <=10 <=10 11-20 >20 >20 价格 高 高 高 中 底 是否关键 部件 否 否 否 否 是 可靠性 一般 好 一般 一般 一般 是否更换 否 否 是 是 是
役龄 >20
价格 高
是否关 键部件 是
可靠性 好
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三、决策树学习常见问题
1)最佳划分的度量问题: 给定训练集S,下面以信息增益度量作为最佳划分
的标准,演示信息增益的计算和决策树生长的过程:
三、决策树学习常见问题
假如 “Outlook” 被选作划分属性,信息增益的计算:
{D1,D2,D3,D4,D5,D6,D7,D8, D9,D10,D11,D12,D13,D14}
基尼指数减率最大:
Gini Re ductionRaito
Gini Re duction SplitInfo
误分类率减率最大: Erro r Re d u ctio n Raito
ErrorRe duction SplitInfo
三、决策树学习常见问题
1)最佳划分的度量问题:
增益率和平均增益度量改进信息增益度量的方法同 样适合于基尼指数和误分类率,由此,我们又可以 得到以下6种选择最佳划分的度量标准:
第6章:决策树学习
蒋良孝
中国地质大学(武汉)
机器学习与数据挖掘团队 ljiang@
/people/jlx/
本章内容
一、决策树学习基础知识 二、决策树学习基本算法 三、决策树学习常见问题 四、决策树学习理解解释
一、决策树学习基础知识
决策树学习(decision tree learning) 是机器学习中一 类最常见的方法之一。顾名思义,决策树学习就是 学习用来作决策的树。
三、决策树学习常见问题
1)最佳划分的度量问题: 若记不纯度的降低程度为 ,则用来确定划分效果
的度量标准可以下面的公式来定义:
其中,
是父亲结点的不纯度度量, 是划分
属性取值的个数。 是父亲结点上样本的总数,
是第 个儿子结点上样本的数目, 是第 个儿子结
点的不纯度度量。
三、决策树学习常见问题
1)最佳划分的度量问题: 接下来的问题是,给定任意结点 ,如何来定义它
3)处理连续属性值问题:
三、决策树学习常见问题
2)处理缺失属性值问题: 处理缺失属性值的问题,通常有两个办法: 放弃函缺失值的样本,仅使用无缺失值的样本来进
行学习,这种方法造成了数据信息的浪费。 根据此属性值已知的其他样本,来估计这个缺失的
属性值。
赋给它当前结点所有样本中该属性最常见的值 赋给它当前结点同类样本中该属性最常见的值 为含缺失值属性的每个可能值赋予一个概率,而不是简单
习的关键是如何选择最佳划分属性。一般而言,随 着长树过程的不断进行,我们希望决策树的分支结 点所包含的样本越来越归属于同一类别,即结点的 “不纯度”(impurity) 越来越低。 因此,为了确定按某个属性划分的效果,我们需要 比较划分前(父亲结点)和划分后(所有儿子结点) 不纯度的降低程度,降低越多,划分的效果就越好。
三、决策树学习常见问题
1)最佳划分的度量问题: 增益率度量就是在信息增益度量中引入一个被称为
“分裂信息” (Split Information) 的项作分母来惩 罚具有较多属性值的属性:
其中,SplitInfo是划分属性的分裂信息。
三、决策树学习常见问题
1)最佳划分的度量问题: 属性的分裂信息SplitInfo度量了属性划分数据的广
其中,是划分属性取值的个数。
三、决策树学习常见问题
1)最佳划分的度量问题:
增益率和平均增益度量改进信息增益度量的方法同 样适合于基尼指数和误分类率,由此,我们又可以 得到以下6种选择最佳划分的度量标准:
熵减率最大:
EntropyRe ductionRaito
EntropyRe duction SplitInfo
误分类率减最大:
三、决策树学习常见问题
1)最佳划分的度量问题: 需要注意的是,这里的熵减最大度量标准就是信息
增益最大度量标准,记为: 信息增益标准存在一个内在的偏置,它偏好选择具
有较多属性值的属性,为减少这种偏好可能带来的 不利影响,著名的C4.5决策树算法 [Quinlan, 1993] 不直接使用信息增益,而是使用“增益率” (Gain Ratio) 来选择最佳划分属性。
Outlook
Sunny
Overcast
Rain
Humidity
{D3,D7,
D12,D13}
High
Normal [4+,0-]
{D4,D5,D6, D10,D14} [3+,2-]
{D1,D2,D8} {D9,D11} [0+,3-] [2+,0-]
三、决策树学习常见问题
对于右儿子{D4,D5,D6,D10,D14}, “Wind”被选:
三、决策树学习常见问题
对于根结点,“Outlook”被选作最佳划分:
{D1,D2,D3,D4,D5,D6,D7,D8, D9,D10,D11,D12,D13,D14}
[9+,5-]
Outlook
Sunny
Overcast
Rain
{D1,D2,D8, D9,D11} [2+,3-]
{D3,D7, D12,D13} [4+,0-]
结点都是叶子结点
三、决策树学习常见问题
可见,决策树的学习是一个递归过程,过程的实现 还需要解决以下六个方面的问题: 1)最佳划分的度量问题 2)处理缺失属性值问题 3)处理连续属性值问题 4)叶子结点的判定问题 5)怎样解决过拟合问题 6)待测样本的分类问题
三、决策树学习常见问题
1)最佳划分的度量问题: 从决策树学习基本算法的步骤可以看出,决策树学
的不纯度度量,令 为结点 中第 类样本所占有 的比例,则结点 的不纯度度量主要包括: 熵:
基尼指数: 误分类率:
其中,为类别数目,并且在计算熵时,令
三、决策树学习常见问题
1)最佳划分的度量问题: 由此,我们就可以得到以下3种选择最佳划分的度
量标准: 熵减最大:
基尼指数减最大:
决策树学习是一种逼近离散值目标函数的方法,学 习到的函数被表示为一棵决策树。
一、决策树学习基础知识
一棵决策树一般包含一个根结点、若干个内部结点 和若干个叶子结点。
叶子结点对应于决策结果; 每个内部结点对应于一个属性测试,每个内部结点
包含的样本集合根据属性测试的结果被划分到它的 儿子结点中; 根结点包含全部训练样本。 从根结点到每个叶子结点的路径对应了一条决策规 则。
Wind
High
Normal [4+,0-] Strong
Weak
{D1,D2,D8} {D9,D11} [0+,3-] [2+,0-]
{D6,D14} {D4,D5,D10} [0+,2-] [3+,0-]
三、决策树学习常见问题
对于整个样本集S,按信息增益度量生成的决策树:
Sunny
Outlook Overcast
{D1,D2,D3,D4,D5,D6,D7,D8,
D9,D10,Dபைடு நூலகம்1,D12,D13,D14}
{D1,D2,D8,
[9+,5-]
{D4,D5,D6,
D9,D11} [2+,3-]
Outlook
D10,D14} [3+,2-]
Sunny
Overcast
Rain
Humidity
{D3,D7, D12,D13}
[9+,5-]
Outlook
E(S)=-9/14log29/14-5/14log25/14 E(SSunny)=-2/5log22/5-3/5log23/5 E(SOvercast)=-4/4log24/4-0/4log20/4
Sunny
Overcast
Rain
E(SRain)=-3/5log23/5-2/5log22/5
三、决策树学习常见问题
1)最佳划分的度量问题: 为了克服信息增益度量和增益率度量的问题,平均
增益AverGain度量[Wang & Jiang, 2007]被提出。平 均增益度量用划分属性取值的个数来替换属性的分 裂信息,不仅惩罚了属性值较多的属性,还避免了 增益率度量的实际问题。具体的度量公式如下:
{D4,D5,D6, D10,D14} [3+,2-]
三、决策树学习常见问题
对于左儿子{D1,D2,D8,D9,D11}, “Humidity”被选:
{D1,D2,D3,D4,D5,D6,D7,D8,
D9,D10,D11,D12,D13,D14}
{D1,D2,D8,
[9+,5-]
D9,D11} [2+,3-]
度和均匀性:
其中, 是当前结点中划分属性第 个属性值所占 有样本的比例。 分裂信息实际上就是当前结点关于划分属性各值的 熵,它可以阻碍选择属性值均匀分布的属性。
三、决策树学习常见问题
1)最佳划分的度量问题: 但同时也产生了一个新的实际问题:当划分属性在
当前结点中几乎都取相同的属性值时,会导致增益 率无定义或者非常大(分母可能为0或者非常小)。 为了避免选择这种属性,C4.5决策树算法[Quinlan, 1993]并不是直接选择增益率最大的划分属性,而 是使用了一个启发式方法:先计算每个属性的信息 增益及平均值,然后仅对信息增益高于平均值的属 性应用增益率度量。
平均熵减最大:
k AverEntropy Reduction
EntropyReduction
平均基尼指数减最大:
AverGiniReduction
GiniReduction k
平均误分类率减最大: AverErrorReduction