决策树完整课件

合集下载

人工智能之决策树ppt课件

人工智能之决策树ppt课件
分支
连接节点之间的路径,代表不同 的决策路径。
决策树学习算法分类
ID3算法
基于信息增益进行特征选择,适用于离散型特征。
C4.5算法
在ID3算法基础上进行改进,支持连续型特征处理, 引入剪枝技术防止过拟合。
CART算法
既可用于分类也可用于回归任务,基于基尼指数 进行特征选择,生成二叉树结构。
应用场景举例
提高泛化能力
02
剪枝后的决策树更加简洁,能够更好地适应新数据,提高模型
的泛化能力。
减少计算资源消耗
03
简化决策树结构可以降低模型训练和预测的计算复杂度,节省
计算资源。
预剪枝策略及实现方法
设定决策树生长的最大深度
在决策树生长过程中,限制其最大深度,防止 过深导致过拟合。
设定叶节点最小样本数
当某个节点的样本数小于设定值时,停止对该 节点的划分,将其作为叶节点。
利用统计学方法进行剪枝
基于统计学原理,对决策树节点进行假设检验,判断是否需要继续划分。
后剪枝策略及实现方法
错误率降低剪枝(Reduced-Error Prun…
自下而上地对决策树进行剪枝,如果剪去某个子树后,整体错误率降低,则进行剪枝。
代价复杂度剪枝(Cost-Complexity Pr…
引入代价复杂度参数,通过最小化整体代价(错误率与复杂度之和)来进行剪枝。
THANKS
感谢观看
集成学习方法在决策树中应用
Bagging方法
通过自助采样法生成多个数据集, 分别训练决策树模型,再对多个 模型的结果进行投票或平均,降 低模型方差。
Boosting方法
通过迭代训练多个弱分类器,将 每个弱分类器的结果加权求和, 得到强分类器,提高模型性能。

高中信息技术浙教版:决策树教学课件(共27张PPT)

高中信息技术浙教版:决策树教学课件(共27张PPT)
第五步:使用Python库测试结果可视化
第一步:收集数 据
第三步:向Python导入 数据
第四步:使用Python库sklearn训练
第二步:分割数据
课堂小结
一、2017年度重点工作项目完成情况
1 决策树分类概念 2 构建决策树
3 举例说明:鸢尾花分类
备未用来:的深深度度学学习习:人工智能
展望与挑战
“温度”是多余的特点
如何判断某一天游客是否会来游乐场游玩?
天气、温度、湿度
2.4.1决策树分类概念
建立决策树的过程 选择一个属性值,基于这个属性对样本集进行划分,得到子集划分结果。
再选择其他属性,对得到的划分结果进行划分,直至最后所得划分结果中每 个样本为同一个类别。
2.4.2构建决策树
构建决策树来解决实际生活中的问题时,需按照一定的顺序选择划分属 性。通常,性能好的决策树随着划分不断进行,决策树分支节点的“纯度” 会越来越高,即其所包含样本尽可能属于相同类别。为了逐次选出最优属 性,可以采用信息增益(informationgain)这一指标。
2.4.2构建决策树
练一练: 1.计算表2.4.1中温度高低、湿度大小、风力强弱三个气象特点的信息增益。
思考: 将天气状况、温度高低、湿度大小、风力强弱作为分支点来构造图2.4.1决策
树时,是否信息增益大的气象特点离根节点越近?
【练一练】: 如下表所示,每朵鸢尾花有萼片长度、萼片宽度、花瓣长度、花瓣宽度四个
4个属性 1个标签 1 Label 4 Features 用来标记种类
序号 Index 0-149, 一共150个样本
基于鸢尾花数据集
例:鸢尾花数据集是常用的分类实验数据集,由Fisher1936收集整理。 Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含 150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通 过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于 (Sentosa 0,Versicolor 1,Virginia 2)三个种类中的哪一类。

决策树ppt课件

决策树ppt课件
建设小工厂投资280万元,如销路好,3年后扩建,扩 建需要投资400万元,可使用7年,每年赢利190万元。 不扩建则每年赢利80万元。如销路不好则每年赢利60 万元。
试用决策树法选出合理的决策方案。 经过市场调查, 市场销路好的概率为0.7,销路不好的概率为0.3。
15
680万元 2
建大厂
该承包商过去也承包过与A、B类似的工程,根 据统计资料,每种方案的利润和出现的概率如 下表所示。投标不中时,则对A损失50万元, 对B损失100万元。根据上述情况,试画出决 策树
11
方案 A高 A低 B高 B低
效果
优 一般 赔 优 一般 赔 优 一般 赔 优 一般 赔
可能的利润(万元)
5000 1000 -3000 4000 500 -4000 7000 2000 -3000 6000 1000 -1000
10
例2
某承包商拥有的资源有限,只能在A和B两个工 程中选A或B进行投标,或者对这两项工程都不 参加投标。
但根据过去该承包商投标经验资料,他对A或B 投标又有两种策略:一种是投高标,中标的机会 是0.3;另一种是投低标,中标的机会是0.5。 这样共有A高、A低、不投、B高和B低五种方 案。
叫做方案枝; C、在每个方案枝的末端画一个圆圈,这个圆
圈称为概率分叉点,或自然状态点; D、从自然状态点引出代表各自然状态的分枝,
称为概率分枝; E、如果问题只需要一级决策,则概率分枝末
端画三角形,表示终点 。
3
1
决策 结点
概率分叉点
(自然状态点) 概率枝
方案分枝 2
概率枝
方案分枝
概率枝
益期望值分别为125、0、620和1100。 至此,承包商可做出决策,如投A工程,

机器学习-决策树 -ppt课件

机器学习-决策树 -ppt课件

取表达式规则。
编辑版pppt
4
例如:我们要对“这是好瓜吗”这样的问题进行决策时,通常 会进行一系列的判断:我们先看“它是什么颜色”,如果是“青 绿色”再看“它的根蒂是什么形态”,如果是“蜷缩”,我们在判 断“它敲起来是什么声音”,最后,我们得出最终的决策:这是 个好瓜,这个过程如下:
决策树的基本组成部分:决策结点、分支和叶子。
一般而言,信息增益越大,则意味着使用属性a来进行划分所 获得的“纯度”(即分支节点所包含的样本尽可能属于同一类 别)编辑版pppt9
以下表的西瓜数据为例
编辑版pppt
10
以属性“色泽”为例,它有三个可能取值{青绿,乌 黑,浅白},记为:D1==青绿,D2=乌黑,D3=浅白算 D1包含{1,4,6,10,13,17}6个样例,其中正比例 P1=3/6,反比例P2=3/6;D2包含{2,3,7,8,9,15}6个 样例,其中正比例P1=4/6,反比例P2=2/6;D3包含 {5,11,12,14,16}5个样例,其中正比例P1=1/5,反比 例P2=4/5。
编辑版pppt
5
决策树算法
目前已有多种决策树算法:CLS、ID3、CHAID、C4.5、 CART、 SLIQ、SPRINT等。 著名的ID3(Iterative Dichotomiser3)算法是 J.R.Quinlan在1986 年提出的,该算法引入了信息论中的理论,是基于信息 熵的决策树分类算法。
编辑版pppt
3
基本流程
构造过程:
决策树是以实例为基础的归纳学习算法。它从一组无次
序、无规则的元组中推理出决策树表示形式的分类规则;
采用自顶向下递归方式,在决策树的内部节点进行属性
值的比较,并根据不同的属性值从该节点向下分支,而

决策树ppt课件

决策树ppt课件
决策树在分类问题中应用
分类问题背景介绍
分类问题是机器学习中一类重要 的问题,旨在将数据划分为不同
的类别。
在现实世界中,分类问题广泛存 在,如垃圾邮件识别、疾病诊断、
信用评分等。
分类算法的目标是通过学习训练 数据中的特征与类别之间的关系, 从而对新的未知数据进行类别预
测。
决策树在分类问题中优势
直观易理解
决策树在处理缺失值和异常值时容易受到干扰,可能导致模型性能下降。可以通过数据 预处理等方法减少缺失值和异常值对模型的影响。
CART算法实例演示
实例背景
假设有一个关于信用卡欺诈的数据集,包含多个特征(如交 易金额、交易时间、交易地点等)和一个目标变量(是否欺 诈)。我们将使用CART算法构建一个分类模型来预测交易 是否属于欺诈行为。
构建决策树时间较长
C4.5算法在构建决策树时需要计算每 个特征的信息增益比,当数据集较大 或特征较多时,构建决策树的时间可 能会较长。
C4.5算法实例演示
数据集介绍
以经典的鸢尾花数据集为例,该数据集包含150个 样本,每个样本有4个特征(花萼长度、花萼宽度、 花瓣长度、花瓣宽度)和1个标签(鸢尾花的类 别)。
建造年份等特征。
选择合适的决策树算法 (如CART、ID3等),
对数据进行训练。
模型评估与优化
采用均方误差等指标评 估模型性能,通过调整 参数、集成学习等方法
优化模型。
结果展示与解读
展示决策树图形化结果, 解释每个节点含义及预
测逻辑。
08
CATALOGUE
总结与展望
决策树模型总结回顾
模型原理
决策树通过递归方式将数据集划分为若干个子集,每个子 集对应一个决策结果。通过构建树形结构,实现分类或回 归任务。

决策树培训讲义(PPT 49页)

决策树培训讲义(PPT 49页)

Married 100K No
Single 70K
No
Married 120K No
Divorced 95K
Yes
Married 60K
No
Divorced 220K No
Single 85K
Yes
Married 75K
No
Single 90K
Yes
3. samples = { 2,3,5,6,8,9,10 } attribute_list = { MarSt, TaxInc }
选择TaxInc为最优分割属性:
Refund
Yes
No
NO < 80K
Single TaxInc
MarSt
Married Divorced
>= 80K
NO
YES
▪ 问题1:分类从哪个属性开始?
——选择分裂变量的标准
▪ 问题2:为什么工资以80为界限?
——找到被选择的变量的分裂点的标准( 连续变量情况)
分类划分的优劣用不纯性度量来分析。如果对于所有
分支,划分后选择相同分支的所有实例都属于相同的类,
则这个划分是纯的。对于节点m,令 N m 为到达节点m的训练
实例数,
个实例中
N
i m
个属于Ci
类,而
N
i m
Nm 。如果一
个实例到节点m,则它属于 类的概率估i 计为:
pˆ (Ci
|
x, m)
pmi
N
i m
10
Single 125K No
Married 100K No
Single 70K
No
Married 120K No

管理学A决策树PPT课件

管理学A决策树PPT课件
方案的舍弃叫做修枝,被舍弃的方案用“≠”的记号来表示,最后的决策 点留下一条树枝,即为最优方案。
5
第5页/共13页
例如: A1、A2两方案投资分别为450万和240万,经营年限为5年,销路好的概 率为0.7,销路差的概率为0.3,A1方案销路好、差年损益值分别为300万 和负60万;A2方案分别为120万和30万。
3
560万元
190万元 80万元
719万元 前3年,第一次决策
销路差(0.3) 后7年,第二次决策
60万元
9
第9页/共13页
➢计算各点的期望值: • 点②:0.7×200×10+0.3×(-40)×10-600(投资)
=680(万元) • 点⑤:1.0×190×7-400=930(万元) • 点⑥:1.0×80×7=560(万元) ➢比 较 决 策 点 4 的 情 况 可 以 看 到 , 由 于 点 ⑤ ( 9 3 0 万 元 )
与点⑥(560万元)相比,点⑤的期望利润值较大, 因此应采用扩建的方案,而舍弃不扩建的方案。 ➢把点⑤的930万元移到点4来,可计算出点③的期望 利润值: • 点③:0.7×80×3+0.7×930+0.3×60×(3+7)280 = 719(万元)
10
第10页/共13页
➢ 最后比较决策点1的情况: • 由于点③(719万元)与点②(680万元)相比,点③的期望利润值较大,因此取点③而舍点②。这样,相
行动方案A2的效益期望值:
(3)将效益期望值填入决策树图 首先在每个结果点后 面填上相应的效益期望值;其次在每个方案节点上填上相 应的期望值,最后将期望值的角色分支删减掉。只留下期 望值最大的决策分支,并将此数值填入决策点上面,至此 决策方案也就相应选出

决策树模型简介decision trees PPT课件

决策树模型简介decision trees PPT课件
1—2—34 1—3—24 1—4—23 2—3—14 2—4—13 3—4—12
1—2—3—4
S (L,B ) B S (L 1,B ) S (L 1,B 1)
B: 2 3
4 t ot a l
21
1
33 1
4
47 6
1
14
5 15 25 10 51
L 6 31 90 65 202
7 63 301 350 876
1
1


2 L 1
1
L个水平的等级变量分裂成B个分支可能的数量
仅有一个等级变量
X ln(X) rank(X)
.20 1.7 3.3 3.5 14 2515
–1.6 .53 1.2 1.3 2.6 7.8
1
2345
6
potential split locations
名义变量的分裂
1—234 2—134 3—124 4—123 12—34 13—24 14—23
韩国的 Young Moon Chae 与 Seung Hee Ho 等人利用以监测卫生状态和开发国民健康促进程 序为特征的韩国医疗保险公司数据库,成功地将 决策树应用于人群健康状态评估以及为高血压管 理提供政策信息。
决策树简述
决策树(decision trees)也称判定树,是一个 类似于流程图的树结构,其中每个内部节点表示 在一个属性上的测试,每个分支代表一个测试输 出,而每个树叶节点代表类或类分布。树的最顶 层节点是根节点。
Kass (1980) Within-node sampling Minimum child size
穷举搜索考虑了输入变量所有的在每个结点可能的分裂 。穷举搜索易造成组合爆炸代价昂贵。

决策树66页PPT

决策树66页PPT
• 最流行的决策树算法C4.5
[J. R. Quinlan’s book “C4.5: Programs for Machine Learning” published by Morgan Kaufmann in 1993]
决策树学习算法
• 决策树研究历史
• 通用的决策树算法CART (Classification and Regression Tree)
• 当N节点上的所有模式都来自同一类时,i(N)=0; • 当N节点上的模式类别分布均匀时,i(N)应很大
测试的选取
• 常用不纯度度量
• 熵不纯度(entropy impurity) P(j)属 于 样 本 j的 总 样 个 本 数 个 数
• Gini不纯度
• 误分类不纯度
测试的选取
• 常用不纯度度量
[L. Breiman’s MLJ’01 paper “Random Forests”]Hale Waihona Puke 构造决策树• 基本过程
• 从上到下,分而治之(divide-and-conquer),递归生 长
• 最初,所有的样本都在根节点 • 所有属性都是标称型的(如果是连续数值型的,则需要
预先离散化)
• 所有样本根据每次选择出的属性递归的逐渐划分开来
• 真正引发决策树研究热潮的算法是ID3
[J. R. Quinlan’s paper in a book “Expert Systems in the Micro Electronic Age” edited by D. Michie, published by Edinburgh University Press in 1979]
• :节点N上样本总个数
• :其中属于 i 类的样本个数(i=1,2, …, m)

决策树(完整)ppt课件

决策树(完整)ppt课件
Gain(D,密度,0.381)
是7 否
Ent(D)[147Ent(Dt)1173Ent(Dt)]
是8
0.263
;.
28
与离散属性不同,若当前结 点划分属性为连续属性,该连续属 性还可被再次选作后代结点的最优 划分属性。
选择“纹理”作为根结点划分属性
;.
29
现实任务中,尤其在属性数目较多时,存在大量样本出现缺失值。 出于成本和隐私的考虑
;.
30
1. 属性值缺失时,如何进行划分属性选择?(如何计算信息增益) 2. 给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?
(对于缺失属性值的样本如何将它从父结点划分到子结点中)
D : D : 训练集
训练集中在属性a上没有缺失值的样本子集
D D v :
被属性a划分后的样本子集
D D k :
{8}和{10}同时进入三个分支中,权值分别为:
7,5,3 15 15 15
;.
36
每个属性
~
d个属性描述的样本
~
对样本分类
~
坐标空间中的一个坐标轴 d维空间中的一个数据点 在坐标空间中寻找不同类样本之间的分类边界
决策树形成的分类边界的明显特点:轴平行,分类边界由若干个与坐标轴平行的分段组 成。
优点:学习结果解释性强,每个划分都对应一个属性取值
;.
1
第4章 决策树
根据训练数据是否拥有标记信息
学习任务
监督学习(supervised learning)
无监督学习(unsupervised learning)
半监督学习(semi-supervised learning)
强化学习(reinforcement learning)

决策树课件PPT精品文档61页

决策树课件PPT精品文档61页
Clementine的决策树
主要内容
决策树算法概述 从学习角度看,决策树属有指导学习算法 目标:用于分类和回归
C5.0算法及应用 分类回归树及应用 CHAID算法及应用 QUEST算法及应用 模型的对比分析
决策树算法概述:基本概念
得名其分析结论的展示方式类似一棵倒置的树
C5.0算法:熵
例如:二元信道模型
P(u1|v1) P(u1|v2)
P P((u u2 2||vv12))P P 1 12 1P P 2 21 2
C5.0算法:熵
先验不确定性:通信发生前,信宿对信源的状态具 有不确定性
后验不确定性:通信发生后,信宿收到发自信源的 信息,先验不确定性部分被消除,信宿对信源仍有 一定程度的不确定性 后验不确定性等于先验不确定性,表示信宿没有 收到信息; 后验不确定性等于零,表示信宿收到了全部信息 信息是用来消除随机不确定性的,信息量的大小 可由所消除的不确定性大小来计量
C5.0算法:熵
信息熵是信息论(C.E.Shannon,1948)中的基本概 念。信息论主要用于解决信息传递过程中的问题 ,也称统计通信理论
信息论的基本出发点认为:
信息传递通过由信源、信道和信宿组成的传递 系统实现
信源(发送端) 信道
信宿(接收端)
C5.0算法:熵
信息论的基本出发点认为: 传递系统存在于一个随机干扰环境之中 将发送的信息记为U,接收的信息记为V,那么 信道可看作为信道模型,记为P(U|V)
决策树算法概述:核心问题
第一,决策树的生长 利用训练样本集完成决策树的建立过程
第二,决策树的剪枝 利用测试样本集对所形成的决策树进行精简
决策树算法概述:树生长

第四章-决策树PPT课件

第四章-决策树PPT课件

34
可解释性
➢ 决策边界是平行坐标轴的 ➢ 对于过于复杂的问题,会导致很多小的划分
35
总结
优点
生成可理解的规则
分类时计算代价很小
能够选出对分类比较重要的属性
对长方形分布的样本处理很好
缺点
+++----------------+++----------------+++--------+++-------- ++++++++---++++++++------++++++++------+++++++++++++++----+++----++++----+++----+++++++----++++
纹理(15个样本) :{1, 2, 3, 4, 5, 6, 7, 9, 11, 12, 13, 14, 15, 16, 17} 稍糊(5个样本): {7,9,13,14,17} 清晰(7个样本): {1,2,3,4,5,6,15} 模糊(3个样本): {11,12,16} 缺失纹理属性取值的样本:{8,10}
• Wikipedia page for decision tree: /wiki/Decision_tree_learning
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 不会是负数
• 不确定性函数 f 是概率 p 的单调递减函数;
• 可加性:两个独立符号所产生的不确定性应等于各自不确定性之和,即
f ( p1 p2 ) f ( p1) f ( p2 )
同时满足这三个条件的函数 f 是负的对数函数,即
f ( pi ) log
1 pi
log
pi
强化学习(reinforcement learning)
分类、回归 聚类
半监督学习:输入数据部分被标识,部分没有被标识,介于监督学习与非监督学 习之间。
决策树(decision tree)模型常常用来解决分类和回归 问题。常见的算法包括 CART (Classification And Regression Tree)、ID3、C4.5等。
若把“编号”也作为一个候选划分属性,则属性“编号”的信息 增益为:
根结点的信息熵仍为: Ent(D) 0.998
用“编号”将根结点划分后获 得17个分支结点的信息熵均为:
Ent(D1)

Ent(D17
)

(1 1
log2
1 1

0 1
log2
0) 1
0ຫໍສະໝຸດ 则“编号”的信息增益为:17
点能带来决策树泛化性能提升,则将该子树替换为叶结点。
训练集:好瓜 坏瓜 1,2,3,6,7,10,14,15,16,17
验证集:4,5,8,9,11,12
6,7,15,17
4,13 (T,F)
5 (F) 6
6,7,15 17 7,15
7
15
9
8
(F)
(F)
11,12 (T,T)
《机器学习》周志华
• 第4章 决策树 • 第5章 神经网络和深度学习 • 第6章 支持向量机 • 第8章 集成学习 • 第9章 聚类 • 关联规则学习
第4章 决策树
根据训练数据是否拥有标记信息
监督学习(supervised learning)
(xi , yi )
学习任务

无监督学习(unsupervised learning) 半监督学习(semi-supervised learning)
三种度量结点“纯度”的指标: 1. 信息增益 2. 增益率 3. 基尼指数
1. 信息增益 信息熵
香农提出了“信息熵”的概念,解决了对信息的量化 度量问题。
香农用“信息熵”的概念来描述信源的不确定性。
对于二分类任务 y 2
假设我们已经知道衡量不确定性大小的这个量已经存在了,不妨就叫 做“信息量”
SUCCESS
THANK YOU

预剪枝使得决策树的很 多分支都没有“展开”
优点: • 降低过拟合的风险 • 减少了训练时间开销
和测试时间开销
不足: • 基于“贪心”本质禁止某些分支展开,带来了欠拟合的风险
后剪枝
先从训练集生成一棵完整的决策树,然后自底向上地
对非叶结点进行考察,若将该结点对应的子树替换为叶结
3. 基尼指数 基尼值
基尼指数
著名的CART决策树算法
• 过拟合:学习器学习能力过于强大,把训练样本自身的一些特点当作了 所有潜在样本都会具有的一般性质,导致泛化性能下降。
• 欠拟合:学习器学习能力低下,对训练样本的一般性质尚未学好。
过拟合无法彻底避免,只能做到“缓解”。
剪枝,即通过主动去掉一些分支来降低过拟合的风险。
1,2,3,4,5 6,8,15
10
6
8,15
8
15
第(2)种情形:设定为该结点所含样本 最多的类别 利用当前结点的后验分布
第(3)种情形:设定为其父结点所含样 本最多的类别 把父结点的样本分布作为当前结点的先验 分布
决策树学习的关键是算法的第8行:选择最优划分属性
什么样的划分属性是最优的?
我们希望决策树的分支结点所包含的样本尽可能属于 同一类别,即结点的“纯度”越来越高,可以高效地从根 结点到达叶结点,得到决策结果。
一个事件的信息量就是这个事件发生的概率的负对数。
信息熵是跟所有事件的可能性有关的,是平均而言发生一个事件得到 的信息量大小。所以信息熵其实是信息量的期望。
n
E[ log pi ] pi log pi i 1
信息增益
一般而言,信息增益越大,则意味着使用属性a来进行划分所获得 的“纯度提升”越大。
二分类学习任务 属性 属性值
• 根结点:包含全部样本 • 叶结点:对应决策结果 “好瓜” “坏
瓜” • 内部结点:对应属性测试
决策树学习的目的:为了产生一颗泛化能力强的决策树, 即处理未见示例能力强。
Hunt算法:
无需划分
无法划分 无法划分
不能划分 不能划分
1,2,3,4,5,6,8,10,15
决策树算法第8行选择属性 著名的ID3决策树算法
举例:求解划分根结点的最优划分属性
数据集包含17个训练样例:
8个正例(好瓜)占 9个反例(坏瓜)占
p1

8 17
p2

9 17
对于二分类任务
以属性“色泽”为例计算其信息增益
y 2
根结点的信息熵:
用“色泽”将根结点划分后获得3个分支结点的信息熵分别为: 属性“色泽”的信息增益为:
预剪枝 决策树的剪枝策略
后剪枝
预剪枝:在决策树生成过程中,对每个结点在划分前先进行估计, 若当前结点的划分不能带来决策树泛化性能提升,则停止划分并 将当前结点标记为叶结点
后剪枝:先从训练集生成一棵完整的决策树,然后自底向上地对 非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来 决策树泛化性能提升,则将该子树替换为叶结点。 留出法:将数据集D划分为两个互斥的集合:训练集S和测试集T
Gain(D,编号) Ent(D)
1 Ent(Dv ) 0.998
v1 17
远大于其他候选属性
信息增益准则对可取值数目较多的属性有所偏好
2. 增益率
增益率准则对可取值数目较少的属性有所偏好 著名的C4.5决策树算法综合了信息增益准则和信息率准则的特 点:先从候选划分属性中找出信息增益高于平均水平的属性,再从 中选择增益率最高的。
D S T 且 S T
预剪枝
训练集:好瓜 坏瓜 1,2,3,6,7,10,14,15,16,17
1,2,3,14
6,7,15,17
精度:正确分类的样本占所有 样本的比例
验证集:4,5,8,9,11,12,13
=3 7
=5
10,16
7
4,5,13 (T,T,F)
8,9 (T,F)
11,12 (T,T)
相关文档
最新文档