决策树算法及应用拓展教材ppt(41张)
合集下载
机器学习-决策树-ppt
例如:我们要对“这是好瓜吗”这样的问题进行决策时,通常 会进行一系列的判断:我们先看“它是什么颜色”,如果是“青 绿色”再看“它的根蒂是什么形态”,如果是“蜷缩”,我们在判 断“它敲起来是什么声音”,最后,我们得出最终的决策:这是 个好瓜,这个过程如下:
决策树的基本组成部分:决策结点、分支和叶子。
主要内容
决策树基本概念 基本流程 划分选择 剪枝处理
决策树
决策树基本概念
决策树是数据挖掘分类算法的一个重要方法。在各种分类算 法中,决策树是最直观的一种。在机器学习中也是一种常用方法。
我们希望从给定的训练集中学得一个模型用来对新示例进行 分类,这一分类过程称为“决策”过程。决策树是基于树结构进 行决策的。
一般而言,信息增益越大,则意味着使用属性a来进行划分所 获得的“纯度”(即分支节点所包含的样本尽可能属于同一类 别)
以下表的西瓜数据为例
以属性“色泽”为例,它有三个可能取值{青绿,乌 黑,浅白},记为:D1==青绿,D2=乌黑,D3=浅白算 D1包含{1,4,6,10,13,17}6个样例,其中正比例 P1=3/6,反比例P2=3/6;D2包含{2,3,7,8,9,15}6个 样例,其中正比例P1=4/6,反比例P2=2/6;D3包含 {5,11,12,14,16}5个样例,其中正比例P1=1/5,反比 例P2=4/5。
决策树算法
目前已有多种决策树算法:CLS、ID3、CHAID、C4.5、 CART、 SLIQ、SPRINT等。 著名的ID3(Iterative Dichotomiser3)算法是 J.R.Quinlan在1986 年提出的,该算法引入了信息论中的理论,是基于信息 熵的决策树分类算法。
决策树ID3算法
剪枝分为“预剪枝”和“后剪枝”。预剪枝是在 决策树生成过程中,对每个节点在划分之前先 进行估计,若当前节点的划分不能带来决策树 的泛化性能的提升,则停止划分并将当前节点 标记为叶节点。
决策树方法(课件人教新课标)
几个易损零件,为此搜集并整理了 台这种机器在三年使用期内更换的易损零
件数,得下面柱状图:
频数
以这100台机器更换的易损零件数的频率代替1台机
40
器更换的易损零件数产生的概率,记X表示2台机器三
年内共需更换的易损零件数,n表示购买2台机器的同
20
时购买的易损零件数.
0
8
9
10
11 更换的易损零件数
(1)求X的散布列;(2)若要求( ≤ ) ≥ 0.5,确定n的最小值;
决策树方法
生活就是所有选择的总和.
,可选择的种植量有三种:
大量、适量、少量. 根据收集到的市场信息,可知未来市场出现好、
中、差3种情况的概率分别为0.3、0.5、0.2. 这位农民根据过去的
经验,得到如下收入表(单位:千元)
市场情况
收入
种植方案
大量
30%;如果邀请一位伙伴共同参加挑战,成功概率上升为50%,
而积分的嘉奖或扣除也将由两人平摊.请问从个人积分损益情况
来看,是否该邀请伙伴共同面对挑战呢?
小试牛刀
解:这个问题的决策目标是使挑战获得最多的积分
收益,所能采取的全部行动方案包括:
1 :一人独自挑战, 2 :两人共同挑战
所面临的状态包括:
度来说,应该选择哪种投资方案?
例题讲授
解:这个问题的决策目标是使投资获得最大的利润,所能采
取的全部行动方案包括:
1 :稳妥投资, 2 :风险投资
所面临的状态包括:
ℎ1 :成功,
ℎ2 :失败
h
ℎ1
ℎ2
P(h)
0.9
0.1
q(1 , ℎ1 )=1300
q(2 , ℎ1 )=1500
件数,得下面柱状图:
频数
以这100台机器更换的易损零件数的频率代替1台机
40
器更换的易损零件数产生的概率,记X表示2台机器三
年内共需更换的易损零件数,n表示购买2台机器的同
20
时购买的易损零件数.
0
8
9
10
11 更换的易损零件数
(1)求X的散布列;(2)若要求( ≤ ) ≥ 0.5,确定n的最小值;
决策树方法
生活就是所有选择的总和.
,可选择的种植量有三种:
大量、适量、少量. 根据收集到的市场信息,可知未来市场出现好、
中、差3种情况的概率分别为0.3、0.5、0.2. 这位农民根据过去的
经验,得到如下收入表(单位:千元)
市场情况
收入
种植方案
大量
30%;如果邀请一位伙伴共同参加挑战,成功概率上升为50%,
而积分的嘉奖或扣除也将由两人平摊.请问从个人积分损益情况
来看,是否该邀请伙伴共同面对挑战呢?
小试牛刀
解:这个问题的决策目标是使挑战获得最多的积分
收益,所能采取的全部行动方案包括:
1 :一人独自挑战, 2 :两人共同挑战
所面临的状态包括:
度来说,应该选择哪种投资方案?
例题讲授
解:这个问题的决策目标是使投资获得最大的利润,所能采
取的全部行动方案包括:
1 :稳妥投资, 2 :风险投资
所面临的状态包括:
ℎ1 :成功,
ℎ2 :失败
h
ℎ1
ℎ2
P(h)
0.9
0.1
q(1 , ℎ1 )=1300
q(2 , ℎ1 )=1500
决策树ppt课件
建设小工厂投资280万元,如销路好,3年后扩建,扩 建需要投资400万元,可使用7年,每年赢利190万元。 不扩建则每年赢利80万元。如销路不好则每年赢利60 万元。
试用决策树法选出合理的决策方案。 经过市场调查, 市场销路好的概率为0.7,销路不好的概率为0.3。
15
680万元 2
建大厂
该承包商过去也承包过与A、B类似的工程,根 据统计资料,每种方案的利润和出现的概率如 下表所示。投标不中时,则对A损失50万元, 对B损失100万元。根据上述情况,试画出决 策树
11
方案 A高 A低 B高 B低
效果
优 一般 赔 优 一般 赔 优 一般 赔 优 一般 赔
可能的利润(万元)
5000 1000 -3000 4000 500 -4000 7000 2000 -3000 6000 1000 -1000
10
例2
某承包商拥有的资源有限,只能在A和B两个工 程中选A或B进行投标,或者对这两项工程都不 参加投标。
但根据过去该承包商投标经验资料,他对A或B 投标又有两种策略:一种是投高标,中标的机会 是0.3;另一种是投低标,中标的机会是0.5。 这样共有A高、A低、不投、B高和B低五种方 案。
叫做方案枝; C、在每个方案枝的末端画一个圆圈,这个圆
圈称为概率分叉点,或自然状态点; D、从自然状态点引出代表各自然状态的分枝,
称为概率分枝; E、如果问题只需要一级决策,则概率分枝末
端画三角形,表示终点 。
3
1
决策 结点
概率分叉点
(自然状态点) 概率枝
方案分枝 2
概率枝
方案分枝
概率枝
益期望值分别为125、0、620和1100。 至此,承包商可做出决策,如投A工程,
试用决策树法选出合理的决策方案。 经过市场调查, 市场销路好的概率为0.7,销路不好的概率为0.3。
15
680万元 2
建大厂
该承包商过去也承包过与A、B类似的工程,根 据统计资料,每种方案的利润和出现的概率如 下表所示。投标不中时,则对A损失50万元, 对B损失100万元。根据上述情况,试画出决 策树
11
方案 A高 A低 B高 B低
效果
优 一般 赔 优 一般 赔 优 一般 赔 优 一般 赔
可能的利润(万元)
5000 1000 -3000 4000 500 -4000 7000 2000 -3000 6000 1000 -1000
10
例2
某承包商拥有的资源有限,只能在A和B两个工 程中选A或B进行投标,或者对这两项工程都不 参加投标。
但根据过去该承包商投标经验资料,他对A或B 投标又有两种策略:一种是投高标,中标的机会 是0.3;另一种是投低标,中标的机会是0.5。 这样共有A高、A低、不投、B高和B低五种方 案。
叫做方案枝; C、在每个方案枝的末端画一个圆圈,这个圆
圈称为概率分叉点,或自然状态点; D、从自然状态点引出代表各自然状态的分枝,
称为概率分枝; E、如果问题只需要一级决策,则概率分枝末
端画三角形,表示终点 。
3
1
决策 结点
概率分叉点
(自然状态点) 概率枝
方案分枝 2
概率枝
方案分枝
概率枝
益期望值分别为125、0、620和1100。 至此,承包商可做出决策,如投A工程,
高中数学人教A版选修49 决策树方法 课件
高 中 数 学 人 教A版选 修49 决 策 树 方法 课 件
高 中 数 学 人 教A版选 修49 决 策 树 方法 课 件
其表如下:
好 概率为0.2
大量
9
中 概率为0.6
6
ห้องสมุดไป่ตู้
差 概率为0.2
-4
适量
7
4
2
问:该农民选择哪种方案更合适? (用决策树法作答)
高 中 数 学 人 教A版选 修49 决 策 树 方法 课 件
高 中 数 学 人 教A版选 修49 决 策 树 方法 课 件
高 中 数 学 人 教A版选 修49 决 策 树 方法 课 件
1.1 案例1最后表示为:
0.7 120
75
d1
0.3
-30
0.7 80
d2
62
0.3
20
高 中 数 学 人 教A版选 修49 决 策 树 方法 课 件
高 中 数 学 人 教A版选 修49 决 策 树 方法 课 件
决策树简介
机会点
状态枝
后果点
方案枝
决策点
高 中 数 学 人 教A版选 修49 决 策 树 方法 课 件
高 中 数 学 人 教A版选 修49 决 策 树 方法 课 件
名词解释
决策点:一般用方形框表示,决策 者在这里对各行动方案进行选择.
方案枝:由决策点引出的代表行动 方案的线段.
机会点:方案枝末端的圆. 状态枝:由机会点引出的代表可能 发生的状态的线段. 后果点:状态枝末端的三角形.
1.2 案例2中信息用决策树表示为:
0.6
100000
0.4
d1
d2
0.6
0.4
d3
高 中 数 学 人 教A版选 修49 决 策 树 方法 课 件
其表如下:
好 概率为0.2
大量
9
中 概率为0.6
6
ห้องสมุดไป่ตู้
差 概率为0.2
-4
适量
7
4
2
问:该农民选择哪种方案更合适? (用决策树法作答)
高 中 数 学 人 教A版选 修49 决 策 树 方法 课 件
高 中 数 学 人 教A版选 修49 决 策 树 方法 课 件
高 中 数 学 人 教A版选 修49 决 策 树 方法 课 件
1.1 案例1最后表示为:
0.7 120
75
d1
0.3
-30
0.7 80
d2
62
0.3
20
高 中 数 学 人 教A版选 修49 决 策 树 方法 课 件
高 中 数 学 人 教A版选 修49 决 策 树 方法 课 件
决策树简介
机会点
状态枝
后果点
方案枝
决策点
高 中 数 学 人 教A版选 修49 决 策 树 方法 课 件
高 中 数 学 人 教A版选 修49 决 策 树 方法 课 件
名词解释
决策点:一般用方形框表示,决策 者在这里对各行动方案进行选择.
方案枝:由决策点引出的代表行动 方案的线段.
机会点:方案枝末端的圆. 状态枝:由机会点引出的代表可能 发生的状态的线段. 后果点:状态枝末端的三角形.
1.2 案例2中信息用决策树表示为:
0.6
100000
0.4
d1
d2
0.6
0.4
d3
决策树ppt课件
决策树在分类问题中应用
分类问题背景介绍
分类问题是机器学习中一类重要 的问题,旨在将数据划分为不同
的类别。
在现实世界中,分类问题广泛存 在,如垃圾邮件识别、疾病诊断、
信用评分等。
分类算法的目标是通过学习训练 数据中的特征与类别之间的关系, 从而对新的未知数据进行类别预
测。
决策树在分类问题中优势
直观易理解
决策树在处理缺失值和异常值时容易受到干扰,可能导致模型性能下降。可以通过数据 预处理等方法减少缺失值和异常值对模型的影响。
CART算法实例演示
实例背景
假设有一个关于信用卡欺诈的数据集,包含多个特征(如交 易金额、交易时间、交易地点等)和一个目标变量(是否欺 诈)。我们将使用CART算法构建一个分类模型来预测交易 是否属于欺诈行为。
构建决策树时间较长
C4.5算法在构建决策树时需要计算每 个特征的信息增益比,当数据集较大 或特征较多时,构建决策树的时间可 能会较长。
C4.5算法实例演示
数据集介绍
以经典的鸢尾花数据集为例,该数据集包含150个 样本,每个样本有4个特征(花萼长度、花萼宽度、 花瓣长度、花瓣宽度)和1个标签(鸢尾花的类 别)。
建造年份等特征。
选择合适的决策树算法 (如CART、ID3等),
对数据进行训练。
模型评估与优化
采用均方误差等指标评 估模型性能,通过调整 参数、集成学习等方法
优化模型。
结果展示与解读
展示决策树图形化结果, 解释每个节点含义及预
测逻辑。
08
CATALOGUE
总结与展望
决策树模型总结回顾
模型原理
决策树通过递归方式将数据集划分为若干个子集,每个子 集对应一个决策结果。通过构建树形结构,实现分类或回 归任务。
分类问题背景介绍
分类问题是机器学习中一类重要 的问题,旨在将数据划分为不同
的类别。
在现实世界中,分类问题广泛存 在,如垃圾邮件识别、疾病诊断、
信用评分等。
分类算法的目标是通过学习训练 数据中的特征与类别之间的关系, 从而对新的未知数据进行类别预
测。
决策树在分类问题中优势
直观易理解
决策树在处理缺失值和异常值时容易受到干扰,可能导致模型性能下降。可以通过数据 预处理等方法减少缺失值和异常值对模型的影响。
CART算法实例演示
实例背景
假设有一个关于信用卡欺诈的数据集,包含多个特征(如交 易金额、交易时间、交易地点等)和一个目标变量(是否欺 诈)。我们将使用CART算法构建一个分类模型来预测交易 是否属于欺诈行为。
构建决策树时间较长
C4.5算法在构建决策树时需要计算每 个特征的信息增益比,当数据集较大 或特征较多时,构建决策树的时间可 能会较长。
C4.5算法实例演示
数据集介绍
以经典的鸢尾花数据集为例,该数据集包含150个 样本,每个样本有4个特征(花萼长度、花萼宽度、 花瓣长度、花瓣宽度)和1个标签(鸢尾花的类 别)。
建造年份等特征。
选择合适的决策树算法 (如CART、ID3等),
对数据进行训练。
模型评估与优化
采用均方误差等指标评 估模型性能,通过调整 参数、集成学习等方法
优化模型。
结果展示与解读
展示决策树图形化结果, 解释每个节点含义及预
测逻辑。
08
CATALOGUE
总结与展望
决策树模型总结回顾
模型原理
决策树通过递归方式将数据集划分为若干个子集,每个子 集对应一个决策结果。通过构建树形结构,实现分类或回 归任务。
决策树培训讲义(PPT 49页)
Married 100K No
Single 70K
No
Married 120K No
Divorced 95K
Yes
Married 60K
No
Divorced 220K No
Single 85K
Yes
Married 75K
No
Single 90K
Yes
3. samples = { 2,3,5,6,8,9,10 } attribute_list = { MarSt, TaxInc }
选择TaxInc为最优分割属性:
Refund
Yes
No
NO < 80K
Single TaxInc
MarSt
Married Divorced
>= 80K
NO
YES
▪ 问题1:分类从哪个属性开始?
——选择分裂变量的标准
▪ 问题2:为什么工资以80为界限?
——找到被选择的变量的分裂点的标准( 连续变量情况)
分类划分的优劣用不纯性度量来分析。如果对于所有
分支,划分后选择相同分支的所有实例都属于相同的类,
则这个划分是纯的。对于节点m,令 N m 为到达节点m的训练
实例数,
个实例中
N
i m
个属于Ci
类,而
N
i m
Nm 。如果一
个实例到节点m,则它属于 类的概率估i 计为:
pˆ (Ci
|
x, m)
pmi
N
i m
10
Single 125K No
Married 100K No
Single 70K
No
Married 120K No
决策树学习培训讲义(PPT38张)
Attrib2 Large Medium Small Medium Large Medium Large Small Medium Small
Attrib3 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
Class No No No No Yes No No Yes No Yes
Attrib2 Small Medium Large Small Large
Attrib3 55K 80K 110K 95K 67K
Class ? ? ? ? ?
演绎
测试集
9
决策树应用
测试数据 从根节点开始
R e f u n d M a r it a l S t a t u s N o M a r r ie d T a x a b le h e a t In c o m e C 8 0 K ?
T a x a b le In c o m e 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
C heat No No No No Yes No No Yes No Yes
基本算法
Don’t Cheat
1 2 3 4
Yes No No Yes No No Yes No No No
i 1
其中p是在S中正例的比例,pΘ是在S中负例的比例。在有关熵的所 有计算中我们定义0log0为0。
22
例子
C 1 C 2
C1 C2
0 6
1 5
Entropy = -(0/6)log(0/6)-(6/6)log(6/6)=0
Entropy = 1-(1/6)log(1/6)-(5/6)log(5/6)=0.650
决策树(完整)ppt课件
Gain(D,密度,0.381)
是7 否
Ent(D)[147Ent(Dt)1173Ent(Dt)]
是8
0.263
;.
28
与离散属性不同,若当前结 点划分属性为连续属性,该连续属 性还可被再次选作后代结点的最优 划分属性。
选择“纹理”作为根结点划分属性
;.
29
现实任务中,尤其在属性数目较多时,存在大量样本出现缺失值。 出于成本和隐私的考虑
;.
30
1. 属性值缺失时,如何进行划分属性选择?(如何计算信息增益) 2. 给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?
(对于缺失属性值的样本如何将它从父结点划分到子结点中)
D : D : 训练集
训练集中在属性a上没有缺失值的样本子集
D D v :
被属性a划分后的样本子集
D D k :
{8}和{10}同时进入三个分支中,权值分别为:
7,5,3 15 15 15
;.
36
每个属性
~
d个属性描述的样本
~
对样本分类
~
坐标空间中的一个坐标轴 d维空间中的一个数据点 在坐标空间中寻找不同类样本之间的分类边界
决策树形成的分类边界的明显特点:轴平行,分类边界由若干个与坐标轴平行的分段组 成。
优点:学习结果解释性强,每个划分都对应一个属性取值
;.
1
第4章 决策树
根据训练数据是否拥有标记信息
学习任务
监督学习(supervised learning)
无监督学习(unsupervised learning)
半监督学习(semi-supervised learning)
强化学习(reinforcement learning)
是7 否
Ent(D)[147Ent(Dt)1173Ent(Dt)]
是8
0.263
;.
28
与离散属性不同,若当前结 点划分属性为连续属性,该连续属 性还可被再次选作后代结点的最优 划分属性。
选择“纹理”作为根结点划分属性
;.
29
现实任务中,尤其在属性数目较多时,存在大量样本出现缺失值。 出于成本和隐私的考虑
;.
30
1. 属性值缺失时,如何进行划分属性选择?(如何计算信息增益) 2. 给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?
(对于缺失属性值的样本如何将它从父结点划分到子结点中)
D : D : 训练集
训练集中在属性a上没有缺失值的样本子集
D D v :
被属性a划分后的样本子集
D D k :
{8}和{10}同时进入三个分支中,权值分别为:
7,5,3 15 15 15
;.
36
每个属性
~
d个属性描述的样本
~
对样本分类
~
坐标空间中的一个坐标轴 d维空间中的一个数据点 在坐标空间中寻找不同类样本之间的分类边界
决策树形成的分类边界的明显特点:轴平行,分类边界由若干个与坐标轴平行的分段组 成。
优点:学习结果解释性强,每个划分都对应一个属性取值
;.
1
第4章 决策树
根据训练数据是否拥有标记信息
学习任务
监督学习(supervised learning)
无监督学习(unsupervised learning)
半监督学习(semi-supervised learning)
强化学习(reinforcement learning)
机器学习之决策树学习ppt课件
23
信息增益(1)
• 上式中第二项的值应该越小越好,因为越小说明S相对于 属性A作分解以后而造成的熵下降越快(根据前面的解释, 熵下降越快就是不确定性减少越快),换句话说
Gain(S,A)越大越好
• 决策树建树算法的要点是——在构造决策树的每一层次
时,从尚未检测的属性中选择信息增益Gain(S,A)大的属
c
Entropy(S ) pi log 2 ( pi ) i 1
20
熵和决策树(4)
• 熵值计算举例:
例如:“PlayTennis”中S是一个关于某布尔概念的14个 样例的集合,包括9个正例和5个反例[9+,5-]。那么S 相对于这个布尔分类的熵为:训练数据集
Entropy([9,5]) (9 /14) log2 (9 /14) 5 /14 log2 (5 /14) 0.940
2
决策树学习示例
• 例子:星期六上午是否适合打网球
–属性={outlook,Temperature, humidity,wind} –属性值={sunny, overcast, rain, hot, mild, cool,
high, normal, strong, weak}
3
决策树学习示例——训练样例
S:[9+, 5] E=0.940
wind weak strong
[6+, 2] [3+, 3] E=0.811 E=1.00 Gain(S,Wind)
=0.940(8/14)0.811(6/14)1.0
–信息增益
Gain(S ,Wind )
Entropy(S)
v{weak , strong }
–熵刻画了任意样例集的纯度 –给定包含关于某个目标概念的正反样例的样例集S,那
《决策树算法》课件
决策树的构建过程是从根节点开始,根据训练数据集中每个 特征属性的信息增益或基尼指数等指标,选择最佳划分属性 ,生成左、右子树,直至达到终止条件(如叶子节点包含的 样本都属于同一类别或达到预设的分类精度)。
决策树算法的优缺点
优点
决策树算法具有直观易懂、分类效果好、易于理解和解释等优点。它能够处理 非线性关系和连续属性,对数据预处理要求较低,且能够处理缺失值和异常值 。
习竞赛中都取得了优异的成绩。
05
决策树算法的应用案例
分类问题案例
信用卡欺诈识别
利用决策树算法对信用卡交易数据进 行分析,识别出异常交易,预防欺诈 行为。
疾病诊断
根据患者的症状、体征等数据,利用 决策树算法进行分类,辅助医生做出 准确的疾病诊断。
回归问题案例
要点一
股票价格预测
利用历史股票数据,通过决策树回归算法预测未来股票价 格走势。
03
决策树算法的实践
数据集的准备
数据清洗
处理缺失值、异常值和重复数据,确保数据质量 。
数据转换
对连续型特征进行分箱处理,将连续值划分为离 散区间。
ABCD
特征选择
选择与目标变量相关的特征,去除无关或冗余特 征。
数据平衡
处理类别不均衡问题,通过过采样、欠采样或使 用合成数据来平衡各类别的样本数量。
数据挖掘
决策树算法是数据挖掘领域中常用的算法之一,常与其他 算法结合使用,如随机森林、梯度提升决策树等,以提高 分类和回归任务的准确性和稳定性。
回归任务
除了分类任务外,决策树算法也可用于回归任务,如预测 房价、股票价格等连续值。通过构建回归决策树模型,可 以对连续目标变量进行预测。
可解释性
由于决策树算法具有直观的树形结构和易于理解的规则, 因此在某些需要解释性强的场景中具有优势,如医疗诊断 、金融风控等领域。
决策树算法的优缺点
优点
决策树算法具有直观易懂、分类效果好、易于理解和解释等优点。它能够处理 非线性关系和连续属性,对数据预处理要求较低,且能够处理缺失值和异常值 。
习竞赛中都取得了优异的成绩。
05
决策树算法的应用案例
分类问题案例
信用卡欺诈识别
利用决策树算法对信用卡交易数据进 行分析,识别出异常交易,预防欺诈 行为。
疾病诊断
根据患者的症状、体征等数据,利用 决策树算法进行分类,辅助医生做出 准确的疾病诊断。
回归问题案例
要点一
股票价格预测
利用历史股票数据,通过决策树回归算法预测未来股票价 格走势。
03
决策树算法的实践
数据集的准备
数据清洗
处理缺失值、异常值和重复数据,确保数据质量 。
数据转换
对连续型特征进行分箱处理,将连续值划分为离 散区间。
ABCD
特征选择
选择与目标变量相关的特征,去除无关或冗余特 征。
数据平衡
处理类别不均衡问题,通过过采样、欠采样或使 用合成数据来平衡各类别的样本数量。
数据挖掘
决策树算法是数据挖掘领域中常用的算法之一,常与其他 算法结合使用,如随机森林、梯度提升决策树等,以提高 分类和回归任务的准确性和稳定性。
回归任务
除了分类任务外,决策树算法也可用于回归任务,如预测 房价、股票价格等连续值。通过构建回归决策树模型,可 以对连续目标变量进行预测。
可解释性
由于决策树算法具有直观的树形结构和易于理解的规则, 因此在某些需要解释性强的场景中具有优势,如医疗诊断 、金融风控等领域。
第四章-决策树PPT课件
34
可解释性
➢ 决策边界是平行坐标轴的 ➢ 对于过于复杂的问题,会导致很多小的划分
35
总结
优点
生成可理解的规则
分类时计算代价很小
能够选出对分类比较重要的属性
对长方形分布的样本处理很好
缺点
+++----------------+++----------------+++--------+++-------- ++++++++---++++++++------++++++++------+++++++++++++++----+++----++++----+++----+++++++----++++
纹理(15个样本) :{1, 2, 3, 4, 5, 6, 7, 9, 11, 12, 13, 14, 15, 16, 17} 稍糊(5个样本): {7,9,13,14,17} 清晰(7个样本): {1,2,3,4,5,6,15} 模糊(3个样本): {11,12,16} 缺失纹理属性取值的样本:{8,10}
• Wikipedia page for decision tree: /wiki/Decision_tree_learning
决策树算法及应用拓展教材
n n
Public(S)算法(证明二)
题设:子树N有S个分裂点(Split),K个类 S+1个叶子节点 至多有S+1个主要类 至少有K-S-1个少数类 取Ci为某少数类,C(Sj)为编码叶子节点j上记录的代价 n ij n ij ( Sj ) n ij * E ( Sj ) n ij * * log C n ij n ij
两种剪枝标准
最小描述长度原则(MDL)
思想:最简单的解释最期望的 做法:对Decision-Tree 进行二进位编码, 编码所需二进位最少的树即为“最佳剪枝 树” 思想:选择期望错误率最小的子树进行剪 枝 对树中的内部节点计算其剪枝/不剪枝可能
期望错误率最小原则
Cost of Encoding Data Records
引入Public算法
一般做法:先建树,后剪枝 Public算法:建树的同时进行剪枝
思想:在一定量(用户定义参数)的节点分 裂后/周期性的进行部分树的剪枝 存在的问题:可能高估(Over-Estimate)被 剪节点的值 改进:采纳低估(Under-Estimate)节点代价 的策略
具体思路
I(s1,s2,……,sm)=-∑Pi log2(pi) (i=1..m) | Si |
其中,数据集为S,m为S的分类数目, Pi
|S |
Ci为某分类标号,Pi为任意样本属于Ci的概率, si为分类Ci上的样本数
由A划分为子集的熵: E(A)= ∑(s1j+ ……+smj)/s * I(s1j+ ……+smj)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Class N: buys_computer = “no”
E(age) 5 I (2,3) 4 I (4,0)
14
14
5 I (3,2) 0.971 14
Hence
I(p, n) = I(9, 5) =0.940 Gain(age) I ( p, n) E(age)
Compute the entropy for age:
Decision Tree (结果输出)
age?
<=30 ov30e.r.c4a0st
student?
yes
>40 credit rating?
no
yes
no
yes
excellent fair
no
yes
决策树算法及应用拓展教材(PPT41页)
决策树算法及应用拓展教材(PPT41页)
基尼指数 Gini Index (IBM
input 判定树分类算法 output 训练集
决策树
使用决策树进行分类
决策树
一个树性的结构 内部节点上选用一个属性进行分割 每个分叉都是分割的一个部分 叶子节点表示一个分布
决策树生成算法分成两个步骤
树的生成 开始,数据都在根节点 递归的进行数据分片
树的修剪 去掉一些可能是噪音或者异常的数据
A为属性,具有V个不同的取值 信息增益:Gain(A)= I(s1,s2,……,sm) - E(A)
训练集(举例)
ID3算法
age income student credit_rating
<=30 high
no fair
<=30 high
no excellent
30…40 high
no fair
>40 medium no fair
>40 low
yes fair
>40 low
yes excellent
31…40 low
yes excellent
<=30 medium no fair
<=30 low
yes fair
>40 medium yes fair
<=30 medium yes excellent
概述(二)
捕捉新旧数据变化的目的:
挖掘出变化的趋势
例:啤酒——尿布
阻止/延缓不利变化的发生
例:金融危机——银行的信贷策略
差异挖掘算法的主要思想:
合理比较新/旧数据的挖掘结果,并清晰的 描述其变化部分
预备知识一(Building Tree)
基本思想: 用途:提取分类规则,进行分类预测
属性选择的统计度量
信息增益——Information gain (ID3/C4.5)
所有属性假设都是种类字段 经过修改之后可以适用于数值字段
基尼指数——Gini index (IBM IntelligentMiner)
能够适用于种类和数值字段
信息增益度度量(ID3/C4.5)
任意样本分类的期望信息:
决策树使用: 对未知数据进行分割
按照决策树上采用的分割属性逐层往下,直到一个叶子节点
决策树算法
基本算法(贪心算法)
自上而下分而治之的方法 开始时,所有的数据都在根节点 属性都是种类字段 (如果是连续的,将其离散化) 所有记录用所选属性递归的进行分割 属性的选择是基于一个启发式规则或者一个统计的度量
31…40 medium no excellent
31…40 high
yes fair
>40 medium no excellent
buys_computer no no yes yes yes no yes no yes yes yes yes yes no
使用信息增益进行属性选择
Class P: buys_computer = “yes”
age pi
<=30 2
30…40 4
>40
3
ni I(pi, ni) 3 0.971 00 2 0.971
Similarly
Gain(income) 0.029 Gain(student) 0.151 Gain(credit _ rating) 0.048
决策树算法及应用拓展教材(PPT41页)
决策树算法及应用拓展
内容简介:
概述 预备知识
决策树生成(Building Decision Tree) 决策树剪枝(Pruning Decision Tree)
捕捉变化数据的挖掘方法 小结
概述(一)
传统挖掘方法的局限性
只重视从数据库中提取规则,忽视了库中 数据的变化
挖掘所用的数据来自稳定的环境,人为干 预较少
决策树算法及应用拓展教材(PPT41页)
决策树算法及应用拓展教材(PPT41页)
预备知识二(Pruning Tree)
目的:
消除决策树的过适应(OverFitting)问题 实质:消除训练集中的异常和噪声
两种方法:
先剪枝法(Public 算法) 后剪枝法(Sprint 算法)
决策树算法及应用拓展教材(PPT41页)
IntelligentMiner)
集合T包含N个类别的记录,那么其Gini指标就是
pj 类别j出现的频率
gini(T ) 1
n
p2j
j 1
如果集合T分成两部分 N1 and N2 。那么这个分割的
Gini就是
ginisplit
(T
)
N1 N
gini(T
1)
N2 N
gini(T
2)
提供最小Ginisplit 就被选择作为分割的标准(对于每个 属性都要遍历所有可以的分割方法).
I(s1,s2,……,sm)=-∑Pi log2(pi) (i=1..m)
其中,数据集为S,m为S的分类数目, Pi
|
Si
|
|S|
Ci为某分类标号,Pi为任意样本属于Ci的概率,
si为分类Ci上的样本数 由A划分为子集的熵:
E(A)= ∑(s1j+ ……+smj)/s * I(s1j+ ……+smj)
(如, information gain)
停止分割的条件
一个节点上的数据都是属于同一个类别 没有属性可以再用于对数据进行分割
伪代码(Building Tree)
Procedure BuildTree(S) 用数据集S初始化根节点R 用根结点R初始化队列Q While Q is not Empty do { 取出队列Q中的第一个节点N if N 不纯 (Pure) { for 每一个属性 A 估计该节点在A上的信息增益 选出最佳的属性,将N分裂为N1、N2 } }
E(age) 5 I (2,3) 4 I (4,0)
14
14
5 I (3,2) 0.971 14
Hence
I(p, n) = I(9, 5) =0.940 Gain(age) I ( p, n) E(age)
Compute the entropy for age:
Decision Tree (结果输出)
age?
<=30 ov30e.r.c4a0st
student?
yes
>40 credit rating?
no
yes
no
yes
excellent fair
no
yes
决策树算法及应用拓展教材(PPT41页)
决策树算法及应用拓展教材(PPT41页)
基尼指数 Gini Index (IBM
input 判定树分类算法 output 训练集
决策树
使用决策树进行分类
决策树
一个树性的结构 内部节点上选用一个属性进行分割 每个分叉都是分割的一个部分 叶子节点表示一个分布
决策树生成算法分成两个步骤
树的生成 开始,数据都在根节点 递归的进行数据分片
树的修剪 去掉一些可能是噪音或者异常的数据
A为属性,具有V个不同的取值 信息增益:Gain(A)= I(s1,s2,……,sm) - E(A)
训练集(举例)
ID3算法
age income student credit_rating
<=30 high
no fair
<=30 high
no excellent
30…40 high
no fair
>40 medium no fair
>40 low
yes fair
>40 low
yes excellent
31…40 low
yes excellent
<=30 medium no fair
<=30 low
yes fair
>40 medium yes fair
<=30 medium yes excellent
概述(二)
捕捉新旧数据变化的目的:
挖掘出变化的趋势
例:啤酒——尿布
阻止/延缓不利变化的发生
例:金融危机——银行的信贷策略
差异挖掘算法的主要思想:
合理比较新/旧数据的挖掘结果,并清晰的 描述其变化部分
预备知识一(Building Tree)
基本思想: 用途:提取分类规则,进行分类预测
属性选择的统计度量
信息增益——Information gain (ID3/C4.5)
所有属性假设都是种类字段 经过修改之后可以适用于数值字段
基尼指数——Gini index (IBM IntelligentMiner)
能够适用于种类和数值字段
信息增益度度量(ID3/C4.5)
任意样本分类的期望信息:
决策树使用: 对未知数据进行分割
按照决策树上采用的分割属性逐层往下,直到一个叶子节点
决策树算法
基本算法(贪心算法)
自上而下分而治之的方法 开始时,所有的数据都在根节点 属性都是种类字段 (如果是连续的,将其离散化) 所有记录用所选属性递归的进行分割 属性的选择是基于一个启发式规则或者一个统计的度量
31…40 medium no excellent
31…40 high
yes fair
>40 medium no excellent
buys_computer no no yes yes yes no yes no yes yes yes yes yes no
使用信息增益进行属性选择
Class P: buys_computer = “yes”
age pi
<=30 2
30…40 4
>40
3
ni I(pi, ni) 3 0.971 00 2 0.971
Similarly
Gain(income) 0.029 Gain(student) 0.151 Gain(credit _ rating) 0.048
决策树算法及应用拓展教材(PPT41页)
决策树算法及应用拓展
内容简介:
概述 预备知识
决策树生成(Building Decision Tree) 决策树剪枝(Pruning Decision Tree)
捕捉变化数据的挖掘方法 小结
概述(一)
传统挖掘方法的局限性
只重视从数据库中提取规则,忽视了库中 数据的变化
挖掘所用的数据来自稳定的环境,人为干 预较少
决策树算法及应用拓展教材(PPT41页)
决策树算法及应用拓展教材(PPT41页)
预备知识二(Pruning Tree)
目的:
消除决策树的过适应(OverFitting)问题 实质:消除训练集中的异常和噪声
两种方法:
先剪枝法(Public 算法) 后剪枝法(Sprint 算法)
决策树算法及应用拓展教材(PPT41页)
IntelligentMiner)
集合T包含N个类别的记录,那么其Gini指标就是
pj 类别j出现的频率
gini(T ) 1
n
p2j
j 1
如果集合T分成两部分 N1 and N2 。那么这个分割的
Gini就是
ginisplit
(T
)
N1 N
gini(T
1)
N2 N
gini(T
2)
提供最小Ginisplit 就被选择作为分割的标准(对于每个 属性都要遍历所有可以的分割方法).
I(s1,s2,……,sm)=-∑Pi log2(pi) (i=1..m)
其中,数据集为S,m为S的分类数目, Pi
|
Si
|
|S|
Ci为某分类标号,Pi为任意样本属于Ci的概率,
si为分类Ci上的样本数 由A划分为子集的熵:
E(A)= ∑(s1j+ ……+smj)/s * I(s1j+ ……+smj)
(如, information gain)
停止分割的条件
一个节点上的数据都是属于同一个类别 没有属性可以再用于对数据进行分割
伪代码(Building Tree)
Procedure BuildTree(S) 用数据集S初始化根节点R 用根结点R初始化队列Q While Q is not Empty do { 取出队列Q中的第一个节点N if N 不纯 (Pure) { for 每一个属性 A 估计该节点在A上的信息增益 选出最佳的属性,将N分裂为N1、N2 } }