决策树学习培训讲义
合集下载
决策树讲解
1) 使用信息增益比例而非信息增益作为分裂标准。 信息增益比例计算公式如下:
GainRatio ( A)
Gain( A) SplitInf( K )
SplitInf (K) 称为分裂信息,它反映了属性分裂数据的延展度与平衡性,计算公式如下: 在上式中,
SplitInf ( K )
i 1
1
2
3
4
SUGGESTION
16
Part 1
Part 2
Part 3
Part 4
C&RT
三、classification and regression tree(C&RT)(对二元分类比较有效) 1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少 变量数据提供参考; 2)在面对诸如存在缺失值、变量数多等问题时C&RT 显得非常稳健(robust); 3)估计模型通常不用花费很长的训练时间; 4)推理过程完全依据属性变量的取值特点(与 C5.0不同,C&RT的输出字段既可以 是数值型,也可以是分类型) 5)比其他模型更易于理解——从模型中得到的规则能得到非常直观的解释,决策推 理过程可以表示成IF…THEN的形式; 6)目标是定类变量为分类树,若目标变量是定距变量,则为回归树; 7)通过检测输入字段,通过度量各个划分产生的异质性的减小程度,找到最佳的一 个划分; 8)非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自动的成 本复杂性剪枝来得到归纳性更强的树。
4
决策树的发展
Part
2
Part 1
Part 2
Part 3
Part 4
决策树的发展
决策树方法是一种比较通用的分类函数逼近法,它是一种常用于预测
GainRatio ( A)
Gain( A) SplitInf( K )
SplitInf (K) 称为分裂信息,它反映了属性分裂数据的延展度与平衡性,计算公式如下: 在上式中,
SplitInf ( K )
i 1
1
2
3
4
SUGGESTION
16
Part 1
Part 2
Part 3
Part 4
C&RT
三、classification and regression tree(C&RT)(对二元分类比较有效) 1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少 变量数据提供参考; 2)在面对诸如存在缺失值、变量数多等问题时C&RT 显得非常稳健(robust); 3)估计模型通常不用花费很长的训练时间; 4)推理过程完全依据属性变量的取值特点(与 C5.0不同,C&RT的输出字段既可以 是数值型,也可以是分类型) 5)比其他模型更易于理解——从模型中得到的规则能得到非常直观的解释,决策推 理过程可以表示成IF…THEN的形式; 6)目标是定类变量为分类树,若目标变量是定距变量,则为回归树; 7)通过检测输入字段,通过度量各个划分产生的异质性的减小程度,找到最佳的一 个划分; 8)非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自动的成 本复杂性剪枝来得到归纳性更强的树。
4
决策树的发展
Part
2
Part 1
Part 2
Part 3
Part 4
决策树的发展
决策树方法是一种比较通用的分类函数逼近法,它是一种常用于预测
决策树培训讲义
时间是人类发展的空间。2021年1月12 日星期 二2时5 6分5秒 14:56:0 512 January 2021
科学,你是国力的灵魂;同时又是社 会发展 的标志 。下午2 时56分 5秒下 午2时56 分14:5 6:0521. 1.12
每天都是美好的一天,新的一天开启 。21.1.1 221.1.1 214:56 14:56:0 514:56: 05Jan-2 1
IF性别=Female AND家庭所得= 低所得THEN购买RV房车=否 IF性别=Female AND家庭所得= 小康THEN购买RV房车=否 IF性别=Female AND家庭所得= 高所得THEN购买RV房车=是
IF性别=Male AND年龄<35 THEN购买RV房车=否 IF性别=Male AND年龄≧35 THEN购买RV房车=是
Gain(年龄)=0.0167 Gain(性别)=0.0972 Gain(家庭所得)=0.0177
17
Max:作为第一个分类依据
2021/1/12
Example(续)
I(7,3)=-((3/7)*log2(3/7)+(4/7)*log2(4/7))=0.9852
Gain(年龄)=0.9852
训练测试法(training-and-testing) 交叉验证法(cross-validation)
例如,十折交叉验证。即是将数据集分成十分, 轮流将其中9份做训练1份做测试,10次的结果的
均值作为对算法精度的估计,一般还需要进行多 次10倍交叉验证求均值,例如10次10倍交叉验证, 更精确一点。
评估模型
6
2021/1/12
例:
资料
2.模型评估
1.建立模型 未婚
决策树培训讲义
否
半
否
是
否
鸽子 恒温 羽毛
否
否
是
是
否
鲸
恒温 毛发
是
是
否
否
否
X
分类与回归 分类目标属性y是离散的,回归目标属性y是连续的
类标号
哺乳动 物
爬行类 鸟类 哺乳类
y
第6章 决策树
决策树基本概念
解决分类问题的一般方法
分类技术是一种根据输入数据集建立分类模型的系统方法。 分类技术一般是用一种学习算法确定分类模型,该模型可以很好 地拟合输入数据中类标号和属性集之间的联系。学习算法得到的 模型不仅要很好拟合输入数据,还要能够正确地预测未知样本的 类标号。因此,训练算法的主要目标就是要建立具有很好的泛化 能力模型,即建立能够准确地预测未知样本类标号的模型。
第6章 决策树
决策树基本概念
解决分类问题的一般方法
训练集(类标号已知)
TID A1
A2
A3
类
1
100
L
N
2
N
125
S
N
3
Y
400
L
Y
4
N
415
M
N
学习算法 学习模型 归纳
检验集(类标号未知)
TID A1
A2
A3
类
1
Y
100
L
?
2
N
125
S
?
3
Y
400
L
?
4
N
415 M
?
应用模型 推论
模型
第6章 决策树
第 6 章 决策树
主要内容
决策树技术培训课程
如果选择收入作为节点分高、中、低
计 年龄 收入 学生 信誉 数 64 青 高 否 良 64 青 高 否 优 128 青 中 否 良 64 青 低 是 良 64 青 中 是 优
归类:买计算机?
不买 不买 不买 买 买
I(0,128)=0 比例: 128/384=0.3333
I(64,128)=0.9183 比例: 192/384=0.5
n
n
1
I (a1, a2 ,..., an )
I (ai )
i 1
i 1
p(ai ) log2
p(ai )
Entropy(s)
I (a1, a2,..., an )
n i 1
I (ai )
n i 1
p(ai )log2
1 p(ai )
公式1
上式,对数底数可以为任何数,不同的取值对应了熵的不 同单位。
I(64,0)=0 比例: 64/384=0.1667
平均信息期望(加权总和): E(收入)= 0.3333 * 0 + 0.5 * 0.9183 + 0.1667 * 0 = 0.4592
Gain(收入) = I(128, 256) - E(收入)=0.9183 – 0.4592 = 0.4591
ID3算法存在的缺点
(1)ID3算法在选择根节点和各内部节点中的分 支属性时,采用信息增益作为评价标准。信息增 益的缺点是倾向于选择取值较多的属性,在有些 情况下这类属性可能不会提供太多有价值的信息。
(2)ID3算法只能对描述属性为离散型属性的数 据集构造决策树
针对ID3算法存在的不足它被改进为C4.5算法
计年 数龄 64 青 64 青 12 中 8 60 老 64 老 64 老 64 中 12 青 8 64 青 13 老 2 64 青 32 中 32 中 63 老 1老
决策树培训讲义(PPT 49页)
Married 100K No
Single 70K
No
Married 120K No
Divorced 95K
Yes
Married 60K
No
Divorced 220K No
Single 85K
Yes
Married 75K
No
Single 90K
Yes
3. samples = { 2,3,5,6,8,9,10 } attribute_list = { MarSt, TaxInc }
选择TaxInc为最优分割属性:
Refund
Yes
No
NO < 80K
Single TaxInc
MarSt
Married Divorced
>= 80K
NO
YES
▪ 问题1:分类从哪个属性开始?
——选择分裂变量的标准
▪ 问题2:为什么工资以80为界限?
——找到被选择的变量的分裂点的标准( 连续变量情况)
分类划分的优劣用不纯性度量来分析。如果对于所有
分支,划分后选择相同分支的所有实例都属于相同的类,
则这个划分是纯的。对于节点m,令 N m 为到达节点m的训练
实例数,
个实例中
N
i m
个属于Ci
类,而
N
i m
Nm 。如果一
个实例到节点m,则它属于 类的概率估i 计为:
pˆ (Ci
|
x, m)
pmi
N
i m
10
Single 125K No
Married 100K No
Single 70K
No
Married 120K No
决策树学习讲义
根据起因分类设备故障
根据拖欠支付的可能性分类贷款申请
分类问题
核心任务是把样例分类到各可能的离散值对应的类别
基本的决策树学习算法
大多数决策树学习算法是一种核心算法的变体
采用自顶向下的贪婪搜索遍历可能的决策树空间
ID3是这种算法的代表
9、要学生做的事,教职员躬亲共做; 要学生 学的知 识,教 职员躬 亲共学 ;要学 生守的 规则, 教职员 躬亲共 守。21.6.2821.6.28M onday, June 28, 2021
17、儿童是中心,教育的措施便围绕 他们而 组织起 来。上 午2时44分59秒 上午2时44分02:44:5921.6.28
2、Our destiny offers not only the cup of despair, but the chalice of opportunity. (Richard Nixon, American President )命运给予我们的不是失望之酒,而是机会之杯。二〇二一年六月十七日2021年6月17日星期四
弱
去
14
下雨
适中
高
强
不去
决策树学习原理简介—(ID3, C4.5算法)
S: (9+, 5)
湿度
高
(3+, 4-)
S: (9+, 5)
风
正常
(6+, 1-)
弱
(6+, 2-)
问题:哪一个属性(特征)更好?
强
(3+, 3-)
决策树学习原理简介—(ID3, C4.5算法)
熵:物理学概念
宏观上:热力学定律—体系的熵变等于可逆过程吸收
S: (8+, 8)
根据拖欠支付的可能性分类贷款申请
分类问题
核心任务是把样例分类到各可能的离散值对应的类别
基本的决策树学习算法
大多数决策树学习算法是一种核心算法的变体
采用自顶向下的贪婪搜索遍历可能的决策树空间
ID3是这种算法的代表
9、要学生做的事,教职员躬亲共做; 要学生 学的知 识,教 职员躬 亲共学 ;要学 生守的 规则, 教职员 躬亲共 守。21.6.2821.6.28M onday, June 28, 2021
17、儿童是中心,教育的措施便围绕 他们而 组织起 来。上 午2时44分59秒 上午2时44分02:44:5921.6.28
2、Our destiny offers not only the cup of despair, but the chalice of opportunity. (Richard Nixon, American President )命运给予我们的不是失望之酒,而是机会之杯。二〇二一年六月十七日2021年6月17日星期四
弱
去
14
下雨
适中
高
强
不去
决策树学习原理简介—(ID3, C4.5算法)
S: (9+, 5)
湿度
高
(3+, 4-)
S: (9+, 5)
风
正常
(6+, 1-)
弱
(6+, 2-)
问题:哪一个属性(特征)更好?
强
(3+, 3-)
决策树学习原理简介—(ID3, C4.5算法)
熵:物理学概念
宏观上:热力学定律—体系的熵变等于可逆过程吸收
S: (8+, 8)
决策树培训课件
0.940 0.892 0.048
20
问题:类别值多的输入变量比类别值少的输入变量 有更多的机会成为当前最佳分组变量
Ent(U | T1) P(t1j )( P(ui | t1j ) log2 P(ui | t1j ))
j
i
3 14
(
1 3
log2
(1) 3
2 3
log2
(
2 )) 3
P(u2 | v1 ) .... P(ur | v1 ) P(u2 | v2 ) .... P(ur | v2 )
...
... .
P(u2 | vq ) ....P(ur | vq )
P(ui|vj)是信宿收到vj而信源发出ui的概率 ,且
P(ui | v j ) 1 (i 1,2,..., r)
事先指定允许的 最大误差值
通常依据测试样 本集剪枝
10
C5.0算法
C5.0是在ID3(J R Quinlan,1979)基础上发展起 来。C5.0是C4.5算法的商业化版本
特点: C5.0用于建立多叉分类树 输入变量是分类型或数值型,输出变量应为分 类型 以信息增益率确定最佳分组变量和分割点
回到第一步。否则结束。
28
Yes为期望类别
年龄段=A(2/5),年龄段=B(4/4),年龄段=C(3/5),性别 =0(6/8),性别=1(3/6),推理规则为:IF 年龄段=B THEN 是否购买=yes。剔除已被正确覆盖的4个样本
年龄段=A(2/5),年龄段=C(3/5),性别=0(4/6),性别 =1(1/4),推理规则为:IF 性别=0 THEN 是否购买=yes 需附加逻辑与条件,样本范围为表中灰色部分。 年龄段=A(1/3),年龄段=C(3/3)。推理规则修正为: IF 性别=0 AND 年龄段=C THEN 是否购买=yes
20
问题:类别值多的输入变量比类别值少的输入变量 有更多的机会成为当前最佳分组变量
Ent(U | T1) P(t1j )( P(ui | t1j ) log2 P(ui | t1j ))
j
i
3 14
(
1 3
log2
(1) 3
2 3
log2
(
2 )) 3
P(u2 | v1 ) .... P(ur | v1 ) P(u2 | v2 ) .... P(ur | v2 )
...
... .
P(u2 | vq ) ....P(ur | vq )
P(ui|vj)是信宿收到vj而信源发出ui的概率 ,且
P(ui | v j ) 1 (i 1,2,..., r)
事先指定允许的 最大误差值
通常依据测试样 本集剪枝
10
C5.0算法
C5.0是在ID3(J R Quinlan,1979)基础上发展起 来。C5.0是C4.5算法的商业化版本
特点: C5.0用于建立多叉分类树 输入变量是分类型或数值型,输出变量应为分 类型 以信息增益率确定最佳分组变量和分割点
回到第一步。否则结束。
28
Yes为期望类别
年龄段=A(2/5),年龄段=B(4/4),年龄段=C(3/5),性别 =0(6/8),性别=1(3/6),推理规则为:IF 年龄段=B THEN 是否购买=yes。剔除已被正确覆盖的4个样本
年龄段=A(2/5),年龄段=C(3/5),性别=0(4/6),性别 =1(1/4),推理规则为:IF 性别=0 THEN 是否购买=yes 需附加逻辑与条件,样本范围为表中灰色部分。 年龄段=A(1/3),年龄段=C(3/3)。推理规则修正为: IF 性别=0 AND 年龄段=C THEN 是否购买=yes
决策树培训课件(PPT 83页)
128 中 高 否 良
买
60 老 中 否 良
买
64 老 低 是 良
买
64 老 低 是 优 不买
64 中 低 是 优
买
128 青 中 否 良 不买
64 青 低 是 良
买
132 老 中 是 良
买
64 青 中 是 优
买
32 中 中 否 优
买
32 中 高 是 良
买
63 老 中 否 优 不买
1 老中否优
买
7/7/2021
买
64 老 低 是 优 不买
64 中 低 是 优
买
128 青 中 否 良 不买
64 青 低 是 良
买
132 老 中 是 良
买
64 青 中 是 优
买
32 中 中 否 优
买
32 中 高 是 良
买
63 老 中 否 优 不买
1 老中否优
买
• 建立一个好的决策树的关键 的属性
树根?
7/7/2021
决策树的建立-- 对测试样例的信息期望
…… 张毅 38 9500 亚裔
信誉 良 优 优 良 优 优 优
电话 281-322-0328 713-239-7830 281-242-3222 281-550-0544 713-239-7430 281-355-7990 281-556-0544
地址 2714 Ave. M 5606 Holly Cr 2000 Bell Blvd. 100 Main Street 606 Holly Ct 233 Rice Blvd. 399 Sugar Rd.
Small
70K
No
4 Yes
Medium 120K No
决策树讲义
决策树的用途
计 年龄 收入 学生 信誉 数 64 青 高 否 良 64 青 高 否 优 128 中 高 否 良 60 老 中 否 良 64 老 低 是 良 64 老 低 是 优 64 中 低 是 优 128 青 中 否 良 64 青 低 是 良 132 老 中 是 良 64 青 中 是 优 32 中 中 否 优 32 中 高 是 良 63 老 中 否 优 1 老中 否 优
决策树的表示
决策树算法
决策树的基本组成部分:决策结点、分支和叶子。
年龄?
决策树中最上面的结点称为根结点。
青 中
老
是整个决策树的开始。每个分支是一 个新的决策结点,或者是树的叶子。
学生?
买
信誉? 每个决策结点代表一个问题或者决策. 通常对应待分类对象的属性。
否
是
优
良 每个叶结点代表一种可能的分类结果
不买 买 买 买 买
I(S1,S2)=I(641,383)
=-P1Log2P1-P2Log2P2 =-(P1Log2P1+P2Log2P2) =0.9537
32 中 高 是 良
买
63 老 中 否 优
不买
1 老中 否 优
买
决策树算法 第2步计算条件属性的熵
计 年龄 收入 学生 信誉 归类:买计算机? 数
归类:买计算机?
不买 不买 买 买 买 不买 买 不买 买 买 买 买 买 不买 买
第2-2步计算年龄的熵
年龄共分三个组: 青年、中年、老年
中年买与不买比例为256/0
S1(买)=256 S2(不买)= 0 S=S1+S2=256
P1=256/256 P2=0/256
I(S1,S2)=I(256,0) =-P1Log2P1-P2Log2P2 =-(P1Log2P1+P2Log2P2) =0
决策树(完整)专题培训课件
后剪枝
预剪枝:在决策树生成过程中,对每个结点在划分前先进行估计, 若当前结点的划分不能带来决策树泛化性能提升,则停止划分并 将当前结点标记为叶结点
后剪枝:先从训练集生成一棵完整的决策树,然后自底向上地对 非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来 决策树泛化性能提升,则将该子树替换为叶结点。 留出法:将数据集D划分为两个互斥的集合:训练集S和(2)种情形:设定为该结点所含样本 最多的类别 利用当前结点的后验分布
第(3)种情形:设定为其父结点所含样 本最多的类别 把父结点的样本分布作为当前结点的先验 分布
决策树学习的关键是算法的第8行:选择最优划分属性
什么样的划分属性是最优的?
我们希望决策树的分支结点所包含的样本尽可能属于 同一类别,即结点的“纯度”越来越高,可以高效地从根 结点到达叶结点,得到决策结果。
训练集:好瓜 坏瓜 1,2,3,6,7,10,14,15,16,17
验证集:4,5,8,9,11,12
6,7,15,17
4,13 (T,F)
5 (F) 6
6,7,15 17 7,15
7
15
9
8
(F)
(F)
11,12 (T,T)
减去结点⑥ 验证集变为:
4
7
考察结点顺序: ⑥⑤②③①
8,9 (T,F)
验证集精度: 3 7
后剪枝决策树 预剪枝决策树
• 保留了更多的分支 • 欠拟合风险很小 • 泛化能力优于预剪枝
决策树(完整)
第4章 决策树
根据训练数据是否拥有标记信息
学习任务
监督学习(supervised learning) 无监督学习(unsupervised learning)
预剪枝:在决策树生成过程中,对每个结点在划分前先进行估计, 若当前结点的划分不能带来决策树泛化性能提升,则停止划分并 将当前结点标记为叶结点
后剪枝:先从训练集生成一棵完整的决策树,然后自底向上地对 非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来 决策树泛化性能提升,则将该子树替换为叶结点。 留出法:将数据集D划分为两个互斥的集合:训练集S和(2)种情形:设定为该结点所含样本 最多的类别 利用当前结点的后验分布
第(3)种情形:设定为其父结点所含样 本最多的类别 把父结点的样本分布作为当前结点的先验 分布
决策树学习的关键是算法的第8行:选择最优划分属性
什么样的划分属性是最优的?
我们希望决策树的分支结点所包含的样本尽可能属于 同一类别,即结点的“纯度”越来越高,可以高效地从根 结点到达叶结点,得到决策结果。
训练集:好瓜 坏瓜 1,2,3,6,7,10,14,15,16,17
验证集:4,5,8,9,11,12
6,7,15,17
4,13 (T,F)
5 (F) 6
6,7,15 17 7,15
7
15
9
8
(F)
(F)
11,12 (T,T)
减去结点⑥ 验证集变为:
4
7
考察结点顺序: ⑥⑤②③①
8,9 (T,F)
验证集精度: 3 7
后剪枝决策树 预剪枝决策树
• 保留了更多的分支 • 欠拟合风险很小 • 泛化能力优于预剪枝
决策树(完整)
第4章 决策树
根据训练数据是否拥有标记信息
学习任务
监督学习(supervised learning) 无监督学习(unsupervised learning)
决策树培训教材90页PPT
23、一切节省,归根到底都归结为时间的节省。——马克思 24、意志命运往往背道而驰,决心到最后会全部推倒。——莎士比亚
25、学习是劳动,是充满思想的劳动。——乌申斯基
谢谢!
21、要知道对好事的称颂过于夸大,也会招来人们的反感轻蔑和嫉妒。——培根 22、业精于勤,荒于嬉;行成于思,毁于随。——韩愈
决策树培训教材
16般情况下)不想三年以后的事, 只想现 在的事 。现在 有成就 ,以后 才能更 辉煌。
18、敢于向黑暗宣战的人,心里必须 充满光 明。 19、学习的关键--重复。
20、懦弱的人只会裹足不前,莽撞的 人只能 引为烧 身,只 有真正 勇敢的 人才能 所向披 靡。
25、学习是劳动,是充满思想的劳动。——乌申斯基
谢谢!
21、要知道对好事的称颂过于夸大,也会招来人们的反感轻蔑和嫉妒。——培根 22、业精于勤,荒于嬉;行成于思,毁于随。——韩愈
决策树培训教材
16般情况下)不想三年以后的事, 只想现 在的事 。现在 有成就 ,以后 才能更 辉煌。
18、敢于向黑暗宣战的人,心里必须 充满光 明。 19、学习的关键--重复。
20、懦弱的人只会裹足不前,莽撞的 人只能 引为烧 身,只 有真正 勇敢的 人才能 所向披 靡。
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
路漫漫其悠远
分类任务基本框架
路漫漫其悠远
分类应用实例
垃圾邮件过滤 信贷分析 新闻分类 人脸识别、手写体识别等
路漫漫其悠远
决策树的结构
图结构
内部节点(非树叶节点,包括根节点)
在一个属性上的测试
分枝
一个测试输出
树叶节点
类标识
路漫漫其悠远
决策树示例
测试属性
路漫漫其悠远
Ref
Yes
大纲
简介 决策树学习算法 应用实例
路漫漫其悠远
决策树算法
Hunt’s Algorithm CART ID3, C4.5 SLIQ,SPRINT
路漫漫其悠远
基本的ID3算法
路漫漫其悠远
基本算法
Don’t Cheat
Refund
Yes
No
Don’t Cheat
Don’t Cheat
Don’t Cheat
< 80K
>= 80K
Don’t Cheat
Cheat
决策树归纳
贪婪策略
根据特定的性能度量选择最好的划分属性
要素
哪个属性是最佳的分类属性?
如何确定最佳划分点
如何确定停止条件
路漫漫其悠远
度量标准——熵
熵(Entropy)
信息论中广泛使用的一个度量标准 刻画任意样例集的纯度(purity) 一般计算公式为:
und No
NO
Mar
Single, Divorced St
Married
< 80K
TaxI
NO
nc > 80K
训练数据
NO
Y
E
S
模型:决策树
(Refund=YES)
TaxInc ٨ MarSt=Single,Divorced ٨ (Refund=NO ٧ <80K)
另一棵决策树
Married
Mar Single, St Divorced
Married
< 80K
TaxIn
NO
c > 80K
NO
Y
E
S
路漫漫其悠远
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
TaxInNOຫໍສະໝຸດ c > 80KNO
Y
E
S
路漫漫其悠远
指定欺诈为: “No”
决策树分类任务框架
路漫漫其悠远
Decision Tree
度量标准——熵
路漫漫其悠远
度量标准——熵
信息论中熵的一种解释
熵确定了要编码集合S中任意成员(即以均匀的概率随机抽 出的一个成员)的分类所需要的最少二进制位数 =1
▪ 接收者知道抽出的样例必为正,所以不必发任何消息,熵为0
= 0.5
▪ 必须用一个二进制位来说明抽出的样例是正还是负,熵为1
= 0.8
NO
Y
E
S
路漫漫其悠远
测试数据
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
TaxIn
NO
c > 80K
NO
Y
E
S
路漫漫其悠远
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
Refund
Yes
No
Refund
Yes
No
Don’t Cheat
Single, Divorced
Marital Status
Married
Cheat
Don’t Cheat
路漫漫其悠远
Don’t Cheat
Single, Divorced
Marital Status
Married
Taxable Income
当对S的一个任意成员的目标值编码时,Gain(S,A)的值 是在知道属性A的值后可以节省的二进制位数
路漫漫其悠远
例子
假设S是有关天气的训练样例集 [9+,5-] 其中:
wind=weak的样例是 [6+,2-] wind=strong的样例[+3,-3]
问题:计算属性wind的信息增益
Step1: 确定根节点
分别计算4个属性的信息增益
Outlook: 0.246 =Sunny [2+,3-] =Overcast [4+,0-] =Rain [3+,2-]
TaxIn
NO
c > 80K
NO
Y
E
S
路漫漫其悠远
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
TaxIn
NO
c > 80K
NO
Y
E
S
路漫漫其悠远
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
决策树学习培训讲义
路漫漫其悠远 2020/3/27
大纲
简介 决策树学习算法 应用实例
路漫漫其悠远
决策树(Decision Tree)
决策树学习是应用最广的归纳推理算法之一
它是一种逼近离散函数的方法
学习到的函数以决策树的形式表示 主要用于分类
对噪声数据有很好的鲁棒性
能够学习析取表达
NO Yes
Ref und No
NO < 80K
TaxI nc > 80K
NO
Y
E
S
相同的数据可产生多棵决策树
路漫漫其悠远
决策树分类任务框架
路漫漫其悠远
决策树
决策树应用
从根节点开始
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
TaxIn
NO
c > 80K
对于二元分类:给定包含关于某个目标概念的正反样例的样例集S ,那么S相对这个布尔型分类的熵为:
Entropy(S) -plog2p-pΘlog2pΘ
其有中 计p算中是我在们S中定正义例0l的og比0为例0,。pΘ是在S中负例的比例。在有关熵的所
路漫漫其悠远
例子
路漫漫其悠远
Entropy = -(0/6)log(0/6)-(6/6)log(6/6)=0 Entropy = 1-(1/6)log(1/6)-(5/6)log(5/6)=0.650 Entropy = 1-(3/6)log(3/6)-(3/6)log(3/6)=1
▪ 那么对所需的消息编码方法是赋给正例集合较短的编码,可能性较 小的反例集合较长的编码,平均每条消息的编码少于1个二进制位
路漫漫其悠远
性能度量——信息增益
属性的信息增益
使用这个属性分割样例而导致的期望熵降低的数量
Values(A)是属性A所有可能值的集合
Sv 是S中属性A的值为v的子集 ,即Sv={sS|A(s)=v}
S的熵: E(S)= -(9/14)log(9/14) – (5/14)log(9/14)=0.940
路漫漫其悠远
选择最好的分类属性
路漫漫其悠远
大纲
简介 决策树学习算法 应用实例
路漫漫其悠远
应用实例
问题及数据集
根据其他属性,判断周六是否玩网球 playTennis=Y/N?
路漫漫其悠远
分类任务基本框架
路漫漫其悠远
分类应用实例
垃圾邮件过滤 信贷分析 新闻分类 人脸识别、手写体识别等
路漫漫其悠远
决策树的结构
图结构
内部节点(非树叶节点,包括根节点)
在一个属性上的测试
分枝
一个测试输出
树叶节点
类标识
路漫漫其悠远
决策树示例
测试属性
路漫漫其悠远
Ref
Yes
大纲
简介 决策树学习算法 应用实例
路漫漫其悠远
决策树算法
Hunt’s Algorithm CART ID3, C4.5 SLIQ,SPRINT
路漫漫其悠远
基本的ID3算法
路漫漫其悠远
基本算法
Don’t Cheat
Refund
Yes
No
Don’t Cheat
Don’t Cheat
Don’t Cheat
< 80K
>= 80K
Don’t Cheat
Cheat
决策树归纳
贪婪策略
根据特定的性能度量选择最好的划分属性
要素
哪个属性是最佳的分类属性?
如何确定最佳划分点
如何确定停止条件
路漫漫其悠远
度量标准——熵
熵(Entropy)
信息论中广泛使用的一个度量标准 刻画任意样例集的纯度(purity) 一般计算公式为:
und No
NO
Mar
Single, Divorced St
Married
< 80K
TaxI
NO
nc > 80K
训练数据
NO
Y
E
S
模型:决策树
(Refund=YES)
TaxInc ٨ MarSt=Single,Divorced ٨ (Refund=NO ٧ <80K)
另一棵决策树
Married
Mar Single, St Divorced
Married
< 80K
TaxIn
NO
c > 80K
NO
Y
E
S
路漫漫其悠远
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
TaxInNOຫໍສະໝຸດ c > 80KNO
Y
E
S
路漫漫其悠远
指定欺诈为: “No”
决策树分类任务框架
路漫漫其悠远
Decision Tree
度量标准——熵
路漫漫其悠远
度量标准——熵
信息论中熵的一种解释
熵确定了要编码集合S中任意成员(即以均匀的概率随机抽 出的一个成员)的分类所需要的最少二进制位数 =1
▪ 接收者知道抽出的样例必为正,所以不必发任何消息,熵为0
= 0.5
▪ 必须用一个二进制位来说明抽出的样例是正还是负,熵为1
= 0.8
NO
Y
E
S
路漫漫其悠远
测试数据
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
TaxIn
NO
c > 80K
NO
Y
E
S
路漫漫其悠远
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
Refund
Yes
No
Refund
Yes
No
Don’t Cheat
Single, Divorced
Marital Status
Married
Cheat
Don’t Cheat
路漫漫其悠远
Don’t Cheat
Single, Divorced
Marital Status
Married
Taxable Income
当对S的一个任意成员的目标值编码时,Gain(S,A)的值 是在知道属性A的值后可以节省的二进制位数
路漫漫其悠远
例子
假设S是有关天气的训练样例集 [9+,5-] 其中:
wind=weak的样例是 [6+,2-] wind=strong的样例[+3,-3]
问题:计算属性wind的信息增益
Step1: 确定根节点
分别计算4个属性的信息增益
Outlook: 0.246 =Sunny [2+,3-] =Overcast [4+,0-] =Rain [3+,2-]
TaxIn
NO
c > 80K
NO
Y
E
S
路漫漫其悠远
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
TaxIn
NO
c > 80K
NO
Y
E
S
路漫漫其悠远
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
决策树学习培训讲义
路漫漫其悠远 2020/3/27
大纲
简介 决策树学习算法 应用实例
路漫漫其悠远
决策树(Decision Tree)
决策树学习是应用最广的归纳推理算法之一
它是一种逼近离散函数的方法
学习到的函数以决策树的形式表示 主要用于分类
对噪声数据有很好的鲁棒性
能够学习析取表达
NO Yes
Ref und No
NO < 80K
TaxI nc > 80K
NO
Y
E
S
相同的数据可产生多棵决策树
路漫漫其悠远
决策树分类任务框架
路漫漫其悠远
决策树
决策树应用
从根节点开始
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
TaxIn
NO
c > 80K
对于二元分类:给定包含关于某个目标概念的正反样例的样例集S ,那么S相对这个布尔型分类的熵为:
Entropy(S) -plog2p-pΘlog2pΘ
其有中 计p算中是我在们S中定正义例0l的og比0为例0,。pΘ是在S中负例的比例。在有关熵的所
路漫漫其悠远
例子
路漫漫其悠远
Entropy = -(0/6)log(0/6)-(6/6)log(6/6)=0 Entropy = 1-(1/6)log(1/6)-(5/6)log(5/6)=0.650 Entropy = 1-(3/6)log(3/6)-(3/6)log(3/6)=1
▪ 那么对所需的消息编码方法是赋给正例集合较短的编码,可能性较 小的反例集合较长的编码,平均每条消息的编码少于1个二进制位
路漫漫其悠远
性能度量——信息增益
属性的信息增益
使用这个属性分割样例而导致的期望熵降低的数量
Values(A)是属性A所有可能值的集合
Sv 是S中属性A的值为v的子集 ,即Sv={sS|A(s)=v}
S的熵: E(S)= -(9/14)log(9/14) – (5/14)log(9/14)=0.940
路漫漫其悠远
选择最好的分类属性
路漫漫其悠远
大纲
简介 决策树学习算法 应用实例
路漫漫其悠远
应用实例
问题及数据集
根据其他属性,判断周六是否玩网球 playTennis=Y/N?
路漫漫其悠远