决策树学习培训讲义
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
S的熵: E(S)= -(9/14)log(9/14) – (5/14)log(9/14)=0.940
路漫漫其悠远
选择最好的分类属性
路漫漫其悠远
大纲
简介 决策树学习算法 应用实例
路漫漫其悠远
应用实例
问题及数据集
根据其他属性,判断周六是否玩网球 playTennis=Y/N?
路漫漫其悠远
TaxIn
NO
c > 80K
NO
Y
E
S
路漫漫其悠远
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
TaxIn
NO
c > 80K
NO
Y
E
S
路漫漫其悠远
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
当对S的一个任意成员的目标值编码时,Gain(S,A)的值 是在知道属性A的值后可以节省的二进制位数
路漫漫其悠远
例子
假设S是有关天气的训练样例集 [9+,5-] 其中:
wind=weak的样例是 [6+,2-] wind=strong的样例[+3,-3]
问题:计算属性wind的信息增益
Refund
Yes
No
Refund
Yes
No
Don’t Cheat
Single, Divorced
Marital Status
Married
Cheat
Don’t Cheat
路漫漫其悠远
Don’t Cheat
Single, Divorced
Marital Status
Married
Taxable Income
NO Yes
Ref und No
NO < 80K
TaxI nc > 80K
NO
Y
E
S
相同的数据可产生多棵决策树
路漫漫其悠远
决策树分类任务框架
路漫漫其悠远
决策树
决策树应用
从根节点开始
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
TaxIn
NO
c > 80K
▪ 那么对所需的消息编码方法是赋给正例集合较短的编码,可能性较 小的反例集合较长的编码,平均每条消息的编码少于1个二进制位
路漫漫其悠远
性能度量——信息增益
属性的信息增益
使用这个属性分割样例而导致的期望熵降低的数量
Values(A)是属性A所有可能值的集合
Sv 是S中属性A的值为v的子集 ,即Sv={sS|A(s)=v}
und No
NO
Mar
Single, Divorced St
Married
< 80K
TaxI
NO
nc > 80K
训练数据
NO
Y
E
S
模型:决策树
(Refund=YES)
TaxInc ٨ MarSt=Single,Divorced ٨ (Refund=NO ٧ <80K)
另一棵决策树
Married
Mar Single, St Divorced
Married
< 80K
TaxIn
NO
c > 80K
NO
Y
E
பைடு நூலகம்
S
路漫漫其悠远
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
TaxIn
NO
c > 80K
NO
Y
E
S
路漫漫其悠远
指定欺诈为: “No”
决策树分类任务框架
路漫漫其悠远
Decision Tree
决策树学习培训讲义
路漫漫其悠远 2020/3/27
大纲
简介 决策树学习算法 应用实例
路漫漫其悠远
决策树(Decision Tree)
决策树学习是应用最广的归纳推理算法之一
它是一种逼近离散函数的方法
学习到的函数以决策树的形式表示 主要用于分类
对噪声数据有很好的鲁棒性
能够学习析取表达
度量标准——熵
路漫漫其悠远
度量标准——熵
信息论中熵的一种解释
熵确定了要编码集合S中任意成员(即以均匀的概率随机抽 出的一个成员)的分类所需要的最少二进制位数 =1
▪ 接收者知道抽出的样例必为正,所以不必发任何消息,熵为0
= 0.5
▪ 必须用一个二进制位来说明抽出的样例是正还是负,熵为1
= 0.8
大纲
简介 决策树学习算法 应用实例
路漫漫其悠远
决策树算法
Hunt’s Algorithm CART ID3, C4.5 SLIQ,SPRINT
路漫漫其悠远
基本的ID3算法
路漫漫其悠远
基本算法
Don’t Cheat
Refund
Yes
No
Don’t Cheat
Don’t Cheat
Step1: 确定根节点
分别计算4个属性的信息增益
Outlook: 0.246 =Sunny [2+,3-] =Overcast [4+,0-] =Rain [3+,2-]
NO
Y
E
S
路漫漫其悠远
测试数据
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
TaxIn
NO
c > 80K
NO
Y
E
S
路漫漫其悠远
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
Don’t Cheat
< 80K
>= 80K
Don’t Cheat
Cheat
决策树归纳
贪婪策略
根据特定的性能度量选择最好的划分属性
要素
哪个属性是最佳的分类属性?
如何确定最佳划分点
如何确定停止条件
路漫漫其悠远
度量标准——熵
熵(Entropy)
信息论中广泛使用的一个度量标准 刻画任意样例集的纯度(purity) 一般计算公式为:
路漫漫其悠远
分类任务基本框架
路漫漫其悠远
分类应用实例
垃圾邮件过滤 信贷分析 新闻分类 人脸识别、手写体识别等
路漫漫其悠远
决策树的结构
图结构
内部节点(非树叶节点,包括根节点)
在一个属性上的测试
分枝
一个测试输出
树叶节点
类标识
路漫漫其悠远
决策树示例
测试属性
路漫漫其悠远
Ref
Yes
对于二元分类:给定包含关于某个目标概念的正反样例的样例集S ,那么S相对这个布尔型分类的熵为:
Entropy(S) -plog2p-pΘlog2pΘ
其有中 计p算中是我在们S中定正义例0l的og比0为例0,。pΘ是在S中负例的比例。在有关熵的所
路漫漫其悠远
例子
路漫漫其悠远
Entropy = -(0/6)log(0/6)-(6/6)log(6/6)=0 Entropy = 1-(1/6)log(1/6)-(5/6)log(5/6)=0.650 Entropy = 1-(3/6)log(3/6)-(3/6)log(3/6)=1
路漫漫其悠远
选择最好的分类属性
路漫漫其悠远
大纲
简介 决策树学习算法 应用实例
路漫漫其悠远
应用实例
问题及数据集
根据其他属性,判断周六是否玩网球 playTennis=Y/N?
路漫漫其悠远
TaxIn
NO
c > 80K
NO
Y
E
S
路漫漫其悠远
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
TaxIn
NO
c > 80K
NO
Y
E
S
路漫漫其悠远
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
当对S的一个任意成员的目标值编码时,Gain(S,A)的值 是在知道属性A的值后可以节省的二进制位数
路漫漫其悠远
例子
假设S是有关天气的训练样例集 [9+,5-] 其中:
wind=weak的样例是 [6+,2-] wind=strong的样例[+3,-3]
问题:计算属性wind的信息增益
Refund
Yes
No
Refund
Yes
No
Don’t Cheat
Single, Divorced
Marital Status
Married
Cheat
Don’t Cheat
路漫漫其悠远
Don’t Cheat
Single, Divorced
Marital Status
Married
Taxable Income
NO Yes
Ref und No
NO < 80K
TaxI nc > 80K
NO
Y
E
S
相同的数据可产生多棵决策树
路漫漫其悠远
决策树分类任务框架
路漫漫其悠远
决策树
决策树应用
从根节点开始
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
TaxIn
NO
c > 80K
▪ 那么对所需的消息编码方法是赋给正例集合较短的编码,可能性较 小的反例集合较长的编码,平均每条消息的编码少于1个二进制位
路漫漫其悠远
性能度量——信息增益
属性的信息增益
使用这个属性分割样例而导致的期望熵降低的数量
Values(A)是属性A所有可能值的集合
Sv 是S中属性A的值为v的子集 ,即Sv={sS|A(s)=v}
und No
NO
Mar
Single, Divorced St
Married
< 80K
TaxI
NO
nc > 80K
训练数据
NO
Y
E
S
模型:决策树
(Refund=YES)
TaxInc ٨ MarSt=Single,Divorced ٨ (Refund=NO ٧ <80K)
另一棵决策树
Married
Mar Single, St Divorced
Married
< 80K
TaxIn
NO
c > 80K
NO
Y
E
பைடு நூலகம்
S
路漫漫其悠远
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
TaxIn
NO
c > 80K
NO
Y
E
S
路漫漫其悠远
指定欺诈为: “No”
决策树分类任务框架
路漫漫其悠远
Decision Tree
决策树学习培训讲义
路漫漫其悠远 2020/3/27
大纲
简介 决策树学习算法 应用实例
路漫漫其悠远
决策树(Decision Tree)
决策树学习是应用最广的归纳推理算法之一
它是一种逼近离散函数的方法
学习到的函数以决策树的形式表示 主要用于分类
对噪声数据有很好的鲁棒性
能够学习析取表达
度量标准——熵
路漫漫其悠远
度量标准——熵
信息论中熵的一种解释
熵确定了要编码集合S中任意成员(即以均匀的概率随机抽 出的一个成员)的分类所需要的最少二进制位数 =1
▪ 接收者知道抽出的样例必为正,所以不必发任何消息,熵为0
= 0.5
▪ 必须用一个二进制位来说明抽出的样例是正还是负,熵为1
= 0.8
大纲
简介 决策树学习算法 应用实例
路漫漫其悠远
决策树算法
Hunt’s Algorithm CART ID3, C4.5 SLIQ,SPRINT
路漫漫其悠远
基本的ID3算法
路漫漫其悠远
基本算法
Don’t Cheat
Refund
Yes
No
Don’t Cheat
Don’t Cheat
Step1: 确定根节点
分别计算4个属性的信息增益
Outlook: 0.246 =Sunny [2+,3-] =Overcast [4+,0-] =Rain [3+,2-]
NO
Y
E
S
路漫漫其悠远
测试数据
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
TaxIn
NO
c > 80K
NO
Y
E
S
路漫漫其悠远
决策树应用
测试数据
Refu
Yes
nd
No
NO
MarS
t Single, Divorced
Married
< 80K
Don’t Cheat
< 80K
>= 80K
Don’t Cheat
Cheat
决策树归纳
贪婪策略
根据特定的性能度量选择最好的划分属性
要素
哪个属性是最佳的分类属性?
如何确定最佳划分点
如何确定停止条件
路漫漫其悠远
度量标准——熵
熵(Entropy)
信息论中广泛使用的一个度量标准 刻画任意样例集的纯度(purity) 一般计算公式为:
路漫漫其悠远
分类任务基本框架
路漫漫其悠远
分类应用实例
垃圾邮件过滤 信贷分析 新闻分类 人脸识别、手写体识别等
路漫漫其悠远
决策树的结构
图结构
内部节点(非树叶节点,包括根节点)
在一个属性上的测试
分枝
一个测试输出
树叶节点
类标识
路漫漫其悠远
决策树示例
测试属性
路漫漫其悠远
Ref
Yes
对于二元分类:给定包含关于某个目标概念的正反样例的样例集S ,那么S相对这个布尔型分类的熵为:
Entropy(S) -plog2p-pΘlog2pΘ
其有中 计p算中是我在们S中定正义例0l的og比0为例0,。pΘ是在S中负例的比例。在有关熵的所
路漫漫其悠远
例子
路漫漫其悠远
Entropy = -(0/6)log(0/6)-(6/6)log(6/6)=0 Entropy = 1-(1/6)log(1/6)-(5/6)log(5/6)=0.650 Entropy = 1-(3/6)log(3/6)-(3/6)log(3/6)=1