决策树学习讲义

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随机变量的熵
n
I ( X ) P( X i ) log 2 P( X i )
i 1
熵 比较多的用于信源编码,数据压缩,假设
是最有效的编码方式是使用 位编码
X i
于是对于随即变量的最有效编码位之和:
决策树学习原理简介—(ID3, C4.5算法)
表示训练集合中的样本
p 表示训练集合中反例样本的比例


14
下雨
适中


不去
决策树学习原理简介—(ID3, C4.5算法)
S: (9+, 5)
湿度

(3+, 4-)
S: (9+, 5)

正常
(6+, 1-)

(6+, 2-)
问题:哪一个属性(特征)更好?

(3+, 3-)
决策树学习原理简介—(ID3, C4.5算法)
熵:物理学概念
宏观上:热力学定律—体系的熵变等于可逆过程吸收
根据起因分类设备故障
根据拖欠支付的可能性分类贷款申请
分类问题
核心任务是把样例分类到各可能的离散值对应的类别
基本的决策树学习算法
大多数决策树学习算法是一种核心算法的变体
采用自顶向下的贪婪搜索遍历可能的决策树空间
ID3是这种算法的代表


9、要学生做的事,教职员躬亲共做; 要学生 学的知 识,教 职员躬 亲共学 ;要学 生守的 规则, 教职员 躬亲共 守。21.6.2821.6.28M onday, June 28, 2021

3、Patience is bitter, but its fruit is sweet. (Jean Jacques Rousseau , French thinker)忍耐是痛苦的,但它的果实是甜蜜的。10:516.17.202110:516.17.202110:5110:51:196.17.202110:516.17.2021
Gain(S, 风)
=0.940-(7/14).985-7/14*0.592
=0.940-(8/14).811-(6/14)1.0
=0.151
=0.048
决策树学习原理简介—(ID3, C4.5算法)
决策树的构造过程示意
x1
x3
x3
+
x8
x7
-
+
-
+
-
决策树学习
将树转化为规则
将树转化为规则集合
事实上在实例的整个分布上表现得却更好时,我们说这个假设过
度拟合训练样例
定义:给定一个假设空间H,一个假设hH,如果存在其他的假
设h’H,使得在训练样例上h的错误率比h’小,但在整个实例分
布上h’的错误率比h小,那么就说假设h过度拟合训练数据。
决策树学习及over-fitting
导致过度拟合的原因

5、You have to believe in yourself. That's the secret of success. ----Charles Chaplin人必须相信自己,这是成功的秘诀。-Thursday, June 17, 2021June 21Thursday, June 17, 20216/17/2021
或耗散的热量除以它的绝对温度(克劳修斯,1865)
微观上:熵是大量微观粒子的位置和速度的分布概率
的函数,是描述系统中大量微观粒子的无序性的宏观参数
(波尔兹曼,1872)
结论:熵是描述事物无序性的参数,熵越大则无序性
越强,在信息领域定义为“熵越大,不确定性越大”(香浓,
1948年)
决策树学习原理简介—(ID3, C4.5算法)

15、一年之计,莫如树谷;十年之计 ,莫如 树木; 终身之 计,莫 如树人 。2021年6月上 午2时44分21.6.2802:44June 28, 2021


16、提出一个问题往往比解决一个更 重要。 因为解 决问题 也许仅 是一个 数学上 或实验 上的技 能而已 ,而提 出新的 问题, 却需要 有创造 性的想 像力, 而且标 志着科 学的真 正进步 。2021年6月28日星期 一2时44分59秒02:44:5928 June 2021
* Gain( S , x)表示样本集合与属性(特征)x的互信息
Gain( S , x) Entropy ( S )

vValues ( x )
Sv
Entropy ( Sv )
S
A v的子集
决策树学习原理简介—(ID3, C4.5算法)
问题:哪一个属性(特征)更好?分析极端的情况
E=1.0
10、阅读一切好书如同和过去最杰出 的人谈 话。02:44:5902:44:5902:446/28/2021 2:44:59 AM

11、一个好的教师,是一个懂得心理 学和教 育学的 人。21.6.2802:44:5902:44Jun-2128-J un-21

12、要记住,你不仅是教课的教师, 也是学 生的教 育者, 生活的 导师和 道德的 引路人 。02:44:5902:44:5902:44Monday, June 28, 2021

4、All that you do, do with your might; things done by halves are never done right. ----R.H. Stoddard, American poet做一切事都应尽力而为,半途而废永远不行6.17.20216.17.202110:5110:5110:51:1910:51:19
如果 Si 中包含 pi 个类别为 “+”的样本, ni 个类别为 “-”,
的样本。那么熵就是 (entropy),
K
E ( x)
i 1
pi ni
I ( pi , ni )
pn
在x上进行决策分枝所获得的信息增益为:
Gain( x) I ( p, n) E ( x)
决策树学习原理简介—(ID3, C4.5算法)
叶子节点:最终预测
Y or P (Y | Y Leaf )
决策树学习原理简介—(ID3, C4.5算法)
node = root
循环
{
1. 为当下一个节点选择一个最好的属性 x
2. 将属性x分配给节点node
3. 对于x的所有可能数值,创建一个降序排列的节点node
4. 将所有训练样本在叶子节点排序分类
训练误差升高修剪修剪步骤删除以此节点为根的子树使它成为叶结点把和该节点关联的训练样例的最常见分类赋给它反复修剪节点每次总是选取那些删除后可以最大提高决策树在验证集合上的精度的节点数据分成3个子集训练样例形成决策树验证样例修剪决策树测试样例精度的无偏估计如果有大量的数据可供使用那么使用分离的数据集合来引导修剪规则后修剪从训练集合推导出决策树增长决策树直到尽可能好地拟合训练数据允许过度拟合发生将决策树转化为等价的规则集合方法是为从根节点到叶节点的每一条路径创建一条规则按照修剪过的规则的估计精度对它们进行排序并按这样的顺序应用这些规则来分类后来的实例规则后修剪规则精度估计方法使用与训练集不相交的验证集基于训练集合本身被c45使用使用一种保守估计来弥补训练数据有利于当前规则的估计偏置过程对于一个给定的置信区间采用下界估计作为规则性能的度量评论对于大的数据集保守预测非常接近观察精度随着数据集合的减小离观察精度越来越远不是统计有效但是实践中发现有效规则后修剪把决策树转化成规则集的好处可以区分决策节点使用的不同上下文消除了根节点附近的属性测试和叶节点附近的属性测试的区别提高了可读性合并连续值属性id3被限制为取离散值的属性学习到的决策树要预测的目标属性必须是离散的树的决策节点的属性也必须是离散的简单删除上面第2个限制的方法通过动态地定义新的离散值属性来实现即先把连续值属性的值域分割为离散的区间集合合并连续值属性例temperature应该定义什么样的基于阈值的布尔属性选择产生最大信息增益的阈值按照连续属性排列样例确定目标分类不同的相邻实例产生一组候选阈值它们的值是相应的a值之间的中间值可以证明产生最大信息增益的c值位于这样的边界中fayyad1991通过计算与每个候选阈值关联的信息增益评估这些候选值方法的扩展连续的属性分割成多个区间而不是单一阈值的两个空间属性选择的其他度量标准增益比率通过加入一个被称作分裂信息的项来惩罚多值属性分裂信息用来衡量属性分裂数据的广度和均匀性splitinformationsagainratiosas
训练结果
errorD (h)
在如下情况下即会产生过拟合
errortrain (h) errortrain (h )
'
errorD (h) errorD (h ' )
17、儿童是中心,教育的措施便围绕 他们而 组织起 来。上 午2时44分59秒 上午2时44分02:44:5921.6.28
2、Our destiny offers not only the cup of despair, but the chalice of opportunity. (Richard Nixon, American President )命运给予我们的不是失望之酒,而是机会之杯。二〇二一年六月十七日2021年6月17日星期四
熵与操作之后的系统熵的差值,也即是不确定性的减小量
信息增益(Information Gain)
原来的不确定性
知道x之后的不确定性
信息增益: 原来-知道x之后的
原来不确定性-经过属性x划分以后的不确定性
信息增益(Information Gain)
选择属性的标准:选择具有最高信息增益(Information Gain)
5. 如果分类结果达到了错误率要求,跳出循环,否则,
在叶子节点开始新循环-〉递归
}
决策树表示法
决策树
通过把实例从根节点排列到某个叶子节点来分类实例。
叶子节点即为实例所属的分类
树上每个节点说明了对实例的某个属性的测试
节点的每个后继分支对应于该属性的一个可能值
决策树代表实例属性值约束的合取的析取式。从

基本的决策树学习算法
ID3的思想
自顶向下构造决策树
从“哪一个属性将在树的根节点被测试”开始
使用统计测试来确定每一个实例属性单独分类训练样例的
能力
ID3的过程
分类能力最好的属性被选作树的根节点
根节点的每个可能值产生一个分支
训练样例排列到适当的分支
重复上面的过程
决策树学习原理简介—(ID3, C4.5算法)
一种可能原因是训练样例含有随机错误或噪声
当训练数据没有噪声时,过度拟合也有可能发生,特别是当
少量的样例被关联到叶子节点时,很可能出现巧合的规律性,
使得一些属性恰巧可以很好地分割样例,但却与实际的目标
函数并无关系。
决策树学习及over-fitting
假设 h 在训练样本集合上的错误率为
样本集合上的真实错误率为
提高计算效率
针对这些问题,ID3被扩展成C4.5
决策树学习及over-fitting
看看天气
阳光明媚
下雨
阴天
看看湿度

不去打球
1
晴天
正常
去打球
炎热
增加一个错误样本
看看风速
去打球

不去打球


去打球

去打球
决策树学习及over-fitting
过度拟合
对于一个假设,当存在其他的假设对训练样例的拟合比它差,但
13、He who seize the right moment, is the right man.谁把握机遇,谁就心想事成 。21.6.2821.6.2802:44:5902:44:59June 28, 2021

14、谁要是自己还没有发展培养和教 育好, 他就不 能发展 培养和 教育别 人。2021年6月 28日星 期一上 午2时44分59秒02:44:5921.6.28
的属性
假设有两个类, + 和 假设集合S中含有p个类别为+的样本,n个类别为-的样本
将S中已知样本进行分类所需要的期望信息定义为:
p
p
n
n
I ( p, n)
log 2

log 2
pn
pn pn
pn
信息增益在决策树中的使用
假设属性x将把集合S划分成 K份 {S1, S2 , …, SK}
p 表示训练集合中正例样本的比例
I ( S ) p log 2 ( p ) p log 2 ( p ) 表示训练集合的熵
决策树学习原理简介—(ID3, C4.5算法)
信息增益:information gain
信息的增加意味着不确定性的减少,也就是熵的减小,
信息增益在诸多系统中定义为:在某一个操作之前的系统
第1.2节 决策树学习
(Decision Tree)
内容
✓ 决策树方法的原理
✓ 决策树中的过拟合问题
✓ 决策树的其他问题
✓ 属性的其他度量
决策树学习——决定是否打网球
看看天气
阳光明媚
阴天
下雨
看看湿度

不去打球
正常
去打球
看看风速
去打球

不去打球

去打球
节点:每一个节点测试一个属性,
分支:属性的可选数值,
表-1:是否去打球的数据统计—训练数据
编号
天气
温度
湿度

是否去打球
1
晴天
炎热


不去
2
晴天
炎热


不去
3
阴天
炎热



4
下雨
适中



5
下雨
寒冷
正常


6
下雨
寒冷
正常

不去
7
阴天
寒冷
正常


8
晴天
适中


不去
9
晴天
寒冷
正常


10
下雨
适中
正常


11
晴天
适中
正常


12
阴天
适中



13
阴天
炎热
正常
=0.0
=1.0
决策树学习原理简介—(ID3, C4.5算法)
问题:哪一个属性(特பைடு நூலகம்)更好?
S: (9+, 5)
湿度
E=0.940

(3+, 4-)
I=0.985
E=0.940
正常
S: (9+, 5)


(6+, 1-)
(6+, 2-)
I=0.592
I=0.811

(3+, 3-)
I=1.00
Gain(S, 湿度)
树叶到树根的每一条路径对应一组属性测试的合
取,树本身对应这些合取的析取。
决策树学习的适用问题
适用问题的特征
实例由“属性-值”对表示
目标函数具有离散的输出值
可能需要析取的描述
训练数据可以包含错误
训练数据可以包含缺少属性值的实例
相关文档
最新文档