决策树课件.ppt
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i
P(ui
| v j ) log 2
1 P(ui | v j )
i
P(ui | v j ) log 2 P(ui | v j )
称为后验熵。后验熵的期望(条件熵或信道疑义
度):
Ent(U | V )
j
P(v j )
i
P(ui
| v j ) log 2
1 P(ui |
vj)
P(v j )( P(ui | v j ) log 2 P(ui | v j ))
决策树建立好后,n维特征空间会被划分成若干 个小的边界平行或垂直于坐标轴的矩形区域
确定每一步特征空间划分标准时,都同时兼顾由此将 形成的两个区域,希望划分形成的两个区域所包含的 样本点尽可能同时“纯正”
决策树算法概述:核心问题
第一,决策树的生长 利用训练样本集完成决策树的建立过程
第二,决策树的剪枝 利用测试样本集对所形成的决策树进行精简
j
i
信息增益 Gains(U,V ) Ent(U ) Ent(U | V )
信息消除随机不确定性的程度
C5.0:生长算法
如何从众多输入变量中选择一个最佳分组变量: C5.0以信息增益率为标准。例如:
决策树建立之前:Ent(U )
i
P(ui ) log 2
1 P(ui
)
i
P(ui
) log 2
传递系统存在于一个随机干扰环境之中
将发送的信息记为U,接收的信息记为V,那 么信道可看作为信道模型,记为P(U|V)
信源(发送端) U
u1,u2,..ur
信道
P(U|V)
信宿(接收端) V
v1,v2,..vq
C5.0算法:熵
信道模型是一个条件概率矩阵P(U|V),称为信道
传输概率矩阵
P(u1 | v1 )
事先指定允许的 最大误差值
通常依据测试样 本集剪枝
C5.0算法
C5.0是在ID3(J R Quinlan,1979)基础上发展起 来。C5.0是C4.5算法的商业化版本
特点: C5.0用于建立多叉分类树 输入变量是分类型或数值型,输出变量应为分 类型 以信息增益率确定最佳分组变量和分割点
如果信源的k个信号有相同的发送概率,P(ui)=1/k, 则信息发送的不确定性最大,信息熵达到最大
P(ui)差别小,信息熵大,平均不确定性大;反之
C5.0算法:信息增益
已知信号U的概率分布P(U)且收到信号V=vj,发出信 号的概率分布为P(U|vj),信源的平均不确定性:
Ent(U | v j )
C5.0算法:熵
信息熵是信息论(C.E.Shannon,1948)中的基本 概念。信息论主要用于解决信息传递过程中的问 题,也称统计通信理论
信息论的基本出发点认为:
信息传递通过由信源、信道和信宿组成的传递 系统实现
信源(发送端) 信道
信宿(接收端)
C5.0算法:熵
信息论的基本出发点认为:
常用的修剪技术: 预修剪(pre-pruning):用来限制决策树的 充分生长。策略: 事先指定决策树生长的最大深度 事先指定树节点样本量的最小值 后修剪(post-pruning):待决策树充分生 长完毕后再进行剪枝
决策树算法概述:树剪枝
后修剪:待决策树生长完毕,根据一定规则,剪 去不具一般代表性的子树。策略:
后验不确定性:通信发生后,信宿收到发自信源的 信息,先验不确定性部分被消除,信宿对信源仍有 一定程度的不确定性 后验不确定性等于先验不确定性,表示信宿没有 收到信息; 后验不确定性等于零,表示信宿收到了全部信息 信息是用来消除随机不确定性的,信息量的大小 可由所消除的不确定性大小来计量
C5.0算法:熵
信息量的数学定义:
I (ui )
log 2
1 P(ui )
log 2
P(ui )
信息熵是信息量的数学期望,是信源发出信息前的
平均不确定性,也称先验熵。信息熵的数学定义:
Ent(U )
i
P(ui ) log 2
1 P(ui )
i
P(ui ) log 2 P(ui )
信息熵等于0,表示只存在唯一的信息发送可能, P(ui)=1,没有发送的不确定性;
P(u1
|
v2
)
...
P(u1
|
vq
)
P(u2 | v1 ) ....P(ur | v1 ) P(u2 | v2 ) ....P(ur | v2 )
...
... .
P(u2 | vq )
....P(ur
|
vq
)
P(ui|vj)是信宿收到vj而信源发出ui的概率 ,且
P(ui | v j ) 1 (i 1,2,...,r)
决策树算法概述:特点
体现了对样本数据的不断分组过程 决策树分为分类树和回归树 体现了输入变量和输出变量取值的逻辑关系
逻辑比较形式表述的是一种推理规则 每个叶节点都对应一条推理规则 对新数据对象的分类预测
决策树算法概述:几何理解
决策树建立的过程就是决策树各个分枝依次形成 的过程
决策树的每个分枝在一定规则下完成对n维特征 空间的区域划分
P(ui
)
9 14
log
2
(9 14
)
5 14
log
2
(5 14
)
0.940ቤተ መጻሕፍቲ ባይዱ
Clementine的决策树
主要内容
决策树算法概述 从学习角度看,决策树属有指导学习算法 目标:用于分类和回归
C5.0算法及应用 分类回归树及应用 CHAID算法及应用 QUEST算法及应用 模型的对比分析
决策树算法概述:基本概念
得名其分析结论的展示方式类似一棵倒置的树
•根节点 •叶节点 •中间节点 •2叉树和多 叉树
信源也同样被看做是某种随机过程,有:
P(ui ) 1(i 1,2,...,r)
C5.0算法:熵
例如:二元信道模型
P(u1 | v1 )
P(u1
|
v2
)
P(u2 P(u2
| v1 ) | v2 )
P11
P12
P21
P22
C5.0算法:熵
先验不确定性:通信发生前,信宿对信源的状态具 有不确定性
决策树算法概述:树生长
决策树的生长是对训练样本集的不断分组
分枝准则的确定涉及:
•第一,如何从众多的输入 变量中选择一个当前最佳的 分组变量
•第二,如何从分组变量的 众多取值中找到一个最佳的 分割点
决策树算法概述:树剪枝
树剪枝的原因:完整的决策树对训练样本特征的 捕捉“过于精确”--- 过拟和(Overfitting)