第4机器学习 决策树

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4.6.3 基本的决策树学习算法
ID3
基本的ID3算法通过自顶向下构造决策 树来进行学习。
4.6.3 基本的决策树学习算法
ID3算法的构造过程 (问题:哪一个属性将在树的根结点被测试?)
使用统计测试来确定每一个实例属性单独分类训练样例的能力, 分类能力最好的属性被选作树的根结点的测试。
为根结点属性的每个可能值产生一个分支,并把训练样例排列到 适当的分支(也就是,样例的该属性值对应的分支)之下。
坏鱼情(0.3)
$20000
4.6.1 什么是决策树?
什么是决策树?
从机器学习的角度定义
决策树是运用于分类 的一种树结构。
4.6.1 什么是决策树?
决策树的表示方法
每个内部节点(internal node)代表对某 个属性的一次测试。
一条边代表一个测试结果。 叶子(leaf)代表某个类(class)或者类
上节课程内容回顾
什么是机器学习? 机器学习的产生与发展 贝叶斯定理 贝叶斯分类算法
上节课程内容回顾
明天太阳 会升起吗?
第一天
他在一个袋子放 了黑白各一个颗弹子。 (太阳升起的概率?)
第二天
太阳升起了, 他加了一个白弹子在袋子里。
(太阳升起的概率?)
第三天
太阳升起了, 他又加了一个白弹子在袋子里。
描述的。
--最简单的决策树学习中,每一个属性取少 数的分离的值。
--扩展的算法允许处理值域为实数的属性 (例如,数字表示的温度)。
4.6.2 决策树学习的适用问题
决策树学习的适用问题
目标函数具有离散的输出值 --上面举例的决策树给每个实例赋予一个布
尔型的分类(例如,yes或no)。
--决策树方法很容易扩展到学习有两个以上 输出值的函数。
(太阳升起的概率?)
。。。。。。。
结论
几乎可以肯定,
太阳总会升起。
主要内容
4.6.1 决策树的概念 4.6.2 决策树学习的适用问题 4.6.3 决策树的基本算法 4.6.4 最佳分类属性判定 4.6.5 决策树的假设空间搜索 4.6.6 决策树的常见问题 4.6.7 决策树的优缺点 4.6.8 决策树算法的PROLOG实现
(Buys_computer=age<=30 ∧Student) ∨(Buys_computer=age=30-40)
∨(Buys_computer=age>40 ∧Credit_rating=excellent)
4.6.2 决策树学习的适用问题
决策树学习的适用问题
实例由“属性-值”对(pair)表示 --实例是用一系列固定的属性和它们的值来
分类实例的方法是从这棵树的根结点开始, 测试这个结点指定的属性,然后按照给定 实例的该属性值对应的树枝向下移动。这 个过程再在以新结点为根的子树上重复。
问题:实例怎么表达?
4.6.1 什么是决策树?
决策树与规则表达的转换
通常决策树代表实例属性值约束的合取 (conjunction)的析取式(disjunction)。 从树根到树叶的每一条路径对应一组属性测 试的合取,树本身对应这些合取的析取。
4.6.1 什么是决策树?
决策树分类过程
决策树通过把实例从根结点排列(sort)到 某个叶子结点来分类实例,叶子结点即为 实例所属的分类。
树上的每一个结点指定了对实例的某个属 性(attribute)的测试,并且该结点的每 一个后继分支对应于该属性的一个可能值。
4.6.1 什么是决策树?
决策树分类过程(续)
重复整个过程,用每个分支结点关联的训练样例来选取在该点被 测试的最佳属性。
4.6.3 基本的决策树学习算法
专用于学习布尔函数的ID3算法
ID3是一种自顶向下增长树的贪婪(greedy)算法, 在每个结点选取能最好地分类样例的属性。 继续这个过程直到这棵树 能完美分类训练样例, 或者所有的属性都使用过了。
的分布(class distribution)。 最上面的节点是根结点。
4.6.1 什么是决策树?
举例
假设用一个决策树表示一个关心电子产品 的用户是否会购买PC的知识,然后用它来 预测某条记录(某个人)的购买意向。
4.6.1 什么是决策树?
举例
<=30
学生?




年龄?
30-40 是
>40 信用状况?
见复印资料。
4.6.3 基本的决策树学习算法
专用于学习布尔函数的ID3算法
什么是衡量属性价值的定量标准?
4.6.4 哪个属性是最佳的分类属性?
信息熵
信息论中广泛使用的一个度量标准 (Claude Elwood Shannon),称为熵 (entropy),它刻画了任意样例集的纯度 (purity)。
很好
一般


4.6.1 什么是决策树?
举例
类别:buys_computers=yes和 buys_computers=no)。 样本向量为(age, student, credit_rating; buys_computers) 被决策数据的格式为(age, student, credit_rating) 输入新的被决策的记录,可以预测该记录隶属于 哪个类。
已经发现有很多实际的问题符合这些特征,所以决策树学习 已经被应用到很多问题中。例如:根据拖欠支付的可能性
分类贷款申请;根据起因分类设备故障。它们的核心任务就是 要把样例分类到各可能的离散值对应的类别中。
4.6.3 基本的决策树学习算法
已有的决策树学习算法
大多数已开发的 决策树学习算法都是 一种核心算法的变体。 ID3(QUINLAN 1986)及其后继的C4.5
4.6.1 什么是决策树?
什么是决策树?
从管理学的角度定义
决策树是指使用系统分析 方法,把各种决策方案及 出现结果的可能性进行分 组排列,然后确定最佳方 案的决策过程。
4.6.1 什么是决策树?
举例:渔民投资
新船 决策点
旧船
好鱼情(0.7)
wenku.baidu.com
$90000
坏鱼情(0.3)
好鱼情(0.7)
-$10000 $80000
--一种更强有力的扩展算法允许学习具有实 数值输出的函数,尽管决策树在这种情况下 的应用不太常见。
4.6.2 决策树学习的适用问题
决策树学习的适用问题
可能需要析取的描述
--决策树很自然地代表了析取表达式。
4.6.2 决策树学习的适用问题
决策树学习的适用问题
训练数据可以包含缺少属性值的实例
--决策树学习对错误有很好的鲁棒性,无论 是训练样例所属的分类错误还是描述这些样 例的属性值错误。
相关文档
最新文档