决策树 PPT

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ID3 (J. Ross Quinlan-1975)核心:信息熵Fra Baidu bibliotekC4.5—ID3的改进,核心:信息增益比 CART(Breiman-1984),核心:基尼指数
例1. 找对象
• 决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这 个女孩介绍男朋友,于是有了下面的对话:
• 女儿:多大年纪了? (年龄)
例1.3 对表1.1所给的训练数据集D, 根据信息增益准则选择最优特征。 1
2 3 4 5 6 7 8 9 10 11 12 13 14 15
年龄
青年 青年 青年 青年 青年 中年 中年 中年 中年 中年 老年 老年 老年 老年 老年
有工作
否 否 是 是 否 否 否 是 否 否 否 否 是 是 否
有自己 的房子
一般

7 中年 否


13 老年 是


14 老年 是 非常好 是
15 老年 否
一般

表2
有自己的房子


有工作



ID 年龄 信贷情况 类别
3 青年


13 老年


14 老年 非常好 是
表3
这里生成的决策树只用到两个特征 (两个内节点),ID3算法容易存在过拟 合问题。
ID 年龄 信贷情况 类别
1.1.4 决策树学习
1.1.4 决策树学习
• 目标:我们需要的是一个与训练数据矛盾较小的决策树,同时具 有很好的泛化能力。
• 决策树学习的损失函数:(通常是)正则化的极大似然函数。但 是基于损失函数找到全局最优决策树是NP-完全问题。
• 现实中决策树学习通常采用启发式方法,即局部最优。
• 具体做法:每次选择feature时,都挑选择当前条件下最优的那个 feature作为划分规则,即局部最优的feature。
1 青年 一般 否
2 青年


5 青年 一般 否
6 中年 一般 否
7 中年


15 老年 一般 否
表4
补充:如何解决决策树的过拟合问题
概念
什么是过度拟合数据
原因
过度拟合数据是怎么产生的
解决
怎么去解决这个问题
补充:如何解决决策树的过拟合问题——概念
过度拟合(overfitting):如果决策树对训练样本的特征描 述得“过于精确”,无法实现对新样本的合理分析,所以此时它不 是一棵分析新数据的最佳决策树。一棵完全决策树能非常准确地反 映训练集中数据的特征,但因失去了一般代表性而无法用于对新数 据的分类或预测,这种现象一般称为“过拟合”。
希望通过所给的训练数据学习一个贷款 申请的决策树,用以对未来的贷款申请 进行分类。
特征选择是决定用哪个特征来划分特征 空间。
ID
年龄
有工作 有自己的 信贷情况 类别
房子
1
青年


一般

2
青年




3
青年




4
青年


一般

5
青年


一般

6
中年


一般

7
中年




8
中年




9
中年


非常好
规则的结论。 • If-then规则集合的一重要性质:互斥并且完备
1.1.3 决策树与条件概率分布
将特征空间划分为互不相交的单元或区域,并在每个单元定义一个类的概 率分布就构成了一个条件概率分布。
各叶结点(单元)上的条件概率往往偏向某一个类,即属于某一类的概率较大, 决策树分类时将该结点的实例强行分到条件概率大的那一类去。
有自己的房子(A3)

ID 年龄 有工作 信贷情况 类 别
4 青年 是
一般 是
8 中年 是
好是
9 中年 否
非常好 是
10 中年 否
非常好 是
11 老年 否
非常好 是
12 老年 都
好是
表1

ID 年龄 有工作 信贷情况 类别
1 青年 否
一般

2 青年 否


3 青年 是


5 青年 否
一般

6 中年 否
否 否 否 是 否 否 否 是 是 是 是 是 否 否 否
信贷情 况 一般 好 好 一般 一般 一般 好 好
非常好 非常好 非常好
好 好 非常好 一般
类别
否 否 是 是 否 否 否 是 是 是 是 是 是 是 否
1.2.3 信息增益比
1.3 决策树的生成
1.3.1 ID3算法
例1.4 对表1.1的训练数据集,利用ID3算法建立决策树
• 1.1.1 决策树模型 • 1.1.2 决策树与if-then规则 • 1.1.3 决策树与条件概率分布 • 1.1.4 决策树学习
1.1.1 决策树模型
• 什么是决策树? • 定义1.1(决策树) 分类决策树模型是一种描述对
实例进行分类的树形结构。决策树由结点和有向边 组成。结点有两种类型:内部结点和叶节点。内部 结点表示一个特征或属性,叶节点表示一个类。
1.2 特征选择
1.2.1 特征选择问题
• 特征选择在于选取对训练数据具有分类能力的特征。
• 如何判断一个特征对于当前数据集的分类效果? 也即确定选择特征的准则。
例1.2 右表是一个由15个样本组成的贷 款申请训练数据。数据包括贷款申请人 的四个特征。表的最后一列是类别,是 否同意贷款,取2个值:是、否。
决策树
根据李峰等人的PPT改编 课件主要依据李航编写的《统计学习方法》编制,清华大学出版社
另一本参考书:《数据挖掘与数学建模》国防工业出版社 2010
决策树
• 1.1 决策树模型与学习 • 1.2 特征选择 • 1.3 决策树的生成 • 1.4 决策树的剪枝 • 1.5 CART算法
1.1 决策树模型与学习
决策树学习算法的特点
决策树学习算法的最大优点是,它可以自学习。 在学习的过程中,不需要使用者了解过多背景知识, 只需要对训练实例进行较好的标注,就能够进行学习。
显然,它属于有监督学习。 从一类无序、无规则的事物(概念)中推理出决策树 表示的分类规则。
决策树学习的主要算法
建立决策树的关键,即在当前状态下选择哪个 属性作为分类依据。根据不同的目标函数,建立 决策树主要有一下三种算法。

10
中年


非常好

11
老年


非常好

12
老年




13
老年




14
老年


非常好

15
老年


一般

1.2.2 信息增益
熵-就分类而言,所有成员都属于一类,熵为零;不同类别
数目相等,则熵等于1,类别数目不等,则熵介于0,1之间。
条件熵
信息增益
信息增益的具体公式
信息增益算法
ID
母亲:26。 女儿:长的帅不帅? (长相) 母亲:挺帅的。 女儿:收入高不? (收入情况) 母亲:不算很高,中等情况。 女儿:是公务员不? (是否公务员) 母亲:是,在税务局上班呢。 女儿:那好,我去见见。
1.1.2 决策树与if-then规则
• 由决策树的根结点到叶结点的每一条路径构建一条规则; • 路径上内部结点的特征对应着规则的条件,而叶结点的类对应着
相关文档
最新文档