决策树--[优质ppt]
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
决策树
根据李峰等人的PPT改编
决策树
• 1.1 决策树模型与学习 • 1.2 特征选择 • 1.3 决策树的生成 • 1.4 决策树的剪枝 • 1.5 CART算法
1.1 决策树模型与学习
• 1.1.1 决策树模型 • 1.1.2 决策树与if-then规则 • 1.1.3 决策树与条件概率分布 • 1.1.4 决策树学习
1.1.1 决策树模型
• 什么是决策树? • 定义1.1(决策树) 分类决策树模型是一种描述对
实例进行分类的树形结构。决策树由结点和有向边 组成。结点有两种类型:内部结点和叶节点。内部 结点表示一个特征或属性,叶节点表示一个类。
决策树学习算法的特点
决策树学习算法的最大优点是,它可以自学习。 在学习的过程中,不需要使用者了解过多背景知识, 只需要对训练实例进行较好的标注,就能够进行学习。
ID 年龄 信贷情况 类别
1 青年 一般 否
2 青年
好
否
5 青年 一般 否
6 中年 一般 否
7 中年
好
否
15 老年 一般 否
表4
补充:如何解决决策树的过拟合问题
概念
什么是过度拟合数据
原因
过度拟合数据是怎么产生的
解决
怎么去解决这个问题
补充:如何解决决策树的过拟合问题——概念
过度拟合(overfitting):如果决策树对训练样本的特征描 述得“过于精确”,无法实现对新样本的合理分析,所以此时它不 是一棵分析新数据的最佳决策树。一棵完全决策树能非常准确地反 映训练集中数据的特征,但因失去了一般代表性而无法用于对新数 据的分类或预测,这种现象一般称为“过拟合”。
数目相等,则熵等于1,类别数目不等,则熵介于0,1之间。
•
条件熵
•
信息增益
•
信息增益的具体公式
•
信息增益算法
•
ID
例1.3 对表1.1所给的训练数据集D, 根据信息增益准则选择最优特征。 1
2 3 4 5 6 7 8 9 10 11 12 13 14 15
年龄
青年 青年 青年 青年 青年 中年 中年 中年 中年 中年 老年 老年 老年 老年 老年
1.1.2 决策树与if-then规则
• 由决策树的根结点到叶结点的每一条路径构建一条规则; • 路径上内部结点的特征对应着规则的条件,而叶结点的类对应着
规则的结论。 • If-then规则集合的一重要性质:互斥并且完备
1.1.3 决策树与条件概率分布
将特征空间划分为互不相交的单元或区域,并在每个单元定义一个类的概 率分布就构成了一个条件概率分布。
各叶结点(单元)上的条件概率往往偏向某一个类,即属于某一类的概率较大, 决策树分类时将该结点的实例强行分到条件概率大的那一类去。
1.1.4 决策树学习
•
1.1.4 决策树学习
• 目标:我们需要的是一个与训练数据矛盾较小的决策树,同时具 有很好的泛化能力。
• 决策树学习的损失函数:(通常是)正则化的极大似然函数。但 是基于损失函数找到全局最优决策树是NP-完全问题。
•
1.3 决策树的生成
1.3.1 ID3算法
•
例1.4 对表1.1的训练数据集,利用ID3算法建立决策树
有自己的房子(A3)
是
ID 年龄 有工作 信贷情况 类 别
4 青年 是
一般 是
8 中年 是
好是
9 中年 否
非常好 是
10 中年 否
非常好 是
11 老年 否
非常好 是
12 老年 都
好是
表1
否
ID 年龄 有工作 信贷情况 类别
• 现实中决策树学习通常采用启发式方法,即局部最优。
• 具体做法:每次选择feature时,都挑选择当前条件下最优的那个 feature作为划分规则,即局部最优的feature。
Байду номын сангаас
1.2 特征选择
1.2.1 特征选择问题
•特征选择在于选取对训练数据具有分类能力的特征。
•如何判断一个特征对于当前数据集的分类效果? 也即确定选择特征的准则。
例1. 找对象
• 决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这 个女孩介绍男朋友,于是有了下面的对话:
• 女儿:多大年纪了? (年龄)
母亲:26。 女儿:长的帅不帅? (长相) 母亲:挺帅的。 女儿:收入高不? (收入情况) 母亲:不算很高,中等情况。 女儿:是公务员不? (是否公务员) 母亲:是,在税务局上班呢。 女儿:那好,我去见见。
房子
1
青年
否
否
一般
否
2
青年
否
否
好
否
3
青年
是
否
好
是
4
青年
是
是
一般
是
5
青年
否
否
一般
否
6
中年
否
否
一般
否
7
中年
否
否
好
否
8
中年
是
是
好
是
9
中年
否
是
非常好
是
10
中年
否
是
非常好
是
11
老年
否
是
非常好
是
12
老年
否
是
好
是
13
老年
是
否
好
是
14
老年
是
否
非常好
是
15
老年
否
否
一般
否
1.2.2 信息增益
•
熵-就分类而言,所有成员都属于一类,熵为零;不同类别
1 青年 否
一般
否
2 青年 否
好
否
3 青年 是
好
是
5 青年 否
一般
否
6 中年 否
一般
否
7 中年 否
好
否
13 老年 是
好
是
14 老年 是 非常好 是
15 老年 否
一般
否
表2
•
有自己的房子
是
否
有工作
是
是
否
ID 年龄 信贷情况 类别
3 青年
好
是
13 老年
好
是
14 老年 非常好 是
表3
这里生成的决策树只用到两个特征 (两个内节点),ID3算法容易存在过拟 合问题。
例1.2 右表是一个由15个样本组成的贷 款申请训练数据。数据包括贷款申请人 的四个特征。表的最后一列是类别,是 否同意贷款,取2个值:是、否。
希望通过所给的训练数据学习一个贷款 申请的决策树,用以对未来的贷款申请 进行分类。
特征选择是决定用哪个特征来划分特征 空间。
ID
年龄
有工作 有自己的 信贷情况 类别
显然,它属于有监督学习。 从一类无序、无规则的事物(概念)中推理出决策树 表示的分类规则。
决策树学习的主要算法
建立决策树的关键,即在当前状态下选择哪个 属性作为分类依据。根据不同的目标函数,建立 决策树主要有一下三种算法。
ID3 (J. Ross Quinlan-1975)核心:信息熵 C4.5—ID3的改进,核心:信息增益比 CART(Breiman-1984),核心:基尼指数
有工作
否 否 是 是 否 否 否 是 否 否 否 否 是 是 否
有自己 的房子
否 否 否 是 否 否 否 是 是 是 是 是 否 否 否
信贷情 况 一般 好 好 一般 一般 一般 好 好
非常好 非常好 非常好
好 好 非常好 一般
类别
否 否 是 是 否 否 否 是 是 是 是 是 是 是 否
1.2.3 信息增益比
根据李峰等人的PPT改编
决策树
• 1.1 决策树模型与学习 • 1.2 特征选择 • 1.3 决策树的生成 • 1.4 决策树的剪枝 • 1.5 CART算法
1.1 决策树模型与学习
• 1.1.1 决策树模型 • 1.1.2 决策树与if-then规则 • 1.1.3 决策树与条件概率分布 • 1.1.4 决策树学习
1.1.1 决策树模型
• 什么是决策树? • 定义1.1(决策树) 分类决策树模型是一种描述对
实例进行分类的树形结构。决策树由结点和有向边 组成。结点有两种类型:内部结点和叶节点。内部 结点表示一个特征或属性,叶节点表示一个类。
决策树学习算法的特点
决策树学习算法的最大优点是,它可以自学习。 在学习的过程中,不需要使用者了解过多背景知识, 只需要对训练实例进行较好的标注,就能够进行学习。
ID 年龄 信贷情况 类别
1 青年 一般 否
2 青年
好
否
5 青年 一般 否
6 中年 一般 否
7 中年
好
否
15 老年 一般 否
表4
补充:如何解决决策树的过拟合问题
概念
什么是过度拟合数据
原因
过度拟合数据是怎么产生的
解决
怎么去解决这个问题
补充:如何解决决策树的过拟合问题——概念
过度拟合(overfitting):如果决策树对训练样本的特征描 述得“过于精确”,无法实现对新样本的合理分析,所以此时它不 是一棵分析新数据的最佳决策树。一棵完全决策树能非常准确地反 映训练集中数据的特征,但因失去了一般代表性而无法用于对新数 据的分类或预测,这种现象一般称为“过拟合”。
数目相等,则熵等于1,类别数目不等,则熵介于0,1之间。
•
条件熵
•
信息增益
•
信息增益的具体公式
•
信息增益算法
•
ID
例1.3 对表1.1所给的训练数据集D, 根据信息增益准则选择最优特征。 1
2 3 4 5 6 7 8 9 10 11 12 13 14 15
年龄
青年 青年 青年 青年 青年 中年 中年 中年 中年 中年 老年 老年 老年 老年 老年
1.1.2 决策树与if-then规则
• 由决策树的根结点到叶结点的每一条路径构建一条规则; • 路径上内部结点的特征对应着规则的条件,而叶结点的类对应着
规则的结论。 • If-then规则集合的一重要性质:互斥并且完备
1.1.3 决策树与条件概率分布
将特征空间划分为互不相交的单元或区域,并在每个单元定义一个类的概 率分布就构成了一个条件概率分布。
各叶结点(单元)上的条件概率往往偏向某一个类,即属于某一类的概率较大, 决策树分类时将该结点的实例强行分到条件概率大的那一类去。
1.1.4 决策树学习
•
1.1.4 决策树学习
• 目标:我们需要的是一个与训练数据矛盾较小的决策树,同时具 有很好的泛化能力。
• 决策树学习的损失函数:(通常是)正则化的极大似然函数。但 是基于损失函数找到全局最优决策树是NP-完全问题。
•
1.3 决策树的生成
1.3.1 ID3算法
•
例1.4 对表1.1的训练数据集,利用ID3算法建立决策树
有自己的房子(A3)
是
ID 年龄 有工作 信贷情况 类 别
4 青年 是
一般 是
8 中年 是
好是
9 中年 否
非常好 是
10 中年 否
非常好 是
11 老年 否
非常好 是
12 老年 都
好是
表1
否
ID 年龄 有工作 信贷情况 类别
• 现实中决策树学习通常采用启发式方法,即局部最优。
• 具体做法:每次选择feature时,都挑选择当前条件下最优的那个 feature作为划分规则,即局部最优的feature。
Байду номын сангаас
1.2 特征选择
1.2.1 特征选择问题
•特征选择在于选取对训练数据具有分类能力的特征。
•如何判断一个特征对于当前数据集的分类效果? 也即确定选择特征的准则。
例1. 找对象
• 决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这 个女孩介绍男朋友,于是有了下面的对话:
• 女儿:多大年纪了? (年龄)
母亲:26。 女儿:长的帅不帅? (长相) 母亲:挺帅的。 女儿:收入高不? (收入情况) 母亲:不算很高,中等情况。 女儿:是公务员不? (是否公务员) 母亲:是,在税务局上班呢。 女儿:那好,我去见见。
房子
1
青年
否
否
一般
否
2
青年
否
否
好
否
3
青年
是
否
好
是
4
青年
是
是
一般
是
5
青年
否
否
一般
否
6
中年
否
否
一般
否
7
中年
否
否
好
否
8
中年
是
是
好
是
9
中年
否
是
非常好
是
10
中年
否
是
非常好
是
11
老年
否
是
非常好
是
12
老年
否
是
好
是
13
老年
是
否
好
是
14
老年
是
否
非常好
是
15
老年
否
否
一般
否
1.2.2 信息增益
•
熵-就分类而言,所有成员都属于一类,熵为零;不同类别
1 青年 否
一般
否
2 青年 否
好
否
3 青年 是
好
是
5 青年 否
一般
否
6 中年 否
一般
否
7 中年 否
好
否
13 老年 是
好
是
14 老年 是 非常好 是
15 老年 否
一般
否
表2
•
有自己的房子
是
否
有工作
是
是
否
ID 年龄 信贷情况 类别
3 青年
好
是
13 老年
好
是
14 老年 非常好 是
表3
这里生成的决策树只用到两个特征 (两个内节点),ID3算法容易存在过拟 合问题。
例1.2 右表是一个由15个样本组成的贷 款申请训练数据。数据包括贷款申请人 的四个特征。表的最后一列是类别,是 否同意贷款,取2个值:是、否。
希望通过所给的训练数据学习一个贷款 申请的决策树,用以对未来的贷款申请 进行分类。
特征选择是决定用哪个特征来划分特征 空间。
ID
年龄
有工作 有自己的 信贷情况 类别
显然,它属于有监督学习。 从一类无序、无规则的事物(概念)中推理出决策树 表示的分类规则。
决策树学习的主要算法
建立决策树的关键,即在当前状态下选择哪个 属性作为分类依据。根据不同的目标函数,建立 决策树主要有一下三种算法。
ID3 (J. Ross Quinlan-1975)核心:信息熵 C4.5—ID3的改进,核心:信息增益比 CART(Breiman-1984),核心:基尼指数
有工作
否 否 是 是 否 否 否 是 否 否 否 否 是 是 否
有自己 的房子
否 否 否 是 否 否 否 是 是 是 是 是 否 否 否
信贷情 况 一般 好 好 一般 一般 一般 好 好
非常好 非常好 非常好
好 好 非常好 一般
类别
否 否 是 是 否 否 否 是 是 是 是 是 是 是 否
1.2.3 信息增益比