第3章_分类与决策树.pptx
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Schlimmer 和Fisher 于1986年对ID3进行改造,在每个可能的 决策树节点创建缓冲区,使决策树可以递增式生成,得到ID4算 法。
1988年,Utgoff 在ID4基础上提出了ID5学习算法,进一步提高 了效率。
1993年,Quinlan 进一步发展了ID3算法,改进成C4.5算法。
❖ 决策树学习算法的最大优点是,它可以自学习。在学习的 过程中,不需要使用者了解过多背景知识,只需要对训练 例子进行较好的标注,就能够进行学习。如果在应用中发 现不符合规则的实例,程序会询问用户该实例的正确分类, 从而生成新的分枝和叶子,并添加到树中。
❖ 决策树学习是以实例为基础的归纳学习。
❖ 从一类无序、无规则的事物(概念)中推理出决策树表示的分类规 则。
❖ 概念分类学习算法:来源于
Hunt,Marin和Stone 于1966年研制的CLS学习系统,用于学习 单个概念。
1979年, J.R. Quinlan 给出ID3算法,并在1983年和1986年对 ID3 进行了总结和简化,使其成为决策树学习算法的典型。
数据预测的两步过程
❖ 数据预测也是一个两步的过程,类似于前面描述的数据分类 对于预测,没有“类标号属性” 要预测的属性是连续值,而不是离散值,该属性可简称 “预测属性” ❖E.g. 银行贷款员需要预测贷给某个顾客多少钱是安全 的
❖ 预测器可以看作一个映射或函数y=f(X) 其中X是输入;y是输出,是一个连续或有序的值 与分类类似,准确率的预测,也要使用单独的测试集
❖ 典型应用 欺诈检测、市场定位、性能预测、医疗诊断
❖ 分类是一种应用非常广泛的数据挖掘技术 ❖ 分类与预测的区别:
当估计的属性值是离散值时,这就是分类; 当估计的属性值是连续值时,这就是预测。
分类和预测---示例
❖ 分类
银行贷款员需要分析数据,来弄清哪些贷款申请 者是安全的,哪些是有风险的(将贷款申请者分 为“安全”和“有风险”两类)
Tenured?
监督学习 VS. 无监督学习
❖ 监督学习(用于分类)
模型的学习在被告知每个训练样本属于哪个类的 “指导”下进行
新数据使用训练数据集中得到的规则进行分类
❖ 无监督学习(用于聚类)
每个训练样本的类编号是未知的,要学习的类集 合或数量也可能是事先未知的
通过一系列的度量、观察来建立数据中的类编号 或进行聚类
第3章 分类与预测
主要内容
❖ 分类与决策树概述 ❖ ID3、C4.5与C5.0 ❖ CART
分类 VS. 预测
❖ 分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来 的数据趋势 的模型 分类: ❖ 预测类对象的分类标号(或离散值) ❖ 根据训练数据集和类标号属性,构建模型来分类现有数据,并用 来分类新数据 预测: ❖ 建立连续函数值模型 ❖ 比如预测空缺值,或者预测顾客在计算机设备上的花费
7
yes
B ill P ro fe s s o r
2
yes
J im A s s o c ia te P ro f 7
yes
D a v e A s s is ta n t P ro f
6
no
A n n e A s s o c ia te P ro f 3
no
分类规则
IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’
❖ 模型在给定测试集上的准确率是正确被模型分类的测试样本的百 分比
❖ 测试集要独立于训练样本集,否则会出现“过分拟合”的情况
第一步——建立模型
训练数 据集
分类算法
NAME RANK
YEARS TENURED
M ik e A s s is ta n t P ro f
3
no
M a ry A s s is ta n t P ro f
❖ 决策树的每一层节点依照某一属性值向下分为子节点,待 分类的实例在每一节点处与该节点相关的属性值进行比较, 根据不同的比较结果向相应的子节点扩展,这一过程在到 达决策树的叶节点时结束,此时得到结论。
❖ 从根节点到叶节点的每一条路经都对应着一条合理的规则, 规则间各个部分(各个层的条件)的关系是合取关系。整 个决策树就对应着一组析取的规则。
3.1 决策树概述
❖ 决策树(Decision Tree)
一种描述概念空间的有效的归纳推理办法。 基于决策树的学习方法可以进行不相关的 多概念学习,具有简单快捷的优势,已经 在各个领域取得广泛应用。
❖ 决策树是一种树型结构,其中每个内部结 点表示在一个属性上的测试,每个分支代 表一个测试输出,每个叶结点代表一种类 别。
第二步——用模型进行分类
分ຫໍສະໝຸດ Baidu规则
测试集
未知数据
NAME RANK
YEARSTENURED
Tom Assistant Prof 2
no
Merlisa AssociateProf 7
no
GeorgeProfessor
5
yes
Joseph Assistant Prof 7
yes
(Jeff, Professor, 4)
❖我们需要构造一个分类器来预测类属编号,比如预测 顾客属类
❖ 预测
银行贷款员需要预测贷给某个顾客多少钱是安全 的
❖构造一个预测器,预测一个连续值函数或有序值,常 用方法是回归分析
数据分类——一个两步过程 (1)
❖ 第一步,也成为学习步,目标是建立描述预先定义的数 据类或概念集的分类器
分类算法通过分析或从训练集“学习”来构造分类器。 训练集由数据库元组(用n维属性向量表示)和他们相对
应的类编号组成;假定每个元组属于一个预定义的类
❖ 训练元组:训练数据集中的单个元组
学习模型可以用分类规则、决策树或数学公式的形式提 供
数据分类——一个两步过程 (2)
❖ 第二步,使用模型,对将来的或未知的对象进行分类
首先评估模型的预测准确率
❖ 对每个测试样本,将已知的类标号和该样本的学习模型类预测比 较
另一类决策树算法为CART,与C4.5不同的是,CART的决策树 由二元逻辑问题生成,每个树节点只有两个分枝,分别包括学习 实例的正例与反例。
❖ 其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子 节点处的熵值为零,此时每个叶节点中的实例都属于同一类。
❖ 决策树学习采用的是自顶向下的递归方法。
1988年,Utgoff 在ID4基础上提出了ID5学习算法,进一步提高 了效率。
1993年,Quinlan 进一步发展了ID3算法,改进成C4.5算法。
❖ 决策树学习算法的最大优点是,它可以自学习。在学习的 过程中,不需要使用者了解过多背景知识,只需要对训练 例子进行较好的标注,就能够进行学习。如果在应用中发 现不符合规则的实例,程序会询问用户该实例的正确分类, 从而生成新的分枝和叶子,并添加到树中。
❖ 决策树学习是以实例为基础的归纳学习。
❖ 从一类无序、无规则的事物(概念)中推理出决策树表示的分类规 则。
❖ 概念分类学习算法:来源于
Hunt,Marin和Stone 于1966年研制的CLS学习系统,用于学习 单个概念。
1979年, J.R. Quinlan 给出ID3算法,并在1983年和1986年对 ID3 进行了总结和简化,使其成为决策树学习算法的典型。
数据预测的两步过程
❖ 数据预测也是一个两步的过程,类似于前面描述的数据分类 对于预测,没有“类标号属性” 要预测的属性是连续值,而不是离散值,该属性可简称 “预测属性” ❖E.g. 银行贷款员需要预测贷给某个顾客多少钱是安全 的
❖ 预测器可以看作一个映射或函数y=f(X) 其中X是输入;y是输出,是一个连续或有序的值 与分类类似,准确率的预测,也要使用单独的测试集
❖ 典型应用 欺诈检测、市场定位、性能预测、医疗诊断
❖ 分类是一种应用非常广泛的数据挖掘技术 ❖ 分类与预测的区别:
当估计的属性值是离散值时,这就是分类; 当估计的属性值是连续值时,这就是预测。
分类和预测---示例
❖ 分类
银行贷款员需要分析数据,来弄清哪些贷款申请 者是安全的,哪些是有风险的(将贷款申请者分 为“安全”和“有风险”两类)
Tenured?
监督学习 VS. 无监督学习
❖ 监督学习(用于分类)
模型的学习在被告知每个训练样本属于哪个类的 “指导”下进行
新数据使用训练数据集中得到的规则进行分类
❖ 无监督学习(用于聚类)
每个训练样本的类编号是未知的,要学习的类集 合或数量也可能是事先未知的
通过一系列的度量、观察来建立数据中的类编号 或进行聚类
第3章 分类与预测
主要内容
❖ 分类与决策树概述 ❖ ID3、C4.5与C5.0 ❖ CART
分类 VS. 预测
❖ 分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来 的数据趋势 的模型 分类: ❖ 预测类对象的分类标号(或离散值) ❖ 根据训练数据集和类标号属性,构建模型来分类现有数据,并用 来分类新数据 预测: ❖ 建立连续函数值模型 ❖ 比如预测空缺值,或者预测顾客在计算机设备上的花费
7
yes
B ill P ro fe s s o r
2
yes
J im A s s o c ia te P ro f 7
yes
D a v e A s s is ta n t P ro f
6
no
A n n e A s s o c ia te P ro f 3
no
分类规则
IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’
❖ 模型在给定测试集上的准确率是正确被模型分类的测试样本的百 分比
❖ 测试集要独立于训练样本集,否则会出现“过分拟合”的情况
第一步——建立模型
训练数 据集
分类算法
NAME RANK
YEARS TENURED
M ik e A s s is ta n t P ro f
3
no
M a ry A s s is ta n t P ro f
❖ 决策树的每一层节点依照某一属性值向下分为子节点,待 分类的实例在每一节点处与该节点相关的属性值进行比较, 根据不同的比较结果向相应的子节点扩展,这一过程在到 达决策树的叶节点时结束,此时得到结论。
❖ 从根节点到叶节点的每一条路经都对应着一条合理的规则, 规则间各个部分(各个层的条件)的关系是合取关系。整 个决策树就对应着一组析取的规则。
3.1 决策树概述
❖ 决策树(Decision Tree)
一种描述概念空间的有效的归纳推理办法。 基于决策树的学习方法可以进行不相关的 多概念学习,具有简单快捷的优势,已经 在各个领域取得广泛应用。
❖ 决策树是一种树型结构,其中每个内部结 点表示在一个属性上的测试,每个分支代 表一个测试输出,每个叶结点代表一种类 别。
第二步——用模型进行分类
分ຫໍສະໝຸດ Baidu规则
测试集
未知数据
NAME RANK
YEARSTENURED
Tom Assistant Prof 2
no
Merlisa AssociateProf 7
no
GeorgeProfessor
5
yes
Joseph Assistant Prof 7
yes
(Jeff, Professor, 4)
❖我们需要构造一个分类器来预测类属编号,比如预测 顾客属类
❖ 预测
银行贷款员需要预测贷给某个顾客多少钱是安全 的
❖构造一个预测器,预测一个连续值函数或有序值,常 用方法是回归分析
数据分类——一个两步过程 (1)
❖ 第一步,也成为学习步,目标是建立描述预先定义的数 据类或概念集的分类器
分类算法通过分析或从训练集“学习”来构造分类器。 训练集由数据库元组(用n维属性向量表示)和他们相对
应的类编号组成;假定每个元组属于一个预定义的类
❖ 训练元组:训练数据集中的单个元组
学习模型可以用分类规则、决策树或数学公式的形式提 供
数据分类——一个两步过程 (2)
❖ 第二步,使用模型,对将来的或未知的对象进行分类
首先评估模型的预测准确率
❖ 对每个测试样本,将已知的类标号和该样本的学习模型类预测比 较
另一类决策树算法为CART,与C4.5不同的是,CART的决策树 由二元逻辑问题生成,每个树节点只有两个分枝,分别包括学习 实例的正例与反例。
❖ 其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子 节点处的熵值为零,此时每个叶节点中的实例都属于同一类。
❖ 决策树学习采用的是自顶向下的递归方法。