决策树课题PPT
合集下载
决策树--PPT
母亲:26。 女儿:长的帅不帅? (长相) 母亲:挺帅的。 女儿:收入高不? (收入情况) 母亲:不算很高,中等情况。 女儿:是公务员不? (是否公务员) 母亲:是,在税务局上班呢。 女儿:那好,我去见见。
1.1.2 决策树与if-then规则
• 由决策树的根结点到叶结点的每一条路径构建一条规则; • 路径上内部结点的特征对应着规则的条件,而叶结点的类对应着 规则的结论。 • If-then规则集合的一重要性质:互斥并且完备
• (3)否则,计算A中各特征对D的信息增益,选择信息增益最大的特征������������ ;
• (4)如果������������ 的信息增益小于阈值ε,则置T为单结点树,并将D中实例数最大的类������������ 作为该 结点的类标记,返回T; • (5)否则,对������������ 的每一个可能值������������ , 依������������ =������������ 将D分割为若干个非空子集������������ , 将������������ 中实例数最 大的类作为标记,构建子结点,由结点及其子结点构成树T,返回T; • (6)对第������ 个子结点,以������������ 为训练集,以������ − {������������ }为特征集,递归地调用步(1)~(5),得到子树 ������������ , 返回������������ .
决策树学习算法的特点
决策树学习算法的最大优点是,它可以自学习。 在学习的过程中,不需要使用者了解过多背景知识, 只需要对训练实例进行较好的标注,就能够进行学习。 显然,它属于有监督学习。 从一类无序、无规则的事物(概念)中推理出决策树 表示的分类规则。
决策树学习的主要算法
建立决策树的关键,即在当前状态下选择哪个
1.1.2 决策树与if-then规则
• 由决策树的根结点到叶结点的每一条路径构建一条规则; • 路径上内部结点的特征对应着规则的条件,而叶结点的类对应着 规则的结论。 • If-then规则集合的一重要性质:互斥并且完备
• (3)否则,计算A中各特征对D的信息增益,选择信息增益最大的特征������������ ;
• (4)如果������������ 的信息增益小于阈值ε,则置T为单结点树,并将D中实例数最大的类������������ 作为该 结点的类标记,返回T; • (5)否则,对������������ 的每一个可能值������������ , 依������������ =������������ 将D分割为若干个非空子集������������ , 将������������ 中实例数最 大的类作为标记,构建子结点,由结点及其子结点构成树T,返回T; • (6)对第������ 个子结点,以������������ 为训练集,以������ − {������������ }为特征集,递归地调用步(1)~(5),得到子树 ������������ , 返回������������ .
决策树学习算法的特点
决策树学习算法的最大优点是,它可以自学习。 在学习的过程中,不需要使用者了解过多背景知识, 只需要对训练实例进行较好的标注,就能够进行学习。 显然,它属于有监督学习。 从一类无序、无规则的事物(概念)中推理出决策树 表示的分类规则。
决策树学习的主要算法
建立决策树的关键,即在当前状态下选择哪个
人工智能之决策树ppt课件
分支
连接节点之间的路径,代表不同 的决策路径。
决策树学习算法分类
ID3算法
基于信息增益进行特征选择,适用于离散型特征。
C4.5算法
在ID3算法基础上进行改进,支持连续型特征处理, 引入剪枝技术防止过拟合。
CART算法
既可用于分类也可用于回归任务,基于基尼指数 进行特征选择,生成二叉树结构。
应用场景举例
提高泛化能力
02
剪枝后的决策树更加简洁,能够更好地适应新数据,提高模型
的泛化能力。
减少计算资源消耗
03
简化决策树结构可以降低模型训练和预测的计算复杂度,节省
计算资源。
预剪枝策略及实现方法
设定决策树生长的最大深度
在决策树生长过程中,限制其最大深度,防止 过深导致过拟合。
设定叶节点最小样本数
当某个节点的样本数小于设定值时,停止对该 节点的划分,将其作为叶节点。
利用统计学方法进行剪枝
基于统计学原理,对决策树节点进行假设检验,判断是否需要继续划分。
后剪枝策略及实现方法
错误率降低剪枝(Reduced-Error Prun…
自下而上地对决策树进行剪枝,如果剪去某个子树后,整体错误率降低,则进行剪枝。
代价复杂度剪枝(Cost-Complexity Pr…
引入代价复杂度参数,通过最小化整体代价(错误率与复杂度之和)来进行剪枝。
THANKS
感谢观看
集成学习方法在决策树中应用
Bagging方法
通过自助采样法生成多个数据集, 分别训练决策树模型,再对多个 模型的结果进行投票或平均,降 低模型方差。
Boosting方法
通过迭代训练多个弱分类器,将 每个弱分类器的结果加权求和, 得到强分类器,提高模型性能。
连接节点之间的路径,代表不同 的决策路径。
决策树学习算法分类
ID3算法
基于信息增益进行特征选择,适用于离散型特征。
C4.5算法
在ID3算法基础上进行改进,支持连续型特征处理, 引入剪枝技术防止过拟合。
CART算法
既可用于分类也可用于回归任务,基于基尼指数 进行特征选择,生成二叉树结构。
应用场景举例
提高泛化能力
02
剪枝后的决策树更加简洁,能够更好地适应新数据,提高模型
的泛化能力。
减少计算资源消耗
03
简化决策树结构可以降低模型训练和预测的计算复杂度,节省
计算资源。
预剪枝策略及实现方法
设定决策树生长的最大深度
在决策树生长过程中,限制其最大深度,防止 过深导致过拟合。
设定叶节点最小样本数
当某个节点的样本数小于设定值时,停止对该 节点的划分,将其作为叶节点。
利用统计学方法进行剪枝
基于统计学原理,对决策树节点进行假设检验,判断是否需要继续划分。
后剪枝策略及实现方法
错误率降低剪枝(Reduced-Error Prun…
自下而上地对决策树进行剪枝,如果剪去某个子树后,整体错误率降低,则进行剪枝。
代价复杂度剪枝(Cost-Complexity Pr…
引入代价复杂度参数,通过最小化整体代价(错误率与复杂度之和)来进行剪枝。
THANKS
感谢观看
集成学习方法在决策树中应用
Bagging方法
通过自助采样法生成多个数据集, 分别训练决策树模型,再对多个 模型的结果进行投票或平均,降 低模型方差。
Boosting方法
通过迭代训练多个弱分类器,将 每个弱分类器的结果加权求和, 得到强分类器,提高模型性能。
决策树ppt课件
决策树在分类问题中应用
分类问题背景介绍
分类问题是机器学习中一类重要 的问题,旨在将数据划分为不同
的类别。
在现实世界中,分类问题广泛存 在,如垃圾邮件识别、疾病诊断、
信用评分等。
分类算法的目标是通过学习训练 数据中的特征与类别之间的关系, 从而对新的未知数据进行类别预
测。
决策树在分类问题中优势
直观易理解
决策树在处理缺失值和异常值时容易受到干扰,可能导致模型性能下降。可以通过数据 预处理等方法减少缺失值和异常值对模型的影响。
CART算法实例演示
实例背景
假设有一个关于信用卡欺诈的数据集,包含多个特征(如交 易金额、交易时间、交易地点等)和一个目标变量(是否欺 诈)。我们将使用CART算法构建一个分类模型来预测交易 是否属于欺诈行为。
构建决策树时间较长
C4.5算法在构建决策树时需要计算每 个特征的信息增益比,当数据集较大 或特征较多时,构建决策树的时间可 能会较长。
C4.5算法实例演示
数据集介绍
以经典的鸢尾花数据集为例,该数据集包含150个 样本,每个样本有4个特征(花萼长度、花萼宽度、 花瓣长度、花瓣宽度)和1个标签(鸢尾花的类 别)。
建造年份等特征。
选择合适的决策树算法 (如CART、ID3等),
对数据进行训练。
模型评估与优化
采用均方误差等指标评 估模型性能,通过调整 参数、集成学习等方法
优化模型。
结果展示与解读
展示决策树图形化结果, 解释每个节点含义及预
测逻辑。
08
CATALOGUE
总结与展望
决策树模型总结回顾
模型原理
决策树通过递归方式将数据集划分为若干个子集,每个子 集对应一个决策结果。通过构建树形结构,实现分类或回 归任务。
分类问题背景介绍
分类问题是机器学习中一类重要 的问题,旨在将数据划分为不同
的类别。
在现实世界中,分类问题广泛存 在,如垃圾邮件识别、疾病诊断、
信用评分等。
分类算法的目标是通过学习训练 数据中的特征与类别之间的关系, 从而对新的未知数据进行类别预
测。
决策树在分类问题中优势
直观易理解
决策树在处理缺失值和异常值时容易受到干扰,可能导致模型性能下降。可以通过数据 预处理等方法减少缺失值和异常值对模型的影响。
CART算法实例演示
实例背景
假设有一个关于信用卡欺诈的数据集,包含多个特征(如交 易金额、交易时间、交易地点等)和一个目标变量(是否欺 诈)。我们将使用CART算法构建一个分类模型来预测交易 是否属于欺诈行为。
构建决策树时间较长
C4.5算法在构建决策树时需要计算每 个特征的信息增益比,当数据集较大 或特征较多时,构建决策树的时间可 能会较长。
C4.5算法实例演示
数据集介绍
以经典的鸢尾花数据集为例,该数据集包含150个 样本,每个样本有4个特征(花萼长度、花萼宽度、 花瓣长度、花瓣宽度)和1个标签(鸢尾花的类 别)。
建造年份等特征。
选择合适的决策树算法 (如CART、ID3等),
对数据进行训练。
模型评估与优化
采用均方误差等指标评 估模型性能,通过调整 参数、集成学习等方法
优化模型。
结果展示与解读
展示决策树图形化结果, 解释每个节点含义及预
测逻辑。
08
CATALOGUE
总结与展望
决策树模型总结回顾
模型原理
决策树通过递归方式将数据集划分为若干个子集,每个子 集对应一个决策结果。通过构建树形结构,实现分类或回 归任务。
决策树培训讲义(PPT 49页)
Married 100K No
Single 70K
No
Married 120K No
Divorced 95K
Yes
Married 60K
No
Divorced 220K No
Single 85K
Yes
Married 75K
No
Single 90K
Yes
3. samples = { 2,3,5,6,8,9,10 } attribute_list = { MarSt, TaxInc }
选择TaxInc为最优分割属性:
Refund
Yes
No
NO < 80K
Single TaxInc
MarSt
Married Divorced
>= 80K
NO
YES
▪ 问题1:分类从哪个属性开始?
——选择分裂变量的标准
▪ 问题2:为什么工资以80为界限?
——找到被选择的变量的分裂点的标准( 连续变量情况)
分类划分的优劣用不纯性度量来分析。如果对于所有
分支,划分后选择相同分支的所有实例都属于相同的类,
则这个划分是纯的。对于节点m,令 N m 为到达节点m的训练
实例数,
个实例中
N
i m
个属于Ci
类,而
N
i m
Nm 。如果一
个实例到节点m,则它属于 类的概率估i 计为:
pˆ (Ci
|
x, m)
pmi
N
i m
10
Single 125K No
Married 100K No
Single 70K
No
Married 120K No
决策树学习培训讲义(PPT38张)
Attrib2 Large Medium Small Medium Large Medium Large Small Medium Small
Attrib3 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
Class No No No No Yes No No Yes No Yes
Attrib2 Small Medium Large Small Large
Attrib3 55K 80K 110K 95K 67K
Class ? ? ? ? ?
演绎
测试集
9
决策树应用
测试数据 从根节点开始
R e f u n d M a r it a l S t a t u s N o M a r r ie d T a x a b le h e a t In c o m e C 8 0 K ?
T a x a b le In c o m e 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
C heat No No No No Yes No No Yes No Yes
基本算法
Don’t Cheat
1 2 3 4
Yes No No Yes No No Yes No No No
i 1
其中p是在S中正例的比例,pΘ是在S中负例的比例。在有关熵的所 有计算中我们定义0log0为0。
22
例子
C 1 C 2
C1 C2
0 6
1 5
Entropy = -(0/6)log(0/6)-(6/6)log(6/6)=0
Entropy = 1-(1/6)log(1/6)-(5/6)log(5/6)=0.650
决策树(完整)ppt课件
Gain(D,密度,0.381)
是7 否
Ent(D)[147Ent(Dt)1173Ent(Dt)]
是8
0.263
;.
28
与离散属性不同,若当前结 点划分属性为连续属性,该连续属 性还可被再次选作后代结点的最优 划分属性。
选择“纹理”作为根结点划分属性
;.
29
现实任务中,尤其在属性数目较多时,存在大量样本出现缺失值。 出于成本和隐私的考虑
;.
30
1. 属性值缺失时,如何进行划分属性选择?(如何计算信息增益) 2. 给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?
(对于缺失属性值的样本如何将它从父结点划分到子结点中)
D : D : 训练集
训练集中在属性a上没有缺失值的样本子集
D D v :
被属性a划分后的样本子集
D D k :
{8}和{10}同时进入三个分支中,权值分别为:
7,5,3 15 15 15
;.
36
每个属性
~
d个属性描述的样本
~
对样本分类
~
坐标空间中的一个坐标轴 d维空间中的一个数据点 在坐标空间中寻找不同类样本之间的分类边界
决策树形成的分类边界的明显特点:轴平行,分类边界由若干个与坐标轴平行的分段组 成。
优点:学习结果解释性强,每个划分都对应一个属性取值
;.
1
第4章 决策树
根据训练数据是否拥有标记信息
学习任务
监督学习(supervised learning)
无监督学习(unsupervised learning)
半监督学习(semi-supervised learning)
强化学习(reinforcement learning)
是7 否
Ent(D)[147Ent(Dt)1173Ent(Dt)]
是8
0.263
;.
28
与离散属性不同,若当前结 点划分属性为连续属性,该连续属 性还可被再次选作后代结点的最优 划分属性。
选择“纹理”作为根结点划分属性
;.
29
现实任务中,尤其在属性数目较多时,存在大量样本出现缺失值。 出于成本和隐私的考虑
;.
30
1. 属性值缺失时,如何进行划分属性选择?(如何计算信息增益) 2. 给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?
(对于缺失属性值的样本如何将它从父结点划分到子结点中)
D : D : 训练集
训练集中在属性a上没有缺失值的样本子集
D D v :
被属性a划分后的样本子集
D D k :
{8}和{10}同时进入三个分支中,权值分别为:
7,5,3 15 15 15
;.
36
每个属性
~
d个属性描述的样本
~
对样本分类
~
坐标空间中的一个坐标轴 d维空间中的一个数据点 在坐标空间中寻找不同类样本之间的分类边界
决策树形成的分类边界的明显特点:轴平行,分类边界由若干个与坐标轴平行的分段组 成。
优点:学习结果解释性强,每个划分都对应一个属性取值
;.
1
第4章 决策树
根据训练数据是否拥有标记信息
学习任务
监督学习(supervised learning)
无监督学习(unsupervised learning)
半监督学习(semi-supervised learning)
强化学习(reinforcement learning)
机器学习之决策树学习ppt课件
23
信息增益(1)
• 上式中第二项的值应该越小越好,因为越小说明S相对于 属性A作分解以后而造成的熵下降越快(根据前面的解释, 熵下降越快就是不确定性减少越快),换句话说
Gain(S,A)越大越好
• 决策树建树算法的要点是——在构造决策树的每一层次
时,从尚未检测的属性中选择信息增益Gain(S,A)大的属
c
Entropy(S ) pi log 2 ( pi ) i 1
20
熵和决策树(4)
• 熵值计算举例:
例如:“PlayTennis”中S是一个关于某布尔概念的14个 样例的集合,包括9个正例和5个反例[9+,5-]。那么S 相对于这个布尔分类的熵为:训练数据集
Entropy([9,5]) (9 /14) log2 (9 /14) 5 /14 log2 (5 /14) 0.940
2
决策树学习示例
• 例子:星期六上午是否适合打网球
–属性={outlook,Temperature, humidity,wind} –属性值={sunny, overcast, rain, hot, mild, cool,
high, normal, strong, weak}
3
决策树学习示例——训练样例
S:[9+, 5] E=0.940
wind weak strong
[6+, 2] [3+, 3] E=0.811 E=1.00 Gain(S,Wind)
=0.940(8/14)0.811(6/14)1.0
–信息增益
Gain(S ,Wind )
Entropy(S)
v{weak , strong }
–熵刻画了任意样例集的纯度 –给定包含关于某个目标概念的正反样例的样例集S,那
决策树课件PPT精品文档61页
Clementine的决策树
主要内容
决策树算法概述 从学习角度看,决策树属有指导学习算法 目标:用于分类和回归
C5.0算法及应用 分类回归树及应用 CHAID算法及应用 QUEST算法及应用 模型的对比分析
决策树算法概述:基本概念
得名其分析结论的展示方式类似一棵倒置的树
C5.0算法:熵
例如:二元信道模型
P(u1|v1) P(u1|v2)
P P((u u2 2||vv12))P P 1 12 1P P 2 21 2
C5.0算法:熵
先验不确定性:通信发生前,信宿对信源的状态具 有不确定性
后验不确定性:通信发生后,信宿收到发自信源的 信息,先验不确定性部分被消除,信宿对信源仍有 一定程度的不确定性 后验不确定性等于先验不确定性,表示信宿没有 收到信息; 后验不确定性等于零,表示信宿收到了全部信息 信息是用来消除随机不确定性的,信息量的大小 可由所消除的不确定性大小来计量
C5.0算法:熵
信息熵是信息论(C.E.Shannon,1948)中的基本概 念。信息论主要用于解决信息传递过程中的问题 ,也称统计通信理论
信息论的基本出发点认为:
信息传递通过由信源、信道和信宿组成的传递 系统实现
信源(发送端) 信道
信宿(接收端)
C5.0算法:熵
信息论的基本出发点认为: 传递系统存在于一个随机干扰环境之中 将发送的信息记为U,接收的信息记为V,那么 信道可看作为信道模型,记为P(U|V)
决策树算法概述:核心问题
第一,决策树的生长 利用训练样本集完成决策树的建立过程
第二,决策树的剪枝 利用测试样本集对所形成的决策树进行精简
决策树算法概述:树生长
主要内容
决策树算法概述 从学习角度看,决策树属有指导学习算法 目标:用于分类和回归
C5.0算法及应用 分类回归树及应用 CHAID算法及应用 QUEST算法及应用 模型的对比分析
决策树算法概述:基本概念
得名其分析结论的展示方式类似一棵倒置的树
C5.0算法:熵
例如:二元信道模型
P(u1|v1) P(u1|v2)
P P((u u2 2||vv12))P P 1 12 1P P 2 21 2
C5.0算法:熵
先验不确定性:通信发生前,信宿对信源的状态具 有不确定性
后验不确定性:通信发生后,信宿收到发自信源的 信息,先验不确定性部分被消除,信宿对信源仍有 一定程度的不确定性 后验不确定性等于先验不确定性,表示信宿没有 收到信息; 后验不确定性等于零,表示信宿收到了全部信息 信息是用来消除随机不确定性的,信息量的大小 可由所消除的不确定性大小来计量
C5.0算法:熵
信息熵是信息论(C.E.Shannon,1948)中的基本概 念。信息论主要用于解决信息传递过程中的问题 ,也称统计通信理论
信息论的基本出发点认为:
信息传递通过由信源、信道和信宿组成的传递 系统实现
信源(发送端) 信道
信宿(接收端)
C5.0算法:熵
信息论的基本出发点认为: 传递系统存在于一个随机干扰环境之中 将发送的信息记为U,接收的信息记为V,那么 信道可看作为信道模型,记为P(U|V)
决策树算法概述:核心问题
第一,决策树的生长 利用训练样本集完成决策树的建立过程
第二,决策树的剪枝 利用测试样本集对所形成的决策树进行精简
决策树算法概述:树生长
第四章-决策树PPT课件
34
可解释性
➢ 决策边界是平行坐标轴的 ➢ 对于过于复杂的问题,会导致很多小的划分
35
总结
优点
生成可理解的规则
分类时计算代价很小
能够选出对分类比较重要的属性
对长方形分布的样本处理很好
缺点
+++----------------+++----------------+++--------+++-------- ++++++++---++++++++------++++++++------+++++++++++++++----+++----++++----+++----+++++++----++++
纹理(15个样本) :{1, 2, 3, 4, 5, 6, 7, 9, 11, 12, 13, 14, 15, 16, 17} 稍糊(5个样本): {7,9,13,14,17} 清晰(7个样本): {1,2,3,4,5,6,15} 模糊(3个样本): {11,12,16} 缺失纹理属性取值的样本:{8,10}
• Wikipedia page for decision tree: /wiki/Decision_tree_learning
决策树66页PPT
• 最流行的决策树算法C4.5
[J. R. Quinlan’s book “C4.5: Programs for Machine Learning” published by Morgan Kaufmann in 1993]
决策树学习算法
• 决策树研究历史
• 通用的决策树算法CART (Classification and Regression Tree)
• 当N节点上的所有模式都来自同一类时,i(N)=0; • 当N节点上的模式类别分布均匀时,i(N)应很大
测试的选取
• 常用不纯度度量
• 熵不纯度(entropy impurity) P(j)属 于 样 本 j的 总 样 个 本 数 个 数
• Gini不纯度
• 误分类不纯度
测试的选取
• 常用不纯度度量
[L. Breiman’s MLJ’01 paper “Random Forests”]Hale Waihona Puke 构造决策树• 基本过程
• 从上到下,分而治之(divide-and-conquer),递归生 长
• 最初,所有的样本都在根节点 • 所有属性都是标称型的(如果是连续数值型的,则需要
预先离散化)
• 所有样本根据每次选择出的属性递归的逐渐划分开来
• 真正引发决策树研究热潮的算法是ID3
[J. R. Quinlan’s paper in a book “Expert Systems in the Micro Electronic Age” edited by D. Michie, published by Edinburgh University Press in 1979]
• :节点N上样本总个数
• :其中属于 i 类的样本个数(i=1,2, …, m)
[J. R. Quinlan’s book “C4.5: Programs for Machine Learning” published by Morgan Kaufmann in 1993]
决策树学习算法
• 决策树研究历史
• 通用的决策树算法CART (Classification and Regression Tree)
• 当N节点上的所有模式都来自同一类时,i(N)=0; • 当N节点上的模式类别分布均匀时,i(N)应很大
测试的选取
• 常用不纯度度量
• 熵不纯度(entropy impurity) P(j)属 于 样 本 j的 总 样 个 本 数 个 数
• Gini不纯度
• 误分类不纯度
测试的选取
• 常用不纯度度量
[L. Breiman’s MLJ’01 paper “Random Forests”]Hale Waihona Puke 构造决策树• 基本过程
• 从上到下,分而治之(divide-and-conquer),递归生 长
• 最初,所有的样本都在根节点 • 所有属性都是标称型的(如果是连续数值型的,则需要
预先离散化)
• 所有样本根据每次选择出的属性递归的逐渐划分开来
• 真正引发决策树研究热潮的算法是ID3
[J. R. Quinlan’s paper in a book “Expert Systems in the Micro Electronic Age” edited by D. Michie, published by Edinburgh University Press in 1979]
• :节点N上样本总个数
• :其中属于 i 类的样本个数(i=1,2, …, m)
决策树--很详细的算法介绍课件PPT
强壮性:指给定噪声数据或具有缺失值的数据, 模型正确预测的能力。
可诠释性:指模型的解释能力。
9
2021/3/10
二、决策树(Decision Tree)
决策树归纳的基本算法是贪心算法,它以自顶向下 递归各个击破的方式构造决策树。
贪心算法:在每一步选择中都采取在当前状态下最好 /优的选择。
在其生成过程中,分割方法即属性选择度量是关键。 通过属性选择度量,选择出最好的将样本分类的属 性。
IF性别=Female AND家庭所得= 低所得THEN购买RV房车=否 IF性别=Female AND家庭所得= 小康THEN购买RV房车=否 IF性别=Female AND家庭所得= 高所得THEN购买RV房车=是
IF性别=Male AND年龄<35 THEN购买RV房车=否 IF性别=Male AND年龄≧35 THEN购买RV房车=是
决策树(Decision Tree)
1
2021/3/10
一、分类(Classification)
1、分类的意义
数据库
分类模型— 决策树
分类模型— 聚类
预测
了解类别属性 与特征
2
2021/3/10
2、分类的技术
(1)决策树
数据库
3
分类标记
性别
Female
年龄
Male 婚姻
<35
≧35
未婚 已婚
否
评估模型
6
2021/3/10
例:
资料
2.模型评估
1.建立模型 未婚
婚姻
已婚
年龄
家庭
所得
<35 ≧35
训
练样否
是
本
可诠释性:指模型的解释能力。
9
2021/3/10
二、决策树(Decision Tree)
决策树归纳的基本算法是贪心算法,它以自顶向下 递归各个击破的方式构造决策树。
贪心算法:在每一步选择中都采取在当前状态下最好 /优的选择。
在其生成过程中,分割方法即属性选择度量是关键。 通过属性选择度量,选择出最好的将样本分类的属 性。
IF性别=Female AND家庭所得= 低所得THEN购买RV房车=否 IF性别=Female AND家庭所得= 小康THEN购买RV房车=否 IF性别=Female AND家庭所得= 高所得THEN购买RV房车=是
IF性别=Male AND年龄<35 THEN购买RV房车=否 IF性别=Male AND年龄≧35 THEN购买RV房车=是
决策树(Decision Tree)
1
2021/3/10
一、分类(Classification)
1、分类的意义
数据库
分类模型— 决策树
分类模型— 聚类
预测
了解类别属性 与特征
2
2021/3/10
2、分类的技术
(1)决策树
数据库
3
分类标记
性别
Female
年龄
Male 婚姻
<35
≧35
未婚 已婚
否
评估模型
6
2021/3/10
例:
资料
2.模型评估
1.建立模型 未婚
婚姻
已婚
年龄
家庭
所得
<35 ≧35
训
练样否
是
本
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在其生成过程中,分割方法即属性选择度量是关键。通 过属性选择度量,选择出最好的将样本分类的属性。
决策树的结构
决策树算法以树状结构表示数据 分类的结果。每个决策点实现一个 具有离散输出的测试函数,记为分 支。 根节点 非叶子节点(决策点) 叶子节点 分支
决策树的结构
根部节点(root node) 非叶子节点(non-leaf node)
Refund Yes NO No MarSt Single, Divorced Married NO > 80K
10
TaxInc
< 80K NO
YES
Apply Model to Test Data
Test Data
Refund Marital Status No Married Taxable Income Cheat 80K ?
C.Shannon的信息论
Father of information theory
证明熵与信息内容的不确定程度 有等价关系
系统科学领域三大论之一 熵(entropy)
例子:算法过程
Tid Refund Marital Status 1 2 3 4 5 6 7 8 9 10
10
Taxable Income Cheat 125K 100K 70K 120K No No No No Yes No No Yes No Yes
Yes No No Yes No No Yes No No No
Refund Yes NO No MarSt Single, Divorced Married NO > 80K
10
TaxInc
< 80K NO
YES
Apply Model to Test Data
Test Data
Refund Marital Status No Married Taxable Income Cheat 80K ?
MarSt
Married Divorced
Divorced 220K Single Married Single 85K 75K 90K
4. samples = { 3,8,10 }, attribute_list = {TaxInc} 5. samples = { 5,7 }, attribute_list = {TaxInc} 6. samples = { 2,9 }, attribute_list = {TaxInc}
Single Married Single Married
3. samples = { 2,3,5,6,8,9,10 } attribute_list = { MarSt, TaxInc }
假设选择MarSt为最优分割属性:
Refund Yes NO Single No
Divorced 95K Married 60K
停止分割的条件
一个节点上的数据都是属于同一个类别 没有属性可以再用于对数据进行分割
算法:Generate_decision_tree由给定的训练数据产生一棵决策树 输入:训练数据集samples,用离散值属性表示;候选属性的集合attribute_list。 输出:一棵决策树 方法: (1)创建结点N; (2)if samples 都在同一个类C then (3)返回N作为叶结点,用类C标记; (4)if attribute_list 为空 then (5)返回N作为叶结点,标记samples中最普通的类; //多数表决 (6)选择attribute_list中的最优分类属性test_attribute; //用信息增益作为属性选择度量 (7)标记结点N为test_attribute; (8)for each test_attribute中的已知值ai //划分samples (9)由结点N生长出一个条件为test_attribute=ai的分枝; (10)设si为samples中test_attribute=ai的样本集合; //一个划分 (11)if si为空 then (12)加上一个叶结点,标记为标记samples中最普通的类; //多数表决 (13)else 加上一个由Generate_decision_tree(si, attribute_list-test_attribute)返回的结点 ;
Divorced 220K Single Married Single 85K 75K 90K
2. samples = { 1,4,7 } attribute_list = { MarSt, TaxInc } 3. samples = {2,3,5,6,8,9,10 } attribute_list = { MarSt, TaxInc }
Yes No No Yes No No Yes No No No
Single Married Single Married
选择TaxInc为最优分割属性:
Refund Yes NO Single TaxInc < 80K NO >= 80K YES No
Divorced 95K Married 60K
决策树 Decision Tree
简介
决策树算法是一种归纳分类算法,它通过对训练集的学 习,挖掘出有用的规则,用于对新集进行预测。
有监督的学习。 非参数学习算法。对每个输入使用由该区域的训练数 据计算得到的对应的局部模型。 决策树归纳的基本算法是贪心算法,自顶向下递归方 式构造决策树。
贪心算法:在每一步选择中都采取在当前状态下最好/优的选择。
例子:算法过程
Tid Refund Marital Status 1 2 3 4 5 6 7 8 9 10
10
Taxable Income Cheat 125K 100K 70K 120K No No No No Yes No No Yes No Yes
Yes No No Yes No No Yes No No No
Refund Yes NO No MarSt Single, Divorced TaxInc < 80K NO > 80K YES
10
Married
NO
Apply Model to Test Data
Test Data
Refund Marital Status No Married Taxable Income Cheat 80K ?
i N i ˆ (Ci | x, m) pm p m Nm
i 节点m是纯的,如果对于所有i,pm 为0或1。当到达节 i 点m的所有实例都不属于 C i 类时,pm 为0,当到达节点m的 i p C 所有实例都属于 i 类时, m 为1。
一种度量不纯性的可能函数是熵函数(entropy)。
信息熵
例子:算法过程
Tid Refund Marital Status 1 2 3 4 5 6 7 8 9 10
10
Taxable Income Cheat 125K 100K 70K 120K No No No No Yes No No Yes No Yes
2. samples = {1,4,7 } attribute_list = { MarSt, TaxInc }
(代表测试的条件,对数据属性的测试)
分支(branches)(代表测试的结果)
叶节点(leaf node)
4
(代表分类后所获得的分类标记 ) 2018/5/12
单变量树
每个内部节点中的测试只使用一个输入维。如果使用 的输入维 x j 是离散的,取n个可能的值之一,则该节点检 测 x j 的值,并取相应的分支,实现一个n路划分。 决策点具有离散分支,而数值输入应当离散化。如果 x j 是数值的(有序的),则测试函数是比较:
f m ( x) : x j wm0
其中 wm 0 是适当选择阈值。该决策节点将输入空间一份 Lm x | x j wm0 和 Rm x | x j wm0 ,称为一个二元 为二: 划分。 决策树根据所选取的属性是数值型还是离散型,每次将 数据划分成两个或n个子集。然后使用对应的子集递归地 进行划分,直到不需要划分,此时,创建一个树叶节点标 记它。
MarSt
Married Divorced
Divorced 220K Single Married Single 85K 75K 90K
问题1:分类从哪个属性开始? ——选择分裂变量的标准 问题2:为什么工资以80为界限? ——找到被选择的变量的分裂点的标准 (连续变量情况)
分类划分的优劣用不纯性度量来分析。如果对于所有 分支,划分后选择相同分支的所有实例都属于相同的类, 则这个划分是纯的。对于节点m,令 N m 为到达节点m的训练 i i N m 个实例中 N m N m 。如果一 实例数, 个属于C i 类,而 N m i 个实例到节点m,则它属于 C i 类的概率估计为:
Refund Yes NO No MarSt Single, Divorced TaxInc < 80K NO > 80K YES
10
Married
NO
Apply Model to Test Data
Test Data
Refund Marital Status No Married Taxable Income Cheat 80K ?
Yes No No Yes No No Yes No No No
Single Married Single Married
samples中所有样本属于同一个类Cheat=No
Refund Yes NO No
Divorced 95K Married 60K
Divorced 220K Single Married Single 85K 75K 90K
例子:算法过程
Tid Refund Marital Status 1 2 3 4 5 6 7 8 9 10