决策树分类器课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Networks Support Vector Machines
决策树分类器/模型学习
将已知数据集合分成
训练数据集合 测试集合
学习:从一个训练数据集合归纳出一棵决策树: 从完全空间搜索一棵最佳树的过程
预测:用决策树分类新数据 决策树是最常用的分类器之一 不要求任何知识或参数设定 它是一种监督学习方法 一棵决策树可以表示成一组规则
Entropy = – 0.4 log (0.4) – 0.3 log (0.3) – 0.3 log (0.3) = 1.571
对数的底是2
2022/3/23
Guilin
25
熵的性质
一个纯的训练数据集合(只有一个类)的熵是 0,这是因为概率1的对数log (1) = 0
在多个类的情况下,熵在每个类的概率相等时 达到最大值
总数据量是10个标记的例子
2022/3/23
Guilin
23
举例说明(计算概率)
根据上面的数据,每个类的概率如下:
p(Bus) = 4 / 10 = 0.4 p(Car) = 3 / 10 = 0.3 p(Train) = 3 / 10 = 0.3
注意,在上面的概率计算中,我们只考虑了类 属性Transportation mode,其它属性都不考虑
分类误差值总是在0和1之间 对于给定类的个数, Gini索引的最大值总是与
有了每个类的概率,我们就可以用前面的方法 计算训练数据集合的不纯度
2022/3/23
Guilin
24
举例说明(用熵计算概率)
计算训练数据集合的不纯度的一个方法就是采 用熵(entropy)
Entropy p j log2 p j
j
已知p(Bus) = 0.4, p(Car) = 0.3和p(Train) = 0.3, 熵的计算如下:
2022/3/23
Guilin
18
如何建构决策树?
决策树很简单,但实现建构一棵好的树是 很困难的
在上面的例子中,属性Income level没有 用于交通工具的分类
建构一棵树通常的办法(启发式信息)是 度量数据集的不纯度(impurity)
Entropy Gini index Classification error
20
如何度量不纯度
有多种量化方法度量不纯度 最常用的三种方法如下
Entropy p j log2 p j j
Gini _ Index 1
p
2 j
j
Classification _ error 1 max{p j }
上面所有的度量方法都含有类j的概率pj
2022/3/23
Baidu Nhomakorabea
Guilin
10
Attrib1 Attrib2
No
Small
Yes
Medium
Yes
Large
No
Small
No
Large
Attrib3 55K 80K 110K 95K 67K
Test Set
Class ? ? ? ? ?
Learning algorithm
Induction Learn Model
Apply Model
21
举例说明(训练数据)
2022/3/23
Guilin
22
举例说明(类的频率)
在训练数据集合中,类属性Transportation mode 有三个类值Bus、Car和Train
我们的例子中,每个值出现的次数如下
4 buses 3 cars 3 trains 简单记为4B, 3C, 3T
2022/3/23
Guilin
14
举例说明(决策树)
2022/3/23
Guilin
15
举例说明(决策树产生的规则)
每个叶节点产生一条规则
Rule 1:If Travel cost = expensive then Mode = car Rule 2:If Travel cost = standard then Mode = train Rule 3:If Travel cost = cheap Gender = male then
一个纯的训练数据集合(只有一个类)的Gini索 引值是0,这是因为概率1的Gini索引值是1-(1)^2 = 0
与熵一样, Gini索引在每个类的概率相等时达到 最大值
下面的图描出了不同的类个数n的Gini索引的最大 值,这里,p=1/n
注意:无论有多少个类值,Gini索引值总是在0和 1之间
2022/3/23
Guilin
19
不纯度的定义
给定一个训练数据集(决策表),我们 能根据类属性度量它的同构性(或异构 性heterogeneity)
如果一个训练数据集的类属性只取一个 类值,它是纯的或者同构的
如果一个训练数据集的类属性取多个类 值,它是不纯的或者异构的
2022/3/23
Guilin
下面的图描出了不同的类个数n的熵的最大值, 这里,p=1/n
熵的最大值是-n*p*log p 注意:当类个数n>2时,熵>1
2022/3/23
Guilin
26
图示熵的性质
2022/3/23
Guilin
27
举例说明(用Gini索引计算概率)
计算训练数据集合的不纯度的第二个方法是采 用Gini索引(Gini index)
2022/3/23
Guilin
16
举例说明(预测)
根据上面的决策树或者规则,回答前面的问题 就很简单、直接
Alex:Travel cost = standard,所以,无论其它 属性取什么值,可以预测他的交通工具是train
Buddy:Travel cost = cheap并且Gender = male, 则可以预测他的交通工具是bus
Cherry:Travel cost = cheap并且Gender = female 并且Car ownership = 1,则可以预测他的 交通工具是train
2022/3/23
Guilin
17
决策树的缺点
多数决策树算法采用贪心 策略:按照设定的启发式 信息搜索最佳树
无回溯
非穷近搜索,但可能剪枝
决策树分类器 朱晓峰
2022/3/23
Guilin
1
数据库知识发现技术
数据预处理:属性约简,缺失值填充… 关联规则 分类或预测 聚类 可视化分析
2022/3/23
Guilin
2
什么叫分类?
分类是一个古老的方法、现代热门的课题
已知数据的集合D:
数据被标记
学习:从数据集合中归纳出规则、规律等,通 常称为分类器,或模型
2022/3/23
Guilin
10
举例说明(训练数据)
2022/3/23
Guilin
11
举例说明(决策树)
2022/3/23
Guilin
12
举例说明(测试数据)
决策树是用于预测一个数据的类 问题:Alex, Buddy and Cheery使用哪种交通工具?
2022/3/23
Guilin
13
Deduction
Model
分类任务例子
Predicting tumor cells as benign or malignant
Classifying credit card transactions as legitimate or fraudulent
Classifying secondary structures of protein as alpha-helix, beta-sheet, or random coil
2022/3/23
Guilin
7
决策树的结构
决策树是层次的树结构
由一些节点和枝(边)组成,一棵决策树至少 有一个节点
枝的两端是节点
一棵决策树通常是从左到右,或从上到下画图
树的第一个节点称为根节点,“根-枝-节点...–节点”的最后一个节点是叶节点,其它 节点叫中间节点
非叶节点至少有一条枝
预测:用分类器预测新数据的类
这种从有标记的数据种归纳分类器的方法叫监 督学习
决策树、回归是最常用的分类器
2022/3/23
Guilin
3
分类任务图例
Tid 1 2 3 4 5 6 7 8 9 10
10
Attrib1 Attrib2
Yes
Large
No
Medium
No
Small
Yes
Medium
2022/3/23
Guilin
8
决策树分类器的解释
一棵决策树是训练数据的一个划分
树的一个非叶节点是对一个属性上的测试
一个属性的一条枝是测试该属性的一个结果
一个叶节点是一个类标记
在每个非叶节点,一个属性被选中,它将训练 数据分裂成尽可能不同类的子集合(划分)
对于一个新数据,根据它的每个属性值从根节 点一直匹配到叶节点,这个叶节点的标记就用 来预测新数据的类
Gini _ Index 1
p
2 j
j
已知p(Bus) = 0.4, p(Car) = 0.3和p(Train) = 0.3, Gini索引值的计算如下:
Gini Index = 1 – (0.4^2 + 0.3^2 + 0.3^2) = 0.660
2022/3/23
Guilin
28
Gini索引的性质
Classification_Error = 1 – Max{0.4, 0.3, 0.3} = 1 - 0.4 = 0.60
2022/3/23
Guilin
31
分类误差的性质
与熵和Gini索引一样,一个纯的训练数据集合 (只有一个类)的分类误差值是0,这是因为 概率1的分类误差值是1-max(1) = 0
2022/3/23
Guilin
29
图示Gini索引的性质
2022/3/23
Guilin
30
举例说明(用分类误差计算概率)
计算训练数据集合的不纯度的第三个方 法是采用分类误差(classification error)
Classification _ error 1 max{p j }
已知p(Bus) = 0.4, p(Car) = 0.3和p(Train) = 0.3,分类误差值的计算如下:
2022/3/23
Guilin
9
构造决策树分类器的原则
目标:最大化预测新数据的精度(实现困难) 通常将给定的已知数据随机分成训练集合和测
试集合。训练数据用于归纳分类器,测试数据 用来评估分类器 训练分类器时的目标是最大化预测测试数据的 精度,即,该分类器基本上体现两个(训练和 测试)集合的共同结构 过度拟合(overfitting)问题:拟合训练数 据的效果很好,拟合测试数据的效果很差
No
Large
No
Medium
Yes
Large
No
Small
No
Medium
No
Small
Attrib3 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
Training Set
Class No No No No Yes No No Yes No Yes
Tid 11 12 13 14 15
Categorizing news stories as finance, weather, entertainment, sports, etc
分类技术
Decision Tree based Methods Rule-based Methods Memory based reasoning Neural Networks Naïve Bayes and Bayesian Belief
Gender 如果Gender = male,Transportation mode = bus 如果Gender = female,决策树需要检查下一个节点Car
ownership
如果Car ownership = 0,Transportation mode = bus,否则 Transportation mode = train
Mode = bus Rule 4:If Travel cost = cheap Gender = female Car
ownership = 0 then Mode = bus Rule 5:If Travel cost = cheap Gender = female Car
ownership = 1 then Mode = train
举例说明(决策树的运用)
从根节点Travel cost per km开始 如果Travel Cost = expensive,Transportation mode =
car 如果Travel Cost = standard,Transportation mode =
train 如果Travel Cost = cheap,决策树需要检查下一个节点
相关文档
最新文档