数据分类-决策树(PPT 71页)
合集下载
高中信息技术浙教版:决策树教学课件(共27张PPT)
第五步:使用Python库测试结果可视化
第一步:收集数 据
第三步:向Python导入 数据
第四步:使用Python库sklearn训练
第二步:分割数据
课堂小结
一、2017年度重点工作项目完成情况
1 决策树分类概念 2 构建决策树
3 举例说明:鸢尾花分类
备未用来:的深深度度学学习习:人工智能
展望与挑战
“温度”是多余的特点
如何判断某一天游客是否会来游乐场游玩?
天气、温度、湿度
2.4.1决策树分类概念
建立决策树的过程 选择一个属性值,基于这个属性对样本集进行划分,得到子集划分结果。
再选择其他属性,对得到的划分结果进行划分,直至最后所得划分结果中每 个样本为同一个类别。
2.4.2构建决策树
构建决策树来解决实际生活中的问题时,需按照一定的顺序选择划分属 性。通常,性能好的决策树随着划分不断进行,决策树分支节点的“纯度” 会越来越高,即其所包含样本尽可能属于相同类别。为了逐次选出最优属 性,可以采用信息增益(informationgain)这一指标。
2.4.2构建决策树
练一练: 1.计算表2.4.1中温度高低、湿度大小、风力强弱三个气象特点的信息增益。
思考: 将天气状况、温度高低、湿度大小、风力强弱作为分支点来构造图2.4.1决策
树时,是否信息增益大的气象特点离根节点越近?
【练一练】: 如下表所示,每朵鸢尾花有萼片长度、萼片宽度、花瓣长度、花瓣宽度四个
4个属性 1个标签 1 Label 4 Features 用来标记种类
序号 Index 0-149, 一共150个样本
基于鸢尾花数据集
例:鸢尾花数据集是常用的分类实验数据集,由Fisher1936收集整理。 Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含 150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通 过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于 (Sentosa 0,Versicolor 1,Virginia 2)三个种类中的哪一类。
第一步:收集数 据
第三步:向Python导入 数据
第四步:使用Python库sklearn训练
第二步:分割数据
课堂小结
一、2017年度重点工作项目完成情况
1 决策树分类概念 2 构建决策树
3 举例说明:鸢尾花分类
备未用来:的深深度度学学习习:人工智能
展望与挑战
“温度”是多余的特点
如何判断某一天游客是否会来游乐场游玩?
天气、温度、湿度
2.4.1决策树分类概念
建立决策树的过程 选择一个属性值,基于这个属性对样本集进行划分,得到子集划分结果。
再选择其他属性,对得到的划分结果进行划分,直至最后所得划分结果中每 个样本为同一个类别。
2.4.2构建决策树
构建决策树来解决实际生活中的问题时,需按照一定的顺序选择划分属 性。通常,性能好的决策树随着划分不断进行,决策树分支节点的“纯度” 会越来越高,即其所包含样本尽可能属于相同类别。为了逐次选出最优属 性,可以采用信息增益(informationgain)这一指标。
2.4.2构建决策树
练一练: 1.计算表2.4.1中温度高低、湿度大小、风力强弱三个气象特点的信息增益。
思考: 将天气状况、温度高低、湿度大小、风力强弱作为分支点来构造图2.4.1决策
树时,是否信息增益大的气象特点离根节点越近?
【练一练】: 如下表所示,每朵鸢尾花有萼片长度、萼片宽度、花瓣长度、花瓣宽度四个
4个属性 1个标签 1 Label 4 Features 用来标记种类
序号 Index 0-149, 一共150个样本
基于鸢尾花数据集
例:鸢尾花数据集是常用的分类实验数据集,由Fisher1936收集整理。 Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含 150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通 过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于 (Sentosa 0,Versicolor 1,Virginia 2)三个种类中的哪一类。
决策树ppt课件
建设小工厂投资280万元,如销路好,3年后扩建,扩 建需要投资400万元,可使用7年,每年赢利190万元。 不扩建则每年赢利80万元。如销路不好则每年赢利60 万元。
试用决策树法选出合理的决策方案。 经过市场调查, 市场销路好的概率为0.7,销路不好的概率为0.3。
15
680万元 2
建大厂
该承包商过去也承包过与A、B类似的工程,根 据统计资料,每种方案的利润和出现的概率如 下表所示。投标不中时,则对A损失50万元, 对B损失100万元。根据上述情况,试画出决 策树
11
方案 A高 A低 B高 B低
效果
优 一般 赔 优 一般 赔 优 一般 赔 优 一般 赔
可能的利润(万元)
5000 1000 -3000 4000 500 -4000 7000 2000 -3000 6000 1000 -1000
10
例2
某承包商拥有的资源有限,只能在A和B两个工 程中选A或B进行投标,或者对这两项工程都不 参加投标。
但根据过去该承包商投标经验资料,他对A或B 投标又有两种策略:一种是投高标,中标的机会 是0.3;另一种是投低标,中标的机会是0.5。 这样共有A高、A低、不投、B高和B低五种方 案。
叫做方案枝; C、在每个方案枝的末端画一个圆圈,这个圆
圈称为概率分叉点,或自然状态点; D、从自然状态点引出代表各自然状态的分枝,
称为概率分枝; E、如果问题只需要一级决策,则概率分枝末
端画三角形,表示终点 。
3
1
决策 结点
概率分叉点
(自然状态点) 概率枝
方案分枝 2
概率枝
方案分枝
概率枝
益期望值分别为125、0、620和1100。 至此,承包商可做出决策,如投A工程,
试用决策树法选出合理的决策方案。 经过市场调查, 市场销路好的概率为0.7,销路不好的概率为0.3。
15
680万元 2
建大厂
该承包商过去也承包过与A、B类似的工程,根 据统计资料,每种方案的利润和出现的概率如 下表所示。投标不中时,则对A损失50万元, 对B损失100万元。根据上述情况,试画出决 策树
11
方案 A高 A低 B高 B低
效果
优 一般 赔 优 一般 赔 优 一般 赔 优 一般 赔
可能的利润(万元)
5000 1000 -3000 4000 500 -4000 7000 2000 -3000 6000 1000 -1000
10
例2
某承包商拥有的资源有限,只能在A和B两个工 程中选A或B进行投标,或者对这两项工程都不 参加投标。
但根据过去该承包商投标经验资料,他对A或B 投标又有两种策略:一种是投高标,中标的机会 是0.3;另一种是投低标,中标的机会是0.5。 这样共有A高、A低、不投、B高和B低五种方 案。
叫做方案枝; C、在每个方案枝的末端画一个圆圈,这个圆
圈称为概率分叉点,或自然状态点; D、从自然状态点引出代表各自然状态的分枝,
称为概率分枝; E、如果问题只需要一级决策,则概率分枝末
端画三角形,表示终点 。
3
1
决策 结点
概率分叉点
(自然状态点) 概率枝
方案分枝 2
概率枝
方案分枝
概率枝
益期望值分别为125、0、620和1100。 至此,承包商可做出决策,如投A工程,
决策树ppt课件
决策树在分类问题中应用
分类问题背景介绍
分类问题是机器学习中一类重要 的问题,旨在将数据划分为不同
的类别。
在现实世界中,分类问题广泛存 在,如垃圾邮件识别、疾病诊断、
信用评分等。
分类算法的目标是通过学习训练 数据中的特征与类别之间的关系, 从而对新的未知数据进行类别预
测。
决策树在分类问题中优势
直观易理解
决策树在处理缺失值和异常值时容易受到干扰,可能导致模型性能下降。可以通过数据 预处理等方法减少缺失值和异常值对模型的影响。
CART算法实例演示
实例背景
假设有一个关于信用卡欺诈的数据集,包含多个特征(如交 易金额、交易时间、交易地点等)和一个目标变量(是否欺 诈)。我们将使用CART算法构建一个分类模型来预测交易 是否属于欺诈行为。
构建决策树时间较长
C4.5算法在构建决策树时需要计算每 个特征的信息增益比,当数据集较大 或特征较多时,构建决策树的时间可 能会较长。
C4.5算法实例演示
数据集介绍
以经典的鸢尾花数据集为例,该数据集包含150个 样本,每个样本有4个特征(花萼长度、花萼宽度、 花瓣长度、花瓣宽度)和1个标签(鸢尾花的类 别)。
建造年份等特征。
选择合适的决策树算法 (如CART、ID3等),
对数据进行训练。
模型评估与优化
采用均方误差等指标评 估模型性能,通过调整 参数、集成学习等方法
优化模型。
结果展示与解读
展示决策树图形化结果, 解释每个节点含义及预
测逻辑。
08
CATALOGUE
总结与展望
决策树模型总结回顾
模型原理
决策树通过递归方式将数据集划分为若干个子集,每个子 集对应一个决策结果。通过构建树形结构,实现分类或回 归任务。
分类问题背景介绍
分类问题是机器学习中一类重要 的问题,旨在将数据划分为不同
的类别。
在现实世界中,分类问题广泛存 在,如垃圾邮件识别、疾病诊断、
信用评分等。
分类算法的目标是通过学习训练 数据中的特征与类别之间的关系, 从而对新的未知数据进行类别预
测。
决策树在分类问题中优势
直观易理解
决策树在处理缺失值和异常值时容易受到干扰,可能导致模型性能下降。可以通过数据 预处理等方法减少缺失值和异常值对模型的影响。
CART算法实例演示
实例背景
假设有一个关于信用卡欺诈的数据集,包含多个特征(如交 易金额、交易时间、交易地点等)和一个目标变量(是否欺 诈)。我们将使用CART算法构建一个分类模型来预测交易 是否属于欺诈行为。
构建决策树时间较长
C4.5算法在构建决策树时需要计算每 个特征的信息增益比,当数据集较大 或特征较多时,构建决策树的时间可 能会较长。
C4.5算法实例演示
数据集介绍
以经典的鸢尾花数据集为例,该数据集包含150个 样本,每个样本有4个特征(花萼长度、花萼宽度、 花瓣长度、花瓣宽度)和1个标签(鸢尾花的类 别)。
建造年份等特征。
选择合适的决策树算法 (如CART、ID3等),
对数据进行训练。
模型评估与优化
采用均方误差等指标评 估模型性能,通过调整 参数、集成学习等方法
优化模型。
结果展示与解读
展示决策树图形化结果, 解释每个节点含义及预
测逻辑。
08
CATALOGUE
总结与展望
决策树模型总结回顾
模型原理
决策树通过递归方式将数据集划分为若干个子集,每个子 集对应一个决策结果。通过构建树形结构,实现分类或回 归任务。
分类挖掘之决策树(ppt版)
income
其他(qítā)属性的信息率可类似求 出。
第二十六页,共六十六页。
将输出变量(biànliàng)〔是否购 置〕看作信源发出的信息U
输入变量看作是信宿接收到的一系 列信息V
•在实际通信之前〔决策树建立之前〕,输出变量对信宿来讲是完全随机的,其平 均不确定性为:
En(Ut)
i
P(ui)lo2gP(1ui)i
(6) FOR EACH由结点N长出的新结点{
IF 该结点对应的样本子集只有(zhǐyǒu)唯一的一种决策类别, 那么将该结点标记为该类别的叶结点; ELSE 在该结点上执行ID3Tree (T’,T’-attributelist),对它继续进行分裂;} 其中,T’为由结点N划分而来的子集,T’-attributeslit为去除被选分裂属性后的属性集。
• 基尼指数——Gini index (SLIQ,SPRINT)
•
•
…………
第十二页,共六十六页。
2002222//11//33
信息论的根本(gēnběn)概念
1、信息是用来(yònɡ lái)消除随机不确定性的度量。信息量的大小可 由所消除的不确定性大小来计量。
信息量的数学定义:
I(ui)lo2g P(1 ui)lo2g P(ui)
= 0.94
下年面 龄=计“算<=每3个0属〞性:I的(p ,n 熵) 。p 从 pn 年lo g 龄2 pp 1开 p1n始=p 2计n ,n 算lo ng 。2 1p 1n =n3 I (p11,n11)=0.971
年龄=“30~40〞:
p12=4,n12=0 I (p12,n12)=0
年龄=“>40〞: p13=3,n13=2 I (p13,n13)=0.971
决策树分类--ppt课件
标出所属的类(纯的类别) 4 如果数据表中没有其他属性可以考虑,则N也是树叶,按照少
数服从多数的原则在树叶上标出所属类别(不纯的类别) 5 否则,根据平均信息期望值E或GAIN值选出一个最佳属性作
为节点N的测试属性 6 节点属性选定后,对于该属性中的每个值:
从N生成一个分支,并将数据表中与该分支有关的数据收集形 成分支节点的数据表,在表中删除节点属性那一栏 7如果分支数据表属性非空,则转1,运用以上算法从该节点建立子树
按属性A对D划分后,数据集的信息熵:
InfoA (D)
v
j1
Dj D
*
Info(
D
j
)
其中, D j充当第 j 个划分的权重。 D
InfoA(D)越小, 表示划分的纯度越高
信息增益
Gain( A) Info(D) InfoA (D)
选择具有最高信息增益Gain(A) 的属性A作为分裂属性
(2)D中包含有20%的正例和80%的负例。 H(D) = -0.2 * log20.2 - 0.8 * log20.8 = 0.722
(3)D中包含有100%的正例和0%的负例。 H(D) = -1 * log21 - 0 * log20 =0
可以看到一个趋势,当数据变得越来越“纯”时,熵的值变得越来越小。 当D中正反例所占比例相同时,熵取最大值。 当D 中所有数据都只属于一个类时,熵得到最小值。 因此熵可以作为数据纯净度或混乱度的衡量指标。这正是决策树学习中 需要的。
学生 否 否 否 否 是 是 是 否 是 是 是 否 是 否
信用 一般 好 一般 一般 一般 好 好 一般 一般 一般 好 好 一般 好
买了电脑 否 否 是 是 是 否 是 否 是 是 是 是 是 否
数服从多数的原则在树叶上标出所属类别(不纯的类别) 5 否则,根据平均信息期望值E或GAIN值选出一个最佳属性作
为节点N的测试属性 6 节点属性选定后,对于该属性中的每个值:
从N生成一个分支,并将数据表中与该分支有关的数据收集形 成分支节点的数据表,在表中删除节点属性那一栏 7如果分支数据表属性非空,则转1,运用以上算法从该节点建立子树
按属性A对D划分后,数据集的信息熵:
InfoA (D)
v
j1
Dj D
*
Info(
D
j
)
其中, D j充当第 j 个划分的权重。 D
InfoA(D)越小, 表示划分的纯度越高
信息增益
Gain( A) Info(D) InfoA (D)
选择具有最高信息增益Gain(A) 的属性A作为分裂属性
(2)D中包含有20%的正例和80%的负例。 H(D) = -0.2 * log20.2 - 0.8 * log20.8 = 0.722
(3)D中包含有100%的正例和0%的负例。 H(D) = -1 * log21 - 0 * log20 =0
可以看到一个趋势,当数据变得越来越“纯”时,熵的值变得越来越小。 当D中正反例所占比例相同时,熵取最大值。 当D 中所有数据都只属于一个类时,熵得到最小值。 因此熵可以作为数据纯净度或混乱度的衡量指标。这正是决策树学习中 需要的。
学生 否 否 否 否 是 是 是 否 是 是 是 否 是 否
信用 一般 好 一般 一般 一般 好 好 一般 一般 一般 好 好 一般 好
买了电脑 否 否 是 是 是 否 是 否 是 是 是 是 是 否
决策树ppt
三 实例
决策树算法
2.条件熵计算 ui ui H(U V) P(v ) P( ) log P( 条件熵: j vj 2 vj)
j i
P( ) 属性A1取值vj时,类别ui的条件概率: v v A1=天气的取值:v1=晴,v2=多云,v3=雨 在A1处取值“晴”的例子5个,取值“多云” 的例子4个,取值“雨”的例子5个,故:
决策树简介
划分数据集的大原则就是将无序的 数据变得更加有序。
划分数据集前后信息发生的变化成 为信息增益。
决策树简介
集合信息的度量方式称为香农熵 (熵)
H(U)=- P(u i )log 2 P(u i )
条件熵
H(U V) P(v j ) P(
j i
ui
vj
) log 2 P(
ui
果
—60
A2
状 态
结
0.3
120
点
30
决策树简介
状 态 决策 状 态
代表备选方案 的 经济效果
结
将 每个方案 在 各种 自然状态下 取得的 损益值 标注于 结果节点 的 右端
果
结
最后选择 的 最佳方案
点
决策树简介
决策树的一般流程: (1)收集数据 (2)准备数据 (3)分析数据 (4)训练算法 (5)测试算法 (6)使用算法
某天早晨气候描述为:天气-多云;气温-冷; 湿度-正常;风-无风。 它属于哪类气候呢?要解决这个问题,需要用某 个原则来判定,这个原则来自于大量的实际例子, 从例子中总结出原则,有了原则就可以判定任何 一天的气候了。 每个实体在世界中属于不同的类别,为简单起见, 假定仅有两个类别,分别为P、N。在这种两个类 别的归纳任务中,P类和N类的实体分别称为概念 的正例和反例。将一些已知正例和反例放在一起 便得到训练集。
决策树模型简介decision trees PPT课件
1—2—34 1—3—24 1—4—23 2—3—14 2—4—13 3—4—12
1—2—3—4
S (L,B ) B S (L 1,B ) S (L 1,B 1)
B: 2 3
4 t ot a l
21
1
33 1
4
47 6
1
14
5 15 25 10 51
L 6 31 90 65 202
7 63 301 350 876
1
1
2 L 1
1
L个水平的等级变量分裂成B个分支可能的数量
仅有一个等级变量
X ln(X) rank(X)
.20 1.7 3.3 3.5 14 2515
–1.6 .53 1.2 1.3 2.6 7.8
1
2345
6
potential split locations
名义变量的分裂
1—234 2—134 3—124 4—123 12—34 13—24 14—23
韩国的 Young Moon Chae 与 Seung Hee Ho 等人利用以监测卫生状态和开发国民健康促进程 序为特征的韩国医疗保险公司数据库,成功地将 决策树应用于人群健康状态评估以及为高血压管 理提供政策信息。
决策树简述
决策树(decision trees)也称判定树,是一个 类似于流程图的树结构,其中每个内部节点表示 在一个属性上的测试,每个分支代表一个测试输 出,而每个树叶节点代表类或类分布。树的最顶 层节点是根节点。
Kass (1980) Within-node sampling Minimum child size
穷举搜索考虑了输入变量所有的在每个结点可能的分裂 。穷举搜索易造成组合爆炸代价昂贵。
1—2—3—4
S (L,B ) B S (L 1,B ) S (L 1,B 1)
B: 2 3
4 t ot a l
21
1
33 1
4
47 6
1
14
5 15 25 10 51
L 6 31 90 65 202
7 63 301 350 876
1
1
2 L 1
1
L个水平的等级变量分裂成B个分支可能的数量
仅有一个等级变量
X ln(X) rank(X)
.20 1.7 3.3 3.5 14 2515
–1.6 .53 1.2 1.3 2.6 7.8
1
2345
6
potential split locations
名义变量的分裂
1—234 2—134 3—124 4—123 12—34 13—24 14—23
韩国的 Young Moon Chae 与 Seung Hee Ho 等人利用以监测卫生状态和开发国民健康促进程 序为特征的韩国医疗保险公司数据库,成功地将 决策树应用于人群健康状态评估以及为高血压管 理提供政策信息。
决策树简述
决策树(decision trees)也称判定树,是一个 类似于流程图的树结构,其中每个内部节点表示 在一个属性上的测试,每个分支代表一个测试输 出,而每个树叶节点代表类或类分布。树的最顶 层节点是根节点。
Kass (1980) Within-node sampling Minimum child size
穷举搜索考虑了输入变量所有的在每个结点可能的分裂 。穷举搜索易造成组合爆炸代价昂贵。
数据分类-决策树(PPT 71页)
no fair no excellent no fair no fair yes fair yes excellent yes excellent no fair yes fair yes fair yes excellent no excellent yes fair no excellent
属性
G a in (A ) I n fo (D ) I n fo A (D )
信息增益例子
类 P: buys_computer = “yes” 类 N: buys_computer = “no”
5
4
Infoage(D)
14
I(2,3)
14
I(4,0)
In fo (D ) 1 9 4 lo g 2 (1 9 4 ) 1 5 4 lo g 2 (1 5 4 ) 0 .9 4 0
16
分类的评价准则-约定和假设
给定测试集 X test {( xi , yi ) | i 1,2, , N }, 其中 N 表示测试集中的样本个 数; xi表示测试集中的数据样 本; yi表示数据样本 xi的类标号; 假设分类问题含有 m 个类别,则 yi {c1, c2 , , cm } 对于测试集的第 j个类别,设定: 被正确分类的样本数量 是 TP j 被错误分类的样本数量 是 FN j 其他类别被错误分类为 该类的样本数量是 FP j
适合的描述属性作为分支属性 ▪ 并根据该属性的不同取值向下建立分支
26
决策树示例-购买保险
A1-公司职员
否 否 否 否 是 是 是 否 是 是 是 否 是 否
A2-年龄
<=40 <=40 41~50 >50 >50 >50 41~50 <=40 <=40 >50 <=40 41~50 41~50 >50
第四章-决策树PPT课件
34
可解释性
➢ 决策边界是平行坐标轴的 ➢ 对于过于复杂的问题,会导致很多小的划分
35
总结
优点
生成可理解的规则
分类时计算代价很小
能够选出对分类比较重要的属性
对长方形分布的样本处理很好
缺点
+++----------------+++----------------+++--------+++-------- ++++++++---++++++++------++++++++------+++++++++++++++----+++----++++----+++----+++++++----++++
纹理(15个样本) :{1, 2, 3, 4, 5, 6, 7, 9, 11, 12, 13, 14, 15, 16, 17} 稍糊(5个样本): {7,9,13,14,17} 清晰(7个样本): {1,2,3,4,5,6,15} 模糊(3个样本): {11,12,16} 缺失纹理属性取值的样本:{8,10}
• Wikipedia page for decision tree: /wiki/Decision_tree_learning
决策树完整PPT课件
第7页/共39页
信息增益
一般而言,信息增益越大,则意味着使用属性a来进行划分所获得 的“纯度提升”越大。
决策树算法第8行选择属性 著名的ID3决策树算法
第8页/共39页
举例:求解划分根结点的最优划分属性
数据集包含17个训练样例:
8个正例(好瓜)占 9个反例(坏瓜)占
8 p1 17
p2
9 17
对于二分类任务
1,2,3,4,5 6,8,15
10
6
8,15
8
15
第(2)种情形:设定为该结点所含样本 最多的类别 利用当前结点的后验分布
第(3)种情形:设定为其父结点所含样 本最多的类别 把父结点的样本分布作为当前结点的先验 分布
第4页/共39页
决策树学习的关键是算法的第8行:选择最优划分属性
什么样的划分属性是最优的?
我们希望决策树的分支结点所包含的样本尽可能属于 同一类别,即结点的“纯度”越来越高,可以高效地从根 结点到达叶结点,得到决策结果。
三种度量结点“纯度”的指标: 1. 信息增益 2. 增益率 3. 基尼指数
第5页/共39页
1. 信息增益 信息熵
香农提出了“信息熵”的概念,解决了对信息的量化 度量问题。
第28页/共39页
现实任务中,尤其在属性数目较多时,存在大量样本出现缺失值。 出于成本和隐私的考虑
第29页/共39页
1. 属性值缺失时,如何进行划分属性选择?(如何计算信息增益) 2. 给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?
(对于缺失属性值的样本如何将它从父结点划分到子结点中)
包含14个样例:
14
17
好瓜(6个)
坏瓜(8个)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
15
分类的评价准则-约定和假设
给定测试集 X test {( xi , yi ) | i 1,2, , N }, 其中 N 表示测试集中的样本个 数; xi表示测试集中的数据样 本; yi表示数据样本 xi的类标号; 假设分类问题含有 m 个类别,则 yi {c1, c2 , , cm } 对于测试集的第 j个类别,设定: 被正确分类的样本数量 是 TP j 被错误分类的样本数量 是 FN j 其他类别被错误分类为 该类的样本数量是 FP j
10
分类器设计1-划分数据集
❖ 给定带有类标号的数据集,并且将数据集划分为两个部分
▪ 训练集(training set) ▪ 测试集(testing set)
❖ 划分策略
1.当数据集D的规模较大时
训练集2|D|/3,测试集是1|D|/3
2.当数据集D的规模不大时
n交叉验证法(n-fold validation)
7
分类的过程
获取数据 预处理
分类器设计
分类决策
8
获取数据
❖ 数值型数据
▪ 病例中的各种化验数据 ▪ 空气质量监测数据
❖ 描述性数据
▪ 人事部门档案资料
❖ 图片型数据
▪ 指纹、掌纹 ▪ 自然场景图片
❖ 很多情况下,需要将上述数据统一转换为数值型数据序列 ,即形成特征向量(特征提取)
9
预处理
❖ 为了提高分类的准确性和有效性,需要对分类所用的数据 进行预处理
▪ 代表该类别的分类纯度
Precisij onTPjTPjFPj
被正确分类的样本 是T数Pj量 被错误分类的样本 是F数Nj量 其他类别被错误分 该类 类为 的样本数F量Pj 是
19
分类的评价准则-指标4
❖ F-measure
▪ 可以比较合理地评价分类器对每一类样本的分类性能 ▪ 它是查全率和查准率的组合表达式 ▪ 其中参数β是可以调节的,通常取值为1
c2
21
low
c2
43
high
c1
18
low
c2
33
low
c1
......
......
......
❖ 一般来说
▪ 描述属性:连续值或离散值
▪ 类别属性:只能是离散值(目标属性连续对应回归问题)
6
分类问题的形式化描述
数据 X集 {x(i,yi)|i1,2, ,tot}a,l 其中数x据 i(i1 样 ,2, 本 ,tot)用 adl维特征 xi 向 (xi1,量 xi2, ,xid)表示 xi1,xi2, ,xid分别d对 个应 描述 A1,属 A2, 性 ,Ad的具体取值 yi表示数x据 i的样 类本 标号 假设给定数 m个 据类 集别 包 yi , {含 c1,c则 2, ,cm}
16
分类的评价准则-指标1
❖ 精确度(accuracy)
▪ 是最常用的评价准则 ▪ 代表测试集中被正确分类的数据样本所占的比例 ▪ 反映了分类器对于数据集的整体分类性能
m
TPj
Accuracy j1 N
17
分类的评价准则-指标2
❖ 查全率(recall)
▪ 第j个类别的查全率(召回率)表示在本类样本中,被正确分类的 样本占的比例
▪ 代表该类别的分类精度
RecajllTF数Nj量 其他类别被错误分 该类 类为 的样本数F量Pj 是
18
分类的评价准则-指标3
❖ 查准率(precision)
▪ 第j个类别的查准率表示被分类为该类的样本中,真正属于该类的 样本所占的比例
• 将数据集随机地划分为n组 • 之后执行n次循环,在第i次循环中,将第i组数据样本作为测试集,其余的n-1
组数据样本作为训练集,最终的精度为n个精度的平均值。
11
3.当数据集D的规模非常小时
❖ 每次交叉验证时,只选择一条测试数据,剩余的数 据均作为训练集。
❖ 原始数据集有m条数据时,相当于m-次交叉验证。
13
分类器设计3-分类器测试
❖ 利用测试集对分类器的分类性能进行评估,具体方式是
▪ 首先,利用分类器对测试集中的每一个样本进行分类 ▪ 其次,将分类得到的类标号和测试集中数据样本的原始类标号进
行对比 ▪ 由上述过程得到分类器的分类性能(如何评价?)
14
分类决策
❖ 在构造成功分类器之后(通过测试),则可以利用该分类 器实际执行分类
▪ 去除噪声数据 ▪ 对空缺值进行处理 ▪ 数据降维(特征选择)--(PCA、LDA)
主成分分析 ( Principal Component Analysis , PCA ) 线性鉴别分析(Linear Discriminant Analysis, LDA),有时也称Fisher线性 判别(Fisher Linear Discriminant ,FLD), 这种算法是 Ronald Fisher 于 1936年发明的,是模式识别的经典算法。
❖ 是N-次交叉验证的一个特例。
分类器设计2-分类器构造
❖ 利用训练集构造分类器(分类模型) ❖ 通过分析由属性描述的每类样本的数据信息,从中总结出
分类的规律性,建立判别公式或判别规则 ❖ 在分类器构造过程中,由于提供了每个训练样本的类标号
,这一步也称作监督学习(supervised learning)
目录
❖ 基本概念 ❖ 决策树ID3算法 ❖ 决策树C4.5算法
1
学习目标
1.掌握数据分类的基本原理和评价指标 2.了解两种决策树算法
2
Part I
数据分类的基本概念
3
定义
❖ 数据分类
▪ 是指把数据样本映射到一个事先定义的类中的学习过程 ▪ 即给定一组输入的属性向量及其对应的类,用基于归纳的学习算
法得出分类
▪ 分类问题是数据挖掘领域中研究和应用最为广泛的技术之一,如 何更精确、更有效地分类一直是人们追求的目标
❖ 数据分类的任务
▪ 通过学习得到一个目标函数f,把每个属性集x映射到一个预先定 义的类标号y
4
分类的示例
❖ 两类分类示例
▪ 银行业:区分高端信用卡和低端信用卡 ▪ 医疗诊断:区分正常细胞和癌细胞 ▪ 互联网:区分正常邮件和垃圾邮件
❖ 多类分类示例
▪ 油气传输:区分行人走过、汽车碾过、镐刨、电钻等行为 ▪ 文字识别:区分不同的字符(其中汉字识别是一个大类别问题) ▪ 社会网络:区分中心用户、活跃用户、不活跃用户、马甲用户等
5
示例数据集
❖ 数据集包含多个描述属性和一个类别属性
Age
Salary
Class
30
high
c1
25
high
分类的评价准则-约定和假设
给定测试集 X test {( xi , yi ) | i 1,2, , N }, 其中 N 表示测试集中的样本个 数; xi表示测试集中的数据样 本; yi表示数据样本 xi的类标号; 假设分类问题含有 m 个类别,则 yi {c1, c2 , , cm } 对于测试集的第 j个类别,设定: 被正确分类的样本数量 是 TP j 被错误分类的样本数量 是 FN j 其他类别被错误分类为 该类的样本数量是 FP j
10
分类器设计1-划分数据集
❖ 给定带有类标号的数据集,并且将数据集划分为两个部分
▪ 训练集(training set) ▪ 测试集(testing set)
❖ 划分策略
1.当数据集D的规模较大时
训练集2|D|/3,测试集是1|D|/3
2.当数据集D的规模不大时
n交叉验证法(n-fold validation)
7
分类的过程
获取数据 预处理
分类器设计
分类决策
8
获取数据
❖ 数值型数据
▪ 病例中的各种化验数据 ▪ 空气质量监测数据
❖ 描述性数据
▪ 人事部门档案资料
❖ 图片型数据
▪ 指纹、掌纹 ▪ 自然场景图片
❖ 很多情况下,需要将上述数据统一转换为数值型数据序列 ,即形成特征向量(特征提取)
9
预处理
❖ 为了提高分类的准确性和有效性,需要对分类所用的数据 进行预处理
▪ 代表该类别的分类纯度
Precisij onTPjTPjFPj
被正确分类的样本 是T数Pj量 被错误分类的样本 是F数Nj量 其他类别被错误分 该类 类为 的样本数F量Pj 是
19
分类的评价准则-指标4
❖ F-measure
▪ 可以比较合理地评价分类器对每一类样本的分类性能 ▪ 它是查全率和查准率的组合表达式 ▪ 其中参数β是可以调节的,通常取值为1
c2
21
low
c2
43
high
c1
18
low
c2
33
low
c1
......
......
......
❖ 一般来说
▪ 描述属性:连续值或离散值
▪ 类别属性:只能是离散值(目标属性连续对应回归问题)
6
分类问题的形式化描述
数据 X集 {x(i,yi)|i1,2, ,tot}a,l 其中数x据 i(i1 样 ,2, 本 ,tot)用 adl维特征 xi 向 (xi1,量 xi2, ,xid)表示 xi1,xi2, ,xid分别d对 个应 描述 A1,属 A2, 性 ,Ad的具体取值 yi表示数x据 i的样 类本 标号 假设给定数 m个 据类 集别 包 yi , {含 c1,c则 2, ,cm}
16
分类的评价准则-指标1
❖ 精确度(accuracy)
▪ 是最常用的评价准则 ▪ 代表测试集中被正确分类的数据样本所占的比例 ▪ 反映了分类器对于数据集的整体分类性能
m
TPj
Accuracy j1 N
17
分类的评价准则-指标2
❖ 查全率(recall)
▪ 第j个类别的查全率(召回率)表示在本类样本中,被正确分类的 样本占的比例
▪ 代表该类别的分类精度
RecajllTF数Nj量 其他类别被错误分 该类 类为 的样本数F量Pj 是
18
分类的评价准则-指标3
❖ 查准率(precision)
▪ 第j个类别的查准率表示被分类为该类的样本中,真正属于该类的 样本所占的比例
• 将数据集随机地划分为n组 • 之后执行n次循环,在第i次循环中,将第i组数据样本作为测试集,其余的n-1
组数据样本作为训练集,最终的精度为n个精度的平均值。
11
3.当数据集D的规模非常小时
❖ 每次交叉验证时,只选择一条测试数据,剩余的数 据均作为训练集。
❖ 原始数据集有m条数据时,相当于m-次交叉验证。
13
分类器设计3-分类器测试
❖ 利用测试集对分类器的分类性能进行评估,具体方式是
▪ 首先,利用分类器对测试集中的每一个样本进行分类 ▪ 其次,将分类得到的类标号和测试集中数据样本的原始类标号进
行对比 ▪ 由上述过程得到分类器的分类性能(如何评价?)
14
分类决策
❖ 在构造成功分类器之后(通过测试),则可以利用该分类 器实际执行分类
▪ 去除噪声数据 ▪ 对空缺值进行处理 ▪ 数据降维(特征选择)--(PCA、LDA)
主成分分析 ( Principal Component Analysis , PCA ) 线性鉴别分析(Linear Discriminant Analysis, LDA),有时也称Fisher线性 判别(Fisher Linear Discriminant ,FLD), 这种算法是 Ronald Fisher 于 1936年发明的,是模式识别的经典算法。
❖ 是N-次交叉验证的一个特例。
分类器设计2-分类器构造
❖ 利用训练集构造分类器(分类模型) ❖ 通过分析由属性描述的每类样本的数据信息,从中总结出
分类的规律性,建立判别公式或判别规则 ❖ 在分类器构造过程中,由于提供了每个训练样本的类标号
,这一步也称作监督学习(supervised learning)
目录
❖ 基本概念 ❖ 决策树ID3算法 ❖ 决策树C4.5算法
1
学习目标
1.掌握数据分类的基本原理和评价指标 2.了解两种决策树算法
2
Part I
数据分类的基本概念
3
定义
❖ 数据分类
▪ 是指把数据样本映射到一个事先定义的类中的学习过程 ▪ 即给定一组输入的属性向量及其对应的类,用基于归纳的学习算
法得出分类
▪ 分类问题是数据挖掘领域中研究和应用最为广泛的技术之一,如 何更精确、更有效地分类一直是人们追求的目标
❖ 数据分类的任务
▪ 通过学习得到一个目标函数f,把每个属性集x映射到一个预先定 义的类标号y
4
分类的示例
❖ 两类分类示例
▪ 银行业:区分高端信用卡和低端信用卡 ▪ 医疗诊断:区分正常细胞和癌细胞 ▪ 互联网:区分正常邮件和垃圾邮件
❖ 多类分类示例
▪ 油气传输:区分行人走过、汽车碾过、镐刨、电钻等行为 ▪ 文字识别:区分不同的字符(其中汉字识别是一个大类别问题) ▪ 社会网络:区分中心用户、活跃用户、不活跃用户、马甲用户等
5
示例数据集
❖ 数据集包含多个描述属性和一个类别属性
Age
Salary
Class
30
high
c1
25
high