数据分类-决策树(PPT 71页)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
13
分类器设计3-分类器测试
❖ 利用测试集对分类器的分类性能进行评估,具体方式是
▪ 首先,利用分类器对测试集中的每一个样本进行分类 ▪ 其次,将分类得到的类标号和测试集中数据样本的原始类标号进
行对比 ▪ 由上述过程得到分类器的分类性能(如何评价?)
14
分类决策
❖ 在构造成功分类器之后(通过测试),则可以利用该分类 器实际执行分类
10
分类器设计1-划分数据集
❖ 给定带有类标号的数据集,并且将数据集划分为两个部分
▪ 训练集(training set) ▪ 测试集(testing set)
❖ 划分策略
1.当数据集D的规模较大时
训练集2|D|/3,测试集是1|D|/3
2.当数据集D的规模不大时
n交叉验证法(n-fold validation)
7
分类的过程
获取数据 预处理
分类器设计
分类决策
8
获取数据
❖ 数值型数据
▪ 病例中的各种化验数据 ▪ 空气质量监测数据
❖ 描述性数据
▪ 人事部门档案资料
❖ 图片型数据
▪ 指纹、掌纹 ▪ 自然场景图片
❖ 很多情况下,需要将上述数据统一转换为数值型数据序列 ,即形成特征向量(特征提取)
9
预处理
❖ 为了提高分类的准确性和有效性,需要对分类所用的数据 进行预处理
法得出分类
▪ 分类问题是数据挖掘领域中研究和应用最为广泛的技术之一,如 何更精确、更有效地分类一直是人们追求的目标
❖ 数据分类的任务
▪ 通过学习得到一个目标函数f,把每个属性集x映射到一个预先定 义的类标号y
4
分类的示例
❖ 两类分类示例
▪ 银行业:区分高端信用卡和低端信用卡 ▪ 医疗诊断:区分正常细胞和癌细胞 ▪ 互联网:区分正常邮件和垃圾邮件
• 将数据集随机地划分为n组 • 之后执行n次循环,在第i次循环中,将第i组数据样本作为测试集,其余的n-1
组数据样本作为训练集,最终的精度为n个精度的平均值。
11
3.当数据集D的规模非常小时
❖ 每次交叉验证时,只选择一条测试数据,剩余的数 据均作为训练集。
❖ 原始数据集有m条数据时,相当于m-次交叉验证。
▪ 去除噪声数据 ▪ 对空缺值进行处理 ▪ 数据降维(特征选择)--(PCA、LDA)
主成分分析 ( Principal Component Analysis , PCA ) 线性鉴别分析(Linear Discriminant Analysis, LDA),有时也称Fisher线性 判别(Fisher Linear Discriminant ,FLD), 这种算法是 Ronald Fisher 于 1936年发明的,是模式识别的经典算法。
目录
❖ 基本概念 ❖ 决策树ID3算法 ❖ 决策树C4.5算法
1
学习目标
1.掌握数据分类的基本原理和评价指标 2.了解两种决策树算法
2
Part I
数据分类的基本概念
3
定义
❖ 数据分类
▪ 是指把数据样本映射到一个事先定义的类中的学习过程 ▪ 即给定一组输入的属性向量及其对应的类,用基于归纳的学习算
❖ 多类分类示例
▪ 油气传输:区分行人走过、汽车碾过、镐刨、电钻等行为 ▪ 文字识别:区分不同的字符(其中汉字识别是一个大类别问题) ▪ 社会网络:区分中心用户、活跃用户、不活跃用户、马甲用户等
5
示例数据集
❖ 数据集包含多个描述属性和一个类别属性
Age
Salary
Class
30
high
c1
25
high
16
分类的评价准则-指标1
❖ 精确度(accuracy)
▪ 是最常用的评价准则 ▪ 代表测试集中被正确分类的数据样本所占的比例 ▪ 反映了分类器对于数据集的整体分类性能
m
TPj
Accuracy j1 N
17
分类的评价准则-指标2
❖ 查全率(recall)
▪ 第j个类别的查全率(召回率)表示在本类样本中,被正确分类的 样本占的比例
15
分类的评价准则-约定和假设
给定测试集 X test {( xi , yi ) | i 1,2, , N }, 其中 N 表示测试集中的样本个 数; xi表示测试集中的数据样 本; yi表示数据样本 xi的类标号; 假设分类问题含有 m 个类别,则 yi {c1, c2 , , cm } 对于测试集的第 j个类别,设定: 被正确分类的样本数量 是 TP j 被错误分类的样本数量 是 FN j 其他类别被错误分类为 该类的样本数量是 FP j
❖ 是N-次交叉验证的一个特例。
分类器设计2-分类器构造
❖ 利用训练集构造分类器(分类模型) ❖ 通过分析由属性描述的每类样本的数据信息,从中总结出
分类的规律性,建立判别公式或判别规则 ❖ 在分类器构造过程中,由于提供了每个训练样本的类标号
,这一步也称作监督学习(supervised learning)
▪ 代表该类别的分类纯度
Precisij onTPjTPjFPj
被正确分类的样本 是T数Pj量 被错误分类的样本 是F数Nj量 其他类别被错误分 该类 类为 的样本数F量Pj 是
19
分类的评价准则-指标4
❖ F-measure
▪ 可以比较合理地评价分类器对每一类样本的分类性能 ▪ 它是查全率和查准率的组合表达式 ▪ 其中参数β是可以调节的,通常取值为1
c2
21
low
c2
43
high
c1
18
low
c2
33
low
c1
......
......
....百度文库.
❖ 一般来说
▪ 描述属性:连续值或离散值
▪ 类别属性:只能是离散值(目标属性连续对应回归问题)
6
分类问题的形式化描述
数据 X集 {x(i,yi)|i1,2, ,tot}a,l 其中数x据 i(i1 样 ,2, 本 ,tot)用 adl维特征 xi 向 (xi1,量 xi2, ,xid)表示 xi1,xi2, ,xid分别d对 个应 描述 A1,属 A2, 性 ,Ad的具体取值 yi表示数x据 i的样 类本 标号 假设给定数 m个 据类 集别 包 yi , {含 c1,c则 2, ,cm}
▪ 代表该类别的分类精度
RecajllTPjTPFj Nj
被正确分类的样本 是T数Pj量 被错误分类的样本 是F数Nj量 其他类别被错误分 该类 类为 的样本数F量Pj 是
18
分类的评价准则-指标3
❖ 查准率(precision)
▪ 第j个类别的查准率表示被分类为该类的样本中,真正属于该类的 样本所占的比例
分类器设计3-分类器测试
❖ 利用测试集对分类器的分类性能进行评估,具体方式是
▪ 首先,利用分类器对测试集中的每一个样本进行分类 ▪ 其次,将分类得到的类标号和测试集中数据样本的原始类标号进
行对比 ▪ 由上述过程得到分类器的分类性能(如何评价?)
14
分类决策
❖ 在构造成功分类器之后(通过测试),则可以利用该分类 器实际执行分类
10
分类器设计1-划分数据集
❖ 给定带有类标号的数据集,并且将数据集划分为两个部分
▪ 训练集(training set) ▪ 测试集(testing set)
❖ 划分策略
1.当数据集D的规模较大时
训练集2|D|/3,测试集是1|D|/3
2.当数据集D的规模不大时
n交叉验证法(n-fold validation)
7
分类的过程
获取数据 预处理
分类器设计
分类决策
8
获取数据
❖ 数值型数据
▪ 病例中的各种化验数据 ▪ 空气质量监测数据
❖ 描述性数据
▪ 人事部门档案资料
❖ 图片型数据
▪ 指纹、掌纹 ▪ 自然场景图片
❖ 很多情况下,需要将上述数据统一转换为数值型数据序列 ,即形成特征向量(特征提取)
9
预处理
❖ 为了提高分类的准确性和有效性,需要对分类所用的数据 进行预处理
法得出分类
▪ 分类问题是数据挖掘领域中研究和应用最为广泛的技术之一,如 何更精确、更有效地分类一直是人们追求的目标
❖ 数据分类的任务
▪ 通过学习得到一个目标函数f,把每个属性集x映射到一个预先定 义的类标号y
4
分类的示例
❖ 两类分类示例
▪ 银行业:区分高端信用卡和低端信用卡 ▪ 医疗诊断:区分正常细胞和癌细胞 ▪ 互联网:区分正常邮件和垃圾邮件
• 将数据集随机地划分为n组 • 之后执行n次循环,在第i次循环中,将第i组数据样本作为测试集,其余的n-1
组数据样本作为训练集,最终的精度为n个精度的平均值。
11
3.当数据集D的规模非常小时
❖ 每次交叉验证时,只选择一条测试数据,剩余的数 据均作为训练集。
❖ 原始数据集有m条数据时,相当于m-次交叉验证。
▪ 去除噪声数据 ▪ 对空缺值进行处理 ▪ 数据降维(特征选择)--(PCA、LDA)
主成分分析 ( Principal Component Analysis , PCA ) 线性鉴别分析(Linear Discriminant Analysis, LDA),有时也称Fisher线性 判别(Fisher Linear Discriminant ,FLD), 这种算法是 Ronald Fisher 于 1936年发明的,是模式识别的经典算法。
目录
❖ 基本概念 ❖ 决策树ID3算法 ❖ 决策树C4.5算法
1
学习目标
1.掌握数据分类的基本原理和评价指标 2.了解两种决策树算法
2
Part I
数据分类的基本概念
3
定义
❖ 数据分类
▪ 是指把数据样本映射到一个事先定义的类中的学习过程 ▪ 即给定一组输入的属性向量及其对应的类,用基于归纳的学习算
❖ 多类分类示例
▪ 油气传输:区分行人走过、汽车碾过、镐刨、电钻等行为 ▪ 文字识别:区分不同的字符(其中汉字识别是一个大类别问题) ▪ 社会网络:区分中心用户、活跃用户、不活跃用户、马甲用户等
5
示例数据集
❖ 数据集包含多个描述属性和一个类别属性
Age
Salary
Class
30
high
c1
25
high
16
分类的评价准则-指标1
❖ 精确度(accuracy)
▪ 是最常用的评价准则 ▪ 代表测试集中被正确分类的数据样本所占的比例 ▪ 反映了分类器对于数据集的整体分类性能
m
TPj
Accuracy j1 N
17
分类的评价准则-指标2
❖ 查全率(recall)
▪ 第j个类别的查全率(召回率)表示在本类样本中,被正确分类的 样本占的比例
15
分类的评价准则-约定和假设
给定测试集 X test {( xi , yi ) | i 1,2, , N }, 其中 N 表示测试集中的样本个 数; xi表示测试集中的数据样 本; yi表示数据样本 xi的类标号; 假设分类问题含有 m 个类别,则 yi {c1, c2 , , cm } 对于测试集的第 j个类别,设定: 被正确分类的样本数量 是 TP j 被错误分类的样本数量 是 FN j 其他类别被错误分类为 该类的样本数量是 FP j
❖ 是N-次交叉验证的一个特例。
分类器设计2-分类器构造
❖ 利用训练集构造分类器(分类模型) ❖ 通过分析由属性描述的每类样本的数据信息,从中总结出
分类的规律性,建立判别公式或判别规则 ❖ 在分类器构造过程中,由于提供了每个训练样本的类标号
,这一步也称作监督学习(supervised learning)
▪ 代表该类别的分类纯度
Precisij onTPjTPjFPj
被正确分类的样本 是T数Pj量 被错误分类的样本 是F数Nj量 其他类别被错误分 该类 类为 的样本数F量Pj 是
19
分类的评价准则-指标4
❖ F-measure
▪ 可以比较合理地评价分类器对每一类样本的分类性能 ▪ 它是查全率和查准率的组合表达式 ▪ 其中参数β是可以调节的,通常取值为1
c2
21
low
c2
43
high
c1
18
low
c2
33
low
c1
......
......
....百度文库.
❖ 一般来说
▪ 描述属性:连续值或离散值
▪ 类别属性:只能是离散值(目标属性连续对应回归问题)
6
分类问题的形式化描述
数据 X集 {x(i,yi)|i1,2, ,tot}a,l 其中数x据 i(i1 样 ,2, 本 ,tot)用 adl维特征 xi 向 (xi1,量 xi2, ,xid)表示 xi1,xi2, ,xid分别d对 个应 描述 A1,属 A2, 性 ,Ad的具体取值 yi表示数x据 i的样 类本 标号 假设给定数 m个 据类 集别 包 yi , {含 c1,c则 2, ,cm}
▪ 代表该类别的分类精度
RecajllTPjTPFj Nj
被正确分类的样本 是T数Pj量 被错误分类的样本 是F数Nj量 其他类别被错误分 该类 类为 的样本数F量Pj 是
18
分类的评价准则-指标3
❖ 查准率(precision)
▪ 第j个类别的查准率表示被分类为该类的样本中,真正属于该类的 样本所占的比例