数据分类
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3、分类器设计
(1)划分数据集。将数据集分为两部分:训
练集和测试Leabharlann Baidu。
划 分 方 法 可以随机抽取2/3的数据样本作为训练 集,1/3的数据样本作为测试集。
十交叉验证方法。将第i组数据样本作为 测试集,其余的9组样本作为训练集。
(2)分类器构造。利用训练集构造分类器
(分类模型)。
通过分析每个数据样本的属性信息,总结
描述 属性
Age
分类问题的示例数据集
Salary Class
类别 属性
30
25 21 43
high
high low high
c1
c2 c2 c1
18
33 …
low
low …
c2
c1 …
分类问题概述
3.描述属性:用于描述训练样本的 属性。可以是连续型的,也可以是 离散型的。 4.类别属性:必须是离散型属性,
决策树
决策树的优点:
进行分类器设计时,决策树分类方法 决策树的分类模型是树状结构,简单 可以将决策树中到达每个叶节点的路
径转换为 IF—THEN 形式的分类规则, 这种形式更有利于理解。 直观,比较符合人类的理解方式。 所需时间相对较少。
决策树
描述属性
公司职员 否 否 否 否 是 是 是 否 是 是 是 否 年龄 ≤40 ≤40 41~50 >50 >50 >50 41~50 ≤40 ≤40 >50 ≤40 41~50 收入 高 高 高 中 低 低 低 中 低 中 中 中 信誉度 良 优 良 良 良 优 优 良 良 良 优 优 买保险 c2 c2 c1 c1 c1 c2 c1 c2 c1 c1 c1 c1
数据分类
甄远刚 许洪恺 孙艳艳 朱清伟
分类问题应用领域
分类问题概述
分类:把数据样本映射到一个事先定义
的类中的学习过程,即给定一组输入的 属性向量及其对应的类,用基于归纳的 学习算法得出分类。
分类问题概述
1.训练样本集:为建立模型而收集的
数据元组(记录)的集合。
2.训练样本:训练数据集中的单个样 本(元素)。
如Class。
分类问题概述
分类问题中使用的数据集可以表示为 X={(xi,yi)|i=1,2,…,total} xi=(xi1,xi2,…,xid) ,其中xi1,xi2,…,xid分别对 应d个描述属性A1,A2,…,Ad的具体取值。 yi表示数据样本xi的类标号,假设给定数 据集包含m个类别,则yi∈{c1,c2,…,cm},其中 c1,c2,…,cm是类别属性C的具体取值,也称为 类标号。
出分类的规律性,从而建立判别公式或判别规
则。
(3)分类器测试。利用测试集对分类器的分
类性能进行评估。
利用分类器对测试集中的每个数据样本进
行分类,将得到的类标号与测试集中原始的类
标号进行对比,从而得到分类器的性能。
决策树
当前有影响力的决策树算法为ID3 和C4.5。
ID3:只能处理离散型描述属性,选择信息 增益最大的属性划分训练样本,目的是 使分枝时的熵最小,从而提高算法的运 算速度和精确度。
类别属性
是
否
41~50
>50
高
中
良
优
c1
c2
决策树
年龄
≤40 41~50 >50
公司职员 是 否
c1
良
信誉度 优
c1
c2
c1
c2
实例
数据预处理
原始数据
数据预处理
清洗前
清洗后
数据预处理
导入数据库
分类器设计
按照职位
Excel统计的分类
按照产业类型
分类器设计
统计变动最多的前十名情况
分类器设计
分类的过程
获取数据
预处理
分类器设计
分类决策
1、获取数据
分类问题所获取的数据可以是文字、图像、
指纹、波形图以及各种物理和逻辑数据。
物理数据:既包含数值型数据,又包含描述型数据。
逻辑数据:对某些描述型数据用逻辑值表示。
2、预处理
对数据的预处理通常包括:
(1)去除噪声数据,对空缺值进行处理。
(2)进行数据集成或变换。
统计变动最多的前十名情况
1 这些数据适不适合分类呢? 2 以什么作为分类依据? 3 分出的又是哪些类呢?
结论:
无法找到一种合适的分类 方法,本数据源不适合做 分类。
谢谢!