DM 数据挖掘 3-1 分类与预测 QBai 21-08-2006

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3
分类和预测
分类方法和预测方法已被许多学科研究 机器学习 事例学习、归纳学习、 事例学习、归纳学习、神经元网络学习 模式识别 特征提取,模式分类。 特征提取,模式分类。 专家系统 专家系统中有许多是分类问题。 专家系统中有许多是分类问题。 统计学 统计理论是分类的基础。 统计理论是分类的基础。 神经生物学 生物信息学 Web 技术
2
分类与预测
预测是构造和使用模型评估无标号样本类( 预测是构造和使用模型评估无标号样本类(预 是构造和使用模型评估无标号样本类 测出类),或评估给定样本可能具有的属性值 ),或评估给定样本可能具有的属性 测出类),或评估给定样本可能具有的属性值 或值区间。 或值区间。 用预测法预测类标号也称为分类, 用预测法预测类标号也称为分类,用预测法预 分类 测连续值为预测。 测连续值为预测。 分类和预测是应用最广泛的方法。 分类和预测是应用最广泛的方法。它不仅在数 是应用最广泛的方法 据挖掘有大量应用, 据挖掘有大量应用,在其他学科也同样有较好 的应用。 的应用。

训练例
………
训练例
过 程
分类 模 型 训练 训练
10
类1
类2
类m
训练样本(数据) 训练样本(数据)集
属性 age 1 <=30 2 <=30 3 31…40 4 >40 5 >40 6 >40 7 31…40 8 <=30 9 <=30 10 >40 11 <=30 12 31…40 13 31…40 14 >40
20
决策树
1 2 3 4 5 6 7 决策树方法概念 决策树构造 决策树剪枝 基本决策树的归纳加强 决策树的伸缩性问题 决策树新方向 决策树应用
21
1
决策树方法概念
数据集: 数据集: 由多个属性和一个决策属性组成的数据集。 由多个属性和一个决策属性组成的数据集。 数据划分: 数据划分: 通过对数据集的属性依次按取值将数据集进 行划分, 行划分,取一个属性按其取值就把数据集分成 几个小的数据集,一直下去, 几个小的数据集,一直下去,到决策属性为 或按一定规则停止。 止,或按一定规则停止。
22
决策树方法概念
决策树: 决策树: 由属性逐次划分就形成一棵树, 由属性逐次划分就形成一棵树,就称决策树 决策规则 由树的根结点到叶结点属性的合取就形成一 条规则, 条规则,所有规则的析取就形成一套一套规 则。
23
决策树方法概念
决策树构造方法: 决策树构造方法: 给定一组带有标记的样本; (1)给定一组带有标记的样本; 通过学习得到一棵树; (2)通过学习得到一棵树; (3)将决策树从根结点到叶结点形成合取的规 所有叶结点形成的规则为析取规则。 则,所有叶结点形成的规则为析取规则。 决策树的基本问题是: 决策树的基本问题是: 如何划分树的分枝,属性选择。 (1)如何划分树的分枝,属性选择。 决策树很大时需要剪枝,怎样剪枝。 (2)决策树很大时需要剪枝,怎样剪枝。 所以划分和剪枝是决策树两个关键问题。 所以划分和剪枝是决策树两个关键问题。 最典型算法: 最典型算法: ID3, C4.5, C5.0;
income student credit_rating high no fair high no excellent high no fair medium no fair low yes fair low yes excellent low yes excellent medium no fair low yes fair medium yes fair medium yes excellent medium no excellent high yes fair medium no excellent buys_computer no no yes yes yes no yes no yes yes yes yes yes no
14
3.分类预测的数据准备 3.分类预测的数据准备
数据清理 去噪声: 去噪声: 补缺值: 补缺值: 相关分析 去无关属性(特征), ),去冗余属性 去无关属性(特征),去冗余属性 数据变换 概念分层 数据规范化 数据离散化
15
4.常用的分类方法 4.常用的分类方法
决策树 贝叶斯方法 神经元网络 K-近邻方法 基于案例方法 遗传算法 粗糙集方法 模糊集方法 关联规则方法 支持向量机
8
1.什么是分类( 1.什么是分类(3) 什么是分类
分类分为两步: 分类分为两步: 分类第一步: 分类第一步:
带有类别标记的样本集来学习 通过带有类别标记的样本集来学习f 模型/映射/函数), 通过带有类别标记的样本集来学习f(模型/映射/函数), 由于样本的标记是人给定的,故称有指导的学习。 有指导的学习 由于样本的标记是人给定的,故称有指导的学习。这个样 本集称训练样本集。 本集称训练样本集。 若训练样本集的样本,典型且量多,学到的模型就会好。 若训练样本集的样本,典型且量多,学到的模型就会好
分类第二步: 分类第二步:
任意给定一个没有标记样本,用学到的模型对其进行分类, 任意给定一个没有标记样本,用学到的模型对其进行分类, 没有标记样本 给出其类标记。 即给出其类标记。 为了测试模型的准确性,可用一个测试样本集。 为了测试模型的准确性,可用一个测试样本集。
9
分类方法

训练例 未被分类的数据
24
例子: 例子: 数据集 “buys_computer”
age <=30 <=30 31…40 >40 >40 >40 31…40 <=30 <=30 >40 <=30 31…40 31…40 >40 income student credit_rating high no fair high no excellent high no fair medium no fair low yes fair low yes excellent low yes excellent medium no fair low yes fair medium yes fair medium yes excellent medium no excellent high yes fair medium no excellent buys_computer no no yes yes yes no yes no yes yes yes yes yes no
16
5.常用的预测方法 5.常用的预测方法
分类法是对数据预测其类标号, 分类法是对数据预测其类标号,但预测 法是预测连续值,预测方法有: 法是预测连续值,预测方法有: 线性回归 多元回归 非线性回归
17
决策树方法
18
决策树方法
决策树( Tree)是类似流程图的树结 决策树(Decision Tree)是类似流程图的树结 它是一棵树, 构。它是一棵树,树中每个内部结点都表示一 个属性的测试, 个属性的测试,结点的每个分枝代表一个测试 的输出,每个叶结点代表一个类或类分布。 的输出,每个叶结点代表一个类或类分布。 决策树是一种逼近离散值函数的方法, 决策树是一种逼近离散值函数的方法,对噪声 数据有很好的健壮性,且能够学习析取表达式。 数据有很好的健壮性,且能够学习析取表达式。 决策树是一个有效的有指导的机器学习方法。 决策树是一个有效的有指导的机器学习方法。 作为一种分类的方法, 作为一种分类的方法,为数据挖掘系统广泛采 它是一种归纳学习方法。 用。它是一种归纳学习方法。
学习到的 Age IncomeCredit_rate 分类器/模型 分类器 模型 >40 low fair <=30 low excellent 31..40 high excellent IF age= ’31..40’ and >40 med fair >40 med fair Income= ‘high’ THEN 31..40 high excellent Credit_rate=‘excellent’
回答新样是预测
是构造模型来评估给定样本的类或值。 是构造模型来评估给定样本的类或值。 对于离散值用分类方法预测其类 对于连续值问题用回归方法来预测其值或值的 区间。 区间。 一般预测类也归为分类,只把预测连续值( 一般预测类也归为分类,只把预测连续值(如回 归方法)为预测。 归方法)为预测。
7
1.什么是分类( 1.什么是分类(2) 什么是分类
分类的定义: 分类的定义:
从给定样本组成的数据集 D = { t1 , t 2 ,...,t n } 和类集
C = { C1 ,C2 ,...,Cm }
分类就是给出一个映射 f : D → C 样本 t i 被分配到一个类 C j , C j 精确包含 了被映射到其中的所有样本。 了被映射到其中的所有样本。 即: C j = { t i f ( t i ) = C j ,1 ≤ i ≤ n , t i ∈ D } 映射就是分类模型 分类模型, 映射就是分类模型,通过样本集和类集学习分类 模型,按模型对给的新样本分类。 模型,按模型对给的新样本分类。
由关心的问题而定,可为buys_computer, 选那个属性为类属性由关心的问题而定,可为buys_computer, 也可为credit_rating 也可为credit_rating
11
构造模型(学习过程) 构造模型(学习过程)
分类学习算法 训练数据集
Name Mike Mary Bill Jim Dave Anne
1 2 3 4
5 6 7 8 9
6
概述: 什么是分类( 概述:1. 什么是分类(1) 分类: 分类:
是给一个样本(对象、元组、实例) 是给一个样本(对象、元组、实例) 按照给定分类体系用一定方法将其归于 按照给定分类体系用一定方法将其归于 用一定方法 某类。分类体系可能是人为的, 某类。分类体系可能是人为的,也可能 是学习到的(如聚类的得到的)。 是学习到的(如聚类的得到的)。
12
对新样本分类过程
(John Henri, 31..40,high) Credit_rate?
训练 数据集 分类模型 新数据
Name Mike Mary Bill Jim Dave Anne
Age IncomeCredit_rate >40 low fair <=30 low excellent 31..40 high excellent >40 med fair >40 med fair 31..40 high excellent
19
决策树方法的发展
决策树方法是分类中最典型且用得最多的方 法。决策树方法是在归纳学习中最有代表性 的方法。 的方法。一般认为归纳学有两个代表性的方 一个为决策树,一个为规则归纳。 法,一个为决策树,一个为规则归纳。 决策树最早方法是1966 Hunt提出的CLS学习 1966年 提出的CLS 决策树最早方法是1966年Hunt提出的CLS学习 算法。以后有很多方法出现, 算法。以后有很多方法出现,其中最有影响 的是J. R. Quinlan的 C4.5方法 方法。 的是J. R. Quinlan的ID3, C4.5方法。这些 方法由于其有效性, 方法由于其有效性,被广泛使用和开发为商 品。
4
分类与预测
在许多实际问题有很好应用: 在许多实际问题有很好应用:
图像的区分 模式的识别
指纹识别,人脸识别 指纹识别, 语音识别, 语音识别,图像识别
金融走势 股票分析 客户的分类 信用卡评级
医疗诊断 纳税人分析 信贷评估 文本分类 故障诊断 网页分类
5
分类与预测
概述 分类方法 决策(判定) 决策(判定)树归纳 贝叶斯方法 神经元网络 基于距离的分类方法 基于案例的分类方法 遗传算法 粗糙集方法 模糊集方法 关联规则方法 预测方法 1 滑动平均 2 线性回归 2 非线性回归
分类与预测
Dr. Qingyuan Bai School of Computer Science Faculty of Mathematics and Computer Science, Fuzhou University Email: baiqy@
1
分类与预测
分类和预测是数据挖掘中最基本也是最具丰 分类和预测是数据挖掘中最基本也是最具丰 富内容的技术。一般来说, 富内容的技术。一般来说,数据挖掘除数据 预处理之外,主要基本技术为关联规则 关联规则、 预处理之外,主要基本技术为关联规则、分 类与预测、聚类。 类与预测、聚类。 分类是区分抽象事务和具体事物的方法和能 分类是区分抽象事务和具体事物的方法和能 分类也是一种知识表示方法。 力,分类也是一种知识表示方法。 有人认为分类是人类具有的最基本知识。 有人认为分类是人类具有的最基本知识。
相关文档
最新文档