《数据挖掘导论》教材配套教学PPT——第1章 认识数据挖掘

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1)准备数据,包括准备训练数据和检验数据 (2)选择一种数据挖掘技术或算法,将数据提交给数据挖掘软件 (3)解释和评估结果 (4)模型应用
数据准备
数据挖掘
数据解释和评估
传统数据库/数据仓库/平面文件
数据挖掘技术和算法
2022年3月23日星期三
图1.3 数据挖掘实验过程示意图
模型应用 第26页,共65页
第1章 认识数据挖掘
数据挖掘定义 机器学习 数据查询 专家系统 数据挖掘过程/作用/技术/应用 Weka数据挖掘软件
本章目标
• 掌握数据挖掘的定义 • 了解机器学习中的基本方法
– 概念学习 – 归纳学习 – 有指导的学习 – 无指导的聚类
• 了解与数据挖掘有关的数据查询、专家系统 • 了解数据挖掘的过程、作用、技术、应用 • 掌握Weka数据挖掘软件的使用方法
Knowledge)
2022年3月23日星期三
第21页,共65页
1.4 专家系统
清华大学出版社
专家系统(Expert System)
• 一种具有“智能”的计算机软件系统。 • 能够模拟某个领域的人类专家的决策过程,解决那些需要人类专家
处理的复杂问题。 • 一般包含以规则形式表示的领域专家的知识和经验,系统就是利用
No
Good
Yes
Viral
Yes
Good
Yes
Viral
Yes
Not good
No
Bacterial
2022年3月23日星期三
第12页,共65页
决策树(Decision Tree)
清华大学出版社
• 倒立树,非叶子节点表示在一个属性上的分类检查, 叶子节点表示决策判断的结果,该结果选择了正确分 类较多实例的分类。
2、数据仓库
– 数据仓库(Data Warehouse)是面向决策支持而不是日常事务处理 而设计的。
3、平面文件
– 一些数据量较小的数据集可以存储在如Excel电子表格、.csv、.arff等 平面文件中。
2022年3月23日星期三
第27页,共65页
1.5.2 挖掘数据
清华大学出版社
• 选择一种数据挖掘技术或算法,将数据提交给数据挖 掘工具,应用该算法建立模型。
清华大学出版社
2022年3月23日星期三
第2页,共65页
1.1 数据挖掘定义
数据挖掘(Data Mining)
清华大学出版社
• 技术角度
– 利用一种或多种计算机学习技术,从数据中自动分析并提取信 息的处理过程。
– 目的是寻找和发现数据中潜在的有价值的信息、知识、规律、 联系和模式。
– 数据挖掘与计算机科学有关,一般使用机器学习、统计学、联 机分析处理、专家系统和模式识别等多种方法来实现。
Sore-
throat 咽痛
Cooling-
effect 退热效果
Group 群体发病
Cold-type 感冒类型
1
Yes
2
No
3
Yes
4
Yes
5
No
6
No
7
No
8
Yes
9
Yes
10
Yes
No
Yes
Yes
Yes
Yes
No
No
Yes
Yes
No
No
Yes
No
No
No
Yes
Yes
Yes
Yes
Yes
No
No
– 样本角度中的概念是将某个概念中的典型实例组成一个集合, 使用该集合来描述概念定义。
2022年3月23日星期三
第8页,共65页
清华大学出版社
1.2.2 归纳学习(Induction-Based Learning)
• 基于归纳的学习
– 机器学习方式 – 人类学习最重要方式之一
• 人类通过对事物的特定实例的观察,对所掌握的已有 经验材料研究。
规则: IF Sore-throat = No THEN Cold-type = Viral
2022年3月23日星期三
图1.2 专家系统方法vs 数据挖掘方法
第24页,共65页
1.5 数据挖掘的过程
KDD过程
清华大学出版社
• 数据挖掘是KDD过程中的一个阶段(第3章) • 一次数据挖掘实验分为4个步骤
• 每个簇的概念结构可以表示为一个产生式规则
(1)IF Increased -lym = Yes & Cooling-effect =Good THEN Cluster = 0 (rule accuracy = 4/4 = 100%,rule coverage = 4/5 = 80%) (2)IF Sore-throat = Yes & Cooling-effect = Not good THEN Cluster = 1 (rule accuracy = 4/4 = 100%,rule coverage = 4/5 = 80%)
2022年3月23日星期三
第15页,共65页
清华大学出版社
1.2.4 无指导的聚类(Unsupervised Clustering)
• 无指导(监督)聚类
– 一种无指导(无教师)的学习;
• 在学习训练之前,无预先定义好分类的实例,数据实例 按照某种相似性度量方法,计算实例之间的相似程度, 将最为相似的实例聚类在一个组——簇(Cluster)中, 再解释和理解每个簇的含义,从中发现聚类的意义。
算法、EM算法等。 – K-means算法是一种最为常用和易用的算法。
• 指定初始簇
– K-means(K-均值)算法在聚类前指定一个初始的簇的个数, 本例指定为2。
2022年3月23日星期三
第18页,共65页
聚类结果
清华大学出版社
• 聚类为两个簇,每个簇有5个实例,分别为
– Cluster0 = {1,3,4,8,9} – Cluster1 = {2,5,6,7,10}
2022年3月23日星期三
第7页,共65页
1.2.1 概念学习
清华大学出版社
1、传统角度(Classical View)
– 所有概念都有明确的定义。
2、概率角度(Probabilistic View)
– 对个别样本实例进行概括性描述,概括性说明构成了概率角度 中的概念。
3、样本角度(Exemplar View)
【例1.1】
给定如表1.1所示的数据集T,使用有指导的学习方 法建立分类模型,对未知类别的实例进行分类。
表1.1 感冒诊断假想数据集
清华大学出版社
表1.1 感冒诊断假想数据集
序号
Increased -lym 淋巴细胞升高
Leukocytosis 白细胞升高
Fever 发烧
Acute-
onset 起病急
• 决策树一般都可以被翻译为一个产生式规则集合。 • 产生式规则的格式为:
– IFБайду номын сангаас前提条件 THEN 结论
• 图1.1翻译为4条产生式规则
(1)IF Sore-throat = No THEN Cold-type = Viral (2)IF Sore-throat = Yes & Cooling-effect = Good THEN Cold-type = Viral (3)IF Sore-throat = Yes & Cooling-effect = Not good THEN Cold-type = Bacterial (4)IF Sore-throat = Yes & Cooling-effect = Unknown THEN Cold-type = Bacterial
2022年3月23日星期三
第16页,共65页
【例1.2】
给定如表1.1所示的数据集T,使用无指导聚类方法 ,对所有实例进行分类,解释每个簇的含义。
挖掘准备
清华大学出版社
• 删除Cold-type(感冒类型)属性
• 选择算法
– 无指导聚类有很多种算法, – K-means(K-均值)算法、凝聚聚类方法、概念分层Cobweb
Acute-
onset 起病急
Sore-
throat 咽痛
Cooling-
effect 退热效果
Group Cold-type 群体发病 感冒类型
No
Yes
Yes
No
No
Not good
No
?
Yes
No
Yes
No
Yes
Good
No
?
2022年3月23日星期三
第14页,共65页
产生式规则
清华大学出版社
• 决策树有很多算法(第2章)
Sore-throat Yes Cooling-effect
Not good
Unknown Good
No
Cold Type=Viral (3/0)
Cold Type=Bacterial (4/1)
Cold Type=Viral (2/0)
Cold Type=Bacterial (1/0)
图1.1 感冒类型诊断C4.5决策树
2022年3月23日星期三
第13页,共65页
分类未知实例
清华大学出版社
• 分类模型建立和检验完成后,就可以实际投入使用,即 用该模型对未知分类的实例进行分类。
表1.2 未知分类的数据实例
序号
Increased -lym Leukocytosis Fever 淋巴细胞升高 白细胞升高 发烧
这些知识和方法进行推理和判断,从而解决该领域中实际问题。 • 专家(Expert)
– 有能力解决领域中复杂问题的人通常被称为该领域中的专家(Expert)
2022年3月23日星期三
第23页,共65页
清华大学出版社
专家系统方法 与 数据挖掘方法
人类领域专家
知识工程师
数据
专家系统创建工具
数据挖掘工具
规则: IF Sore-throat = No THEN Cold-type = Viral
2022年3月23日星期三
第19页,共65页
1.3 数据查询
数据查询(Data Query)
清华大学出版社
• 通过数据查询语言在数据中找出所需要的数据或信息。
• 什么时候使用数据挖掘,什么时候使用数据查询呢?
– 获取浅知识或多维知识(Multidimensional Knowledge) – 获取数据中潜在的、隐藏的信息或知识——隐含知识(Hidden
• 学科角度
– 数据挖掘是一门交叉学科,涉及数据库技术、人工智能技术、 统计学、可视化技术、并行计算等多种技术。
2022年3月23日星期三
第4页,共65页
数据挖掘(Data Mining)
清华大学出版社
• 商业角度
– 商业智能信息处理技术;
– 围绕商业目标开展的,对大量商业数据进行抽取、 转换、分析和处理,从中提取辅助商业决策的关键 性数据,揭示隐藏的、未知的或验证已知的规律性 ,是一种深层次的商业数据分析方法。
• 选择数据挖掘技术或算法需要考虑
(1)判断学习是有指导的还是无指导的。 (2)数据集中的哪些实例和属性提交给数据挖掘工具;哪些数 据实例作为训练数据;哪些数据实例作为检验数据。 (3)如何设置数据挖掘算法的参数。
2022年3月23日星期三
第28页,共65页
1.5.3 解释和评估结果
• 归纳学习
– 从归纳中获取和探索新知识,并以概念的形式表现出来的学习。
2022年3月23日星期三
第9页,共65页
清华大学出版社
1.2.3 有指导的学习(Supervised Learning)
• 定义
– 通过对大量已知分类或输出结果值的实例进行训练,调整分类 模型的结构,达到建立能够准确分类或预测未知模型的目的。 这种基于归纳的概念学习过程被称为有指导(监督)的学习。
Yes
No
Yes
Yes
Yes
Yes
Yes
No
No
Good
Yes
Viral
Yes
Not good
Yes
Bacterial
Yes
Good
Yes
Viral
No
Unknown
No
Viral
Yes
Unknown
No
Bacterial
Yes
Not good
No
Bacterial
Yes
Not good
No
Viral
2022年3月23日星期三
第5页,共65页
1.2 机器学习
1.2.1 概念学习
清华大学出版社
• 通过对大量实例进行训练,从中发现经验化规律的过程。 • 机器学习结果的通常表现形式为概念。 • 机器最擅长的是学习概念。 • 概念(Concept)
– 具有某些共同特征的对象、符号或事件的集合。
• 概念可以从三个不同的角度来看待
• 数据实例(Instance)
– 用于有指导学习的样本数据
• 训练实例(Training Instance)
– 用于训练的实例
• 检验实例(Test Instance)
– 分类模型建立完成后,经过检验实例进行检验,判断模型是否 能够很好地应用在未知实例的分类或预测中。
2022年3月23日星期三
第10页,共65页
1.5.1 准备数据
清华大学出版社
• 是整个数据挖掘过程中较为重要和费时费力的阶段。
• 在明确数据挖掘目标后,可以通过从传统数据库、数据仓库和平 面文件三种途径收集和抽取数据。
1、传统数据库
– 操作型数据库(Operational Database),它是面向日常事务处理的 数据库,通常结构为关系模型。数据库中包含若干个规范化了的二维 关系表。
相关文档
最新文档