数据挖掘的应用和发展趋势
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9
什么是数据挖掘
1. 数据挖掘(从数据中发现知识)
从海量的数据中抽取感兴趣的(有价值的、隐含的、 以前没有用但是潜在有用信息的)模式和知识。
2. 其它可选择的名字
数据库中知识挖掘、知识提取、数据/模式分析、数据 考古、数据捕捞、信息获取、事务智能等。
3. 广义观点
数据挖掘是从存放在数据库、数据仓库中或其它信息 库中的大量数据中挖掘有趣知识的过程。
2020/5/9
10
数据挖掘系统的组成
➢ 数据库、数据仓库或其他信息库:是一个或一
组数据库、数据仓库、电子表格或其他类型的 信息库。可以在数据上进行数据清理和集成。
➢ 数据库或数据仓库服务器:根据用户的挖掘请
求,数据库或数据仓库服务器负责提取相关数 据。
➢ 知识库:是领域知识,用于指导搜索,或评估 结果模式的兴趣度。
面对海量数据库和大量繁杂信息,如何才能从中提取
有价值的知识,进一步提高信息的利用率,由此引发了一
个新的研究方向:基于数据库的知识发现(Knowledge
Discovery in Database)及相应的数据挖掘(Data
Mining)理论和技术的研究。
2020/5/9
2
为什么数据挖掘是重要的
数据的丰富带来了对强有力的数据分
2020/5/9
14
3. 按挖掘方法分类:包括统计方法,机器学习方法,神经 网络方法和数据库方法,其中:
➢ 统计方法可分为:回归分析(多元回归、自回归等), 判别分析(贝叶斯判别、费歇尔判别、非参数判别等), 聚类分析(系统聚类、动态聚类等),探索性分析(主 成分分析、相关分析等)等。
➢ 机器学习方法可分为:归纳学习方法(决策树、规则归 纳等),基于范例学习,遗传算法等。
析工具的需求。快速增长的海量数据收集
存放在大型和大量的数据库中,没有强有
力的工具,这些数据就变成了“数据坟
墓”——难得再访问的数据档案。因此数
据和信息之间的鸿沟要求系统地开发数据
挖掘工具,将数据坟墓转换成知识“金
块”。
2020/5/9
3
二、KDD与数据挖掘
2.1 KDD定义 人们给KDD下过很多定义,内涵也各不
相同,目前公认的定义是由Fayyad等人提 出的。
所谓基于数据库的知识发现(KDD)是指 从大量数据中提取有效的、新颖的、潜在 有用的、最终可被理解的模式的非平凡过 程。
2020/5/9
4
2.2 KDD过程
KDD是一个人机交互处理过程。该过程 需要经历多个步骤,并且很多决策需要由 用户提供。从宏观上看,KDD过程主要经 由三个部分组成,即数据整理、数据挖掘 和结果的解释评估。
2020/5/9
5
知识发现(KDD)的过程
解释/评估
数据挖掘
预处理 及变换
变换后的数据
数据清理筛选
目标数据
2020/5/9
6
数据
知识发现(KDD)的步骤
1. 数据准备:了解KDD应用领域的有关情况。包 括熟悉相关的知识背景,搞清用户需求。
2. 数据选取:数据选取的目的是确定目标数据, 根据用户的需要从原始数据库中选取相关数据 或样本。在此过程中,将利用一些数据库操作 对数据库进行相关处理。
一. 引言 二. KDD与数据挖掘 三. 数据挖掘方法 四. 数据挖掘的应用和发展趋势 五. 数据预处理 六. 可视化数据挖掘
2020/5/9
1
一、引言
什么激发了数据挖掘
近年来,数据挖掘引起了信息产业界的极大关注,其
主要原因是存在大量数据可以广泛使用,并且迫切需要将 这些数据转换成有用的信息和知识。获取的信息和知识可 以广泛应用于各种领域,如商务管理、生产控制、市场分 析、工程设计和科学探索等。
8. 模式解释:对在数据挖掘步骤中发现的模式 (知识)进行解释。通过机器评估剔除冗余或 无关模式,若模式不满足,再返回到前面某些 处理步骤中反复提取。
9. 知识评价:将发现的知识以用户能了解的方式 呈现给用户。其中也包括对知识一致性的检查, 以确信本次发现的知识不会与以前发现的知识 相抵触。
2020/5/9
5. 确定KDD目标:根据用户的要求,确定 KDD要发现的知识类型。
6. 选择算法:根据步骤5确定的任务,选择 合适的知识发现算法,包括选取合适的模 型和参数。
2020/5/9
8
7. 数据挖掘:这是整个KDD过程中很重要的一个 步骤。运用前面的选择算法,从数据库中提取 用户感兴趣的知识,并以一定的方式表示出来。
1. 按挖掘任务分类:包括分类或预测知识模型发 现,数据总结,数据聚类,关联规则发现,时
序模式发现,依赖关系或依赖模型发现,异常 和趋势发现等。
2. 按挖掘对象分类:包括关系数据库,面向对象 数据库,空间数据库,时态数据库,文本数据
库,多媒体数据库,异构数据库,数据仓库,
演绎数据库和Web数据库等。
2020/5/9
11
➢ 数据挖掘引擎:数据挖掘系统的基本部分,由
一组功能模块组成,用于特征化、关联、分类、 聚类分析以及演变和偏差分析。
➢ 模式评估模块:使用兴趣度量,并与数据挖掘
模块交互,以便将搜索聚焦在有趣的模式上, 可能使用兴趣度阈值过滤发现的模式。
➢ 图形用户界面:该模块在用户和数据挖掘系统 之间通信,允许用户与系统交互,指定数据挖
3. 数据预处理:对步骤2中选出的数据进行再处理, 检查数据的完整性及一致性,消除噪声及与数 据挖掘无关的冗余数据,根据时间序列和已知 的变化情况,利用统计等方法填充丢失的数据。
2020/5/9
7
4. 数据变换:根据知识发现的任务对经过预 处理的数据再处理,主要是通过投影或利 用数据库的其它操作减少数据量。
➢ 神经网络方法可以分为:前向神经网络(BP算法等), 自组织神经网络(自组织特征映射、竞争学习等)。
➢ 数据库方法分为:多为数据分析和OLAP技术,此外还 有面向属性的归纳方法。
2020/5/9
15
数据挖掘技术分类
数据挖掘
验证驱动挖掘
发现驱动挖掘
掘查询或任务,提供信息,帮助搜索聚焦,根 据数据挖掘的中间结果进行探索式数据挖掘。
2020/5/9
Fra Baidu bibliotek
12
数据挖掘系统结构
图形用户界面
模式评估
数据清理
数据挖掘引擎
数据库或数据仓库
服务器
数据集成
过滤
2020/5/9
数据库
数据仓库
知识库
13
三、数据挖掘方法
3.1 可以分别按挖掘任务、挖掘对象和挖掘方法来 分类。