第五章 数据挖掘

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

CH5
3.数据挖掘与传统分析方法的区别
DM与传统数据分析(如查询、报表、联
机应用分析)的本质区别是: DM是在没有明确假设的前提下去挖掘
信息、发现知识;
DM所得到的信息应具有预先未知、有 效和可实用三个特征。
CH5
4.数据挖掘和数据仓库 大部分情况下,数据挖掘都要先把数据从 数据仓库中拿到数据挖掘库或数据集市中(见 下图)。
CH5
1.背景 人类已进入一个崭新的信息时代; 数据库中存储的数据量急剧膨胀;
需从海量数据库和大量繁杂信息中提 取有价值的知识,以提高信息的利用率; 产生了一个新的研究方向:数据库中 的知识发现(KDD,Knowledge Discovery in Database),以及相应的数据挖掘(DM,Data Mining)理论和技术的研究;
CH5
研究分析工具 该种工具为用户提供了更大的数据挖掘 应用的空间,包含了数据挖掘领域的最新研 究成果,如文本挖掘、 WEB挖掘及可视化工 具等。 基于挖掘技术的分类 —— 包括四种:基于神经网络的工具; 基于规则和决策树的工具;基于模糊逻辑的 工具;综合性数据挖掘工具。
CH5
基于应用范围的分类
CH5
5.数据挖掘和在线分析处理(OLAP) 传统的查询和报表工具是告诉你数据 库中都有什么; OLAP 则告诉你下一步会怎么样,或者 如果采取这样的措施又会怎么样——用户首先 建立一个假设,然后用 OLAP 检索数据库来验 证这个假设是否正确; DM不是用于验证某个假定的模式(模 型)的正确性,而是在数据库中自己寻找模 型——其本质上是一个归纳的过程;
数据源 数据仓库
各分公司 数据集市


数据挖掘 数据集市
数据集市
CH5
从数据仓库中直接得到进行数据挖掘 的数据有许多好处:数据仓库的数据清理和数 据挖掘的数据清理差不多,如果数据在导入数 据仓库时已经清理过,那很可能在做数据挖掘 时就没必要再清理一次,而且所有的数据不一 致的问题都已经解决。 数据挖掘库可能是数据仓库的一个逻 辑上的子集,而不一定非得是物理上单独的数 据库。但,如果数据仓库的计算资源已经很紧 张,那最好还是建立一个单独的数据挖掘库。
专用型数据挖掘工具
——针对某一特定领域。 通用型数据挖掘工具 ——不考虑挖掘对象的实际意义,只提 供各种挖掘算法,用户可自定义数据源进行 多模式挖掘。如 IBM的IM,SPSS的SPSS以及 Red Brick的Red Brick等。
CH5
§2 数据挖掘的定义 1.技术上的定义及含义 2.商业角度的定义
CH5
2.网络之后的下一个技术热点 大量信息在给人们带来方便的同时也带来 了一大堆问题: 信息过量,难以消化; 信息真假难以辨识; 信息安全难以保证; 信息形式不一致,难以统一处理等。 面对这一挑战,数据挖掘和知识发现技术 (DMKD)应运而生,并显示出强大的生命力。
CH5
3.数据爆炸但知识贫乏 随着数据库技术的迅速发展以及数据库管 理系统的广泛应用,应用中积累的数据越来越 多。 目前的数据库系统可高效地实现数据的录 入、查询、统计等功能,但无法发现数据中存 在的关系和规则,无法根据现有的数据预测未 来的发展趋势,缺乏挖掘数据背后隐藏的知识 的手段,导致出现了“数据爆炸但知识贫乏” 的现象。
CH5
4.支持数据挖掘技术的基础 DM使DB技术进入了一个更高的阶段,它不 仅能对过去的数据进行查询和遍历,并且能够 找出过去数据之间的潜在联系,从而促进信息 的传递。现在DM技术在商业应用中已经可以马 上投入使用,因为对这种技术进行支持的三种 基础技术已经发展成熟: 海量数据搜集 强大的多处理器计算机 数据挖掘算法
CH5 KDD泛指所有从源数据中发掘模式或联
系的方法,用来描述整个DM的过程,包括最开 始的制定业务目标到最终的结果分析; DM用来描述使用挖掘算法进行数据挖掘 的子过程; 最近人们逐渐开始把统计方法用于DM中 的许多工作,并认为最好的策略是将统计方法 与DM有机的结合起来; 数据仓库技术的发展与DM有着密切的关 系,是促进DM越来越热的原因之一。但数据仓 库并不是DM的先决条件,因为有很多DM可直接 从数据源中挖掘信息。
CH5
若干说明: 知识——概念、规则、模式、规律和 约束等。 数据——是形成知识的源泉。原始数 据可以是结构化的,如RDB中的数据;也可是 半结构化的,如文本、图形数据;甚至是分 布在网络上的异构型数据。 发现知识的方法可以是数学的,也可 以是非数学的;可以是演绎的,也可以是归 纳的。
其中,第四步进化是革 Oracle “ 在新英格兰的 关系数据库 (RDBMS) 命性的,因为从用户的角度 Sybase 分部去年三月的 结构化查询语言 Informix 销售额是多少? (SQL) 来看,这一阶段的数据库技 IBM ” ODBC Microsoft 术已经可以快速地回答商业 “在新英格兰的 Pilot 分部去年三月的 联机分析处理(OLAP) Comshare 上的很多问题了。 销售额是多少? 多维数据库 Arbor
CH5
5.从商业数据到商业信息的进化
进化阶段 数据搜集 (6Байду номын сангаас年代) 商业问题 支持技术 产品厂家 IBM CDC 产品特点 提供历史性的、 静态的数据信息 在记录级提供历 史性的、动态数 据信息 “过去五年中我 的总收入是多少 计算机、磁带和磁盘 ?”
数据访问 (80年代)
数据仓库 决策支持 (90年代)
CH5
1.广义知识(Generalization) 广义知识指类别特征的概括性描述知识。 根据数据的微观特性发现其表征的、带有普遍 性的、较高层次概念的、中观和宏观的知识, 反映同类事物共同性质,是对数据的概括、精 炼和抽象。 广义知识的发现方法和实现技术有很多, 如数据立方体、面向属性的归约等。
CH5
随着大数据库的建立和海量数据的不 断涌现,出现了“数据十分丰富,而信息相当 贫乏”的现象,所以,迫切需求强有力的数据 分析工具; 快速增长的海量数据存在大型数据库 中,没有强有力的工具,理解它们已远远超出 人的能力。故,有人称之为:“数据坟墓”; 由于ES 过分依赖用户或专家人工地将 知识输入KB中,而且分析结果往往带有偏差和 错误,再加上耗时、费用高,故不可行。
第五章 数据挖掘
§1 引言
§2 数据挖掘的定义
§3 数据挖掘的内容和本质
§4 数据挖掘的功能
§5 数据挖掘的流程
§6 关联规则挖掘方法
CH5
§1 引言 1.背景 2.网络之后的下一个技术热点 3.数据爆炸但知识贫乏 4.支持数据挖掘技术的基础 5.从商业数据到商业信息的进化 6.KDD的出现 7.数据挖掘的分类 8.数据挖掘工具
CH5
当然,为了数据挖掘也不必非得建立 一个数据仓库,数据仓库不是必需的。 建立一个巨大的数据仓库,把各个不同 源的数据统一在一起,解决所有的数据冲突 问题,然后把所有的数据导到一个数据仓库 内,是一项巨大的工程,可能要用几年的时 间花上百万的钱才能完成。 把一个或几个事务数据库导到一个只读 的数据库中,就把它当作数据集市,然后在 它上面进行数据挖掘。
CH5
§3 数据挖掘的内容和本质 随着DMKD研究逐步走向深入,其研究工作 已经形成了三根强大的技术支柱:DB、AI和数 理统计。 DMKD的主要研究内容包括基础理论、发现 算法、数据仓库、可视化技术、定性定量互换 模型、知识表示方法、发现知识的维护和再利 用、半结构化和非结构化数据中的知识发现以 及网上数据挖掘等。 DM所发现的知识最常见的有以下五类:
CH5
6.KDD的出现 数据库中的知识发现(KDD)一词,首次 出现在1989年举行的第十一届AAAI学术会议 上。 1995年在加拿大蒙特利尔召开了第一届 KDD国际学术会议(KDD’95)。 由Kluwers Publishers出版,1997年创刊的 《Knowledge Discovery and Data Mining》 是该 领域中的第一本学术刊物。
波士顿据此可得 出什么结论?” 数据仓库 Cognos Microstrategy 高级算法 多处理器计算机 海量数据库
在各种层次上提 供回溯的、动态 的数据信息
“下个月波士顿 数据挖掘 的销售会怎么样 (正在流行) ?为什么?”
Pilot Lockheed 提供预测性的信 IBM,SGI 息 其他初创公司
CH5
DM和OLAP具有一定的互补性—— 在利 用DM得出的结论采取行动之前,也许要验证如 果采取这样的行动,会给公司带来什么样的影 响,那么OLAP工具能回答这些问题; 在知识发现的早期阶段,OLAP 工具还 有其他用途——可以帮助探索数据,找到哪些 是对一个问题比较重要的变量、发现异常数据 和互相影响的变量。这都能帮你更好的理解数 据,加快知识发现的过程。
CH5
7.数据挖掘的分类 数据挖掘是多学科的产物,如下图所示:
数据库技术 统计学
机器学习
数据挖掘
可视化
人工智能
高性能计算
CH5
一般,数据挖掘可以分为以下三类:
传统分析类
相应的数据挖掘模型主要包括: 利用这些模型,可以检查 并解释那些异常数据,给出隐 线性分析和非线性分析 回归分析 含在这些数据内的市场规律和 逻辑回归分析 变量分析 商业机会。 多变量分析 时间序列分析
CH5
2.商业角度的定义 ——数据挖掘是一种新的商业信息处理技 术,其主要特点是对商业数据库中的大量业务 数据进行抽取、转换、分析以及其他模型化处 理,从中提取辅助商业决策的关键性数据。 因此,从企业的角度讲,数据挖掘可描述 为:按企业既定业务目标,对大量的企业数据 进行探索和分析,揭示隐藏的、未知的或验证 已知的规律性,并进一步将其模型化的先进有 效的方法。
CH5
6.数据挖掘、机器学习和统计分析
人工智能(AI)和统计分析都致力于
模式发现和预测 ;
DM不是替代传统的统计分析技术,而
是统计分析方法学的延伸和扩展; 大多统计分析技术都基于完善的数学 理论, 预测的准确度令人满意,但对使用者 的要求很高;
CH5
一些AI技术,如,神经元网络和决策 树,在足够多的数据和计算能力下,几乎能 自动完成许多有价值的知识发现功能; DM就是利用了统计和人工智能技术的 应用程序,它把这些高深复杂的技术封装起 来,使人们不用自己掌握这些技术也能完成 同样的功能,并且更专注于自己所要解决的 问题。
3.数据挖掘与传统分析方法的区别
4.数据挖掘和数据仓库 5.数据挖掘和在线分析处理(OLAP) 6.数据挖掘、机器学习和统计分析
CH5
1.技术上的定义及含义 —— DM 就是从大量的、不完全的、有噪 声的、模糊的、随机的实际应用数据中,提取 隐含在其中的、人们事先不知道的、但又是潜 在有用的信息和知识的过程。 这个定义包括以下几层含义:数据源必须 是真实的、大量的、含噪声的;发现的是用户 感兴趣的知识;发现的知识要可接受、可理解、 可运用;并不要求发现放之四海皆准的知识, 仅支持特定的发现问题。
最邻近算法
聚类分析等
CH5
知识发现类
知识发现类有别于传统分析类——它可
以从数据仓库的大量数据中筛选信息,寻找
并发掘人们所不知道的事实和规律。
主要包括:
人工神经网络
遗传算法 关联规则等
决策树
粗糙集
CH5
新近出现的挖掘技术 主要包括: 文本数据挖掘——针对非结构化信息; Web数据挖掘——针对大批量网络信息; 可视化系统——分为数据可视化、挖掘 过程可视化、结果可视 化和交互式数据可视化; 空间数据挖掘——基于GIS的数据挖掘; 分布式数据挖掘——基于分布式DB的数据 挖掘。
CH5
8.数据挖掘工具 一般,数据挖掘工具可以从使用方式、 挖掘技术和应用范围进行分类。 基于使用方式的分类 —— 包括三种 决策方案生成工具 ——针对某个特定行业或特定问题而开 发的一类挖掘工具,如,金融业的欺诈检查 工具,零售业的客户流失分析工具等。
CH5
商业分析工具
包含“黑箱”式的和“非黑箱式的”两 类 。 前者,用户把分析对象及环境因素提供 给工具,工具将自动给出结果(不展示内部 的复杂模型);后者则把数据挖掘模型展示 给用户,用户可以选择挖掘模型以及适当地 控制模型(如决策树)。 前者适用于管理人员;后者适用于管理 顾问或商业分析人员。
相关文档
最新文档