数据挖掘1章引言
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
23
数据挖掘的过程
评价阶段:在数据挖掘中得到的模式可能是 没有实际意义或没有使用价值的,也有可能 不能准确反映数据的真实意义,甚至在某些 情况下是与事实相反的,因此需要评估,确 定哪些是有效的、有用的模式。评估可以根 据用户多年的经验,有些模式也可以直接用 数据来检验其准确性。
24
数据挖掘的过程
数据挖掘概念与技术
2012年11月
1
第1章 引言
本章要点
数据仓库的发展 数据挖掘 数据挖掘的类型 数据挖掘常用技术 数据挖掘解决的典型商业问题
2
数据仓库的发展
自从NCR公司为Wal Mart建立了第一个数据仓库。
1996年,加拿大的IDC公司调查了62家实现了数据 仓库的欧美企业,结果表明:数据仓库为企业提供了 巨大的收益。
得出这样的结果后,沃尔玛超市的工作人员尝试着将啤 酒和尿布摆放在一起销售,结果尿布与啤酒的销售额双 双增长。
从上面的例子不难看出,数据管理的主要目的是获取信 息和分析信息以指导我们的行动或帮助我们作决策。
14
数据挖掘
数据挖掘(Data Mining) :又称为数据库中的知 识发现,是基于AI、机器学习、统计学等技术,高 度自动化地分析原有的数据,进行归纳性推理,从数 据仓库或数据库中提取可信的、新颖的、有效的、人 们感兴趣的、能别人理解的知识的高级处理过程。这 些知识是隐含的、事先未知的有用信息,提取的知识 表现为概念、规则、模式、规律等形式,以帮助管理 者作出正确的决策。
因此,数据仓库的功能是支持管理层进行科学决策, 而不是事务处理。
10
数据仓库的技术要求
大量数据的组织和管理:包含了大量的历史数据, 它是从数据库中提取得来的,不必关心它的数据安 全性和数据完整性。
复杂分析的高性能体现:涉及大量数据的聚集、综 合等,在进行复杂查询时经常会使用多表的联接、 累计、分类、排序等操作。
Oracle公司: 则推出从数据仓库构建、OLAP到数据集 市管理等一系列产品包(如Oracle Warehouse Builder、Oracle Express、DataMart Suit等)。
5
数据仓库的我国的发展
现状:数据仓库的概念已经被国内用户接受多年, 但在应用方面的收效不理想
原因:
第一本关于数据挖掘的国际学术杂志《Data Mining and Knowledge Discovery》于1997年 3月创刊。
国内在这方面的研究起步比较晚,早期研究的方向 多集中于关联规则的挖掘,近来关于时序模式、分 类、聚类、WEB数据挖掘等的研究也日益受到重 视,并取得了不少可喜的成果,一些原型系统或数 据挖掘工具已经研制成功并在不断完善中。
巩固和运用阶段:用户理解的、并被认为是符合实际和 有价值的模式形成了知识。同时还要对知识进行一致性 检查,解决与以前得到的知识互相冲突、矛盾的地方, 使知识得到巩固。
运用知识有两种方法:一种是只需看知识本身所描述的 关系或结果,就可以对决策提供支持;另一种是要求运 用知识对新的数据进行分析,由此可能产生新的问题, 而需要对知识作进一步的优化。
由于银行商业化的步伐正在加大,各大中型银行在入世的 机遇和挑战下,开始重新考虑自身的业务,特别是信贷风 险管理方面特别注意,因而有关信贷风险管理和风险规章 的基于数据仓库的决策支持系统的需求逐渐增多;
由于电子商务的迅速发展,越来越多的电子商务网站,开 始考虑如何将数据仓库应用于商品销售分析、顾客的诚信 度分析等,为客户提供更进一步的个性化服务;
会议地点
提交 接受论文数 论文数
Detroit,Michigan,USA
29
69
Anaheim,California,
Baidu Nhomakorabea
USA
25
46
Washington,USA
28
40
Montreal,Canada
40
135
Portland,Oregon,USA
45
220
Singapore
35
97
Aug.1997
KDD97
数据的选择:选择相关的数据 数据的净化:消除噪音、冗余数据 数据的推测:推算缺失数据
数据的转化:离散值数据与连续值数据之间的相 互转换、数据值的分组分类、数据项之间的计算 组合等
数据的缩减:减少数据量
22
数据挖掘的过程
挖掘阶段:该阶段是数据挖掘的核心步 骤,也是技术难点所在。根据数据挖掘 的目标,采用人工智能、集合论、统计 学等方法,应用相应的数据挖掘算法, 分析数据并通过可视化工具表述所获得 的模式或规则。
现有的数据库系统不健全,数据积累还不够,无法提 出决策支持需求;
缺乏能够担负规划、设计、构建和维护数据仓库的重 任的复合型人才;
没很好使用数据仓库前端工具(如OLAP工具、数据 挖掘工具等)。
6
数据仓库的我国的发展
前景:随着计算机技术的发展,尤其是分布式技术 的发展, 数据仓库在我国有着广阔的发展空间和良 好的发展前景。例如:
如何有效使用数据库中存储的海量数据?
12
如何有效使用数据库中存储的海 量数据?
数据挖掘就是从大量的实际应用数据中,提取
隐含在其中的、人们事先不知道的但又可能有 用的信息和知识的过程。 数据挖掘的主要目的是提高市场决策能力,检 测异常模式,在过去的经验基础上预言未来趋 势等。 例如,通过对大量气象资料和销售资料的处理 及分析,德国的啤酒商发现,夏天气温每升高 1℃,就会增加230万瓶的啤酒销量;而日本人 则发现,夏季30℃以上的天气每增加一天,空 调的销量便增加4万台。
“数据挖掘”的称法大部分是由统计学家,数据分 析学家和MIS团体使用的,在数据库领域也得到 了广泛接受。
17
数据挖掘的发展
70~80年代:知识发现与数据挖掘结合
1989年6月:在美国底特律举行了第一届“从 数据库中知识发现”的国际学术会议,在这次 会议中第一次使用了KDD 这个词来强调“知识” 是数据驱动(data-driven)发现的最终结果。
解决方案。
3
数据仓库的发展
IBM: 在其DB2UDB发布一年后的1998年9月发布5.2 版,并于1998年12月推向中国市场,除了用于OLAP (联机分析处理)的后台服务器DB2 OLAP Server外, IBM还提供了一系列相关的产品,包括前端工具,形成 一整套解决方案。
Informix公司: 在其动态服务器IDS(Informix Dynamic Server)中提供一系列相关选件,如高级决 策支持选件(Advanced Decision Support Option)、OLAP选件(MetaCube ROLAP Option)、扩展并行选件(Extended Parallel Option)等,这种体系结构严谨、管理方便、索引机 制完善,并行处理的效率更高,其中数据仓库和数据库 查询的SQL语句的一致性使得用户开发更加简便。
数据挖掘是一门交叉性学科,它涉及到机器学习、 模式识别、统计学、智能数据库、知识获取、数 据可视化、高性能计算、专家系统等多个领域。 可广泛地应用于信息管理、过程控制、科学研究、 决策支持等许多方面。
16
数据挖掘的发展
“从数据中发现有用模式”历来有很多称法,如:
数据挖掘(data mining) 知识提取(knowledge extraction) 信息发现(information discovery) 信息收获(information harvesting) 数据考古(data archaeology) 数据模式处理(data pattern processing)
California,USA
Apr.1998
PAKDD98
Melbourne,Australia
19
数据挖掘的发展
数据挖掘技术的应用开发在国外已经迅速发展,许 多大公司(如Informix, Oracle, IBM等)都投入 了巨资对其进行研究,并开发出了一些产品和原型, 如DBMiner、Quest、EXPLORA等。
模式:它给出了数据特性或数据之间的关系,是对数 据所包含的信息更抽象的描述。模式按功能可以分为 预测型模式和描述型模式。在实际应用中,可以细分 为关联模式、分类模式、聚类模式和序列模式等。
15
数据挖掘
数据挖掘和数据仓库是作为两种独立的信息技术 出现的。它们都可以完成对决策过程的支持,并 且相互间有一定的内在联系。因此,将数据仓库 与数据挖掘集成到一个系统中将能够更有效地提 高系统的决策支持能力。
数据仓库是与操作型系统相分离的、基于标准企业 模型集成的、带有时间属性的、面向主题及不可更 新的数据集合。
W.H.Inmon对数据仓库所下的定义:数据仓库是
面向主题的、集成的、稳定的、随时间变化的数据
集合,用以支持管理决策的过程。
8
数据仓库的适用范围
信息源中的数据变化稳定 或可预测应用不需要最新的数据 或允许有延迟 应用要求有较高的查询性能
而降低精度要求
9
支持管理决策
数据仓库支持OLAP(联机分析处理)、数据挖掘和 决策分析。
OLAP从数据仓库中的综合数据出发,提供面向分析 的多维模型,并使用多维分析的方法从多个角度、多 个层次对多维数据进行分析,使决策者能够以更加自 然的方式来分析数据。
数据挖掘则以数据仓库和多维数据库中的数据为基础, 发现数据中的潜在模式和进行预测。
4
数据仓库的发展
微软公司: 在其SQL Server7.0以及SQL Server2000 中集成了代号为Plato的OLAP服务器。
Sybase: 提供了专门的OLAP服务器Sybase IQ,并将 其与数据仓库相关工具打包成Warehouse Studio 。
PLATINUM: 提出了由InfoPump(数据仓库建模与数 据加载工具)和Forest&Trees(前端报表工具)构成 的一套较有特色的整体方案。 ;
1995:加拿大召开第一届知识发现与数据挖掘 国际学术会议
18
时间
Jun.1989
Jul.1991
Jul.1993 1995
Aug.1996 Feb.1997
历届有关KDD的学术会议
会议名称
Workshop on KDD
Workshop on KDD
Workshop on KDD
KDD95 KDD96 PAKDD97
13
美国沃尔玛超市“啤酒与尿布”的故事
沃尔玛超市建立数据仓库,按周期统计产品的销售信 息,经过科学建模后提炼决策层数据。
发现每逢周末,位于某地区的沃尔玛超市连锁店的啤酒 和尿布的销售量很大,而且单张发票中同时购买尿布和 啤酒的记录非常普遍。
分析人员认为这并非偶然,经过深入分析得知,通常周 末购买尿布的是男士,他们在完成了太太交给的任务后, 经常会顺便买一些啤酒。
对提取出来的数据进行集成:数据仓库中的数据是 从多个应用领域中提取出来的,在不同的应用领域 和不同的数据库系统中都有不同的结构和形式,所 以如何对数据进行集成也是构建数据仓库的一个重 要方面。
对进行高层决策的最终用户的界面支持:提供各种 分析应用工具。
11
随着数据库技术的不断发展及数据库管 理系统的广泛应用,数据库中存储的数据 量急剧增大,在大量的数据背后隐藏着许 多重要的信息。
如移动通信等各大型企业也开始考虑着手进行决策支持以 及数据仓库规划。
7
数据仓库(Data Warehouse)的定义
数据仓库用来保存从多个数据库或其它信息源选取 的数据, 并为上层应用提供统一 用户接口,完成数 据查询和分析。
数据仓库是作为DSS服务基础的分析型DB,用来 存放大容量的只读数据,为制定决策提供所需要的 信息。
早期的数据仓库:大都 客户/服务器结构。
近年来:数据仓库体系结构从功能上划分为若干个分 布式对象,可以直接用于建立数据仓库,还可以在应 用程序中向用户提供调用的接口。
IBM的实验室在数据仓库方面已经进行了10多年的研 究,并将研究成果发展成为商用产品。
其他数据库厂商在数据仓库领域也纷纷提出了各自的
20
DM系统的体系结构 用户界面
结果输出
(1)DW 的步骤: 数据准备: 数据集成 数据选择 预分析 挖掘 表述 评价
数据挖掘核心
知识库
(2)DW 系统的结构:
ODBC或其他专用数据库接口
数据仓库
数据库 文件系统
其他
数据源
21
数据挖掘的过程
数据准备阶段:经过处理过的数据一般存储 在数据仓库中。数据准备是否做得充分将影 响到数据挖掘的效率和准确度以及最终模式 的有效性。包括:
数据挖掘的过程
评价阶段:在数据挖掘中得到的模式可能是 没有实际意义或没有使用价值的,也有可能 不能准确反映数据的真实意义,甚至在某些 情况下是与事实相反的,因此需要评估,确 定哪些是有效的、有用的模式。评估可以根 据用户多年的经验,有些模式也可以直接用 数据来检验其准确性。
24
数据挖掘的过程
数据挖掘概念与技术
2012年11月
1
第1章 引言
本章要点
数据仓库的发展 数据挖掘 数据挖掘的类型 数据挖掘常用技术 数据挖掘解决的典型商业问题
2
数据仓库的发展
自从NCR公司为Wal Mart建立了第一个数据仓库。
1996年,加拿大的IDC公司调查了62家实现了数据 仓库的欧美企业,结果表明:数据仓库为企业提供了 巨大的收益。
得出这样的结果后,沃尔玛超市的工作人员尝试着将啤 酒和尿布摆放在一起销售,结果尿布与啤酒的销售额双 双增长。
从上面的例子不难看出,数据管理的主要目的是获取信 息和分析信息以指导我们的行动或帮助我们作决策。
14
数据挖掘
数据挖掘(Data Mining) :又称为数据库中的知 识发现,是基于AI、机器学习、统计学等技术,高 度自动化地分析原有的数据,进行归纳性推理,从数 据仓库或数据库中提取可信的、新颖的、有效的、人 们感兴趣的、能别人理解的知识的高级处理过程。这 些知识是隐含的、事先未知的有用信息,提取的知识 表现为概念、规则、模式、规律等形式,以帮助管理 者作出正确的决策。
因此,数据仓库的功能是支持管理层进行科学决策, 而不是事务处理。
10
数据仓库的技术要求
大量数据的组织和管理:包含了大量的历史数据, 它是从数据库中提取得来的,不必关心它的数据安 全性和数据完整性。
复杂分析的高性能体现:涉及大量数据的聚集、综 合等,在进行复杂查询时经常会使用多表的联接、 累计、分类、排序等操作。
Oracle公司: 则推出从数据仓库构建、OLAP到数据集 市管理等一系列产品包(如Oracle Warehouse Builder、Oracle Express、DataMart Suit等)。
5
数据仓库的我国的发展
现状:数据仓库的概念已经被国内用户接受多年, 但在应用方面的收效不理想
原因:
第一本关于数据挖掘的国际学术杂志《Data Mining and Knowledge Discovery》于1997年 3月创刊。
国内在这方面的研究起步比较晚,早期研究的方向 多集中于关联规则的挖掘,近来关于时序模式、分 类、聚类、WEB数据挖掘等的研究也日益受到重 视,并取得了不少可喜的成果,一些原型系统或数 据挖掘工具已经研制成功并在不断完善中。
巩固和运用阶段:用户理解的、并被认为是符合实际和 有价值的模式形成了知识。同时还要对知识进行一致性 检查,解决与以前得到的知识互相冲突、矛盾的地方, 使知识得到巩固。
运用知识有两种方法:一种是只需看知识本身所描述的 关系或结果,就可以对决策提供支持;另一种是要求运 用知识对新的数据进行分析,由此可能产生新的问题, 而需要对知识作进一步的优化。
由于银行商业化的步伐正在加大,各大中型银行在入世的 机遇和挑战下,开始重新考虑自身的业务,特别是信贷风 险管理方面特别注意,因而有关信贷风险管理和风险规章 的基于数据仓库的决策支持系统的需求逐渐增多;
由于电子商务的迅速发展,越来越多的电子商务网站,开 始考虑如何将数据仓库应用于商品销售分析、顾客的诚信 度分析等,为客户提供更进一步的个性化服务;
会议地点
提交 接受论文数 论文数
Detroit,Michigan,USA
29
69
Anaheim,California,
Baidu Nhomakorabea
USA
25
46
Washington,USA
28
40
Montreal,Canada
40
135
Portland,Oregon,USA
45
220
Singapore
35
97
Aug.1997
KDD97
数据的选择:选择相关的数据 数据的净化:消除噪音、冗余数据 数据的推测:推算缺失数据
数据的转化:离散值数据与连续值数据之间的相 互转换、数据值的分组分类、数据项之间的计算 组合等
数据的缩减:减少数据量
22
数据挖掘的过程
挖掘阶段:该阶段是数据挖掘的核心步 骤,也是技术难点所在。根据数据挖掘 的目标,采用人工智能、集合论、统计 学等方法,应用相应的数据挖掘算法, 分析数据并通过可视化工具表述所获得 的模式或规则。
现有的数据库系统不健全,数据积累还不够,无法提 出决策支持需求;
缺乏能够担负规划、设计、构建和维护数据仓库的重 任的复合型人才;
没很好使用数据仓库前端工具(如OLAP工具、数据 挖掘工具等)。
6
数据仓库的我国的发展
前景:随着计算机技术的发展,尤其是分布式技术 的发展, 数据仓库在我国有着广阔的发展空间和良 好的发展前景。例如:
如何有效使用数据库中存储的海量数据?
12
如何有效使用数据库中存储的海 量数据?
数据挖掘就是从大量的实际应用数据中,提取
隐含在其中的、人们事先不知道的但又可能有 用的信息和知识的过程。 数据挖掘的主要目的是提高市场决策能力,检 测异常模式,在过去的经验基础上预言未来趋 势等。 例如,通过对大量气象资料和销售资料的处理 及分析,德国的啤酒商发现,夏天气温每升高 1℃,就会增加230万瓶的啤酒销量;而日本人 则发现,夏季30℃以上的天气每增加一天,空 调的销量便增加4万台。
“数据挖掘”的称法大部分是由统计学家,数据分 析学家和MIS团体使用的,在数据库领域也得到 了广泛接受。
17
数据挖掘的发展
70~80年代:知识发现与数据挖掘结合
1989年6月:在美国底特律举行了第一届“从 数据库中知识发现”的国际学术会议,在这次 会议中第一次使用了KDD 这个词来强调“知识” 是数据驱动(data-driven)发现的最终结果。
解决方案。
3
数据仓库的发展
IBM: 在其DB2UDB发布一年后的1998年9月发布5.2 版,并于1998年12月推向中国市场,除了用于OLAP (联机分析处理)的后台服务器DB2 OLAP Server外, IBM还提供了一系列相关的产品,包括前端工具,形成 一整套解决方案。
Informix公司: 在其动态服务器IDS(Informix Dynamic Server)中提供一系列相关选件,如高级决 策支持选件(Advanced Decision Support Option)、OLAP选件(MetaCube ROLAP Option)、扩展并行选件(Extended Parallel Option)等,这种体系结构严谨、管理方便、索引机 制完善,并行处理的效率更高,其中数据仓库和数据库 查询的SQL语句的一致性使得用户开发更加简便。
数据挖掘是一门交叉性学科,它涉及到机器学习、 模式识别、统计学、智能数据库、知识获取、数 据可视化、高性能计算、专家系统等多个领域。 可广泛地应用于信息管理、过程控制、科学研究、 决策支持等许多方面。
16
数据挖掘的发展
“从数据中发现有用模式”历来有很多称法,如:
数据挖掘(data mining) 知识提取(knowledge extraction) 信息发现(information discovery) 信息收获(information harvesting) 数据考古(data archaeology) 数据模式处理(data pattern processing)
California,USA
Apr.1998
PAKDD98
Melbourne,Australia
19
数据挖掘的发展
数据挖掘技术的应用开发在国外已经迅速发展,许 多大公司(如Informix, Oracle, IBM等)都投入 了巨资对其进行研究,并开发出了一些产品和原型, 如DBMiner、Quest、EXPLORA等。
模式:它给出了数据特性或数据之间的关系,是对数 据所包含的信息更抽象的描述。模式按功能可以分为 预测型模式和描述型模式。在实际应用中,可以细分 为关联模式、分类模式、聚类模式和序列模式等。
15
数据挖掘
数据挖掘和数据仓库是作为两种独立的信息技术 出现的。它们都可以完成对决策过程的支持,并 且相互间有一定的内在联系。因此,将数据仓库 与数据挖掘集成到一个系统中将能够更有效地提 高系统的决策支持能力。
数据仓库是与操作型系统相分离的、基于标准企业 模型集成的、带有时间属性的、面向主题及不可更 新的数据集合。
W.H.Inmon对数据仓库所下的定义:数据仓库是
面向主题的、集成的、稳定的、随时间变化的数据
集合,用以支持管理决策的过程。
8
数据仓库的适用范围
信息源中的数据变化稳定 或可预测应用不需要最新的数据 或允许有延迟 应用要求有较高的查询性能
而降低精度要求
9
支持管理决策
数据仓库支持OLAP(联机分析处理)、数据挖掘和 决策分析。
OLAP从数据仓库中的综合数据出发,提供面向分析 的多维模型,并使用多维分析的方法从多个角度、多 个层次对多维数据进行分析,使决策者能够以更加自 然的方式来分析数据。
数据挖掘则以数据仓库和多维数据库中的数据为基础, 发现数据中的潜在模式和进行预测。
4
数据仓库的发展
微软公司: 在其SQL Server7.0以及SQL Server2000 中集成了代号为Plato的OLAP服务器。
Sybase: 提供了专门的OLAP服务器Sybase IQ,并将 其与数据仓库相关工具打包成Warehouse Studio 。
PLATINUM: 提出了由InfoPump(数据仓库建模与数 据加载工具)和Forest&Trees(前端报表工具)构成 的一套较有特色的整体方案。 ;
1995:加拿大召开第一届知识发现与数据挖掘 国际学术会议
18
时间
Jun.1989
Jul.1991
Jul.1993 1995
Aug.1996 Feb.1997
历届有关KDD的学术会议
会议名称
Workshop on KDD
Workshop on KDD
Workshop on KDD
KDD95 KDD96 PAKDD97
13
美国沃尔玛超市“啤酒与尿布”的故事
沃尔玛超市建立数据仓库,按周期统计产品的销售信 息,经过科学建模后提炼决策层数据。
发现每逢周末,位于某地区的沃尔玛超市连锁店的啤酒 和尿布的销售量很大,而且单张发票中同时购买尿布和 啤酒的记录非常普遍。
分析人员认为这并非偶然,经过深入分析得知,通常周 末购买尿布的是男士,他们在完成了太太交给的任务后, 经常会顺便买一些啤酒。
对提取出来的数据进行集成:数据仓库中的数据是 从多个应用领域中提取出来的,在不同的应用领域 和不同的数据库系统中都有不同的结构和形式,所 以如何对数据进行集成也是构建数据仓库的一个重 要方面。
对进行高层决策的最终用户的界面支持:提供各种 分析应用工具。
11
随着数据库技术的不断发展及数据库管 理系统的广泛应用,数据库中存储的数据 量急剧增大,在大量的数据背后隐藏着许 多重要的信息。
如移动通信等各大型企业也开始考虑着手进行决策支持以 及数据仓库规划。
7
数据仓库(Data Warehouse)的定义
数据仓库用来保存从多个数据库或其它信息源选取 的数据, 并为上层应用提供统一 用户接口,完成数 据查询和分析。
数据仓库是作为DSS服务基础的分析型DB,用来 存放大容量的只读数据,为制定决策提供所需要的 信息。
早期的数据仓库:大都 客户/服务器结构。
近年来:数据仓库体系结构从功能上划分为若干个分 布式对象,可以直接用于建立数据仓库,还可以在应 用程序中向用户提供调用的接口。
IBM的实验室在数据仓库方面已经进行了10多年的研 究,并将研究成果发展成为商用产品。
其他数据库厂商在数据仓库领域也纷纷提出了各自的
20
DM系统的体系结构 用户界面
结果输出
(1)DW 的步骤: 数据准备: 数据集成 数据选择 预分析 挖掘 表述 评价
数据挖掘核心
知识库
(2)DW 系统的结构:
ODBC或其他专用数据库接口
数据仓库
数据库 文件系统
其他
数据源
21
数据挖掘的过程
数据准备阶段:经过处理过的数据一般存储 在数据仓库中。数据准备是否做得充分将影 响到数据挖掘的效率和准确度以及最终模式 的有效性。包括: