数据挖掘概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7.2.6 组件化思想的应用(续)
三个著名的数据挖掘算法组件
Apriori
任务 模型(模式) 评分函数 搜素方法 数据管理策略
2015-4-20
ID3
分类 决策树 分类准确度 信息增益 贪婪搜素 未指定
K-Means
聚类 聚类 误差平方和 梯度下降 未指定
38
规则模式发现 关联规则 支持度/置信度
从数据分析的深度的角度来看,OLAP位于 较浅的层次,数据挖掘所处的位置较深。
2015-4-20 17
7.1.3 数据挖掘与OLAP(续)
数据库系统或数据仓库系统的工具层大致可以分为 三类:
以MIS为代表的查询报表类工具。
以OLAP为代表的验证型工具。
以数据挖掘为代表的挖掘型工具。
3. 根据所用的技术分类
根据所用的技术分类:机器学习、统计分析、模式 识别、神经网络、...
2015-4-20
23
4. 根据数据挖掘的应用领域分类
根据应用领域分类:财政、电信、股票、保险、...
2015-4-20
24
7.1.6 数据挖掘的应用
数据挖掘技术的应用非常广泛,目前的主要应用领 域有:
知识的过程,通过数据挖掘,有价值的知识、规则
或高层次的信息就可以从数据库或相关数据集合中 抽取出来,并从不同的角度显示,从而使大型数据
库和数据仓库称为一个丰富可靠的数据资源,为决
2015-4-20
策服务。
3
7.1 数据挖掘简介(续)
数据挖掘(Data Mining) :又称为数据库中的知 识发现,是基于AI、机器学习、统计学等技术, 高度自动化地分析原有的数据,进行归纳性推理, 从数据仓库或数据库中提取可信的、新颖的、有效 的、人们感兴趣的、能别人理解的知识的高级处理 过程。 这些知识必须具有实际应用价值,是隐含的、事先 未知的有用信息,提取的知识表现为概念、规则、
2015-4-20
数据管理策略
31
Βιβλιοθήκη Baidu
7.2.1 模型和模式结构
通过数据挖掘过程所得到的知识成为模型或模式。 模型是对整个数据集的高层次、全局性的描述和总 结。 有关模型
线性回归模型
层次聚类模型 频繁序列模式
模型和模式之间有时没有明确的界限。
2015-4-20 32
7.2.2 数据挖掘的任务
动(data-driven)发现的最终结果。 1995:加拿大召开第一届知识发现与数据挖掘国际 学术会议。
2015-4-20 10
7.1.2 数据挖掘与KDD(续)
历届有关KDD的学术会议 :
时间 Jun.1989 Jul.1991 会议名称 Workshop on KDD Workshop on KDD 会议地点 Detroit,Michigan,USA Anaheim,California, USA 接受论文数 29 25 提交 论文数 69 46
尽管数据挖掘与 OLAP 存在差异,但作为数 据仓库系统工具层的组成部分,两者相辅相 成。
2015-4-20 18
7.1.4 数据挖掘与数据仓库
数据挖掘时,数据挖掘工具都要先把数据从数据仓 库中取到数据挖掘库或数据集市中。
数据仓库的数据清理和数据挖掘的数据清理差不多。
数据挖掘库是数据仓库的一个逻辑上的子集。
根据所处理的数据的特定类型分类:有空间的、时
间序列的、文本的、多媒体的、...
2015-4-20
21
2. 根据挖掘的知识类型分类
根据挖掘的知识类型分类:特征分析、关联分析、 分类分析、聚类分析、...
根据挖掘的知识的粒度或抽象级别分类:有泛化知
识、原始层知识、...
2015-4-20
22
宽度优先(带剪 枝)
未指定
小结
掌握数据挖掘特点。 理解和掌握数据挖掘与KDD、OLAP、数据仓库之
2015-4-20
16
7.1.3 数据挖掘与OLAP
传统的数据库工具(交互查询工具、报表生成器 等):属于操作型工具。 数据挖掘与OLAP:属于分析型工具。 数据挖掘与OLAP的主要区别: 数据挖掘是一种有效地从大量数据中发现潜在数据 模式、作出预测的分析工具。 OLAP是一种从上至下、不断深入的分析工具,是 一种验证型分析工具。
模式、规律等形式,以帮助管理者作出正确的决策。
2015-4-20 4
7.1 数据挖掘简介(续)
数据挖掘的应用基础 :数据挖掘技术是人们长期对 数据库技术进行研究和开发的结果。起初各种商业 数据是存储在计算机的数据库中的,然后发展到可 对数据库进行查询和访问,进而发展到对数据库的 即时遍历。 数据挖掘使数据库技术进入了一个更高级的阶段, 它不仅能对过去的数据进行查询和遍历,并且能够 找出过去数据之间的潜在联系,从而促进信息的传
Jul.1993
1995 Aug.1996
Workshop on KDD
KDD95 KDD96
Washington,USA
Montreal,Canada Portland,Oregon,USA
28
40 45
40
135 220
Feb.1997
Aug.1997 Apr.1998
2015-4-20
PAKDD97
数据仓库与数据挖掘
Data Warehouse and Data Mining
五邑大学计算机学院
何国辉
2015-4-20
1
数据仓库与数据挖掘
Data Warehouse and Data Mining
第七章 数据挖掘概述
2015-4-20 2
7.1 数据挖掘简介
数据挖掘(Data Mining) :是从大量的、不完全 的、有噪声的、模糊的、随机的数据中,提取隐含 在其中的、人们事先不知道的、但又是潜在有用的 信息和知识的过程。 简单地说:数据挖掘是从大量数据中提取或“挖掘”
2015-4-20
30
7.2 数据挖掘算法的组件化思想
数据挖掘算法的组件化思想,是用来帮助那些 刚刚 接触数据挖掘的初学者从更高的层面系统地掌握各 种纷繁复杂的数据挖掘算法。 许多著名的数据挖掘算法都由 5 个“标准组件”构 成:
模型或模式结构
数据挖掘任务 评分函数
搜索和优化方法
KDD97 PAKDD98 KDD98
Singapore
California,USA Melbourne,Australia New York,USA
35
97
Aug.1998
11
7.1.2 数据挖掘与KDD(续)
数据挖掘既可以理解为术语,也可理解为KDD的一 个步骤。
KDD是一个以知识使用者为中心,人机交互的探索
2015-4-20 14
7.1.2 数据挖掘与KDD(续)
按照数据挖掘作为KDD的一个步骤理解,可用下图 表示。
模式评估 数据挖掘 任务相关数据
数据仓库
数据清理 数据集成
2015-4-20
选择
15
数据库
7.1.2 数据挖掘与KDD(续)
数据挖掘与KDD的区别: KDD是应用特定的数据挖掘算法抽取有价值的知识 模式,并进行评价和解释的一个反复循环过程。 数据挖掘只是这一过程中的一个特定步骤。
优化方法:针对特定的模型,发现其最佳参数值的 过程。
2015-4-20 35
7.2.5 数据管理策略
传统的统计和机器学习算法都假定数据是可以全部 放入内存处理。
数据挖掘中的数据往往达到GB甚至TB数量级。
处理过程必然涉及到对外存数据的访问。传统算法
效果受到影响。
针对海量数据,需要设计有效的数据组织和索引技 术。
2015-4-20 13
7.1.2 数据挖掘与KDD(续)
模式评估:根据用户提供的指标,对挖掘出来的模 式进行评估。
知识表示:使用可视化和知识表示技术,向用户提 供容易理解的挖掘到的知识。
挖掘阶段是 KDD 核心步骤,也是技术难点 所在。根据数据挖掘的目标,采用人工智能、 集合论、统计学等方法,应用相应的数据挖 掘算法,分析数据并通过可视化工具表述所 获得的模式或规则。
顾客购买行为和习惯分析 商场商品销售构成分析 商品销售预测、价格分析
2015-4-20
28
4. 科学研究
社会发展规律研究 人口预测 ...
2015-4-20
29
5. 其它领域
医疗:病例、病人行为特征分析 司法:案件调查、犯罪监控 工业部门:故障诊断、生产过程优化
评分函数:用来对数据集与模型(模式)的拟合程
度进行评估。
2015-4-20
34
7.2.4 搜素和优化方法
搜素和优化的目标是确定模型(模式)的结构及其 参数值,以使评分函数达到最小值(或最大值)。
搜素问题:从潜在的模型(模式)族中发现最佳模
型(模式)结构的过程。搜素涉及结构空间和参数
空间。
金融业
保险业
零售业
科学研究
其它领域(医疗、司法、工业部门)
2015-4-20 25
1. 金融业
对账户进行信用等级评估 分析信用卡使用模式 ...
2015-4-20
26
2. 保险业
保险金确定 险种关联分析 顾客险种购买行为分析
2015-4-20
27
3. 零售业
递。
2015-4-20 5
7.1 数据挖掘简介(续)
数据挖掘的技术基础: 海量数据搜集 强大的多处理器计算机 数据挖掘算法
2015-4-20
6
7.1.1 数据挖掘的特点
数据挖掘具有以下特点: ① 数据挖掘的数据源必须是真实的。所处理的数据时 已经存在的真实数据。 ② 数据挖掘处理的数据必须是海量的。
根据数据分析者的目标,明确数据挖掘的任务。 数据挖掘任务分为: 模式挖掘:从数据中寻找模式。 预测建模:利用建立的模型为未来数据进行预测。
描述建模:用来描述数据的全局特征,如聚类分析。
2015-4-20
33
7.2.3 评分函数
结合所获得的具体模型结构,通过不同的参数得到 的效果进行评价。
2015-4-20 9
7.1.2 数据挖掘与KDD(续)
许多人把数据挖掘看作另一个常用术语KDD (knowledge discovery in database),来源于: 1989年6月:在美国底特律举行了第一届“从数据 库中知识发现”的国际学术会议,在这次会议中第
一次使用了KDD 这个词来强调“知识”是数据驱
2015-4-20 36
7.2.6 组件化思想的应用
通过将算法分解成一些核心组件来阐明算法的实现 机制。
数据挖掘人员应该从组件的角度,根据应用需求,
考虑选取哪些组件来组成一个新的算法,而不是考
虑选取哪个现成的算法。
不同的研究团队将注意力放在不同的数据挖掘算法 组件上。
2015-4-20 37
③ 查询一般是决策制定者(用户)提出的随机查询。
查询要求灵活。
④ 挖掘出来的知识一般是不能预知的。
2015-4-20 7
7.1.1 数据挖掘的特点 数据挖掘是一个动态的、反复的、不断深入 的过程。
2015-4-20
8
7.1.2 数据挖掘与KDD
“从数据中发现有用模式”历来有很多称法,如: 数据挖掘(data mining)
过程。
2015-4-20
12
7.1.2 数据挖掘与KDD(续)
KDD的主要步骤: ① 数据集成:主要指将多种数据源组合在一起。
② 数据清理:主要指消除噪声或不一致的数据。
③ 数据选择:主要指从数据库中提取与分析任务相关 的数据过程。 ④ 数据转换:通过汇总、聚集等方法,将数据统一成 适合挖掘的形式。 ⑤ 数据挖掘:确定挖掘任务,然后选择挖掘的工具, 进行挖掘知识的操作。
知识提取(knowledge extraction)
信息发现(information discovery) 信息收获(information harvesting)
数据考古(data archaeology)
数据模式处理(data pattern processing) “数据挖掘”的称法大部分是由统计学家,数据分 析学家和MIS团体使用的,在数据库领域也得到了 广泛接受。
2015-4-20
19
7.1.5 数据挖掘的分类
可以从不同的角度对数据挖掘进行分类,主要包括: 根据挖掘的数据库类型分类。 根据挖掘的知识类型分类。 根据所用的技术分类。
根据数据挖掘的应用领域分类。
2015-4-20
20
1. 根据挖掘的数据库类型分类
根据数据模型分类:关系的、面向对象的、对象 -关系的、...