第五章 数据挖掘过程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
15
(2) CRISP-DM模型
(5)评价(Evaluation) 已经从数据分析的角度建立了高质量显示的模型。在开始最 后部署模型之前,重要的事情是彻底地评估模型,检查构造 模型的步骤,确保模型可以完成业务目标。 这个阶段的关键目的是确定是否有重要业务问题没有被充分 的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定 必须达成。 评价挖掘结果——根据业务成功标准的数据挖掘结果,评价 经核准的模型 回顾过程——过程回顾 确定下一步——可能 的行动清单和决策
22
5.2.1 数据的收集和准备
存在不完整的、含噪声的和不一致的数据是大型的、现 实世界数据库或数据仓库的共同特点。 数据清理(data cleaning) 数据集成(data integration) 数据变换(data transformation) 数据规约(data reduction) 数据预处理技术可以改进数据的质量,从而有助于提高 其后的挖掘过程的精度和性能。由于高质量的决策必然 依赖于高质量的数据,因此数据预处理是知识发现过程 的重要步骤。监测数据异常、尽早地调整数据,并归约 待分析的数据,将在决策过程得到高回报。
最初的阶段集中在理解项目目标和从业务的角度理解需求, 同时将这个知识转化为数据挖掘问题的定义和完成目标的初 步计划。 确定业务目标——背景、业务目标、业务成功标准 评估环境——资源清单、需求、假设、约束、风险和所有费 用、术语表、成本和收益 确定数据挖掘目标——数据挖掘目标、数据挖掘成功标准 产生项目计划——项目计划、工具和技术的初步评价
20
5.2 数据预处理
5.2.1 数据的收集和准备 5.2.2 数据清理 5.2.3 数据集成 5.2.4 数据变换 5.2.5 数据归约 5.2.6 离散化和概念分层生成 5.2.7 微软数据转换服务
21
5.2.1 数据的收集和准备
数据的收集和准备是开展数据挖掘的最大障碍。 数据准备一般包含两方面: 一方面从多种数据源中去综合数据挖掘所需要的数据,保 证数据质量的综合性、易用性和时效性,这有可能要用到 数据仓库的思想和技术; 另一方面就是如何从现有数据中衍生出所需要的指标,这 主要取决于数据挖掘者的分析经验和工具的方便性。
16
(2) CRISP-DM模型
(6)实施 (Deployment) 通常,模型的创建不是项目的结束。模型的作用是从数据中 找到知识,获得的知识需要便于用户使用的方式重新组织和 展现。 根据需求,这个阶段可以产生简单的报告,或是实现一个比 较复杂的、可重复的数据挖掘过程。在很多案例中,这个阶 段是由客户而不是数据分析人员承担实施的工作。 设计实施——实施计划 计划监测、维护——检测和维护计划 产生最终报告——最终报告和最终表达 回顾项目——经验文档
7
(1) Fayyad数据挖掘模型
数据准备
数据挖掘
结果表达与解释
数据挖掘
可视化
降维/转换 预处理
事务数据
模式
评价
数据选取
净化数据
知识
目标数据 数据源
图5.2 Fayyad数据挖掘过程模型
8
(1) Fayyad数据挖掘模型
Fayyad过程模型是一个偏技术的模型,该模型在实际应用 中存在以下两个问题: (1)为什么选择这些数据?Fayyad过程模型忽略了具体业务 问题的确定。这也是确定选择哪些数据的关键所在。 (2)模型怎样使用?挖掘出的模型需要返回到操作型环境中 进行应用。因此,需要构成一个从操作型环境到分析型环 境再到操作型环境的封闭的信息流。
数据仓库与数据挖掘
数据仓库与数据挖掘
第一章 数据仓库与数据挖掘概述 第二章 数据仓库的分析 第三章 数据仓库的设计与实施 第四章 信息分析的基本技术 第五章 数据挖掘过程 第六章 数据挖掘基本算法 第七章 非结构化数据挖掘 第八章 离群数据挖掘 第九章 数据挖掘语言与工具的选择 第十章 知识管理与知识管理系统
9
(2) CRISP-DM模型
CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行业数据挖掘标准流程)注重数据挖掘技术的 应用,解决了Fayyad模型存在的两个问题。 CRISP-DM过程模型从商业的角度给出对数据挖掘方法的 理解。目前数据挖掘系统的研制和开发大都遵循CRISPDM标准,将典型的挖掘和模型的部署紧密结合。
模式
知识输出 知识输出模块
挖掘结 果评估
模式评估模块
图5.1 数据挖掘系统的体系结构图
5
5.1.2 数据挖掘的过程模型
(1) Usama M.Fayyad总结提出的过程模型 (2) 遵守数据挖掘特别兴趣小组提出的CRISP-DM标准的 过程模型
6
(1) Fayyad数据挖掘模型
Fayyad数据挖掘模型将数据库中的知识发现看作是一个多 阶段的处理过程,它从数据集中识别出以模式来表示的知 识,在整个知识发现的过程中包括很多处理步骤,各步骤 之间相互影响,反复调整,形成一种螺旋式的上升过程。
23
5.2.2 数据清理
数据清理要解决如下一些问题: (1)数据质量 (2)冗余数据 (3)过时数据 (4)术语定义的变化
24
5.2.2 数据清理
数据清理例程试图填充空缺的值,识别孤立点、消除噪声, 并纠正数据中的不一致。 (1)空缺值 (2)噪声数据 (3)不一致数据
25
5.2.2 数据清理——空缺值
12
(2) CRISP-DM模型
(2)数据理解 (Data Understanding) 数据理解阶段从初始的数据收集开始,通过一些活动的处 理,目的是熟悉数据,识别数据的质量问题,首次发现数 据的内部属性,或是探测引起兴趣的子集去形成隐含信息 的假设。 收集原始数据——原始数据收集报告 描述数据——数据描述报告 探测数据——数据探测报告
31
5.2.3 数据集成
(2)冗余 一个属性是冗余的,如果它能由另一个表“导出”,如年 薪。 属性或维命名的不一致也可能导致数据集成中的冗余。 有些冗余可以被相关分析检测到。 例如,给定两个属性,根据可用的数据,这种分析可以度 量一个属性能在多大程度上蕴涵另一个。属性A和B之间的 相关性可用下式度量:
28
5.2.2 数据清理——噪声数据
(2)聚类(clustering):聚类将类似的值组织成群或“聚 类”。直观地看,落在聚类集合以外的值被视为孤立点。
(3)计算机和人工检查结合 (4)回归(regression):使用回归,找出适合数据的数学方
程式,能够帮助消除噪声。 许多数据平滑方法也是涉及离散化的数据归约方法。 概念分层也是一种数据离散化形式,也可以用于数据平滑。
选择数据
选择与排除数据的 基本原则
建模 选择建模技术
建模技术
报告
数据清理
建模假设
描述数据 数据描述报告 探测数据
数据清洗报告 数据构建 导出的属性
产生测试设计 测试设计 建立模型
评估 评价挖掘结果 数据挖掘结果的 评估
核准的模型
复审过程 过程复审报告 确定下一步
实施 计划实施
实施计划
计划、监测和维 护 监测和维护计划 产生最终报告 最终报告
10
(2) CRISP-DM模型
CRISP-DM模型过程的基本步骤包括:业务理解、数据理 解、数据准备、建立模型、模型评价、模型实施。
业务理解
数据理解
实施
数据
数据准备 建立模型
评价
图5.3 CRISP-DM数据挖掘过程模型
11
(2) CRISP-DM模型
CRISP-DM模型的各个阶段任务。 (1)业务理解 (Business Understanding)
13
(2) CRISP-DM模型
(3)数据准备 (Data Preparation) 数据准备阶段包括从未处理数据中构造最终数据集的所有 活动。这些数据将是模型工具的输入值。这个阶段的任务 有可能执行多次,没有任何规定的顺序。任务包括表、记 录和属性的选择,以及为模型工具转换和清洗数据。 数据选择——选择与排除数据的基本原则 数据清理——数据清洗报告 数据构建——导出属性和生成记录 数据集成——合并数据 数据格式化——格式化的数据
探测数据报告 生成的记录
参数设定
可能的行动列表 最终表述
检验数据质量 数据质量报告
数据集成 合并的数据 数据格式化
格式化的数据
模型 模型描述 评估模型
决策
模型评价
修改的参数设定
回顾项目 归纳文档
18
5.1.3 数据挖掘的基本流程
图5.4 数据挖掘的基本流程
19
第五章 数据挖掘过程
5.1 数据挖掘的方法与基本流程 5.2 数据预处理 5.3 确定主题和定义数据挖掘任务 5.4 数据挖掘的模型建立与理解 5.5 预测 5.6 数据挖掘中常见的一些问题
4
5.1.1 数据挖掘的体系结构
数据挖掘系统 由各类数据库、 挖掘前处理模 块、挖掘操作 模块、模式评 估模块、知识 输出模块组成, 这些模块的有 机组成就构成 了数据挖掘系
统的体系结构。
数据清理集成 抽取转换
挖掘前处理模块
数据挖掘 处理
挖掘操作模块
系统外 数据库
用户各类数据库ຫໍສະໝຸດ 数据仓库挖掘知识库
数据库管理模块
17
(2) CRISP-DM模型
业务理解 确定业务目标
业务背景报告
业务目标报告
业务成功准则 进行环境评估 资源清单 需求、假设和限 制风险和对策术 语表 成本和效益 确定DM目标 数据挖掘目标 数据挖掘成功准 则 产生项目计划 项目计划 工具和技术初步 评价
数据理解 收集初始数据
原始数据收集
数据准备
26
5.2.2 数据清理——噪声数据
噪声是一个测量变量中的随机错误或偏差。给定一个数值属 性,怎样才能平滑数据,去掉噪声? (1)分箱(binning):分箱方法通过考察“邻居”(即周围 的值)来平滑存储数据的值。存储的值被分布到一些“桶” 或箱中。由于分箱方法参考相邻的值,因此它进行局部平滑。 按箱平均值平滑; 按箱中值平滑; 按箱边界平滑。
29
5.2.2 数据清理——不一致数据
对于有些事务,所记录的数据可能存在不一致。 有些数据不一致可以使用其它材料人工地加以更正。 知识工程工具也可以用来检测违反限制的数据。 由于数据集成,也可能产生不一致。
30
5.2.3 数据集成
数据分析任务多半涉及数据集成。 数据集成将多个数据源中的数据结合起来存放在一个一致 的数据存储中。这些源可能包含多个数据库、数据立方体 或一般文件。 在数据集成时,需要考虑几个问题: (1)模式集成是有技巧的。 来自多个信息源的现实世界如何才能“匹配”?这涉及实 体识别问题。 通常,数据库和数据仓库有元数据——关于数据的数据。 这种元数据可以帮助避免模式集成中的错误。
2
第五章 数据挖掘过程
5.1 数据挖掘的方法与基本流程 5.2 数据预处理 5.3 确定主题和定义数据挖掘任务 5.4 数据挖掘的模型建立与理解 5.5 预测 5.6 数据挖掘中常见的一些问题(自学)
3
5.1 数据挖掘的方法与基本流程
5.1.1 数据挖掘的体系结构 5.1.2 数据挖掘的过程模型 5.1.3 数据挖掘的基本流程
27
数据平滑的分箱方法
Price的排序后数据(美元):4,8,15,21,21,24,25,28,34 划分为(等深的)箱: 箱1: 4, 8,15 箱2:21,21,24 箱3:25,28,34 用箱平均值平滑 箱1: 9, 9, 9 箱2:22,22,22 箱3:29,29,29 用箱边界值平滑 箱1: 4, 4,15 箱2:21,21,24 箱3:25,25,34
(1)忽略元组:除非元组有多个属性值,否则该方法不是 很有效。 (2)人工填写空缺值:费时;当数据集很大、缺少很多值 时,该方法可能行不通。 (3)使用一个全局常量填充空缺值:将空缺的属性值用同 一个常数(如“Unknown”或-∞)替换。 (4)使用属性的平均值填充空缺值。 (5)使用与给定元组同一类的所有样本的平均值。 (6)使用最可能的值填充空缺值:可以用回归、基于推导 的使用贝叶斯形式化方法的工具或用判定树归纳确定。
14
(2) CRISP-DM模型
(4)建立模型(Modeling) 选择和应用不同的模型技术,模型参数被调整到最佳的数值。 一般,有些技术可以解决一类相同的数据挖掘问题。有些技 术在数据形成上有特殊要求,因此需要经常跳回到数据准备 阶段。 选择建模技术——建模技术及建模假定 产生测试设计——测试实验的设计 建立模型——参数设定、模型、模型描述 评估模型——模型评价、修改和参数设定
相关文档
最新文档