数据挖掘项目实施过程概述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘项目实施过程概述二零一一年八月
目录
1.业务理解 (4)
1.1确定业务目标 (4)
1.1.1编写业务背景资料 (4)
1.1.2定义业务目标 (6)
1.1.3业务成功标准 (6)
1.2评估情况 (7)
1.2.1资源清单 (7)
1.2.2要求、假设和约束 (8)
1.2.3风险和费用 (9)
1.2.4术语 (9)
1.2.5成本/收益分析 (10)
1.3确定数据挖掘目标 (10)
1.3.1数据挖掘目标 (11)
1.3.2数据挖掘成功标准 (11)
1.4制定工程计划 (11)
2.数据理解 (12)
2.1收集初始数据 (12)
2.2描述数据 (13)
2.2.1编写数据说明报告 (14)
2.3探索数据 (15)
2.3.1编写数据探索报告 (15)
2.4验证数据质量 (16)
2.4.1编写数据质量报告 (16)
3.数据准备 (17)
3.1选择数据 (18)
3.1.1包括或排除数据 (18)
3.2清理数据 (18)
3.2.1编写数据清理报告 (19)
3.3构建新数据 (19)
3.4集成数据 (20)
3.4.1格式化数据 (21)
4.建模 (21)
4.1选择建模技术 (21)
4.1.1选择正确的建模技术 (22)
4.1.2建模假设 (22)
4.2生成测试设计 (23)
4.2.1编写测试设计 (23)
4.2.2电子商务零售业示例 - 测试设计 (24)
4.3构建模型 (24)
4.3.1参数设臵 (24)
4.3.2运行模型 (25)
4.4评估模型 (25)
4.4.1综合模型评估 (25)
4.4.2跟踪已修正的参数 (26)
5.评估 (27)
5.1评估结果 (27)
5.2审核过程 (28)
5.3确定后续步骤 (28)
6.部署 (29)
6.1制定部署计划 (30)
6.2计划监视和维护 (30)
6.3生成最终报告 (31)
6.3.1准备最终演示 (32)
6.4执行最终工程审核 (32)
1.业务理解
在开始工作之前,需要首先探讨一下我们期望通过数据挖掘获得什么。尽可能多地一些重要业务人员参与此类讨论,并将结果记录下来。了解进行数据挖掘的业务原因有助于确保在花费宝贵的资源之前所有人都达成一致意见。并对期望结论有一致的认识。
1.1确定业务目标
第一个任务是尽可能多地了解数据挖掘的业务目标。通过详细说明问题、目标和资源,可以将今后的风险降至最低。包括:
•开始收集有关当前业务情况的背景信息。
•记录下由关键决策者决定的具体业务目标。
•一致同意用于确定从业务角度判定数据挖掘成功与否的标准。
1.1.1编写业务背景资料
理解组织的业务情况有助于了解在以下这些方面需要解决什么问题:
•可用资源(人力资源和物资)
•问题
•目标
将需要对当前商业情况进行一些研究,以便找到对影响数据挖掘项目结果的那些问题的正确答案。
确定组织结构
•建立组织结构图来说明企业分公司、部门和项目团队的结构。确保包含管理者的名字和职责。
•识别组织中的关键个人。
•识别将提供财务支持和/或领域专门知识的内部负责人。
•确定是否存在指导委员会并制作一份成员列表。
•识别将受到数据挖掘项目影响的业务单位。
说明存在问题的领域
•识别存在问题的领域,例如市场营销、客户服务或业务发展。
•使用常规术语来描述问题。
•阐明项目的先决条件。项目背后的动机。企业是否已经在使用数据挖掘。
•检查业务团队内数据挖掘项目的状态。
•准备有关的组织进行数据挖掘的信息演示文稿。
说明当前的解决方案
•说明当前用于解决业务问题的所有解决方案。
•说明当前解决方案的优点和缺点。此外,指出这个解决方案在组织内的接受程度。
1.1.2定义业务目标
作为的研究和会议的结果,应该拟定一个主要具体目标,并得到项目负责人和受结果影响的其他业务单位的一致同意。这个目标将最终从模糊的概念,例
如“减少客户流失”转变为可以指导进行分析的具体数据挖掘目标。
确定以下内容:
•需要使用数据挖掘解决的问题。
•准确地指出所有业务问题。
•确定其他业务要求。
•使用业务术语和指标指定如“预期收益率提高”“高价值客户流失减少 10%”。
1.1.3业务成功标准
目前的目标可能很清晰,但如何衡量是否已经达到该目标。在继续推进之前,定义数据挖掘项目的业务成功特征很重要。成功标准分为两类:
•客观标准。这些标准很简单,如审核准确度或商定的流失率减少值具体提高了多少。
•主观标准。主观标准(如“发现一组有效解决方案”)比较难于确定,但你们可以商定由谁进行最终决策。
•尽可能准确地记录此项目的成功标准。
•确保每个业务目标都有相关的成功标准。
•调整决定者的主观成功衡量标准使其一致。如果可能,记录下客户的期望值。
1.2评估情况
有了一个明确指定的目标,下面应该评估处当前的状况。这一步骤需要获得以下信息,例如:
•什么类型的数据可供分析;
•是否具有完成此项目所需的人力资源;
•所涉及的最大风险因素是什么;
•对于这些风险,是否具有相应的应急计划;
1.2.1资源清单
获取准确的资源清单是必不可少的步骤。通过实际查看硬件、数据源和人力资源问题,可以节省很多时间以及避免很多问题。
调查硬件资源
需要哪些硬件资源支持挖掘。
识别数据源和知识存储
•哪些数据源可用于数据挖掘。记录数据类型和数据格式。
•采用什么方式存储数据。是否可以对数据仓库或操作数据库进行实时访问。
•是否计划购买外部数据。
•是否存在任何让无法访问所需数据的安全问题。
识别人力资源