数据分析生命周期概述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据分析生命周期是专门为大数据问题和数据科学项目而设计的。该数据分析生命周期可以分成 6 个阶段,而项目工作可能同时分处于其中的若干阶段。对于生命周期的大多数阶段,项目在它们之间的移动可以是正向的,也可以是反向的。也就是说,项目既可以从一个阶段进行到下一个阶段,也可能从一个阶段返回到上一个阶段。项目的正向或者反向移动伴随着新信息的出现和项目团队对项目的更多了解而发生,并且在实际中并不罕见。这种生命周期设计使得项目实践者可以进行反复迭代式的流程管理,并最终推动项目工作向前进行。
数据分析生命周期定义了从项目开始到项目结束整个分析流程的最佳实践,它脱胎于数据分析和决策科学领域中的成熟方法,并建立在广泛收集了数据科学家的反馈并且参考了其他成熟流程的基础上。以下是几种被参考的流程。
,一种已经使用了几百年的关于思考和解构问题的可靠方法框架。
其中最有价值的理念之一是先形成假设,然后找到方法进行测试。
-DM是一种流行的数据挖掘方法,为如何设定分析问题提供了有用参考。
的DELTA 框架:该框架提供了一种用于数据分析项目的方法,其中
涉及组织技能、数据集以及领导者的参与。
的应用信息经济学(Applied Information Economics ,AIE )方法[6]:
AIE 提供了一种衡量无形资产的方法,还在开发决策模型、校正专家预测,以及获得信
息预期价值等方面提供了指导。
技能”为数据分析生命周期中专注模型建立、执行和关键发现的第 2 到第4
阶段所涉及的若干技术提供了参考。
概述了数据分析生命周期的 6 个阶段。项目团队在某一阶段学到的新东西常常促使他们重返生命周期中更早的阶段,并基于新发现的见解和知识进一步改进工作。因此,这6 个阶段形成一个循环,箭头代表了项目在相邻阶段之间可能的反复迭代,而最大的环形箭头则代表了项目最终的前进方向。图中还包括了一些问题示例,以帮助确认每位团队成员是否获得足够信息,以及是否取得足够进展支持进入下一个阶段。需要注意的是,这些阶段的定义并非是对项目流程的硬性规定,而是旨在为项目能否适时向前进提供衡量标准。
下面是数据分析生命周期几个主要阶段的简单概述。
第1 阶段——发现:在这个阶段,团队成员需要学习业务领域的相关知识,其中包括项目的相关历史。比如,可以了解该组织或者业务单位以前是否进行过类似项目,能否借鉴相关经验。团队还需要评估可以用于项目实施的人员、技术、时间和数据。在这个阶段,重点要把业务问题转化为分析挑战以待在后续阶段解决,并且制定初始假设用于测试和开始学习数据。
第 2 阶段——数据准备:第 2 阶段需要准备好分析沙盘,以便团队在项目过程中进行使用数据和进行数据分析。团队需要执行提取、加载和转换(ELT)或者提取、转换和加载(ETL)来将数据导入沙盘。ELT 和ETL 有时被缩写为ETLT。数据应在ETLT 过程中被转换成可以被团队使用和分析的格式。在这个阶段,分析团队需要彻底熟悉数据,并且逐步治理数据
第 3 阶段——规划模型:在该阶段,团队需要确定在后续模型构建阶段所采用的方法、技术和工作流程。团队会探索数据以了解变量之间的关系,然后挑选关键变量和最合适的模型。
第 4 阶段——建立模型:在第4 阶段,团队创建用于测试、培训和生产的数据集。此外,团队在这个阶段构建并运行由上阶段确定的模型。团队还需要考虑现有的工具是否能够满足模型的运行需求,还是需要一个更强大的模型和工作流的运行环境(例如,更快的硬件和并行处理)。
第 5 阶段——沟通结果:在第5 阶段,团队需要与主要利益相关人进行合作,以第1阶段制定的标准来判断项目结果是成功还是失败。团队应该鉴别关键的发现,量
化其商业价值,并以适当的方式总结发现并传达给利益相关人。
第 6 阶段——实施:在第 6 阶段,团队应该提交最终报告、简报、代码和技术文档此外,团队可以在生产环境中实施一个试点项目来应用模型。在团队成员运行模型并产生结果后,根据受众采取相应的方式阐述成果非常关键。此外,阐述成果时展示其清晰价值也非常关键。如果团队进行了精确的技术分析,但是没有将成果转换成可以与受众产生共鸣的表达,那么人们将看不到成果的真实价值,也将浪费许多项目中投入的时
间和精力。