CDA L1业务数据分析师大纲解析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
CDA 数据分析研究院
CDA LEVEL I 大纲解析
1.数据分析概述及统计学基础
1.1 数据分析概述
1.1.1 考试要求
1.领会:传统数据分析和数据挖掘的概念。商业数据分析预测的本质、数据分析的 8 个层次、大数据对传统小数据分析的拓展、数据分析师在业务流程中的作用。
2.熟知:明确数据分析目标的意义和过程、数据分析方法论如 CRISP-DM、SEMMA 等 方法、传统数据分析方法与数据挖掘方法的区别和联系、明确数据分析中不同人员的角色、 职责。
1.1.2 解析
明确数据分析目标的意义和过程、传统数据分析和数据挖掘的概念、数据分析的 8 个层 次、大数据对传统小数据分析的拓展、传统数据分析方法与数据挖掘方法的区别和联系:
数据分析的目的是为业务发展答疑解惑及分析层次。他描述了“过去发生了什么”、“现 在正在发生什么”和“未来可能发生什么”。根据分析的级别,分为常规报表、即席查询、 多维分析(又称为钻取或者 OLAP)、警报、统计分析、预报(或者时间序列预测)、预测型 建模(预测性(predictive)模型)和优化。
CDA 数据分析研究院
的均值变化过于剧烈)、重复值(相同的交易被记录两次)和及时性(银行客户的财务数据 更新的滞后时长)等方面。这部分的探索主要解决,变量是错误时是否可以修改、是否可以 使用的问题。
(3)变量修改 根据变量探索的结论,需要对数据质量问题和变量分布情况分别作变量修改。数据质量 问题的修改涉及改正错误编码、缺失值填补、单位统一等操作。变量分布情况的修改涉及函 数转换和标准化方法,具体的修改方法需要与后续的统计建模方法相结合。 (4)建模 根据分析的目的选取合适的模型,这部分内容在“数据分析方法分类介绍”已经作了详 细的阐述,这里不再赘述。 (5)模型检验 这里指模型的样本内验证,即使用历史数据对模型表现的优劣进行评估。比如,对有监 督学习、会使用 ROC 曲线和提升度等技术指标评估模型的预测能力。
数据挖掘是一种发现知识的手段,数据挖掘要求数据分析师通过合理的方法,从数据中 获取与数据挖掘项目相关的知识。
大数据对传统小数据分析的拓展及其区别和联系:两种的间关系实际上可以理解为数据 挖掘是对数据分析的扩展,主要体现在如下几个方面——数据量、数据精度、算法、关注点。 数据挖掘特征:海量数据通常带来的问题是数据精确度下降,这是普遍的规律,所以同时具 有量大和精确度低的特征,则需要特殊的算法来解决这个问题,而神经网络、决策树、svm 等算法就具有相应特点,此外由于以上不同点使得分析时关注的侧重点不同,如数据预分析 的时间远远大于建模时间,关注时间、效率和知识发现,而不是正态分布、异方差、显著性, 关注相关分析,而不是因果分析等。
图 1-3 (图 1-3 摘自:SAS 公司《SAS 数据挖掘ቤተ መጻሕፍቲ ባይዱ术概览》)
5 个步骤中的主要任务,如图 1-4 所示。
图 1-4 (图 1-4 摘自:SAS 公司《SAS 数据挖掘技术概览》)
(1)数据整理 涉及数据采集、数据合并与抽样的操作,目的是为了构造分析用到的数据。分析人员根 据维度分析获得的结果作为整理数据的依据,将散落在公司内部与外部的数据进行整合。 (2)样本探索 这个步骤的主要任务是对数据质量的探索。变量质量方面涉及错误值(年龄=-30)、恰 当性(客户的某些业务指标为缺失值,实际上是没有这个业务,值应该为“0”)、缺失值(没 有客户的收入信息)、一致性(收入单位为人民币,而支出单位为美元)、平稳性(某些数据
数据分析师在业务流程中的作用、角色和职责:业务问题是需求,最终需要转换成统计 问题,用数据分析的思路来解决,因此数据分析师在业务与数据间起到协调作用,是业务问 题能否成功转换成统计问题的关键。业务问题可不可以量化及如何量化。通常来说,业务问 题需要一个或多个字段来表达,这些字段以什么形式出现(如测量级别),因为字段的形式 会决定选择的方法,而每种方法又用于解决特定的需求,此外由于模型对业务人员或企业高 管来说可能过于专业,因此需要将模型输出通俗的表达出来。所以协调者、数据分析师、报 告人的角色,决定了数据分析师是一名(精通数理和软件的)综合性人才。
CDA 数据分析研究院
图 1-1
数据分析方法论: CRISP-DM 方法论将数据挖掘项目生命周期分为 6 个阶段,它们分别是业务理解、数据 理解、数据准备、建模、模型评估和模型发布,如图 1-2 所示。
图 1-2
图 1-2 呈现了通用数据挖掘方法论(CRISP-DM)流程的 6 个阶段。下面简短地介绍了每 个阶段的要点。
(1)业务理解 该初始阶段集中在从商业角度理解项目的目标和要求,通过理论分析转化为数据挖掘可 操作的问题,制定实现目标的初步计划。 (2)数据理解 数据理解阶段开始于原始数据的收集,然后是熟悉数据、标明数据质量问题、探索对数 据的初步理解、发觉有趣的子集以形成对探索关系的假设。 (3)数据准备 数据准备阶段包括所有从原始的、未加工的数据构造数据挖掘所需信息的活动。数据准 备任务可能被实施多次,而且没有任何规定的顺序。这些任务的主要目的是从源系统根据维 度分析的要求,获取所需要的信息,需要对数据进行转换和清洗。 (4)建模 在此阶段,主要是选择和应用各种建模技术。同时对它们的参数进行校准,以达到最优 值。通常对同一个数据挖掘问题类型,会有多种建模技术。一些技术对数据格式有特殊的要 求。因此,常常需要返回到数据准备阶段。
数据分析目标的意义、过程及其本质,数据分析方法论如 CRISP-DM、SEMMA 等方法, 数据分析师在业务流程中的作用、角色和职责。
数据分析目标的意义、过程及其本质:可以认为数据分析涉及到公司运营的方方面面, 这包括对企业部门经营情况的评估、内部员工的管理、生产流程的监管、产品结构优化与新 产品开发、财务成本优化、市场结构的分析和客户关系的管理。其中,关于客户与市场的数 据分析是“重头戏”。下面以客户全生命周期管理为例介绍数据分析运用场景和挖掘主题, 如图 1-1 所示。
CDA 数据分析研究院
(5)模型评估 在模型最后发布前,根据商业目标评估模型和检查建立模型的各个步骤。此阶段关键目 的是,判断是否存在一些重要的商业问题仍未得到充分考虑。 (6)模型发布 模型完成后,由模型使用者(客户)根据当时背景和目标完成情况,决定如何在现场使 用模型。比如,在网页的实时个人化中或营销数据的重复评分中。 SAS 公司的数据挖掘项目实施方法论,对 CRISP-DM 方法中的数据准备和建模环节进行 了拓展,被称为 SEMMA 方法,如图 1-3 所示。
CDA LEVEL I 大纲解析
1.数据分析概述及统计学基础
1.1 数据分析概述
1.1.1 考试要求
1.领会:传统数据分析和数据挖掘的概念。商业数据分析预测的本质、数据分析的 8 个层次、大数据对传统小数据分析的拓展、数据分析师在业务流程中的作用。
2.熟知:明确数据分析目标的意义和过程、数据分析方法论如 CRISP-DM、SEMMA 等 方法、传统数据分析方法与数据挖掘方法的区别和联系、明确数据分析中不同人员的角色、 职责。
1.1.2 解析
明确数据分析目标的意义和过程、传统数据分析和数据挖掘的概念、数据分析的 8 个层 次、大数据对传统小数据分析的拓展、传统数据分析方法与数据挖掘方法的区别和联系:
数据分析的目的是为业务发展答疑解惑及分析层次。他描述了“过去发生了什么”、“现 在正在发生什么”和“未来可能发生什么”。根据分析的级别,分为常规报表、即席查询、 多维分析(又称为钻取或者 OLAP)、警报、统计分析、预报(或者时间序列预测)、预测型 建模(预测性(predictive)模型)和优化。
CDA 数据分析研究院
的均值变化过于剧烈)、重复值(相同的交易被记录两次)和及时性(银行客户的财务数据 更新的滞后时长)等方面。这部分的探索主要解决,变量是错误时是否可以修改、是否可以 使用的问题。
(3)变量修改 根据变量探索的结论,需要对数据质量问题和变量分布情况分别作变量修改。数据质量 问题的修改涉及改正错误编码、缺失值填补、单位统一等操作。变量分布情况的修改涉及函 数转换和标准化方法,具体的修改方法需要与后续的统计建模方法相结合。 (4)建模 根据分析的目的选取合适的模型,这部分内容在“数据分析方法分类介绍”已经作了详 细的阐述,这里不再赘述。 (5)模型检验 这里指模型的样本内验证,即使用历史数据对模型表现的优劣进行评估。比如,对有监 督学习、会使用 ROC 曲线和提升度等技术指标评估模型的预测能力。
数据挖掘是一种发现知识的手段,数据挖掘要求数据分析师通过合理的方法,从数据中 获取与数据挖掘项目相关的知识。
大数据对传统小数据分析的拓展及其区别和联系:两种的间关系实际上可以理解为数据 挖掘是对数据分析的扩展,主要体现在如下几个方面——数据量、数据精度、算法、关注点。 数据挖掘特征:海量数据通常带来的问题是数据精确度下降,这是普遍的规律,所以同时具 有量大和精确度低的特征,则需要特殊的算法来解决这个问题,而神经网络、决策树、svm 等算法就具有相应特点,此外由于以上不同点使得分析时关注的侧重点不同,如数据预分析 的时间远远大于建模时间,关注时间、效率和知识发现,而不是正态分布、异方差、显著性, 关注相关分析,而不是因果分析等。
图 1-3 (图 1-3 摘自:SAS 公司《SAS 数据挖掘ቤተ መጻሕፍቲ ባይዱ术概览》)
5 个步骤中的主要任务,如图 1-4 所示。
图 1-4 (图 1-4 摘自:SAS 公司《SAS 数据挖掘技术概览》)
(1)数据整理 涉及数据采集、数据合并与抽样的操作,目的是为了构造分析用到的数据。分析人员根 据维度分析获得的结果作为整理数据的依据,将散落在公司内部与外部的数据进行整合。 (2)样本探索 这个步骤的主要任务是对数据质量的探索。变量质量方面涉及错误值(年龄=-30)、恰 当性(客户的某些业务指标为缺失值,实际上是没有这个业务,值应该为“0”)、缺失值(没 有客户的收入信息)、一致性(收入单位为人民币,而支出单位为美元)、平稳性(某些数据
数据分析师在业务流程中的作用、角色和职责:业务问题是需求,最终需要转换成统计 问题,用数据分析的思路来解决,因此数据分析师在业务与数据间起到协调作用,是业务问 题能否成功转换成统计问题的关键。业务问题可不可以量化及如何量化。通常来说,业务问 题需要一个或多个字段来表达,这些字段以什么形式出现(如测量级别),因为字段的形式 会决定选择的方法,而每种方法又用于解决特定的需求,此外由于模型对业务人员或企业高 管来说可能过于专业,因此需要将模型输出通俗的表达出来。所以协调者、数据分析师、报 告人的角色,决定了数据分析师是一名(精通数理和软件的)综合性人才。
CDA 数据分析研究院
图 1-1
数据分析方法论: CRISP-DM 方法论将数据挖掘项目生命周期分为 6 个阶段,它们分别是业务理解、数据 理解、数据准备、建模、模型评估和模型发布,如图 1-2 所示。
图 1-2
图 1-2 呈现了通用数据挖掘方法论(CRISP-DM)流程的 6 个阶段。下面简短地介绍了每 个阶段的要点。
(1)业务理解 该初始阶段集中在从商业角度理解项目的目标和要求,通过理论分析转化为数据挖掘可 操作的问题,制定实现目标的初步计划。 (2)数据理解 数据理解阶段开始于原始数据的收集,然后是熟悉数据、标明数据质量问题、探索对数 据的初步理解、发觉有趣的子集以形成对探索关系的假设。 (3)数据准备 数据准备阶段包括所有从原始的、未加工的数据构造数据挖掘所需信息的活动。数据准 备任务可能被实施多次,而且没有任何规定的顺序。这些任务的主要目的是从源系统根据维 度分析的要求,获取所需要的信息,需要对数据进行转换和清洗。 (4)建模 在此阶段,主要是选择和应用各种建模技术。同时对它们的参数进行校准,以达到最优 值。通常对同一个数据挖掘问题类型,会有多种建模技术。一些技术对数据格式有特殊的要 求。因此,常常需要返回到数据准备阶段。
数据分析目标的意义、过程及其本质,数据分析方法论如 CRISP-DM、SEMMA 等方法, 数据分析师在业务流程中的作用、角色和职责。
数据分析目标的意义、过程及其本质:可以认为数据分析涉及到公司运营的方方面面, 这包括对企业部门经营情况的评估、内部员工的管理、生产流程的监管、产品结构优化与新 产品开发、财务成本优化、市场结构的分析和客户关系的管理。其中,关于客户与市场的数 据分析是“重头戏”。下面以客户全生命周期管理为例介绍数据分析运用场景和挖掘主题, 如图 1-1 所示。
CDA 数据分析研究院
(5)模型评估 在模型最后发布前,根据商业目标评估模型和检查建立模型的各个步骤。此阶段关键目 的是,判断是否存在一些重要的商业问题仍未得到充分考虑。 (6)模型发布 模型完成后,由模型使用者(客户)根据当时背景和目标完成情况,决定如何在现场使 用模型。比如,在网页的实时个人化中或营销数据的重复评分中。 SAS 公司的数据挖掘项目实施方法论,对 CRISP-DM 方法中的数据准备和建模环节进行 了拓展,被称为 SEMMA 方法,如图 1-3 所示。