大数据应用实施过程作业指导书Yhw
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6
使用众数、中位数、平均数、极差、平均差、方差、离散系数、 峰态系数、偏态系数等方法,从大量的、不完全的、有噪声的、 模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知识。通过分析数据整体趋势和数据特 征结论,具体提出数据清洗、转换、集成方案。
(2)因子相关性分析 通过皮尔逊、斯皮尔曼等相关性分析方法确定与业务目标相 关的数据特征、是否存在某种依存关系,包括单相关(分析两个 因素间相关性)、复相关(分析三个以上因素间相关性)、偏相关 (假定其他因素不变,分析其中两个因素间相关性)分析。通过 分析相关性的结果,研讨是否进行主成分分析、因子分析、特征 降维等建模辅助过程。 数据探索做法示例:利用小波变换、DTW、...等方法描述每 个台区在历史春节期间的负荷曲线,依据特征差异将其划分为不 同台区分类,针对每种分类,分析行业分布、地域分布、时间特 征、并量化分析负荷与配抢等客服事件关联规律与重过载的相关 关系等,为建模特征选择提供参考。 4. 数据清洗 参考业务实际及数据探索结果,算法人员建立数据清洗规则, 消除接入的“脏”数据、提升数据质量和可用性,一般包括重复 数据处理、异常值处理、缺失值填补等清洗方式。 (1)重复行删除 针对数据核查中发现的所有数据项均重复的数据记录,一般 进行整行删除处理。
9
四、模型构建 模型构建包括算法选型、模型构建以及参数调优三个方面。
1. 算法选型 基于业务实现逻辑及数据情况,框定机器学习、深度学习等 相关算法范围,通过对算法之间的效果、效率和稳定性等方面进 行优劣对比分析,开展算法择优选型。 例如,预测“是否发生重过载”属于分类预测问题范畴,分 类预测常用的模型选择方法是交叉验证法(Cross Validation), 具体实现:基于宽表数据,通过 Python 编程调用交叉验证方法, 分别求出不同分类算法的 F1 峰值,F1 值最大的即为效果最佳的 算法。步骤如下:
4
写要求(业务含义、内外部数据、来源系统、数据频度、数据类 型、数据格式、数据精度、数据取值范围等)。
表 2:XXX 模型数据需求项划分
内部数据
线上数据
结构化 非结构 数据 化数据
线下数据
结构化 非结构 数据 化数据
外部数据 结构化数据 非结构化数据
字段 名称
字段 1
字段 2
字段 3
……
业务 含义
模型迭代优化。根据模型业务验证的可行性、合理性、准确 性等评价反馈,算法人员对算法模型开展迭代优化,以满足模型 应用要求。
成果固化。根据数据应用需求、服务对象需求,将数据模型 应用过程结果通过不同形式进行输出,形成应用工具类、大数据 集类、算法模型类、智慧决策类等应用成果。
应用评估。评估数据模型应用成果对公司运营的效率、效益、 质量、社会价值等绩效水平的提升情况,对各专业数据及技术领 域的支撑推动情况,对成果本身实际运行的可用性、有效性、实 用性以及效率、效益情况等。
人口流动
负荷特性聚类以及群体规律
春节 春节期间 大、温度骤
性特征分析为切入点,综合
期间
负荷 负荷预测 变等特殊因 时间序列、回 考虑历史用电相似日特性、
精准 模型 素影响,导 归…… 负荷短期惯性、气象影响、
致短期负荷
行业负荷占比影响等因素对
预测
预测准确率
预测结果进行校正,建立不
不高
同维度的负荷预测模型,实
2. 数据模型应用过程内容 数据模型标准应用过程主要包括:业务设计、数据准备、模 型构建、业务场景验证、模型迭代优化、成果固化、应用评估、 推广共享 8 个阶段。 业务设计。调研厘清要解决的现有业务流程及管理现状痛点 问题,提炼确定数据模型应用需求,依据业务实际和关联关系, 梳理业务需求实现的关键点,明确建模依据的业务理论,以业务 视角凝炼合适的模型思路及技术实现路线。 数据准备。针对数据应用需求涉及的数据项、关联规则、映 射关系、来源系统、获取方式等,溯源梳理形成数据需求表。严 格按照数据取用流程及脱敏要求提取所需数据,分析数据整体趋 势、分布情况、规律特征、变量间相关关系,运用各种技术手段 进行数据清洗、转换、集成、规约,形成准确可用的数据分析 宽表,将其作为数据模型的输入源。
推广共享。以发挥数据应用价值为目标,对数据模型应用成 果进行优选,提炼总结相应经验方法,形成有价值、可落地的数 据应用成果,进行运营推广和价值转化。
3. 适用范围 本规范适用于公司各部门及下属单位开展数据模型应用。 二、业务设计
2
业务设计阶段主要包括梳理应用需求、设计建模思路等内容。 1. 梳理应用需求 (1)应用需求调研 以确定应用需求为目标,从业务需求及数据需求两方面开展 需求调研。 业务调研。调研上下游业务部门,确定现有业务流程及管理 现状痛点问题,明确各业务条线的互动关系,调研发现业务人员 隐藏的业务需求及瓶颈,最终提炼数据应用需求。 数据调研。调研影响因子、来源系统、数据存储情况、数据 采集周期、数据频度、数据量,调研发现数据获取问题、数据质 量问题。 (2)明确应用目标 通过应用需求调研情况,确定数据应用要实现的业务目标。 包括且不限于业务规模扩大、成本节约、效率提升、安全提升、 质量提升等。 2. 设计建模思路 (1)业务建模逻辑研讨 根据梳理确定的应用需求,以业务人员为主深入掌握业务主 线流程环节、业务规则及其他内在业务关联逻辑,提出建模业务 依据,数据应用需求方会同业务人员、算法人员,对建模依据的 业务理论、技术方法进行模型化梳理研讨。最终确定建模业务实 现逻辑。 (2)确定技术建模路线 依据建模业务实现逻辑,以分析挖掘人员、算法人员、数据
表 3:XXX 模型数据需求溯源表 内/外
来源 数据 数据 数据 数据 部数
系统 频度 类型 格式 精度 据
百度文库
数据 数据 位置 范围
(2)厘清数据来源 数据溯源时,应尽可能厘清业务数据流转、数据关联、数据 逻辑关系,追溯至业务数据产生源头,以避免副本数据与源端数 据不一致影响数据的准确性。 对于线上数据,通过数据字典、业务系统设计文档、数据资 源目录等数据管理途径,明确来源业务系统、数据表名、字段名、 数据格式、存储路径; 对于线下数据,明确数据格式、管理部门及负责人员; 对于外部数据,通过公司数据归口管理部门掌握的外部数据 清册,查询是否存在符合所需内容、统计口径、时间范围的数据, 明确数据格式、管理部门及负责人员。 2. 数据获取
3
支撑人员为主深入探讨建模技术路线,明确应用需求在数据科学 领域的问题分类,框定算法范围,确定技术实现路线。
表 1:XXX 建模思路示例
应用 模型名称 解决问题
需求
算法范围
设计思路
使用同一馈线下台区的电压
缩减异常排
基于谱聚
运行数据作为模型输入数
线变
查范围,校
类的电压
聚类、逻辑回 据,利用基于图模型的电压
8
次数等。 (2)变量转换 通过对变量进行直接变换,提升模型自变量预测能力,如取
绝对值、取对数、取倒数、取指数、开平方、开平方根等。 (3)分箱转换 通过设置梯度阀值,将连续变量转换为类别变量,以简化数
据分析。例如海拔每 200 米进行一次分箱,由连续型的海拔数值 转换为分类变量。
(4)数据标准化 通过数值计算、归一化、标准化处理,以及其他很多算法消 除数据量纲差别。例如电量、用户数同样是数值型字段但取值量 级差异特别大,通过标准化处理消除因量纲差异造成的分析误差。 6. 数据集成 根据数据建模需求和数据清洗转换成果,将同一个建模逻辑 中的多数据项集成、关联、整合在一起,建立数据分析挖掘宽表, 支撑后续模型构建。 (1)拼接数据分析宽表 针对每一个建模逻辑,研讨数据分析宽表字段构成,按照数 据项之间的关联关系,建立关联规则。数据人员使用与数据存储 环境相适应的数据处理软件、工具,按照关联规则合并为一张或 多张数据分析宽表。 (2)数据准备阶段总结 梳理数据准备各项实施过程操作及结果,形成数据准备报告, 作为数据模型应用过程成果。
数据模型应用过程作业指导书
一、总览 1. 数据模型应用过程概述 数据模型应用过程是应用数据科学理论、方法、技术和工具,
对外立足于服务政府精准施策和经济发展,对内立足于服务公司 经营管理水平提升,依托实际数据应用需求,围绕重点领域开展 数据模型应用,深挖数据价值并形成各类高价值数据应用成果的 工作过程。
拓扑
正完善拓扑
波形相似
归、XGBoost、 波动相似度算法,对同馈线
异常
对应关系,
度线变关
随 机 森 下台区的电压时序数据进行
关系
辅助提升同
系检测模
林……
电压波动一致性识别,得到
检测
期线损准确
型
同一线路下电压波动明显异
性
于其他台区的异动
融合台区用户档案信息、历
史负荷时点数据、气象记录、
受春节期间
节假日等数据资源,以台区
5
按照数据溯源情况,数据人员从对应数据来源获取数据。数 据获取应遵循安全性、完整性、一致性原则。
(1)数据申请 数据人员根据数据溯源表中的来源系统或管理部门,按照公 司信息安全管理等制度要求,申请取得相应系统数据库账号或权 限,办理数据申请、资料交接或其它必要手续,以及存储所获取 数据的数据库权限和空间。 (2)数据获取 对于结构化数据,数据人员按照已确定的数据获取方式,使 用 PL/SQL、ETL、Kettle、OGG、定制接口等数据获取工具或各 类文件传输技术,进行数据获取。 对于非结构化数据,数据人员需要根据数据格式,使用图像 识别、语音识别、自然语言处理等技术,从非结构化数据中提取 结构化信息。 对于外部数据,数据人员需严格遵守数据安全相关规定,在 法律规定范围内获取外部共享数据。 3. 数据探索 源数据获取后,运用统计学相关方法对数据进行初步的剖析 和理解,探索数据项统计学特征,分析变量间相关关系,全面掌 握熟悉数据特性,以具体提出数据清洗、转换、集成方案,并对 建模特征选择提供参考。 (1)统计学特征探索 运用统计学方法,描述性分析数据总体规模、分布、关键字 段取值异常等表现,反映数据的集中趋势、离散程度、分布形式,
现春节期间短期负荷高精度
预测
三、数据准备
数据准备阶段主要包括数据溯源、数据获取、数据探索、数
据清洗、数据转换以及数据集成六个方面。
1. 数据溯源
(1)梳理数据需求
根据业务设计需要,由业务人员、分析挖掘人员、算法人员、
数据支撑人员多方研讨,梳理整合形成数据应用需求表。数据需
求表须包含数据模型应用所需的所有字段,并注明字段格式及填
10
① 把样本数据随机的分成 S 份,每次随机的选择 S-1 份 作为训练集,剩下的 1 份做验证集;
② 当训练一轮完成后,重新随机选择 S-1 份来训练数据; ③ 训练若干轮(小于 S)之后,在验证集上面 F1 值最大 的模型就是我们最终选择出来的模型。
表 交叉验证算法比优表
1
模型构建。基于业务实现逻辑及数据情况,框定算法范围, 通过算法之间优劣对比分析,开展算法择优选型,构建相应的算 法模型,提取数据样本,适应性调整测试集、验证集比例以及模 型参数,完成模型训练及构建。
业务场景验证。基于全量数据进行模型计算及结果输出,结 合业务场景实际,设计数据验证表反馈格式,进行数据验证,收 集验证结果,统计模型准确率、召回率,验证评估模型的准确性 及适用性。
7
(2)异常值处理 结合数据项的作用(是否为统计维度、是否参与计算、是否 有相关阈值、是否为关联字段等),判断异常值对模型构建的影 响程度。按照尽量减少对建模影响的原则选取清洗方式,数据项 取值超出正常合理范围,且存在突增、突减则认为是脉冲值,一 般先置空再进行补缺处理。
图 缺失数据补缺示例
(3)缺失值填补 一般通过其他数据源补充、用其他字段计算得到、凭经验或 业务知识估计、简单填充等方式进行缺失值填补,对于连续采集 值还可采取均值、环比同期值、热卡填充值、平滑变化值、插值 法,按照尽量减少对建模影响的原则选取填补方式。 5. 数据转换 将数据转化为易于分析、挖掘的形式,具体包括变量派生、 变量转化、分箱转换、数据标准化等措施,需根据分析挖掘需要 灵活采用,以增强数据显著性和变化敏感性,让分析人员更好的 挖掘业务规律。 (1)变量派生 通过对已有数据进行数学推导,生成新的变量,方便后续计 算和使用,例如将出生日期转化为用户年龄、统计用户月均消费
使用众数、中位数、平均数、极差、平均差、方差、离散系数、 峰态系数、偏态系数等方法,从大量的、不完全的、有噪声的、 模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知识。通过分析数据整体趋势和数据特 征结论,具体提出数据清洗、转换、集成方案。
(2)因子相关性分析 通过皮尔逊、斯皮尔曼等相关性分析方法确定与业务目标相 关的数据特征、是否存在某种依存关系,包括单相关(分析两个 因素间相关性)、复相关(分析三个以上因素间相关性)、偏相关 (假定其他因素不变,分析其中两个因素间相关性)分析。通过 分析相关性的结果,研讨是否进行主成分分析、因子分析、特征 降维等建模辅助过程。 数据探索做法示例:利用小波变换、DTW、...等方法描述每 个台区在历史春节期间的负荷曲线,依据特征差异将其划分为不 同台区分类,针对每种分类,分析行业分布、地域分布、时间特 征、并量化分析负荷与配抢等客服事件关联规律与重过载的相关 关系等,为建模特征选择提供参考。 4. 数据清洗 参考业务实际及数据探索结果,算法人员建立数据清洗规则, 消除接入的“脏”数据、提升数据质量和可用性,一般包括重复 数据处理、异常值处理、缺失值填补等清洗方式。 (1)重复行删除 针对数据核查中发现的所有数据项均重复的数据记录,一般 进行整行删除处理。
9
四、模型构建 模型构建包括算法选型、模型构建以及参数调优三个方面。
1. 算法选型 基于业务实现逻辑及数据情况,框定机器学习、深度学习等 相关算法范围,通过对算法之间的效果、效率和稳定性等方面进 行优劣对比分析,开展算法择优选型。 例如,预测“是否发生重过载”属于分类预测问题范畴,分 类预测常用的模型选择方法是交叉验证法(Cross Validation), 具体实现:基于宽表数据,通过 Python 编程调用交叉验证方法, 分别求出不同分类算法的 F1 峰值,F1 值最大的即为效果最佳的 算法。步骤如下:
4
写要求(业务含义、内外部数据、来源系统、数据频度、数据类 型、数据格式、数据精度、数据取值范围等)。
表 2:XXX 模型数据需求项划分
内部数据
线上数据
结构化 非结构 数据 化数据
线下数据
结构化 非结构 数据 化数据
外部数据 结构化数据 非结构化数据
字段 名称
字段 1
字段 2
字段 3
……
业务 含义
模型迭代优化。根据模型业务验证的可行性、合理性、准确 性等评价反馈,算法人员对算法模型开展迭代优化,以满足模型 应用要求。
成果固化。根据数据应用需求、服务对象需求,将数据模型 应用过程结果通过不同形式进行输出,形成应用工具类、大数据 集类、算法模型类、智慧决策类等应用成果。
应用评估。评估数据模型应用成果对公司运营的效率、效益、 质量、社会价值等绩效水平的提升情况,对各专业数据及技术领 域的支撑推动情况,对成果本身实际运行的可用性、有效性、实 用性以及效率、效益情况等。
人口流动
负荷特性聚类以及群体规律
春节 春节期间 大、温度骤
性特征分析为切入点,综合
期间
负荷 负荷预测 变等特殊因 时间序列、回 考虑历史用电相似日特性、
精准 模型 素影响,导 归…… 负荷短期惯性、气象影响、
致短期负荷
行业负荷占比影响等因素对
预测
预测准确率
预测结果进行校正,建立不
不高
同维度的负荷预测模型,实
2. 数据模型应用过程内容 数据模型标准应用过程主要包括:业务设计、数据准备、模 型构建、业务场景验证、模型迭代优化、成果固化、应用评估、 推广共享 8 个阶段。 业务设计。调研厘清要解决的现有业务流程及管理现状痛点 问题,提炼确定数据模型应用需求,依据业务实际和关联关系, 梳理业务需求实现的关键点,明确建模依据的业务理论,以业务 视角凝炼合适的模型思路及技术实现路线。 数据准备。针对数据应用需求涉及的数据项、关联规则、映 射关系、来源系统、获取方式等,溯源梳理形成数据需求表。严 格按照数据取用流程及脱敏要求提取所需数据,分析数据整体趋 势、分布情况、规律特征、变量间相关关系,运用各种技术手段 进行数据清洗、转换、集成、规约,形成准确可用的数据分析 宽表,将其作为数据模型的输入源。
推广共享。以发挥数据应用价值为目标,对数据模型应用成 果进行优选,提炼总结相应经验方法,形成有价值、可落地的数 据应用成果,进行运营推广和价值转化。
3. 适用范围 本规范适用于公司各部门及下属单位开展数据模型应用。 二、业务设计
2
业务设计阶段主要包括梳理应用需求、设计建模思路等内容。 1. 梳理应用需求 (1)应用需求调研 以确定应用需求为目标,从业务需求及数据需求两方面开展 需求调研。 业务调研。调研上下游业务部门,确定现有业务流程及管理 现状痛点问题,明确各业务条线的互动关系,调研发现业务人员 隐藏的业务需求及瓶颈,最终提炼数据应用需求。 数据调研。调研影响因子、来源系统、数据存储情况、数据 采集周期、数据频度、数据量,调研发现数据获取问题、数据质 量问题。 (2)明确应用目标 通过应用需求调研情况,确定数据应用要实现的业务目标。 包括且不限于业务规模扩大、成本节约、效率提升、安全提升、 质量提升等。 2. 设计建模思路 (1)业务建模逻辑研讨 根据梳理确定的应用需求,以业务人员为主深入掌握业务主 线流程环节、业务规则及其他内在业务关联逻辑,提出建模业务 依据,数据应用需求方会同业务人员、算法人员,对建模依据的 业务理论、技术方法进行模型化梳理研讨。最终确定建模业务实 现逻辑。 (2)确定技术建模路线 依据建模业务实现逻辑,以分析挖掘人员、算法人员、数据
表 3:XXX 模型数据需求溯源表 内/外
来源 数据 数据 数据 数据 部数
系统 频度 类型 格式 精度 据
百度文库
数据 数据 位置 范围
(2)厘清数据来源 数据溯源时,应尽可能厘清业务数据流转、数据关联、数据 逻辑关系,追溯至业务数据产生源头,以避免副本数据与源端数 据不一致影响数据的准确性。 对于线上数据,通过数据字典、业务系统设计文档、数据资 源目录等数据管理途径,明确来源业务系统、数据表名、字段名、 数据格式、存储路径; 对于线下数据,明确数据格式、管理部门及负责人员; 对于外部数据,通过公司数据归口管理部门掌握的外部数据 清册,查询是否存在符合所需内容、统计口径、时间范围的数据, 明确数据格式、管理部门及负责人员。 2. 数据获取
3
支撑人员为主深入探讨建模技术路线,明确应用需求在数据科学 领域的问题分类,框定算法范围,确定技术实现路线。
表 1:XXX 建模思路示例
应用 模型名称 解决问题
需求
算法范围
设计思路
使用同一馈线下台区的电压
缩减异常排
基于谱聚
运行数据作为模型输入数
线变
查范围,校
类的电压
聚类、逻辑回 据,利用基于图模型的电压
8
次数等。 (2)变量转换 通过对变量进行直接变换,提升模型自变量预测能力,如取
绝对值、取对数、取倒数、取指数、开平方、开平方根等。 (3)分箱转换 通过设置梯度阀值,将连续变量转换为类别变量,以简化数
据分析。例如海拔每 200 米进行一次分箱,由连续型的海拔数值 转换为分类变量。
(4)数据标准化 通过数值计算、归一化、标准化处理,以及其他很多算法消 除数据量纲差别。例如电量、用户数同样是数值型字段但取值量 级差异特别大,通过标准化处理消除因量纲差异造成的分析误差。 6. 数据集成 根据数据建模需求和数据清洗转换成果,将同一个建模逻辑 中的多数据项集成、关联、整合在一起,建立数据分析挖掘宽表, 支撑后续模型构建。 (1)拼接数据分析宽表 针对每一个建模逻辑,研讨数据分析宽表字段构成,按照数 据项之间的关联关系,建立关联规则。数据人员使用与数据存储 环境相适应的数据处理软件、工具,按照关联规则合并为一张或 多张数据分析宽表。 (2)数据准备阶段总结 梳理数据准备各项实施过程操作及结果,形成数据准备报告, 作为数据模型应用过程成果。
数据模型应用过程作业指导书
一、总览 1. 数据模型应用过程概述 数据模型应用过程是应用数据科学理论、方法、技术和工具,
对外立足于服务政府精准施策和经济发展,对内立足于服务公司 经营管理水平提升,依托实际数据应用需求,围绕重点领域开展 数据模型应用,深挖数据价值并形成各类高价值数据应用成果的 工作过程。
拓扑
正完善拓扑
波形相似
归、XGBoost、 波动相似度算法,对同馈线
异常
对应关系,
度线变关
随 机 森 下台区的电压时序数据进行
关系
辅助提升同
系检测模
林……
电压波动一致性识别,得到
检测
期线损准确
型
同一线路下电压波动明显异
性
于其他台区的异动
融合台区用户档案信息、历
史负荷时点数据、气象记录、
受春节期间
节假日等数据资源,以台区
5
按照数据溯源情况,数据人员从对应数据来源获取数据。数 据获取应遵循安全性、完整性、一致性原则。
(1)数据申请 数据人员根据数据溯源表中的来源系统或管理部门,按照公 司信息安全管理等制度要求,申请取得相应系统数据库账号或权 限,办理数据申请、资料交接或其它必要手续,以及存储所获取 数据的数据库权限和空间。 (2)数据获取 对于结构化数据,数据人员按照已确定的数据获取方式,使 用 PL/SQL、ETL、Kettle、OGG、定制接口等数据获取工具或各 类文件传输技术,进行数据获取。 对于非结构化数据,数据人员需要根据数据格式,使用图像 识别、语音识别、自然语言处理等技术,从非结构化数据中提取 结构化信息。 对于外部数据,数据人员需严格遵守数据安全相关规定,在 法律规定范围内获取外部共享数据。 3. 数据探索 源数据获取后,运用统计学相关方法对数据进行初步的剖析 和理解,探索数据项统计学特征,分析变量间相关关系,全面掌 握熟悉数据特性,以具体提出数据清洗、转换、集成方案,并对 建模特征选择提供参考。 (1)统计学特征探索 运用统计学方法,描述性分析数据总体规模、分布、关键字 段取值异常等表现,反映数据的集中趋势、离散程度、分布形式,
现春节期间短期负荷高精度
预测
三、数据准备
数据准备阶段主要包括数据溯源、数据获取、数据探索、数
据清洗、数据转换以及数据集成六个方面。
1. 数据溯源
(1)梳理数据需求
根据业务设计需要,由业务人员、分析挖掘人员、算法人员、
数据支撑人员多方研讨,梳理整合形成数据应用需求表。数据需
求表须包含数据模型应用所需的所有字段,并注明字段格式及填
10
① 把样本数据随机的分成 S 份,每次随机的选择 S-1 份 作为训练集,剩下的 1 份做验证集;
② 当训练一轮完成后,重新随机选择 S-1 份来训练数据; ③ 训练若干轮(小于 S)之后,在验证集上面 F1 值最大 的模型就是我们最终选择出来的模型。
表 交叉验证算法比优表
1
模型构建。基于业务实现逻辑及数据情况,框定算法范围, 通过算法之间优劣对比分析,开展算法择优选型,构建相应的算 法模型,提取数据样本,适应性调整测试集、验证集比例以及模 型参数,完成模型训练及构建。
业务场景验证。基于全量数据进行模型计算及结果输出,结 合业务场景实际,设计数据验证表反馈格式,进行数据验证,收 集验证结果,统计模型准确率、召回率,验证评估模型的准确性 及适用性。
7
(2)异常值处理 结合数据项的作用(是否为统计维度、是否参与计算、是否 有相关阈值、是否为关联字段等),判断异常值对模型构建的影 响程度。按照尽量减少对建模影响的原则选取清洗方式,数据项 取值超出正常合理范围,且存在突增、突减则认为是脉冲值,一 般先置空再进行补缺处理。
图 缺失数据补缺示例
(3)缺失值填补 一般通过其他数据源补充、用其他字段计算得到、凭经验或 业务知识估计、简单填充等方式进行缺失值填补,对于连续采集 值还可采取均值、环比同期值、热卡填充值、平滑变化值、插值 法,按照尽量减少对建模影响的原则选取填补方式。 5. 数据转换 将数据转化为易于分析、挖掘的形式,具体包括变量派生、 变量转化、分箱转换、数据标准化等措施,需根据分析挖掘需要 灵活采用,以增强数据显著性和变化敏感性,让分析人员更好的 挖掘业务规律。 (1)变量派生 通过对已有数据进行数学推导,生成新的变量,方便后续计 算和使用,例如将出生日期转化为用户年龄、统计用户月均消费