支付清算业务大数据分析平台ETL流程r设计与实践
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
支付清算业务大数据分析平台ETL流程r设计与实践
支付清算业务大数据分析平台ETL流程设计与实践
■ 中国人民银行长沙中心支行谢亚龙
【摘要】原始数据的抽取、转换和加载(ETL,Extract-Transform-Load)是构建大数据分析平台的基石,良好的ETL流程设计,能够加快项目开发进度,降低“脏数据”比例,提升大数据分析平台的整体运行效率和分析报表的准确性。
本文以湖南省人民银行支付清算业务大数据分析平台项目实践为基础,阐述大数据分析平台中的ETL设计流程与实践经验,总结项目成效与不足,为后续工作提供参考。
【期刊名称】金融科技时代
【年(卷),期】2018(000)008
【总页数】3
【关键词】支付清算;ETL;数据清洗;大数据
一、建设背景
桌面云、超融合、大数据等新技术的快速发展,为央行各职能部门提供了更为丰富、更高效率的履职工具和履职手段。
如何利用新技术充分挖掘央行各职能部门的历史数据,为行业监管、政策研究及高层决策提供更多维度、更多视角的参考建议,已成为央行系统科技及业务条线共同研究的课题。
在此背景下,中国人民银行长沙中心支行(以下简称“人行长沙中支”)科技处与清算中心通力合作,共同完成了湖南省支付清算业务大数据分析平台项目的建设,旨在利用大数据分析技术,深度挖掘人民银行第二代支付系统中的大额、小额、网银转账等清算数据,分析全省各区域资金流入流出情况、产业和行业资金动向等,为地方金融经济运行、产业和行业的发展与预测、区域金融监管与政策制定等提供参考。
二、ETL流程设计
在支付清算大数据分析平台项目的实践过程中,ETL流程设计与
优化贯穿始终。
从整体上看,ETL流程的主要任务是负责将人行清算总中心回传的数据包按照特定格式进行转换、校验和清洗,然后加载至大数据分析平台中的数据仓库Hive,并激活分布式分析引擎(Apache Kylin)的数据立方体编译策略,生成多维查询数据,为后续的快速数据分析与查询、报表生成与展现等做好准备工作。
ETL流程可分为数据抽取、数据转换、数据加载3个子流程。
子流程之间相互依赖,前一个子流程的输出是下一个子流程的输入,某个子流程执行失败会导致该批次的全部数据导入失败,需对数据进行修正后重新执行所有的子流程。