大数据平台体系下的数据质量保障

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据平台体系下的数据质量保障

前言

纵观国内证券公司的信息技术发展历程.经历了“信息孤岛”“互联互通”“证券信息化”“互联网+”等阶段,随着信息技术日新月异的快速发展和应用,“金融科技”正深刻改变着金融业IT服务模式与业务模式,打造“数字化证券公司”已经成为券商发展的方向。其中以“大数据”“人工智能”为代表的信息科技是近两年来在包括证券行业在内的金融领域继“互联网+”后应用最广泛、且日益体现出其价值的技术能力。越来越多的科技创新、服务创新将全方位依赖大数据平台。随着业务管理越来越复杂,充满了各种风险和不确定性,从而对数据要求越来高,同时数据集中化管理、应用分布式管理的模式导致以大数据平台为中心的数据应用体系建设必须跨部门甚至跨公司进行协同,在数据标准、数据质量、数据安全等方面造成潜在隐患。下图为大数据平台架构体系:

一、大数据平台数据体系架构

来源层:

来源层指向数据体系提供来源数据的系统,它们对大数据平台提供基础数据支持。涉及到的内部数据来源主要有:集中交易柜台、融资融券柜台、投资管理系统、估值系统等,外部数据来源包括互联网、人行征信、司法等。

传输层:

传输层为大数据平台提供数据支持,提供的数据包括:

数据服务平台:负责数据的传输,包括以下传输方式:

⏹非实时:以T+1的方式传递离线数据,先由各源系统通过SFTP传给

NAS数据缓存区,然后通过ETL工具load到大数据平台;

⏹实时:以交易形式产生的数据,实时传输至大数据平台。

⏹准实时:以CDC/GG方式采集的数据,准实时传输至大数据平台。

⏹爬虫:从互联网下载数据,实时传输至大数据平台。

补录平台:采用补录,以手工方式将数据补充到大数据平台中。

工具层:

工具层为支持大数据平台运作而配套的管理及监控系统。具体包括以下系统:

元数据管理平台:实现元数据的管理和发布工作。

数据标准管理平台:实现数据标准的管理及发布工作。

数据质量管理平台:实现数据质量标准的管理及对数据仓库实现数据质

量监测。

统一登录平台:提供统一登录入口,通过统一登录入口访问各应用系统。

指标管理平台:对指标进行生命周期管理和指标衍生。

客户标签管理平台:对客户标签生命周期管理和标签衍生。

统一调度平台:对大数据基础平台的ETL处理进行调度及监控。

数据层:

数据层负责大数据平台中数据的处理、存储和发布。

接口区,负责数据的接入,数据接入包括以下方式:

⏹准实时接口:采用HBASE数据表,存储准实时数据。

⏹MongoDB:采用MongoDB,记录采集到的爬虫的页面信息。

⏹非结构化数据区:将非结构化数据在HDFS中规划存储。

⏹实时接口:采用HBASE数据表,存储实时产生的数据。

ODM层即技术缓冲层,为数据进入大数据平台T+1的数据入口,向数据中心主体提供数据,支持其进行深入分析。

ODS层即贴源层,对贴源数据进行历史存储,由于CDM层建设方式为业务驱动,因此HDM层为大数据平台中最大的数据基座,为整个数据体系

提供最完整,丰富,久远的数据。

CDM层即模型层与共性加工层,对公司内外数据进行整合、清洗、标准化、存储、管理以及进行标签及模型的开发,从而保障向各集市提供数

据的质量。

集市层,应对业务需求,提供个性化的数据。数据组织形式以业务驱动。

集市建设采用业务驱动而非应用驱动,从而实现不同应用间的数据共享,

在集市层的每个次扩展均会影响到不同的应用,使各应用的功能越来越

强大、高效。

⏹准实时分析层:对准实时数据结合CDM层的T+1数据进行准实时分

析。

⏹实时分析层,对实时数据结合CDM层的T+1数据进行实时分析。

⏹非结构化检索层,对从非结构化数据收集的标准信息与CDM层的T+1

数据进行综合分析。

⏹管理分析层,对CDM层的T+1数据进行管理类分析。

⏹指标层,对CDM层的T+1数据进行指标化处理,建立全公司指标体

系。

⏹客户标签层,对CDM层T+1的客户业务数据进行抽像,生成对应的

标签信息,从而提供良好的扩展性能,支持客户的灵活分析。

⏹客户业务层,对CDM层的T+1数据及客户标签数据进行整合处理,

从而生成可高效访问的客户业务模型数据。

⏹沙箱,数据演练环境,用于训练各种数据挖掘模型及演练数据分析。应用层:

应用层负责为满足不同数据类型对数据发布的要求。包括以下发布策略: 报表平台,负责T+1、准实时、实时的固定报表、多维报表、明细报表的查询。

历史查询平台,支持WEB和ESB的数据提供方式,需支持海量历史数据的客户级查询。对性能方面有较高要求。

自助分析平台,支持WEB和ESB的数据提供方式,可支持数据的灵活配置,以快速满足业务需求。

非结构化检索平台,对非结构化数据提供检索,使用户可通过各种非结构化数据标准获取非结构化数据文件。

管理驾驶舱,支持PC和移动的方式,以图形化展现数据,可实时、准实时、T+1地展现业务况状。

决策引擎,应对实时访问,对数据进行实时地分析,获取实时数据分析结论,以支持实时决策。

数据服务平台(实时、准实时),向业务系统提供实时、准实时的数据传输方式。

二、数据体系下数据质量管理

1.来源层数据质量管理

来源层数据质量检核以基础数据检核为主

1.1.数据完整性检查

完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;例如,个人客户姓名不应为空,个人客户证件号码不应为空等;

1.2.数据有效性检查

主要包括格式、类型、值域和业务规则的有效性,例如,按照国标要求,进出口经营权许可证号长度为13,后9位与组织机构代码一致。

2.数据传输层数据质量管理

基于大数据平台的数据传输方式,通过数据集成工具到数据源系统把数据拉取到大数据平台,这和数据仓库的数据抽取(Extract)过程非常类似。数据仓库在数据抽取后会根据相应要求做数据转换(Transform)。可借用数据仓库的"抽取—转换"概念。在数据被复制到共享库时,按照一定的数据标准进行转换,再把标准化的数据存储到相应的数据中。要完成这个转换过程,需要做好几项基础工作)∶

1、统一数据标准,数据标准化
将同一类型的数据用统一的格式来表示,比如日期、电话号码、性别等。数据标准化的工作同样反映了信息系统中属性数据结构化的改进思路,最好能在系统建设初期就引入相应的业务数据标准。

2、统一信息分类标准和业务代码标准,建立企业或组织的数据引用标准;

3、建立全局数据字典和数据转换字典。

企业或组织一般都有产品化系统,这些系统的数据定义和业务代码一般很难再法改变、因此有必要建立全局数据字典和数据转换字典,在数据集成时保证业务数据的完整和一致、尽可能消除数据转换的偏差。通过数据复制过程中的数据标准化,可以提高共享数据的可用性,进一步保证各应用系统的数据质量常用的数据集成工具都支持数据的"抽取一转换"工作。

相关文档
最新文档