适用于证券行业的数据集市设计思路与探索
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
近年来,大数据、人工智能、云计算等技术加速创新,并不断应用于证券行业中,推动证券公司数字化转型,已经成为证券行业下一阶段发展的重要驱动力。数据是证券公司的核心资产,如何最大程度地发挥数据价值,一直是整个行业不断探索的问题。目前,证券行业机构多、类型广、交易方式多样,数据化程度较高,机构内及机构间数据交换频繁,因此提升对各类数据的快速处理能力迫在眉睫。本文提出了一种适用于证券公司的数据集市设计思路,基于中信证券股份有限公司(以下简称“中信证券”)的资产管理业务数据仓库,对各类金融数据进行抽象建模,以满足各类数据需求,为证券公司内外部数据服务提供了一种新的思路。
一、数据系统架构
中信证券自2002年开始经营资产管理业务,有着二十多年丰富的投资管理经验,与客户携手共同成长。目前,中信证券是业内唯一一家同时具有企业年金和职业年金投资管理人、社保基金境内投资管理人和社保基金转持股份管理资格、保险资金受托投资管理资格、基本养老保险基金投资管理人资格的券商资管机构。截至2022年底,中信证券资产管理业务受托管理资金总规模达1.42万亿元,连续14年稳居同业首位,业务范围不仅覆盖了定向资产管理,大集合、小集合资产管理计划以及专项资产管理计划,私募基金、公募基金等基金类净值产品,还包括了为银行或非银企业客户以及其他高净值客户定制的金融服务。
为满足上述业务发展需要,中信证券迫切需要建设一套完备的数据处理系统,用来支撑投资、交易、绩效分析、信息披露、监管报送等各类数据需求。为此,中信证券资产管理IT团队开展了资产管理业务数据平台(以下简称“资管数据平台”)建设工作。依托公司的投资交易、估值、公文等应用系统,资管数据平台实现了资产管理业务各类数据的统一存储、统一计算、统一服务,用于满足信息披露、绩效分析、内部运营、高净值客户服务、合规风控等各类业务需求。随着公司业务的进一步发展,资管数据平台的横向扩展能力可为公司的数字化转型充分赋能。
中信证券资管数据平台整体架构分为源数据、数据仓库、数据应用三个部分(如图1所示)。
图1 中信证券资管数据平台整体架构
源数据包含中信证券资管投资交易系统、基金登记结算系统、估值系统、资讯数据平台以及中信证券其他业务系统的源数据。
数据仓库具有资管数据的运算、存储和转换等功能。首先对数据进行清洗转换等预处理操作,然后对其进行数据标准化、数据整合和数据计算,最终形成一整套标准的多维数据模型,供上层的数据服务应用。通过一系列的数据处理,可以形成一整套格式化、规范化、标准化的资管业务数据资产。
数据应用提供各种类型的数据服务,其中包括报表展示、即席查询、数据分析等功能,为资产管理的各类业务开展和满足监管需求提供坚实的数据支撑。
在整个资产管理业务数据平台体系中,数据仓库是最重要的部分,数据仓库中的数据模型设计直接影响到最终数据服务的质量。
二、数据分层
中信证券资管数据平台架构中的数据仓库采用数据分层的建设理念,其目的是为了应对雷同的数据口径被不同层次的计算逻辑调用,从而导致的依赖结构混乱,甚至出现循环依赖的情况,进而实现数据的有序流转。数据分层具有如下优势:
一是数据结构更为清晰。在数据分层的体系中,每一个数据层级都有各自的作用和职责,在具体设计和开发时,设计者能快速地理解数据逻辑。
二是复杂问题简单化。将原有的复杂任务拆分到多个步骤,每个层级只解决特定的问题,从而简化每一步的处理逻辑。
三是数据口径更为统一。通过数据分层,每层提供统一的数据出口可以使运算结果更为统一。
四是减少重复开发。通过数据分层,将不同层级的数据加工逻辑进行规范,开发通用的数据指标,可以显著减少重复性开发。
在数据分层体系中,按照业界比较成熟的分层方案,数据仓库分为数据运营层(ODS)、数据模型层(DWD)、数据集市层(MART)和数据服务层(ADS)。中信证券资管数据平台分层架构如图2所示。
图2 中信证券资管数据平台分层架构
1.数据运营层
数据运营层是数据仓库分层模型的基础层,为DWD层准备了原始的业务数据。公司投资交易系统、估值系统等业务系统的数据经过抽取、清洗转换及
ETL(Extract-Transform-Load)过程之后,即存入该层。因为有该层数据的缓冲,业务系统数据的变更对上层数据模型的影响得以减轻。
2.数据模型层
数据模型层可进行数据建模操作,去除空数据、脏数据等,根据业务的需要,生成一些面向应用的基础明细表,并且相应地加工出一些面向分析的大宽表,真正实现数据的标准化。
数据模型层是数据仓库应用的基础。根据业务使用的场景不同,中信证券在该层设计了事实表和维度表,形成了一整套规范的、高质量的、可信的基础模型数据。
3.数据集市层
随着业务的快速发展以及对数据精细化要求的愈发严格,完全通用的数据模型难以满足特定数据应用的具体要求。因此,在DWD层的基础上,资产管理IT团队设计了数据集市层。该层对标准化的数据进行了业务主题划分,并在划分主题的基础上,衍生出各主题模型的数据整合方式以及相应主题的数据指标。
引入DWD层后,通过主题域的划分,资产管理IT团队将不同类别的数据进行类目划分,可以更便利地查找各类数据,并且在该层可以实现各种定制化数据指标的计算以及数据分类转换等操作。
4.数据服务层
数据服务层是指提供最终数据产品的服务层,一般可以将数据分析结果存放在数据库中,供各类报表系统等在线系统使用;或是通过各种业务系统的查询页面供客户进行查看;也可以通过各种离线系统提供纯文本的数据产品服务。
三、数据集市设计
建设数据集市是证券公司数据资产信息化的重要一步,其设计思路是:从MART 层抽取出数据,面向部门级业务或某一个特定的主题重新对数据进行加工汇总,可以更好地解决灵活性和性能之间的矛盾。设计目标是给用户提供一个数据仓库的子集,而不是整个数据仓库,从而缩短处理基础数据的时间。在实际应用中,数据集市不但可以提高工作效率,还可以通过采用其他技术手段提高数据质量、统一数据口径,使相关岗位员工能专注于更有价值的数据挖掘工作。数据集市建设分为如下两个步骤:
1.梳理抽象模型
在设计时,需要根据实际的应用梳理出抽象的数据模型。资产管理IT团队以监管和信息披露的数据为主线,通过对资本市场的各类业务行为进行梳理,对关键的流程以及数据要素进行识别,形成了特定整体数据架构。
2.设计逻辑模型
根据上述设计思路,将数据集市分为如下八个主题域。
(1)产品域