证券行业投资者服务数据集市-建设方案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

证券行业投资者服务数据集市

建设方案

目录

1.背景介绍 (3)

2.项目需求 (4)

1.功能性需求 (4)

2.非功能性需求 (5)

3.安全性需求 (5)

3.技术架构 (5)

3.1.逻辑架构 (5)

1.数据采集途径一:批量数据ETL (6)

2.数据采集途径二:准实时数据同步 (6)

3.数据存储 (7)

4.数据服务 (7)

3.2.数据架构 (7)

3.3.物理架构 (9)

1.批量数据ETL 服务器 (10)

2.数据缓存队列服务器集群 (11)

3.集市数据库及并行计算服务器集群 (11)

4.应用服务器集群 (11)

4.关键技术 (12)

4.1.NoSQL 数据库:SequoiaDB (12)

4.2.批量数据加工:Spark SQL (15)

4.3.实时数据流处理:Kafka + Spark streaming (16)

5.总结和展望 (17)

5.1.项目成果 (17)

5.2.未来规划 (18)

1.批量数据ETL 流程优化 (18)

2.数据生命周期管理 (18)

3.元数据管理 (19)

1.背景介绍

我国股市约有 1.2 亿散户,直接关乎上亿家庭、数亿人切身利益,保护好投

资者尤其是中小投资者的合法权益,是资本市场工作人民性的具体体现,也是服务

实体经济的应有之义。党的十九大明确提出“必须坚持以人民为中心的发展思想”。

中国证监会有关负责人表示,要认真贯彻落实十九大精神和党中央、国务

院关于资本市场建设的一系列决策部署,加快推动形成融资功能完备、基础制度

扎实、市场监管有效、投资者合法权益得到有效保护的多层次资本市场体系,切实

做好投资者保护工作。证监会主席刘士余先后多次强调“投资者保护重如泰山”、“保护投资者合法权益是证监会职责和使命所在”、“保护中小投资者合法

权益是天大的事”。目前,公司对投资者服务主要依赖人工柜台,柜员手工进行业

务操作和数据查询,受限于服务网点数量和人工办理效率,不能很好满足投资者服务

需求。为更好地服务广大中小投资者,保护其合法权益,根据公司战略布局和技术

规划,决定建设多渠道的投资者综合服务专区系统及相配套的面向投资者服务的数

据集市,为其提供用户体验好、快速便捷、智能化的账户查询和证券质押等服务。

在数据集市建设之前,数据查询主要依赖于数据仓库。数据仓库是一个集成的、面向主题的数据集合,设计的目的是支持决策支持系统的功能。在数据仓库里,每个数据单元都与特定的时间相关。数据仓库包括原子级别的数据和轻度汇总的数据,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。数据仓库是一个典型的OLAP 系统,在高并发、快速响应的场景下具有很大的局限性,无法满足海

量投资者数据查询服务需求。目前数据仓库使用TD 一体机设备,成本十分高昂。数据集市(Data Mart) ,也叫数据市场,是企业级数据仓库的一个子集,是为满

足特定的部门或者用户的需求,只面向某个特定的主题,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数

据立方体。为了解决灵活性与性能之间的矛盾,数据集市就是数据仓库体系结构中

增加的一种小型的部门或工作组级别的数据仓库。数据集市存储为特定用户

预先计算好的数据,从而满足用户对性能的需求。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

为了保证投资者服务系统在低延时和高并发查询的情况下具备足够的支撑能力,可以7×24 对外提供数据服务,且不影响原有数据仓库统计分析应用的正常运行,最终决定建设面向投资者服务的专业数据集市。

2.项目需求

投资者服务数据集市主要目标是以面向用户体验为基础,具有业务敏捷、分布式服务、高伸缩、高可用、易管理维护等特点,为多渠道的投资者综合服务专区服务。先期开始建设的数据集市主要包括有新三板市场投资者服务数据集市、基金市场投资者投票服务数据集市、全市场在线业务查询数据集市。

其建设原则应包括:

●抓住主线功能需求;

●采用主流技术;

●满足未来发展需求;

●充分验证测试。

基于上述目标和原则,我们总结了如下需求。

1.功能性需求

●存储现有数仓中沪深市场、新三板市场、基金市场等各类投资者数

据;

●支持结构化和非结构化数据;

●数据库和其他服务组件具备动态扩容能力,以支撑数据集市阶段性

发展的容量和计算能力需要;

●支持T+1 批量数据的ETL 功能,能够从TeraData 数据仓库及其他数

据库采集数据;

●支持实时数据流处理能力,实现准实时数据同步;

●支持数据加工,主要是多表关联和聚合运算;

●数据库支持SQL 和API 访问接口,方便应用开发;

●支持数据备份恢复;

●具备完善的管理功能,例如监控、配置和任务调度等;

2.非功能性需求

●海量数据存储。初期至少支撑100TB 存储容量,远期支撑PB 级;

●高并发访问。初期至少支撑1 万并发查询,远期支撑10 万并发查询;

●低延时。在高并发情况下,查询响应时间不超过100 毫秒;

●7x24 持续稳定运行。在高可用集群技术支撑下能够实现集群级别的

不间断持续稳定运行,并能够在绝大部分场景下进行不停止集群的

数据库维护工作。

3.安全性需求

●数据高可用。需要支持多副本冗余。在部分副本数据损毁情况下,

保障数据不丢失;

●用户身份验证和权限管理。用户不可越权访问数据;

●完善的审计功能。能够完全记录所有数据访问和数据操作。

3.技术架构

3.1. 逻辑架构

截止目前,三个数据集市的数据分别来源于数据仓库和基金投票系统。所有数据需经过ETL 处理后存储到数据集市中,部分数据还需经过批量加工处理后,供下游数据使用者查询。数据集市的逻辑架构如图一所示。

图一:逻辑架构

相关文档
最新文档