智慧银行大数据分析综合服务平台建设方案 智慧银行大数据可视化展会平台建设方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
智慧银行大数据分析综合服务平台建设方案
1
目录
第1章项目概述 (13)
1.1、建设背景 (13)
1.2、建设目标 (13)
1.2.1、总体目标 (13)
1.2.2、分阶段建设目标 (14)
1.3、相关系统联动对接 (15)
1.3.1、数据分析综合服务平台 (15)
1.3.2、量收系统 (16)
1.3.3、金融大数据平台 (16)
1.3.4、各生产系统 (17)
1.3.5、CRM (17)
第2章业务需求分析 (17)
2.1、总体需求 (17)
2.2、数据管理 (19)
2.2.1、数据采集 (20)
2.2.2、数据交换 (20)
2.2.3、数据存储与管理 (21)
2.2.4、数据加工清洗 (22)
2.2.5、数据查询计算 (22)
2.3、数据管控 (23)
2.4、数据分析与挖掘 (24)
2.5、数据展现 (25)
2
第3章系统架构设计 (27)
3.1、总体设计目标 (27)
3.2、总体设计原则 (27)
3.3、系统总体架构设计 (29)
3.3.1、总体技术框架 (29)
3.3.2、系统总体逻辑结构 (34)
3.3.3、平台组件关系 (37)
3.3.4、系统接口设计 (44)
3.3.5、系统网络结构 (51)
第4章系统功能设计 (54)
4.1、概述 (54)
4.2、平台管理功能 (55)
4.2.1、多应用管理 (55)
4.2.2、多租户管理 (60)
4.2.3、统一运维监控 (61)
4.2.4、作业调度管理 (86)
4.3、数据管理 (88)
4.3.1、数据管理框架 (88)
4.3.2、数据采集 (91)
4.3.3、数据交换 (95)
4.3.4、数据存储与管理 (97)
4.3.5、数据加工清洗 (123)
3
4.3.7、数据查询 (150)
4.4、数据管控 (178)
4.4.1、主数据管理 (178)
4.4.2、元数据管理技术 (180)
4.4.3、数据质量 (185)
4.5、数据ETL (193)
4.6、数据分析与挖掘 (197)
4.6.1、数据分析流程 (200)
4.6.2、R语言开发环境与接口 (202)
4.6.3、并行化R算法支持 (202)
4.6.4、可视化R软件包 (207)
4.6.5、编程语言支持 (210)
4.6.6、自然语言处理和文本挖掘 (210)
4.6.7、实时分析 (211)
4.6.8、分析管理 (211)
4.6.9、分析支持 (217)
4.6.10、指标维护 (218)
4.6.11、分析流程固化 (218)
4.6.12、分析结果发布 (218)
4.6.13、环境支持 (219)
4.7、数据展现 (219)
4.7.1、交互式报表 (222)
4.7.2、仪表盘 (229)
4
4.7.4、内存分析 (232)
4.7.5、移动分析 (233)
4.7.6、电子地图支持 (234)
第5章技术要求实现 (235)
5.1、产品架构 (235)
5.1.1、基础构建平台 (241)
5.1.2、大数据平台组件功能介绍 (242)
5.1.3、系统分布式架构 (297)
5.2、运行环境支持 (301)
5.2.1、系统操作支持以及环境配置 (301)
5.2.2、与第三方软件平台的兼容说明 (302)
5.3、客户端支持 (304)
5.3.1、客户端支持 (304)
5.3.2、移动端支持 (304)
5.4、数据支持 (304)
5.5、集成实现 (307)
5.6、运维实现 (310)
5.6.1、运维目标 (310)
5.6.2、运维服务内容 (311)
5.6.3、运维服务流程 (315)
5.6.4、运维服务制度规范 (317)
5.6.5、应急服务响应措施 (318)
5
5.6.7、资源管理 (320)
5.6.8、系统升级 (323)
5.6.9、系统监控平台功能 (324)
5.7、平台性能 (336)
5.7.1、集群切换 (336)
5.7.2、节点切换 (338)
5.7.3、性能调优 (339)
5.7.4、并行化高性能计算 (345)
5.7.5、计算性能线性扩展 (349)
5.8、平台扩展性 (351)
5.9、可靠性和可用性 (353)
5.9.1、单点故障消除 (353)
5.9.2、容灾备份优化 (355)
5.9.3、系统容错性 (362)
5.10、开放性和兼容性 (364)
5.10.1、高度支持开源 (370)
5.10.2、操作系统支持以及软件环境配置 (383)
5.10.3、兼容性与集成能力 (384)
5.11、安全性 (386)
5.11.1、身份鉴别 (387)
5.11.2、访问控制 (388)
5.11.3、安全通讯 (397)
5.12、核心产品优势 (397)
6
5.12.1、高速运算、统计分析和精确查询 (397)
5.12.2、有效的资源利用 (400)
5.12.3、高并发、低延迟性能优化 (402)
5.12.4、计算资源有效管控 (402)
5.12.5、API设计和开发工具支持 (404)
5.12.6、友好的运维监控界面 (408)
5.12.7、扩容、备份、恢复机制 (413)
5.12.8、集群自动负载均衡 (415)
5.12.9、计算能力扩展 (415)
5.13、自主研发技术优势 (416)
5.13.1、高稳定、高效的计算引擎Inceptor (416)
5.13.2、完整的SQL编译引擎 (418)
5.13.3、高性能的SQL分析引擎 (419)
5.13.4、SQL统计分析能力 (420)
5.13.5、完整的CURD功能 (422)
5.13.6、Hyperbase高效的检索能力 (423)
5.13.7、基于Hyperbase和SQL引擎的高并发分布式事务 (426)
5.13.8、Hyperbase非结构化数据的支持 (428)
5.13.9、机器学习与数据挖掘 (428)
5.13.10、Transwarp Stream (434)
5.13.11、内存/SSD/磁盘混合存储 (438)
5.13.12、MR/Spark/流处理统一平台 (440)
5.13.13、多租户支持能力 (442)
5.13.14、多租户安全功能 (443)
7
5.13.15、标准JDBC与ODBC接口 (444)
第6章系统性能指标和测试结果说明 (445)
6.1、性能测试报告 (445)
6.1.1、测试目标 (445)
6.1.2、测试内容 (446)
6.1.3、测试环境 (446)
6.1.4、测试过程和结果 (448)
6.2、TPC-DS测试报告 (452)
6.2.1、测试目标 (452)
6.2.2、测试内容 (452)
6.2.3、测试环境 (454)
6.2.4、测试过程和结果 (455)
6.3、量收迁移验证性测试报告 (456)
6.3.1、测试目标 (456)
6.3.2、测试内容 (456)
6.3.3、测试环境 (457)
6.3.4、串行执行情况 (458)
6.3.5、并行执行情况 (461)
6.3.6、生产表数据规模 (463)
6.3.7、测试结果 (467)
6.4、某银行性能测试报告 (467)
6.4.1、测试目标 (467)
6.4.2、测试内容 (467)
8
6.4.4、测试过程和结果 (469)
第7章系统配置方案 (486)
7.1、硬件系统配置建议 (486)
7.1.1、基础Hadoop平台集群配置规划 (486)
7.1.2、数据仓库集群配置规划 (489)
7.1.3、集群规模综述 (492)
7.1.4、开发集群配置建议 (493)
7.1.5、测试集群配置建议 (494)
7.2、软件配置建议 (494)
7.3、软硬件配置总表 (497)
7.4、网络拓扑 (500)
第8章系统测试 (501)
8.1、系统测试方法 (501)
8.2、系统测试阶段 (503)
8.3、系统测试相关提交物 (505)
第9章项目实施 (506)
9.1、项目实施总体目标 (506)
9.2、项目管理 (506)
9.3、业务确认 (508)
9.4、数据调研 (509)
9.5、系统设计阶段 (510)
9
9.7、ETL过程设计 (512)
9.8、ETL开发与测试 (513)
9.9、系统开发阶段 (514)
9.10、系统测试阶段 (515)
9.11、系统上线及验收 (517)
9.12、提交物 (520)
9.13、系统的交接与知识转移 (523)
第10章项目管理 (525)
10.1、项目总体管理 (525)
10.1.1、项目实施总流程 (525)
10.1.2、项目实施中各阶段的主要任务 (525)
10.1.3、项目组织架构 (532)
10.1.4、项目负责人及主要成员 (541)
10.1.5、项目管理制度 (643)
10.2、项目质量管理 (647)
10.2.1、范围 (648)
10.2.2、过程目标 (648)
10.2.3、角色与职责 (649)
10.2.4、过程活动 (651)
10.3、项目计划 (656)
第11章安全保密 (674)
第12章知识产权 (676)
10
13.1、现场支持服务 (678)
13.2、标准售后技术服务 (679)
13.2.1、提供预防性维护 (679)
13.2.2、系统升级服务 (680)
13.2.3、系统性能优化 (680)
13.2.4、提供系统完整文档 (681)
13.2.5、定期系统健康检查服务 (682)
13.2.6、应急预案 (683)
13.3、承诺 (684)
13.3.1、我方对集团的承诺 (684)
13.3.2、关于开发队伍的承诺 (684)
13.4、技术保证 (685)
13.4.1、方案实用性保证 (685)
13.4.2、应用系统的运行能力的保证 (685)
13.4.3、预防性维护检修内容 (686)
13.4.4、服务响应 (686)
13.4.5、关于软件维护的保证 (687)
13.4.6、专业服务保证 (688)
13.4.7、售后服务流程及时限 (688)
第14章人员培训 (689)
14.1、H ADOOP系统培训 (690)
14.2、业务使用培训 (692)
11
14.4、运行维护培训 (696)
14.5、开发培训 (698)
14.5.1、培训目标 (703)
14.5.2、培训方式 (704)
14.5.3、培训资源 (705)
12
第1章项目概述
1.1、建设背景
随着移动互联网、云计算、物联网和大数据技术的广泛应用,现代社会已经迈入全新的大数据时代。
掌握大数据资产,进行智能化决策,已成为企业胜出的关键。
越来越多的企业开始重视大数据战略布局,重新定义自己的核心竞争力,从数据中揭示规律,了解过去、知悉现在、洞察未来,数据驱动企业运行与决策的科学性,构建智慧企业,打造核心竞争力。
数据的爆炸式增长以及价值的扩大化,将对企业未来的发展产生深远的影响,数据将成为企业的核心资产。
如何应对大数据,挖掘大数据的价值,让大数据为企业的发展保驾护航,将是未来信息技术发展道路上关注的重点。
1.2、建设目标
1.2.1、总体目标
根据集团信息化规划,遵循“互联网+”的理念,建设集团大数据平台,实现集团数据资源的集中及整合,构建集团统一的数据模型,提高企业数据的处理效率与共享程度。
实现对智慧银行内部数据和外部数据的分析挖掘,对内对外提供数据服务。
为全网提供决策支持、产品创新、交叉营销、服务支撑、风险管控以及流程优化等支撑服务。
集团大数据平台将在Hadoop和云计算等技术的基础上,对
13
现有量收系统、数据分析综合服务平台的历史数据、数据模型、报表应用等进行移植,全面整合集团业务数据。
数据来源涵盖集团所有的生产和管理系统,并可接入同业及相关市场甚至互联网信息,建立从业务层到管理层到决策层的智能分析体系,模拟量化风险和收益,实现对集团各种业务数据进行分类、管理、统计和分析等功能,给各级管理人员提供各类准确的统计分析预测数据,使其能够及时掌握全面的经营状况,为宏观决策提供支持;为基层业务人员提供详尽的数据,供其对各自的工作目标、当前和历史状况进行准确的把握,对业务活动进行有效支撑;满足集团经营管理及决策支持,建设国内一流,世界领先的大数据平台。
1.2.2、分阶段建设目标
1.2.2.1、第一阶段目标
利用大数据技术,搭建大数据平台,实现统一数据交换、数据管控、企业级数据分析、数据可视化展现服务等功能。
完成邮务和速递数据资源的归集、加工和整理,取代现有的量收系统,集成现有的数据分析综合服务平台,搭建高性能、扩展性强的数据计算和数据分析环境。
建立集团统一的数据模型,实现数据的标准化和规范化。
对集团各板块及外部的结构化数据、半/非结构化数据进行采集和存储,围绕“服务支撑、风险管控、流程优化、交叉营销、产品创新、决策支持”六个重点应用方向进行大数据成果应用。
1.2.2.2、第二阶段目标
全方位整合集团数据资源,利用专业的数据分析工具,提升
14
数据分析质量与效率,完善数据分析应用模型及相关指标,深入推广六个重点应用方向,逐步提供面向移动互联网的快速服务,不断优化生产工作流程,实现降本增效,为科学运营和决策提供支撑。
1.3、相关系统联动对接
1.3.1、数据分析综合服务平台
数据分析综合服务平台是依托集团综合网,实现邮务数据集中及整合,为集团公司和各省分公司提供企业数据分析挖掘服务,对内对外提供数据服务的信息系统。
该系统使用Oracle数据库,目前数据量已达到9TB,平均日增长量约22GB。
目前该系统已经对接了13个业务系统(集邮系统、报刊系统、电商平台-机票、网运系统、邮资封片卡系统、短信平台、农资分销系统、贺卡兑奖平台、营业系统、投递系统、客管系统、订单系统、国际业务平台),实现了31个省的邮务类数据的上传及下载。
系统实现将数据由全国中心推送至省中心;实现已有专题分析的固化,包括报刊、约投挂号、国内国际小包专题分析结果的固化展现;实现将接入系统的数据按照业务规则进行后台加载、评估、清洗、重构,并按照客户维度进行数据整合;提供对内对外数据服务,支持客户数据的上传和结果下载、邮编匹配、地址清洗匹配等功能。
数据分析综合服务平台是大数据平台的子集,数据分析综合服务平台的数据是大数据平台的数据集市之一。
15
1.3.2、量收系统
量收系统是通过从集团生产经营业务系统及其他相关系统
中自动采集、汇总、上传业务量、业务收入信息(简称量收信息),进行稽核、查询、分析、预警等应用的信息管理系统。
该系统使用Teradata的数据仓库和Oracle的数据库,数据使用空间已接近15TB。
目前该系统已经对接了8个业务系统(速递平台、集邮系统、营业系统、订单系统、报刊系统、农资分销系统、邮资机管理系统、电商平台),此外,通过营业系统还接入商函、国际普邮、电子商务、短信等业务数据。
现有使用用户2.9万个,提供近500张报表的查询,实现集团业务量收入的统计分析,为企业的经营管理起到了很重要的作用,但随着管理要求的不断提高,量收系统的能力已捉襟见肘。
集团大数据平台建成后,将替代量收系统。
1.3.3、金融大数据平台
大数据平台从金融大数据平台获取金融客户、市场营销等数据分析结果以及相关数据,与金融大数据平台互为数据源,用于
支撑集团邮务、速递物流和金融板块对数据分析的需求。
16
1.3.4、各生产系统
大数据平台从各生产系统获取交易数据、基础数据等,对数据进行分析挖掘,将分析成果反馈回各生产系统用于支撑生产运营。
1.3.5、CRM
CRM系统实现以客户为中心的集团与板块间的协同管控,以及集团各环节间客户营销及服务的协同管理。
大数据平台将实现CRM系统的部分数据分析功能。
第2章业务需求分析
2.1、总体需求
大数据平台应支持集团总部、省和地市三级使用方式。
使用单位还包括下属单位和控股公司等。
大数据平台要求使用Hadoop 系统应实现主流数据仓库的功能,同时支持与现有系统Oracle 数据库及Teradata数据仓库的无缝连接。
17
大数据平台需支持多应用管理,即支持对应用的服务级别管理(SLA)。
能够实现应用的访问资源控制,支持资源隔离。
同时支持多租户功能,例如多租户管理、租户的操作员管理、租户的分等分级分组管理、租户的度量管理、租户的角色管理、租户应用授权、租户数据隔离、租户的资源隔离等功能。
大数据平台应具有统一运维监控方面,可以图形化的实现安全管理、用户管理、监控运维、服务调度、应用部署、资源管理、作业编排、服务接口等。
大数据平台应同时支持作业调度管理,即实现统一的作业调度与编排管理功能,支持使用工作流的可视化的方式对工作任务进行统一编排和调度。
同时支持作业的资源管理、流程管理、任务管理、数据管理、应用管理、租户管理、多ETL调度任务的部署和并行处理等功能。
集团大数据平台的建设内容包含:
18
19
Str/UnStr Cloud TOS (SLA )SOA R 、SQL Parser
TDH Hadoop JDBC 、ODBC
Map Reduce 、Spark
基础
平台架构计算
逻辑平台UI
主数据交互(ERP MDM )营销数据(ACRM 交互)综分平台融合
六大重点应用
量收业务分析(逻辑)迁移
量收接口迁移(对外接口)
四大核心功能量收数据迁移外围数
据量收(存量)业务
系统总部、省、地三级
多终端应用图3-1大数据平台建设内容
重点建设内容包括:
1) 基础平台建设
2) 量收迁移
3) 六大重点应用
4) 与CRM 、综分、MDM 等系统的融合
5) 基于大数据平台的数据应用。
2.2、 数据管理
集团大数据平台的数据管理,包含数据采集、数据交换、数据存储与管理(包含结构化数据管理、半/非结构化数据管理、数据存储等)、数据清洗加工、数据计算和查询等方面的内容。
2.2.1、数据采集
大数据平台需要采集各类内外部数据,形式多样,需支持不同频度、不同形态的数据采集。
采集方式包含网上数据填报、流方式、批量导入方式、外部数据文件导入、异构数据库导入、主动数据抽取、增量追加方式、网上爬虫方式等,数据形态包括结构化数据、半结构化数据、非结构化数据。
2.2.2、数据交换
与大数据平台对接的系统很多,这些系统数据库结构各异。
因此,数据交换方面,需要考虑各类数据格式、各类传输频次的数据导入导出。
数据源包括各业务系统数据接入、互联网数据采集、合作伙伴系统数据接入、外部临时数据导入支持等。
数据格式主要包含文本文件,XML等多种方式,传输频次包含非实时、准实时、实时形式。
同时支持数据源管理功能,实现大数据平台内各存储区之间的数据交换功能,提供可自定义的对外数据服务接口能力,同时支持数据接口热扩展能力。
20
2.2.3、数据存储与管理
结构化数据管理包括对结构化数据的采集管理、数据加工管理、数据存储管理、对外接口、实时监控、安全管理、数据重构等功能。
半/非结构化数据管理包括半/非结构化数据的采集管理、数据内容搜索、数据生命周期管理、数据加工管理、数据存储管理、对外接口、混合查询、实时监控、自然语言查询、智能化知识检索功能。
数据存储管理功能包括数据分区划分方式、适用场景、对应计算处理框架、硬件配置推荐等。
同时需要支持多存储层级,实现数据的多温度管理,能够将数据存储在不同IO读写速度的不同介质上。
支持对数据生命周期进行管理。
支持多种索引模式,具有索引分析与选择功能和工具。
支持多数据副本管理功能,能够进行数据平衡、索引平衡的检测。
支持自动平衡功能和数据自动重分布功能,提供数据平衡和索引平衡的工具。
支持在线变动节点管理功能,支持在线增加、删除节点时,数据和索引的倾斜探测和自动平衡功能,保证平滑扩展和性能的线性增长。
支持多
21
种数据分区管理、多数据类型管理、多文件格式管理、数据自定义标签管理、数据块读写锁处理、数据文件元数据备份和恢复,支持数据压缩、表压缩功能,节省数据空间。
2.2.4、数据加工清洗
支持数据从来源端经过抽取、转换、加载至目标端的过程。
支持多数据源,包括Teradata、Vertica、DB2、Oracle、Sybase、文本、Excel、Hadoop等数据源。
实现传统数据库、数据仓库与Hadoop以及Hadoop集群之间的数据抽取、转换、加载等功能。
支持数据加工功能,提供数据加工规则管理,支持不同形态数据加工管理;
支持数据清洗功能,包括数据清洗环节管理、数据清洗规则管理、数据清洗监控、数据清洗预览、应用主数据进行清洗管理等功能。
2.2.5、数据查询计算
支持对多计算框架管理,计算框架包括批处理计算框架、内存计算框架、流计算框架等。
22
支持并行计算及并发处理功能,支持多服务器、多CPU、多进程并行及并发处理数据的机制。
支持PL/SQL存储过程、分布式事务及ACID属性及自定义函数功能。
能够实现OLAP查询功能,需要内置OLAP函数,支持超大数据立方,支持雪花、星型等复杂模型。
支持CUBE,支持国际SQL92、SQL2003标准,能够实现数据字典、动态SQL执行、视图、子查询、JOIN 查询功能。
支持全文检索。
支持中文字符集,实现中文分词功能,支持结构化数据和半/非结构化数据联合查询,支持预定义维度数据查询,支持简单查询、组合查询、模糊查询等。
2.3、数据管控
数据管控主要是对主数据、元数据、数据标准和数据质量的管控。
集团大数据平台的数据管控组件对集团集团现有的产品能够完善集成,使集团元数据能够整体管理。
23
图3-2大数据平台数据管控
2.4、数据分析与挖掘
本方案对R语言提供支持。
支持ANSI SQL、Python、R、Java、
C/C++等语言的使用。
应提供图形化界面操作支持,操作界面要求简体中文。
支持对TB以上级别的数据进行分析挖掘的功能,应对分析挖掘中的中间数据和结果数据的灵活存储提供支持,应对多数据来源输入输出提供支持。
支持处理过程的数据预览功能。
支持数据分析挖掘算法管理,每个算法能够灵活选择数据
源。
24
支持对分析挖掘的脚本和模型的共享,可实现用户分析挖掘脚本和模型的发布与管理。
支持数据的探索和发现,实现通过作图、制表、方程拟合、计算特征量等手段探索数据结构和规律。
对统计分析方法、数据挖掘、模型预测提供支持,并实现其分布式并行计算。
对常用场景实现提供支持。
场景包括客户画像、产品推荐、自然语言处理、语义分析、舆情分析、文本挖掘、客户行为预测等。
对分析挖掘的脚本和模型的快速应用、服务提供支持,能够快速生成分析报告和图表、发布实时/非实时的分析应用、使用Web方式访问分析应用成果。
实现对分析指标管理、分析过程的管理以及对挖掘模型固化的支持。
2.5、数据展现
支持多数据来源输入输出;
支持表格、图形、地图等可视化元素展示,对电子地图、GPS
25
定位的应用、服务提供支持。
支持数据互动、过滤、钻取、刷取、关联、变换等功能。
支持多维度多种类的自定义。
支持数据脱敏的展示。
支持多种展示端的展示,包括PC端、移动端、大屏等。
其中移动端应基于集团移动应用平台架构建设。
2.6、量收系统功能迁移
量收系统主要功能有基本业务分析、渠道分析、产品分析、大客户分析、欠费分析、流量流向分析、进销存分析、预警稽核、系统优化功能等,需要对原量收系统全部功能进行迁移。
26
第3章系统架构设计
3.1、总体设计目标
建立集团的企业级数据中心,实现集团数据资源(结构化、
半结构化和非结构化数据)的归集、整理、加工和分析,并利用大数据相关技术及数据分析挖掘工具,建立数据应用模型,为全网提供决策支持、产品创新、交叉营销、流程优化、服务支撑以及风险管控等服务,有效地挖掘数据的价值,实现集团数据资源的“共享、共用、共赢”。
3.2、总体设计原则
(一)标准化:本系统采用的技术架构均遵循网络协议和传输标
准的要求,相关开源及原创技术均符合国际技术组织条款规范。
提供文档标准化,满足GB8567-1988、GB/T11457-89的行业标准;
(二)可扩展性:由于用户以后的需求会不断发展,使用人数将
随之扩大,业务压力不断上升,只要横向扩展增加服务器台
数,不用添加其它附加设备,以保证用户的原投资被利用。
27
(三)可用性和可靠性:我们的方案在充分考虑用户实际情况的
基础上,选用F5作为负载均衡器,采用了Weblogic作为Web 应用容器,操作系统采用红旗版Linux,从而减少了其它因素造成的故障。
(四)易用性:该系统使用界面良好,用户无需安装客户端软件,
只需通过IE 浏览器就可进行实时操作,同时系统架构设计优良,可以很方便进行系统升级。
(五)开发式结构:该系统内置“数据交换适配平台”可以与第
三方系统相融合,可以读取第三方系统的相关数据,可以为第三方系统提供其需要的相关数据,提供标准的Web Service 接口,具有开放式结构。
(六)完善和可靠性:具有设计独到的功能使用及数据访问权限
控制,保证统一、规范管理,支持3DES和RSA加密技术,使数据存储和传输安全牢不可破。
系统具有错误故障日志记录功能,便于快速诊断定位问题。
(七)实时性:该系统支持负载均衡技术,及时响应多人实时并
发操作。
(八)先进性:基于统一的整体架构,采用先进的、成熟的、可
28
靠的技术与软硬件平台,保证数据仓库系统易扩展、易升级、易操作、易维护等特性。
(九)高效性:线性扩展的TDH的数据仓库平台,保证了ETL时
间的窗口以及查询效率,数据抽取的特殊性,通常在夜间业务稀少的情况下进行数据抽取,减少了对其他系统的影响。
(十)正确性:数据质量贯穿数据仓库系统建设的每个环节,数
据仓库系统通过合理的数据质量管理方法论保证数据质量。
3.3、系统总体架构设计
3.3.1、总体技术框架
大数据平台是一个可扩展的数据平台,全面整合集团业务数
29
据,建立从业务层到管理层再到决策层的集团数据智能分析体系,使经营者能够及时掌握全面的经营状况,迅速做出科学决策。
4-12总体总体结构图
参见上图,集团大数据平台主要分成六大部分:
1、用新技术建设集团大数据平台,在平台上构建智慧银行级
的数据仓库;
2、建立统一的数据采集加工平台,供大数据平台从各业务系
统及外部环境采集、加工、清洗、爬取数据;
3、数据管控平台,为大数据平台提供主数据管理、元数据管
理、数据质量管理、数据标准管理、数据安全管理等服务;
30
4、企业级数据分析平台,主要用于经营分析和决策支持;
5、数据可视化展现平台,包括:可视化交互查询、图表展示、
移动展示、地图展示、管理驾驶舱等;
6、数据分析与挖掘平台,包括:并行化算法模型库、数据分
析挖掘工具等。
4-13总体技术框架图
参见上图,集团大数据平台系统总体技术框架,自下而上主要包含六层:
1、硬件设备层
31
部署于集团数据中心机房的服务器设备、网络设备、存储设备、负载均衡器、VPN/防火墙等硬件设备;
2、虚拟化资源层
基于分布式容器集群管理系统构建的服务器虚拟化资源池,可为各类应用、分布式计算和存储服务组件提供多租户的容器资源分配及调度管理、应用打包部署及运行、服务注册和发现、动态扩缩、均衡容灾等资源管理服务。
3、应用平台层
为大数据分析应用的开发、测试和运行提供平台支撑,主要包括:J2EE应用服务平台和Spring框架、报表和分析展现平台、并行化算法模型库、ESB服务总线和ETL数据集成平台、身份认证和访问控制组件、全文检索组件等。
大数据分布式计算和存储平台组件,主要包括:分布式列存储数据库、分布式文件系统、SQL引擎、实时流处理引擎、联合查询引擎、并行化R算法执行引擎、全文检索引擎、分布式批处理计算引擎(Hadoop/Spark/MapReduce)以及任务调度与监控等组件。
4、应用服务层
32。