金融集团大数据分析平台总体架构培训讲义
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基金系统
……系统
数据交 换层
数据 产生层
金融集团大数据分析平台总体架构培训课件
7
大数据分析平台总体架构——数据产 生层
源数据内容
内部业务系统产生的结构化数据
❖ 商城日常零售业务处理过程中产生的结构化数据,存储在关系型数据库中,如:供应商信息、采购信息、商品信息、销售流水…… ❖ 金融集团日常业务处理过程中产生的结构化数据,存储在关系型数据库中,如:客户信息、账户信息、金融产品信息、交易流水……
金融集团已开展供应链金融、人人贷 和保理等多种业务,积累了一定量的 业务数据,同时业务人员也从客户管 理、风险评级和经营规模预测等方面 ,提出了大量分析预测需求;
……
存在的问题
商城数据仓库累积数据没有充分利 用
缺乏面向整个金融集团的统一、完 整的数据视图;
缺乏支撑金融集团日常业务运转的 风险评估体系;
数据平台计算层各 数据区
❖ 贴源数据区 ❖ 主题数据区 ❖ 集市数据区 ❖ 沙盘数据区 ❖ 大数据区 ❖ 归档数据区
实现功能
组件以批量方式实 现下列数据交换功 能:
❖ 贴源数据区和主题数据 区到集市数据区
❖ 大数据区到主题数据区 和集市数据区
❖ 主题数据区、贴源数据 区、集市数据区到沙盘 数据区
企业内部非结构化数据
❖ 日常业务处理过程中产生的非结构化数据,存储形式多样,主要包括用户访问日志、用户投诉、用户点评……
企业外部数据
❖ 企业外部数据以非结构化为主,主要包括国家政策法规、论坛等互联网信息、地理位置等移动信息、微博等社交媒体信息……
源数据增量
在本次项目实施中将采用以增量为主、全量为辅结合的方式获取源数据 商城和金融集团业务系统的数据
16
大数据分析平台总体架构——数据存 储层
数据内容 主要用途
数据模型 保留周期
用户 访问模式
工作负载
平台要求
临时数据区
业务系统前日增量数据 缓存数据,支持后续ELT数据处理
贴源数据模型 保存最近7天数据
贴源数据区和主题数据区批量作业访问 无最终用户访问
金融集团大数据分析平台总体架构培训课件
14
大数据分析平台总体架构——流程调 度层实时数据处理流程
实时数据处理强调的是实时或准实时获取 并处理数据,通常采取消息队列等技术构 建“数据流”
整个处理流程由流程调度层部署的自定义 开发WorkFlow组件调度运行
整个流程主要完成如下工作: 1. 通过数据库数据交换组件获取增量 数据,加载到实时数据区 2. 通过大数据交换组件获取非结构化 数据,并利用Storm处理数据,加载 到实时数据区 3. 针对实时数据区数据执行标准化处 理和贴源整合
企业外部非结构化 、半结构化数据, 如:微博、贴吧、 论坛、用户点击流 、用户移动位置等
实现功能
组件以实时和批量 两种模式实现下列 功能:
❖ 数据采集 ❖ 数据传输到数据交换平
台(接口服务器)NAS 指定目录 ❖ 存储数据到数据平台大 数据区指定HDFS目录
实现技术
批量采集:大数据 源以SFTP协议批量 传输数据文件
600% 500% 400% 300% 200% 100%
0%
2004年
2005年
2006年
2007年
2008年
铁矿石 焦煤
自定义报表工具 行+列的简单定义方式
多种格式报表
BI 分析工具
云数据推送平台已实现了 主要零售及金融业务系统 数据清洗、整合,为未来 金融集团数据平台提供了
丰富的数据源。
供应链金融系统
数据平台ETL数据 处理程序区
数据平台ETL加工处理程序(数据压缩、数据加载、各数据数据处 理等)统一存储在NAS集群指定目录,各接口服务器通过文件系统 Link建立映射
金融集团大数据分析平台总体架构培训课件
10
大数据分析平台总体架构——数据交 换层大数据交换组件
处理对象
企业内部非结构化 、半结构化数据, 如:音频、视频、 邮件、Office文档 、抵押品扫描件等
金融集团大数据分析平台总体架构培训课件
5
议程
1 大数据分析平台综述 2 大数据分析平台总体架构 3 大数据分析平台演进路线 4 大数据分析平台一期实施重点 5 附录:数据质量管理平台
金融集团大数据分析平台总体架构培训课件
6
大数据分析平台总体架构
数据 管控 平台
IT人员
流程
数
调度
据 标
平台
准
流
程
调
实现技术
组件以实时和批量模 式实现下列功能:
❖ 数据采集,轮询NAS集群指 定目录,获取数据文件( LZO压缩)
❖ 数据核查,对数据文件进 行质量校验
❖ 数据加载,加载数据到临 时数据区
Perl程序
❖ 数据采集,调用Perl
文件模块相关函数,轮 询指定目录,获取数据 文件 ❖ 数据核查,Perl执行文 件级数据质量检查 ❖ 数据加载,调用Hive Load数据命令,加载到 数据平台临时数据区的 Hive Table
数 据 管 控 层
数流
据 质 量
程 调 度
层
度 监 控 告 警
元
数
据
实时数 历史数 据查询 据查询
历
实
史
时
归
数
档
据
数
区
据
区
内部用户
内部管理分析
客户管理
应用集市数据区
财务管理 风险管理
大数据区
待 社交媒体 处
处 理
用户评价
理 后
大 移动互联 大
数
数
据 访问日志 据
客户汇总 客户主题 零售数据
外部用户
用户访 问层
金融集团系统
数
据
金融集团大数据分析平台总体架构培训课件
9
大数据分析平台总体架构——数据交 换层NAS存储
Hadoop集群元数 据区
数据平台临时数 据区
存储数据平台各个Hadoop集群的元数据信息,如:HDFS文件系统 元数据
集团数据交换平台每日获取运输局推送平台提供的业务系统变化 数据,暂存在NAS临时数据区 金融数据平台加工计算结果返回给业务系统,暂存在NAS临时数 据区
缺乏金融集团客户360度视图,客户 行为分析和预测无法实现;
缺乏面向金融业务运营管理的关键 绩效指标体系;
…… 数据平台、数据应用、数据管控……
关注的内容
数据平台整体架构; 数据平台各层建设的标准; 较成熟的金融业数据模型; 数据质量治理; 元数据管理; 数据标准建设 数据整合; 数据应用建设; 数据平台的软硬环境 ……
金融集团大数据分析平台总体架 构培训课件
议程
1 大数据分析平台综述 2 大数据分析平台总体架构 3 大数据分析平台演进路线 4 大数据分析平台一期实施重点 5 附录:数据质量管理平台
金融集团大数据分析平台总体架构培训课件
2
金融集团管理分析类应用建设现状基 本分析
基本的现状
商城已建立面向整个零售业务的数据 仓库,整合了前台业务运营数据和后 台管理数据,建立了面向零售的管理 分析应用;
整个流程主要完成如下工作: 1. 数据文件通过HDFS命令行copyfromlocal进行 归档 2. 贴源、主题和大数据区通过HDFS命令行 distcp或自定义开发的MR程序执行归档 3. 集市数据区通过Sqoop或数据库提供的Hadoop 集成技术(如:外部表)执行归档
金融集团大数据分析平台总体架构培训课件
应用场景
云数据推送平台连接 供应链金融系统数据 库,分析供应链金融 MySQL数据库日志,识 别增量数据,存储到 金融平台NAS存储的指 定目录,金融平台加 载数据文件到数据平 台临时区Hive表
金融集团大数据分析平台总体架构培训课件
12
大数据分析平台总体架构——数据交换 层数据区数据交换组件
处理对象
11
大数据分析平台总体架构——数据交换 层数据库数据交换组件
处理对象
企业内部业务系统产 生的结构化数据,包 括两大来源:
❖ 商城零售业务数据,数据 存储在Oracle、 SQLServer、MySQL和 MongoDB四类数据库
❖ 金融集团互联网金融业务 数据,数据存储在MySQL 数据库
实现功能
4.提升建设效率
通过数据平台对数据进行集中,为管理分析、挖掘预测类等系统提供一致的数据基础 ,改变现有系统数据来源多、数据处理复杂的现状,实现应用系统建设模式的转变, 提升相关IT系统的建设和运行效率
5.改善数据质量
从中长期看,数据仓库对金融集团分散在各个业务系统中的数据整合、清洗,有助于 企业整体数据质量的改善,提高的数据的实用性
❖ 各个数据区数据归档
实现技术
Sqoop实现集市数据 区与数据平台其他 Hadoop数据区的数 据交换
Hadoop 命令、Hive 外部表、MR程序实 现数据平台Hadoop 数据区间的数据交 换
应用场景
数据集市的数据按 照据生命周期规划 ,统一将过期数据 归档到历史数据归 档区
金融集团大数据分析平台总体架构培训课件
❖ 增量数据识别、获取由云数据推送平台负责,云数据推送平台采用分析、对比源系统日志方式实现 ❖ 对于无法通过上述方式获取增量的源系统数据,则采用某一个时间范围内的全部数据作为增量 ❖ 初始数据加载均采用全量模式
金融集团大数据分析平台总体架构培训课件
8
大数据分析平台总体架构——数据交 换层
传输组件是根据数据源存储的不同分类而设计的,本质是通过分析数据存储结构和数据存储 库的特点来针对性的设计工具,以追求卓越的性能
2.加强业务协作
实现分散在供应链金融、人人贷、保理等各个业务系统中的数据在数据平台中的集中 和整合,建立单一的产品、客户等数据的企业级视图,有效促进业务的集成和协作, 并为企业级分析、交叉销售提供基础
3.促进业务创新
金融集团业务人员可以基于明细、可信的数据,进行多维分析和数据挖掘,为金融业 务创新(客户服务创新、产品创新等)创造了有利条件
在线访问:开发 Java或C应用,调用 大据源API,或以网 络平台爬虫方式抓 取源系统非结构化 、半结构化数据
应用场景
定时抽取用户访问 日志,加载到数据 平台大数据区HDFS 指定目录,MR程序 加工处理
开发网络爬虫程序 ,扫描用户微博, 抓取用户微博内容 ,社交圈信息,存 入大数据区
金融集团大数据分析平台总体架构培训课件
13
大数据分析平台总体架构——流程调 度层批量处理流程
批量数据处理由流程调度层部署的自 定义开发WorkFlow组件调度运行
整个流程主要完成如下工作: 1. 获取业务系统结构化数据,存入 临时数据区 2. 获取企业内外部非结构化数据, 并进行结构化处理,存入主题或 集市数据区 3. 按照贴源数据模型整合数据(标 准化、数据更新/追加) 4. 按照主题数据模型整合数据并生 成汇总 5. 数据加工计算后,结果交付到数 据集市,支持分析类应用
数据交换层设计目标
数据服务层
保证数据在平台内高速流转 保证数据交换过程中不失真 保证数据交换过程中不丢失 保证数据交换过程安全可靠
数据区数据交 数据库数据交 大数据交换组
换组件
换组件
件
Hadoop 元数据
NAS 存储
数据平台导入 临时区
数据平台导出 临时区
ETL程 序区
云数据推送平台
外 部
大
商城系统
POP系统
统一定义BI 应用
统一规划分析方法 统一划分分析主题 统一设计数据模式 统一部署技术基础
外部非结构化数据
采购管理系统
其他业务系统
集团决策层 集团职能管控层 各级业务操作层
金融集团大数据分析平台总体架构培训课件4Leabharlann 大数据分析平台建设预期收益
1.实现数据共享
通过数据平台实现数据集中,确保金融集团各级部门均可在保证数据隐私和安全的前 提下使用数据,充分发挥数据作为企业重要资产的业务价值
金融集团大数据分析平台总体架构培训课件
15
大数据分析平台总体架构——流程调 度层归档数据处理流程
数据归档的对象包括业务系统数据文件、贴源数据 区数据、主题数据区数据、大数据区数据和集市数 据区数据
数据按照生命周期规划存储到归档区Hadoop集群, 归档后原数据区删除此数据
整个处理流程由流程调度层部署的自定义开发 WorkFlow组件调度运行
业务沙盘演练
数据增 值产品
数据应 用层
……
沙盘演练数据区
增值产 品数据区
账户汇总 机构汇总 协议主题 产品主题
主
…… ……
题 数 据
数据计 算层
区
供应链数据
……
贴源数据区
……
大数据交换组件 数 据 安 全
企业内外部半结构化、非结构化数据
数据库数据交换组件
数据区数据交换组件
数据交换平 台
商城零售
供应链金融 人人贷系统
基础数据平台和BI应用建设是未来一段时间的重点!
金融集团大数据分析平台总体架构培训课件
3
大数据分析平台建设目标
通过数据平台和BI应用建设,金融集团将搭建统一的大数据共享和分析平台,对各类业务进行 前瞻性预测及分析,为集团各层次用户提供统一的决策分析支持,提升数据共享与流转能力
统一制定目标和分 析模型