江苏银行大数据技术平台选型分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计分析应用,还需提供高效精准的营销,并具备实时 术,100GB 以上的数据量处理性能不弱于传统关系型
风险防控能力。相较于大型商业银行,城商行的竞争更 数据库和 MPP,10TB 以上性能优势更为明显。因此,
加激烈,传统的数据产品和应用服务已无法满足新形势 图 1 所示混合架构的大数据处理平台模式逐渐淡出,
观点 பைடு நூலகம்iewpoint
江苏银行总结了以下需重点考量的内容。
可
1. 性价比和扩展性
容
忍
前期江苏银行在 IOE 传统架构上进行了大量投入,
的
分
而城商行总体自主可控能力较弱、资产规模较小、盈利
析
延
能力较低,因此,不论是从自主可控要求的目标出发,
时
还是从降低软硬件成本投入的角度,都要求大数据产品
须支持在 x86 虚拟化集群搭建开放和高度并行化的处理
数据,以往受限于高性能存储的成本和数据并行化处理
可 容
能力,占总存储量 80% 以上的数据是“死”在系统里的。
忍 的
以对私客户的活期账户为例,一张拉链表的数据量就达 分
析
数百 GB,运行在 IBM P6 系列小型机上的 Oracle 数据 延
时
库统计一下表的行数就要 3 个小时,若需要全量回算历
史数据,为避免影响生产,需要将数据导出到另外的数
市场化和互联网金融。利率市场化拉近了传统银行与实 两项核心技术,基于内存计算优化了任务流程,具有更
体经济的横向联系,要求银行快速提升数据洞察能力; 低的框架开销,使得 Hadoop 在 MPP 擅长的 100TB 以
互联网金融使得银行的数据应用不能局限于传统的查询 下数据量的处理性能也大为改善。以目前的 Hadoop 技
传统观点认为,MPP 的适用范围为 1TB~100TB 数
款产品等,江苏银行陆续引入税务、法院、工商、黑名 据量,数据量超过 100TB,Hadoop 更具优势。当前,
单等外部数据。随着内外部数据量的快速增长,大规模 大中型城商行的数据量普遍在 10TB 级别,因此一些城
数据处理和实时响应的需求使得传统的数据处理平台遭 商行选择 MPP 作为大数据处理平台。然而,近年来随
下城商行应对市场竞争的需要。
形成如图 2 所示的新型应用模式。
二、大数据技术平台架构分析
江苏银行从经济成本和未来数据的非线性增长趋势 的角度分析认为,传统的交易系统运用关系型数据库处
经 过 对 主 要 大 数 据 处 理 平 台 的 深 入 研 究, 江 苏 理 OLTP 事务操作,产生的交易数据通过异构数据的批
遇瓶颈,江苏银行急需探索新的数据架构,采用新的数 着 Hadoop 开 源 社 区 的 不 断 发 展, 特 别 是 Spark2.0 的
据处理技术。
发布让 Hadoop 焕发了新的活力。Spark 2.0 具有 RDD
当前,银行业面临的挑战主要来自两个方面:利率 (Resilient Distributed Datasets)和 DAG(有向无环图)
21 2015.11 中国金融电脑
V 观点 IEWPOINT
一、为什么要建设大数据技术平台
为此,江苏银行更近一步从数据容量和数据处理能力的 线性关系分析传统数据平台、MPP 和 Hadoop 的关系(如
截至 2015 年 6 月,江苏银行资产规模达到 1.2 万亿 图 1 所示)。
元,一方面,成立 8 年来,江苏银行积累了大量的内部
选 择 开 源 版 本 的 Hadoop 还 是 产 品 化 的 发 布 版 Hadoop ?众所周知,Hadoop 的优势是没有额外的产品 费用,技术更新快,开放程度高,应用服务集成商多。 国内很多知名互联网企业在开源版本的 Hadoop 基础上 优化形成了自己的大数据产品。为此,江苏银行考虑基 于 Hadoop 开源框架自建大数据平台,但测试后发现此 方法可行性不高,原因有三:一是城商行科技力量有限, 大部分力量投入在应用研发领域,在基础软件的研究和 开发方面的专业能力远远比不上 IT 公司,即使只从事 集成组件的工作也不一定能达到预估的效果;二是深入 研究平台技术需要一定的时间,城商行在起步阶段已经 落后于互联网企业,来自互联网金融的激烈竞争留给城 商行的时间远远不够;三是行业监管机构对商业银行应 用系统的安全性、稳定性和连续运营有着严格要求,开 源产品一旦出现重大问题没有及时修复的保障。
大数据应用的本质是对客户需求的认识和释放,应 用效果取决于银行的综合运营服务意识,而选择一个合 适的技术平台也是大数据成功应用的不可或缺的重要因 素之一。江苏银行在大数据技术平台建设方面进行了大 量探索和思考,本文重点介绍其大数据技术平台选型思 路,以期与同业共同交流、分享、探讨大数据技术在银 行业的应用实践。
银 行 将 关 注 点 聚 焦 在 两 个 方 面: 一 是 选 择 MPP 还 是 量复制方式或消息队列的准实时方式更新至 Hadoop 平
Hadoop;二是选择开源版 Hadoop 还是发布版 Hadoop。 台,Hadoop 平台进行大体量数据的分析和挖掘,并提
22 FINANCIAL COMPUTER OF CHINA
据库上,花费几天时间。又如,诸如“柜员操作记录”
这样的半结构化数据每天产生的数据量达几个 GB,生
需要处理的数据量
产环境只能保留最近几天的数据,其他数据存储在磁带 库上,使用时需花费大量的人力将数据从带库中导出。
图 1 传统数据平台、MPP 和 Hadoop 数据容量和数据 处理能力的线性关系
另一方面,为减少贷前审查的录入成本,开发纯线上贷
图 2 大数据平台新型应用模式
需要处理的数据量
平台,既要适应高并发低时延的移动互联网实时数据检 索需求,又要满足大体量数据的统计分析与业务建模要 求;要求总体技术方案具备高性价比,能够实现在同一
供基于大数据的应用系统实时检索的模式,与城市商业 银行目前的数据架构相适应,决定选择 Hadoop 平台。
观点 Viewpoint
江苏银行大数据技术平台选型分析
江苏银行股份有限公司信息科技部总经理 葛仁余
江苏银行股份有限公司信息科技部总经理 葛仁余
江苏银行大数据平台建设起步于 2014 年底,2015 年年中初见成效。目前江苏银行利用大数据技术开发了 一系列具有一定社会影响的大数据应用产品:如“e 融” 品牌下的“税 e 融”、“享 e 融”等线上贷款产品、基 于内外部数据整合建模的对公资信服务报告、以实时风 险预警为导向的在线交易反欺诈应用、基于柜员交易画 面等半结构化数据的柜面交易行为检核系统等。