大数据与银行业新一代数据体系建设
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据与银行业新一代数据体系建设
“大数据”来了,如火如荼,大有排山倒海之势!仔细分析各种成功案例后,发现大都是在互联网行业,而它在银行业的应用,却鲜有报道。本文则重点介绍大数据在银行新一代数据体系建设中的需求、战略与具体应用。
一、大数据在银行业的需求分析
高负荷环境下高可用的海量数据管理是目前IT建设中最重要的内容,也是影响客户业务发展最重要的瓶颈。近年来的事实表明,各行各业,其数据量以及用户对服务水平等几个方面的要求是在同时快速增长的,以基于SQL的关系数据库技术为主要代表的传统数据管理技术已经明显难以应付新的需求,这其中当然也包括银行业。
仔细分析,银行IT体系中数据量的增长压力主要来源于以下几个方面的原因:
1.银行业务的快速增长导致原有企业业务数据的快速增长。也就是说,企业数据库中
需要管理的数据量及其增长速度已经难以承受;
2.客户服务水平的提高及各种监管制度的要求,导致银行IT部门不得不规划管理比
以前量大得多的数据。例如对长期历史数据的使用要求,使得银行不得不考虑原来
存放在磁带上的数据的高可用问题;
3.新的IT规划带来了新的数据类型。将社会化交互渠道引入银行业,已经成为各大
银行规划其新一代IT体系的重要目标。由此,银行IT部门就不得不关心其以前并
不关注的新的数据类型。
从目前的状态来,对以上需求1与2,银行主要是通过原有系统垂直扩容的手段来应对。但近年来,垂直扩容已经不仅仅是难以承受的成本压力了,清醒的IT工作者已经意识到这不是根本的长远之计;而对需求3,则是互联网行业的强项,银行业没有过多的技术经验与积累。
要很好的解决以上问题,必须引入新的技术理念、方法与工具,而无论从技术特征本身,还是从应用实践来看,当今最流行的大数据技术(这里主要指Hadoop MapReduce与NoSQL),都会在应对这些挑战的过程中起到重要的作用。
二、银行业大数据应用的困惑
目前为止,虽然国内的商业银行对大数据的实际应用还比较少,但这项新的技术已经得到了绝大多数银行的关注,有相当一部分银行正在进行对大数据技术的调研、论证与测试工作。正如上面分析的那样,银行业对在其IT体系中引入大数据的必要性是认同的。
但同时,银行IT部门又普遍对大数据在本企业的应用存在一定程度的困惑,这主要表现在以下几个方面:
1.大数据在银行数据体系规划中的地位究竟如何?这对其技术战略规划有何影响?
2.大数据技术与传统的关系数据库技术关系与未来发展方向到底如何?是会最终替
代掉关系数据库吗?
3.银行业应该如何构建大数据平台?
4.大数据技术目前具体可以在银行IT体系的哪些方面得到有效的运用?
本文旨在对以上问题进行探讨。
三、大数据与银行新一代数据体系
相当一部分商业银行目前正在进行新一代IT体系的规划与建设工作,其中,打造适应
新的业务与应用目标的数据体系是重中之重,这包括数据分布、数据模型、数据流程、数据治理、数据集成及数据生命周期等多方面的内容,我们可称之为新一代数据体系。那么,在这个体系中,大数据都涉及哪些范围?它在银行数据体系规划建设工作会处于什么样的地位呢?大数据技术与传统关系数据库技术的关系如何呢?
1.银行业大数据的范围
多年以来,银行业主要关注的数据是其业务数据,包括交易、帐户与参数数据等,它们被以基于二维表的关系模型存储在各种大中小型的商业数据库中。那么,我们所谈到的大数据到底从哪里来?
从目前最流行的大数据概念来讲,大数据是指非结构化数据,主要包括社会化媒体日志、传感器计量及图片、图像等数据格式。完全从这个概念入手,我们只能推导出银行业的大数据可以包括以下几个方面:
●银行业务增加社会化的创新渠道后,所产生的具有互联网行业特征的数据,如操作
日志与相关网页内容。互联网行业的实践证明,这部分数据的量是很大的,并且增
长很快,同时属于非结构化的数据,最适合采用大数据技术来处理;
●缩微影像。即各种交易票据的扫描件,这些数据是以图片的方式存储,目前银行对
它最主要管理方式是文件索引加光盘库的方式。也有人提出过对这些数据采用大数
据方法抽取有价值数据的思路。
但是,这两个方面都不是银行业面临的最紧迫的问题:社会化渠道属于各银行正在规划与完善的工作,目前还没有紧迫的需求;而从图片图像中分析出价值数据来,似乎也并不实际。如果这样看,似乎大数据技术目前在银行业就没有什么实际的应用场景了?这自然是不正确的结论。
看来,在银行业,我们必须对固有的大数据的定义范围进行扩大(目前,并没有什么权威的定义限制我们,我们完全可以拓展思路):
●大数据不一定非要是非结构化数据,它也可以是结构化数据,即大数据应该是多类
型的,而不只是指非结构化;
●如果某种数据采用大数据技术处理更加合适,都可以定义为大数据。
那么,我们不妨这样来定义大数据:那些海量的、快速增长的、不适合或者不值得采用商业关系数据库技术来管理并且具有高可用要求的企业数据。这样一来,我们便可以发现,在银行,除了以上两点以外,还有如下范围的数据可以采用大数据技术来处理。
●长期规划的历史数据。这些数据其实是企业关键业务数据,但可以定义为大数据;
●BI固定报表。由各种BI系统产生的报表文件(PDF,Excel,Word等格式);
●应用系统运维数据。如应用日志,运维日志等;
●中间状态的数据。银行在数据流转过程中,有大量的中间状态文件,它们是海量的。
对这些海量文件处理,也可以采用大数据技术。
2.大数据技术与关系数据库技术简析
目前,在很多成功实践中,大数据表现出来比关系数据库更优异的性能:效率高、成本低、扩展性强等。于是有很多观点认为:关系数据库时代即将终结,大数据技术必将替代关系数据库技术。银行业IT部门在一定程度上受到这种观点的影响:或是支持,或是反对,或是两可。总之,是有困惑。那么,在后面的内容开展之前,有必要对大数据与关系数据库从技术上进行简单的剖析。
大数据技术的实质是什么呢?其实,大数据技术的设计理念是:通过牺牲关系数据库的某些特性,并采用分布式并行技术来获得对海量多类型数据的高可用。到底牺牲了哪些特性