大数据处理综合处理服务平台的设计实现分析报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据处理综合处理服务平台的设计与实现
(广州城市职业学院广东广州510405)
摘要:在信息技术高速发展的今天,金融业面临的竞争日趋激烈,信息的高度共享和数据的安全可靠是系统建设中优先考虑的问题。大数据综合处理服务平台支持灵活构建面向数据仓库、实现批量作业的原子化、参数化、操作简单化、流程可控化,并提供灵活、可自定义的程序接口,具有良好的可扩展性。该服务平台以SOA为基础,采用云计算的体系架构,整合多种ETL技术和不同的ETL工具,具有统一、高效、可拓展性。该系统整合金融机构的客户、合约、交易、财务、产品等主要业务数据,提供客户视图、客户关系管理、营销管理、财务分析、质量监控、风险预警、业务流程等功能模块。该研究与设计打破跨国厂商在金融软件方面的垄断地位,促进传统优势企业走新型信息化道路,充分实现了“资源共享、低投入、低消耗、低排放和高效率”,值得大力发展和推广。
关键词:面向金融,大数据,综合处理服务平台。
一、研究的意义
目前,全球IT行业讨论最多的两个议题,一个是大数据分析“Big Data”,一个是云计算“Cloud Computing”。
中国五大国有商业银行发展至今,积累了海量的业务数据,同时还不断的从外界收集数据。据IDC(国际数据公司)预测,用于云计算服务上的支出在接下来的5 年间可能会出现3 倍的增长,占据IT支出增长总量中25%的份额。目前企业的各种业务系统中数据从GB、TB到PB量级呈海量急速增长,相应的存储方式也从单机存储转变为网络存储。传统的信息处理技术和手段,如数据库技术往往只能单纯实现数据的录入、查询、统计等较低层次的功能,无法充分利用和及时更新海量数据,更难以进行综合研究,中国的金融行业也不例外。中国五大国有商业银行发展至今,积累了海量的业务数据,同时还不断的从外界收集数据。通过对不同来源,不同历史阶段的数据进行分析,银行可以甄别有价值潜力的客户群和发现未来金融市场的发展趋势,针对目标客户群的特点和金融市场的需求来研发有竞争力的理财产品。所以,银行对海量数据分析的需求是尤为迫切的。再有,在信息技术高速发展的今天,金融业面临的竞争日趋激烈,信息的高度共享和数据的安全可靠是系统建设中优先考虑的问题。随着国内银行业竞争的加剧,五大国有商业银行不断深化以客户为中心,以优质业务为核心的经营理念,这对银行自身系统的不断完善提出了更高的要求。而“云计算”技术的推出,将成为银行增强数据的安全性和加快信息共享的速度,提高服务质量、降低成本和赢得竞争优势的一大选择。
面向金融领域的海量数据综合处理服务平台融合了分布式云计算技术、SOA技术、ETL技术、作业调度技术,以SOA为基础,采用云计算的体系架构,整合多种ETL技术和不同的ETL工具,为金融行业建立统一、高效、可拓展的面向金融领域的海量数据综合处理服务平台。该平台支持灵活构建面向数据仓库、数据集市、数据集文件进行海量数据的处理、加工和交换,实现批量作业的原子化、参数化、操作简单化、流程可控化,并提供灵活、可自定义的程序接口,具有良好的可扩展性,是一个基础服务框架的产品平台。该系统整合金融机构的客户、合约、交易、财务、产品等主要业务数据,提供客户视图、客户关系管理、营销管理、财务分析、质量监控、风险预警、业务流程等功能模块。系统支持构筑面向运营的服务平台,可以按功能点或数据量来向使用方收费,使用方按格式要求提供数据,然后点击相关功能模块得到目标结果。
随着全球各行业对数据整合应用需求的扩大,“面向金融领域的海量数据综合处理服务平台”的需求将会越来越大。该平台为银行、证券、保险行业等金融领域服务业创新和转型升级提供决策支持,能有效推进信息化技术在传统金融优势产业的融合渗透,属于国家优先发展和重点支持技术领域。从宏观的角度来看,通过本服务平台的实施,能促进我国金融信息化的发展,调整产业结构,同时增强企业品牌
竞争力,提高企业在国内外信息科技领域的知名度,打破跨国厂商在金融软件方面的垄断地位,促进传统优势企业走新型信息化道路,完善社会主义市场经济体制,符合我国“十二五”规划刚要发展的特点,对全面建设小康社会新胜利、推进中国特色社会主义伟大事业,具有十分重要的意义。
二、平台设计的技术线路
1、基础技术架构采用了当前先进的云计算技术,系统采用基于Hadoop架构计算模式,突破传统数据库系统对海量数据处理的速度限制,通过对大量数据的并发访问和处理,极大地提高了数据处理效率。
2、基于SOA方式的批量处理作业调度逻辑设计,采用集中式管理、分布式、多节点并行运算的设计概念,实现跨平台、面向数据、高效并发调度多个海量批处理作业。
3、采用ETL技术,完成海量数据从源系统到数据仓库再到数据集市加工、处理、集成的过程。同时,平台支持整合主流的ETL工具(DataStage、Informatica、Sagent 等)和对可执行程序和存储过程的调用。
4、采用作业调度技术,通过统一的操作平台和图形化界面,定义批量作业的调度策略和调度规则,实现跨平台、跨系统的批量作业的调度、执行和监控;同时,平台通过并发控制和动态负载均衡实现性能的最大优化。
5、采用影像处理技术实现影像的扫描、处理、分类、
上传。影像扫描通用平台集成了一系列对文件处理、文件扫描、影像处理、文件上传的逻辑,通过一系列的抽象和转化,使开发人员可以忽略内部细节而直接针对业务逻辑进行设计。
6、通过工作流技术实现业务线上的流转和审批,并结合电子化影像,极大地提高了工作效率。
三、平台的功能与架构
1、数据整合层
通过SOA技术、ETL技术、hadoop的HDFS技术、影像处理技术,高效整合来自各个业务系统的数据,保证系统数据的一致性、准确性和完整性。数据经过加工处理,根据数据格式和数据量,分别存储在关系型数据库、hadoop HBASE、影像存?ζ教ㄖ校?再根据主题应用,将数据整合加工存储在“应用数据存储”,为用户提供一个统一的干净的数据视图。2、基础架构层
采用hadoop来构建分布式并行计算平台,主要由MapReduce的算法执行和一个分布式的文件系统(HDFS)两部分组成,hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势。
采用公司有自主知识产权的ETL软件包或整合主流的ETL工具(DataStage、Informatica、Sagent等)来构建数据ETL平台。