大数据整合平台建设方案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据整合平台建设方案
目录:
•什么是大数据
•大数据平台介绍
•大数据平台架构
•平台建设费用
大数据
“就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式……”。

随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2014年的数据总量将达到3.7万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。

作为一家互联网数据资源整合公司,我们在海量数据的整合分析领域是被“逼上梁山”。

十年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据整合与分析方法,最终落地于大数据平台之上。

大数据平台在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。

大数据平台介绍
大数据系统主要来源于广州启飞信息技术有限公司(/oa)与佛山华讯的短信平台十年的个人信息与企业资源沉积的系统结果。

由于过去在不同平台、投资力度及计算能力等因素的限制,这些系统形成了今天大数据信息系统横向多条块业务难以沟通,纵向多层次系统难以集成的复杂局面。

因此,我们感觉到,内部各系统的信息需要有效共享、相互协作、关键数据需要能够被多业务所复用、形成统一的全局数据视图,对现有的数据能够进一步分析加工,从而优化管理。

信息资源整合平台,就是针对这一需求的解决方案,我们构思利用IBM 数据管理领域的产品IBM Information Integrator建立一个信息集束访问接口,建立一个逻辑上集中、物理上分布各平台的统一信息资源整合,用来透明地管理当今两大平台各类系统中庞杂的数据。

通过信息资源整合平台,营销部门(悦商圈、微信e、物业管理平台、精准短信群发系统)可以得到以下收益:
关键业务信息的集中管理。

跨异构平台的统一的信息查询访问。

避免不同平台、指标、账务等的信息在不同职能部门需要重复录入。

基础数据(如基础代码数据等)、共享信息(如企业资源等)的在应用系统之间的同步,保持数据的一致性。

在信息整合的基础上,开展跨业务部门、跨应用系统的综合信息分析和报表服务。

信息整合平台的基础架构如下图所示。

在省、市、区县各企业、个人信息整合的过程中,根据信息整合后的不同属性特点,可以分为四个阶段。

第一阶段的主要任务为构建信息整合平台,实现数据的逻辑集中、本级微信二次开发平台的应用推广的数据共享,而从物理上看,数据集结存储在各原有的数据库中提取,本级大数据平台的数据逻辑集中成为一个统一的视图。

第二阶段,结合数据整合层的各项功能,进行数据标准的规范化,提高共享的质量和数据复用,并为数据交换做准备。

这两个阶段是信息整合所不可或缺的必要环节。

规范一旦设计完成,其推广可分“转换”和“统一”两个阶段,渐进式的实施。

“转换”,则业务系统和历史数据都不改动,将各地、各级数据的“方言”解释为“普通话”,再共享或交换。

统一数据标准,则意味业务系统的更改或更替,需要对历史数据清洗、转换和存储。

可以按照上述转换方法,同时结合数据复制技术,整理历史数据。

第三阶段,将部分被频繁使用、访问、且实时性要求有限的数据物理集中,提高数据查询的质量,便于决策分析等业务应用。

这一阶段的任务在于优化查询访问的效率,关键技术在于数据复制,支持准实时的秒级数据同步,可以根据业务数据对实时性的要求和系统负载情况配置复制间隔。

第四阶段,在第二阶段数据标准规范化的基础上,旨在利用数据映射层,实现本系统各平台之间,上下级权限之间的数据交换。

这些交换以本级数据库为中心形成星形或树状的结构。

整个数据共享和交换的底层实现和存储机制对各应用节点是透明的。

该结构属于松耦合,如同星形网络一样,很容易进行层次化的结构扩展。

数据交换采用的关键技术是复制。

以WebSphere II为基础平台,实施数据交换的主要工作可集中在与个人手机号段相
关的交换标准定义、交换双方的映射关系定义和交换流程规划上。

数据交换中的交换流程可分为单向和双向两种模式。

这两个阶段可根据实际业务需求取舍,也可更换先后次序。

各类数据通过快速、高效、低成本地搭建统一信息资源平台,将内部各系统的信息资源实现有效共享、相互协作,使关键数据能够被多业务系统平台所复用。

同时,满足各业务模块之间、各部门与大数据平台进行交换数据。

大数据平台统一信息资源,整合平台的技术特点是:
跨越各业务系统平台的实时数据处理
建立大数据系统全局、统一的客户视图
实现异构数据源之间的数据复制
广域网环境中基于消息队列的数据复制
实现系统间高效的批量数据交换
提供企业级的信息搜索
事件数据的获取和发布
非关系型数据的集成(包括MQ、XML、Web Service等)
此外,信息资源整合平台可以,通过对现有的数据进一步加工和整合,在提升全面的信息服务能力的同时,大数据系统的发展构建长远的信息框架。

大数据平台架构
大数据平台对业务的针对性较强,为了明确它是否符合我们的业务,现粗略地从几个角度将大数据分析的业务需求分类,针对不同的具体需求,采用不同的数据分析架构。

图1 用于实时分析的MongoDB架构
数据分析的算法复杂度
根据不同的业务需求,数据分析的算法也差异巨大,而数据分析的算法复杂度和架构是紧密关联的。

举个例子,Redis是一个性能非常高的内存Key-Value NoSQL,它支持List和Set、SortedSet等简单集合,如果你的数据分析需求简单地通过排序,链表就可以解决,同时总的数据量不大于内存(准确地说是内存加上虚拟内存再除以2),那么无疑使用Redis会达到非常惊人的分析性能。

还有很多易并行问题(Embarrassingly Parallel),计算可以分解成完全独立的部分,或者很简单地就能改造出分布式算法,比如大规模脸部识别、图形渲染等,这样的问题自然是使用并行处理集群比较适合。

而大多数统计分析,机器学习问题可以用MapReduce算法改写。

MapReduce目前最擅长的计算领域有流量统计、推荐引擎、趋势分析、用户行为分析、数据挖掘分类器、分布式索引等。

图2 RCFile的行列混合存
大数据的4V特征-来源
大数据平台的“大数据”
随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。

体系架构
核心设计
大数据的技术领域
大数据平台与业务平台的关系
公司大数据平台架构图
应用一数据分析
应用二视频存储
应用三离线日志分析
应用五在线数据分析
平台UI风格(附表)
微商荟数据综合平台集束开发建设成本明细(附表)。

相关文档
最新文档