Linkoop领象大数据平台白皮书
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Linkoop 领象大数据平台白皮书
V3.0
Linkoop领象大数据平台为企业级大数据应用提供了数据全生命周期的解决方案,包含了数据集成、数据管理、数据安全、数据查询以及数据分析的整套分布式大数据平台和计算平台,帮助企业对海量数据进行采集、存储、治理、分析和挖掘,发现数据价值。
Linkoop领象大数据平台技术特点
➢业界领先的大数据计算能力
不论是数据导入、清洗、查询、分析还是复杂的机器学习任务,Linkoop都将这些任务转化为Hadoop上的分布式计算任务,充分利用整个大数据集群的计算能力。Linkoop对计算任务中的关键操作进行了定制化开发和优化,如数据加载、多维关联等常用操作,在降低使用难度的同时提高了计算效率,优化后的处理性能可达Hive-tez的10倍以上,Spark的2-10倍。Linkoop在电信领域广泛应用,每天处理的新增数据量超过600TB,充分验证了平台数据处理的性能和稳定性。
➢全图形化的数据处理流程设计
Linkoop创新性地提供了数据处理流程的图形化开发界面,使得在大数据平台上的数据处理不需要编写Hadoop代码,只需要通过鼠标拖拽添加功能组件,设定功能组件的运行参数和功能组件之间的依赖关系,就能够完成大数据处理流程的定义。对于定义完成的数据处理流程,能直接生成计算任务,提交平台执行和监控。全图形化的使用界面大大降低了对大数据应用开发、实施和运维人员的技术门槛,减少了项目实施的周期和成本。
➢插件式功能扩展
Linkoop提供的功能组件既包括数据采集和ETL任务相关的数据抽取、清洗、脱敏、校验、转换等功能,也包括了数据分析所需要的多维关联、聚集、统计以及机器学习算法等功能。
在Linkoop的架构中,这些功能组件都是以插件的方式进行添加的,因此对于不同行业和领域的特殊需要,只需要增加相应的功能组件即可满足特定的计算需求,提高了对不同领域需求的快速响应能力和灵活的系统扩展能力。
➢流数据处理与批处理一致的操作界面
在Linkoop的图形化开发界面中开发数据处理流程时,流数据处理流程的设计界面和批处理是一致的,除了部分功能组件(如部分机器学习算法)不支持流数据处理流程之外,大部分的功能组件是同时支持流数据处理和批处理的。因此在开发面向流数据的大数据实时应用时,开发人员并不需要学习专门的流数据计算框架,只需要使用与批处理一样的操作逻辑,即可完成流数据处理的流程设计。
➢无限水平扩展
Linkoop基于Hadoop开源系统开发,完全继承了Hadoop线性水平扩展的特性。通过向集群增加机器,无需停机即可线性扩充存储容量或提高处理性能。水平扩展的能力有效地解决了企业由于数据增长和业务增长导致的处理性能不足和频繁数据迁移的问题。Linkoop完全依托于开源社区,支持在Cloudera CDH、Hortonworks HDP以及华为FusionInsight等开源Hadoop发行版之上部署。
Linkoop领象大数据平台体系架构
图一、Linkoop大数据平台体系架构
Linkoop领象大数据平台由Hadoop、分布式计算框架(Africa)、大数据支撑平台(Grassland)、数据分析产品(Rhinos)、数据管理产品(Zebra)、数据查询产品(Gazelle)、数据集成产品(Cheetah)、安全管理产品(Griffin)和运维管理产品(Hippo)构成。
Linkoop分布式计算框架(Africa)
在开源Hadoop的基础上,Linkoop对开源大数据软件生态进行了大量的整合和优化工作,建立了覆盖实时流数据处理、离线批处理和SQL查询三个最常用的大数据应用场景的分布式计算框架Africa。Linkoop分布式计算框架中包含流计算框架Flink+、离线计算框架Spark+和SQL引擎Presto+,通过在开源软件(Flink、Spark和Presto)的基础上进行功能扩展和性能优化,支持稳定高效的企业级大数据应用。
Linkoop大数据支撑平台(Grassland)
在Linkoop分布式计算框架的基础上,通过对底层的计算框架和存储方案进行包装,Linkoop 能够以多个引擎对上层应用提供大数据计算和存储支持。
Grassland中的引擎包括:
➢流计算引擎
通过将实时流数据上的数据处理任务翻译成优化后的Flink任务,然后提交到执行队列。流计算引擎还负责轮询任务状态供用户查询和监控。
➢离线计算引擎
通过将离线数据分析任务或者数据集成任务(即批处理任务)翻译成优化后的Spark任务,然后提交到执行队列。离线计算引擎还负责轮询任务状态供用户查询和监控。
➢数据查询引擎
针对不同查询对象和查询条件,将查询派发到不同的查询引擎(HBase或Presto),能够查询存储在HDFS、Hive、HBase、Cassandra或Elastic Search中存储的数据。
➢数据存储引擎
为多种数据存储方案(HDFS、Hive、HBase、Cassandra、ElasticSearch、消息队列和远程数据库)提供统一视图。
Grassland还提供了任务加速器Booster和算法库。Booster为普通用户不可见的功能模块,基于用户定义的数据处理流程和收集的数据的统计信息,Booster将计算任务转化为高效执行的分布式计算框架上的程序,使得用户不需要关注于计算任务的实现和优化,从而能够更多地关注计算任务的业务含义。Booster对计算任务的优化方法不仅采用了启发式规则,而且对同一计算任务的不同执行计划的代价进行了估计,从而得到最优的执行计划。
算法库中提供了大量优化的数据处理方法的分布式计算版本,算法涵盖了数据集成、数据分析以及机器学习任务中所需的大多数常用方法,例如数据访问方法、数据转换方法、数据校验方法、数据过滤方法、数据聚集方法、数据合并方法、数据统计方法、图计算方法以及机器学习中的关联、聚类、分类和回归等常用算法。
数据分析产品(Rhinos)
图二、Linkoop数据分析产品Rhinos分析流程设计界面
不会写程序,也能分析大数据!