CDH-HDP-MAPR-DKH-星环组件比较

合集下载

从CDH和HDP到CDP看大数据平台架构的演进

从CDH和HDP到CDP看大数据平台架构的演进

从CDH和HDP到CDP看大数据平台架构的演进近年来,随着大数据技术的快速发展,大数据平台架构也经历了多次演进。

本文将从CDH和HDP这两个代表性的大数据平台产品,再到CDP这种全新的架构,来探讨大数据平台架构的发展脉络。

一、CDH和HDP的出现CDH(Cloudera's Distribution Including Apache Hadoop)和HDP (Hortonworks Data Platform)是业内最早出现的两种大数据平台产品。

它们的出现可以追溯到大数据技术初期,主要基于Apache Hadoop生态系统。

首先,CDH和HDP基于分布式文件系统HDFS(Hadoop Distributed File System),可以高效地存储和管理海量数据。

同时,它们还具备了处理大数据的计算框架MapReduce,使得用户可以方便地进行数据分析和处理。

其次,CDH和HDP还包含了其他一些核心组件,如HBase、Hive和Pig等。

这些组件能够满足用户在实际应用中的不同需求,从而构建出完整的大数据处理和分析平台。

然而,随着大数据技术的不断发展和用户需求的不断增加,CDH和HDP在某些方面已经显现出一些不足之处,这也推动了大数据平台架构的演进。

二、大数据平台的演进:从CDH和HDP到CDPCDP(Cloudera Data Platform)是近年来新兴的大数据平台架构,它对传统的CDH和HDP进行了全面升级和优化。

首先,CDP将传统的HDFS分布式文件系统升级为CDS(Cloudera Data Storage)。

相比于HDFS,CDS具有更高的可靠性和扩展性,能够更好地应对大规模数据存储和管理的需求。

其次,CDP引入了SDX(Shared Data Experience)的概念。

SDX能够提供统一的数据安全和管理,确保数据在不同的组件和应用之间的一致性和可靠性。

这一点在多租户环境下特别重要,可以减少管理工作的复杂性。

Hadoop 生态系统介绍

Hadoop 生态系统介绍

Hadoop 生态系统介绍Hadoop生态系统是一个开源的大数据处理平台,它由Apache基金会支持和维护,可以在大规模的数据集上实现分布式存储和处理。

Hadoop生态系统是由多个组件和工具构成的,包括Hadoop 核心,Hive、HBase、Pig、Spark等。

接下来,我们将对每个组件及其作用进行介绍。

一、Hadoop核心Hadoop核心是整个Hadoop生态系统的核心组件,它主要由两部分组成,一个是Hadoop分布式文件系统(HDFS),另一个是MapReduce编程模型。

HDFS是一个高可扩展性的分布式文件系统,可以将海量数据存储在数千台计算机上,实现数据的分散储存和高效访问。

MapReduce编程模型是基于Hadoop的针对大数据处理的一种模型,它能够对海量数据进行分布式处理,使大规模数据分析变得容易和快速。

二、HiveHive是一个开源的数据仓库系统,它使用Hadoop作为其计算和存储平台,提供了类似于SQL的查询语法,可以通过HiveQL 来查询和分析大规模的结构化数据。

Hive支持多种数据源,如文本、序列化文件等,同时也可以将结果导出到HDFS或本地文件系统。

三、HBaseHBase是一个开源的基于Hadoop的列式分布式数据库系统,它可以处理海量的非结构化数据,同时也具有高可用性和高性能的特性。

HBase的特点是可以支持快速的数据存储和检索,同时也支持分布式计算模型,提供了易于使用的API。

四、PigPig是一个基于Hadoop的大数据分析平台,提供了一种简单易用的数据分析语言(Pig Latin语言),通过Pig可以进行数据的清洗、管理和处理。

Pig将数据处理分为两个阶段:第一阶段使用Pig Latin语言将数据转换成中间数据,第二阶段使用集合行处理中间数据。

五、SparkSpark是一个快速、通用的大数据处理引擎,可以处理大规模的数据,支持SQL查询、流式数据处理、机器学习等多种数据处理方式。

CDH-HDP-MAPR-DKH-星环组件比较

CDH-HDP-MAPR-DKH-星环组件比较
38、Transwarp Inceptor
简介:由Apache Spark改写,Transwarp Inceptor交互式分析引擎提供高速SQL分析和R语言数据挖掘能力,可帮助企业建立高速可扩展的数据仓库和/ 或数据集市,结合多种报表工具提供交互式数据分析、即时报表和可视化能力。星环开发。
29、Tez
简介:Tez支持DAG作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分形成一个大的DAG作业。
30、Apache Drill
简介:Apache Drill是一个低延迟的分布式海量数据(涵盖结构化、半结构化以及嵌套数据)交互式查询引擎,使用ANSI SQL兼容语法。
36、Sahara
简介:Sahara旨在为用户提供简单部署Hadoop集群的能力,提供在OpenStack上快速配置和部署Hadoop集群的能力。
37、Myriad0.1.0
简介:Myriad是一个Mesos框架用来动态扩展YARN集群,并支持运行Hadoop应用,如Spark和非Hadoop应用,如Node.js、Memcached、RoR等。
14、Cloudera Manager
简介:CDH集群安装管理工具。Cloudera开发。
15、kafka
简介:消息队列组件。已经开源。
16、Storm
简介:流数据处理组件。
17、Elasticsearch
简介:基于Lucene的全文搜索服务器。已开源。
18、ESSQL
简介:基于Elasticsearch的SQL工具,大快开发。
2、Hbase
简介:键-值非关系型数据库,apache社区开源。是Google的Bigtable一个开源的实现。

大数据平台:HDP,CDH

大数据平台:HDP,CDH

⼤数据平台:HDP,CDH
HDP:
(1) 介绍:
HDP全称叫做Hortonworks Data Platform。

Hortonworks数据平台是⼀款基于Apache Hadoop的是开源数据平台,提供⼤数据云存储,⼤数据处理和分析等服务。

该平台是专门⽤来应对多来源和多格式的数据,并使其处理起来能变成简单、更有成本效益。

HDP还提供了⼀个开放,稳定和⾼度可扩展的平台,使得更容易地集成Apache Hadoop的数据流业务与现有的数据架构。

该平台包括各种的Apache Hadoop项⽬以及Hadoop分布式⽂件系统(HDFS)、MapReduce、Pig、Hive、HBase、Zookeeper和其他各种组件,使Hadoop的平台更易于管理,更加具有开放性以及可扩展性。

(2)平台架构:
CDH:
(1)介绍:
Cloudera版本(Cloudera Distribution Hadoop,简称“CDH”),还有其他的版本,⽬前中国公司我发现⽤的CDH版本较多。

(2)平台架构:
HDP与CDH对⽐:
tips:
1. CDH⽀持的存储组件更丰富
2. HDP⽀持的数据分析组件更丰富
3. HDP对多维分析及可视化有了⽀持,引⼊Druid和Superset
4. HDP的HBase数据使⽤Phoenix的jdbc查询;CDH的HBase数据使⽤映射Hive到Impala的jdbc查询,但分析数据可以存储Impala内部
表,提⾼查询响应
5. 多维分析Druid纳⼊集群,会⽅便管理;但可视化⼯具Superset可以单独安装使⽤
6. CDH没有时序数据库,HDP将Druid作为时序数据库使⽤。

hadoop的生态体系及各组件的用途

hadoop的生态体系及各组件的用途

hadoop的生态体系及各组件的用途
Hadoop是一个生态体系,包括许多组件,以下是其核心组件和用途:
1. Hadoop Distributed File System (HDFS):这是Hadoop的分布式文件系统,用于存储大规模数据集。

它设计为高可靠性和高吞吐量,并能在低成本的通用硬件上运行。

通过流式数据访问,它提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。

2. MapReduce:这是Hadoop的分布式计算框架,用于并行处理和分析大规模数据集。

MapReduce模型将数据处理任务分解为Map和Reduce两个阶段,从而在大量计算机组成的分布式并行环境中有效地处理数据。

3. YARN:这是Hadoop的资源管理和作业调度系统。

它负责管理集群资源、调度任务和监控应用程序。

4. Hive:这是一个基于Hadoop的数据仓库工具,提供SQL-like查询语言和数据仓库功能。

5. Kafka:这是一个高吞吐量的分布式消息队列系统,用于实时数据流的收集和传输。

6. Pig:这是一个用于大规模数据集的数据分析平台,提供类似SQL的查询语言和数据转换功能。

7. Ambari:这是一个Hadoop集群管理和监控工具,提供可视化界面和集群配置管理。

此外,HBase是一个分布式列存数据库,可以与Hadoop配合使用。

HBase 中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。

cloudera data platform使用

cloudera data platform使用

cloudera data platform使用(原创版)目录1.Cloudera Data Platform 简介2.Cloudera Data Platform 的主要组件3.Cloudera Data Platform 的应用场景4.Cloudera Data Platform 的优势与不足5.总结正文【1.Cloudera Data Platform 简介】Cloudera Data Platform(CDP)是 Cloudera 公司推出的一款大数据平台,它集成了数据存储、数据处理、数据分析和机器学习等多种功能,帮助企业实现数据的采集、存储、处理、分析和应用。

CDP 的目标是让企业能够更加高效地管理和利用海量数据,从而实现数据驱动的业务决策。

【2.Cloudera Data Platform 的主要组件】CDP 由以下几个主要组件构成:1.Cloudera Manager:Cloudera Manager 是 CDP 的管理界面,通过它,用户可以对整个平台进行监控、管理和配置。

2.Cloudera Data Platform (CDH):CDH 是 CDP 的核心组件,它集成了 Hadoop、Spark、Hive、Pig、Flink 等大数据处理技术,提供了丰富的数据处理和分析功能。

3.Cloudera Data Warehouse (CDW):CDW 是 CDP 的数据仓库组件,它提供了高效的数据存储和查询功能,支持 SQL 查询和机器学习模型的训练。

4.Cloudera Analytics Platform (CAP):CAP 是 CDP 的数据分析和机器学习组件,它提供了可视化的数据分析工具和丰富的机器学习算法,支持实时和离线的数据分析。

5.Cloudera Collaborative Data Platform (CCP):CCP 是 CDP 的数据共享和协作组件,它提供了安全的数据共享和协作功能,支持多种数据格式和协议。

Hadoop生态圈各个组件简介

Hadoop生态圈各个组件简介

Hadoop⽣态圈各个组件简介Hadoop是⼀个能够对⼤量数据进⾏分布式处理的软件框架。

具有可靠、⾼效、可伸缩的特点。

Hadoop的核⼼是HDFS和MapReduce,HDFS还包括YARN。

1.HDFS(hadoop分布式⽂件系统)是hadoop体系中数据存储管理的他是⼀个基础。

它是⼀个⾼度容错的的系统,能检测和应对硬件故障。

client:切分⽂件,访问HDFS,与之交互,获取⽂件位置信息,与DataNode交互,读取和写⼊数据。

namenode:master节点,在hadoop1.x中只有⼀个,管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户端请求。

DataNode:slave节点,存储实际的数据,汇报存储信息给namenode.secondary namenode:辅助namenode,分担其⼯作量:定期合并fsimage和fsedits,推送给namenode;紧急情况下和辅助恢复namenode,但其并⾮namenode的热备。

2.mapreduce(分布式计算框架)mapreduce是⼀种计算模型,⽤于处理⼤数据量的计算。

其中map对应数据集上的独⽴元素进⾏指定的操作,⽣成键-值对形式中间,reduce则对中间结果中相同的键的所有的值进⾏规约,以得到最终结果。

jobtracker:master节点,只有⼀个管理所有作业,任务/作业的监控,错误处理等,将任务分解成⼀系列任务,并分派给tasktracker. tacktracker:slave节点,运⾏map task和reducetask;并与jobtracker交互,汇报任务状态。

map task:解析每条数据记录,传递给⽤户编写的map()执⾏,将输出结果写⼊到本地磁盘(如果为map-only作业,则直接写⼊HDFS)。

reduce task:从map的执⾏结果中,远程读取输⼊数据,对数据进⾏排序,将数据分组传递给⽤户编写的reduce函数执⾏。

大数据处理中的常用工具和技术

大数据处理中的常用工具和技术

大数据处理中的常用工具和技术随着互联网的快速发展,大数据处理已经成为了一个热门的话题。

在日常生活中,我们不断产生的数据量无处不在,如何有效地处理和分析这些海量数据成为了一个重要的挑战。

在大数据处理中,有许多常用的工具和技术可以帮助我们更好地处理和分析数据。

接下来,我将介绍一些常见的工具和技术。

1. Hadoop: Hadoop是一个开源的分布式计算平台,可以用于存储和处理大规模的数据。

它基于MapReduce算法,分为HDFS(Hadoop分布式文件系统)和MapReduce两个主要组件。

Hadoop提供了高性能、高可靠性的数据处理和存储能力,被广泛应用于大数据分析中。

2. Spark: Spark是另一个流行的大数据处理框架,它提供了内存计算的能力,相比于Hadoop更快速和高效。

Spark支持多种编程语言,如Java、Scala和Python,提供了丰富的API,方便用户处理和分析大数据。

3. SQL: SQL是结构化查询语言,用于管理和操作关系型数据库。

对于大数据处理来说,SQL仍然是一种很重要的工具。

许多大数据处理框架都支持使用SQL来查询和分析数据,比如Hive和Impala。

此外,还有一些专门用于大数据处理的SQL引擎,如Apache Drill和Presto。

4. NoSQL数据库: NoSQL数据库是一种非关系型数据库,在大数据处理中得到了广泛应用。

NoSQL数据库可以存储和处理非结构化或半结构化的数据,比如文档、键值对和图数据。

常见的NoSQL数据库包括MongoDB、Cassandra和Redis。

5.数据仓库:数据仓库是一个用于存储和管理大量结构化数据的数据库系统。

数据仓库可以提供快速的数据查询和分析,它通过将数据存储在专门的硬件设备上,并使用特定的存储和索引技术,提高数据的读写性能。

常见的数据仓库包括Teradata、Snowflake和Amazon Redshift。

6.数据可视化工具:数据可视化工具用于将大数据转换为可视化图表和仪表盘,以便更直观地展示和分析数据。

Hadoop三大核心组件及应用场景分析

Hadoop三大核心组件及应用场景分析

Hadoop三大核心组件及应用场景分析Hadoop是一个开源的分布式计算平台,拥有良好的可扩展性和容错性,已成为大数据处理领域的领导者。

Hadoop的三大核心组件包括Hadoop分布式文件系统(HDFS)、MapReduce和YARN,本文将分别介绍它们的特点和应用场景。

一、HDFSHDFS是Hadoop分布式文件系统,是Hadoop的存储层。

它的设计灵感来源于Google的GFS(Google File System)。

HDFS将文件分割成块(Block)并存储在集群的不同节点上,块的大小通常为128MB。

这样,大文件可以并发地读取和写入,加快了数据处理的速度。

同时,HDFS具有高可靠性,它能够自动将数据复制到不同节点上,从而避免节点故障时数据的丢失。

HDFS常用于处理海量数据,例如日志分析、数据挖掘等。

在日志分析中,HDFS可以存储大量的日志数据,MapReduce处理日志数据并生成相应的统计结果。

在数据挖掘中,HDFS可以存储大量的原始数据,MapReduce处理数据并生成分析报告。

二、MapReduceMapReduce是Hadoop的计算框架,是Hadoop的处理层。

它的设计灵感来源于Google的MapReduce。

MapReduce将计算分解成两个过程:Map(映射)和Reduce(归约)。

Map过程将数据分割成小块并交给不同的节点处理,Reduce过程将不同节点处理的结果汇总起来生成最终的结果。

MapReduce适用于大规模的数据处理、批量处理和离线处理等场景。

例如,某电商公司需要对每个用户的操作行为进行分析,并生成商品推荐列表。

这种场景下,可以将用户的操作行为数据存储在HDFS中,通过MapReduce对数据进行分析和聚合,得到每个用户的偏好和行为模式,最终为用户生成相应的商品推荐列表。

三、YARNYARN(Yet Another Resource Negotiator)是Hadoop的资源管理框架,能够为分布式计算集群提供高效的资源管理和调度功能。

Hadoop生态圈的技术架构解析

Hadoop生态圈的技术架构解析

Hadoop生态圈的技术架构解析Hadoop是一个开源的分布式计算框架,它可以处理大规模数据集并且具有可靠性和可扩展性。

Hadoop生态圈是一个由众多基于Hadoop技术的开源项目组成的体系结构。

这些项目包括Hadoop 组件以及其他与Hadoop相关的组件,例如Apache Spark、Apache Storm、Apache Flink等。

这些组件提供了不同的功能和服务,使得Hadoop生态圈可以满足各种不同的需求。

Hadoop生态圈的技术架构可以分为以下几层:1.基础设施层基础设施层是Hadoop生态圈的底层技术架构。

这一层包括操作系统、集群管理器、分布式文件系统等。

在这一层中,Hadoop 的核心技术——分布式文件系统HDFS(Hadoop Distributed File System)占据了重要位置。

HDFS是一种高度可靠、可扩展的分布式文件系统,它可以存储大规模数据集,通过将数据划分成多个块并存储在不同的机器上,实现数据的分布式存储和处理。

此外,Hadoop生态圈还使用了一些其他的分布式存储系统,例如Apache Cassandra、Apache HBase等。

这些系统提供了高可用性、可扩展性和高性能的数据存储和访问服务。

2.数据管理层数据管理层是Hadoop生态圈的中间层技术架构。

这一层提供了数据管理和数据处理的服务。

在这一层中,MapReduce框架是Hadoop生态圈最为重要的组件之一。

MapReduce框架是一种用于大规模数据处理的程序模型和软件框架,它可以将数据分解成多个小任务进行计算,并在分布式环境下执行。

MapReduce框架提供了自动管理任务调度、数据分片、容错等功能,可以处理大规模的数据集。

除了MapReduce框架,Hadoop生态圈中还有其他一些数据管理和数据处理技术,例如Apache Pig、Apache Hive、Apache Sqoop等。

这些组件提供了从数据提取、清洗和转换到数据分析和报告等各个方面的服务。

大数据组件原理

大数据组件原理

大数据组件是指在处理大数据时所使用的各种软件工具和技术,它们协同工作以解决数据存储、处理、分析和可视化等问题。

以下是一些常见的大数据组件及其原理:1. Hadoop:-原理:Hadoop 是一个开源框架,它允许分布式处理大规模数据集。

它依赖于HDFS(Hadoop Distributed File System)来存储数据,以及MapReduce 来进行数据处理。

2. Spark:-原理:Spark 是一个用于大规模数据处理的开源计算引擎,它提供了比Hadoop MapReduce 更快的数据处理能力。

Spark 使用RDD(Resilient Distributed Datasets)作为其基本数据结构,支持内存计算,可以显著提高数据处理速度。

3. Hive:-原理:Hive 是一个构建在Hadoop 之上的数据仓库工具,它允许用户使用类似SQL 的查询语言(HiveQL)来查询数据。

Hive 将SQL 查询转换为MapReduce 任务进行执行。

4. Pig:-原理:Pig 是另一个构建在Hadoop 上的高级数据处理工具,它使用Pig Latin 语言来简化MapReduce 编程。

Pig 将Pig Latin 脚本转换成一系列的MapReduce 任务。

5. Impala:-原理:Impala 是一个开源的大数据查询引擎,它允许用户快速执行SQL 查询against Hive 和HBase 数据。

Impala 直接在存储层上执行查询,避免了传统MapReduce 的开销。

6. HBase:-原理:HBase 是一个分布式的、面向列的开源数据库,它是Apache 软件基金会的一部分,运行在Hadoop 文件系统上。

HBase 适合于随机实时读/写访问大数据。

7. Kafka:-原理:Kafka 是一个分布式流处理平台,它用于构建实时数据管道和流应用程序。

Kafka 能够处理高速流动的大量数据,并支持数据持久化。

大数据分析:Hadoop和Spark的优缺点对比

大数据分析:Hadoop和Spark的优缺点对比

大数据分析:Hadoop和Spark的优缺点对比随着大数据时代的到来,大数据处理已经成为企业必备的核心技术之一。

在大数据处理中,Hadoop和Spark是两个非常重要的工具,它们的优缺点对比对于企业在选择合适的工具时非常重要,下面我们就来分析一下这两个工具吧。

一、HadoopHadoop是一个开源的分布式计算框架,它最初是由亚马逊的Jeffrey Dean和Sanjay Ghemawat发明的,其核心组成部分包括Hadoop分布式文件系统和MapReduce计算模型。

优点:1.适合处理海量数据:因为它的分布式计算特性,所以可以处理非常庞大的数据集,同时可以通过添加更多处理节点来增加处理速度。

2.处理存储在不同节点上的数据:由于其分布式文件系统特点,它可以很方便地操作存储在不同节点上的数据。

3.纠错能力强:当处理节点出现故障时,Hadoop可以通过备份机制和故障转移机制来解决这个问题,确保整个系统的可靠性。

缺点:1.架构复杂:它的底层代码较为复杂,因此需要一定的技术基础和经验。

2.编程语言限制:MapReduce是Hadoop最基本的运算框架,但是对Java编程语言的依赖性较强,不够灵活。

3.处理时延较大:在处理实现交互和实时计算的应用时,因为Hadoop的任务调度和簇的启动时间需时,响应时间较长。

二、SparkSpark是一个快速、通用的计算引擎,针对于大规模数据处理所设计的一种分布式计算框架。

Spark的最大特点在于其内存计算模型,它可以将数据存储在内存中,从而进行非常快速的数据处理。

优点:1.处理速度快:由于Spark的内存计算,所以可以大幅提高处理速度,比传统的Hadoop MapReduce计算快得多。

2.编程语言更加灵活:Spark支持多种编程语言,如Java、Scala、Python等,不仅灵活,而且代码更短,便于调试和维护。

3.多种计算引擎:除了内存计算模型外,Spark还支持多种计算引擎,如图表计算、流计算等,便于处理不同类型的数据。

请简述hadoop的体系结构和主要组件。

请简述hadoop的体系结构和主要组件。

请简述hadoop的体系结构和主要组件。

Hadoop是一个分布式计算框架,旨在帮助开发者构建大规模数据处理系统。

Hadoop的体系结构和主要组件包括:1. Hadoop HDFS:Hadoop的核心文件系统,用于存储和管理数据。

HDFS采用块存储,每个块具有固定的大小,支持数据的分片和分布式访问。

2. Hadoop MapReduce:Hadoop的主要计算引擎,将数据处理任务分解为小块并分配给多个计算节点进行并行处理。

MapReduce算法可以处理大规模数据,并实现高效的数据处理。

3. Mapper:Mapper是MapReduce中的一个核心组件,负责将输入数据映射到输出数据。

Mapper通常使用特定的语言处理数据,并将其转换为机器可以理解的形式。

4.Reducer:Reducer是MapReduce的另一个核心组件,负责将输出数据分解为较小的子数据,以便Mapper进行进一步处理。

5. Hive:Hive是一种查询引擎,允许用户在HDFS上执行离线查询。

Hive支持多种查询语言,并支持并行查询。

6. HBase:HBase是一种分布式数据库,用于存储大规模数据。

HBase采用B 树结构来存储数据,并支持高效的查询和排序。

7. Kafka:Kafka是一种分布式流处理引擎,用于处理大规模数据流。

Kafka 支持实时数据处理,并可用于数据共享、实时分析和监控等应用。

8. YARN:YARN是Hadoop的生态系统中的一个子系统,用于支持分布式计算和资源管理。

YARN与HDFS一起工作,支持应用程序在Hadoop集群中的部署和管理。

Hadoop的体系结构和主要组件提供了一种处理大规模数据的有效方法。

随着数据量的不断增加和数据处理需求的不断提高,Hadoop将继续发挥着重要的作用。

比较 Apache Hadoop 生态系统中不同的文件格式_光环大数据培训

比较 Apache Hadoop 生态系统中不同的文件格式_光环大数据培训

比较 Apache Hadoop 生态系统中不同的文件格式_光环大数据培训这篇文章提出了在Apache hadoop 生态系统中对比一些当前流行的数据格式和可用的存储引擎的性能:Apache Avro, Apache Parquet, Apache HBase 和Apache Kudu 空间效率,提取性能,分析扫描以及随机数据查找等领域。

这有助于理解它们中的每一个如何(何时)改善你的大数据工作负载的处理能力。

引言最初把hadoop文件格式和存储引擎做比较的想法是在初始系统修订版之一的驱动下完成的–这个系统是在CERN中大规模调节Hadoop—ATLAS EventIndex.项目启动始于2012年。

那时候用MapReduce处理CSV是最常见的处理大数据的方式。

同期平台,像Apache Spark, Apache Impala (孵化), 或者文件格式像Avro 和Parquet 还没有成熟,也不像现在这么流行,甚至还没有出现。

然而在现在看来选择基于HDFS MapFiles的设计概念就是陈旧和过时。

我们采用ATLAS EventIndex数据测试的最终目标是为了了解哪种存储数据方法是最佳应用方法以及这种应用在系统的主要使用案例方面预期的效益是什么。

我们要比较的主要方面是数据的容量和性能。

∙数据提取。

∙少量数据查询。

∙全部数据扫描。

关于EVENTINDEX数据ATLAS是CERN中的粒子加速器,是构建Large Hadron Collider探测实验的七个粒子之一。

ATLAS EventIndex是所有碰撞(称作事件)中的一个元数据目录,在ATLAS 实验中发现,后来被永久存储在CERN基础架构中(通常每秒钟会发生数以百计的事件)物理学家通过共同点和检查生产周期的一致性用这个系统区分和定位有用的事件和人口群组事件。

每个索引碰撞都是独立记录存储在ATLAS EventIndex ,这种独立记录平均1.5KB长具有56种属性,其中有6个较为独特的标记为一个碰撞,大多数记录属性是文本类型,只有少部分是数字。

CDHHDPMAPRDKH星环组件比较

CDHHDPMAPRDKH星环组件比较

一、组件比较:二、组件简介:1、Hadoop简介:集群基础组件,分为存储(HDFS)和计算(Mapreduce)两大部分。

apache社区开源。

技术来源于的GFS和Mapreduce。

2、Hbase简介:键-值非关系型数据库,apache社区开源。

是的Bigtable一个的实现。

3、Zookeeper简介:集群协调组件,已开源。

是的Chubby一个的实现。

4、Spark简介:内存计算框架,伯克利首先提出,现已开源。

5、Hive简介:基于HDFS的SQL工具,facebook开发,后开源。

6、Hue简介:图形化集群工具,cloudera开发,后开源。

7、Impala简介:基于HDFS的SQL工具,cloudera开发,后开源。

8、Sqoop简介:用于关系型数据库与NOSQL数据库之间的数据导入导出。

Cloudera开发,已开源。

9、Flume简介:用于数据流的导入,Cloudera开发,已开源。

10、Oozie简介:工作流系统,用于提交、监控集群作业。

Cloudera开发,已开源。

11、Solr简介:基于Lucene的全文搜索服务器。

已开源。

12、Isilon简介:基于OneFs操作系统的存储产品,美国赛龙公司开发,后属于EMC,一种集群存储方案。

13、K-Vstoreindexer简介:为HBase到solr的索引中间件,为NGDATA公司开发,已开源。

14、ClouderaManager简介:CDH集群安装管理工具。

Cloudera开发。

15、kafka简介:消息队列组件。

已经开源。

16、Storm简介:流数据处理组件。

17、Elasticsearch简介:基于Lucene的全文搜索服务器。

已开源。

18、ESSQL简介:基于Elasticsearch的SQL工具,大快开发。

19、DK-NLP简介:自然语言处理组件。

大快开发,已开源。

20、DK-SPIDER简介:分布式爬虫组件。

大快开发。

21、DKM简介:集群安装管理工具。

一句话描述Hadoop,HDFS,MapReduce,Spark,Hive,Yarn的关系,入门

一句话描述Hadoop,HDFS,MapReduce,Spark,Hive,Yarn的关系,入门

⼀句话描述Hadoop,HDFS,MapReduce,Spark,Hive,Yarn的关系,⼊门Hadoop:Hadoop⽣态圈(或者泛⽣态圈)基本上都是为了处理超过单机尺度的数据处理⽽诞⽣的。

不是⼀个⼯具,也不是⼀种技术,是⼀种技术的合称HDFS:分布式⽂件系统。

传统的⽂件系统是单机的,不能横跨不同的机器。

⽐如你说我要获取/hdfs/tmp/file1的数据,你引⽤的是⼀个⽂件路径,但是实际的数据存放在很多不同的机器上。

你作为⽤户,不需要知道这些,就好⽐在单机上你不关⼼⽂件分散在什么磁道什么扇区⼀样。

HDFS为你管理这些数据。

Map Reduce:分布式计算。

⼀台机器读取成T上P的数据,也许需要好⼏天甚⾄好⼏周。

对于很多公司来说,单机处理是不可忍受的。

如果要⽤很多台机器处理,我就⾯临了如何分配⼯作,如果⼀台机器挂了如何重新启动相应的任务,机器之间如何互相通信交换数据以完成复杂的计算等等。

这就是MapReduce / Tez / Spark的功能。

Spark:之前的Map Reduce类似于汇编语⾔,那么现在的spark就类似于python了,功能和Map Reduce类似,但是对于开发⼈员更加的友好,更⽅便使⽤。

Hive:你希望有个更⾼层更抽象的语⾔层来描述算法和数据处理流程。

于是就有了Hive。

Hive⽤SQL描述MapReduce。

它把脚本和SQL语⾔翻译成MapReduce程序,丢给计算引擎去计算,⽽你就从繁琐的MapReduce程序中解脱出来,⽤更简单更直观的语⾔去写程序了。

SparkSQL和Hive on Spark:⾃从数据分析⼈员开始⽤Hive分析数据之后,它们发现,Hive在MapReduce上跑,很慢! 它们的设计理念是,MapReduce慢,但是如果我⽤新⼀代通⽤计算引擎Tez或者Spark来跑SQL,那我就能跑的更快。

Yarn:有了这么多乱七⼋糟的⼯具,都在同⼀个集群上运转,⼤家需要互相尊重有序⼯作。

CDH-HDP-MAPR-DKH-星环组件比较

CDH-HDP-MAPR-DKH-星环组件比较

一、组件比较:二、组件简介:1、Hadoop简介:集群基础组件,分为存储(HDFS)和计算(Mapreduce)两大部分。

apache社区开源。

技术来源于2、Hbase简介:键-值非关系型数据库,apache3、Zookeeper4、Spark简介:内存计算框架,伯克利首先提出,现已开源。

5、Hive简介:基于HDFS的SQL工具,facebook开发,后开源。

6、Hue简介:图形化集群工具,cloudera开发,后开源。

7、Impala简介:基于HDFS的SQL工具,cloudera开发,后开源。

8、Sqoop简介:用于关系型数据库与NOSQL数据库之间的数据导入导出。

Cloudera开发,已开源。

9、Flume简介:用于数据流的导入,Cloudera开发,已开源。

10、Oozie简介:工作流系统,用于提交、监控集群作业。

Cloudera开发,已开源。

11、Solr简介:基于Lucene的全文搜索服务器。

已开源。

12、Isilon简介:基于OneFs操作系统的存储产品,美国赛龙公司开发,后属于EMC,一种集群存储方案。

13、K-Vstoreindexer简介:为HBase到solr的索引中间件,为NGDATA公司开发,已开源。

14、ClouderaManager简介:CDH集群安装管理工具。

Cloudera开发。

15、kafka简介:消息队列组件。

已经开源。

16、Storm简介:流数据处理组件。

17、Elasticsearch简介:基于Lucene的全文搜索服务器。

已开源。

18、ESSQL简介:基于Elasticsearch的SQL工具,大快开发。

19、DK-NLP简介:自然语言处理组件。

大快开发,已开源。

20、DK-SPIDER简介:分布式爬虫组件。

大快开发。

21、DKM简介:集群安装管理工具。

大快开发。

22、DK-DMYSQL简介:分布式MYSQL组件,大快改写。

23、ApacheFalcon简介:Falcon是一个面向Hadoop的、新的数据处理和管理平台,设计用于数据移动、数据管道协调、生命周期管理和数据发现。

CDH和HDP对比

CDH和HDP对比

CDH和HDP对⽐主要的不同点apache Ambari ClouderaManager Express(免费版)配置版本控制和历史记录⽀持不⽀持⼆次开发⽀持不⽀持集成⽀持no (不⽀持redis、kylin、es)维护依靠社区⼒量cloudera做了⼀些定制开发,⾃⾏维护或打patch会离社区越来越远权限控制ranger(相对简单)sentry(复杂)视图定制⽀持创建⾃⼰的视图,添加⾃定义服务不⽀持出版商:hortonworks研发了Ambari和hdp的⼤数据分析集成平台cloudera研发了cloudera manger和cdh⼤数据分析集成平台稳定性:cloudera相对来说⽐较稳定ambari相对来说不稳定(页⾯打开速度慢)资源消耗:cloudera manager的server端Xmx是2G,agent是1G,但是有host monitor和service monitor总共⼤概1Gambari的server端Xmx是2G,metric的ams和hbase的env⼤概也就是2G集群重启:cloudera⽀持滚动重启(hdfs需要设计成ha,才能滚动重启)ambari⽀持滚动重启(hdfs需要设计成ha,才能滚动重启)集群升级(⼀般来讲不要轻易升级集群):cloudera不⽀持滚动升级服务ambari⽀持滚动升级服务(这个是ambari的优点,hdfs必须是ha)⼆次开发:cloudera不⽀持ambari⽀持服务版本:cloudera较⽼ambari较新服务集成性:cloudera较弱ambari较强,⽀持es、redis、presto、kylin等体验效果:cloudera好ambari相对差安装过程:cloudera复杂ambari简单安装包:cloudera是parcel包ambari是rpm包总结:1. 不要轻易升级组件版本2. 如果对集成性要求⾼,稳定性相对弱点的,可以选择ambari3. 如果对稳定性要求⾼,集成性相对弱点的,可以选择cloudera。

星环大数据方案介绍

星环大数据方案介绍

Apache Spark
基于内存的Map/Reduce计算引擎,即将成为新一代主流计算框架。处理大数据像 “光速”一样快,比Hadoop Map/Reduce快10x倍。
JDBC 4.0
ODBC 3.5
Connector中间件管理单元
Batch &Interactive SQL Engine
SQL 2003 Compiler 语法解析器
Distributed CRUD 事务并发控制器
Concurrency Controller
SHELL
多租户管理Guardian
计算资源配置 Resource Management 用户安全授权管理 Security & Authentication 行级安全控制 Row Level Security
SQL引擎
高度优化的高速SQL引擎,可运行在Spark或Map/Reduce上,可高速处理缓存在 Holodesk上的列式数据。
丰富的工具支持
支持主流可视化和BI/挖掘工具,包括Tableau, IBM Cognos, SAP BO, Oracle BI, SAS等。支持Informatica,Pentaho/Kettle等ETL工具。
SQL Parser 优化器
RBO & CBO 代码生成
CODE GENERATOR
PL/SQL Compiler 存储过程解析器
Procedure Parser 控制流优化器
CFG Optimizer 并行优化器
Parallel Optimizer
Transaction Manager 分布式增删改
支持最完整SQL和索引的NoSQL数据库
支持SQL2003、索引、全文索引,支持图数据库和图算 法,支持非结构化数据存储 支持高并发查询
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、组件比较:
二、组件简介:
1、Hadoop
简介:集群基础组件,分为存储(HDFS)和计算(Mapreduce)两大部分。

apache社区开源。

技术来源于2、Hbase
简介:键-值非关系型数据库,apache
3、Zookeeper
4、Spark
简介:内存计算框架,伯克利首先提出,现已开源。

5、Hive
简介:基于HDFS的SQL工具,facebook开发,后开源。

6、Hue
简介:图形化集群工具,cloudera开发,后开源。

7、Impala
简介:基于HDFS的SQL工具,cloudera开发,后开源。

8、Sqoop
简介:用于关系型数据库与NOSQL数据库之间的数据导入导出。

Cloudera开发,已开源。

9、Flume
简介:用于数据流的导入, Cloudera开发,已开源。

10、Oozie
简介:工作流系统,用于提交、监控集群作业。

Cloudera开发,已开源。

11、Solr
简介:基于Lucene的全文搜索服务器。

已开源。

12、Isilon
简介:基于OneFs操作系统的存储产品,美国赛龙公司开发,后属于EMC,一种集群存储方案。

13、K-V store indexer
简介:为HBase到solr的索引中间件,为NGDATA公司开发,已开源。

14、Cloudera Manager
简介:CDH集群安装管理工具。

Cloudera开发。

15、kafka
简介:消息队列组件。

已经开源。

16、Storm
简介:流数据处理组件。

17、Elasticsearch
简介:基于Lucene的全文搜索服务器。

已开源。

18、ESSQL
简介:基于Elasticsearch的SQL工具,大快开发。

19、DK-NLP
简介:自然语言处理组件。

大快开发,已开源。

20、DK-SPIDER
简介:分布式爬虫组件。

大快开发。

21、DKM
简介:集群安装管理工具。

大快开发。

22、DK-DMYSQL
简介:分布式MYSQL组件,大快改写。

23、Apache Falcon
简介:Falcon 是一个面向Hadoop的、新的数据处理和管理平台,设计用于数据移动、数据管道协调、生命周期管理和数据发现。

24、Apache Knox
简介:Apache knox是一个访问hadoop集群的restapi网关,它为所有rest访问提供了一个简单的访问接口点。

25、Apache Phoenix
简介:Phoenix 是HBase的SQL驱动。

26、Apache Pig
简介:Pig定义了数据流语言Pig Latin,它是MapReduce编程抽象。

27、Apache Ranger
简介:ranger是一个hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的hadoop生态圈的所有数据权限。

28、Apache Slider
简介:Slider 是一个 YARN 应用,用于发布已有的分布式应用到 YARN 上,并对这些应用进行监控以及根据需要调整规模。

29、Tez
简介:Tez支持DAG作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分形成一个大的DAG 作业。

30、Apache Drill
简介:Apache Drill是一个低延迟的分布式海量数据(涵盖结构化、半结构化以及嵌套数据)交互式查询引擎,使用ANSI SQL兼容语法。

31、MapR-DB
简介:MapR开发
32、MapR Streams
简介:MapR开发
33、Mahout
简介:机器学习算法库,现已停止更新。

34、HttpFS
简介:Cloudera开发的基于http协议的HDFS操作组件。

35、Sentry
简介:Apache Sentry 是Cloudera公司发布的一个Hadoop开源组件,截止目前还是Apache的孵化项目,它提供了细粒度级、基于角色的授权以及多租户的管理模式。

36、Sahara
简介:Sahara旨在为用户提供简单部署Hadoop集群的能力,提供在OpenStack上快速配置和部署Hadoop集群的能力。

37、Myriad 0.1.0
简介:Myriad是一个Mesos框架用来动态扩展YARN集群,并支持运行Hadoop应用,如Spark和非Hadoop应用,如Node.js、Memcached、RoR等。

38、Transwarp Inceptor
简介:由Apache Spark改写,Transwarp Inceptor交互式分析引擎提供高速SQL分析和R语言数据挖掘能力,可帮助企业建立高速可扩展的数据仓库和/ 或数据集市,结合多种报表工具提供交互式数据分析、即时报表和可视化能力。

星环开发。

39、Transwarp Hyperbase
简介:Transwarp Hyperbase实时数据库是建立在Apache HBase基础之上,融合了多种索引技术、分布式事务处理、全文实时搜索、图形数据库在内的实时NoSQL数据库。

星环开发。

40、Transwarp Stream
简介:Transwarp Stream实时流处理引擎提供了强大的流计算表达能力,支持复杂的应用逻辑,生产系统的消息通过实时消息队列进入计算集群,在集群内以流水线方式被依次处理,完成数据转换、特征提取、策略检查、分析告警等复杂服务计算,最终输出到Hyperbase 等存储集群,实时生成告警页面、实时展示页面等。

星环开发。

41、Apache Ambari
简介:Ambari 创建、管理、监视 Hadoop 的集群,是为了让 Hadoop 以及相关的大数据软件更容易使用的一个web工具。

相关文档
最新文档