大数据平台简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Zookeeper
(分布式协调服务)
HBase
(分布式协数据库)
Hive
Pig
Mahout
……
MapReduce (离线计算)
Tez (DAG计算
)
Spark (内存计算
)
… …
YARN (分布式计算框架)
HDFS (分布式存储系统)
Flume
(日志收集 )
HDFS-Hadoop Distributed File System
HBase-NoSQL数据库
10
Hive-hadoop的数据仓库
11
Pig-大规模数据分析平台
12
Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处
理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的
云服务集团 云海Insight HD
24
软件集团 Indata HD
HDP
25
HDFS
相关背景资料
26
Hadoop:一个分布式系统基础架构,由Apache 基金会开发。用户可以在不了解分布式底层细节的 情况下,开发分布式程序。充分利用集群的威力高 速运算和存储。
Distributed:分布式计算是利用互联网上的计算 机的 CPU 的共同处理能力来解决大型计算问题 的一种计算科学。
20
Hortonworks Data Platform (HDP)
21
MapR Converged Data Platform
22
Hadoop主流厂商比较
23
开源
开源
开源
管理 管理
完全开源 收取服务费
工具不开源 收取License费用
架构创新
重构了底层内核 收取License费用
浪潮大数据平台产品
分布式文件系统特点
29
通透性:DFS让实际上是通过网络来访问文件的动作,由用户和程 序看来,就像访问本地的磁盘一般。
Root
目录 1
目录 2
File
···
split
Block
···
Block
集群
节 点
节 点
节 点
HDFS是什么
30
HDFS是Hadoop Distribute File System 的简称,也就是 Hadoop的一个分布式文件系统。 HDFS被设计成适合运行在通用硬件(commodity hardware)上的 分布式文件系统。 HDFS是一个高度容错性的系统,适合部署在廉价的机器上 HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应 用 HDFS可以实现流的形式访问(streaming access)文件系统中的 数据 对外部客户机而言,HDFS 就像一个传统的分级文件系统。可以创 建、删除、移动或重命名文件,等等。对于用户来说,可以直接看 成是一个巨大的硬盘。
6
Yarn-资源管理器
7
MapReduce-分布式并行计算框架
8
“你数一号书架,我数二号书架。我们人数多,数书就更快。这就是map; 最后我们到一起,把所有人的统计数加在一起,就是reduce。”
Spark-新一代大数据处理计算引擎
9
You can run Spark using its standalone cluster mode, on EC2, on Hadoop YARN, or on Apache Mesos. Access data in HDFS, Cassandra, HBase, Hive, Tachyon, and any Hadoop data source.
File system:文件系统是操作系统用于明确磁盘或分区上的文 件的方法和数据结构;即在磁盘上组织文件的方法。也指用于 存储文件的磁盘或分区,或文件系统种类。
Hadoop和HDFS的关系
27
Hadoop 是一个以一种可靠、高效、可伸缩的方式进行处理的,能够对大量 数据进行分布式处理的系统框架。 HDFS是Hadoop兼容最好的标准级文件系统,因为Hadoop是一个综合性 的文件系统抽象,所以HDFS不是Hadoop必需的。
大数据平台简介
2
目录
一.Hadoop生态系统 二.Hadoop主流厂商
三.HDFS
四.MapReduce
五.Hive
六.Spark
3
Hadoop生态系统
Hadoop 1.0 V 2.0
4
Hadoop生态系统
5
Am来自百度文库ari
(安装部署工具)
Oozie
(作业流调度系统)
Sqoop
(数据库TEL 工具)
Mahout-机器学习算法库
13
Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些 可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智 能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘 。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。
操作和编程接口。
Apache pig是用来处理大规模数据的高级查询语言,配合Hadoop使用,
可以在处理海量数据时达到事半功倍的效果,比使用Java,C++等语言编写 大规模数据处理程序的难度要小N倍,实现同样的效果的代码量也小N倍。
A = LOAD 'a.txt' AS (col1:chararray, col2:int, col3:int, col4:int, col5:double, col6:double); B = GROUP A BY (col2, col3, col4); C = FOREACH B GENERATE group, AVG(A.col5), AVG(A.col6); DUMP C;
Zookeeper-分布式协调服务
14
Sqoop-Hadoop与关系数据库间的数据同步工具
15
Flume-分布式日志采集工具
16
Amari-Hadoop集群安装部署监控工具
17
18
Hadoop主流厂商
大数据领域的三驾马车
19
Cloudera
Hortonwo rks
MapR
Cloudera Distribution Hadoop(CDH)
所以可以理解为hadoop是一个框架,HDFS是hadoop中的一个部件。
HDFS背景介绍
28
随着数据量越来越大, 在一个操作系统管辖的范围存不下了, 那 么就 分配到更多的操作系统管理的磁盘中, 但是不方便管理和维 护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文 件管理系统。
分布式文件系统:一种允许文件通过网络在多台主机上分享的文件 系统,可以让多个机器上的多个用户分享文件和存储空间。