Hadoop大数据开发基础教程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据-Hadoop基础
2018/4/9
目录
1 2 3 4
Hadoop简介 Hadoop核心组件 Hadoop生态圈 Hadoop应用场景
2
Hadoop背景
Hadoop发展历程
3
Hadoop简介
Hadoop是一个由Apache基金会所开发的分布式系统基础 架构。用户可以在不了解分布式底层细节的情况下,开发分布 式程序。充分利用集群的威力进行高速运算和存储。它的目的 是从单一的服务器扩展到成千上万的机器,将集群部署在多台 机器,每个机器提供本地计算和存储。Hadoop框架最核心的设 计是HDFS和MapReduce。
17
Hadoop MapReduce原理
针对文本进行词频统计
18
Hadoop MapReduce本质
19
目录
1 2 3 4
Hadoop简介 Hadoop核心组件 Hadoop生态圈 Hadoop应用场景
20
Hadoop生态系统
21
Hadoop生态系统--HBase HBase – Hadoop Database,是一 个高可靠性、高性能、面向列、可伸缩的
分布式存储系统,利用HBase技术可在廉
价PC Server上搭建起大规模结构化存储 集群。
22
Hadoop生态系统—数据访问
Hive是建立在 Hadoop 上的数据仓库 基础构架。它提供了一 系列的工具,可以用来 进行数据提取转化加载 (ETL),这是一种可 以存储、查询和分析存 储在 Hadoop 中的大规 模数据的机制。
流式文件写入 一次写入,多次读取。文件一旦写入,不能修改,只能增加。 这样可以保证数据的一致性。
9
Hadoop分布式文件系统--HDFS
NameNode,用于存储元
数据以及处理客户端发出的 请求; SN,一个Checkpoint来帮 助NameNode更好的工作;
DataNode,它为 HDFS
Βιβλιοθήκη Baidu
NameNode
edits
fsimage
12
Hadoop分布式文件系统--HDFS
SecondaryNameNode
Secondary NameNode 将edits改动更新到fsimage 将fsimage拷贝到 NameNode 定时查询 edits文件
NameNode
fsimage
fsimage
14
Hadoop分布式文件系统--HDFS
宕机处理
1. 冗余备份 2. 副本存放 3. 备份读取 4. 备份数补充
15
Hadoop简介--MapReduce
并行计算框架 MapReduce是Google提出的一个软件架构,用于大规模数据 集(大于1TB)的并行运算。概念“Map(映射)”和 “Reduce(归纳)”,及他们的主要思想,都是从函数式编 程语言借来的,还有从矢量编程语言借来的特性。 当前的软件实现是指定一个Map(映射)函数,用来把一组键 值对映射成一组新的键值对,指定并发的Reduce(归纳)函 数,用来保证所有映射的键值对中的每一个共享相同的键组。
Hadoop 是高效的,因为它以并行的方式工作,通过并行处
理加快处理速度。 Hadoop 还是可伸缩的,Hadoop是在可用的计算机集簇间
分配数据并完成计算任务的,所以集群可以很容易进行节点
的扩展,扩大集群。能够处理 PB 级数据。 此外,Hadoop 依赖于社区服务,因此它的成本比较低,任
16
Hadoop MapReduce
MapReduce:Hadoop分布式计算框架 K->V 1->3 2->7 1->9 2->49
Map v=v*v
K->V Map 1->16 1->4 v=v*v 2->64 2->8 Map:映射,把键值对使用函数映射成新的键值对 K->V 1->9 2->49 1->25 Reduce 2->113 K->V v=v+v 1->16 reduce:规约,把键值对中键相同的值整合,同时应用 2->64 函数映射成新的键值对
提供存储位置。 对外部客户机而言,HDFS就像一个传统的分级文件系 统。可以创建、删除、移动或重命名文件,等等。
10
Hadoop分布式文件系统--HDFS
文件上传
NameNode、SecondaryNameNode、 DataNode
11
Hadoop分布式文件系统--HDFS
NameNode
将改动写入 文件系统中 在启动的时候 读取fsimage, 并和edits合并
13
Hadoop分布式文件系统--HDFS
分布式概念
HDFS并不是一个单机文件系统,它是分布在多个集群节点上的 文件系统。节点之间通过网络通信进行协作,提供个节点文件 信息,让每个用户都可以看到文件系统的文件,让多机器上的 多用户分享文件和存储空间。 文件存储时被分布在多个节点上。这里涉及到一个数据块的概 念,数据存储不是按一个文件存储,而是把一个文件分成一个 或多个数据块存储,数据块的概念在上一节已经描述过。数据 块在存储时并不是都存在一个节点上,而是被分布存储在各个 节点中,并且数据块会在其他节点存储副本。 数据读取从多个节点读取。读取一个文件时,从多个节点中找 到该文件的数据块,分布读取所有数据块直到最后一个数据块 读取完毕。
4
为什么使用Hadoop
原因
数据存量和增量极大 极大数据需要存储和分析 Hadoop可以存储并处理 大量数据
Hadoop编程简单易学
5
Hadoop 特点
Hadoop是一个能够对大量数据进行分布式处理的软件框架 。
Hadoop 是可靠的,因为它假设计算元素和存储会失败,因
此它维护多个工作数据副本,确保能够针对失败的节点重新 分布处理。
何人都可以使用。
6
目录
1 2 3 4
Hadoop简介 Hadoop核心组件 Hadoop生态圈 Hadoop应用场景
7
Hadoop简介—核心
Hadoop Common是一个公共
基础设施,用于支撑其他项目,
包括RPC、序列化包等
可扩展、容错、高性能的分布式
文件系统,异步复制,一次写入 多次读取
分布式计算框架;
主要包含map(映射)和reduce (规约)过程
8
Hadoop分布式文件系统--HDFS 分布式文件系统(HDFS,Hadoop Distributed File System) 高度容错性的系统 上传的数据自动保存多个副本,适合部署在廉价的机器上。
适合大数据的处理 高吞吐量的数据访问,非常适合大规模数据集上的应用。
相关文档
最新文档