Hadoop技术介绍ppt课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
课件部分内容来源于网络,如有异 议侵权的话可以联系删除,可编辑 版!
18
课件部分内容来源于网络,如有异 议侵权的话可以联系删除,可编辑 版!
19
课件部分内容来源于网络,如有异 议侵权的话可以联系删除,可编辑 版!
12
目录
Hadoop是什么 Hadoop是如何运作的
Hadoop能做什么
大数据时代三架马车
课件部分内容来源于网络,如有异 议侵权的话可以联系删除,可编辑 版!
13
Hive/Pig 数据仓库工具 HBase 列式数据库 Hadoop 数据底层 ETL Pig BI Report RDBMS Hive
集群拓扑结构 8
数据存取策略
HDFS上的最小数据单元为Block。原始文件被分成1个或者多个Block,默认 Block大小为64M,默认存储3份Block。 由NameNode决定三份Block分别存放在哪些DataNode上。根据散列算法出第一份 数据的存放节点,在同一机架(Rack)中的另一个DataNode保存第二份数据,在不同 机架的另一个DataNode保存第三份数据。NameNode记录了数据的所有位置信息。 客户端对数据的存取都是直接与DataNode之间进行数据传输,NameNode向客户端 反馈数据的位置信息和数据节点的信息。
大数据时代三架马车
课件部分内容来源于网络,如有异 议侵权的话可以联系删除,可编辑 版!
5
MapReduce
化大为小
化繁为简
开发方式 实现map函数 实现reduce函数
课件部分内容来源于网络,如有异 议侵权的话可以联系删除,可编辑 版!
6
统计词频
方法一 写一个小程序遍历整个文件,统计每一个遇到的词的出现次数。 方法二 写一个多线程并发遍历整个文件。
•Hadoop Distribute FileSystem(HDFS)
高扩展性 可以方便的扩展数据节点。 课件部分内容来源于网络,如有异 高效性 议侵权的话可以联系删除,可编辑 基于高速网络快速的在各节点之间传输数据。 版!
4
目录
Hadoop是什么 Hadoop是如何运作的
Hadoop能做什么
课件部分内容来源于网络,如有异 议侵权的话可以联系删除,可编辑 版!
9
Hadoop操作命令
Hadoop命令与大部分linux文件操作命令相同或者类似。分为以下几类命令。 启动命令 start-all.sh stop-all.sh start… 管理命令 hadoop dfsadmin hadoop namenode hadoop fsck 文件操作命令 hadoop fs –ls hadoop fs –put hadoop fs -get 启动整个集群服务 停止整个集群服务 单个服务的启动、停止 集群管理命令 命名节点管理命令 文件系统检查命令
16
课件部分内容来源于网络,如有异 议侵权的话可以联系删除,可编辑 版!
17
相关框架
ZooKeeper
Zookeeper是Google的Chubby一个开源的实现,是高有效和可靠的协同工作系统, Zookeeper能够用来Leader选举,配置信息维护等。
Sqoop
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一 个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中, 也可以将HDFS的数据导进到关系型数据库中。
目录
Hadoop是什么 Hadoop是如何运作的
Hadoop能做什么
大数据时代三架马车
课件部分,可编辑 版!
11
Hadoop不是万能的
离线海量数据分析 一次写入,多次读取 海量历史数据统计分析 非结构化数据处理
日志分析 用户行为分析 分布式并行计算应用 复杂算法计算 圆周率…
3
Hadoop是由Apache基金会研发的开源 的分布式计算框架和分布式文件系统。是对 Google的MapReduce和GFS的开源实现。
•分布式计算框架(MapReduce)
Map(映射)
对数据做键值映射,可理解为Group By。
Reduce(化简) 对Map阶段的输出结果进行汇总。
多线程并发控制
方法三 将程序放到多台机器上执行。
部署麻烦,需要人工copy、整合
方法四 MapReduce。
只需实现Map和Reduce的逻辑,MapReduce框架已经帮我们实现了文件分割、同步 Copy、合并等工作。
课件部分内容来源于网络,如有异 议侵权的话可以联系删除,可编辑 版!
7
HDFS
localpath hdfspath
hdfspath localpath
Job管理命令 hadoop job –list mapreduce任务列表 hadoop job –kill jobid 杀死mapreduce任务 课件部分内容来源于网络,如有异
议侵权的话可以联系删除,可编辑 版! 10
HRegionServer
响应用户I/O请求
存储格式 HFile HLogFile
HBase中KeyValue数据的存储格式,HFile是Hadoop的二进制格式文件。
HBase中WAL(Write Ahead Log) 的存储格式,物理上是Hadoop的Sequence File。
课件部分内容来源于网络,如有异 议侵权的话可以联系删除,可编辑 版!
单个服务的启动停止?管理命令hadoopdfsadmin集群管理命令hadoopnamenode命名节点管理命令hadoopfsck文件系统检查命令?文件操作命令hadoopfslshadoopfsputlocalpathhdfspathhadoopfsgethdfspathlocalpath?job管理命令hadoopjoblistmapreduce任务列表hadoopjobkilljobid杀死mapreduce任务hadoop是什么hadoop是如何运作的hadoop能做什么大数据时代三架马车目录hadoop不是万能的?离线海量数据分析一次写入多次读取海量历史数据统计分析?非结构化数据处理日志分析用户行为分析?分布式并行计算应用复杂算法计算圆周率
ZooKeeper
HBase
HDFS
课件部分内容来源于网络,如有异 议侵权的话可以联系删除,可编辑 版!
Thrift
14
MapReduce
Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一 张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务 进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的 MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分 析。 数据存储 Table 每个表对应HDFS上一个目录。 Partition 对指定列根据列值进行分区,每个区一个目录。 Bucket 对指定列进行Hash分区,每个区一个目录。 External Table 对应HDFS一个目录路径,删除表,数据不会删除
Hadoop技术介绍
课件部分内容来源于网络,如有异议侵 权的话可以联系删除,可编辑版!
1
目录
Hadoop是什么 Hadoop是如何运作的
Hadoop能做什么
大数据时代三架马车
课件部分内容来源于网络,如有异 议侵权的话可以联系删除,可编辑 版!
2
前言
课件部分内容来源于网络,如有异 议侵权的话可以联系删除,可编辑 版!
课件部分内容来源于网络,如有异 议侵权的话可以联系删除,可编辑 版!
15
Hbase (Hadoop DataBase) HBase是一个分布式的、面向列的开源数据库。Hbase依托于Hadoop的HDFS 作为最基本存储基础单元。
基本服务 HMaster
管理元数据的信息 管理HRegionServer的负载均衡
NameNode
命名服务器、记录元数据的信息
JobTracker
负责MapReduce的Job调度
SecondaryNameNode
对NameNode元数据的备份服务
DataNode
数据节点,响应客户端的数据请求
TaskTracker
负责MapReduce的任务调度
课件部分内容来源于网络,如有异 议侵权的话可以联系删除,可编辑 版!