1、Hadoop 总体概述电子教案
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hadoop工作机制
HDFS工作机制简单介绍:
1、由一个 master 与多个 server 组成 2、Master 用来保存目录与索引信息,hadoop2x个 chunk 大小为 64M 3、Master 的所有信息都存储在内存中,启动时的信息从 chunk
Hadoop框架核心设计HDFS和MapReduce: HDFS为海量的数据提供分布式存储 MapReduce为海量的数据提供分布式计算
什么是分布式文件系统: HDFS
最简单的理解如上图,多台服务器(三台也行,两万台也可以)构成的一个集群 系统 对外无论是读操作还是写操作都仅有主节点这一个出入口 对内若干个服务器之间会自动完成文件的多机复制,自动迁移,数据文件读 写等操作,前期,你们就理解这样这个工作机制就行 HDFS是可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行 访问的应用,它运行于廉价的普通硬件上,提供容错功能
据集 Apache HBase:
HBase 是一个非关系型数据库管理系统,运行在 HDFS 之 上。它用来处理大数据工程中稀疏数据集
其他常见的 Hadoop 项目还包括 Avro、Cassandra、Chukwa, Mahout 和 ZooKeeper Hadoop 是一个能够对大量数据进行分布式处理的软件框架。 具有可靠、高效、可伸缩的特点,Hadoop 的核心是 HDFS 和 Mapreduce,hadoop2.0 还包括 YARN
Apache Hive: 数据仓库基础设施,提供数据汇总和特定查询。这个
系统支持用户进行有效的查询,并实时得到返回结果。 Apache Spark:
Apache Spark 是提供大数据集上快速进行数据分析 的计算引擎。它建立在 HDFS 之上,却绕过了 MapReduce 使 用自己的数据处理框架,Spark 常用于实时查询、流处理、迭 代算法、复杂操作运算和机器学习。 Apache Ambari:
server中获得
Hadoop工作机制
HDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的 机器上 HDFS的架构如下图1所示,总体上采用了master/slave 架构,主要 由以下几个组件组成:Client ,NameNode ,Secondary ,DataNode
Client: 切分文件,访问 HDFS,与 NameNode 交互,获取文件位置信息;与 DataNode 交互,读取和写入数据
分布式计算 mapreduce简单介绍:
形象化例子1: 1、校长对一位老师说,批改一万份卷子(必须上午改完) 2、老师叫了100个学生,老师和这100个学生组成一个团队(集
群),老师指定将卷子分给这100个学生,让他们完成,然后汇总, 老师不改只管分配
例子2:
Hadoop 生态系统
Hadoop 生态系统概况:
相比,hadoop是开源的,项目的软件成本因此会大大降低。
Hadoop工作机制
hadoop由两部分组成,分别是分布式文件系统HDFS和分布式计算框 架MapReduce HDFS主要用于大规模数据的分布式存储 MapReduce 则构建在分布式文件系统之上,对存储在分布式文件系 统中的数据进行分布式计算 Hadoop默认使用的分布式文件系统 HFDS(Hadoop Distributed File System),它与MapReduce框架紧密 结合 Hadoop中,MapReduce 底层的分布式文件系统是独立模块,用户可 按照约定的一套接口实现自己的分布式文件系统,然后经过简单的 配置后,存储在该文件系统上的数据便 可以被 MapReduce 处理
Hadoop 总体概述
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)简称HDFS。HDFS有高容错性的特点,并且设计用来部署在 低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集 (large data set)的应用程序。HDFS放宽了(relax)POSIX的要 求,可以以流的形式访问(streaming access)文件系统中的数据
簇可以方便地扩展到数以千计的节点中。 高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,
因此处理速度非常快。 高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重
新分配。 低成本:与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集 市
Ambari 用来协助管理 Hadoop,它提供对 Hadoop 生态系统中许多工具的支持,包括 Hive、HBase、Pig、 Spooq 和 ZooKeeper,这个工具提供集群管理仪表盘,可以跟 踪集群运行状态,帮助诊断性能问题。
Hadoop 生态系统概况:
Apache Pig: Pig 是一个集成高级查询语言的平台,可以用来处理大数
Hadoop特点
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,用户可以轻松地在 Hadoop上开发和运行处理海量数据的应用程序。 它主要有以下几个优点: 高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。 高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集
1、Hadoop 总体概述
什么是大数据:
什么样的东西能成为数据呢? 电子商务方面: 淘宝,美团,京东买东西,你的IP地址,商品名,价格,快递名,手机号, 收货地址,下单的时间日期等这些就是数据 工业方面: 钢铁厂的日,月,年产量;销量;省,市,县 销量等这些也是数据...
本章要点
一、 hadoop总体概述 二、 hadoop生态系统 三、 hadoop特点及工作机制 四、 hadoop任务(job)运行过程 五、 核心进程讲解 六、 hadoop配置文件