1、Hadoop 总体概述电子教案

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Hadoop工作机制
HDFS工作机制简单介绍:
1、由一个 master 与多个 server 组成 2、Master 用来保存目录与索引信息，hadoop2x个 chunk 大小为 64M 3、Master 的所有信息都存储在内存中，启动时的信息从 chunk
Hadoop框架核心设计HDFS和MapReduce: HDFS为海量的数据提供分布式存储 MapReduce为海量的数据提供分布式计算
什么是分布式文件系统： HDFS
最简单的理解如上图，多台服务器(三台也行,两万台也可以)构成的一个集群系统对外无论是读操作还是写操作都仅有主节点这一个出入口对内若干个服务器之间会自动完成文件的多机复制，自动迁移，数据文件读写等操作,前期，你们就理解这样这个工作机制就行 HDFS是可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用，它运行于廉价的普通硬件上，提供容错功能
据集 Apache HBase：
HBase 是一个非关系型数据库管理系统，运行在 HDFS 之上。它用来处理大数据工程中稀疏数据集
其他常见的 Hadoop 项目还包括 Avro、Cassandra、Chukwa, Mahout 和 ZooKeeper Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点，Hadoop 的核心是 HDFS 和 Mapreduce，hadoop2.0 还包括 YARN
Apache Hive：数据仓库基础设施，提供数据汇总和特定查询。这个
系统支持用户进行有效的查询，并实时得到返回结果。 Apache Spark：
Apache Spark 是提供大数据集上快速进行数据分析的计算引擎。它建立在 HDFS 之上，却绕过了 MapReduce 使用自己的数据处理框架，Spark 常用于实时查询、流处理、迭代算法、复杂操作运算和机器学习。 Apache Ambari：
server中获得
Hadoop工作机制
HDFS是一个具有高度容错性的分布式文件系统，适合部署在廉价的机器上 HDFS的架构如下图1所示，总体上采用了master/slave 架构，主要由以下几个组件组成：Client ,NameNode ,Secondary ,DataNode
Client：切分文件,访问 HDFS,与 NameNode 交互，获取文件位置信息；与 DataNode 交互，读取和写入数据
分布式计算 mapreduce简单介绍：
形象化例子1： 1、校长对一位老师说，批改一万份卷子（必须上午改完） 2、老师叫了100个学生，老师和这100个学生组成一个团队（集
群），老师指定将卷子分给这100个学生，让他们完成，然后汇总，老师不改只管分配
例子2：
Hadoop 生态系统
Hadoop 生态系统概况：
相比，hadoop是开源的，项目的软件成本因此会大大降低。
Hadoop工作机制
hadoop由两部分组成，分别是分布式文件系统HDFS和分布式计算框架MapReduce HDFS主要用于大规模数据的分布式存储 MapReduce 则构建在分布式文件系统之上，对存储在分布式文件系统中的数据进行分布式计算 Hadoop默认使用的分布式文件系统 HFDS(Hadoop Distributed File System),它与MapReduce框架紧密结合 Hadoop中，MapReduce 底层的分布式文件系统是独立模块，用户可按照约定的一套接口实现自己的分布式文件系统，然后经过简单的配置后，存储在该文件系统上的数据便可以被 MapReduce 处理
Hadoop 总体概述
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据
簇可以方便地扩展到数以千计的节点中。高效性：Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，
因此处理速度非常快。高容错性：Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重
新分配。低成本：与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市
Ambari 用来协助管理 Hadoop，它提供对 Hadoop 生态系统中许多工具的支持，包括 Hive、HBase、Pig、 Spooq 和 ZooKeeper，这个工具提供集群管理仪表盘，可以跟踪集群运行状态，帮助诊断性能问题。
Hadoop 生态系统概况：
Apache Pig： Pig 是一个集成高级查询语言的平台，可以用来处理大数
Hadoop特点
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台，用户可以轻松地在 Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：高可靠性：Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性：Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集
1、Hadoop 总体概述
什么是大数据：
什么样的东西能成为数据呢？电子商务方面：淘宝,美团,京东买东西,你的IP地址,商品名,价格,快递名,手机号, 收货地址,下单的时间日期等这些就是数据工业方面：钢铁厂的日，月，年产量;销量;省，市，县销量等这些也是数据...
本章要点
一、 hadoop总体概述二、 hadoop生态系统三、 hadoop特点及工作机制四、 hadoop任务(job)运行过程五、核心进程讲解六、 hadoop配置文件