hadoop原理介绍ppt

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hadoop2.0架构设计与原理
数据中心-Alan
主要内容 1 2 3
Hadoop介绍 Hadoop原理 Hadoop YARN产生的背景
4
Hadoop YARN基本架构
5
运行在YARN上的计算框架
6
YARN 发展趋势
主要内容 1 2 3
Hadoop介绍 Hadoop原理 Hadoop YARN产生的背景
Hadoop的初衷是为解决 Nutch 的海量数据爬取和存储的需 要 Hadoop于2005年秋天作为 Lucene的子项目Nutch的一部 分正式引入Apache基金会。 名称起源: Doug Cutting儿子的黄色大象玩具的名字 目前最新稳定版本2.6.0
什么是大数据
• 数据集主要特点
✓ Volume: 数量量从TB到PB级别 ✓ Variety: 数据类型复杂,超过80%的数据是非结构化的 ✓ Velocity:数据量在持续增加(两位数的年增长率) ✓ Value:巨大的数据价值
xxxx
xx
xxxx
xx
xxxx
xx
xxxx
01
xxxx
11
x
xxxx
xxxx
xxxx
xx01
11
Text
Big Data Store and Analytics
Hadoop生态圈
主要内容 1 2 3
Hadoop介绍 Hadoop原理 Hadoop YARN产生的背景
4
Hadoop YARN基本架构
✓ 其他特征
✓ 数据来自大ຫໍສະໝຸດ Baidu源,需要做相关性分析 ✓ 需要实时或者准实时的流式采集,有些应用90%写vs.10%读 ✓ 数据需要长时间存储,非热点数据也会被随机访问
什么是大数据
某顾客比:萨那店你们的有电什话么可铃以响推了荐的,?客服人员拿起电话。 客客顾服客服:::您你可怎XX以么X试知比试道萨我我店们会的喜。低欢您脂吃好健这康种,比的请萨?问。有什么需要我为您服务 ? 顾客服客::您你上星好期,一我在中想央要图一书馆份借…了…一本《低脂健康食谱》。 客顾客服::好先。那生我,要烦一个请家先庭把特大您号的比会萨,员要卡付号多少告钱诉?我。 顾客心服脏客:搭:9桥9手x元x术,xx,这xx还个x处足**在够*恢您。复一期家。六口吃了。但您母亲应该少吃,她上个月刚刚做了 客顾客服::那陈可以先刷生卡,吗?您好!您是住在泉州路一号12楼120x室,请 问客服您:想陈要先生点,什对么不起?。请您付现款,因为您的信用卡已经刷爆了,您现在还欠 顾银顾行客客4:8:那07我我元先,想去而要附且一近还的不个提包海款括鲜机房提贷比款利萨。息…。… 客客服服::陈陈先生先,生根,据您海的鲜记比录,萨您不已适经超合过您今。日提款限额。 顾顾客客::算为了,什你么们?直接把比萨送我家吧,家里有现金。你们多久会送到? 客客顾服客服:::大为根约什么3据0?分您钟的。如医果疗您记不想录等,,你可以的自血己压骑车和来胆。固醇都偏高。
x xxxx xxxx xxxx xx01 11
xxxx xxxx xxxx xxxx xxxx
x xxxx xxxx xxxx xxxx xxxx
x xxxx xxxx xxxx xx01 11
ETL
API
xx
xx
xx
xx
xx
xx
xx
xxxx
01
xxxx
11
xxxx
xx
xxxx
xx
xxxx
xx
x
xx
5
运行在YARN上的基本框架
6
YARN 发展趋势
HDFS-分布式文件系统
设计目标 ✓错误检测和快速自动恢复 •硬件故障是常态而非异常 ✓为流式数据访问优化 ✓针对支持大数据集 •单个文件大小有数GB或者TB •可提供高聚合带宽访问 • 可能够扩展至数千个节点 ✓简化“一致性”模型 •一次写入、多次读,写入过程可能并发 ✓移动“计算”比移动“数据”更便宜
主要特点 ✓使用低成本存储和服务器构建 ✓存放PB级别的海量数据 ✓高可扩展性,实际生产环境扩展至4000个节点 ✓高可靠性和容错性,数据自动复制,可自我修复 ✓高带宽,高并发访问,对于延迟不敏感
数据分布与复制
HDFS基本设计
数据块:文件被划分为固定大小的数据块进行存储 ✓数据块缺省为64M,远大于一般文件系统数据块大小 •减少元数据的量 •有利于顺序读写(在磁盘上顺序存放) ✓可靠性:数据通过副本的方式保存在多个数据节点上 •默认3个副本 •副本选择会考虑机架信息以防止整个机架同时掉电
Hadoop的起源
Hadoop是Google的集群系统的开源实现 Google集群系统:GFS(Google File System)、 MapReduce、BigTable Hadoop主要由HDFS(Hadoop Distributed File System Hadoop分布式文件系统)、MapReduce
4
Hadoop YARN基本架构
5
运行在YARN上的基本框架
6
YARN 发展趋势
Hadoop概述
Hadoop是一个开源的、可靠的、可扩展的分布式并行计算 框架 主要组成:分布式文件系统HDFS和MapReduce算法执行 作者:Doug Cutting 语言:Java,支持多种编程语言,如:Python、C++
系统设计优化:用单个管理节点来保存文件系统元数据和管理/协调 ✓数据缓存:DataNode没有数据缓存 •由于文件的访问是扫描式的,不具有局部性 ✓访问方式 •读、写、文件改名、删除等 •文件内容不允许覆盖更新 •提供一个特殊的访问接口:追加append
HDFS体系结构
• 中心目录服务器 (NameNode) 管理大量数据服务器(DataNode) • NameNode 管理元数据 (文件目录树, 文件->块映射,块->数据服务器映 射表, etc.) • DataNode 负责存储数据、以及响应数据读写请求 • 客户端与NameNode交互进行文件创建/删除/寻址等操作, 之后直接与 DataNodes交互进行文件I/O
客服:根据我们全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号 为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑着这辆摩托车。 顾客当即晕倒……
大数据VS传统数据
大数据处理流程
非结构化数据 结构化数据 实时流数据
其它数据
xxxx xxxx xxxx xxxx xxxx
x xxxx xxxx xxxx xxxx xxxx
相关文档
最新文档