客户端工作汇报
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.hadoop why?
传统数据库
MapReduce
数据大小
访问 更新 结构 完整性 横向扩展(scaling out)
GB
交互式、批处理 多次读写 静态模式 高 非线性
PB
批处理 一次写入多次读写 动态模式 低
线性!!!
2.hadoop版本变迁史
ห้องสมุดไป่ตู้
2.hadoop版本变迁史
3.一个简单的批处理分层架构(hadoop 1.x)
hadoop入门介绍
苏州瑞翼信息技术有限公司 朱健
1.hadoop why?
1.数据非结构化+半结构化,传统数据库无法处理。 2.数据量大,传统关系型数据库无法承载。数据库更新小部分数据,B-tree效率高。但是大 量数据时,效率低。需要"sort/merge"来重建数据库。 一个趋势:寻址时间(磁盘慢的原因)的提高远远慢于传输速率(带宽)的提高。流式读 取主要取决于传输速率。
• runtime (linux,jvm) • 基础设施(hdfs,job,zk) • 基础平台层 (scheduler,hbase,hive) • 用户网关层 • 客户应用层(行为分析,账单,清 结算等等)
4.hadoop生态圈
5.基础组件
• Hadoop Common: The common utilities that support the other Hadoop modules. • Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data. • Hadoop YARN: A framework for job scheduling and cluster resource management. • Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
6.HDFS
7.YARN
7.YARN
• ResourceManager(RM):主要接收客户端任务请求,接收和监控NodeManager(NM)的 资源情况汇报,负责资源的分配与调度,启动和监控ApplicationMaster(AM)。
• NodeManager:主要是节点上的资源管理,启动Container运行task计算,上报资源、 container情况给RM和任务处理情况给AM。
• ApplicationMaster:主要是单个Application(Job)的task管理和调度,向RM进行资源的申 请,向NM发出launch Container指令,接收NM的task处理状态信息。
8.MapReduce
8.MapReduce
8.MapReduce
Q&A