武汉理工大学云计算重点(刘鹏第三版)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、大数据与云计算

1.云计算是并行计算、分布式计算和网格计算的发展。

2云计算服务类型:将基础设施作为服务laas、将平台作为服务paas 、将软件作为服务saas 。

3.云计算体系结构分为四层:物理资源层、资源池层,管理中间件层,SOA(service-oriented-architecture,面向服务的体系结构)构建层。

4.云计算有更低的硬件和网络成本、更低的管理成本和电力成本,也有更高的资源利用率。

5.云计算特点:超大规模、虚拟化、高可靠性、通用性、高可伸缩性、按需服务、极其廉价

二、Google云计算原理和应用

Google云计算技术包括:Google文件系统GFS、分布式计算编程模型MapReduce 、分布式锁Chubby、分布式结构化数据表BigTable 、分布式存储系统Megastore 、分布式监控系统Dapper 、海量的交互式分析工具D remel ,以及内存大数据分析系统powerdrill。

2.GFS是一个大型的分布式文件系统Google

3.GFS将文件按照固定大小进行分块,默认是64MB,每一块称为一个chunk,每一个chunk都有一个索引号。

4.GFS特点:采用中心服务器模式、不缓存数据、在用户态下实现、只提供专用接口

5.master容错,Master上保存了GFS文件系统的三种元数据

Name Space,文件系统目录结构、Chunk与文件名的映射表、 Chunk副本的位置信息(默认有三个副本)

6.chunk server容错:GFS中的每一个文件被划分成多个Chunk,Chunk的默认大小是64MB,每个Chunk又划分为若干Block(64KB),每个Block对应一个32bit的校验和,保证数据正确。

7.系统管理技术:大规模集群安装技术、故障检测技术、节点动态加入技术节能技术

8.mapreduce模型:Map函数--对一部分原始数据进行指定的操作。每个Map操作都针对不同的原始数据,因此Map与Map之间是互相独立的,这使得它们可以充分并行化。reduce函数--操作—对每个Map所产生的一部分中间结果进行合并操作,每个Reduce所处理的Map中间结果是互不交叉的,reduce也可以在并行环境下执行。

9. MapReduce函数把输入文件分成M块,每块大概16M~64MB。

10.Chubby几个重要的特性:Chubby不支持内部文件的移动;不记录文件的最后访问时间;另外在Chubby中并没有符号连接(Symbolic Link,又叫软连接,类似于Windows系统中的快捷方式)和硬连接(Hard Link,类似于别名)的概念

11.用户打开某个节点的同时会获取一个类似于UNIX中文件描述符()的句柄,这个句柄由以下三个部分组成:

校验数位:防止其他用户创建或猜测这个句柄、序号:确定句柄由当前还是以前的主服务器创建、模式信息:用于新的主服务器重新创建一个旧句柄。

补充:Bigtable是Google开发的基于GFS和Chubby 的分布式存储系统。

12.分布式结构化数据表Bigtable 设计动机与目标:需要存储的数据种类繁多、海量的服务请求、商用数据库无法满足Google的需求。

13. Bigtable选用了Google自己开发的分布式锁服务Chubby

14.Google应用程序引擎 :Google App Engine为每个应用程序提供了一个安全运行环境,该沙盒可以保证每个应用程序能够安全的隔离运行。

第五章、hadoop2.0

1.2002年开源组织Apache成立开源搜索引擎项目Nutch,

2004年 Google三大论文, Apache实现了Nutch版的NDFS和MapReduce

2006年 NDFS和MapReduce移出Nutch,形成独立项目,称为Hadoop。

2.hadoop分布式文件系统HDFS可以部署在廉价的硬件上,能够高容错、可靠的存储

海量数据(可以达到TB甚至PB级)。它还可以和Yarn 中的mapreduce编程模型很

好的结合,为应用程序提供高吞吐量的数据访问,适用于大数据应用程序。

3.HDFS架构:

4.HDFS内部特性:冗余备份、副本存放

副本选择

HDFS会尽量使用离程序最近的副本来满足用户请求,这样可以减少总带宽消耗和读延时。如果在读取程序的同一个机架上有一个副本,那么就使用这个副本;如果HDFS机群跨了多个数据中心,那么读取程序将优先考虑本地数据中心的副本。

HDFS的架构支持数据均衡策略。如果某个DataNode的剩余磁盘空间下降到一定程度,按照均衡策略,系统会自动把数据从这个DataNode移动到其他节点。当对某个文件

有很高需求时,系统可能会启动一个计划创建该文件的新副本,并重新平衡集群中的其他数据。

4心跳检测 5数据完整性检测 6元数据磁盘失效7 简单一致性模型、流式数据访问

客户端缓存

客户端创建文件的请求不是立即到达NameNode,HDFS客户端先把数据缓存到本地的一个临时文件,程序的写操作透明地重定向到这个临时文件。当这个临时文件累积的数据超过一个块的大小(128MB)时,客户端才会联系NameNode。NameNode在文

件系统中插入文件名,给它分配一个数据块,这样客户端就把数据从本地的缓存刷新

到指定的数据块中。当文件关闭后,临时文件中剩余的未刷新数据也会被传输到DataNode中,然后客户端告诉NameNode文件已关闭,此时NameNode才将文件创

建操作写入日志进行存储。如果NameNode在文件关闭之前死机,那么文件将会丢失。如果不采用客户端缓存,网络速度和拥塞都会对输出产生很大的影响。

流水线复制

相关文档
最新文档