武汉理工大学云计算重点(刘鹏第三版)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、大数据与云计算
1.云计算是并行计算、分布式计算和网格计算的发展。
2云计算服务类型:将基础设施作为服务laas、将平台作为服务paas 、将软件作为服务saas 。
3.云计算体系结构分为四层:物理资源层、资源池层,管理中间件层,SOA(service-oriented-architecture,面向服务的体系结构)构建层。
4.云计算有更低的硬件和网络成本、更低的管理成本和电力成本,也有更高的资源利用率。
5.云计算特点:超大规模、虚拟化、高可靠性、通用性、高可伸缩性、按需服务、极其廉价
二、Google云计算原理和应用
Google云计算技术包括:Google文件系统GFS、分布式计算编程模型MapReduce 、分布式锁Chubby、分布式结构化数据表BigTable 、分布式存储系统Megastore 、分布式监控系统Dapper 、海量的交互式分析工具D remel ,以及内存大数据分析系统powerdrill。
2.GFS是一个大型的分布式文件系统Google
3.GFS将文件按照固定大小进行分块,默认是64MB,每一块称为一个chunk,每一个chunk都有一个索引号。
4.GFS特点:采用中心服务器模式、不缓存数据、在用户态下实现、只提供专用接口
5.master容错,Master上保存了GFS文件系统的三种元数据
Name Space,文件系统目录结构、Chunk与文件名的映射表、 Chunk副本的位置信息(默认有三个副本)
6.chunk server容错:GFS中的每一个文件被划分成多个Chunk,Chunk的默认大小是64MB,每个Chunk又划分为若干Block(64KB),每个Block对应一个32bit的校验和,保证数据正确。
7.系统管理技术:大规模集群安装技术、故障检测技术、节点动态加入技术节能技术
8.mapreduce模型:Map函数--对一部分原始数据进行指定的操作。每个Map操作都针对不同的原始数据,因此Map与Map之间是互相独立的,这使得它们可以充分并行化。reduce函数--操作—对每个Map所产生的一部分中间结果进行合并操作,每个Reduce所处理的Map中间结果是互不交叉的,reduce也可以在并行环境下执行。
9. MapReduce函数把输入文件分成M块,每块大概16M~64MB。
10.Chubby几个重要的特性:Chubby不支持内部文件的移动;不记录文件的最后访问时间;另外在Chubby中并没有符号连接(Symbolic Link,又叫软连接,类似于Windows系统中的快捷方式)和硬连接(Hard Link,类似于别名)的概念
11.用户打开某个节点的同时会获取一个类似于UNIX中文件描述符()的句柄,这个句柄由以下三个部分组成:
校验数位:防止其他用户创建或猜测这个句柄、序号:确定句柄由当前还是以前的主服务器创建、模式信息:用于新的主服务器重新创建一个旧句柄。
补充:Bigtable是Google开发的基于GFS和Chubby 的分布式存储系统。
12.分布式结构化数据表Bigtable 设计动机与目标:需要存储的数据种类繁多、海量的服务请求、商用数据库无法满足Google的需求。
13. Bigtable选用了Google自己开发的分布式锁服务Chubby
14.Google应用程序引擎 :Google App Engine为每个应用程序提供了一个安全运行环境,该沙盒可以保证每个应用程序能够安全的隔离运行。
第五章、hadoop2.0
1.2002年开源组织Apache成立开源搜索引擎项目Nutch,
2004年 Google三大论文, Apache实现了Nutch版的NDFS和MapReduce
2006年 NDFS和MapReduce移出Nutch,形成独立项目,称为Hadoop。
2.hadoop分布式文件系统HDFS可以部署在廉价的硬件上,能够高容错、可靠的存储
海量数据(可以达到TB甚至PB级)。它还可以和Yarn 中的mapreduce编程模型很
好的结合,为应用程序提供高吞吐量的数据访问,适用于大数据应用程序。
3.HDFS架构:
4.HDFS内部特性:冗余备份、副本存放
副本选择
HDFS会尽量使用离程序最近的副本来满足用户请求,这样可以减少总带宽消耗和读延时。如果在读取程序的同一个机架上有一个副本,那么就使用这个副本;如果HDFS机群跨了多个数据中心,那么读取程序将优先考虑本地数据中心的副本。
HDFS的架构支持数据均衡策略。如果某个DataNode的剩余磁盘空间下降到一定程度,按照均衡策略,系统会自动把数据从这个DataNode移动到其他节点。当对某个文件
有很高需求时,系统可能会启动一个计划创建该文件的新副本,并重新平衡集群中的其他数据。
4心跳检测 5数据完整性检测 6元数据磁盘失效7 简单一致性模型、流式数据访问
客户端缓存
客户端创建文件的请求不是立即到达NameNode,HDFS客户端先把数据缓存到本地的一个临时文件,程序的写操作透明地重定向到这个临时文件。当这个临时文件累积的数据超过一个块的大小(128MB)时,客户端才会联系NameNode。NameNode在文
件系统中插入文件名,给它分配一个数据块,这样客户端就把数据从本地的缓存刷新
到指定的数据块中。当文件关闭后,临时文件中剩余的未刷新数据也会被传输到DataNode中,然后客户端告诉NameNode文件已关闭,此时NameNode才将文件创
建操作写入日志进行存储。如果NameNode在文件关闭之前死机,那么文件将会丢失。如果不采用客户端缓存,网络速度和拥塞都会对输出产生很大的影响。
流水线复制