大数据技术原理及应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据技术原理及应用

大数据处理架构—Hadoop简介

Hadoop项目包括了很多子项目,结构如下图

Common

原名:Core,包含HDFS,MapReduce和其他公共项目,从Hadoop0.21版本后,HDFS和MapReduce分离出去,其余部分内容构成HadoopCommon。Common为其他子项目提供支持的常用工具,主要包括文件系统、RPC(Remoteprocedurecall)和串行化库。

Avro

Avro是用于数据序列化的系统。它提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC的功能和简单的动态语言集成功能。其中,代码生成器既不需要读写文件数据,也不需要使用或实现RPC协议,它只是一个可选的对静态类型语言的实现。Avro系统依赖于模式(Schema),Avro数据的读和写是在模式之下完成的。这样就可以减少写入数据的开销,提高序列化的速度并缩减其大小。

Avro可以将数据结构或对象转化成便于存储和传输的格式,节约数据存储空间和网络传输带宽,Hadoop的其他子项目(如HBase和Hive)的客户端和服务端之间的数据传输。

HDFS

HDFS:是一个分布式文件系统,为Hadoop项目两大核心之一,是Googlefilesystem(GFS)的开源实现。由于HDFS具有高容错性(fault-tolerant)的特点,所以可以设计部署在低廉(low-cost)的硬件上。它可以通过提供高吞吐率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了可移植操作系统接口(POSIX,PortableOperatingSystemInterface)的要求,这样就可以实现以流的形式访问文件系统中的数据。MapReduce

HadoopMapReduce是针对谷歌MapReduce的开源实现,它是一种编程模型,用于大规模数据集(大于1TB)的并行运算。“映射”(map)、“化简”(reduce)等概念和它们的主要思想都是从函数式编程语言中借来的。它使得编程人员在不了解分布式并行编程的情况下也能方便地将自己的程序运行在分布式系统上。MapReduce在执行时先指定一个map(映射)函数,把输入键值对映射成一组新的键值对,经过一定的处理后交给reduce,reduce对相同key下的所有value进行处理后再输出键值对作为最终的结果。核心思想就是“分而治之”。HBase

HBase是一个分布式的、面向列的开源数据库,该技术来源于Google 的论文“Bigtable:一个结构化数据的分布式存储系统”。如同Bigtable利用了Google文件系统(GoogleFileSystem)提供的分布式数据存储方式一样,HBase在Hadoop之上提供了类似于Bigtable 的能力。HBase不同于一般的关系数据库,其一,HBase是一个适合

于存储非结构化数据的数据库;其二,HBase是基于列而不是基于行的模式。HBase和Bigtable使用相同的数据模型。用户将数据存储在一个表里,一个数据行拥有一个可选择的键和任意数量的列。由于HBase表示疏松的,用户可以给行定义各种不同的列。HBase主要用于需要随机访问、实时读写的大数据。

Hive

Hive最早是由Facebook设计的,是一个建立在Hadoop基础之上的数据仓库,它提供了一些用于数据整理、特殊查询和分析存储在Hadoop文件中的数据集的工具。Hive提供的是一种结构化数据的机制,它支持类似于传统RDBMS中的SQL语言来帮助那些熟悉SQL的用户查询Hadoop中的数据,该查询语言称为HiveQL。与此同时,那些传统的MapReduce编程人员也可以在Mapper或Reducer中通过HiveQL查询数据。Hive编译器会把HiveQL编译成一组MapReduce任务,从而方便MapReduce编程人员进行Hadoop应用的开发。

Pig

Pig是一个对大型数据集进行分析和评估的平台。Pig最突出的优势是它的结构能够经受住高度并行化的检验,这个特性让它能够处理大型的数据集。目前,Pig的底层由一个编译器组成,它在运行的时候会产生一些MapReduce程序序列,Pig的语言层由一种叫做PigLatin 的正文型语言组成。

Chukwa

Chukwa是开源的数据收集系统,用于监控和分析大型分布式系统的数据。Chukwa是在Hadoop的HDFS和MapReduce框架之上搭建的,它同时继承了Hadoop的可扩展性和健壮性。Chukwa通过HDFS来存储数据,并依赖于MapReduce任务处理数据。Chukwa中也附带了灵活且强大的工具,用于显示、监视和分析数据结果,以便更好地利用所收集的数据。

大数据存储

存储的讲解分为四部分:HDFS,HBase,NoSQL和云数据库

HDFS

分布式文件系统简介

相对于传统的本地文件系统而言,分布式文件系统是一种通过网络实现文件在多台计算机上进行分布式存储的文件系统。分布式文件系统的设计一般采用“客户机/服务器”(client/server)模式,客户端以特定的通信协议通过网络与服务器建立连接,提出文件访问请求,客户端和服务器可以通过设置访问权来限制请求方对底层数据存储快的访问。

在我们所熟悉的Windows、Linux操作系统中,文件系统一般会把磁盘空间划分为每512字节一组,称为“磁盘块”,它是文件系统读写操作的最小单位,文件系统的块(block)通常是磁盘块的整数倍,即每次读写的数据量必须是磁盘块大小的整数倍。

分布式文件系统也采用了块的概念,HDFS默认的一个块的大小为64MB。与普通文件不同的是,在分布式文件系统中,如果一个文件小于一个数据块的大小,它并不占用整个数据块的存储空间。

分布式文件系统在物理结构上由计算机群中的多个节点构成,这些节点分为两类,一类叫“主节点”(masternode)或者也称为“名称节点”(namenode),另一类叫“从节点”(slavenode)或者也被称为“数据节点”(datanode)。

名称节点负责文件和目录的创建、删除和重命名等,同时管理着数据节点和文件块的映射关系,因此客户端只有访问名称节点才能找到请求的文件块所在的位置。数据节点负责数据的存储和读取,在存储时,由名称节点分配存储位置,然后由客户端把数据直接写入相应的数据节点;在读取时,客户端从名称节点获得数据节点和文件块的映射关系,然后就可以到相应位置访问文件块。

计算机集群中的节点可能发生故障,因此,为了保障数据的完整性,分布式文件系统通常采用多副本存储。文件块会被复制为多个副本,存储在不同的节点上,而且,存储同一文件块的不同副本节点,会分布在不同机架上。

HDFS简介

在HDFS中,名称节点(namenode)负责管理分布式文件系统的命名空间,保存了两个核心的数据结构,即FsImage和EditLog。

名称节点

相关文档
最新文档