物联网论文海量信息存储

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数字化的存储手段

——海量信息存储

摘要

随着信息社会的快速发展,越来越多的信息被数据化,尤其是伴随着计算机网络的发展,数据呈爆炸式增长。因此在日常生活工作中,如何安全地存放以及高效地使用海量资料,成为人们日益面临的重大困惑。随着数字图书馆、电子商务、多媒体传输等用的不断发展,存储产品已不再是附属于服务器的辅助设备,而成为互联网中最主要的花费所在。随之而来的是海量信息存储的需求不断增加,正是用户对存储空间需求的不断增加,推动海量信息存储技术的不断变化。海量存储技术已成为继计算机浪潮和互联网浪潮之后的第三次浪潮。本文从物联网对海量信息存储的需求出发,比较了三种基本的网络存储体系结构(DAS,NAS,SAN)各自特点,并讨论了数据中心的基本概念,最后以Google数据中心和Hadoop为例,简要介绍了数据中心的相关技术,指出了数据中心的研究热点,并提到了保证性能前提下降低数据中心成本的方法(服务器成本,网络设备成本,能源成本)。最后,对海量信息存储的前景做出了展望。

关键词:海量信息存储数据中心计算机网络

一、海量信息存储时代背景

随着计算机技术的发展,信息正以数据存储的方式高速增长着,不断推进着全球信息化的进程。随之而来的是海量信息存储的需求不断增加。从存储服务的发展趋势来看,一方面,是对数据的存储量的需求越来越大,另一方面,是对数据的有效管理提出了更高的要求。首先是存储容量的急剧膨胀,从而对于存储服务器提出了更大的需求;其次是数据持续时间的增加。最后,对数据存储的管理提出了更高的要求。

海量存储的含义在于,其在数据存储中的容量增长是没有止境的。因此,用户需要不断地扩张存储空间。海量存储技术的概念已经不仅仅是单台的存储设备。数据容量的增长是无限的,如果只是一味的添加存储设备,那么无疑会大幅增加存储成本。因此,海量存储对于数据的精简也提出了要求。同时,不同应用对于存储容量的需求也有所不同,而应用所要求的存储空间往往并不能得到充分利用,这也造成了浪费。

如今,物联网对海量信息存储的需求日益增加,一方面,全球信息总量迅猛增长,仅2007年产生的数据量为281EB ( 1EB=10亿GB ),而物联网中对象的数量将庞大到以百亿为单位。其次,物联网中的对象积极参与业务流程的需求也在增加,这些都导致了网络化存储和大型数据中心的诞生。

二、三种基本的网络存储体系结构

直接式存储DAS是指主机与存储设备(磁盘或磁盘阵列等)之间直接连接,存储设备通过SCSI或 ATA(目前连接方式已扩展为FC、USB等多种)作为数据接口的存储方式。网络附加存储NAS是指直接挂接在网上的存储设备,实际上就是一台专用的存储服务器,它不承担应用服务,而是通过网络接口与网络连接,数据通过网络协议进行传输,支持异构服务器间共享数据。存储区域网络SAN是独立于服务器网络之外的高速存储专用网,采用高速的光纤通道作为传输媒体,以FC(FiberChannel,光纤通道)+SCSI的应用协议作为存储访问协议,将存储子系统网络化,实现了真正高速共享存储的目标。

比较各自的特点,可以得到以下结论:

对于DAS:管理容易,结构相对简单;采用集中式体系结构,不能满足大规模数据访问的需求;存储资源利用率低,资源共享能力差,造成“信息孤岛”;

对于NAS:容易实现文件级别共享;性能严重依赖于网络流量,尤其当用户数过多、读写过频繁时性能受限;

对于SAN:存储管理简化,存储容量利用率提高;没有直接文件级别的访问能力,但可在SAN基础上建立文件系统。

三、海量数据存储技术

为了支持大规模数据的存储、传输与处理,针对海量数据存储目前主要开展如下三个方向的研究:

1、虚拟存储技术

存储虚拟化的核心工作是物理存储设备到单一逻辑资源池的映射,通过虚拟化技术,为用户和应用程序提供了虚拟磁盘或虚拟卷,并且用户可以根据需求对它进行任意分割、合并、重新组合等操作,并分配给特定的主机或应用程序,为用户隐藏或屏蔽了具体的物理设备的各种物理特性。

2、高性能I/O

集群由于其很高的性价比和良好的可扩展性,近年来在HPC领域得到了广泛的应用。数据共享是集群系统中的一个基本需求。当前经常使用的是网络文件系

统NFS或者CIFS。当一个计算任务在Linux集群上运行时,计算节点首先通过NFS协议从存储系统中获取数据,然后进行计算处理,最后将计算结果写入存储系统。

3、网格存储系统

高能物理的数据需求除了容量特别大之外,还要求广泛的共享。比如运行于BECPII上的新一代北京谱仪实验BESIII,未来五年内将累积数据5PB,分布在全球20多个研究单位将对其进行访问和分析。网格存储系统应该能够满足海量存储、全球分布、快速访问、统一命名的需求。

四、数据中心的基本概念

维基百科给出的定义是“数据中心是一整套复杂的设施。它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置”。谷歌在其发布的《The Datacenter as a Computer》一书中,将数据中心解释为“多功能的建筑物,能容纳多个服务器以及通信设备。这些设备被放置在一起是因为它们具有相同的对环境的要求以及物理安全上的需求,并且这样放置便于维护”,而“并不仅仅是一些服务器的集合”

五、数据中心的相关技术

1、数据中心标准

数据中心的标准对相关经验进行了总结。ANSI/TIA/EIA-942(简称TIA-942):数据中心标准,是由电信产业协会(TIA)提出,由美国国家标准学会(ANSI)批准。在选址方面需要考虑多方面因素,比如建设和运营成本,应用需求,政策优惠。布局方面注意按功能区域划分。TIA-942还对缆线系统,可靠性分级,能源系统和降温系统等做了规定。缆线系统是指对规格以及如何放置缆线作出规定。能源系统是指外部电力供应、电池组、发电机,降温系统指降温设备,架空地板,冷通道与热通道。

2、具体组网结构

无线DDN系统分为监测点和数据中心两部分,监测点采用GPRS DTU,可提供RS-232、RS485、以及以太网接口,数据中采用宽带ADSL或专线方式接入Internet。

六、数据中心的研究热点

(一)两种典型数据中心

1、Google 数据中心

全球共建有近40个大规模数据中心,并且单个数据中心需要至少50兆瓦功率,约等于一个小型城市所有家庭的用电量。它具有独特的硬件设备:定制的以太网交换机、能源系统等以及自行研发的软件技术:Google File System、MapReduce、BigTable等

具体了解这些软件技术,首先是Google File System :一个GFS集群包含一个主服务器和多个块服务器,并被多个客户端访问。它实现了文件系统API,实现主服务器与块服务器的通信从而代表应用实现读写操作。客户端与服务器交互从而实现元数据操作,但所有的数据操作都通过直接与块服务器交互而完成。MapReduce是一种针对超大规模数据集的编程模型和系统,用MapReduce开发出的程序可在大量商用计算机集群上并行执行、处理计算机的失效以及调度计算机间的通信。BigTable是一种用来在海量数据规模下(例如包含以PB为单位的数据量和数千台廉价计算机的应用)管理结构化数据的分布式存储系统。每个

相关文档
最新文档