海量数据存储概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
14.考虑操作系统问题
15.使用数据仓库和多维数据库存储
16.使用采样数据,进行数据挖掘
17.海量数据关联存储
4 海量数据存储未来趋势
在存储介质方面,磁盘、光盘、磁带作为数据存储的主要载体,会向着小型化、大容量、高速读写、高可靠性发展,三种主要存储介质还可能同时存在一段时间,随着科技的进步与发展全新的存储介质也许会很快出现。
络和存储设备这三个层面上实现,即主机、网络和存储设备三个部分都可实施虚拟存储。
采用虚拟存储技术,可以支持物理磁盘空间动态扩展,从而使用户不必抛弃现有设备,并实现了存储容量的动态扩展。虚拟存储使得数据存储总体成本降低,随着用户对数据管理需求的不断增加,虚拟化技术正在逐步成为存储领域的核心,虚拟存储不仅可以降低存储资源管理的复杂性,而且可以带给系统高可用性和高可靠性,从而降低数据存储管理成本。
存储容灾:通过特定的容灾机制,能够在各种灾难损害发生后,最大限度地保障计算机信息系统不间断提供正常应用服务。
1.1 磁带库存储
自从第一台磁带驱动器IBM726发明以后,磁带存储技术经过了多年的发展,具有稳定、高可用、低成本等诸多优点,磁带已经成为重要的存储设备。磁带技术可以通过脱机来避免在数据备份、迁移和保护等应用中数据丢失的可能性,另外磁带技术在高可靠性、低成本等方面也比其他存储设备具有优势,至今相同容量的磁带库成本比磁盘的RAID系统还是要低很多,因此磁带技术只要不断提高I/0的传输速率,增加单个磁带的数据容量,简化磁带管理软件的应用界面,磁带技术就不会在短期内过时,目前解决企业数据长期保存的有效方法依然是采用磁带存储技术。随着制造技术和生产工艺的不断改进,磁带将被做得越来越小,存储能力越来越大,磁带库所占空间将减小。随着磁带机的自动化程度的提高,传动系统故障率的降低,磁带存储性能的提高,磁带在存储备份市场的主导地位还会存在相当长的时间。
表3:常用RAID级别特性比较
RAID级别
名称
速度
容错
磁盘数量
应用
Level 0
无容错条带磁盘阵列
磁盘并行输入输出
无
至少两块
视频、图像编辑及需要高带宽的应用
Level 1
磁盘镜像方式
读取速度是单个磁盘两倍,写入速度与单个磁盘相同
有
至少两块
会计、金融、付款等需要高可靠性的应用
Level 5
交叉存取加分布奇偶校检
能、高可靠等特征。。NAS将存储设备通过标准的网络拓扑结构连接,可以无需服务器直接上网,不依赖通用的操作系统,而是采用一个面向用户设计的、专门用于数据存储的简化操作系统,内置与网络连接所需的协议,从而使整个系统的管理和设置较为简单。
光纤存储区域网FC—SAN指的是通过一个单独的高速光纤网络把存储设备和挂在TCP/IP网络上的服务器群相连。当有海量数据的存取需求时,数据可以通过存储区域网在相关服务器和后台存储设备之问高速传输。SAN以光纤通道为基础,不但提供了主机和存储设备之间的高速互联,实现了存储设备的共享,服务器通过存储网络直接同存储设备交换数据,不占用LAN的网络资源。
3 海量数据虚拟存储
虚拟存储是整合各种存储物理设备为一个整体,从而实现在公共控制平台下集中存储资源,统一存储设备的管理,方便用户的数据操作,简化复杂的存储管理配置,使系统提供完整、便捷的数据存储功能。虚拟存储技术在用户操作系统看到的存储设备与实际物理存储设备之间搭建了一个虚拟的操作平台,这样从应用程序一直到最终的数据端都可以实施虚拟存储,虚拟化技术的最终功能可以在服务器、网
数据网格:为了满足人们对高性能、大容量分布存储能力的要求所提出的概念,类似于计算网格,是有机的智能单元的组合。
智能存储系统:包括主动的信息采集,主动信息分、主动调整等。
存储服务质量QoS:应用环境越来越复杂,存储需求区别也越来越明显,这就需要为应用提供区分服务。目前的研究以基于网络存储的QoS为主。
磁盘阵列的特点是将数据有选择性地分布在多个磁盘上,不仅提高数据的可用性及存储容量,而且使得数据存取速度快、吞吐量大,从而避免硬盘故障所带来的灾难后果。磁盘阵列把多个硬盘驱动器连接在一起协同工作,提高了存取速度,同时把磁盘系统的可靠性提高到接近于无错的等级,因此磁盘阵列是一种安全性高,速度快,容量大的存储设备。针对不同的应用磁盘阵列具有多种不同级别:
最快的读取速度,中等的写入速度
有
至少三块
文件、数据库Web、E—mail等应用服务器
Level 10
镜像条带集
同Level 0
有
至少四块
数据库服务器和需要高可靠、高性能的服务器
Level 0+1
条带集镜像
同Level 1
有
至少四块
图形应用、通用文件服务器
2海量存储的模式
海量的数据存储需要系统具有良好的数据容错性能和系统稳定性,在发生部分数据错误时,系统可以在线恢复和重建数据,而不影响系统的正常运行。
当然光盘技术也存在着一些不足之处,还有一些尚待研究和解决的问题,例如记录速度慢,保存时间短等,另外光盘存储格式还未建立统一的光盘技术国际标准。随着记录介质、记录方法和系统性能的不断改进和提高,光盘存储技术一定会达到更加完善的程度,从而不断满足人们对海量信息存储新的要求。
1.3 磁盘阵列海量存储
磁盘阵列又称为廉价磁盘冗余阵列(Redundant Array of Inexpensive Disks,RAID),是指使用两个或两个以上同类型、容量、接口的磁盘,在磁盘控制器的管理下按照特定的方式组成特定的磁盘组合,从而能快速、准确和安全地读写磁盘数据。
单张光盘的存储容量从CD盘片的几百兆到最新的蓝光DVD几十G,这样的容量对于海量信息存储系统来讲是远远不够的,要想获得海量的数据存取,就必须将大量存储不同信息的几十、上百甚至上千张光盘组合起来使用。光盘存储的主要形式有以下几种:光盘塔、SCSI光盘塔、网络光盘塔、光盘库、光盘镜像服务器(见表2),其中光盘网络镜像服务器是一种网络附加存储设备,代表了光盘库的发展方向。
1 海量数据存储种类
海量数据存储介质分为磁带、磁盘和光盘三大类,由三种介质分别构成的磁带库、磁盘阵列、光盘库三种主要存储设备,三种不同的存储介质具有不同的数据存储特点(见表1)。
表1:存储介质种类及特点
介质优点
介质缺点
数据存储速度
应用环境
磁带
容量大、保存时间长
数据顺序检索,定位时间长
慢
海量数据的定期备份
表2:三种光盘设备性能比较表
访问速度
容量
成本
可同时共享使用的用户数
应用环境
光盘塔
中等
小
较高
少
片库
光盘库
慢
较大
最高
少
图书馆、信息管理中心
光盘镜像服务器
很快
最大
最低
多
多种网络环境
随着光存储技术的发展,光盘产品不断的系列化,光存储设备价格不断的降低,应用领域越来越广泛,不仅满足海量数据的存储还能实现一些基本的离线备份功能,因此目前多媒体海量信息存储载体或重要文献资料备份媒体仍然采用光盘介质。
海量数据存储方式概述
摘要:本文阐述多种海量数据存储介质、多种海量数据存储方式及海量数据存储的发展前景,重点介绍数据存储系统中常见的各种存储介质特性及应用的存储模式。
关键词:海量数据 磁盘阵列 磁带库 光盘库 虚拟存储
地理信息系统(Geographic Information System,GIS)是采集、存储、管理、分析、显示与地理相关的数据的系统。目前,地理信息系统凭借其开放的应用平台、透明的访问操作和高时效性等特点已经逐渐走入一般公众的视野,服务对象从面向单一用户扩展到广大普通用户。其中,海量数据存储技术作为地理信息系统发展过程中的重要支撑技术之一,关系到整个地理信息系统的应用性能。
海量数据存储技术的发展前展,可以归结为以下几个方面:
高容量光存储技术的到来可以说改变了目前的存储格局,为原本暗淡的光存储带来了一线生机。虽然光存储器的支持者们一直宣传该技术将成为下一代伟大的存储技术,但是即便在它得到广泛推广之后,其企业客户基础在整个市场上的份额仍然很小。
分布式存储与P2P存储:分布式存储概念提出较早,目前再次成为热点。P2P存储可以看作分布式存储的一种,是一个用于对等网络的数据存储系统,它的目标是提供高效率的、鲁棒和负载平衡的文件存取功能。
磁盘
数据读取、写入速度快,操作方便
发热量大、噪声大、硬盘易损
很快
海量数据的即时存取
光盘
单位存储容量成本低,携带方便,数据查询时间短
表面易磨损、寿命短
快
海量数据的在线访问和离线存储
目前市场上的存储产品主要有磁盘阵列、磁带机与磁带库、光盘库等,其中磁盘设备由于存取速度快、数据查询方便、简单易用、安全的RAID技术等占据一级存储市场的主要份额,磁带设备则以技术成熟、价格低廉等优点占据了二级存储市场的重要地位,光盘设备由于同时具有二者的特点因此应用在广泛的领域中。
4海量数据存储的wenku.baidu.com理方法
1.选用优秀的数据库工具
2.编写优良的程序代码
3.对海量数据进行分区操作
4.建立广泛的索引
5.建立缓存机制
6.加大虚拟内存
7.分批处理
8.使用临时表和中间表
9.优化查询SQL语句
10.使用文本格式进行处理
11.定制强大的清洗规则和出错处理机制
12.建立视图或者物化视图
13.避免使用32位机子(极端情况)
1.2 光盘海量存储
光盘存储技术是近年来发展迅速的光学信息存储新技术。光盘存储技术是一种光学信息存储技术,通过调制激光束在光学圆盘镀膜介质中把信息编码以光点的形式记录下来。在记录及读取过程中,激光头不直接接触光盘的表面,光盘上的记录信息不易被破坏,具有存储密度高、容量大、检索时间短、易于拷贝复制、保存时问长、应用领域广等诸多优点,因此光盘海量存储技术被大量的应用。
2.2 网络存储
网络存储分为:网络附加存储(Network AttachedStorage,NAS)、光纤存储区域网FC—SAN、IP存储区域网IP—SAN。
NAS将存储设备连接到现有的网络上来提供数据和文件服务。NAS服务器一般由存储硬件、操作系统以及其上的文件系统等几个部分组成。NAS通过网络直接连接磁盘阵列,磁盘阵列具备了高容量、高效
IP—SAN由于主要部分采用光纤通道,因此设备昂贵的成本一直未能得到解决,为此将iSCSI卡集成到NAS存储设备上,支持数据块形式的I/O访问,最后发展成主机通过带TCP卸载引擎(TCP Offioad Engine,TOE)的iSCSI主机总线适配器(Host Bus Adapter,HBA)卡接入IP网络来访问iSCSI存储设备。IP存储采用基于IP协议的网络传输数据,由于IP环境下数据包可以被捕捉解码,对此iSCSI存储要采用多种安全措施以提高数据访问和数据存储的安全性。
2.1 直连式存储
直连式存储(DAS)即磁盘驱动器和服务器直接连接,存储作为外围设备,在这种存储结构中,数据管理是以服务器为中心的,而且所有的应用软件都是和存储子系统配套。DAS适用于一个或有限的几个服务器环境,但存储容量增加时,不但存储供应的效率变得越来越低,而且可升级和扩展性受到很大限制,当服务器出现异常时,更使数据不可获得,同时存储资源和数据也无法进行共享。
15.使用数据仓库和多维数据库存储
16.使用采样数据,进行数据挖掘
17.海量数据关联存储
4 海量数据存储未来趋势
在存储介质方面,磁盘、光盘、磁带作为数据存储的主要载体,会向着小型化、大容量、高速读写、高可靠性发展,三种主要存储介质还可能同时存在一段时间,随着科技的进步与发展全新的存储介质也许会很快出现。
络和存储设备这三个层面上实现,即主机、网络和存储设备三个部分都可实施虚拟存储。
采用虚拟存储技术,可以支持物理磁盘空间动态扩展,从而使用户不必抛弃现有设备,并实现了存储容量的动态扩展。虚拟存储使得数据存储总体成本降低,随着用户对数据管理需求的不断增加,虚拟化技术正在逐步成为存储领域的核心,虚拟存储不仅可以降低存储资源管理的复杂性,而且可以带给系统高可用性和高可靠性,从而降低数据存储管理成本。
存储容灾:通过特定的容灾机制,能够在各种灾难损害发生后,最大限度地保障计算机信息系统不间断提供正常应用服务。
1.1 磁带库存储
自从第一台磁带驱动器IBM726发明以后,磁带存储技术经过了多年的发展,具有稳定、高可用、低成本等诸多优点,磁带已经成为重要的存储设备。磁带技术可以通过脱机来避免在数据备份、迁移和保护等应用中数据丢失的可能性,另外磁带技术在高可靠性、低成本等方面也比其他存储设备具有优势,至今相同容量的磁带库成本比磁盘的RAID系统还是要低很多,因此磁带技术只要不断提高I/0的传输速率,增加单个磁带的数据容量,简化磁带管理软件的应用界面,磁带技术就不会在短期内过时,目前解决企业数据长期保存的有效方法依然是采用磁带存储技术。随着制造技术和生产工艺的不断改进,磁带将被做得越来越小,存储能力越来越大,磁带库所占空间将减小。随着磁带机的自动化程度的提高,传动系统故障率的降低,磁带存储性能的提高,磁带在存储备份市场的主导地位还会存在相当长的时间。
表3:常用RAID级别特性比较
RAID级别
名称
速度
容错
磁盘数量
应用
Level 0
无容错条带磁盘阵列
磁盘并行输入输出
无
至少两块
视频、图像编辑及需要高带宽的应用
Level 1
磁盘镜像方式
读取速度是单个磁盘两倍,写入速度与单个磁盘相同
有
至少两块
会计、金融、付款等需要高可靠性的应用
Level 5
交叉存取加分布奇偶校检
能、高可靠等特征。。NAS将存储设备通过标准的网络拓扑结构连接,可以无需服务器直接上网,不依赖通用的操作系统,而是采用一个面向用户设计的、专门用于数据存储的简化操作系统,内置与网络连接所需的协议,从而使整个系统的管理和设置较为简单。
光纤存储区域网FC—SAN指的是通过一个单独的高速光纤网络把存储设备和挂在TCP/IP网络上的服务器群相连。当有海量数据的存取需求时,数据可以通过存储区域网在相关服务器和后台存储设备之问高速传输。SAN以光纤通道为基础,不但提供了主机和存储设备之间的高速互联,实现了存储设备的共享,服务器通过存储网络直接同存储设备交换数据,不占用LAN的网络资源。
3 海量数据虚拟存储
虚拟存储是整合各种存储物理设备为一个整体,从而实现在公共控制平台下集中存储资源,统一存储设备的管理,方便用户的数据操作,简化复杂的存储管理配置,使系统提供完整、便捷的数据存储功能。虚拟存储技术在用户操作系统看到的存储设备与实际物理存储设备之间搭建了一个虚拟的操作平台,这样从应用程序一直到最终的数据端都可以实施虚拟存储,虚拟化技术的最终功能可以在服务器、网
数据网格:为了满足人们对高性能、大容量分布存储能力的要求所提出的概念,类似于计算网格,是有机的智能单元的组合。
智能存储系统:包括主动的信息采集,主动信息分、主动调整等。
存储服务质量QoS:应用环境越来越复杂,存储需求区别也越来越明显,这就需要为应用提供区分服务。目前的研究以基于网络存储的QoS为主。
磁盘阵列的特点是将数据有选择性地分布在多个磁盘上,不仅提高数据的可用性及存储容量,而且使得数据存取速度快、吞吐量大,从而避免硬盘故障所带来的灾难后果。磁盘阵列把多个硬盘驱动器连接在一起协同工作,提高了存取速度,同时把磁盘系统的可靠性提高到接近于无错的等级,因此磁盘阵列是一种安全性高,速度快,容量大的存储设备。针对不同的应用磁盘阵列具有多种不同级别:
最快的读取速度,中等的写入速度
有
至少三块
文件、数据库Web、E—mail等应用服务器
Level 10
镜像条带集
同Level 0
有
至少四块
数据库服务器和需要高可靠、高性能的服务器
Level 0+1
条带集镜像
同Level 1
有
至少四块
图形应用、通用文件服务器
2海量存储的模式
海量的数据存储需要系统具有良好的数据容错性能和系统稳定性,在发生部分数据错误时,系统可以在线恢复和重建数据,而不影响系统的正常运行。
当然光盘技术也存在着一些不足之处,还有一些尚待研究和解决的问题,例如记录速度慢,保存时间短等,另外光盘存储格式还未建立统一的光盘技术国际标准。随着记录介质、记录方法和系统性能的不断改进和提高,光盘存储技术一定会达到更加完善的程度,从而不断满足人们对海量信息存储新的要求。
1.3 磁盘阵列海量存储
磁盘阵列又称为廉价磁盘冗余阵列(Redundant Array of Inexpensive Disks,RAID),是指使用两个或两个以上同类型、容量、接口的磁盘,在磁盘控制器的管理下按照特定的方式组成特定的磁盘组合,从而能快速、准确和安全地读写磁盘数据。
单张光盘的存储容量从CD盘片的几百兆到最新的蓝光DVD几十G,这样的容量对于海量信息存储系统来讲是远远不够的,要想获得海量的数据存取,就必须将大量存储不同信息的几十、上百甚至上千张光盘组合起来使用。光盘存储的主要形式有以下几种:光盘塔、SCSI光盘塔、网络光盘塔、光盘库、光盘镜像服务器(见表2),其中光盘网络镜像服务器是一种网络附加存储设备,代表了光盘库的发展方向。
1 海量数据存储种类
海量数据存储介质分为磁带、磁盘和光盘三大类,由三种介质分别构成的磁带库、磁盘阵列、光盘库三种主要存储设备,三种不同的存储介质具有不同的数据存储特点(见表1)。
表1:存储介质种类及特点
介质优点
介质缺点
数据存储速度
应用环境
磁带
容量大、保存时间长
数据顺序检索,定位时间长
慢
海量数据的定期备份
表2:三种光盘设备性能比较表
访问速度
容量
成本
可同时共享使用的用户数
应用环境
光盘塔
中等
小
较高
少
片库
光盘库
慢
较大
最高
少
图书馆、信息管理中心
光盘镜像服务器
很快
最大
最低
多
多种网络环境
随着光存储技术的发展,光盘产品不断的系列化,光存储设备价格不断的降低,应用领域越来越广泛,不仅满足海量数据的存储还能实现一些基本的离线备份功能,因此目前多媒体海量信息存储载体或重要文献资料备份媒体仍然采用光盘介质。
海量数据存储方式概述
摘要:本文阐述多种海量数据存储介质、多种海量数据存储方式及海量数据存储的发展前景,重点介绍数据存储系统中常见的各种存储介质特性及应用的存储模式。
关键词:海量数据 磁盘阵列 磁带库 光盘库 虚拟存储
地理信息系统(Geographic Information System,GIS)是采集、存储、管理、分析、显示与地理相关的数据的系统。目前,地理信息系统凭借其开放的应用平台、透明的访问操作和高时效性等特点已经逐渐走入一般公众的视野,服务对象从面向单一用户扩展到广大普通用户。其中,海量数据存储技术作为地理信息系统发展过程中的重要支撑技术之一,关系到整个地理信息系统的应用性能。
海量数据存储技术的发展前展,可以归结为以下几个方面:
高容量光存储技术的到来可以说改变了目前的存储格局,为原本暗淡的光存储带来了一线生机。虽然光存储器的支持者们一直宣传该技术将成为下一代伟大的存储技术,但是即便在它得到广泛推广之后,其企业客户基础在整个市场上的份额仍然很小。
分布式存储与P2P存储:分布式存储概念提出较早,目前再次成为热点。P2P存储可以看作分布式存储的一种,是一个用于对等网络的数据存储系统,它的目标是提供高效率的、鲁棒和负载平衡的文件存取功能。
磁盘
数据读取、写入速度快,操作方便
发热量大、噪声大、硬盘易损
很快
海量数据的即时存取
光盘
单位存储容量成本低,携带方便,数据查询时间短
表面易磨损、寿命短
快
海量数据的在线访问和离线存储
目前市场上的存储产品主要有磁盘阵列、磁带机与磁带库、光盘库等,其中磁盘设备由于存取速度快、数据查询方便、简单易用、安全的RAID技术等占据一级存储市场的主要份额,磁带设备则以技术成熟、价格低廉等优点占据了二级存储市场的重要地位,光盘设备由于同时具有二者的特点因此应用在广泛的领域中。
4海量数据存储的wenku.baidu.com理方法
1.选用优秀的数据库工具
2.编写优良的程序代码
3.对海量数据进行分区操作
4.建立广泛的索引
5.建立缓存机制
6.加大虚拟内存
7.分批处理
8.使用临时表和中间表
9.优化查询SQL语句
10.使用文本格式进行处理
11.定制强大的清洗规则和出错处理机制
12.建立视图或者物化视图
13.避免使用32位机子(极端情况)
1.2 光盘海量存储
光盘存储技术是近年来发展迅速的光学信息存储新技术。光盘存储技术是一种光学信息存储技术,通过调制激光束在光学圆盘镀膜介质中把信息编码以光点的形式记录下来。在记录及读取过程中,激光头不直接接触光盘的表面,光盘上的记录信息不易被破坏,具有存储密度高、容量大、检索时间短、易于拷贝复制、保存时问长、应用领域广等诸多优点,因此光盘海量存储技术被大量的应用。
2.2 网络存储
网络存储分为:网络附加存储(Network AttachedStorage,NAS)、光纤存储区域网FC—SAN、IP存储区域网IP—SAN。
NAS将存储设备连接到现有的网络上来提供数据和文件服务。NAS服务器一般由存储硬件、操作系统以及其上的文件系统等几个部分组成。NAS通过网络直接连接磁盘阵列,磁盘阵列具备了高容量、高效
IP—SAN由于主要部分采用光纤通道,因此设备昂贵的成本一直未能得到解决,为此将iSCSI卡集成到NAS存储设备上,支持数据块形式的I/O访问,最后发展成主机通过带TCP卸载引擎(TCP Offioad Engine,TOE)的iSCSI主机总线适配器(Host Bus Adapter,HBA)卡接入IP网络来访问iSCSI存储设备。IP存储采用基于IP协议的网络传输数据,由于IP环境下数据包可以被捕捉解码,对此iSCSI存储要采用多种安全措施以提高数据访问和数据存储的安全性。
2.1 直连式存储
直连式存储(DAS)即磁盘驱动器和服务器直接连接,存储作为外围设备,在这种存储结构中,数据管理是以服务器为中心的,而且所有的应用软件都是和存储子系统配套。DAS适用于一个或有限的几个服务器环境,但存储容量增加时,不但存储供应的效率变得越来越低,而且可升级和扩展性受到很大限制,当服务器出现异常时,更使数据不可获得,同时存储资源和数据也无法进行共享。