基于 Hadoop 的矢量空间数据库技术

计算机与现代化

 2014年第2期

JISUANJIYUXIANDAIHUA

总第222期

文章编号:1006-2475(2014)02-0063-06

收稿日期:2013-10-28作者简介:孟辉(1988-),男,山东德州人,华北计算技术研究所地理信息与图形图像技术研发中心硕士研究生,研究方向:地理信息系统平台技术与数据共享;朱美正,男,研究方向:地理信息系统平台技术与数据共享。

基于Hadoop的矢量空间数据库技术

孟 辉,朱美正,张锋叶

(华北计算技术研究所地理信息与图形图像技术研发中心,北京100083)

摘要:大型GIS系统中要存储海量的空间数据,需要面对大量用户高并发访问提供高效的服务,而传统的空间数据库设计方案难以满足需求。针对大型GIS系统中海量矢量数据存储组织,提出一种基于Hadoop的存储方案,并通过实验验证该方案的有效性。

关键词:海量数据;矢量;空间数据库;Hadoop

中图分类号:TP391 文献标识码:A doi:10.3969/j.issn.1006-2475.2014.02.015

VectorSpatialDatabaseBasedonHadoop

MENGHui,ZHUMei-zheng,ZHANGFeng-ye

(TechnicalResearchCenterofGeographicInformationandGraphicImages,NorthChinaInstituteofComputingTechnology,Beijing100083,China)

Abstract:LargeGISsystemstoreshugequantityofvectordataandneedstosupplyefficientserviceformulti-userconcurrentac-cess.Traditionaldesignofspatialdatabasecannotmeettherequirement.TosolvetheproblemofmassivevectordatastorageinLarge-GIS,weproposeanewHadoop-basedmethodinthispaperanddemonstrateitseffectivenessthroughanextensiveexperi-mentalevaluation.

Keywords:massivedata;vector;spatialdatabase;Hadoop

0 引 言

随着GIS应用的发展和普及,地理数据的空间和时间分辨率不断提高,其数据量将面对迅速增长的压力。大型GIS系统对海量数据的管理能力和多用户高效并发访问的要求也越来越高。传统GIS对数据的组织形式大多为文件系统与数据库结合或者完全基于关系型数据库的方式,这2种构架在解决日益增长的空间数据问题的思路一般为Scale-up模式的扩展,即增加垂直方向上硬件的处理能力。这种模式扩展成本很高,并且硬件更新的速度远远跟不上数据膨胀的速度,在应对海量数据管理上显得力不从心。云计算的出现为解决海量空间数据的管理提供了新的思路。得益于云计算集群多机协同作业的优势,利用云计算系统可以轻松地将廉价的计算资源组织起来形成存储量大、运算性能高的计算集群,并且云计算系统采用Scale-out的扩展模式,当现有集群性能、存

储出现不足时,可以简单地通过添加新的机器来实现

集群的扩展。这种纵向扩展省去了数据迁移的代价,扩展成本低,硬件资源廉价,较传统Scale-up模式有明显优势。本文研究存储的矢量数据是空间数据中结构复杂、查询显示困难的数据类型。矢量数据具有半结构化特点,存储设计比较困难,而且用户经常基于矢量数据做大量的查询计算操作,对矢量数据库的设计直接影响到用户请求服务的质量和服务体验。矢量数据库是地理信息系统的基础与关键,其设计的好坏直接影响整个系统的性能与质量,因此有必要对其进行深入的研究与设计。大型的GIS系统,地理信息采集入库后改动一般较少,大部分的用户请求为读操作,为提高存储模型设计的针对性,本文将矢量数据库面向的场景设定为多用户高并发访问。HDFS分布式文件系统是云计算的一种开源方案,在处理海量数据方面有着广泛的应用。本文采用基于HDFS分布式文件系统,由HBase分布式数据库来管理存储

相关文档
最新文档