基于ElasticSearch的海量遥感数据检索技术研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于ElasticSearch 的海量遥感数据检索
技术研究
李峰1,宋宴2,魏广泽1,王永安1
(1.中国电子科技集团公司第五十四研究所,河北石家庄050081;
2.陆军航空兵研究所,北京101121)
收稿日期:2020-12-18
0引言
随着我国对地观测技术的发展,特别是高分辨率对地观测系统重大专项的推进,基本具备了高空间分辨率、高时间分辨率及高光谱分辨率的天基对地观测能力。
随着遥感影像数据越积越多,不同领域的应用需求对遥感影像数据的存储及高效检索提出了越来越高的要求。
遥感元数据作为描述遥感影像数据的重要数据,具有结构复杂、信息量大、产生频率高等特点。
传统的空间关系型数据(如Oracle 、PostgreSQL 等)主要以内置的B+树或R 树等简单成熟的索
引结构来辅助查询处理,面对存储海量的遥感元素数据信息存在读写性能不理想、可扩展性差等缺点。
本文提出了一种基于改良GeoHash 编码的时空索引方法,设计了基于ElasticSearch 的海量遥感数据检索技术,
实现了遥感数据空间、时间、卫星和载荷等多样化的检索,支撑海量遥感影像数据的高效检索。
1基于ElasticSearch 的海量遥感数据检
索技术
由于遥感影像文件很大,不适合直接对遥感影像数据本
身进行检索,常用的方式是从遥感元数据提取特征信息、范围信息及标识信息等描述内容,存储到空间关系型数据中,支撑行业应用中的数据查询检索应用。
随着遥感元数据量的增加,基于卫星载荷、时间范围和空间范围等信息的快速查询是亟需解决的问题。
为了提高海量遥感数据的查询检索访问效率,本文设计了一种基于改良GeoHash 编码的时空索引方法,
将时间、空间等多维信息映射到一维时空索引编码,
在分析ElasticSearch 搜索引擎框架的基础上,将时空索引编码作为索引字段,设计和实现一种基于ElasticSearch 的海量遥感数据检索技术。
1.1扩展GeoHash 的时空索引技术
GeoHash 是一种经纬度地址编码方法,把二维的空间经纬度数据进行转换,编码成一个可以比较和排序的字符串,用一个字符串表示地理要素的空间坐标。
GeoHash 的主要原理是根据地物的经纬度坐标利用二分法对空间区域划分规则格网无限逼近地物所在区间。
以天安门广场坐标(北纬:39.928167,东经:116.390705)为例,GeoHash 的编码过程如下:
①将经纬度转换成二进制:纬度范围(-90,90),其中间值为0,将其划分为区间0(-90,0)和区间1(0,90)。
对于纬度39.928167,在区间(0,90)中,因此二进制首位取值为1;(0,90)区间的中间值为45°,纬度39.928167小于45°,因此第二位取值0,依次计算下去,如表1所示,即可得到纬度的二进制序列前20位为:10111000110001111001,同理可以得到经度116.390705的二进制序列前20位为:11010010110001000100。
序列的长度越长,表示经纬度范围精度越高。
表1纬度二进制划分表
②二进制序列交叉组合:按照偶数位放经度,奇数位放纬度(从0开始,0为偶数位)的顺序对经纬度的二进制序列进行交叉组合得出合并后的二进制序列。
仍以(39.928167,116.390705)为例,合并后的序列前20位为11100111010010001111。
③编码转换:
标准的GeoHash 值采用Base32编码,具体过程是将经纬度交叉组合后的二进制序列每5个一组进行切分(不足5个用0补充),将其转换为十进制,参考标准Base32编码表用0~9,b ~z (去掉a ,i ,l ,o )这32个字母进行编码。
如11100111010010001111转换为十进制成2829415,对应的
Base32编码为wx4g 。
Base32编码每一字符代表5bit ,字符位
数与精度之间的关系如表2所示。
表2标准GeoHash 字符位数精度
可以看出,随着GeoHash 位数减少,误差增加在4~8倍交替,难以有效控制区域精度,若将二进制GeoHash 码直接索引保持精度又存在索引过长影响效率的问题。
因此,设计了使用long 型值的GeoHash 编码转换方法,在保证细粒度和精度的同时,降低GeoHash 有效值的位数,从而减少计算次数,进一步提高编码效率。
具体步骤为:
①将GeoHash 的二进制转换为64位long 型值,作为GeoHash 值;
②GeoHash 值的高位为有效位,低位补0,并记录下long 值的有效位数量;
③根据具体需求,可以截取前2(0<<32)bit 位作为GeoHash 的long 值有效位,将区域精度的增长控制在2倍左右。
采用该方法改良后的GeoHash 字符位数对应精度如表3所示。
表3改良GeoHash 字符位数精度
改良后的GeoHash 编码方法能精确高效地将二维空间坐标降维成一维编码,满足一维行键索引的使用需要。
在此基础上,结合行键索引的查询规则,针对遥感数据的时空特点设计了将时间和GeoHash 编码特殊组合的混合时空编码行键结构
及时空索引构建方法。
索引结构如图1所示。
图1时空索引结构图
使用该索引进行遥感数据查询时,首先会根据行键的前缀即“年月日”将符合日期的数据集检索出来,然
后按照
GeoHash
编码
表示的经纬度范围进行空间检索,最后查询“时分秒”
得到查询结果。
该方法可以通过时间的年月日部
分和GeoHash 相同前缀代表的大致地理范围过滤掉大部分不符合查询条件的数据,再对剩余数据使用值过滤器进行查询,整个过程几乎不需要使用行键过滤器,提高了数据的查询效率。
1.2ElasticSearch 遥感数据检索设计
ElasticSearch 是一款基于Lucene 库的分布式、RESTful 的开源搜索引擎,由于其功能强大,使用便捷,受到维基百科、卫报、Stack Overflow 、GitHub 等企业和组织的欢迎,诸如搜索推荐、数据分析、日志采集的很多功能都是基于ElasticSearch 实现的。
基于ElasticSearch 的分布式海量遥感数据检索设计技术通过统一规范化的元数据结构建立元数据与索引文件的映射,基于扩展GeoHash 的混合时空编码方法建立时空索引,并搭建分布式ElasticSearch 集群提高可靠性,实现海量遥感影像数据的高效检索。
(1)元数据设计
元数据是用来描述数据的数据。
遥感元数据作为描述遥感数据本身特性的辅助数据,可以服务于数据的存储和检索,提高查询效率。
针对海量遥感数据检索的实际需要,
抽取影像元数据特征进行扩展,设计了一套符合实际查询需求的遥感影像元数据结构,
如表4所示。
表4遥感影像元数据字段结构表
为了将遥感影像与元数据一一对应,除了以上基本数据结构外,还新增了3类元数据,
如表5所示。
表5自定义添加元数据
(2)索引创建
ElasticSearch 是基于Lucene 的全文检索系统,其底层的索引技术实现与Lucene 一致,可以将索引创建的流程划分为4步,
创建流程如图2所示。
索引创建过程包括获取影像元数据、生成混合时空编码索引、创建Document 对象、IndexWriter 建立索引,其中混合时空编码索引是根据扩展GeoHash 的时空索引技术生成的。
图2ElasticSearch 索引创建流程
(3)集群部署
ElasticSearch 支持分布式部署,通过集群部署可以保证搜索引擎的高可用性。
多台主机构成了一个集群,
每台主机称作一个节点(Node ),对于处在同一网段下拥有相同集群名称的多个节点,每当一个节点启动时,ElasticSearch 会自动调用节点发
现机制寻找集群中的其他节点建立连接,
组成分布式集群。
本文部署的ElasticSearch 集群包含3个节点:主节点、数据节点和客户端节点。
其中主节点的主要职责是元数据的处理,如创建或删除索引,跟踪哪些节点是集群的一部分,并决定哪些分片分配给相关的节点等;数据节点是保存数据分片的节点,主要负责数据的增删改查操作,聚合操作,分片的CRUD 等;客户端节点也称作负载均衡节点,该节点表现为智能负载平衡器,可以协调主节点和数据节点,
起到路由请求的作用。
2实验验证
为验证基于ElasticSearch 的海量遥感数据检索技术的查询效率,使用来自不同卫星传感器的750万条ZY-3、GF-1、GF-2等卫星遥感影像元数据作为实验数据,分别使用ElasticSearch 和遥感领域
常
用的
PostgreSQL 、MySQL 数据库3种方式存储,实验环境为Windows7操作系统,2.20GHz Intel E5至强CPU,64GB 内存。
本文在选取实验数据后,提取影像元数据并选择了空间范围和时间跨度2个可调参数,以此为变量设计了多组实验,进行不同条件下的检索效率实验,并对实验结果进行对比分析,结果如下。
(1)空间范围查询
在空间范围上,选择了雄安新区、京津冀、中国和全球4个不同维度的区域,检索该区域包含的全部遥感数据,并多次实验记录平均耗时,将查询效率可视化,如图3所示。
图3空间范围查询效率对比
可以看出,随着地理范围的扩大,三者查询效率均有所降低,但得益于扩展GeoHash 的时空索引技术,ElasticSearch 的基础查询效率更高,且随地理范围扩大,查询时间的增长较为平稳。
(2)时间范围查询
时间范围上,以实验数据的最早采集时间2007年为起点,分别测试三年、五年、十年和到目前为止范围内遥感数据的检索所需时间,并多次实验记录平均耗时,将查询效率可视化,
如图4所示。
图4时间范围查询效率对比
可以看出,PostgreSQL 在较小时间跨度时查询效率最低,MySQL 随着时间跨度的扩大查询效率显著降低,只有ElasticSearch 保持了较高基础查询效率的同时,查询时间的增长相对平稳。
综合以上2组实验结果可知,相较于常用的PostgreSQL 和MySQL 数据库,ELasticSearch 对于不同空间和时间维度上的遥感数据查询性能更优。
此外,
空间和时间范围的扩大带来的数据量级的提升对ElasticSearch 影响不大,这一特点非常适合应用于拥有海量数据的遥感领域。
总之,
对于近千万级的遥感影像元数据,在检索速度方面,基于ELasticSearch 的检索效率明显高于基于PostgreSQL 和MySQL 数据库的检索效率,可以满足海量遥感数据的实时时空查询需要。
3结束语
本文提出了基于ElasticSearch 的海量遥感数据检索技术,设计了一种基于改良GeoHash 编码的时空索引方法,完成了海量遥感数据元数据的数据接入、数据索引和数据检索,开发实现了基于ElasticSearch 的海量遥感数据检索系统,
对上述技术方法进行了实验验证。
实验结果表明,技术途径合理可行,其查询性能优于传统关系数据库,为实现海量遥感数据的快速检索提供了解决方案。
参考文献
[1]李德仁,沈欣,龚健雅,等.论我国空间信息网络的构建[J].武
汉大学学报(信息科学版),2015,40(6):711-715.
[2]谢榕,罗知微,王雨晨,等.遥感卫星特定领域大规模知识图谱构建关键技术[J].无线电工程,2017,47(4):1-6.
[3]权治,宋晶晶.基于NoSQL 的数据库技术分析[J].无线电工
程,2013,43(9):4-6.
[4]HUANG K,LI G,WANG J.Rapid Retrieval Strategy for Massive Remote Sensing Metadata Based on GeoHash Coding [J].Remote Sensing Letters,2019,10(2):111-119.
[5]向隆刚,高萌,王德浩,等.Geohash-Trees:一种用于组织大规
模轨迹的自适应索引[J].武汉大学学报(信息科学版),2019,44(3):436-442.
[6]ZHOU Chang,LU Huimei,XIANG Yong,et al.Geohashtile:Vector Geographic Data Display Method Based on Geohash [J].ISPRS International Journal of Geo-Information,2020,9(7):418.
[7]李峰,尤淑撑,魏海,等.遥感影像区域覆盖最优数据集的筛
选模型[J].无线电工程,2017,47(10):45-48.
[8]陈启凡.基于NoSQL 的公共安全监测数据分布式存储技术
研究[D].成都
:
电子科技大学,2020.
[9]姜康,冯钧,唐志贤,等.基于ElasticSearch 的元数据搜索与共
享平台[J].计算机与现代化,2015(2):117-121.
本书紧密结合十九届四中全会精神,对坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化进行系统阐释。
本书内容丰富、阐述全面、指导性强,共12章,包括:新时代推进国家治理现代化的政治宣言和行动纲领,新时代推进国家治理现代化的意义、内涵和要求,中国悠久传统下的国家治理思想体系,
社会主义国家治理的探索,西方国家治理的发展历程、现状与借鉴,正确把握全面深化改革的总目标和基本要求,以坚定的制度自信推动中国特色社会主义制度更加成熟定型,国家治理现代化的核心内容,国家治理体系的基础、演化和结构,提高国家治理能力的任务、重点和机制,创新社会治理体制,
全面推进国家治理体系和治理能力现代化。
书后附有党的
十九届四中全会《决定》等文件。
《国家治理体系和治理能力现代化党员干部读本》
出版社:人民融媒出品红旗出版社定价:45.00元开本:16K
订书电话:************
广告
中共中央决定从2019年6月开始,在全党开展“不忘初心、牢记使命”主题教育,将力戒形式主义、官僚主义作为主题教育重要内容。
“不忘初心、牢记使命”主题教育工作会议强调把初心使命变成党员干部锐意进取、
开拓创新的精气神和埋头苦干、真抓实干的自觉行动,力戒形式主义、官僚主义。
中共中央办公厅印发《关于解决形式主义突出问题为基层减负的通知》,对力戒形式主义,为基层减负作出重要部署。
本书紧密结合中央精神,围绕着力解决党性不纯、政绩观错位的问题,文山会海反弹回潮的问题,督查检查考核过多过频、过度留痕的问题,干部不敢担当作为的问题,深刻剖析当前形式主义问题存在的危害,并提出了有针对性的预防和处理对策,教育引导党员干部牢记党的宗旨,坚持实事求是的思想路线,树立正确政绩观,真抓实干,转变作风,力戒形式主义。
守初心、担使命,找差距、抓落实,用习近平新时代中国特色社会主义思想和党的十九大精神武装头脑、指导实践、推动工作,团结带领人民把党的十九大绘就的宏伟蓝图一步一步变为美好现实。
《力戒形式主义为基层减负》
出版社:北京日报出版社定价:39.00元开本:16K
订书电话:************
广告
[10]WANG Ruoyu,SUN Daniel,LI Guoqiang,et al.Pipeline
Provenance for Cloud Based Big Data Analytics[J].Software:Practice and Experience,2020,50(5):658-674.[11]关雪峰,曾宇媚.时空大数据背景下并行数据处理分析挖
掘的进展及趋势[J].地理科学进展,2018,37(10):1314-1327.[12]张学亮,陈金勇,陈勇.基于Hadoop 云计算平台的海量文
本处理研究[J].无线电通信技术,2014,40(1):54-57.
[13]DHULAVVAGOL PM,BHAJANTRI VH,TOTAD SG.
Performance Analysis of Distributed Processing System Using Shard Selection Techniques on Elasticsearch[J].Procedia Comput Sci,2020,167:1626-1635.
[14]王章龙.Elasticsearch 索引分片策略研究[D].重庆:重庆邮
电大学,2019.。