大数据时代的空间数据挖掘综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第37卷第7期测绘与空间地理信息

GEOMATICS &SPATIAL INFORMATION TECHNOLOGY

Vol.37,No.7收稿日期:2014-01-22

作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。

大数据时代的空间数据挖掘综述

马宏斌1

,王

柯1,马团学

2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000)

要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题,

介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208

文献标识码:B

文章编号:1672-5867(2014)07-0019-04

Spatial Data Mining Big Data Era Review

MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2

(1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ;

2.Airborne Institute ,Xiaogan 432000,China )

Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed.

Key words :big data ;spatial data mining ;cloud computing

0引言

随着地理空间信息技术的飞速发展,获取数据的手

段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子

显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、

地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、

网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。

以上各种获取手段和途径的汇集,就使每天获取的

数据增长量达到GB 级、

TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫

星、

飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有

“4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。

在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限,

受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

图1对地观测系统

Fig.1Earth observation system

数据“坟墓”变成

“知识金块”。这一需求使得数据挖掘在大数据时代再度受到人们的重视。同时,

大数据时代的研究方法和数据处理技术也给空间数据挖掘研究的发展

带来了新的机遇。

1传统空间数据挖掘存在的问题

1989年8月于美国底特律市召开的第一届国际联合

人工智能学术会议上,首次出现了从数据库中发现知识(Knowledge Discovery in Database ,简称KDD )。空间数据挖掘研究比一般的关系数据库或事务数据库的数据挖掘

研究晚。1994年在渥太华举行的GIS 国际会议上,李德仁院士第一次提出了从GIS 数据库中发现知识(Knowl-edge Discovery from GIS ,简称KDG )的概念,并系统分析了空间知识发现的特点和方法,认为它能够把GIS 有限的数

据变成无限的知识,精炼和更新GIS 数据,促使GIS 成为智能化的信息系统。从此,空间数据挖掘就成为数据库和信息决策领域的一个重要研究方向,虽然取得了一定的进展,但还有很多问题需要研究。空间数据挖掘的基本过程如图2所示

图2空间数据挖掘的基本过程

Fig.2The basic process of spatial data mining

1.1空间挖掘理论和算法研究

经过近年来的研究,空间数据挖掘继承和发展相关

的基础学科(如机器学习、统计学等)已有成果,并探索出独具特色的理论体系,但也存在一些问题,主要表现为以下几点:

1)多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。

2)空间数据含有随机不确定性和模糊性,但目前的空间数据挖掘方法对空间数据的不确定性处理还存在一

些问题。有的方法根本没有考虑空间数据的不确定性;有的方法考虑了随机不确定性;有的方法考虑空间数据的模糊性。还没有一种方法既能较好地考虑空间数据随机不确定性又考虑空间数据模糊性。

3)空间数据挖掘的智能化。目前空间数据挖掘已经应用了人工神经网络等智能算法,

但现有的空间数据挖掘系统的智能化程度比较低,还需要进一步提高。例如依据数据的特点自动选择合适的挖掘算法,

在此过程中不需要或者需要少量的人工干预。

4)空间数据挖掘质量评价。空间数据挖掘的知识很多,但挖掘的程度如何、挖掘的效益如何等这些问题目前还没有进行研究。空间数据挖掘结果可能会发现数以千计的模式,其中有些模式是错误的,对于给定的用户,许多模式未必是感兴趣的,因此,如何提供给用户有用的、确定的和可表示性的知识是一个需要研究的课题。5)私有性、安全性与空间数据挖掘问题。知识发现可能导致对于私有权的入侵,研究采取哪些措施防止暴露敏感信息是十分重要的。当从不同角度和不同抽象级上观察空间数据时,数据安全性将受到严重威胁。这时空间数据保护和空间数据挖掘可能会造成一些矛盾的结果。

1.2

空间数据挖掘技术研究

目前,在空间数据挖掘系统研究过程中存在以下问题:

1)空间数据集成问题。许多空间数据集中包含着复

杂的数据类型,如关系型数据、半结构化数据、非结构化数据、

复杂的空间数据对象、超文本数据和多媒体数据、时空数据、视频数据、声音数据等,局域网和广域网、国际互联网上更是连接了更多的空间数据源并形成了巨大、变化、分布式、分层、异构的空间数据仓库。具有不同数据语义,来自不同的数据源,随时都有可能改变的空间数据集,

对空间数据挖掘提出了新的挑战,目前并不存在一个强有力的空间能使数据挖掘系统有效地处理这些复杂的数据类型。

2)空间数据挖掘系统适用范围有限。国际上最著名且有代表性的通用SDM 系统有:GeoMiner ,

Descartes 和ArcViewGIS 的S_PLUS 接口。以上SDM 系统的共同优点

是可以把传统DM 与地图可视化结合起来,

提供聚类、分类等多种挖掘模式,

但它们在空间数据的操作上实现方式不尽相同。Descartes 是专门的空间数据可视化工具,它和DM 工具Kepler 两者联合在一起才能完成SDM 任务。GeoMiner 是在MapInfo 平台上进行二次开发而成,系统庞大,

造成较大的资源浪费。S_PLUS 的局限在于,它是一种解释性语言(Script ),功能的实现比用C 和C ++直接实现要慢得多,所以只能在非常小的数据库中使用。

3)没有公认的标准化空间数据挖掘查询语言。虽然GeoMiner 在Oracle Spatial SQL 语言的基础上设计了GMQL (Geo -Mining Query Language ),方便了空间数据挖掘,

但毕竟GeoMiner 只是加拿大Simon 大学开发的,原型0

2测绘与空间地理信息2014年

相关文档
最新文档