大数据时代的空间数据挖掘综述_马宏斌
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3) 空间数据挖掘的智能化。目前空间数据挖掘已经 应用了人工神 经 网 络 等 智 能 算 法,但 现 有 的 空 间 数 据 挖 掘系统的智 能 化 程 度 比 较 低,还 需 要 进 一 步 提 高。 例 如 依据数据的特 点 自 动 选 择 合 适 的 挖 掘 算 法,在 此 过 程 中 不需要或者需要少量的人工干预。
5) 私有性、安全性与空间数据挖掘问题。知识发现 可能导致对于 私 有 权 的 入 侵,研 究 采 取 哪 些 措 施 防 止 暴 露敏感信息是十分重要的。当从不同角度和不同抽象级 上观察空间 数 据 时,数 据 安 全 性 将 受 到 严 重 威 胁。 这 时 空间数据 保 护 和 空 间 数 据 挖 掘 可 能 会 造 成 一 些 矛 盾 的 结果。
收稿日期: 2014 - 01 - 22 作者简介: 马宏斌( 1982 - ) ,男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。
20
测绘与空间地理信息
2014 年
图 1 对地观测系统 Fig. 1 Earth observation system
数据“坟墓”变成“知识金块”。这一需求使得数据挖掘在 大数据时代 再 度 受 到 人 们 的 重 视。 同 时,大 数 据 时 代 的 研究方法和数据处理技术也给空间数据挖掘研究的发展 带来了新的机遇。
2) 空间数据挖掘系统适用范围有限。国际上最著名 且有代 表 性 的 通 用 SDM 系 统 有: GeoMiner,Descartes 和 ArcViewGIS 的 S_PLUS 接口。以上 SDM 系统的共同优点 是可以把传统 DM 与地图可视化结合起来,提供聚类、分 类等多种挖掘 模 式,但 它 们 在 空 间 数 据 的 操 作 上 实 现 方 式不尽相同。Descartes 是专门的空间数据可视化工具, 它和 DM 工具 Kepler 两者联合在一起才能完成 SDM 任 务。GeoMiner 是在 MapInfo 平台上进行二次开发而成,系 统庞大,造成较大的资源浪费。S_PLUS 的局限在于,它 是一种解释性语言( Script) ,功能的实现比用 C 和 C + + 直接实现要慢得多,所以只能在非常小的数据库中使用。
4) 空间数据挖掘质量评价。空间数据挖掘的知识很 多,但挖掘的程度如何、挖掘的效益如何等这些问题目前 还没有进行研究。空间数据挖掘结果可能会发现数以千 计的模式,其中 有 些 模 式 是 错 误 的,对 于 给 定 的 用 户,许 多模式未必是 感 兴 趣 的,因 此,如 何 提 供 给 用 户 有 用 的、 确定的和可表示性的知识是一个需要研究的课题。
第 37 卷 第 7 期 2014 年 7 月
测绘与空间地理信息
GEOMATICS & SPATIAL INFORMATION TECHNOLOGY
Vol. 37,No. 7 Jul. ,2014
大数据时代的空间数据挖掘综述
马宏斌1 ,王 柯1 ,马团学2
( 1. 信息工程大学 地理空间信息学院,河南 郑州 450000; 2. 空降兵研究所,湖北 孝感 432000)
1. 2 空间数据挖掘技术研究
目前,在 空 间 数 据 挖 掘 系 统 研 究 过 程 中 存 在 以 下 问题:
1) 空间数据集成问题。许多空间数据集中包含着复 杂的数据类型,如 关 系 型 数 据、半 结 构 化 数 据、非 结 构 化 数据、复杂的 空 间 数 据 对 象、超 文 本 数 据 和 多 媒 体 数 据、 时空数据、视频数据、声音数据等,局域网和广域网、国际 互联网上更是连接了更多的空间数据源并形成了巨大、 变化、分布式、分 层、异 构 的 空 间 数 据 仓 库。 具 有 不 同 数 据语义,来自不同的数据源,随时都有可能改变的空间数 据集,对空间数据挖掘提出了新的挑战,目前并不存在一 个强有力的空间能使数据挖掘系统有效地处理这些复杂 的数据类型。
0引言
随着地理空 间 信 息 技 术 的 飞 速 发 展,获 取 数 据 的 手 段和途径都得 到 极 大 丰 富,传 感 器 的 精 度 得 到 提 高 和 时 空覆盖范围 得 以 扩 大,数 据 量 也 随 之 激 增。 用 于 采 集 空 间数据的可能 是 雷 达、红 外、光 电、卫 星、多 光 谱 仪、数 码 相机、成像光谱 仪、全 站 仪、天 文 望 远 镜、电 视 摄 像、电 子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能 是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来 自计算机、网络、GPS,RS 和 GIS 等技术应用和分析空间 数据。特别是近些年来,个人使用的、携带的各种传感器 ( 重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、 温度传感器、红外线传感器等) ,具备定位功能电子设备 的普及,如 智 能 手 机、平 板 电 脑、可 穿 戴 设 备 ( GOOGLE GLASS 和智能手表等) ,使人们在日常生活中产生了大量 具有位置信息的数据。随着志愿者地理信息 ( Volunteer Geographic Information) 的出现,使这些普通民众也加入到 了提供数据者的行列。
图 2 空间数据挖掘的基本过程 Fig. 2 The basic process of spatial data mining
1. 1 空间挖掘理论和算法研究
经过近年来 的 研 究,空 间 数 据 挖 掘 继 承 和 发 展 相 关 的基础学科( 如机器学习、统计学等) 已有成果,并探索出 独具特色的理论体系,但也存在一些问题,主要表现为以 下几点:
在这些数据 中,与 空 间 位 置 相 关 的 数 据 占 了 绝 大 多 数。传统的空间知识发现的科研模式在大数据情境下已 经不再适用,原 因 是 传 统 的 科 研 模 型 不 具 有 普 适 性 且 支 持的数据量受限,受到数据传输、存储及时效性需求的制 约等。为了从 存 储 在 分 布 方 式、虚 拟 化 的 数 据 中 心 获 取 信息或知识,这 就 需 要 利 用 强 有 力 的 数 据 分 析 工 具 来 将
摘 要: 随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题,
介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并
指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。
关键词: 大数据; 空间数据挖掘; 云计算
3) 没有公认的标准化空间数据挖掘查询语言。虽然 GeoMiner 在 Oracle Spatial SQL 语 言 的 基 础 上 设 计 了 GMQL( Geo - Mining Query Language) ,方便了空间数据挖 掘,但毕竟 GeoMiner 只是加拿大 Simon 大学开发的,原型
以上各种获 取 手 段 和 途 径 的 汇 集,就 使 每 天 获 取 的
数据增长量达到 GB 级、TB 级乃至 PB 级。如中国遥感卫 星地面站现在保存的对地观测卫星数据资料达 260 TB, 并以 每 年 15 TB 的 数 据 量 增 长。比 如 2011 年 退 役 的 Landsat5 卫星在其 29 年的在轨工作期间,平均每年获取 8. 6 万景影像,每天获取 67 GB 的观测数据。而 2012 年 发射的资源三号( ZY3) 卫星,每天的观测数据获取量可以 达到 10TB 以上。类似的传感器现在已经大量部署在卫 星、飞机等飞行平台上,未来 10 年,全球天空、地空间部署 的百万计传感器每天获取的观测数据将超过 10 PB。这 预示着一个 时 பைடு நூலகம் 的 到 来,那 就 是 大 数 据 时 代。 大 数 据 具 有“4V”特性,即数据体量大( Volume) 、数据来源和类型 繁多( Variety) 、数据的真实性难以保证( Veracity) 、数据增 加和变化的速度快 ( Velocity) 。对 地 观 测 的 系 统 如 图 1 所示。
第7 期
马宏斌等: 大数据时代的空间数据挖掘综述
21
系统不够成熟,属于实验阶段,并未投入实际应用和后续 开发。
4) 空间挖掘方法和用户交互问题。由于不同的用户 可能对不同类 型 的 知 识 感 兴 趣,空 间 数 据 系 统 应 该 覆 盖 范围很广的数 据 分 析 和 知 识 发 现 任 务,在 相 同 的 空 间 数 据上发现不同的知识,有必要提供交互式手段,开发不同 的空间数据 挖 掘 技 术。 而 目 前,空 间 数 据 挖 掘 知 识 发 现 系统普遍交互 性 不 强,在 知 识 发 现 过 程 中 很 难 充 分 有 效 地利用领域专 家 知 识,用 户 不 能 很 好 地 掌 控 空 间 数 据 挖 掘过程。
1 传统空间数据挖掘存在的问题
1989 年 8 月于美国底特律市召开的第一届国际联合 人工智能学术 会 议 上,首 次 出 现 了 从 数 据 库 中 发 现 知 识 ( Knowledge Discovery in Database,简称 KDD) 。空间数据 挖掘研究比一般的关系数据库或事务数据库的数据挖掘 研究晚。1994 年在渥太华举行的 GIS 国际会议上,李德 仁院士第一次提出了从 GIS 数据库中发现知识 ( Knowledge Discovery from GIS,简称 KDG) 的概念,并系统分析了 空间知识发现的特点和方法,认为它能够把 GIS 有限的数 据变成无限的知识,精炼和更新 GIS 数据,促使 GIS 成为 智能化的信 息 系 统。 从 此,空 间 数 据 挖 掘 就 成 为 数 据 库 和信息决策领 域 的 一 个 重 要 研 究 方 向,虽 然 取 得 了 一 定 的进展,但还 有 很 多 问 题 需 要 研 究。 空 间 数 据 挖 掘 的 基 本过程如图 2 所示。
2) 空间数据含有随机不确定性和模糊性,但目前的 空间数据挖掘方法对空间数据的不确定性处理还存在一
些问题。有的 方 法 根 本 没 有 考 虑 空 间 数 据 的 不 确 定 性; 有的方法考虑了随机不确定性; 有的方法考虑空间数据 的模糊性。还没有一种方法既能较好地考虑空间数据随 机不确定性又考虑空间数据模糊性。
中图分类号: P208
文献标识码: B
文章编号: 1672 - 5867( 2014) 07 - 0019 - 04
Spatial Data Mining Big Data Era Review
MA Hong - bin1 ,WANG Ke1 ,MA Tuan - xue2 ( 1. Geospatial Information Institute,Information Engineering University,Zhengzhou 450000,China;
2. Airborne Institute,Xiaogan 432000,China)
Abstract: In the era of Big Data,more and more researchers begin to show interest in data mining techniques again. The paper review most unresolved problems left by traditional spatial data mining at first. And,some progress made by researches using Big Data and Cloud Computing technology is introduced. Also,their drawbacks are mentioned. Finally,future trend of spatial data mining is discussed. Key words: big data; spatial data mining; cloud computing
1) 多数空间数据挖掘算法是由一般的数据挖掘算法 移植而来,并没有考虑空间数据存储、处理及空间数据本 身的特点。空 间 数 据 不 同 于 关 系 数 据 库 中 的 数 据,它 有 其特有的空间 数 据 访 问 方 法,因 而 传 统 的 数 据 挖 掘 技 术 往往不能很好地分析复杂的空间现象和空间对象。
5) 私有性、安全性与空间数据挖掘问题。知识发现 可能导致对于 私 有 权 的 入 侵,研 究 采 取 哪 些 措 施 防 止 暴 露敏感信息是十分重要的。当从不同角度和不同抽象级 上观察空间 数 据 时,数 据 安 全 性 将 受 到 严 重 威 胁。 这 时 空间数据 保 护 和 空 间 数 据 挖 掘 可 能 会 造 成 一 些 矛 盾 的 结果。
收稿日期: 2014 - 01 - 22 作者简介: 马宏斌( 1982 - ) ,男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。
20
测绘与空间地理信息
2014 年
图 1 对地观测系统 Fig. 1 Earth observation system
数据“坟墓”变成“知识金块”。这一需求使得数据挖掘在 大数据时代 再 度 受 到 人 们 的 重 视。 同 时,大 数 据 时 代 的 研究方法和数据处理技术也给空间数据挖掘研究的发展 带来了新的机遇。
2) 空间数据挖掘系统适用范围有限。国际上最著名 且有代 表 性 的 通 用 SDM 系 统 有: GeoMiner,Descartes 和 ArcViewGIS 的 S_PLUS 接口。以上 SDM 系统的共同优点 是可以把传统 DM 与地图可视化结合起来,提供聚类、分 类等多种挖掘 模 式,但 它 们 在 空 间 数 据 的 操 作 上 实 现 方 式不尽相同。Descartes 是专门的空间数据可视化工具, 它和 DM 工具 Kepler 两者联合在一起才能完成 SDM 任 务。GeoMiner 是在 MapInfo 平台上进行二次开发而成,系 统庞大,造成较大的资源浪费。S_PLUS 的局限在于,它 是一种解释性语言( Script) ,功能的实现比用 C 和 C + + 直接实现要慢得多,所以只能在非常小的数据库中使用。
4) 空间数据挖掘质量评价。空间数据挖掘的知识很 多,但挖掘的程度如何、挖掘的效益如何等这些问题目前 还没有进行研究。空间数据挖掘结果可能会发现数以千 计的模式,其中 有 些 模 式 是 错 误 的,对 于 给 定 的 用 户,许 多模式未必是 感 兴 趣 的,因 此,如 何 提 供 给 用 户 有 用 的、 确定的和可表示性的知识是一个需要研究的课题。
第 37 卷 第 7 期 2014 年 7 月
测绘与空间地理信息
GEOMATICS & SPATIAL INFORMATION TECHNOLOGY
Vol. 37,No. 7 Jul. ,2014
大数据时代的空间数据挖掘综述
马宏斌1 ,王 柯1 ,马团学2
( 1. 信息工程大学 地理空间信息学院,河南 郑州 450000; 2. 空降兵研究所,湖北 孝感 432000)
1. 2 空间数据挖掘技术研究
目前,在 空 间 数 据 挖 掘 系 统 研 究 过 程 中 存 在 以 下 问题:
1) 空间数据集成问题。许多空间数据集中包含着复 杂的数据类型,如 关 系 型 数 据、半 结 构 化 数 据、非 结 构 化 数据、复杂的 空 间 数 据 对 象、超 文 本 数 据 和 多 媒 体 数 据、 时空数据、视频数据、声音数据等,局域网和广域网、国际 互联网上更是连接了更多的空间数据源并形成了巨大、 变化、分布式、分 层、异 构 的 空 间 数 据 仓 库。 具 有 不 同 数 据语义,来自不同的数据源,随时都有可能改变的空间数 据集,对空间数据挖掘提出了新的挑战,目前并不存在一 个强有力的空间能使数据挖掘系统有效地处理这些复杂 的数据类型。
0引言
随着地理空 间 信 息 技 术 的 飞 速 发 展,获 取 数 据 的 手 段和途径都得 到 极 大 丰 富,传 感 器 的 精 度 得 到 提 高 和 时 空覆盖范围 得 以 扩 大,数 据 量 也 随 之 激 增。 用 于 采 集 空 间数据的可能 是 雷 达、红 外、光 电、卫 星、多 光 谱 仪、数 码 相机、成像光谱 仪、全 站 仪、天 文 望 远 镜、电 视 摄 像、电 子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能 是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来 自计算机、网络、GPS,RS 和 GIS 等技术应用和分析空间 数据。特别是近些年来,个人使用的、携带的各种传感器 ( 重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、 温度传感器、红外线传感器等) ,具备定位功能电子设备 的普及,如 智 能 手 机、平 板 电 脑、可 穿 戴 设 备 ( GOOGLE GLASS 和智能手表等) ,使人们在日常生活中产生了大量 具有位置信息的数据。随着志愿者地理信息 ( Volunteer Geographic Information) 的出现,使这些普通民众也加入到 了提供数据者的行列。
图 2 空间数据挖掘的基本过程 Fig. 2 The basic process of spatial data mining
1. 1 空间挖掘理论和算法研究
经过近年来 的 研 究,空 间 数 据 挖 掘 继 承 和 发 展 相 关 的基础学科( 如机器学习、统计学等) 已有成果,并探索出 独具特色的理论体系,但也存在一些问题,主要表现为以 下几点:
在这些数据 中,与 空 间 位 置 相 关 的 数 据 占 了 绝 大 多 数。传统的空间知识发现的科研模式在大数据情境下已 经不再适用,原 因 是 传 统 的 科 研 模 型 不 具 有 普 适 性 且 支 持的数据量受限,受到数据传输、存储及时效性需求的制 约等。为了从 存 储 在 分 布 方 式、虚 拟 化 的 数 据 中 心 获 取 信息或知识,这 就 需 要 利 用 强 有 力 的 数 据 分 析 工 具 来 将
摘 要: 随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题,
介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并
指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。
关键词: 大数据; 空间数据挖掘; 云计算
3) 没有公认的标准化空间数据挖掘查询语言。虽然 GeoMiner 在 Oracle Spatial SQL 语 言 的 基 础 上 设 计 了 GMQL( Geo - Mining Query Language) ,方便了空间数据挖 掘,但毕竟 GeoMiner 只是加拿大 Simon 大学开发的,原型
以上各种获 取 手 段 和 途 径 的 汇 集,就 使 每 天 获 取 的
数据增长量达到 GB 级、TB 级乃至 PB 级。如中国遥感卫 星地面站现在保存的对地观测卫星数据资料达 260 TB, 并以 每 年 15 TB 的 数 据 量 增 长。比 如 2011 年 退 役 的 Landsat5 卫星在其 29 年的在轨工作期间,平均每年获取 8. 6 万景影像,每天获取 67 GB 的观测数据。而 2012 年 发射的资源三号( ZY3) 卫星,每天的观测数据获取量可以 达到 10TB 以上。类似的传感器现在已经大量部署在卫 星、飞机等飞行平台上,未来 10 年,全球天空、地空间部署 的百万计传感器每天获取的观测数据将超过 10 PB。这 预示着一个 时 பைடு நூலகம் 的 到 来,那 就 是 大 数 据 时 代。 大 数 据 具 有“4V”特性,即数据体量大( Volume) 、数据来源和类型 繁多( Variety) 、数据的真实性难以保证( Veracity) 、数据增 加和变化的速度快 ( Velocity) 。对 地 观 测 的 系 统 如 图 1 所示。
第7 期
马宏斌等: 大数据时代的空间数据挖掘综述
21
系统不够成熟,属于实验阶段,并未投入实际应用和后续 开发。
4) 空间挖掘方法和用户交互问题。由于不同的用户 可能对不同类 型 的 知 识 感 兴 趣,空 间 数 据 系 统 应 该 覆 盖 范围很广的数 据 分 析 和 知 识 发 现 任 务,在 相 同 的 空 间 数 据上发现不同的知识,有必要提供交互式手段,开发不同 的空间数据 挖 掘 技 术。 而 目 前,空 间 数 据 挖 掘 知 识 发 现 系统普遍交互 性 不 强,在 知 识 发 现 过 程 中 很 难 充 分 有 效 地利用领域专 家 知 识,用 户 不 能 很 好 地 掌 控 空 间 数 据 挖 掘过程。
1 传统空间数据挖掘存在的问题
1989 年 8 月于美国底特律市召开的第一届国际联合 人工智能学术 会 议 上,首 次 出 现 了 从 数 据 库 中 发 现 知 识 ( Knowledge Discovery in Database,简称 KDD) 。空间数据 挖掘研究比一般的关系数据库或事务数据库的数据挖掘 研究晚。1994 年在渥太华举行的 GIS 国际会议上,李德 仁院士第一次提出了从 GIS 数据库中发现知识 ( Knowledge Discovery from GIS,简称 KDG) 的概念,并系统分析了 空间知识发现的特点和方法,认为它能够把 GIS 有限的数 据变成无限的知识,精炼和更新 GIS 数据,促使 GIS 成为 智能化的信 息 系 统。 从 此,空 间 数 据 挖 掘 就 成 为 数 据 库 和信息决策领 域 的 一 个 重 要 研 究 方 向,虽 然 取 得 了 一 定 的进展,但还 有 很 多 问 题 需 要 研 究。 空 间 数 据 挖 掘 的 基 本过程如图 2 所示。
2) 空间数据含有随机不确定性和模糊性,但目前的 空间数据挖掘方法对空间数据的不确定性处理还存在一
些问题。有的 方 法 根 本 没 有 考 虑 空 间 数 据 的 不 确 定 性; 有的方法考虑了随机不确定性; 有的方法考虑空间数据 的模糊性。还没有一种方法既能较好地考虑空间数据随 机不确定性又考虑空间数据模糊性。
中图分类号: P208
文献标识码: B
文章编号: 1672 - 5867( 2014) 07 - 0019 - 04
Spatial Data Mining Big Data Era Review
MA Hong - bin1 ,WANG Ke1 ,MA Tuan - xue2 ( 1. Geospatial Information Institute,Information Engineering University,Zhengzhou 450000,China;
2. Airborne Institute,Xiaogan 432000,China)
Abstract: In the era of Big Data,more and more researchers begin to show interest in data mining techniques again. The paper review most unresolved problems left by traditional spatial data mining at first. And,some progress made by researches using Big Data and Cloud Computing technology is introduced. Also,their drawbacks are mentioned. Finally,future trend of spatial data mining is discussed. Key words: big data; spatial data mining; cloud computing
1) 多数空间数据挖掘算法是由一般的数据挖掘算法 移植而来,并没有考虑空间数据存储、处理及空间数据本 身的特点。空 间 数 据 不 同 于 关 系 数 据 库 中 的 数 据,它 有 其特有的空间 数 据 访 问 方 法,因 而 传 统 的 数 据 挖 掘 技 术 往往不能很好地分析复杂的空间现象和空间对象。