大数据下的空间数据挖掘思考_王树良

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
王树良,丁刚毅,钟 鸣
( 北京理工大学 软件学院,北京 100081)
摘 要: 对大数据背景下思考空间数据挖掘,分析了空间数据在大数据中的基础地位,综述了国际 学术界、企业界和政界对大数据的关注; 分析了空间大数据面临的垃圾多、污染重、利用难的现状, 剖析了空间大数据蕴含的价值; 探讨了从空间大数据中挖掘知识的技术,以及知识变为数据智能的 途径。 关键词: 大数据; 空间数据挖掘; 数据智能 中图分类号: TP391. 7; TN918. 1 文献标识码: A 文章编号: 1673-5692( 2013) 01-008-10
1 空间分布的大数据
大数据( big data) 是体量巨大( volume) 、多 种 多样( variety) 、高速变 化 ( velocity) 、真 实 质 差 ( veracity) 的复杂数据集合[1 ~ 4],已经难以用现有的数 据工 具 管 理 利 用[5,6]。 在 这 些 数 据 中 ,空 间 数 据 占 了绝 大 多 数,大 约 80% 的 数 据 与 空 间 位 置 有 关[7,8]。空间数 据 是 人 们 通 过 信 息 世 界 认 识 现 实 世界 的 基 础 数 据 和 智 慧 源 泉[9 。 ,10] 大 数 据 与 应 用密切 相 关[12,13],空 间 数 据 挖 掘 为 其 主 要 应 用 。 [5,9,11]
10
2013 年第 1 期
空间数据基础设施的建设速度和由此积累的空 间基础数据也正 在 递 增[14]。 空 间 数 据 基 础 设 施 积 累了大量的城市电子地图数据库、城市规wk.baidu.com道路网 络数据库、工程地质信息数据库、用地现状信息数据 库、总体规划信息数据库、控制性详细规划数据库、 市政红线数据库、建筑红线与用地红线数据库、地籍 数据库,以及覆盖全市范围的土地利用及基本农田 保护规划数据库等空间基础数据。更进一步地,除 了这些已经存储和积累的数据,每时每刻还都在采 集和产生新的空间数据。
第1 期 2013 年 2 月
檵檵檵檵檵檵檵檵檵檵檵殝
“大数据”专题
Journal of CAEIT
Vol. 8 No. 1 Feb. 2013
doi: 10. 3969 / j. issn. 1673-5692. 2013. 01. 002
檵檵殝
檵檵殝
檵檵檵檵檵檵檵檵檵檵檵殝
大数据下的空间数据挖掘思考
象属性的波段数目由几个增加到几十甚至上百个。 遥感对地观测技术正在形成一个多层次、多角度、全 方位和全天候的全球立体对地观测网,高、中、低轨 道结合,大、中、小卫星协同,粗、细、精分辨率互补。 传感器的地面分辨率数量级从千米到厘米,波段范 围从紫外到超长波,时间间隔从十几天一次到每天 三 次,探 测 深 度 从 几 米 到 万 米。 在 以 高 空 间、高 光 谱、高动态为标志的新型遥感对地观测技术中,新型 的高分辨率卫星遥感数据如 Quick Bird、IRS、IKONOS 等已提供使用。多传感器、多用途、多分辨率、 多频率的 EOS 更可以提供 MODIS 成像光谱数据、 ASTER 热红外数据、测云和 4-D 模拟的 CERES 数 据、MOPIT 数据及 MISR 数据。高分辨率、高动态的 新型卫星传感器不仅波段数量多、光谱分辨率高、数 据速率高、周期短,而且数据量特别大,一般情况下 数据的 容 量 均 在 千 兆 量 级 以 上。仅 EOS-AM1 和 PM1 每日获取的遥感空间数据量就以 TB 级计算。 Landsat 每两周就可以获取一套覆盖全球的卫星影 像数据,目前已经积累了全球几十年的数据。
《Science》的“Detecting Novel Associations in Large Data Sets”一文进行评价[21]。2012 年 7 月,Gartner 发布了第一份大数据调查报告《Hype Cycle for Big Data,2012》( 大数据的宣传循环) ,对大数据予以冷 思考[6]。
1. 2 空间数据是大数据的基础
空间数据描述信息世界中的空间对象在现实世 界内的具体地理方位和空间分布,包括空间实体的 属性、数量、位置及其相互关系等,涵盖从宏观、中观 到微观的整个层次,可以是点的高程、道路的长度、 多边形的面积、建筑物的体积、像元的灰度等数值, 地名、注记等字符串,图形、图像等多媒体成分,空间 关系等拓 扑 结 构[7,8]。 与 一 般 的 数 据 相 比,空 间 数 据具有空间性、时间性、多维性、大数据量、空间关系 复杂等特点[11]。
1. 1 从认识现实世界到创造信息世界
人类文明是从认识现实世界到创造信息世界的 过程,历经初步认识世界,以信息辅助记忆,以信息 记录和传承,以信息交流与传播,以信息再次认识世 界的历史阶段。最初利用实物,使用石块、贝壳“一 一对应”计数,通过结绳记事辅助记忆和讲述文化。 后来,以图画记事,使用简单图形,通过对自身进行 感性的提示,传承较为准确的记忆。再后来,当图画 变成形体相对固定的约定俗成的符号,并与语言中 的词语相联系后,就产生了文字。文字通过语言对 现实世界抽象概括,促进了交流与传播,准备了发展 科学文化的必要条件。为了突破文字符号依靠人工
收稿日期: 2013-01-06 修订日期: 2013-01-29 基金项目: 国家自然科学基金( 61173061) ; 高等学校博士点基金( 20121101110036)
2013 年第 1 期
王树良 等: 大数据下的空间数据挖掘思考
9
抄写或雕刻的限制,工业化革命用机器实现了批量 机械化生产,提高了传播的效率[14,15]。计算机以高 速计算为中心,把软件从机械硬件中剥离出来,促成 了信息传播的“电子化”和“自动化”; 互联网以网络 为中心,把 计 算 机 相 互 关 联,突 破 了 信 息 的 局 部 限 制; 移动通信以用户为中心,让机器紧随用户运动, 解除了机器对人的束缚; 物联网以应用为中心,自动 识别物体,实现了人与物的信息互联共享; 云计算以 服务为中心,通过整合专业技术,优化了资源配置; 大数据以数据为中心,在全体数据中挖掘知识,突破 了样本的采样随机性[16 ~ 18],能在大型数据中心和移 动终端中得以展现。上述信息技术,最终将服务于 对现实世界的认识和改造[15]。
On Spatial Data Mining under Big Data
WANG Shu-liang DING Gang-yi ZHONG Ming
( School of Software,Beijing Institute of Technology,Beijing 100081,China)
Abstract: Spatial data mining is thought over under the umbrella of big data in this paper. First of all,it is analyzed that spatial data plays a primary role in big data for most objects are location-based distribution. The state-of-the-art of big data is summarized within researchers,industries and governments of the world. Then,facing such issues as data waste,data pollution and difficult utilization,the value of spatial big data are affirmed. Finally,the techniques are analyzed to discover knowledge from spatial big data, and to further make knowledge changed into data intelligence. Key words: Big data; Spatial data mining; Data intelligence
用于采集空间数据的可能是雷达、红外、光电、 卫星、多 光 谱 扫 描 仪、数 码 相 机、成 像 光 谱 仪、全 站 仪、天文望远镜、电视摄像、电子显微成像、CT 成像 等各种宏观与微观传感器或设备,也可能是常规的 野外测量、人口普查、土地资源调查、地图扫描、地图 数字化、统计图表等空间数据获取手段,还可能是计 算机、网络、GPS、RS 和 GIS 等技术应用和分析空间 数据的过程。具体包括空间数据的来源、原观测值 ( 或原始数据) ,以及采集、编辑、存储和利用数据的 方法、步 骤、格 式、转 化、日 期、时 间、地 点、人 员、环 境、传输与历史等[10,19]。
1. 3 大数据倍受关注
正如人类在初生于现实世界后不断探索以认识 它一样,置身于信息世界的人类也正尝试了解其所 蕴含的秘密。2008 年 7 月,O’Reilly Media 出版了 《Beautiful Data》( 数据之美) ,9 月《Nature》刊登了 “大数据( Big data) ”专辑,微软出版了《第四范式— 数据密集的科学发现》( The Fourth Paradigm—Data Intensive Scientific Discovery) 。2009 年 5 月,联合国 “全球脉动 ( Global Pulse) ”项 目 发 布《Big Data for Development: Challenges & Opportunities》( 大数据促 发展: 挑战与机遇) ,推动数字数据和快速数据收集 和分析方式的创新[1]。2011 年 2 月,《Science》刊登 了“Dealing with Data( 处理数据) ”专辑,并联合 Science: Signaling、Science: Translational Medicine 和 Science: Careers 推出相关专题,讨论数据对科学研 究的重要性。5 月,麦肯锡( McKinsey) 在《Big data: the next frontier for innovation,competition,and productivity》( 大数据: 下一个创新、竞争和生产力的前 沿) 中从经济和商业维度分析了大数据在不同行业 的应用潜力,明确提出了政府和企业决策者应对大 数据发展的策略[4]。2012 年 1 月,《华尔街日报》认 为大数据、智能生产和无线网络三大技术变革将引 领新的经济繁荣[20]。2012 年 3 月,美国在《大数据 的研究和发展计划》( Big Data Research and Development Initiative) 中把大数据的研发应用从以前的 商业行为上升到国家战略部署,以提高从庞大而复 杂的数据中提取知识的能力,帮助解决一些国家最 紧迫的挑战[2,3]。美国国家科学基金会成立了可视 化和决策信息中心( NSF CVDI) ,汇聚国家科学基金 会、工业界、政府机构和大学的力量,集中研究大数 据的数据挖掘、决策制定和可视化。2012 年 4 月, 《Nature Biotechnology》在“Finding correlations in big data”一文中 邀 请 八 位 生 物 学 家,对 2011 年 12 月
遥感对地观测已经成为社会、政治和经济的发 展决策 不 可 或 缺 的 重 要 组 成 部 分 。 [7,11,14,19] 现 在, 星载传感器、卫星发射、控制等系列硬件技术已经取 得了重大突破,未来的天基信息系统和对地观测系 统拟通过努力,建立具有准实时、全天候获取各种空 间数据的能力,并逐步形成集高空间、高光谱、高时 间分辨率和宽地面覆盖于一体的卫星( 群) 对地观 测系统,同时提供定位、通讯和观测的功能,如图 1、 图 2 所示。感知器的飞速发展,也使得描述空间对
相关文档
最新文档