科学大数据与数字地球

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2014年 第59卷 第12期:1047 ~ 1054

《中国科学》杂志社

SCIENCE CHINA PRESS

科学大数据与数字地球

郭华东*, 王力哲, 陈方, 梁栋

中国科学院遥感与数字地球研究所, 北京 100094 * 联系人, E-mail: hdguo@

2013-09-17收稿, 2014-01-16接受, 2014-04-09网络版发表 国家自然科学基金重大国际合作项目(41120114001)资助

摘要 大数据研究正发展为科技、经济、社会等各领域的关注焦点, 诸多国家已将大数据研究上升至国家战略层面. 本文从时空角度论述了大数据的缘起、内涵与发展势态, 分析了科学大数据成为科学研究新途径的历程——科学范式开始从模型驱动向数据驱动发生转变. 给出了科学大数据的定义及科学大数据计算的应对策略. 进一步地论述了数字地球学科的基本理论框架和数字地球中的数据系统, 指出了数字地球学科具有大数据的鲜明特点. 最后以―胡焕庸线‖形成机理的空间认知研究为例, 具体阐述了数字地球学科中的大数据研究的理论和方法.

关键词

大数据 科学大数据 地球科学 数字地球

19世纪70年代以来, 随着第二次工业革命的爆发, 各种新技术、新发明层出不穷, 以文字为载体的数据量大约每10年翻一番; 从工业化时代进入到信息化时代后, 信息技术革命以前所未有的方式对社会、科技、经济变革的发展起着决定作用, 数据量以每

3年翻一番的速度持续增长; 近10年来, 随着计算机技术和互联网的快速发展, 音频、视频、文字、图片等半结构化、非结构化的数据大量涌现, 社交网络、物联网、云计算被广泛应用, 使得数据存储量、规模、种类飞速增长, 大数据时代已悄然来临[1~4]. 2012年12月, 国际数据公司(International Data Cor-poration, IDC)发布的―2020年的数字宇宙‖报告中指出(图1), 数据量将以每2年翻一番的速度骤增. 2011年全球被创建和被复制的数据总量约为1.8 ZB; 预计到2020年全球数据总量将达到40 ZB, 我国拥有的全球数据量比例由2012年的13%将提升到21%[5].

纵观数据的生产方式, 其在经历了以被动式为主的运营式系统阶段和以主动式为主的用户原创内容阶段后, 现已步入了以自动式为主的感知式系统阶段[6]. 数据生产方式的飞跃是大数据产生的主要因素. 与其他研究方向一样, 大数据也经历着从概念到

图1 2006~2020年全球数据量增长趋势

据IDC―2020年的数字宇宙‖数据制作

小范围技术实践, 最终到广泛接受并成为一个新兴研究方向的历程. 由图2所示, 2008年9月, Nature 杂志率先出版了―大数据‖专刊[7], 表明大数据的影响已触及自然科学、社会科学、人文科学和工程学的各个领域. 2009年10月, The Fourth Paradigm : Data- Intensive Scientific Discovery [8]一书的出版, 标志着与

2014年4月 第59卷 第12期

1048

大数据关系密切的数据密集型科学发现范式的确立和广泛认可. 2010年2月, Economist 杂志刊登的―Data, data everywhere ‖一文将大数据理念进一步深化[9]. 2011年2月, Science 杂志推出―数据处理‖专刊[10]; 同年5月, 麦肯锡全球研究院(McKinsey Global Institute, MGI)发布Big Data : The Next Frontier for Innovation , Competition , and Productivity 报告[11], 标志着大数据已成为社会科学研究热点问题之一. 2012年5月, 联合国发布大数据政务白皮书Big Data for Development : Challenges & Opportunities [12], 标志着大数据领域的研究计划已上升到国家战略层面; 同年6月, 高德纳咨询公司(Gartner Group)提出大数据4V 定义, 确立了大数据研究的基础概念

[13]

; 同样在6月,

―Next-generation Digital Earth ‖[14]在Proceedings of the National Academy of Sciences 发表, 指出人类已进入大数据时代, 这代表大数据将在新一代数字地球发展中扮演重要角色. 2013年4月, 在北京举行的第35届国际环境遥感大会专门召开了―大数据与数字地球和未来地球‖分会, 这标志着空间和地球科学领域对大数据的广泛关注和认同.

数据是一种资源, 也是一种财富. 在大数据时代, 庞大繁杂的数据对社会、科技、经济的发展将发挥支撑促进作用. 一些国家和国际组织已将大数据研究提升到国家和国际重大战略层面, 这势必对未来科技与经济发展带来深远影响. 如图3所示, 美国、欧盟、澳大利亚、日本、韩国等已在国家层面开展了大数据研究和发展计划. 2013年7月习近平总书记在中国科学院考察时指出―大数据是工业社会的‗石油‘资源. 谁掌握了数据, 谁就掌握了主动权‖. 大数据已成为信息主权的一种表现形式, 将是继边防、海防、

空防之后, 另一个大国博弈的空间. 大数据正在开启一次重大的时代转型, 它将改变人类的生活以及理解世界的方式[15~17].

1 科学大数据及其内涵

随着大数据时代的到来, 国内外学术界正在从各种角度来分析和理解大数据的概念与内涵. 当前的大数据定义主要通过两种不同的视角试图刻画大数据的外部特征: 一种是相对特征, 即在用户可接受的时间范围内, 使用普通设备不能获取、管理和处理的数据集[18]; 另一种是绝对特征, 即大数据4V 特性, 体量大(Volume)、类型多(Variety)、真实性(Veracity)、变化速度快(Velocity)[13].

与传统的逻辑推理研究不同, 大数据研究是对数量巨大的数据做统计性的搜索、比较、聚类和分类等分析归纳, 进行―相关分析‖, 重点关注所谓―相关性‖, 即2个或2个以上变量的取值之间存在某种规律性, 目的在于找出数据集里隐藏的相互关系网[19].

由此可见, 大数据时代以及大数据计算的本质特征在于从模型驱动到数据驱动范式的转变以及数据密集型科学方法的确立. 人类社会对自然界的认知从观测模式与实验科学到17世纪的理论模型范式后, 发展到21世纪的计算模式, 经历了上千年的演化. 在今天的大数据时代中, 新型数据密集型科学发现的范式被提出——不依赖或者较少依赖模型和先验知识, 对海量数据中的关系和规律进行分析和挖掘, 从而获得过去的科学方法所发现不了的新模式、新知识甚至新规律.

在科学研究数据与日俱增的今天, 我们把与科学相关的大数据称之为科学大数据. 科学大数据将

图2 大数据发展趋势

据Google Trend 数据制作, 数据获取时间2013年8月

相关文档
最新文档