科学大数据与数字地球
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高度计算复杂性(High Complexity): 科学大数据 应用的场景大多属于非线性复杂系统, 具有高度复 杂的数据模型. 因而科学大数据计算问题不仅仅是 一个数据处理与分析的问题, 还是一个复杂系统与 数据共同建模与计算的问题[23]. 这个问题需要复杂 系统理论、估计理论与本学科的机理模型相结合来探 索解决方法. 现代气候科学就是一个典型案例[24].
小范围技术实践, 最终到广泛接受并成为一个新兴 研究方向的历程. 由图 2 所示, 2008 年 9 月, Nature 杂志率先出版了“大数据”专刊[7], 表明大数据的影响 已触及自然科学、社会科学、人文科学和工程学的各 个领域. 2009 年 10 月, The Fourth Paradigm: DataIntensive Scientific Discovery[8]一书的出版, 标志着与
纵观数据的生产方式, 其在经历了以被动式为 主的运营式系统阶段和以主动式为主的用户原创内 容阶段后, 现已步入了以自动式为主的感知式系统 阶段[6]. 数据生产方式的飞跃是大数据产生的主要因 素. 与其他研究方向一样, 大数据也经历着从概念到
图 1 2006~2020 年全球数据量增长趋势
据 IDC“2020 年的数字宇宙”数据制作
特邀进展
2014 年 第 59 卷 第 12 期:1047 ~ 1054 www.scichina.com csb.scichina.com
《中国科学》杂志社
SCIENCE CHINA PRESS
科学大数据与数字地球
郭华东*, 王力哲, 陈方, 梁栋
中国科学院遥感与数字地球研究所, 北京 100094 * 联系人, E-mail: hdguo@ceode.ac.cn
1049
2014 年 4 月 第 59 卷 第 12 期
确定性[25]. 数据的不确定性与模型的不确定性给科 学大数据计算带来极大的挑战.
为了应对大数据, 尤其是科学大数据的挑战, (科学)大数据计算的可计算性及求解策略也需要进 行革命性的发展. 首先是大数据的近似性求解方法. 由于大数据体量巨大, 计算及其复杂, 因此精确求解 是无法实现的. 这时我们需要求解近似解、部分解, 来代替精确解. 在可容忍的求解精度范围内, 我们降 低求解方法的复杂度而提高大数据求解的效率是一 个 可 行 的 方 法 [26]. 其 次 是 大 数 据 的 精 简 求 解 方 法 . 基于同样的原因, 通过对大数据的稀疏表征和维度 约减, 把大数据集变为小数据集合, 从而获得大数据 求解方法. 传统的傅里叶变换和小波变换, 当前流行 的压缩感知[27,28]、字典学习[29]都是基于这样的思路.
数据是一种资源, 也是一种财富. 在大数据时代, 庞大繁杂的数据对社会、科技、经济的发展将发挥支 撑促进作用. 一些国家和国际组织已将大数据研究 提升到国家和国际重大战略层面, 这势必对未来科 技与经济发展带来深远影响. 如图 3 所示, 美国、欧 盟、澳大利亚、日本、韩国等已在国家层面开展了大 数据研究和发展计划. 2013 年 7 月习近平总书记在中 国科学院考察时指出“大数据是工业社会的‘石油’资 源. 谁掌握了数据, 谁就掌握了主动权”. 大数据已 成为信息主权的一种表现形式, 将是继边防、海防、
在科学研究数据与日俱增的今天, 我们把与科 学相关的大数据称之为科学大数据. 科学大数据将
1048
图 2 大数据发展趋势
据 Google Trend 数据制作, 数据获取时间 2013 年 8 月
特邀进展
图 3 世界不同国家大数据研究与发展热度图
据 Google Trend 数据制作, 数据获取时间 2013 年 8 月
虽然科学大数据已成为科学研究的重要途径, 数 据密集型科学范式也已逐渐被接受, 但是科学大数据 系统的机理模型及其在科学发现中的理论与方法仍有 待深入研究. 现阶段在大数据概念与应用实践中, 网 络大数据与商业大数据得到了广泛重视和快速发展.
与之相比, 科学大数据的理论研究与实践相对较少, 究其原因在于其本身具有的“3H”科学内涵.
引用格式: 郭华东, 王力哲, 陈方, 等. 科学大数据与数字地球. 科学通报, 2014, 59: 1047–1054
Guo H D, Wang L Z, Chen F, et al. Scientific big data and digital Earth (in Chinese). Chin Sci Bull (Chin Ver), 2014, 59: 1047–1054, doi: 10.1360/972013-1054
科学大数据正在使科学世界发生变化, 科学研 究 已 进 入 了 一 个 全 新 的 范 式 —— 数 据 密 集 型 科 学 范 式. 近年来, 美国国家科学基金会(National Science Foundation, United States, NSF)投入了大量资金支持 数据密集型科学计算. 其中, 由戴尔公司和德克萨斯 州立大学研发的超级计算机“Stampede”已正式服役, 其综合处理能力、高可用性和高性能能力超群. 美国 南加州地震中心利用 Stampede 预测了加州破坏性地 震的频率. 德州大学奥斯汀分校利用 Stampede, 通 过详细的数据建模更好地描述了从南极洲到海洋的 冰川流动[20].
与传统的逻辑推理研究不同, 大数据研究是对 数量巨大的数据做统计性的搜索、比较、聚类和分类 等分析归纳, 进行“相关分析”, 重点关注所谓“相关 性”, 即 2 个或 2 个以上变量的取值之间存在某种规 律性, 目的在于找出数据集里隐藏的相互关系网[19].
由此可见, 大数据时代以及大数据计算的本质 特征在于从模型驱动到数据驱动范式的转变以及数 据密集型科学方法的确立. 人类社会对自然界的认 知从观测模式与实验科学到 17 世纪的理论模型范式 后, 发展到 21 世纪的计算模式, 经历了上千年的演 化. 在今天的大数据时代中, 新型数据密集型科学发 现的范式被提出——不依赖或者较少依赖模型和先 验知识, 对海量数据中的关系和规律进行分析和挖 掘, 从而获得过去的科学方法所发现不了的新模式、 新知识甚至新规律.
空防之后, 另一个大国博弈的空间. 大数据正在开启 一次重大的时代转型, 它将改变人类的生活以及理 解世界的方式[15~17].
1 科学大数据及其内涵
随着大数据时代的到来, 国内外学术界正在从 各种角度来分析和理解大数据的概念与内涵. 当前 的大数据定义主要通过两种不同的视角试图刻画大 数据的外部特征: 一种是相对特征, 即在用户可接受 的时间范围内, 使用普通设备不能获取、管理和处理 的数据集[18]; 另一种是绝对特征, 即大数据 4V 特性, 体量大(Volume)、类型多(Variety)、真实性(Veracity)、 变化速度快(Velocity)[13].
高度不确定性(High Uncertainty): 我们注意到, 科学大数据的来源一般包括对自然过程的感知和科 学实验数据的获取. 这两种数据来源的特点决定了 科学大数据普遍具有一定的误差和不完备性, 从而 导致数据的高度不确定性. 一般而言, 科学大数据应 用的学科为非人工系统, 如气候变化与地学过程. 这 样的系统由近似的机理模型来表征, 具有高度的不
关键词
大数据 科学大数据 地球科学 数字地球
19 世纪 70 年代以来, 随着第二次工业革命的爆 发, 各种新技术、新发明层出不穷, 以文字为载体的 数据量大约每 10 年翻一番; 从工业化时代进入到信 息化时代后, 信息技术革命以前所未有的方式对社 会、科技、经济变革的发展起着决定作用, 数据量以 每 3 年翻一番的速度持续增长; 近 10 年来, 随着计算 机技术和互联网的快速发展, 音频、视频、文字、图 片等半结构化、非结构化的数据大量涌现, 社交网 络、物联网、云计算被广泛应用, 使得数据存储量、 规模、种类飞速增长, 大数据时代已悄然来临[1~4]. 2012 年 12 月, 互联网数据中心(Internet Data Center, IDC)发布的“2020 年的数字宇宙”报告中指出(图 1), 数据量将以每 2 年翻一番的速度骤增. 2011 年全球被 创建和被复制的数据总量约为 1.8 ZB; 预计到 2020 年全球数据总量将达到 40 ZB, 我国拥有的全球数据 量比例由 2012 年的 13%将提升到 21%[5].
2013-09-17 收稿, 2014-01-16 接受, 2014-04-09 网络版发表 国家自然科学基金重大国际合作项目(41120114001)资助
摘要 大数据研究正发展为科技、经济、社会等各领域的关注焦点, 诸多国家已将大数据研究 上升至国家战略层面. 本文从时空角度论述了大数据的缘起、内涵与发展势态, 分析了科学大 数据成为科学研究新途径的历程——科学范式开始从模型驱动向数据驱动发生转变. 给出了 科学大数据的定义及科学大数据计算的应对策略. 进一步地论述了数字地球学科的基本理论 框架和数字地球中的数据系统, 指出了数字地球学科具有大数据的鲜明特点. 最后以“胡焕庸线” 形成机理的空间认知研究为例, 具体阐述了数字地球学科中的大数据研究的理论和方法.
百度文库
复杂性、综合性、全球性和信息与通信技术高度集成 性等诸多特点融于一身, 其研究方法也正在从单一 学科向多学科、跨学科方向转变; 从自然科学向自然 科学与社会科学的充分融合方向过渡; 从个人或者 小型科研团体向国际科学组织方向发展. 科学家不 仅通过对广泛的数据实时、动态地监测与分析来解决 难以解决或不可触及的科学问题, 更是把数据作为 科学研究的对象和工具, 基于数据来思考、设计和实 施科学研究[8].
2014 年 4 月 第 59 卷 第 12 期
大数据关系密切的数据密集型科学发现范式的确立 和广泛认可. 2010 年 2 月, Economist 杂志刊登的“Data, data everywhere” 一 文 将 大 数 据 理 念 进 一 步 深 化 [9]. 2011 年 2 月, Science 杂志推出“数据处理”专刊[10]; 同年 5 月, 麦肯锡全球研究院(McKinsey Global Institute, MGI)发布 Big Data: The Next Frontier for Innovation, Competition, and Productivity 报告[11], 标志着大数据 已成为社会科学研究热点问题之一. 2012 年 5 月, 联 合国发布大数据政务白皮书 Big Data for Development: Challenges & Opportunities[12], 标志着大数据领域的 研究计划已上升到国家战略层面; 同年 6 月, 高德纳 咨询公司(Gartner Group)提出大数据 4V 定义, 确立 了 大 数 据 研 究 的 基 础 概 念 [13]; 同 样 在 6 月 , “Next-generation Digital Earth”[14]在 Proceedings of the National Academy of Sciences 发表, 指出人类已进 入大数据时代, 这代表大数据将在新一代数字地球 发展中扮演重要角色. 2013 年 4 月, 在北京举行的第 35 届国际环境遥感大会专门召开了“大数据与数字地 球和未来地球”分会, 这标志着空间和地球科学领域 对大数据的广泛关注和认同.
高维(High Dimension): 科学大数据反映和表征 着复杂的自然和社会科学现象与关系, 而这些自然 现象或科学过程的外部表征一般具有高度数据相关 性和多重数据属性. 简言之, 科学大数据一般具有超 高数据维度[21]. 以地理信息系统中的大规模复杂社 会经济现象时空分析为例, 每个空间坐标上叠加着 各种自然地理数据、空间观测数据、社会经济与文化 数据. 这些数据相互关系极其复杂, 并且来自不同传 感器, 具有不同的时空分辨率和物理意义[22].
小范围技术实践, 最终到广泛接受并成为一个新兴 研究方向的历程. 由图 2 所示, 2008 年 9 月, Nature 杂志率先出版了“大数据”专刊[7], 表明大数据的影响 已触及自然科学、社会科学、人文科学和工程学的各 个领域. 2009 年 10 月, The Fourth Paradigm: DataIntensive Scientific Discovery[8]一书的出版, 标志着与
纵观数据的生产方式, 其在经历了以被动式为 主的运营式系统阶段和以主动式为主的用户原创内 容阶段后, 现已步入了以自动式为主的感知式系统 阶段[6]. 数据生产方式的飞跃是大数据产生的主要因 素. 与其他研究方向一样, 大数据也经历着从概念到
图 1 2006~2020 年全球数据量增长趋势
据 IDC“2020 年的数字宇宙”数据制作
特邀进展
2014 年 第 59 卷 第 12 期:1047 ~ 1054 www.scichina.com csb.scichina.com
《中国科学》杂志社
SCIENCE CHINA PRESS
科学大数据与数字地球
郭华东*, 王力哲, 陈方, 梁栋
中国科学院遥感与数字地球研究所, 北京 100094 * 联系人, E-mail: hdguo@ceode.ac.cn
1049
2014 年 4 月 第 59 卷 第 12 期
确定性[25]. 数据的不确定性与模型的不确定性给科 学大数据计算带来极大的挑战.
为了应对大数据, 尤其是科学大数据的挑战, (科学)大数据计算的可计算性及求解策略也需要进 行革命性的发展. 首先是大数据的近似性求解方法. 由于大数据体量巨大, 计算及其复杂, 因此精确求解 是无法实现的. 这时我们需要求解近似解、部分解, 来代替精确解. 在可容忍的求解精度范围内, 我们降 低求解方法的复杂度而提高大数据求解的效率是一 个 可 行 的 方 法 [26]. 其 次 是 大 数 据 的 精 简 求 解 方 法 . 基于同样的原因, 通过对大数据的稀疏表征和维度 约减, 把大数据集变为小数据集合, 从而获得大数据 求解方法. 传统的傅里叶变换和小波变换, 当前流行 的压缩感知[27,28]、字典学习[29]都是基于这样的思路.
数据是一种资源, 也是一种财富. 在大数据时代, 庞大繁杂的数据对社会、科技、经济的发展将发挥支 撑促进作用. 一些国家和国际组织已将大数据研究 提升到国家和国际重大战略层面, 这势必对未来科 技与经济发展带来深远影响. 如图 3 所示, 美国、欧 盟、澳大利亚、日本、韩国等已在国家层面开展了大 数据研究和发展计划. 2013 年 7 月习近平总书记在中 国科学院考察时指出“大数据是工业社会的‘石油’资 源. 谁掌握了数据, 谁就掌握了主动权”. 大数据已 成为信息主权的一种表现形式, 将是继边防、海防、
在科学研究数据与日俱增的今天, 我们把与科 学相关的大数据称之为科学大数据. 科学大数据将
1048
图 2 大数据发展趋势
据 Google Trend 数据制作, 数据获取时间 2013 年 8 月
特邀进展
图 3 世界不同国家大数据研究与发展热度图
据 Google Trend 数据制作, 数据获取时间 2013 年 8 月
虽然科学大数据已成为科学研究的重要途径, 数 据密集型科学范式也已逐渐被接受, 但是科学大数据 系统的机理模型及其在科学发现中的理论与方法仍有 待深入研究. 现阶段在大数据概念与应用实践中, 网 络大数据与商业大数据得到了广泛重视和快速发展.
与之相比, 科学大数据的理论研究与实践相对较少, 究其原因在于其本身具有的“3H”科学内涵.
引用格式: 郭华东, 王力哲, 陈方, 等. 科学大数据与数字地球. 科学通报, 2014, 59: 1047–1054
Guo H D, Wang L Z, Chen F, et al. Scientific big data and digital Earth (in Chinese). Chin Sci Bull (Chin Ver), 2014, 59: 1047–1054, doi: 10.1360/972013-1054
科学大数据正在使科学世界发生变化, 科学研 究 已 进 入 了 一 个 全 新 的 范 式 —— 数 据 密 集 型 科 学 范 式. 近年来, 美国国家科学基金会(National Science Foundation, United States, NSF)投入了大量资金支持 数据密集型科学计算. 其中, 由戴尔公司和德克萨斯 州立大学研发的超级计算机“Stampede”已正式服役, 其综合处理能力、高可用性和高性能能力超群. 美国 南加州地震中心利用 Stampede 预测了加州破坏性地 震的频率. 德州大学奥斯汀分校利用 Stampede, 通 过详细的数据建模更好地描述了从南极洲到海洋的 冰川流动[20].
与传统的逻辑推理研究不同, 大数据研究是对 数量巨大的数据做统计性的搜索、比较、聚类和分类 等分析归纳, 进行“相关分析”, 重点关注所谓“相关 性”, 即 2 个或 2 个以上变量的取值之间存在某种规 律性, 目的在于找出数据集里隐藏的相互关系网[19].
由此可见, 大数据时代以及大数据计算的本质 特征在于从模型驱动到数据驱动范式的转变以及数 据密集型科学方法的确立. 人类社会对自然界的认 知从观测模式与实验科学到 17 世纪的理论模型范式 后, 发展到 21 世纪的计算模式, 经历了上千年的演 化. 在今天的大数据时代中, 新型数据密集型科学发 现的范式被提出——不依赖或者较少依赖模型和先 验知识, 对海量数据中的关系和规律进行分析和挖 掘, 从而获得过去的科学方法所发现不了的新模式、 新知识甚至新规律.
空防之后, 另一个大国博弈的空间. 大数据正在开启 一次重大的时代转型, 它将改变人类的生活以及理 解世界的方式[15~17].
1 科学大数据及其内涵
随着大数据时代的到来, 国内外学术界正在从 各种角度来分析和理解大数据的概念与内涵. 当前 的大数据定义主要通过两种不同的视角试图刻画大 数据的外部特征: 一种是相对特征, 即在用户可接受 的时间范围内, 使用普通设备不能获取、管理和处理 的数据集[18]; 另一种是绝对特征, 即大数据 4V 特性, 体量大(Volume)、类型多(Variety)、真实性(Veracity)、 变化速度快(Velocity)[13].
高度不确定性(High Uncertainty): 我们注意到, 科学大数据的来源一般包括对自然过程的感知和科 学实验数据的获取. 这两种数据来源的特点决定了 科学大数据普遍具有一定的误差和不完备性, 从而 导致数据的高度不确定性. 一般而言, 科学大数据应 用的学科为非人工系统, 如气候变化与地学过程. 这 样的系统由近似的机理模型来表征, 具有高度的不
关键词
大数据 科学大数据 地球科学 数字地球
19 世纪 70 年代以来, 随着第二次工业革命的爆 发, 各种新技术、新发明层出不穷, 以文字为载体的 数据量大约每 10 年翻一番; 从工业化时代进入到信 息化时代后, 信息技术革命以前所未有的方式对社 会、科技、经济变革的发展起着决定作用, 数据量以 每 3 年翻一番的速度持续增长; 近 10 年来, 随着计算 机技术和互联网的快速发展, 音频、视频、文字、图 片等半结构化、非结构化的数据大量涌现, 社交网 络、物联网、云计算被广泛应用, 使得数据存储量、 规模、种类飞速增长, 大数据时代已悄然来临[1~4]. 2012 年 12 月, 互联网数据中心(Internet Data Center, IDC)发布的“2020 年的数字宇宙”报告中指出(图 1), 数据量将以每 2 年翻一番的速度骤增. 2011 年全球被 创建和被复制的数据总量约为 1.8 ZB; 预计到 2020 年全球数据总量将达到 40 ZB, 我国拥有的全球数据 量比例由 2012 年的 13%将提升到 21%[5].
2013-09-17 收稿, 2014-01-16 接受, 2014-04-09 网络版发表 国家自然科学基金重大国际合作项目(41120114001)资助
摘要 大数据研究正发展为科技、经济、社会等各领域的关注焦点, 诸多国家已将大数据研究 上升至国家战略层面. 本文从时空角度论述了大数据的缘起、内涵与发展势态, 分析了科学大 数据成为科学研究新途径的历程——科学范式开始从模型驱动向数据驱动发生转变. 给出了 科学大数据的定义及科学大数据计算的应对策略. 进一步地论述了数字地球学科的基本理论 框架和数字地球中的数据系统, 指出了数字地球学科具有大数据的鲜明特点. 最后以“胡焕庸线” 形成机理的空间认知研究为例, 具体阐述了数字地球学科中的大数据研究的理论和方法.
百度文库
复杂性、综合性、全球性和信息与通信技术高度集成 性等诸多特点融于一身, 其研究方法也正在从单一 学科向多学科、跨学科方向转变; 从自然科学向自然 科学与社会科学的充分融合方向过渡; 从个人或者 小型科研团体向国际科学组织方向发展. 科学家不 仅通过对广泛的数据实时、动态地监测与分析来解决 难以解决或不可触及的科学问题, 更是把数据作为 科学研究的对象和工具, 基于数据来思考、设计和实 施科学研究[8].
2014 年 4 月 第 59 卷 第 12 期
大数据关系密切的数据密集型科学发现范式的确立 和广泛认可. 2010 年 2 月, Economist 杂志刊登的“Data, data everywhere” 一 文 将 大 数 据 理 念 进 一 步 深 化 [9]. 2011 年 2 月, Science 杂志推出“数据处理”专刊[10]; 同年 5 月, 麦肯锡全球研究院(McKinsey Global Institute, MGI)发布 Big Data: The Next Frontier for Innovation, Competition, and Productivity 报告[11], 标志着大数据 已成为社会科学研究热点问题之一. 2012 年 5 月, 联 合国发布大数据政务白皮书 Big Data for Development: Challenges & Opportunities[12], 标志着大数据领域的 研究计划已上升到国家战略层面; 同年 6 月, 高德纳 咨询公司(Gartner Group)提出大数据 4V 定义, 确立 了 大 数 据 研 究 的 基 础 概 念 [13]; 同 样 在 6 月 , “Next-generation Digital Earth”[14]在 Proceedings of the National Academy of Sciences 发表, 指出人类已进 入大数据时代, 这代表大数据将在新一代数字地球 发展中扮演重要角色. 2013 年 4 月, 在北京举行的第 35 届国际环境遥感大会专门召开了“大数据与数字地 球和未来地球”分会, 这标志着空间和地球科学领域 对大数据的广泛关注和认同.
高维(High Dimension): 科学大数据反映和表征 着复杂的自然和社会科学现象与关系, 而这些自然 现象或科学过程的外部表征一般具有高度数据相关 性和多重数据属性. 简言之, 科学大数据一般具有超 高数据维度[21]. 以地理信息系统中的大规模复杂社 会经济现象时空分析为例, 每个空间坐标上叠加着 各种自然地理数据、空间观测数据、社会经济与文化 数据. 这些数据相互关系极其复杂, 并且来自不同传 感器, 具有不同的时空分辨率和物理意义[22].