大数据时代科学数据元数据的开放与共享

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据时代科学数据元数据的开放与共享

作者:满芮王健

来源:《现代情报》2016年第03期

〔摘要〕在当今大数据的时代背景下,数据已经成为各个科研领域不可缺少的元素之一,而科学数据元数据是信息资源的核心。科学数据元数据的开放与共享是各个领域都急需面对的问题,关乎国家的发展,社会经济的进步,关乎科技领域的深度。本文就大数据时代科学数据元数据的开放共享问题进行探究,为我国科学数据元数据相关的工作提供进一步的参考。

〔关键词〕大数据;科学数据;元数据;开放与共享

DOI:10.3969/j.issn.1008-0821.2016.03.006

〔中图分类号〕G322 〔文献标识码〕A 〔文章编号〕1008-0821(2016)03-0038-04

〔Abstract〕Under the background of big data,data has become one of the various research fields indispensable element,and scientific metadata is the core of information resources.Openness and sharing of scientific data metadata is all areas urgent issue,relating to the countrys development,socio-economic progress,and the depth of science and technology.This paper conducted a research on openness and sharing of scientific metadata under the big data,and provided further reference for further research.

〔Key words〕big data;scientific data;metadata;openness and sharing

随着计算机信息技术的空前发展以及科学研究对象的复杂化,产生了数以兆计的数据,可以说任何一个学科领域的数据量都可以达到上千兆。在当今大数据环境下,如何整理、储存、传递通讯以及长时间的保存这些科学数据,实现其开放共享应用,仅仅以几套先进的计算机设备是远远不够的,真正需要的,是有利于开放共享的标准规范描述科学数据元数据,合理的组织体系用以数据的使用,存储灵活方便,通信机制稳定可靠,共享机制恰当合理[1]。在此过程中,元数据的产生发挥了极其重要的作用,为越来越多的用户发掘以及再利用数据提供了可靠的依据。本文就大数据时代科学数据元数据的开放共享问题进行探究,为我国科学数据元数据的相关工作提供进一步的参考。

1 概述

11 当前信息资源概述

如今已然全面进入信息时代,核心即数据。电子商务的普及,社交网络的全面兴起,信息资源从各式各样的终端不停地涌现,一个大规模的应用数据时代已经产生于我们生活中。“大数据”3个字已经渐渐植入,大数据在各领域的重要性已得到认可,但是关于其定义却是各有

见解。“大数据”实则是一个抽象的概念,众所周知的特性是数据海量。通常状态下,大数据是指那些无法在固定时间内用计算机技术进行感知、获取、管理、处理和服务的数据。由于不同领域的专家对其关注点不同,所以对于大数据有着不同的定义方向。但恰恰是各个方向的定义帮助我们更好地理解大数据的深刻含义。

2010年Apache Hadoop组织将大数据定义为,普通的计算机软件无法在可接受的时间范围内捕捉、管理、处理的规模庞大的数据集合。在此基础上的2011年5月,世界级著名咨询机构麦肯锡公司发布了“大数据:下一个创新、竞争和生产力的前沿”,报告中对大数据的定义进行了扩充:大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集[2]。

2013年,IBM公司在中国北京召开的技术峰会,Viktor Mayer-Schnberger博士[3]提出了他所理解的大数据特征:“全体”、“混杂”、“相关”。全体的意义是需要去研究与特定对象的所有数据;混杂的意义是满足于某一明确的主干方向,而不去深究精确性;相关的意义是对数据的认识从因果转为相关的关系再去研究。

12 概念解析

121 科学数据

科学数据并不一定是完全正确或精准。举例来说,关于相关数据的质量,其中具有误差的数据作为对相关测试工具偏差的校准试验同样具有重要意义,所以说在某些方面,具有误差的数据同样是科学数据的一部分。另外,科学数据范围很广,一切具有科学性的数据都可以归属于。可随时更新,数据根据变化而变化,当其科学性消失,随之也不属于科学数据。传统的文献信息更新频次相对慢很多,目前数据量的增长,内容的变化也跟信息时代的生产和传达方式的提高达到了前所未有的水准。因为科学数据的属性具有动态性、周期性、广博性以及严密性。那究竟什么是科学数据[4]?数据是用于载荷情报的物理符号,是对客观事物的数学表示,而“科学数据”目前尚无严格定义。从科研体制来看,科学数据主要产生于假设科学中生成并与其他部分整合而成的数据。数据与科学数据的区别在于对“科学”二字的强调,也就是可以称之为科学数据的一定是有相关价值的。科学数据是人类在科技活动之中所需要的原始观测数据、实验数据、调查数据、统计研究数据以及相关联的元数据和按照需求加工的数据,具有使用价值以及科学价值。它在当今高速发展的信息时代有难以估量的潜在价值以及可开发价值。而科学数据正是大数据的内容之一,反之大数据这一宽泛的概念也必然包括科学数据以及元数据。

122 元数据

元数据还不是一个成熟且并不含有表意功能的数据。依据英文METADATA的前缀META-可知,意义在于“与…一起”。因此可以理解元数据的意义是一种信息的资源,或者是得到某种信息的一类途径。它是对数据的说明,提供的是准确理解和精确解释数据所需的信息。

相关文档
最新文档