科学数据元数据功能与内容分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 科学数据与元数据概念内涵及研究意义 科学数据是一种重要的科技信息资源,具有广 义和狭义之分。狭义上的科学数据是指人类社会活 动中经过加工处理而变得有序化并大量积累后而有 用的数据结合;广义上的科学数据是指数据、数据 1] 。通常所 生产者、开发利用的技术等要素的集合 [ 说的科学数据是指狭义上的科学数据,可以被认为 是一切内容和来源规范,数据收集方法科学合理, 且具有科学研究价值或其他使用价值的数据。科学 数据既可以作为科学研究的结果,又可以作为科学 研究的对象。随着人类科学研究活动的不断推进、 各种先进科学仪器的诞生,科学数据正以指数数量 级猛增。科学数据只有在得到很好地保存与管理, 并在实现共享的前提下,才能充分发挥其作用,实 现其价值。 在科学数据的管理与共享过程中,元数据发挥 了重要作用,为用户发现数据和再利用数据提供了 依据。元数据英文名称为 M edadata ,元数据 ( M eta data ) 被定义为 “ 关于数据的数据” ,或是描述和限 定其他数据的数据。该术语属于计算机科学领域的 专用术 语,最 早 出 现 于 美 国 航 空 与 宇 宙 航 行 局 的 “ Direction Interchange Format” ( DIF ) 《 目录交换格
Analysis on Function and Content of Scientific Metadata
ZHAO Hua,WANG Jian ( Agricultural Information Institute ,CAAS ,Beijing 100081 ,China) Abstract:M etadata which describes and explains scientific data provides convenience for the user to find and re - use da ta.This paper analyses the function and content of scientific metadata in detail,emphatically discusses users' focuses on metadata in the process of data discovery and data evaluation,meanwhile puts forward the prospects for the further improve ment and perfection of scientific metadata content. Key words:scientific data;metadata;data discovery;data discovery
方法 信 息 ( 抽样 设计、 测量方 法、 质量控制等) 结构信息 其他相 关 信 息 ( 数据引文等)
由此可见,具体领域科学数据元数据内容十分 复杂,元数据对科学数据的描述更为详细,涵盖了 数据的生产、加工、存储、发布和使用全过程。元 数据的内容涉及了科学数据集物理特性、内容、背 景、质量和存储等方面的信息,物理特性包括数据 集的作者、大小、维护信息、访问限制等信息,内 容信息与科学数据所属领域的本体密切相关,对背 景信息的描述向用户提供了科学数据的来源、产生 过程等方面信息,通过这些元数据内容,用户可再 生产数据。元数据对科学数据的描述角度包括一般 描述和专业描述两个方面:一般描述主要向用户提 供数据集的名称、摘要、主题、格式、版本、时间 空间等基本信息,而专业描述主要体现在对数据内 容、数据质量以及学科情境的描述上。纵观国内外 科学数据元数据标准,不难发现,科学数据元数据 的内容大致包含了科学数据的标识信息、内容信息、 人员和权利信息、技术性信息、关联信息、生命周 期信息等 6 个方面。标识信息提供了便于用户识别 数据的标识符、数据集名称、摘要、关键词、版本、 数据集状态等信息。内容信息体现为数据质量信息、 数据空间覆盖和学科语义信息等。人员和权利信息 则反映了科学数据的生产者、责任者等信息。技术 性信息包含了数据格式以及使用的参数、模型和测 量方法等信息。关联信息则是向用户提供了与数据 集有关的科学研究项目、出版物等信息。生命周期 信息是反映了数据集时间方面的信息,包括数据内 容覆盖的时间信息、数据加工处理的时间信息。 4 数据用户关注的元数据内容 由于科学数据元数据发挥的功能是多方面的, 包括数据管理、数据存储、数据发现、数据评价和 数据使用等,其中与数据用户关系最密切的功能是
2015 年第 17 期
科技管理研究 2015 No 17 Science and Technology M anagement Research
doi :10 3969 / j issn 1000 - 7695 2015 17 043
科学数据元数据功能与内容分析
赵 华,王 健
( 中国农业科学院农业信息研究所,北京 100081 )
摘要:元数据以其对科学数据的描述与解释,为用户发现数据和再利用数据提供了方便。详细分析科学数据元 数据的功能与内容,重点讨论用户在数据发现、数据评价过程中所关注的元数据内容,并对科学数据元数据内 容的改进与完善提出展望。 关键词:科学数据;元数据;数据发现;数据评价 中图分类号:G250 文献标志码:A 文章编号:1000 - 7695 ( 2015 ) 17 - 0232 - 04
Biblioteka Baidu
2 科学数据元数据的功能与作用 元数据作为描述信息资源的特征和属性的结构 化的数据,具有定位、发现、证明、评估、选择信 息资源等功能。描述科学数据的元数据,学者们对 4] 认为描述科学数 其功能有不同的认识。 Greenberg [ 据的元数据功能包含 6 个方面:资源发现和再利用、 数据互操作、元数据自动或半自动生成、连接相关 出版物和底层数据集,数据质量控制和数据安全。
标识信息和引用信息,以实现有效的查询与检索; 而且往往忽略科学数据的学科差异性,侧重于描述 科学数据的物理特征,包括数据对象的作者、大小、 维护信息和访问限制等信息,也包含了对与数据相 关的其他信息资源的描述,向用户呈现科学数据的 共性描述居多。国际上该领域最典型的元数据标准 8] ,其内容中明确规定 是 DataCite 核心元数据标准 [ 数据集标识、责任者、标题、出版单位、出版年份 这 5 项信息在任何情况下都属于元数据的必选内容, 而主题信息、贡献者、日期、资源类型、摘要、地 理位置等信息在特定条件下属于必选元数据内容; 除此之外,元数据内容还可根据需要扩展为对科学 数据集更为详细的描述。 3 2 具体研究领域的科学数据元数据内容 相比图书情报领域,具体研究领域的科学数据 元数据内容往往复杂得多。 Keith Jeffery 在他的论文 《 Data Surgery》 中提到元数据按照 3 个层次组织内 容:第一层通常是科学数据的一般描述, DC 元数据 通常正是发挥这个功能;第二层是科学情境元数据, 反映数据的多方面属性;第三层的描述粒度更多, 10 ] 也涵盖了科学数据更为详细的信息。 Ball [ 认为科 学数据元数据应至少包含 5 类信息:标识信息,包 括数据集标识信息和元数据标识信息两类,反映数 据集和元数据的名称、时间日期、版本等方面的信 息;责任信息,与数据集有关的研究或是项目方面 的信息,包括项目承担机构、联系方式等,此外还 包括数据集访问限制、使用限制等方面的信息;数 据存档信息,提供数据存储的位置、存储格式和存 储介质、数据大小、质量、数据预览、数据集语言、 数据集状态等信息;主题覆盖和派生信息,这部分 信息涵盖内容较多,包含数 据 集 类 型、主 题 / 关键 词、摘要描述、数据产生过程中的参数、数据采集 方法及仪器设备描述、数据处理过程和所采用的软 件、数据集有关联的其他数据集、数据集派生的信 息 ( 如与数据集有关的出版物等) ;时间、空间覆 盖信息,这部分信息在许多元数据标准中必不可少。 各个学科领域的数据有着不同的特征,元数据 对科学数据的描述中需要体现出数据的特有属性, 如地理空间数据的属性需要从标识信息、数据质量 信息、空间数据组织信息、空间参照信息、实体和 属性信息、数据分发信息和元数据参考信息这 7 个 11] 方面来反映 [ ,这些内容也正是描述地理空间数据 的代表性元数据标准 FGDC 的内容组成。除地理科 学领域外,生物多样性领域的元数据标准有 Darwin 12 ] 13 ] core [ ,生态学领域的元数据标准有 XM L[ ,气象 [ 14 ] 科学领域的元数据标准有 CF ,此外还有专门描 15 ] ,详细内容如 述社会科学数据的元数据标准 DDI [ 表 1 所示。
2] 。国际标准化组织 ( ISO ) 认为元数 式》 手册中 [ 据是关于数据内容、质量、条件状态和其它特征的 描述。实际上元数据起源于图书馆领域,早期图书 馆的书目记录就是一种元数据。随着元数据应用范 围的扩大,元数据逐渐成为了描述资源的一种工具, 广泛应用于各个领域。用于描述科学数据的元数据 称之为科学数据元数据,它对科学数据外部形式和 内部特征的进行了详细描述,为科学数据共享提供 信息。其主要目标是提供科学数据资源的全面指南, 以便用户对数据资源进行准确、高效与充分的开发 3] 。本文主要对科学数据元数据的功能和内 与利用 [ 容进行探讨,详细分析了用户在发现数据、评价数 据过程中对元数据的关注点,对如何完善科学数据 元数据内容以更好地发挥数据评价的功能提出展望。
收稿日期:2014 - 07 - 21 ,修回日期:2014 - 10 - 27 项目来源:中国农业科学院科技创新工程项目 “ 农业系统智能控制与虚拟技术团队” ( CAAS - ASTIP - 2015 - AII - 03 )
赵 华等:科学数据元数据功能与内容分析
5] Jian Qin 等 [ 把科学数据的用户任务分为几类:一般 任务 ( 数据发现、识别、选择和获取) ,科学任务 ( 数据审核、数据分析) ,数据任务 ( 管理、存档) , 传播任务 ( 发布,引用) ;在此基础上总结科学数 据元数据功能包含 4 个方面:数据管理、数据质量 控制、数据再利用、数据发现,其中数据管理是其 他功能的基础。 对科学数据元数据功能的认识,图书馆领域与 具体学科研究领域存在着差异。图书情报领域把科 学数据视为一类特殊的信息资源进行组织与管理, 关注的是科学数据的标识和引用信息,认为元数据 主要向用户提供科学数据的一些基本属性的描述, 目的是方便用户检索数据,并最终发现所需的研究 数据。而在具体的研究领域,科学数据元数据的功 能已经不仅仅局限于对资源的简单描述或索引,其 实现的功能已经发生变化,除了承担描述、定位、 搜索、评价和选择资源的作用外,还承担着管理科 学数据、维护数据安全和控制数据质量的功能。因 此,科学数据元数据的功能可以总结为描述数据、 发现数据、评价数据、管理数据、存储数据、使用 数据,科学数据元数据最终目的是服务于科学数据 共享。 针对不同的对象,科学数据元数据发挥的作用 6- 7] :对于数据用户而言,元数据是他们正 也不同 [ 确选择、使用、交换数据的不可缺少的工具。元数 据通过对数据资源的内容、分类、质量和存储等的 详细描述,回答了用户的一系列问题:有什么数据? 数据怎么样?如何获取数据?怎么使用数据?对于 数据管理者而言,元数据方便了他们集成各种数据 库,为数据集 ( 或库) 建立目录,更有效地管理并 维护海量数据。对于数据生产者而言,元数据的存 在方便了数据的生产、加工和更新,并可以使数据 归档更高效,使数据成为了有生命力的资源,不必 担心随着时间或者人员的变化而影响到数据的生产, 数据的增值具有了持久性。科学数据元数据的最大 用户是科研人员,元数据是他们发现数据、评价数 据和使用数据的不可或缺的工具。
23 4
赵 华等:科学数据元数据功能与内容分析 表 1 具体领域科学数据元数据标准内容
Darwin FGDC 标准 Core 标准 标识信息 数据质量 信息 空间数据 组织信息 空间参照 系统信息 实体和属 性信息 分发信息 元数据参 考信息 标识信息
EM L 标准 基本 信 息 ( 关键 词、 摘要责任 者、 使用限制等) 地理信息 时间信息 分类信息
CF 标准
DDI 标准
维度描述 ( 时间、 文档描述 信息 空间、 数量等) 变量描述 坐标描述 数据描述 研究描述 信息 数据文件 描述 变量描述 信息 其他相关材 料描述信息 整体属性描述( 数 据集标题、 责任机 构、 数 据 来 源、 参 考 信 息、 加工历 史、 评论信息等)
事件信息 生物发现 信息 生物分类 信息 地质环境 信息 位置信息 资源关系 信息 参考信息
23 3
3 科学数据元数据内容分析 科学界普遍认为,描述科学数据的元数据越丰 富,越有利于用户发现并再利用科学数据。但在实 际应用中,科学数据元数据的内容决定于元数据所 发挥的功能,元数据对科学数据描述的程度不同。 3 1 图书情报领域科学数据元数据内容 图书情报领域和具体研究领域对科学数据元数 据的认识存在不同之处。图书情报领域侧重于科学 数据的发现与检索,科学数据元数据内容沿用了其 他信息资源元数据的内容,偏重于提供数据资源内 容方面的信息,主要关注于向用户提供科学数据的