中外科学数据引用标准与规范的比较研究-毕业论文

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

---文档均为word文档,下载后可直接编辑使用亦可打印---
摘要】本文分析国内外科学数据引用规范的研究与发展现状,通过对国内外科学数据相关机构所制定的科学数据引用规范的比较,对我国新发布的《信息技术科学数据引用》国家标准进行解读,得出其具有详细的引用元素描述方法和特殊的唯一标识符等特点,并对国家标准实施过程中可能出现的数据引用意识缺失、数据引用规范间不兼容等问题进行预警以及尝试提出解决方案。

【关键词】科学数据;数据引用;引用规范
Abstract:This article analyzes the research and development status of domestic and international scientific data citation specifications. Through comparing the scientific data citation specifications developed by relevant domestic and international scientific data organizations, it interprets the newly published national standards of “Information technology—Scientific data citation” in China. It has features such as detailed citing element description methods and special unique identifiers. It also provides early warning to issues such as the lack of awareness of data citation and incompatibility between data citation standards during the implementation of national standards and attempts to propose solutions.
Key words: scientific data; data citation; standards
1
0 引言
科学数据是人类社科活动中产生的基本数据、资料,还有按需求进行处理的数据产品和相关信息,具有潜在价值和可开发价值,可在应用过程中实现增值,科学数据是科技创新的驱动资源,是信息时代传播最迅速、影响面最广泛、开发利用潜力最大的科技资源。

随着时代的发展,国际信息技术发展水平也有了提高,学界的数据密集型研究,即为科学研究的第四范式,对科学数据的依赖性也有了显著增强,科学数据能够驱动未来的科研工作及科技创新,支撑着各类科学研究的发展。

越来越多的学者认识到,具有极高的科研价值的科学数据,它与公开发表的文献资料一样具有很高的引用价值。

所以,科学数据的引用与评价需要规范化。

正如研究者一般会为研究成果附上参考文献一样,科学数据引用(data citation)就是利用特定的标识技术和机制,描述所利用的科学数据,确定并对数据来源进行标识,在一定程度上能够保护引用数据的知识产权,并方便人们统计和分析数据的引用情况[1]。

规范引用科学数据,对于推进科学数据共享和再利用非常重要。

这不仅是对数据创建者的尊重,而且能够重复验证科研成果,并对引用数据的获取与重复利用有重要意义。

为了规范科研人员的科学数据引用行为,国内外众多学术机构制定了不同的科学数据引用规范,为我国科学数据引用标准与规范的制定提供了参考。

因此,《信息技术科学数据引用》(GB/T 35294-2017)[2]应运而生。

此规范由中国科学院计算机网络信息中心主持研制,于2017年12月29日正式发布,将于2018年7月1日起正式实施。

它规定了科学数据引用元素描述方法、引用元素详细说明、引用格式等方面的内容,适用于科学数据传播机构、数据使用者等。

其中,科学数据传播机构可以根据该标准设计数据引用系统,并声明数据引用规则;数据使用者可以根据该标准著录科学数据引用信息。

大数据时代,数据已经成为创新发展的重要驱动力,《科学数据引用》国家标准的正式发布,标志着科学数据能够像学术论文一样被学术同行标准化引用,将在一定程度上促进数据创建者共享其数据。

本文将立足于国内外科学数据引用规范的发展现状,对比中外科学数据引用标准与规范在科学数据引用对象、引用元素、引用格式、标识符等方面的差异,来解读《科学数据引用》国家标准,并对国家标准实施过程中可能出现的问题尝试提出解决方案。

1科学数据引用规范的发展现状
不同的学术机构所制定或选用的科学数据引用规范都不相同,国内外众多学术机构都制定了不同的科学数据引用规范。

例如,DataCite是一个国际性的非营利性组织,致力于提高数据引用水平以便于更方便的数据获取与数据引用,其制定的科学数据引用规范明确地提出了科学数据的引用元素与引用格式的规范化要求,对不同主体制定、选用科学数据引用规范具有极大帮助与借鉴意义。

同时,为顺应发展需求,DataCite 不断更新其规范版本,目前该规范已更新至4.1版[3]。

经济合作与发展组织(OECD)于2009年发布数据出版标准白皮书,并在2010年2月将其更新为第2版,该规范对科学数据集及数据表的引用和管理标准做出了详细描述[4]。

英国数据管理中心(Digital Curation Centre,DCC)是国际认可的专业的数字化管理中心,致力于为科研机构在存储、管理、保护与共享科学数据等方面提供专业建议与实际帮助,它于2015年7月30日发布的《How to Cite Datasets and Link to Publications》声明了科学数据的引用原则,并从科研人员和科学数据仓储两个方面来研究科学数据引用,分别对科学数据引用元素、引用格式、引用粒度等方面做出了规范要求[5]。

即使不同机构所制定的科学数据引用规范在内容上都有所差别,但它们大多支持和认可由FORCE11 Data Citation Synthesis Group合作制定的《Joint Declaration of Data Citation Principles - FINAL》[6],即《数据引用原则联合声明》,此原则已被261个个人和117个组织机构支持和采纳。

此原则从数据引用的重要性、奖励和贡献、唯一标识、可获取等8个方面概括了科学数据引用的目的、功能和性质。

这一原则虽然不包括具体实施的建议,但是对各个科学数据研究机构制定引用规范、开发引用工具、实现科学数据共享与利用具有重要指导意义。

国内外关于科学数据引用规范的理论研究也已经经历了较长时间的发展。

2007年Altman等学者的论文是较早探索科学数据引用规范的文章,该学者提出定量数据引用规范包括作者、出版时间、名称、唯一标识符、通用数字指纹以及统一资源定位符等6项必备元素及其他可选元素,并且对科学数据的粒度问题即“深度引用”做出了讨论[7],对之后的相关理论与实践研究产生重要影响。

之后Altman又在其2013年发表的论文中回顾了数据引用标准与实践的发展以及通过合作综合制定的数据引用的核心原则,并通过分析一个实例的实施状态揭示科学数据引用规范在实施过程中
将面临的挑战[8]。

近年来,国内关于科学数据引用规范的研究也逐渐增多。

张静蓓等学者对国外科学数据引用规范在理论与实践上的研究与发展现状进行了总结,揭示科学数据引用在共享和引用意识、引用对象、长期保存等方面存在的问题,并对引用力度、数据版本以及唯一标识符分配上的问题提出了一点思考[9-10];黄如花等学者调研了国外科学数据研究机构所制定的科学数据引用规范,比较了它们在科学数据引用原则、引用元素、引用格式、引用对象及相关主体等方面的差异,旨在借鉴国外培养数据引用文化、提升数据引用和数据共享水平的经验,启发我国相关机构制定更加完善的科学数据引用规范[11]。

邸弘阳等学者从现有国外相关科学数据引用规范的内容特征着手,分析它们在引用对象、引用元素、引用格式、标识符等方面的特点,发现存在明显不同[12]。

2 国家标准与国内外现行其他科学数据引用规范的差异性研究
本文以国外相关机构所制定的科学数据引用规范为研究对象,从科学数据引用对象、引用元素、引用格式与科学数据引用的标识符等方面,比较《科学数据引用》国家标准与国外其他科学数据引用规范的差别,分析《科学数据引用》国家标准的特点。

国外科学数据引用规范一般包括科学数据引用原则、引用对象、引用元素、引用格式这几部分。

它们大多遵循上文提及的《数据引用原则联合声明》,并在此原则指导下制定;科学数据引用对象都是数据集,但不同的规范对数据集的范围要求不尽相同;在引用元素的数量与重要程度、引用格式上都大有不同,而我国的《科学数据引用》国家标准内容相对简略,对科学数据引用的元素、格式提出了明确的规范要求。

2.1 科学数据引用规范的基本信息
本文选取的科学数据引用规范包括:DataCite[3]、DCC[5]、OECD[4]等机构制定的科学数据引用规范以及中国《科学数据引用》国家标准,它们的基本信息如表1所示。

表1各机构科学数据引用规范基本信息
2.2 科学数据引用对象
以上三份国外科学数据引用规范都明确规定了数据引用的对象是数据集。

DataCite的数据引用对象是广义的数据集,它不仅包括数值型数据,还包括其他各种类型的数据。

并且特别提及需要注意动态数据集的引用,提出了4种对动态更新的数据集的引用方法:(1)引用特定的部分或子集(在特定时间段或数据集的特定区域中对数据集的更新集);(2)引用特定的“快照”(在特定时间生成的整个数据集的副本);(3)引用不断更新的数据集,但要在引用中添加访问日期和时间;(4)引用一个用于对版本数据库进行重新执行的时间戳的查询。

其中第一、第二和第四种方法需要唯一的标识符,而第三种将导致无法访问引用行为发生时的数据,这就限制了使用这种引用方式的文章的可验证性和可复制性。

此外,第四种方法可以将存储所有查询的数据库版本的工作转移到存储库来,因此并非所有的存储库都能够支持这种选择。

DCC规定的数据引用对象也是数据集,并且认为相比于出版物的数据引用粒度,数据集的问题更加复杂,因为数据集的组成可以不断细分直至细分为很小的数据点,并且其界限比较模糊;如果是引用未发布过的数据集,那原则就是在参考文献中提供与已知信息有关的信息,这应该包括该数据集的创建者和标题;如果数据集尚未存入,则应包含收集日期。

如果数据集已被保存,但在线记录尚未可用,则可以按照出版的情况添加日期和仓储,一旦在线记录可获取,就可以给出完整的引用。

在数据访问语句中,应详细说明数据集的状态(无论是保存的、禁运的、限制的或公开可用的)与
尚未出版的手稿的引用一样,作者应该在发布之前重新访问未发布的数据,以确保信息尽可能地更新。

OECD所制定的规范规定引用对象由动态数据集、静态表格和元数据三部分组成。

如上文提及过的,引用动态更新的科学数据集合将导致无法获取引用行为发生时的数据。

但是科学数据集合的变化是可以通过描述科学数据自身的元数据详细记录。

同时,OECD将应用一个独特的DOI来链接到每个数据集的主页,无论是否动态,通过发布元数据来提示用户数据集的动态性质。

数据更新的详细信息将在相关的统计元数据中找到。

对于静态表格的引用,由于许多表是按月度、季度或年度更新的,OECD为这些“系列”或“集合”创建“系列”元数据,这意味着读者可以引用一个特定的表格“版本”,DOI链接将把读者带到该版本的主页上的链接为读者提供了点击“前进”到最新版本选项,还将提供以前版本的反向链接。

然而我国《科学数据引用》国家标准并没有对科学数据引用对象做出具体界定和描述,也没有给出科学数据的定义。

而在2018年3月国务院办公厅下发的《科学数据管理办法》中,对科学数据做出如下定义:科学数据主要包含在自然科学、工程技术科学等研究范围内,经过基础研究、应用研究、实验开发等生成的数据,以及通过观测监测、考察调查、检验检测等方法获得并用于科学研究过程的原始数据及其衍生数据[13]。

因此,我们认为国家标准规定的科学数据引用对象应该也是数据集。

2.3 科学数据引用元素
科学数据引用元素是用来描述科学数据集的数据项,它是所有科学数据引用规范不可缺少的部分。

各研究对象所规定的科学数据引用元素如表2所示。

表2 各机构引用元素一览
由上表可以看出,以上规范在科学数据引用核心元素上要求不同,但至少都包含5个元素,即作者(数据集的创建者)、名称(数据集的名称)、出版机构(保存、出版、发布或生产科学数据资源的机构)、创建时间(数据集产生的日期)、唯一标识符(能够唯一标识某个实体的字符串)。

可选元素的要求在各个规范中也有较大差别,但是相同的是都要求尽可能完善所引用数据的相关信息,可选元素通常有:解析地址、版本、资源类型等。

2.4 科学数据引用格式
科学数据引用格式是引用科学数据时引用元素的排列顺序与结构,就如同引用参考文献有其固定的格式一样,研究者在引用科学数据时也必须遵循规范化的引用格式。

各个规范规定的引用格式如表3所示。

表3 各个规范引用格式一览表
由上表可知,以上规范的数据引用格式有很大差别,在引用元素的排列顺序与排列结构上各不相同,但通常都以作者为开始,以标识符元素结束,各引用元素之间用英文符号“.”间隔。

2.5 科学数据引用的标识符
《数据引用原则联合声明》明确提出:数据引用应该包括一个唯一识别符,它是机器可读的,全球唯一的,并且是被学界广泛使用的[6]。

在科学数据中,目前最普遍运用的标识符是DOI。

DOI可以唯一标识任意数字对象,即使数字对象的网络位置发生变化,其DOI 也保持不变。

DOI是由一个字符串组成的,包括前缀、后缀两部分,中间用“/”隔开,并且前缀以“.”再分为两部分。

前缀由国际数字对象识别号基金会确定,后缀部分由资源发布者自行指定,用于区分一个单独的数字资料,使其具有唯一性。

而我国国家标准推荐采用对象标识符(Object Identifier,OID)作为唯一标识,若要用STRI、DOI等其他技术进行标识,只要是按照国家标准或国际标准依然可以使用。

OID是由ISO/IEC、ITU联合提出的标识机制,OID标识方案为分层、树状结构,不同层次之间用“.”分隔,层数无限制。

用来对所有类型的对象进行全球无歧义、
唯一命名。

2.6 小结
通过《科学数据引用》国家标准与国外三种重要的科学数据引用规范的比较,我们不难发现,科学数据动态更新快、不确定性强、界限模糊,因而科学数据引用规范目前在数据集的深度引用和动态数据集的引用等方面还面临着诸多挑战。

此外,科学数据自身非常复杂,各个机构制定或选用的科学数据引用规范各不相同,如何兼容各种引用规范也值得思考。

3 《科学数据引用》国家标准的特点
与国外各机构的科学数据引用规范相比,我国《科学数据引用》国家标准篇幅较短,并未如DDC的规范文件一般对数据引用的原因、原则以及实例做详细阐述,但也可以算是“麻雀虽小,五脏俱全”,也有着其自身的特点。

3.1 关于唯一标识符的通用要求体现了数据引用原则
《科学数据引用》国家标准虽未在正文中提及“科学数据引用原则”,但其规定唯一标识符应能够满足以下通用要求:无歧义地标识一条数据;具备唯一性;分层的架构体系,标识机制灵活、可扩展;具有解析系统的支持,该系统通过解析唯一标识符定位到所标识的数据资源;应具备自主可控的解析技术,能够实现我国信息资源的自我管理;宜对唯一标识首先解析到数据的元数据,而不是直接解析到数据实体。

元数据中包括该条数据的描述信息以及访问数据实体的链接地址,方便用户判断数据价值而再进一步访问数据。

这一要求正是国际广泛认可的《科数据引用原则联合声明》的体现。

3.2 引用元素分为必备元素、条件必备元素与可选元素
《科学数据引用》国家标准将数据引用元素分为必备元素、条件必备元素与可选
元素三类,必备元素包括作者、名称、创建时间、传播时间和唯一标识符,条件必备元素包括创建机构和传播机构,可选元素包括解析地址与版本。

关于两个条件必备元素,本标准在它们的元素注释中做出了详细解释:创建机构一般是作者所属的机构,如果作者隶属于某机构,则创建机构必备,如果数据被个人创建,不属于某机构,创建机构就为空;传播机构是指科学数据从哪里取得,如果数据通过机构传播,那么它是必备字段,如果数据通过个体传播,传播机构就为空。

条件必备元素的设置让数据引用更加灵活,若该元素存在则必须具备,若该元素不存在也不必勉强,不同于必备元素必须具备:若缺失则无法获取准确的引用信息;也不同于可选元素即使存在也可不具备:若缺失不影响引用信息的准确性但描述不够完整。

3.3 通常采用OID进行唯一标识
与其他科学数据引用规范广泛采用的DOI标识符不同的是,《科学数据引用》国家标准建议采用OID进行唯一标识。

与其他标识机制相比,其优点有:(1)采用分层结构,灵活、可扩展性强;(2)可用于多种编码机制之间映射的元标识;(3)能够用于多种对象的标识。

并因此产生了两种科学数据的引用格式:科学数据通用引用格式和基于OID的科学数据引用方式,且两者可以相互转换。

(1)标准规定的通用引用格式为:
作者.名称(版本).创建机构[创建机构],创建时间.传播机构[传播机构],传播时间,唯一标识符;解析地址.
示例:
中国科学院华南植物园.中国热带亚热带植物学基础数据库(V2).中国科学院华南植物园[创建机构],2004.中国科学院计算机网络信息中心[传播机构],2014-12-03.csdb:cn.csdb.tbotany.www;/csdb:cn.csdb.tbotany.ww w.
(2)基于OID的科学数据引用方式
基于OID的科学数据的OID标识符组成如下:
其中,科学数据OID标识前缀由科学数据主管部门向国家OID注册中心申请获
得,用于进行我国科学数据领域各类数字对象的唯一OID标识注册。

出版厂商代码由各出版厂商向科学数据主管部门申请获得,用于唯一标识该科学数据的运营责任主体。

该代码应由英文26个字母、10个阿拉伯数字或者符号“-”组成。

科学数据唯一代码为各运营责任主体对所管辖的各类数据资源所进行的唯一标识。

该代码应由英文26个字母、10个阿拉伯数字、符号“-”或者“.”组成。

示例:
以(1)的示例为例,采用OID标识方式,其科学数据唯一代码为“cn.csdb.tbotany.www”,则该科学数据所对应的唯一OID标识符为 1.2.156.X.Y. cn.csdb.tbotany.www。

该科学数据所在的解析服务器地址为,依据GB/T 35299-2017,则可得到该科学数据规范的访问地址为/oid/.xml(其中X 为科学数据领域代码,Y为该出版厂商代码)。

4 《科学数据引用》国家标准推行实施策略
国家标准虽然已经发布,但其实施的过程还是会存在诸多问题。

例如,有些科研人员缺乏数据引用意识,在引用数据时不添加标识;有些科研人员对国家标准的重视程度不够,不能自觉采用国家标准进行科学数据引用;缺乏相应的数据引用管理工具,引用过程无法实现便捷化和智能化等等。

因此,若想有效推行《科学数据引用》国家标准,就要着力解决以上问题,可以从政策规范、科学技术、奖励机制这三方面着手。

4.1 加强政策法规的引导
国务院办公厅发布的《科学数据管理办法》中,第二十三条明确规定:科学数据使用者应遵守知识产权相关规定,在论文发表、专利申请、专著出版等工作中注明所使用和参考引用的科学数据[13]。

同时辅助以《科学数据引用》国家标准,将对引用科学数据的研究人员起到一定的约束和规范作用。

在《办法》的指导下,所涉及到的各个相关机构应严格执行相关规定,倡导科研人员认可和使用国家标准,自觉按照标准进行科学数据的引用,对必须共享的数据实现开放获取,以促进数据资源在机构内和
机构间实现共享和引用。

但是,最为重要的还是需要相关法律法规的支撑。

科学数据完全应该纳入版权法律的保护范围,我国的知识产权法应对科学数据的引用做出明确的要求,并对非法使用科学数据采取惩罚措施,打击科学数据引用方面的学术不端问题,营造一个良好的数据共享和引用的大环境。

在此基础上,《科学数据引用》国家标准才能更顺利地实施,更好的用于科学数据引用,提高科学数据引用的规范化水平。

4.2 加快科学数据引用奖励机制的制定
应该将科学数据引用纳入科研评价体系中,这不仅有助于激发数据创建者的研究热情,而且有助于科研人员提升科学数据引用意识。

数据引用意识的缺失在主观上对科学数据的共享与引用有极大的影响,将会导致数据创建者不愿意共享自己的研究成果以及数据使用者的学术失范行为。

数据创建者发布了自己的研究数据,其他研究人员在科研活动中使用了该数据却不加以引用,就相当于引用了某篇文献资料却没有在参考文献中说明,这是对数据创建者的不尊重,也是一种学术失范行为。

数据创建者付出了劳动却没有得到应有的尊重,研究成果被使用却没有获得相应的报酬,这将极大的打击数据创建者的研究积极性。

因此相关机构应制定合理的数据引用评价机制,完善合理的科学数据引用报偿体系,要求研究人员使用国家标准,按照国家标准提交引用资料。

就如同通过引文分析可以确定核心作者、核心期刊,确定某个学者在学界的学科影响力等,是重要的学术评价方法,其分析结果是极为重要的科研评价指标。

那么也可以通过数据引用分析,确定某个数据创建者或某个数据机构的贡献程度,确定其在学界的数据影响力,以此为依据对有突出贡献的研究人员或研究机构做出奖励,体现对其学术贡献的认可,以此激发科研人员的研究热情,促进新成果的产生和数据共享的发展。

将数据影响力作为一个评价科研人员学术水平的指标纳入科研评价体系,也有利于督促科研人员按标准引用科学数据和监督他人按标准引用自己创建的数据,从而推进科学数据引用常态化、规范化的发展。

4.3 促进科学数据引用管理工具的开发
目前,几乎是没有专门为科学数据引用服务的管理工具,科研人员进行科学数据引用的方式只能是手动标识,即科研工作者需要在科研活动中收集整理所引用的科学。

相关文档
最新文档