科学数据共享关键问题探索

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第26卷第5期
2007年9月地理科学进展PROGRESSINGEOGRAPHYVol.26,No.5Sept.,2007
收稿日期:2007-06;修订日期:2007-07.
基金项目:国家科技基础条件平台,地球系统科学数据共享网(2006DKA32300)。

作者简介:刘润达,男(1980-),河南许昌人,博士生。

研究方向:科学数据共享,网络信息资源整合技术等。

科学数据共享关键问题探索
———以地球系统科学数据共享网为例
刘润达1,2,诸云强1
(1.中国科学院地理科学与资源研究所,北京100101;2.中国科学院研究生院,北京100039)
摘要:作为科学基础设施,科学数据共享平台建设可促进科技原始性创新,提高国家科技竞争
能力。

本文回顾我国近年推动科学数据共享方面的工作,指出科学数据共享实施过程中所遇到的
主要问题;针对这些问题,在共享理念、数据资源整合和平台建设三个方面探索科学数据共享今
后发展的重点和工作方法。

具体结合地球系统科学数据共享网建设实践,提出搭建科学数据交换
平台,构建科学数据共享联盟;将科学数据共享与科研项目相结合,实行主动服务;建立强大的科
学数据搜索引擎;重视文档、信息服务等。

关键词:数据共享;科学数据;数据联盟;数据中介
1引言
科学数据作为现代科学可持续发展的重要资源,与科技创新是密不可分的[1]。

为促进科学数据资源的共享和交换,许多发达国家和国际组织都开展了一系列的基于计算机网络的科学数据共享的研究和实践,目的是将长期积累的科学数据为本国以及全球的可持续发展等研究提供数据支撑服务。

例如世界数据中心(WDC,WorldDataCenter)等国际组织的成立,在世界范围内进行科学数据共享的工作[2,3];美国及欧洲的一些发达国家建立了国家级科学数据中心群和数据共享服务网络[4 ̄6],如NASA主持的DAACs,全球变化数据和信息系统,全球变化主目录(GCMD)等。

我国自上世纪80年代起就开始在多个层面上推动科学数据的共享。

1982年,中国科学院提出了“科学数据库及其信息系统”建设项目,经过20多年的发展已经成为综合性的科学信息服务系统;1989年,中国科学院联合有关部门和科研机构,组建了世界数据中心中国中心(WDC-D)和国际科技数据委员会中国委员会;1999年,科技部在科技基础性工作专项中陆续启动了一批数据资源建设,同时还就数据共享中的若干技术问题委托WDC-D开展研究;2001年,科技部主持完成了《实施科学数据共享工程,增强国家科技创新能力》的调研报告,对我国目前科学数据共享存在的主要问题和可能解决的办法等一系列问题进行了详细的调查研究。

同年年底,科技部和中国气象局联合召开新闻发布会,宣布气象数据共享试点正式启动,从而在国家层面上,翻开了我国科学数据共享新的一页;2002年6月,科技部向国务院提出了关于启动科技基础条件平台建设的建议,把建立科
1195期刘润达等:科学数据共享关键问题探索——
—以地球系统科学数据共享网为例
学数据共享机制作为增强原始性创新能力的重要环节;2003年,科学数据共享工程3个数据网(可持续发展科学数据共享网、地球系统科学数据共享网、医药卫生科学数据共享网)和6个数据中心(气象科学数据中心、测绘科学数据中心、林业科学数据中心、地震科学数据中心、水文水资源科学数据中心、农业科学数据中心)试点工作全面启动[7]。

经过20年共享活动的开展,我国整个科学数据共享工作取得了一系列的成果:科学数据共享理念逐渐普及,人们已经意识到科学数据共享的深远意义及其重要性;整合集成了一批分散的数据资源,特别是抢救了一批珍贵的数据资源;为国家重大战略需求、科研计划、高等教育和生产应用提供了很好的数据支撑等。

然而,与发达国家相比,我国科学数据共享仍然处在较低的发展阶段,还普遍存在一些突出问题:
1)共享理念还不普及:目前我国的科学数据共享主要是政府行为,大部分的数据共享活动是通过政府投资、项目驱动的形式进行,经常出现科学家“各自为战”,科学研究项目“各项目组为战”的情况[8]。

对于数据共享的重要性认识不充分,主动汇交共享科学数据的研究单位和个人还比较少。

2)共享机制不健全:虽然目前有些行业和部门已经出台有关数据共享的政策和条例,鼓励和推动行业或部门数据的共享。

然而,这些政策和条例都有这样或那样的限制,很多数据库只能限于部门和行业内部使用。

同时,国家层面完善的共享机制并未形成。

到目前为此,尚未形成完全开放的数据共享局面。

3)共享平台和技术规范发展慢:数据共享的技术标准与国外主流平台兼容性差,数据交换和汇交存在障碍;平台功能与用户群体需求不匹配,造成一些亟需的科学数据资源依然不能依赖互联网方便获取。

4)数据共享服务效果不明显:长期以来各单位数据资源本身并不规范,短时间内对汇交的数据进行规范化整合很困难,出现元数据或原始数据很多,真正有价值、高质量的能为用户直接使用的数据产品并不多。

另外,由于缺乏配套的数据使用文档、数据来源及处理说明,用户很难放心地去使用这些数据。

因此,从总体上看,数据共享服务效果并不明显。

科学数据共享作为国家的科学基础设施,其发展不是一项短期行为,其目标应该是实现科学数据资源的开放与共用[9],需要科学界广大工作者长时间共同努力才能实现。

本文针对当前科学数据共享中存在的问题,结合地球系统科学数据共享网*(以下简称共享网)五年的建设实践,深入剖析和探索我国当前科学数据共享网和科学数据中心所要关注的问题。

2科学数据共享理念
2.1倡导共建、共享,构建科学数据共享联盟
据了解,目前许多国家都是在以政府行为来推动数据和信息的共享[10],然而政府单方面的力量毕竟有限,开放和共用的数据共享环境需要研究院所、高等院校、企业、科学界的共同主动参与;另一方面,以数据信息为基础的经济、社会、科学发展中,没有哪一个部门能够拥有科研活动需要的所有数据产品;因此,实践中,只有联合开发,联网发布,构建科学数据共享联盟,才能提升数据的价值,创造更多的财富。

*www.geodata.cn
120
地理科学进展26卷以地学领域的科学数据共享为例,近年来,对地球系统的整体性研究已经成为人类社会可持续发展的科学支柱[11]。

然而,对数据资源使用情况的调查发现,地球系统是一个巨系统,地学数据具有分散性和异构性的特点,研究人员在对它的研究过程中往往需要来自多家数据生产部门的不同区域、不同时期、不同尺度、不同学科的数据资源。

仅仅依靠一个数据中心、机构掌握的数据资源很难满足研究人员的需求。

因此,地球系统科学数据共享网在实践过程中,不是只靠一家单位或机构的力量来进行数据资源建设,而是倡导共建、共享,构建科学数据共享联盟的理念。

通过这一理念,联合全国各个数据资源生产、存档、管理机构共同参与科学数据共享网的建设;引导数据集的生产者和使用者加入到共享实践当中。

实际操作中,我们通过下面的两种方式进行*(图1):1)构建了以中科院地球系统领域的科研院所、长期野外监测台站、世界数据中心为核心的数据资源保障体系;2)联盟国内高等院校、部门科研单位、国际机构以及科学家,形成一个庞大的数据资源支撑网络。

通过一系列的努力,到2007年已经有35家单位作为数据资源提供点或分中心的角色加入共享网,其中科研院所16家,高等院校8个,其他11个。

一个以地球系统科学数据共享网项目为核心的地球系统科学数据共享联盟初步形成。

在数据联盟内,采用统一的技术标准与软件,开发的平台软件已经在加盟单位部署并运行,实现了数据的发布、实时收割与一站式数据共享服务。

图1地球系统科学数据共享网数据资源保障体系
Fig.1Theorganizationstructureforcollectingdataresources
科学数据共享联盟不仅仅是数据中心以及数据拥有机构的联盟,更是科研人员的联盟。

如何在联盟内部最大限度地调动科研人员的积极性,挖掘、整合、集成分散异构的数据资源,为我国科学研究人员提供优质的数据共享服务,应当是我国科学数据共享致力探索、研究的一个问题。

*诸云强.地球系统科学数据.中国科学院地理科学与资源研究所,2007.
1215期刘润达等:科学数据共享关键问题探索——
—以地球系统科学数据共享网为例
2.2主动服务,逐步吸纳科研项目参与数据共享
科学数据共享联盟可以扩展科学数据共享的数据来源,然而,联盟内部的大部分数据中心或数据资源点来自科研院所和高等院校,完全不同于行业部门的数据共享平台。

因此,科学数据共享的建设和发展必须开辟新的数据资源整合和共享服务途径。

其中一个值得考虑的做法是通过主动服务来逐步吸纳科研项目参与数据共享。

任何花费大量资金对我们的地球进行信息采集的科研计划都不能认为是成功的[12]。

对于国家级的科研项目来说,如果最后没有对产生的数据进行有效的管理,将是一种很大的浪费,而科学数据中心或共享平台的数据来源和流向往往与具体的科研计划有着一定的关系,因此除了进行联盟共建以外,可以在数据资源整合和汇交策略上将从国家重大科研项目中获取数据资源作为一个重要的途径。

通过架起数据和数据活动参与者之间的桥梁,主动与科研人员接触,了解他们的需求,并提供数据集产品,而用户在获利以后也会主动的将自己的数据提交共享。

通过互动的方式逐步吸纳用户参与数据共享活动中来,由此建立一种良性循环机制,使得数据共享工作不断深入。

地球系统科学数据共享网在实践中,一方面,积极和当前地学领域内的科研项目联络,为他们提供数据资源的收集、处理服务,通过主动服务来推进科学数据共享的深入。

另一方面,共享网希望数据的汇交成为科学研究的一部分,科学研究项目所产生的数据都能放到共享网来提供共享。

在以往的实践中,共享网和科学研究项目的具体承担人员进行交流和合作,为他们提供科学研究所需要的数据资源,同时项目承担单位和个人也将他们的研究成果和数据提供给共享网,从而达到一个共赢的效果。

这种通过主动服务实现科研与数据生产工作相结合的方法,是科学数据共享网与一般的数据共享网络的一个很大的不同点。

在这一环节中,国家应当采取一定的措施,例如,设置科学数据汇交制度,规定凡是国家经费资助的科研项目,项目所产生的数据必须集中提交到指定的科学数据中心。

另外,共享网与数据提交方必须要相互信任,共享网必须确保数据产权人的知识产权和利益,同时项目主持人和数据提交者必须保证所提交数据的完整性和可用性。

这一切都需要通过一些指导条例和数据政策来进行保障。

通过主动为科研项目提供数据源并同时将项目产生的数据资源纳入共享网中是地球系统科学数据共享网在共享理念上的又一大突破和长期可持续发展的根本。

3数据资源建设关键问题
3.1发挥数据交换平台的作用,拓展数据资源
数据资源建设是一个数据中心或数据共享网络最根本的问题,整合数据资源是科学数据共享平台的一项基本任务。

当前的科学数据中心或科学数据共享网依托行业部门或科研单位,通过他们来组织有限的相关单位参与,主要是整合集成已有的数据资源。

这一方式大大限制了科学数据共享的广度,除这些单位外的大量数据资源并没能吸收进来,不能很好地满足用户的需求。

在科学数据集本身又在不断发展和膨胀的情况下,简单收集和组织已经不能跟上数据生产和更新的步伐。

因此,强调科学数据共享平台的数据中介和代理作用是解决上述问题的很好模式。

122
地理科学进展26卷数据中介和代理要求科学数据共享平台不仅是数据资源的生产和提供方,同时需要发挥数据导航和索引的作用。

具体地,除了数据生产和整合工作以外,要展开更大范围内本专业数据的索引工作,通过协议的方式与数据资源生产方和其他科学数据共享计划进行合作,将国内外的科学研究相关的数据进行索引,为用户迅速找到这些数据提供一个中间平台。

通过建立索引,用户可以很方便地找到需要的数据集实体或者与数据拥有者取得联系以便获取数据。

这种模式在国外早已出现,如美国地理数据网[13]和全球变化主目录[5]门户将元数据的汇交和索引当成一项很重要的部分,通过目录层次或者关键词索引,用户可以很方便地获取到其它资源站点或托管数据服务器中的数据资源。

从目前的数据生产、加工到数据导航、索引是地球系统科学共享网今后的一个主要定位和工作重心。

共享网作为一个技术支持和规划方,通过对元数据的整理、归档、规范、交换来达到导航和索引的目标。

在具体的操作过程中,不是投入巨资去帮助数据资源提供方生产数据或去买数据,而是帮助其对数据进行宣传和归档。

在发现和整理数据源的基础上,共享网帮助数据拥有方完成元数据的编制,并通过共享平台对这些元数据进行发布。

从数据导航和索引的层面,地球系统科学数据共享网的付出一定是廉价、甚至是免费地获取地学领域的元数据。

3.2建立科学的分类体系,有效整合分散的数据资源
科学数据涉及到不同来源、格式或学科的数据资源,随着导航和索引工作的开展,数据资源将更难以约束,如此多的数据资源如果不进行有效的管理,用户会很难快速地获取到这些数据资源。

对分散的科学数据进行合理的分类、分级是有效整合各类数据资源,方便用户快速获取所需数据资源的基础。

不同于简单对数据要素类和属性项的分类,共享分类体系要充分考虑用户对数据的检索和交换,分类体系必须科学、稳定。

通过分类体系有效组织数据资源的一个典型例子是全球变化主目录门户。

它对全球变化研究数据集划分了十三个基本类别,基本分类下面有子分类,每个子分类又进一步细化。

具体通过Categories、Topics、Terms和Variables四个层次对每个数据集所属的类别进行逐级划分。

到目前为止,全球变化主目录最细的一级共分出了1276个条目,每一个数据集都可能落入其中的一个或者多个分类之中。

全球变化主目录分类体系于1995年4月24日推出1.0版本以后,到现在经历了十几个年头,其间经过了多次的增补和修订使其体系更加完善,每一次重大的修订都会引起版本的升级,目前的版本号是5.3.8。

全球变化主目录门户网站的建设以这样一个比较完备的分类和标准体系为基础,很大程度上促进了数据的共享和再利用,同时,它的分类体系也被其它的一些数据共享项目和研究计划所使用。

地球系统科学学科门类复杂,数据资源格式多种多样,地球系统科学数据共享平台如果没有一个完整的分类体系将使数据的组织和检索变得复杂和难以进行。

分类体系的重要性已经被国内数据共享平台所认识到,但国内对分类体系的研究还比较薄弱,数据共享分类尚无国家标准[14]。

各个共享平台都有自己的分类和组织方式,即使是同一个数据资源,在不同的数据共享平台体系的分类中也可能被放入不同的分类,这对于有效整合数据资源很不利。

地球系统科学数据共享网分别按主体数据库、学科分类、数据格式、专题类型等对数据资源
1235期刘润达等:科学数据共享关键问题探索——
—以地球系统科学数据共享网为例
进行分类,在一定程度上促进了数据资源的组织和共享,但这些分类还不足以体现地球系统科学的特点和真正满足用户的需求。

我们也在积极地寻求和研制适合地球系统科学数据共享的科学分类体系,以便有效地整合分散数据资源。

4科学数据共享网络平台
4.1元数据汇交和数据资源托管是数据资源集成的有效手段
从体系架构上对集中式和分布式两种数据共享软件平台进行比较发现:前者要求各个数据资源点和科研项目的数据体都集中提交到一个地方,有利于平台本身的维护和运行,但提交的数据是集中化的,数据内容和格式以及元数据等各个方面的操作和管理都是由平台的数据管理人员来操作,这对于数据本身的质量控制和更新很不利。

后者则将数据本身的管理和处理工作交给了数据的生产和提供方,多数情况下,是产生数据的项目负责人。

这样,数据生产和提供方持有数据内容和格式的控制权,更有利于数据本身的维护。

但却可能由于计算机技术水平低下和网络稳定性等因素影响全网的运行。

分析当前数据生产者的两种方式:有服务能力的数据生产者和没有服务能力的数据生产者。

前者可以只向共享网汇交元数据,具体的数据还存储在本地,由本地服务器对外提供数据共享服务;而后者采用数据资源托管的方式,即将数据备份到地球系统科学数据共享网,由共享网代为提供数据共享服务。

为了更大范围地吸纳数据提供者,地球系统科学共享网将以上两种模式进行结合。

一方面,为一些单位和数据提供方提供免费的数据托管服务,让他们可以将数据、元数据汇交到一个集中的地方,这样可以节省前期的投资,节省硬件维护和网络运行费用,同时将数据的控制权交给数据提供者,例如中科院大气物理所季风亚洲项目采用的就是数据托管的方式。

另一方面,对于一些有硬件条件的机构和单位,在不影响
图2分布式地球系统科学数据共享网
Fig.2Distributedearthsystemscientificdatasharingnetwork
124
地理科学进展26卷原有的数据库模式和维护的基础上[15],建议他们建立独立的共享网站,使其能够独立对外提供数据共享服务。

共享网通过统一的软件标准和协议实现元数据的全局收割和用户的单点登录和一站式数据访问。

到目前为此,地球系统科学数据共享网已经形成了一个由一个总中心、认证中心和12家分中心构成的分布式网络体系,如图2所示。

4.2以元数据为中心的强大数据搜索服务
一个稳定、高效、友好的数据共享平台除了要实现分散、异构数据资源的整合集成外,还要能帮助用户快速通过这个平台获取到数据。

元数据是对数据进行描述和说明的数据,即关于数据的数据[16],是关于信息资源的形式、主要内容、存放位置等信息的综合,是打开多源数据资料获取、智能分析以及运算大门的钥匙[17],它在知识以及数据的共享中都占有重要的地位。

元数据指出了一种广泛适用的信息资源管理和共享策略,已经成为一种被普遍理解和认同的异地、多源数据分布式访问和共享的模式。

当前主流的信息共享平台主要是以元数据为核心实现数据的整合和搜索服务。

例如,Google的新闻搜索率先通过将各个新闻站点上的新闻内容进行抽取并整理出了全球的新闻分类,为人们迅速获取新闻提供了入口,Google所提取的就是元数据信息。

生产和创造所有的知识和信息几乎是不可能的,而通过元数据的整理而达到对这些知识和信息的归类汇总来提供搜索服务则是一件相对容易和功效巨大的工作。

2007年百度推出互联网视频开放协议[18],目的是能够让众多的视频内容提供者利用这一个标准来快速地将其视频内容的元数据提供给百度或者其他的内容搜寻者。

该标准的核心是一个用于组织视频文件的元数据(xmlschema)文件标准,视频内容提供者通过这个标准完成其视频文件元数据信息的描述,百度对其进行定期地抓取并进行汇总。

在这个例子当中,一方面百度由此成就了它的视频搜索服务;另一方面,各个视频内容服务网站通过百度对自己的内容进行了宣传并提高了访问量,这是一个双赢的战略。

科学数据共享也有相同的性质,一方面众多拥有数据内容的提供者希望用户到他们的网站上下载或索取数据;另一方面,需要一个综合、强大的科学数据搜索引擎,通过它用户可以更方便快捷地找到所需的数据,而这个搜索引擎正是科学数据共享平台应该具有的功能。

如果能够对联盟或代理数据集的元数据进行整理和索引并提供强大的数据搜索服务,可以极大地丰富科学数据共享平台的数据服务内容。

对于地球系统科学数据共享平台,所涉及的地学科学数据有其自身的特点,地学元数据标准比较复杂,不像新闻页面那样可以很容易的抓取获得,也不像百度的视频元数据那样进行索引。

因此,决定了地学元数据标准必须由数据生产和加工部门来生成,这样才能得到有权威的地学元数据。

因此,基于元数据标准和现在的汇交技术完成一个强大的数据搜索服务是地球系统科学数据共享网下一步要着重研究的一个课题。

4.3完善的文档、知识和信息服务
作为一个科学研究的数据资源支持平台,往往需要把数据、信息和知识一起讨论。

因为很多数据资源是一些信息甚至是知识性的内容。

例如,一个完整的草地资源数据库,对它的展现就不能简单地通过一些数据库表或者是数据文件来完成,要想让用户真正使用起这个。

相关文档
最新文档