关联数据

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 关联数据概述关联数据采用RDF(资源描述框架)数据模型,利用URI(统一资源标识符)

命名数据实体,在网络上发布和部署实例数据和类数据,从而可以通过HTTP(超文本传输协议)揭示并获取这些数据,同时强调数据的相互关联、相互联系以及有益于人和计算机所能理解的语境信息。

关联数据可以在不同来源的数据之间创建链接。这些数据源可能是两个处于不同地理位置的机构所维护的数据库,也可能是一个机构内的无法在数据层面上进行互操作的不同系统。从严格意义上讲,关联数据是指发布于网络上的数据,该数据具有机器可读性和明确的含义,并链接至其他外部数据集,同样也可被来自外部数据集的数据所链接。图1显示了链接开放数据项目的数据集以及数据集与数据集之间的链接(截至2009年7月),其中包括著名的DBpedia,Freebase和Thomson Reuters的Open Calais项目等。

关联数据网络和当前的超文本网络有所不同,超文本网络的基础单元是由超链接所连接起来的HTML(超文本标记语言)文件,而关联数据并非是简单地连接这些文件,而是使用RDF 形成链接世界上任何事物的网络,也即数据网络,数据网络可被描述为由网上数据描述世界上所有实体的网络。关联数据网络的出现不但对当前的超文本网络进行了扩展,同时也对当前网络上纷繁混乱的信息资源进行甄别、选择和定位。

Tim Berners-Lee认为所有已发布的关联数据都是一个统一的全球数据空间的组成部分,进而概括出在网上发布关联数据的四条

原则

(1)使用URI作为任何事物的标识;

(2)使用HTTP URI使任何人都可以访问这些标识;

(3)当有人访问某个标识时,使用(RDF,SPARQL)标准提供有用的信息;

(4)尽可能提供相关的URI,以使人们可以发现更多的事物。

可以看出,这四条原则尽管简洁,却提供了在遵从统一的网络结构和标准的前提下发布和链接数据的基本方法。这也符合Tim Berners-Lee的“最少设计”原则,即把简单的东西简化,让复杂的东西变得可能;开发简单的应用,着眼于未来的复杂性。正是由于这一原则,万维网取得了意想不到的成功,相信也将继续引领关联数据的发展。

原则[6]。

(1)使用URI作为任何事物的标识;

(2)使用HTTP URI使任何人都可以访问这些标识;

(3)当有人访问某个标识时,使用(RDF,SPARQL)标准提供有用的信息;

(4)尽可能提供相关的URI,以使人们可以发现更多的事物。

可以看出,这四条原则尽管简洁,却提供了在遵从统一的网络结构和标准的前提下发布和链接数据的基本方法。这也符合Tim Berners-Lee的“最少设计”原则,即把简单的东西简化,让复杂的东西变得可能;开发简单的应用,着眼于未来的复杂性。正是由于这一原则,万维网取得了意想不到的成功,相信也将继续引领关联数据的发展。

数据的发布是关联数据极为重要的环节,数据提供者根据上述四条原则发布数据,从而将他们的数据加入到全球数据空间并使得数据能够被各种应用程序发现和使用。在网上发布关联数据包括以下三个基本步骤[7]:

(1)将URI分配给被数据集描述的实体,并提供逆向引用至RDF的URI;

(2)将RDF链接至其他网上数据源,从而使用户能够随RDF链接遍历数据网络;

(3)提供所发布数据的元数据,从而使用户能够评价所发布数据的质量并选择合适的访问途径。

2 关联数据的层次模型

作为语义网的一种实现方式,关联数据并不是一种全新的技术,它以成熟的URI、HTTP 和RDF技术为基础,开发出多种关联数据的发布、链接和存储工具。关联数据浏览器和关联数据搜索引擎使得用户可以在数据网络中进行浏览和检索。据此,可构建关联数据的层次模型如图2所示。

图2 关联数据的层次模型

(1)基础层。关联数据依赖于两项网络基础技术:URI(统一资源标识符)和HTTP(超文本传输

协议)。和人们所熟知的作为文件和其他网上可定位实体的地址的URL(统一资源定位符)不同,URI提供了一个更加普遍的标识存在于世界上的任何实体的方法。URI可以是一个网页路径,也可以是某位专家或员工的联络方式,或是某个文件的物理存放位置。总之,资源无论以何种形式存放,其存储位置都是唯一确定的,因此可以用URI进行唯一标识由使用“http://”开头的URI所定义的实体可以简单地通过在HTTP协议上逆向引用URI进行检索。在这种方式下,HTTP协议提供了一种简单而通用的检索机制,不但可以定位网络上的数字资源,如一只狗的照片,还可以检索那些自身无法通过该方式在网络上进行传输的实体的描述比如那只狗[7]。

如果说HTML(超文本标记语言)提供了在网上架构和链接文件的一种方式,RDF则提供了一种普遍的、基于图形的数据模型,如图3所示。通过这种模型可以架构和链接描述世界上事物的数据。

在RDF中,所有的资源都能够用一个URI来指定,属性是用来描述资源的特征或关系,每一个属性都有其特定的含义,用来定义对应的属性值、资源类型,以及和其他属性之间的关系[8]。RDF把以上体系统称为一个声明语句,其中资源是主体,属性是谓词,属性值则是客体。RDF模型以“主体、谓词、客体”三元组对数据进行编码。主体和客体都是URI,它们从字面上各自分别定义了一个资源,谓词定义了主体和客体之间的联系,它也由一个URI 表示。链接不同数据的RDF语句和将万维网连为一体的超文本链接有相似之处,语句的主体是一个数据集命名空间的URI引用,语句的客体是另一个数据集命名空间的URI引用。RDFS(RDF词汇定义语言)和OWL(网络本体语言)奠定了可用于描述世界上的实体及其关系的词表的基础。词表是类别和属性的集合,其自身使用RDFS和OWL中的术语并通过RDF 表达。任何人都可以发布数据网络词表,这些词表可以通过RDF语句链接,从而定义相关词表之间的映射。

通过使用URI定义资源,将HTTP协议作为检索机制以及使用RDF数据模型描述资源,关联数据便在网络整体结构之上奠定了坚实的基础。

(2)工具层。目前已有多种关联数据发布工具被开发出来,这些工具使得数据发布者无需关注技术细节,而只需关注数据本身。此外,这些工具往往是基于关联数据领域的成功应用开发的,其可用性和先进性均可得到保证。所有的工具均支持URI到RDF描述的逆向引用,其中一些工具还为数据集提供SPARQL访问并支持RDF集的发布。这些工具包括D2R Server、Virtuoso Universal Server、Tail Platform、Vapour、Pubby、Triplify、SparqPlug、OAI2LOD Server、SIOC Exporters等,其中D2R Server用于将关系型数据库转换为关联数据,Virtuoso Universal Server提供RDF模式的关联数据的存储与检索服务,这些数据可以直接存储到Virtuoso服务器中,也可以存储到关系型数据库中,然后映射为关联数据[7]。

(3)应用层。随着大量关联数据发布到网络上,基于关联数据的应用方面的研究亦层出不穷,目前大体上可分为三类:关联数据浏览器、关联数据搜索引擎以及特定领域的应用。

关联数据浏览器使得用户能够跟随由RDF语句表达的链接在不同的数据源之间浏览,一

相关文档
最新文档