语义网研究进展1207

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

南通大学图书馆
南通大学 文献中心
南通大学 图文信息中心
/
语义网(Semantic Web)
•核心思想:给网络信息赋于确切定义的意义, 即语义。 „ The Semantic Web is an extension of the current web in which information is given welldefined meaning, better enabling computers and people to work in co-operation.“
对语义网的理解
对于何为语义网,存在着下面四种不同的理解:
(1) semantic + web: 即语义网应是在现有的 网络数据上加一点语义分析的内容,或者是在现 有的语义数据上加一些网络描述的能力。 (2) semantic + Web: 这里的Web的第一个 字母是大写的,即语义网应是更多的网络成分, 相对少的语义表示和处理的部分。 (3) Semantic + web: 即语义网应是更多的 语义处理成分,相对少的网络处理部分。 (4) Semantic + Web: 即语义网应是很多的 语义处理成分,再加上很多的网络处理部分。
万维网走向语义数据时代
站点摘要 RSS 社会网络服务 SNS 博客 Blog
网络2.0 Web2.0
维基 Wiki
标签 Tag
混搭 Mashup
万维网走向语义数据时代
网络3.0 Web3.0
万维网走向语义数据时代
网络1.0 – 网络2.0 – 网络3.0 Web1.0 – Web2.0 – Web3.0
RDFS

[4] ex:红楼梦 rdf:type ex:文学作品 其中 rdf:type,rdfs:subClassOf两个资源之 间的语义关系是RDF标准中定义(预设)好 的(包括与rdf:superClassOf,以及这两个 资源元素与owl:inverseOf之间的关系),因 此机器才能自动做出上述推论。 这样的推理,类似于编程语言中IF/THEN表达 的语句。

RDF的扩充—RDFS(RDF Schema)

RDFS 可以看成是领域模型表达成RDF的形式化语 言,就是说领域模型中的各类实体关系,都用RDF 三元组来表达,写成RDF模式的序列化形式。 RDFS引入更多的 “资源”来定义资源和资源之间 的关系,定义的这些资源其实只是一个“约定”, 本来任何人都可以这样定义,只是W3C作为一个约 定,写入了“标准”中去了而 已。
语义网的实现依赖于三大关键技术



XML(eXtensible Marked Language,即可扩展标 记语言)可以让信息提供者根据需要,自行定义标 记及属性名,从而使XML文件的结构可以复杂到 任意程度。 RDF是W3C组织推荐使用的用来描述资源及其之 间关系的语言规范,具有简单、易扩展、开放性、 易交换和易综合等特点。 Ontology (本体或本体论) ,一般Web上的 Ontology包括分类和一套推理规则。分类,用于 定义对象的类别及其之间的关系;推理规则,则 提供进一步的功能,完成语义网的关键目标即 “机器可理解”。本体的最终目标是“精确地表 示那些隐含(或不明确的)信息”。
• 网络1.0: 文件网 Web1.0: Web of documents • 网络2.0: 人际/社会网 Web2.0: Web of persons • 网络3.0: 数据网 Web3.0: Web of data (semantics)
网络发展整体观
语义网概述
万维网存在的问题



现有的万维网上的信息主要是设计给具有自然语言 理解能力的人来阅读的,这就使得利用计算机不能 很有效地来自动处理万维网上的信息。 现有计算机科学以及人工智能的研究,特别是自然 语言的理解和处理能力的研究表明,人类在这方面 的研究仍处于初级阶段。 万维网上的信息在急剧地增长,这可以从现有的搜 索引擎所能提供的信息量及其信息质量的问题上清 楚看出来。
RDF-语义Web的基础

RDF三元组有向图示意:
春风
不度
玉门关
RDF-语义Web的基础


RDF基于这样的思想:用Web标识符(称作统一资源标 识符,Uniform Resource Identifiers或URIs)来标识事 物,用简单的属性(property)及属性值来描述资源。 这使得RDF可以将一个或多个关于资源的简单陈述表示 为一个由结点和弧组成的图(graph),其中的结点和 弧代表资源、属性或属性值。 弧的方向很重要,它总是指向宾词,一个RDF图的结点 就是它的所有主词和宾词。

RDFS

甲图书馆用 Lib1:borrows表示外借图书,乙图书馆用 Lib2:checkedout来表示,一个Web应用要将他们的外借数据合 并,可以采用以下方法等同这两个属性: Lib1:borrows rdfs:subPropertyof Lib2:checkedOut Lib2:checkedOut rdfs:subPropertyOf Lib1:borrows 然后,让这两个属性共同作为一个属性的子属性: Lib1:borrows rdfs:subPropertyof ex:hasPossession Lib2:checkedout rdfs:subPropertyof ex:hasPossession 这样,使用ex:hasPossession就可以获取所有两个图书馆 外借 图书的数据了。

• •
语义具有下列几个主要特征: 指称性( denotation):即上面所述的,语义应能体 现概念或术语它所对应的在外部世界上的某个实体 的联系; 唯一性(uniqueness):如果不同的术语用来表达 同一个意义的话,则应指向唯一的一个外部实体, 而不是多个外部实体; 关联性(relatedness):语义应能表达一个概念与 其他概念之间的关联关系,而不是简单地对应到一 个外部实体。 在语义网上,我们关注的是描述的指称性及其相关 的特征。 语义网是通过把概念指向某个网络资源来实现语义 指称性的,具体地说,它通过在有关描述上附加一 个URI(唯一资源标识Uniform Resource Identifier ) 的前缀来实现的。
RDFS

rdf:type只能定义实例的类型,例如《红楼梦》是一本小说:


[1] ex:红楼梦 rdf:type ex:小说
其中ex表示定义“红楼梦”和“小说”的命名域。
如果要定义“小说”(类名)是一种“文学作品”(类名), 就没有相应的rdf资源元素,
W3C扩展了一个rdfs:subClassOf,和rdfs:superClassOf, 可以这样定义: [2] ex:小说 rdfs:subClassOf ex:文学作品
RDF-语义Web的基础
RDF是Resource Description Framework的 缩写,即资源描述框架。 RDF是一个处理元数据的XML应用,所谓元 数据,就是“描述数据的数据”或者“描述 信息的信息”。

RDF-语义Web的基础ቤተ መጻሕፍቲ ባይዱ

也许这样解释元数据有些令人难以理解,举 个简单的例子,书的内容是书的数据,而作 者的名字、出版社的地址或版权信息就是书 的元数据。数据和元数据的划分不是绝对的, 有些数据既可以作为数据处理,也可以作为 元数据处理,例如可以将作者的名字作为数 据而不是元数据处理。
问题的原因
词匹配而不是语义匹配 简单的关键词关系而不是准确的概念关系 断词问题

寻找新的思路——语义网
现有的搜索引擎所提供的大量信息,使 得现有的网络信息搜索和筛选变成一个 需要许多个人知识和经验的过程,而且 这里大量的信息已使得个人无法有效地 进行处理。这从另一方面也说明了,就 算人工智能的研究能有重大突破,能够 制造出具有人一样智能的计算机,它也 将面临像人类今天所面临的同样的问题, 仍然不能有效地处理这些信息。所以, 人类必然要寻找新的思路,来解决有关 问题。
对语义网的理解
语义网是如何具有计算机可以理解
的语义信息的呢?换句话说,语义 网是如何对语义信息建模的呢?
对语义网的理解
我们需要考虑以下三个方面的内容,一
是需要一个描述框架,能够将语义信息 (概念以及概念之间的联系)表示出来, 二是需要定义一种描述语言具体进行语 义信息的描述,三是需要一种操作语言 对语义信息进行操作。
语义与网络
语义网的核心问题就是要表达网络信息 的语义(semantics),也就是我们通常所 说的意义(meaning)。 从逻辑学和语言学的角度来讲,所谓的 语义指的是一个描述或一个词汇(或不 严格地说,一个概念)与它所要表达的 在客观或主观世界上所对应的一个实体 所建立的一种联系。

语义与网络
<?xml version="1.0"?> <rdf:RDF xmlns:rdf="/1999/02/22-rdf-syntax-ns#" xmlns:contact="/2000/10/swap/pim/contact#"> <contact:Person rdf:about="/People/EM/contact#me"> <contact:fullName>Eric Miller</contact:fullName> <contact:mailbox rdf:resource="mailto:em@"/> <contact:personalTitle>Dr.</contact:personalTitle> </contact:Person> </rdf:RDF>


[3] ex:文学作品 rdfs:superClassOf ex:小说
RDFS

要使计算机理解 rdfs:subClassOfrdfs:superClassOf之间的 关系,还需要进一步用到本体定义语言OWL 扩展的一个元 素:owl:inverseOf。实际上 OWL也是一套对RDF进行扩展的词表,丰富 了RDF的语义表达能力。
语义网研究进展
钱智勇 南通大学图书馆 2010年12月8日
万维网走向语义数据时代
人类知识资源集成的三个阶段:
•图书馆:硬拷贝,不便复制与广泛传播
•互联网:数字化时代,不便机器理解和自动处理
•语义网:语义数据时代
万维网走向语义数据时代
网络1.0 Web1.0
万维网走向语义数据时代
网络2.0 Web2.0
RDF-语义Web的基础
语义Web所涉及的语义,不同于符号语义 学很复杂的东西,而仅仅是为所涉及的“资 源”给出了一个链 接,作为资源名(即 URI)。实际上给出了语义Web一个基本假 设:链接即语义。有了这样一个URI,任何 指代的东西就有了根据. 目前实现所有语义Web应用的底层技术还 是以关系型数据库为基础的Web三层应用模 式,只是其中增加了语义处理的内容,如查 询部分需传递SPARQL语句, 处理和存储部 分都需要支持RDF三元组数据,等等。
五句话介绍语义网的主要思想:
Why the Semantic Web?
•任何信息系统都需要数据; •数据表示要独立于具体的应用和平台,以保证最大程度
地可重用; •采用统一的数据概念表示以保证数据表示独立于具体系 统(即可采用Triple/Tuple形式) ; •数据应能描述网络资源(即要采用RDF/RDFS或其他 类似的语言) •数据应提供初步的推理支持(即要采用OWL或其他知 识表示语言) (注意;RDF/RDFS/OWL均采用Triple语义模型)
[Berners-Lee et al., 2001]
对语义网的理解
语义网的核心思想可以分为两个方面: 一个是语义(semantics),一个是网 (web)。语义(semantics)指的是提 供能被计算机“理解”的数据, 即它的 逻辑分析与语义表示的维度。网(web) 指的是那些语义数据不是孤立存在的, 而是彼此互连,形成一个网状结构,即 它的数据连接的维度。
RDF-语义Web的基础


RDF表达式的结构是三元组集合,每个三元组包括一个 主词,一个谓词,一个宾词。三元组集合称为RDF图。 RDF基于这样的思想:用Web标识符(称作统一资源标 识符,Uniform Resource Identifiers或URIs)来标识事 物,用简单的属性(property)及属性值来描述资源。 这使得RDF可以将一个或多个关于资源的简单陈述表示 为一个由结点和弧组成的图(graph),其中的结点和 弧代表资源、属性或属性值。 弧的方向很重要,它总是指向宾词,一个RDF图的结点 就是它的所有主词和宾词。
相关文档
最新文档