语义网研究进展1207

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

南通大学图书馆
南通大学文献中心
南通大学图文信息中心
/
语义网(Semantic Web)
•核心思想:给网络信息赋于确切定义的意义, 即语义。 „ The Semantic Web is an extension of the current web in which information is given welldefined meaning, better enabling computers and people to work in co-operation.“
对语义网的理解
对于何为语义网，存在着下面四种不同的理解：
（1） semantic + web：即语义网应是在现有的网络数据上加一点语义分析的内容，或者是在现有的语义数据上加一些网络描述的能力。（2） semantic + Web：这里的Web的第一个字母是大写的，即语义网应是更多的网络成分，相对少的语义表示和处理的部分。（3） Semantic + web：即语义网应是更多的语义处理成分，相对少的网络处理部分。（4） Semantic + Web：即语义网应是很多的语义处理成分，再加上很多的网络处理部分。
万维网走向语义数据时代
站点摘要ＲＳＳ社会网络服务ＳＮＳ博客 Blog
网络2.0 Web2.0
维基 Wiki
标签 Tag
混搭 Mashup
万维网走向语义数据时代
网络3.0 Web3.0
万维网走向语义数据时代
网络1.0 – 网络2.0 – 网络3.0 Web1.0 – Web2.0 – Web3.0
RDFS

[4] ex:红楼梦 rdf:type ex:文学作品其中 rdf:type，rdfs:subClassOf两个资源之间的语义关系是RDF标准中定义（预设）好的（包括与rdf:superClassOf，以及这两个资源元素与owl:inverseOf之间的关系），因此机器才能自动做出上述推论。这样的推理，类似于编程语言中IF/THEN表达的语句。

RDF的扩充—RDFS（RDF Schema)

RDFS 可以看成是领域模型表达成RDF的形式化语言，就是说领域模型中的各类实体关系，都用RDF 三元组来表达，写成RDF模式的序列化形式。 RDFS引入更多的 “资源”来定义资源和资源之间的关系，定义的这些资源其实只是一个“约定”，本来任何人都可以这样定义，只是W3C作为一个约定，写入了“标准”中去了而已。
语义网的实现依赖于三大关键技术

XML(eXtensible Marked Language，即可扩展标记语言)可以让信息提供者根据需要，自行定义标记及属性名，从而使XML文件的结构可以复杂到任意程度。 RDF是W3C组织推荐使用的用来描述资源及其之间关系的语言规范，具有简单、易扩展、开放性、易交换和易综合等特点。 Ontology (本体或本体论) ，一般Web上的 Ontology包括分类和一套推理规则。分类，用于定义对象的类别及其之间的关系；推理规则，则提供进一步的功能，完成语义网的关键目标即 “机器可理解”。本体的最终目标是“精确地表示那些隐含(或不明确的)信息”。
• 网络1.0：文件网 Web1.0: Web of documents • 网络2.0：人际/社会网 Web2.0: Web of persons • 网络3.0：数据网 Web3.0: Web of data (semantics)
网络发展整体观
语义网概述
万维网存在的问题

现有的万维网上的信息主要是设计给具有自然语言理解能力的人来阅读的，这就使得利用计算机不能很有效地来自动处理万维网上的信息。现有计算机科学以及人工智能的研究，特别是自然语言的理解和处理能力的研究表明，人类在这方面的研究仍处于初级阶段。万维网上的信息在急剧地增长，这可以从现有的搜索引擎所能提供的信息量及其信息质量的问题上清楚看出来。
RDF－语义Web的基础

ＲＤＦ三元组有向图示意：
春风
不度
玉门关
RDF－语义Web的基础

RDF基于这样的思想：用Web标识符（称作统一资源标识符，Uniform Resource Identifiers或URIs）来标识事物，用简单的属性（property）及属性值来描述资源。这使得RDF可以将一个或多个关于资源的简单陈述表示为一个由结点和弧组成的图（graph），其中的结点和弧代表资源、属性或属性值。弧的方向很重要，它总是指向宾词，一个RDF图的结点就是它的所有主词和宾词。

RDFS

甲图书馆用 Lib1:borrows表示外借图书，乙图书馆用 Lib2:checkedout来表示，一个Web应用要将他们的外借数据合并，可以采用以下方法等同这两个属性： Lib1:borrows rdfs:subPropertyof Lib2:checkedOut Lib2:checkedOut rdfs:subPropertyOf Lib1:borrows 然后，让这两个属性共同作为一个属性的子属性： Lib1:borrows rdfs:subPropertyof ex:hasPossession Lib2:checkedout rdfs:subPropertyof ex:hasPossession 这样，使用ex:hasPossession就可以获取所有两个图书馆外借图书的数据了。

• •
语义具有下列几个主要特征：指称性( denotation)：即上面所述的，语义应能体现概念或术语它所对应的在外部世界上的某个实体的联系；唯一性(uniqueness)：如果不同的术语用来表达同一个意义的话，则应指向唯一的一个外部实体，而不是多个外部实体；关联性(relatedness)：语义应能表达一个概念与其他概念之间的关联关系，而不是简单地对应到一个外部实体。在语义网上，我们关注的是描述的指称性及其相关的特征。语义网是通过把概念指向某个网络资源来实现语义指称性的，具体地说，它通过在有关描述上附加一个URI（唯一资源标识Uniform Resource Identifier ）的前缀来实现的。
RDFS

rdf:type只能定义实例的类型，例如《红楼梦》是一本小说：

[1] ex:红楼梦 rdf:type ex:小说
其中ex表示定义“红楼梦”和“小说”的命名域。
如果要定义“小说”（类名）是一种“文学作品”（类名），就没有相应的rdf资源元素，
W3C扩展了一个rdfs:subClassOf，和rdfs:superClassOf，可以这样定义： [2] ex:小说 rdfs:subClassOf ex:文学作品
RDF－语义Web的基础
RDF是Resource Description Framework的缩写，即资源描述框架。 RDF是一个处理元数据的XML应用，所谓元数据，就是“描述数据的数据”或者“描述信息的信息”。

RDF－语义Web的基础ቤተ መጻሕፍቲ ባይዱ

也许这样解释元数据有些令人难以理解，举个简单的例子，书的内容是书的数据，而作者的名字、出版社的地址或版权信息就是书的元数据。数据和元数据的划分不是绝对的，有些数据既可以作为数据处理，也可以作为元数据处理，例如可以将作者的名字作为数据而不是元数据处理。
问题的原因
词匹配而不是语义匹配简单的关键词关系而不是准确的概念关系断词问题

寻找新的思路——语义网
现有的搜索引擎所提供的大量信息，使得现有的网络信息搜索和筛选变成一个需要许多个人知识和经验的过程，而且这里大量的信息已使得个人无法有效地进行处理。这从另一方面也说明了，就算人工智能的研究能有重大突破，能够制造出具有人一样智能的计算机，它也将面临像人类今天所面临的同样的问题，仍然不能有效地处理这些信息。所以，人类必然要寻找新的思路，来解决有关问题。
对语义网的理解
语义网是如何具有计算机可以理解
的语义信息的呢？换句话说，语义网是如何对语义信息建模的呢？
对语义网的理解
我们需要考虑以下三个方面的内容，一
是需要一个描述框架，能够将语义信息（概念以及概念之间的联系）表示出来，二是需要定义一种描述语言具体进行语义信息的描述，三是需要一种操作语言对语义信息进行操作。
语义与网络
语义网的核心问题就是要表达网络信息的语义(semantics)，也就是我们通常所说的意义（meaning）。从逻辑学和语言学的角度来讲，所谓的语义指的是一个描述或一个词汇（或不严格地说，一个概念）与它所要表达的在客观或主观世界上所对应的一个实体所建立的一种联系。

语义与网络
<?xml version="1.0"?> <rdf:RDF xmlns:rdf="/1999/02/22-rdf-syntax-ns#" xmlns:contact="/2000/10/swap/pim/contact#"> <contact:Person rdf:about="/People/EM/contact#me"> <contact:fullName>Eric Miller</contact:fullName> <contact:mailbox rdf:resource="mailto:em@"/> <contact:personalTitle>Dr.</contact:personalTitle> </contact:Person> </rdf:RDF>

[3] ex:文学作品 rdfs:superClassOf ex:小说
RDFS

要使计算机理解 rdfs:subClassOfrdfs:superClassOf之间的关系，还需要进一步用到本体定义语言OWL 扩展的一个元素：owl:inverseOf。实际上 OWL也是一套对RDF进行扩展的词表，丰富了RDF的语义表达能力。
语义网研究进展
钱智勇南通大学图书馆 2010年12月8日
万维网走向语义数据时代
人类知识资源集成的三个阶段：
•图书馆：硬拷贝，不便复制与广泛传播
•互联网：数字化时代，不便机器理解和自动处理
•语义网：语义数据时代
万维网走向语义数据时代
网络1.0 Web1.0
万维网走向语义数据时代
网络2.0 Web2.0
RDF－语义Web的基础
语义Web所涉及的语义，不同于符号语义学很复杂的东西，而仅仅是为所涉及的“资源”给出了一个链接，作为资源名（即 URI）。实际上给出了语义Web一个基本假设：链接即语义。有了这样一个URI，任何指代的东西就有了根据. 目前实现所有语义Web应用的底层技术还是以关系型数据库为基础的Web三层应用模式，只是其中增加了语义处理的内容，如查询部分需传递SPARQL语句，处理和存储部分都需要支持RDF三元组数据，等等。
五句话介绍语义网的主要思想：
Why the Semantic Web？
•任何信息系统都需要数据； •数据表示要独立于具体的应用和平台，以保证最大程度
地可重用； •采用统一的数据概念表示以保证数据表示独立于具体系统（即可采用Triple/Tuple形式）； •数据应能描述网络资源（即要采用RDF/RDFS或其他类似的语言） •数据应提供初步的推理支持（即要采用OWL或其他知识表示语言）（注意；RDF/RDFS/OWL均采用Triple语义模型）
[Berners-Lee et al., 2001]
对语义网的理解
语义网的核心思想可以分为两个方面：一个是语义（semantics），一个是网（web）。语义（semantics）指的是提供能被计算机“理解”的数据，即它的逻辑分析与语义表示的维度。网（web）指的是那些语义数据不是孤立存在的，而是彼此互连，形成一个网状结构，即它的数据连接的维度。
RDF－语义Web的基础

RDF表达式的结构是三元组集合，每个三元组包括一个主词，一个谓词，一个宾词。三元组集合称为RDF图。 RDF基于这样的思想：用Web标识符（称作统一资源标识符，Uniform Resource Identifiers或URIs）来标识事物，用简单的属性（property）及属性值来描述资源。这使得RDF可以将一个或多个关于资源的简单陈述表示为一个由结点和弧组成的图（graph），其中的结点和弧代表资源、属性或属性值。弧的方向很重要，它总是指向宾词，一个RDF图的结点就是它的所有主词和宾词。