语义网基础教程

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第一章概述

1.1万维网现状

万维网改变了人类彼此交流的方式和商业创作的方式。发达社会正在向知识经济和知识社会转型，而万维网处于这场革命的核心位置。

这种发展使得人们对计算机的看法也发生了变化。起初，计算机仅仅用作数值计算，而现在则主要用于信息处理，典型的应用包括数据库，文档处理和游戏等等。眼下，人们对计算机关注的焦点正在经历新的转变，将其视作信息高速公路的入口。

绝大部分现有的网络内容适合于人工处理。即使是从数据库自动生成的网络内容，通常也会丢弃原有的结构信息。目前万维网的典型应用方式是，人们在网上查找和使用信息、搜索和联系其他人、浏览网上商店的目录并且填表格订购商品等等。

现有软件工具没有很好的支持这些应用。除了建立文件间联系的链接之处，最优价值和必不可少的工具是搜索引擎。

基础关键词的搜索引擎，比如Alta Vista、Yahoo，Google等，是使用现有万维网的主要工具。毫无疑问，加入没有这些搜索引擎，万维网不会取得现在这么大的成功。然而，搜索引擎的使用也存在一些严重过的问题：

●高匹配、低精度。即使搜到了主要相关页面，但它们与同时搜到的28758

个低相关或不相关页面混在一起，检索的效果就很差。太多和太少一样令人不满意。

●低匹配或无匹配。有时用户得不到任何搜索结果，或者漏掉了一些重要的

相关页面。虽然对于现在的搜索引擎来说，这种情况发生的频率不高，但确实会出现。

●检索结果对词汇高度敏感。使用最初填写的关键词往往不能得到想要的结

果，因为祥光的文档里使用了与检索关键词不一样的术语。这当然令人不满意，因为语义相似的查询理应返回相似的结果。

●检索结果是单一的网页。如果所需要的信息分布在不同的文档中，则用户

必须给出多个查询来收集相关的页面，然后自己提取这些页面中的相关信息并组织成一个整体

有趣的是，尽管搜索引擎技术在发展，但主要的困难还是上述几条，技术的发展速度似乎落后于网上内容量的增长速度。

此外，即使搜索是成功的，用户仍必须自己浏览搜索到的文档，从中提取所需的信息，也就是说，对极其耗时的信息检索本身，搜索引擎并没有提供更多支持。因此，用信息检索来描述搜索引擎为用户提供的功能，是不确切的；用信息定位可能更加合适。另外，由于现有网络搜索的结果不易直接被其他软件进一步处理，因此搜索引擎的应用往往是孤立的。

目前，为网络用户提供更大支持的主要障碍在于，网上内容的含义不是机器可解读的。当然，有一些工具能够检索文档、把它们分割成更小的部分、检查拼写并统计词频等等。可是，一旦牵涉到解释句子含义和提取对用户有用的信息，现有的软件能力就有限了。举一个简单的例子。对现有技术而言，一下俩个句子的含义是难以区分的：

我是一个计算机科学的教授。

你不妨认为，我是一个计算机科学的教授。

使用文本处理技术，咋样才能改善现在的状况呢？一种解决方案是沿用现有表达方式来表示网上的内容，并发展基于人工智能和计算语言学的一些日趋复杂的技术以解决现有难题。这条途径迄今已探索多时，尽管取得了一些进展，但其任务仍然显得过于困难。

另一种途径是用一种更容易被机器处理掉表示方法来描述网上的内容，并此阿勇之恩那个技术来利用这种表示方法所提供的便利。我们把这个革命性的方案称为语义网运动。值的注意的是，语义网并不是一种和首先由万维网平行的新的全球信息高速公路，相反，它将在现有万维网的基础上逐渐成长。

语义运动由——万维网联盟（W3C）发起，其倡导者正是在20世纪80年代后期发明万维网的Tim Berners-Lee。他期望通过这场运动来实现他的万维网的初始蓝图，在这个蓝图中，信息含义所起的比现今万维网中重要很多。

语义网的发展得到了产业界的大力支持和各国的大力支持和各国政府的大量资助。美国政府设立了DAMl（DAPRA Agent Markup Language）项目，欧盟第六研究框架计划也将语义网作为关键内容之一。

1.2 从当前万维网到语义网：实例分析

1.2.1知识管理

知识管理所关注的是在一个组织中获取、处理和维护知识。由于大型商业机构把内部知识视为一种能够提高生产力、创造新的价值和增强竞争力的智力资源，知识管理已成为他们的一项关键性工作，对于地理分布广泛的国际组织来说尤其如此。

目前大多数可用信息只具有弱结构组织形式，如文本、音频和视频等。从知识管理的角度来说，现有技术从在以下诸方面的局限：

●信息搜索。公司通常依靠基于关键词的搜索引擎，这方面的局限性上文

已经做了简要描述。

●信息抽取。需要人工浏览文档，以便从中找出相关的信息。现有的智能

代理（intelligent agent）还不能令人满意地完成这项任务。

●信息维护。现在这方面仍然存在一些问题，比如术语的不相容性和无法

移除过时信息等等。

●信息挖掘。虽然可以数据挖掘（data mining）等手段提取隐藏在公司数

据库中新知识，但对于分布式的、弱结构化的文档集合，这个任务仍然

是困难的。

●信息视图。经常需要限制某些雇员对某些信息的浏览权限。“视图”意

味着隐藏某些信息，这个概念在数据库领域里为人们所熟知，但对企业

内部网（或者万维网）尚难实现。

语义网的目的是允许更高级的知识管理系统，使得：

●可以根据含义用概念空间组织知识；

●具备相容性检查和新知识提取功能的自动工具支持知识维护；

●问答系统取代关键词搜索——用人性化的方式检索、提取和表示所需知

识；

●支持跨文档的问答功能；

●能够规定用户查看信息的指定部分（甚至文档的某些部分）的权限。

1.2.2 企业对个人电子商务

企业对个人（B2C）电子商务是万维网用户最主要的商业活动。典型场景是用户访问一个或者多个网上商店，浏览他们的报价，选择并订购产品。

理想化的情况是，用户收集所有网上商店的信息，包括价格、条款、说明（比如有效期）等信息，从而选择最好的产品。但是如此规模的手工浏览太浪费时间，通常用户咋i做决定之前只会访问一个或者少数几个网上商店。

为了改善这种情形，以购物机器人的形式出现了一些网上购物工具，这种软件代理能够访问多家商店、提取产品和价格信息，汇总市场情况。这些功能是借助于从网上商店提取信息的打包程序来实现的。对于不同的网上商店，必须开发不同的打包程序。这种方法是有缺陷的。

有关信息是通过关键词搜索和其他手段从网上商店获取的。这个过程利用了特定信息段之间临近关系的假设以进行信息打包(比如，价格是通过单词price后面接着的$符号和一个正数来表示的，则根据三者之间的临近关系把价格信息“打包)。这种假设不一定正确，因而这种启发式方法未必总能凑效。所以，能够如此获取的信息是有限的。想运输费用、交货时间、关于目的地国家的限制、安全等级和隐私保护措施等信息一般不恩呢提取出来，而所有这些因素可能对用户的决策起重要作用。另外，编制打包程序是费时的，而且网上商店的设置一旦发生变动，则需要重新编制打包程序。

语义网技术支持软件代理对产品信息和服务条款的解读，使得：

●能够正确地提取价格和产品信息，并根据用户需求解释配送和隐私保护

措施；

●能够从其他来源，比如独立的排名机构或客户群体，补充提供网上商店

的信誉信息；

●不再需要低层次的打包程序；

●更加高级的购物代理能够代表购买者的利益与商店代理进行自动协商。

1.2.3 企业对企业电子商务

大多数用户在晚上的商业活动只与B2C电子商务有关，但是，网络技术的最大经济价值体现在企业对企业电子商务中。

企业间数据交换的传统方式是通过电子数据交换（EDI）途径。然而，这个技术太复杂了，只能为专家所理解，编程和维护都很困难，且容易出错。每一对企业间的数据交换都需要专门编程，开发费用很大。另外，EDI是一种孤立的技术手段，所交换的数据无法方便的与其他商业应用集成使用。

因特网视乎是企业间交流的理想的基础设施。企业越来越关注基于因特网的解决方案，已经出现了诸如企业间门户（B2B portol）这样的商业模型。然而，由于没有统一的标准，企业对企业电子商务模式的发展遇到了障碍。HTML不包含信息的结构和信息的语义，所以它无法对上述食物提供有效的支持。XML这种新标准是一个很大的进展。但它只适用于事先对词汇表及其含义达成共识的情况。

语义网的实现将使企业间的合作不需要太大的开销。借助于标准的抽象领域模型可以消除术语差异，实现用不同术语书写的文档之间的翻译转换，从而实现数据交换。拍卖、协商和草拟合同将由软件代理自动（或半自动）地完成。

1.2.4个人代理：未来的展望

迈克尔出了一场轻微车祸，他觉得颈部有点疼。他的私人医生建议他去做一组理疗。迈克尔要他的语义网代理（Semantic Web agent）设计出一些可能的就