黄智生博士谈语义网与Web 3

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

黄智生博士谈语义网与Web 3.0

作者徐涵发布于 2009年3月26日下午6时0分

社区

Architecture,

SOA

主题

语义网

标签

Web 2.0,

采访,

元数据,

语义网

近两年来，“语义网（Semantic Web）”或“Web 3.0”越来越频繁地出现在IT 报道中，这表明语义网技术经过近10年的研究与发展，已经走出实验室进入工程实践阶段。PowerSet、Twine、 SearchMonkey、Hakia等一批语义网产品的陆续推出，预示着语义网即将在现实世界中改变人们的生活与工作方式。在Web 3.0时代即将揭开序幕之际，正确理解、掌握语义网的概念与技术，对IT人士与时俱进和增加优势是必不可少的。为此，InfoQ中文站特地邀请到来自著名语义网研究机构荷兰阿姆斯特丹自由大学的黄智生博士，请他为我们谈一谈工业界人士感兴趣的语义网话题，包括什么是语义网、语义网与Web 3.0的关系以及语义网如何给商业公司带来效益等。

InfoQ中文站：您是语义网方面的权威专家，能否先请您为我们消除概念上的困惑。现在有一个说法，即Web 3.0就是语义网。但是除了W3C定义的语义网以外，关于Web 3.0还有许多种其他说法，您认为谁才真正代表了Web 3.0？为什么？

黄智生博士（以下称黄博士）：首先需要说明的是：我不认为自己是所谓的“权威”。纵观万维网的发展，总是年轻人在创造历史，他们给人类社会带来了一次又一次的惊奇。且不说万维网之父Tim Berners-Lee在1989年构想万维网的时候仅仅三十出头。Web 1.0产生的雅虎和谷歌等国际大公司的创始人大多是年轻的博士生。Web 2.0产生的Facebook等公司创始人的情况也大体如此。Web 3.0的情况也可能如此。我们甚至都不能完全指望通过现有的IT大公司的巨大投入来发展语义网。这些大公司往往受着过去成功经验的束缚，而且新技术采用的是与以往完全不同的思路，从而会加深大公司对新技术的怀疑。当然，这也为年轻人书写历史创造辉煌提供了发展空间。

由于Web 1.0和Web 2.0技术的成熟，Web 3.0的想法实际上表达了现在人们对下一代万维网技术的种种期待。从这个意义上讲，Web 3.0并不等同于语义网。网络上对Web 3.0众说纷纭，都有一定的道理。但我有一定的理由相信，语义网技术是Web 3.0的重要技术基础。我于2008年底在国内一些大学巡回讲学报告

中提到了Web 3.0技术所应该具备的一些基本特征。我们可以用这些基本特征来分析哪些才是Web 3.0最有希望的技术。这些基本特征是：

1.新颖性：它应不同于已有的Web 1.0和Web

2.0的技术，它能提供全新的

一代网络服务模式（即解释为什么它不属于Web 1.0或Web 2.0）。

2.可行性：它在现有的网络环境下，经过努力是可能实现的，它并不存在不

可逾越的技术障碍（即解释为什么它不属于Web 4.0或更高）。

3.迫切性：它提供的网络服务应是当前社会迫切需要的，它引入的技术是能

够对社会产生重大影响的。（即解释它为什么应只属于Web 3.0）。

我们看到的语义网技术正好符合上述特征。新颖性：语义网提供语义数据描述分析能力，这是以往技术所不具备的。可行性：虽然在语义网上充满着许多技术挑战，但我们相信经过努力这些技术障碍是可以跨越的（后面我还要对这个问题作进一步阐述）。迫切性：由于万维网上已产生了浩瀚的网络信息和知识资源，寻找人们所需要的准确信息常常耗费大量人力精力。提供网络信息的语义半自动化或自动化处理已迫在眉睫。这就说明了为什么语义网是成为Web 3.0最有希望的基础技术。

InfoQ中文站：过去，语义网常被定义为“an extension of the current web”，但现在提的更多的是“a web of data”。您认为这两种说法有何异同，为什么会出现两种定义？

黄博士：在语义网思想发展的初期，人们所主要期待的是，希望对现有网络信息资源做语义标注，使得人们能够更方便快捷地找到网络信息。由于描述网络数据的需要，科学家们开发了一系列元数据描述语言，如RDF/RDFS等。出于对语义分析进一步细化的需要，科学家规定了本体描述语言（如OWL），并开发了种种特定领域的本体（Ontology）。所谓本体，可以简单地将它理解成特定知识领域中满足共同约定的常识部分，这对于特定领域信息分类是必要的一步。

最近这十年以来，信息领域的重大事件之一，就是人类已经产生了许许多多的本体。我们可以把这个过程理解成人类知识领域的一个概念标准化运动，这与以前的工业标准化运动具有一样的重大意义。这个运动只需要人们完成一系列基本约定就可以产生巨大的社会效果，就像当年规定“红灯停，绿灯行”等交通规则是一样的道理。虽然现在人们都可以自由构造自己所需要的本体，但许多特定领域都有权威的学术机构在构造这些领域的本体库。本体构造本着自然淘汰的原则，在大多数特定领域只会留下一些被广泛接受的本体。

由于大量的本体和元数据的存在，人们发现这些数据本身就是人类知识的巨大资源。这就产生了“Web of Data”的思想，即通过这些结构化的知识数据把巨大的网络信息资源连接在一起，构成了人类知识的巨大宝库。所以说，“Web of Data”的思想实际上是“an extension of the current web”思想的具体描述和进一步补充。

InfoQ中文站：语义网技术是一项激动人心的技术，许多技术人员都很感兴趣，但是这门技术入门比较困难。能否请您谈谈，语义网入门需要哪些必备知识，有比较便捷的入门方法和入门书籍吗？

黄博士：如上所述，语义网与本体技术实际上是人类知识领域的概念标准化运动，这就涉及到逻辑描述（Description Logics）和推理技术。这对于许多工程人员来说，会产生一些畏惧感。国内的计算机人才培养，总体来说是计算能力的培养，在数理逻辑的训练上相对薄弱一些，这就对国内一些技术人员来说会带来一些障碍。但好的方面是：到目前为止，许多语义网应用只需要用到元数据就可以了，逻辑推理方面的知识要求相对会少一些。所以对于初涉语义网的工程技术人员，可以先掌握RDF/RDFS等基本技术和工具就可以了。语义网入门知识只需要看看一些入门书，如Grigoris Antoniou和Frank van Harmelen合著的《语义网基础教程》（中国科技大学陈小平教授团队译）就可以了。

InfoQ中文站：语义网思想的诞生已经有十个年头了，您认为语义网技术离广泛应用还有多远？目前还有哪些障碍需要跨越？

黄博士：由万维网之父Tim Berners-Lee提出的语义网与本体技术，为解决万维网上浩瀚的信息资源处理提供了技术基础。欧盟和美国政府已经在语义网与本体技术上投入了大量的研究资金，其技术已经在垂直搜索技术和专业语义信息处理等方面成为了国际标准，已经在生命科学领域（如大规模基因本体库）、出版领域（如Dubin Core标准和知识分类本体库）、医疗保健领域（如癌症本体库）和文化传承领域（如博物馆与艺术家本体库等）产生了许多应用。国际IT大公司如雅虎、 eBay和IBM等已经在语义网上投入了许多研究力量。

语义网技术已经深入到人类知识领域的方方面面。现在已经很难找到哪个领域可以宣称与语义网没有关系。且不用说生命科学领域，食品与农业领域已有许多研究人员在作语义网相关的工作，就是在冷僻的领域如石油勘探与开采、红学研究、政治学分析等方面都有人在开发本体产品。

以前的语义网工作总体来说是在打基础。许多人想看的是类似于谷歌这样规模的语义网技术大公司的产生，才能相信语义网的实际效果。这就需要等到语义网技术深入到我们每个人生活或工作的方方面面。正由于这样，有一定数量的人对语义网的技术潜力仍持观望或怀疑的态度。值得注意的是，语义网技术是涉及到人类未来高效地获取网络信息的革命性的方式，将对人类文明产生巨大的影响。这就像要建造摩天大楼的许多工作是在打地基一样。地基打得越深，楼才能盖得越高。没有看到地面上起高楼，就不相信在盖楼的想法显然是天真的。实际上，从去年开始，语义网技术的摩天大楼已经在地面上初见端倪。根据美国著名市场研究公司 Gartner的2007五月份报告，到2012年，70%的公开网页将带有一定程度的语义标注，20%将使用更强的基于语义网的本体。最近这十年来所建的本体大多数是英文的，中文的本体仍然是寥寥无几。如果我们只是等到看到经济效益后才愿意去追赶新技术的话，有可能让我们中国人又一次失去占领科学制高点的机会。