对于国内外对于本体认识的综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
要求:05年至今,对于国内外对于本体认识的综述/分析/调研报告一、本体的定义
本体(Ontology)的概念起源于西方哲学,一方面研究存在的本质,另一方面研究客体对象的理论定义,即整个现实世界的基本特征。
现在哲学领域较多翻译为“本体论”。
本体在计算机学科的使用可以追溯到上个世纪80年代,Haves(1978)把本体论引入了人工智能领域AI(Artificial Intelligence),给予了新的定义。
Alxenader在1986年发表的文章被视为本体在计算机领域获得不同于哲学领域的新的研究的起点。
Guarino(1998)进一步区分了AI(Artificial Intelligence)中的本体与哲学的本体:哲学的本体是反映世界的一种特定分类的观察方法;AI的本体是一些用特殊词汇描述现象的人造物,其本质是人造的概念系统,核心是人工规定的概念与规则体系。
本体系统中的概念与一般的实体系统概念不同,它把刻画真实世界的实体概念、关系、属性等全都概念化和形式化,并且加上一些与这些概念相关的领域公理,构成用于人工智能推理系统的逻辑基础。
20世纪90年代初期,国际计算机界举行了多次关于本体的专题研讨会,本体成为包括知识工程、自然语言处理和知识表示在内的诸多人工智能研究团体的热门课题,其主要原因在于本体使人与人、人与机器、机器与机器之间的交流建立在对所交流领域的共识基础上。
本体的定义随着时间的推移也在进行着不断的变化发展,本体发展史中较有代表性的定义列表如下:
目前被大部分人公认的定义是Gruber在1994年提出的:“本体是关于共享概念的一致约定。
共享概念包括用来对领域知识进行建模的概念框架、需要互操作的主体之间用于交互的与内容相关的协议,以及用于表示特定领域的理论的共同约定。
在知识共享的情况下,本体的形式特化为具有代表性的词汇的定义。
一种最简单的形式是一种层次结构,用来详细描述类和它们之间的包含关系。
在国内,陆汝钤院士等从实用的角度出发,对本体定义如下“本体是关于某个主题的形式化和说明性表示,包括它的论域、论域中诸对象的名称、定义及相互关系”。
2005年,中国标准化研究院的李景在总结了国内外学者关于本体概念的各种观点之后,认为本体作为知识组织的重要手段应该具有以下要素:声明(Statement)、公理(Axiom)、概念或类(Concept/C1ass)、属性(Property,Slot)、函数(Function)、实例(Instance)也称个体。
本体作为一种思想、理论和方法,尽管定义众多,但本质上区别不大。
概括起来它们都包括四个主要方面:①概念化,客观世界现象的抽象模型,把领域的知识抽象为一个个确定的对象;②明确的定义,对每一个对象的概念及它们之间联系都进行合理地定义;⑨形式化,需对概念及它们之间关系进行数学表达,且达到计算机可读的水平;④共享,本体中反映的知识是其使用者(包括该领域的专家和一般用户)共同认可的。
二、本体的分类
1.按照领域依赖程度:
(1)顶层(top-1evel)本体:描述的是最普通的概念及概念之间的关系,如空间、时间、事件、行为等,完全独立于特定的问题和领域,其他本体都是该类本体的特例。
(2)领域(domain)本体:描述的是特定领域(医学、地理等)中的概念及概念之间的关系。
(3)任务(task)本体:描述的是特定任务或行为中的概念及概念之间的关系。
(4)应用(application)本体:描述的是依赖于特定领域和任务的概念及概念之
间的关系。
在这个分类当中,领域本体和任务本体是处于同一个研发层次的,它们都能应用顶层本体中定义的词汇来描述自己的词汇。
应用本体既能应用领域本体中的概念,也能引用任务本体中的词汇。
2.按照细化程度
Guarino从两种不同的维度对本体进行划分。
除了依据对领域的依赖程度分类,还提出了以详细程度分类。
详细程度是相对的、模糊的一个概念,是描述或刻画建模对象的程度。
参考(reference)本体:详细程度高。
共享(shareable)本体:详细程度低。
3.按照形式化程度
(1)高度非形式化:用自然语言松散表示。
(2)结构非形式化:用限制的结构化的自然语言表示。
(3)半形式记:用半形式化(人工定义的)语言表示。
(4)严格形式化:所有术语都具有形式化的语义,能在某种程度上证明完全性和合理性。
4.按照是否具备推理功能
(1)轻量级本体(Lightweight ontology):轻量级本体不具备逻辑推理功能,例如叙词表和WbrdNet。
(2)中级本体(Middle ontology):中级本体具有简单的逻辑推理功能,系统可以识别一阶谓词逻辑的表达式。
(3)重量级本体(Heavyweight ontology):重量级本体具有复杂的逻辑推理功能,
系统可以识别更加复杂的二阶谓词逻辑的表达式,并为更加复杂的推理功能的实现预留了接口,如cyc本体系引。
5.按本体描述对象的不同,uschold把本体分为特殊领域本体(如医药、地理、
金融等)、一般世界知识本体、问题求解本体和知识表示语言本体等。
6.按不同的研究主题:
(1)知识表示本体(Knowledge Representation ontologies),如Frame ontology和斯坦福大学知识系统实验室提出的知识描述语言KIF(Knowledge Interchange Format)。
(2)通用或常识本体(General/common ontologies),如Cyc本体系统。
到2000年为止,Cyc的常识库已有了l600000条知识和几百个微理论(micro—theory)。
(3)领域本体(Domain ontologies),如基因本体Go(Gene ontologies)、爱丁堡大学企业本体。
(4)语言学本体(1inguistic ontologies),关于语言、词汇等的本体,典型实例有GUM(Generalized Upper Model),WbrdNet和MindNet等。
(5)任务本体(Task ontologies),主要研究如Chandrasekaran等人的关于任务和问题求解方法本体的研究。
除了上述几种分类方法外,1999年,Perez和Benjamins在分析和研究了各种本体分类法的基础上,归纳出10种本体:知识表示本体、常识本体、顶级本体、元(核心)本体、领域本体、语-言本体、任务本体、领域-任务本体、方法本体和应用本体。
这种分类法是对Guarino提出的分类方法的扩充和细化,但是这10种本体之间存在交叉,层次不够清晰。
三、本体开发方法
目前,本体的建立基本还是采用人工方式,建立本体还是一种艺术性的活动而远远没有成为一种工程性的活动,每个本体开发团体都有自己的构建原则、设计标准和不同的开发阶段,所以很难实现本体的共享、重用和互操作。
目前比较成型的本体开发方法包括以下几种:Enterprise Ontology方法、TOVE方法、METHONTOLOGY、本体生命周期法、KACTUS、SENSUS、Ontosaurus、ODE(Ontology Design Environment)、EXPECT、WebOnto、OnToKnowledge、OntoWeb、Text-To-Onto、Cyc、WordNet。
构建本体的基本方法,一般分为以下五个步骤:
(1)获得领域知识。
(2)用自然语言对领域知识进行定义和表达。
表达出可由意向定义的术语。
意向定义是指用数量有限的与术语本身不可分割的属性定义它,它们构成基本本体。
(3)采用某种形式化语言对这些定义进行形式化。
首先对领域知识设计的概念进行定义,构成本体系统的概念集合,然后根据本体概念之间的关系,特别是带有明确继承语义的泛化——特例关系,将这些本体概念组织起来,分出层次,建立本体系统的分类体系。
(4)定义过程中产生的文档进行整理。
(5)评估、验证并形成正式的本体系统。
在建立本体的过程中,可以归纳出领域专家在定义本体时应遵循以下原则(Gruber,1995):
清晰性(clarity);术语的定义尽可能采用形式化公理描述,避免含糊不清;
一致性(coherence):本体的定义必须支持推理的一致性;
可扩展性(extendibility):概念表达应仔细设计,并考虑到将来可能使用的本体概念,使本体可以被线性地扩展;
编码最少倾向性(minimaleneodingbias):知识概念化应体现在知识层,而不是依赖于某一特定的符号层的编码。
四、本体表示语言
1.基于谓词演算的本体表示语言
当前使用的本体表示语言多数基于框架模型和谓词逻辑。
这类表示语言的长处在于形式化的表示利于机器的自动处理,可以结合包含检查、自动分类等算法;主要缺点在于形式化表示形式的限定,有些知识很难用谓词逻辑准确地表示出来。
比较具有代表性的基于谓词演算的本体表示语言如KIF(Knowledge Interchange Format)、Ontolingua、CycL、Loom、F-logic(Frame logic)。
2.基于图的本体表示语言
基于图的表示方法是另外一种重要的本体表示方法,它的最大特点是直观。
如WordNet的语义网络、概念图(Conceptual Graphs,CG)、Conceptual Representation。
3.基于Web的本体表示语言
随着Web的快速发展,基于Web的本体表示语言逐渐成为当前一种重要的知识表示语言。
这种语言基本都采用了基于XML(eXtensible Markup Language)的语法结构,主要应用于Web信息的表示和共享。
如RDFS (RDF Schema)、OIL(Ontology Interchange Language)、DAML+OIL(DARPA Agent Markup Language+OIL)、OWL(Web Ontology Language)、SHOE(Simple HTML Ontology Extension)、OML(Ontology Markup Language)、XOL(XML-based Ontology
exchange Language)。
上面所讨论的各种本体表示语言都不是基于汉语而考虑的,都没有考虑到汉语语言学(尤其是汉语自然语言)的特点。
如果用这些语言来表示汉语的自然语言知识不但效率低、不自然,有些知识甚至根本不能表示。
如果用这些语言以半手工的方式从汉语自然语言中获取海量的知识更是十分困难的工作。
五、构建本体的工具
对于构建本体的工具,国内外计算机领域正在进行相关的研究,现在已经有了一些比较成熟的本体构建工具,如美国斯坦福大学的Protege,德国Karlsruhe 大学的KAON工具和斯坦福大学知识系统实验室(KSL)开发的Ontolingua等。
根据实际使用比较,由于Protege工具采取开放源代码,而且在实际使用中,Protege的本体建设的基本功能比较齐备,使用简单方便,容易上手,并且由于在国内外使用众多,有着详细友好的帮助文档以及大量的使用经验供使用者参考,Protege的具体功能模块划分清晰,并提供了完全的API接口,可以通过外部语义模块例如Racer扩展推理等功能,还可以直接存储和读取多种主流数据库中存储的本体文件,Protege及其API在易用性和成熟度上都优于其他两种工具.
六、国际上本体论的研究概况
国际上对本体论研究非常活跃,主要集中在人工智能和知识表示领域,近几年来由于因特网的普及,信息技术的发展,网络信息数量以指数形式增长,基于关键词和简单主题分类的网上信息查询结果往往不尽人意,一时间各类信息查询方法和研究如雨后春笋般发展起来,其中用于知识表示和知识管理的本体论,被认为是最有前途的办法之一。
本体论的研究兴起是近几年的事,也是网络快速发展的需求。
本体论研究的成果交流,也充分体现了当今网络信息传播的优势。
一篇有重要意义的科技论文,要想在国际上有一定影响的期刊上发表,出版时滞少则半年,多则1年以上。
而近年来与本体论相关的国际会议非常多,既在网络上征集会议论文,又在召开会议的同时及时发布相关重要论文。
同时,也有很多研究机构对本体论的相关研究使得该项研究成果迅速得以传播。
1.FhG-IITB的研究
弗劳恩霍夫应用技术促进协会信息与数据处理研究所(FhG-IITB)是欧洲在信息
领域著名的研究机构,在信息管理,知识管理,项目管理以及软件代理方面拥有前沿的理论与技术,并参与了多个欧盟信息领域的项目,例如现正在执行的欧盟项目有:
(1)CHIL-Computers In the Human Interaction Loop
http://chil.server.de
(2)APRON-Aviation Policy Information Resources based on Observatory
Networks
http://apron.server.de
(3)ProMain—Progress in European Maintenance and Management of Railway Infrastructure
http://promain.server.de
(4)CroBIT-Cross Border Information Technology
http://crobit.server.de
该所的Schonbein 研究员多年来从事本体论建立的相关研究,在ISVA (Intelligent Sensor Network for Reconnaissance)项目中设计了相关的顶层本体、核心本体和领域本体。
该所的Muller研究员是基于本体论进行知识管理方面的专家,他提出的基于本体论和软件代理进行知识表现和管理的系统模型在多个项目中得到成功应用。
如:(1)在ISVA(Intelligent Sensor Network for Reconnaissance)项目中,该所开发了一个基于软件代理和本体论的信息协作系统;
(2)在OVID(Strengthening of self-organizing capablities in traffic using iuK-supported systems)项目中,该所开发了基于软件的交通规划和管理模拟系统。
(3)在CHIL(Computers In the Human Interaction Loop)项目中,该所通过软件代理
实现计算机自动监测人的行为并对其意图和后续行为进行预测。
2.KSL的研究
美国斯坦福大学的知识系统实验室(KSL—Knowledge Systems Laboratory,以下简称KSL),无论是在本体建模工具领域,还是在本体应用层面的研究方面,都站在了知识工程领域的最前沿。
KSL的N.Gruber在1993年最早提出了“本体”在知识工程领域的定义。
他曾经是首届本体国际会议(FOIS98一Formal Ontology in Information Systems,1 998)的主席。
Guarino博士根据整体与部分理论、同一性(Identity)理论和关系理论等哲学理论成果,设计了顶级/层本体。
Guarino本体框架的设计特征是根据特殊性(Particulars)和普遍性(Universals)两个角度来设计。
特殊性(Particulars)表示具体的实体、事件、物质。
普遍性(Universals)表示从具体事件中抽象出的概念、属性、状态和关系等。
目前,KSL的研究主题主要有以下三大方面:
(1)知识共享技术(Knowledge Sharing Technologies),包括:
·本体的合并及诊断(Ontology Merging and Diagnosis);
·语义网技术;
·可复用知识的海量存储库(Large—Scale Repositories of Reusable Knowledge);·增强的设计对象复用技术(Technology for Enhanced Reuse of Design Objects):(2)物理系统的建模与分析(Modeling and Analysis of Physical Systems),包括:·异构系统的建模、分析和控铝JJ(Modeling,Analysis and Control of Hybrid systems);
●基于建模支持的分布式协作设计(Model—Based Support of Distributed
Collaborative Design);
·机械设计的逻辑表示(Logical Representation of Mechanical Design);
(3)应用性智能系统(Adaptive Intelligent Systems),包括:
·虚拟剧院项目(Virtual Theater Project);
●医院自动护理项目(Guardian);
·可自主的移动代理项目(AI bots)。
在上述研究项目中,知识共享技术居于研究的首位。
而在知识共享技术的研究中,有关本体和以本体为基础的语义网技术的研究又处于首位。
由此足见KSL 对本体研究的重视程度。
在本体的合并与诊断项目中,主要的成果是“吐火兽(Chimaera)”,Chimaera 是支持用户在Web上创建与维护分布式本体的软件系统。
它具有两项优于其它本体构建或编辑工具的功能:其一、支持多个本体的合并,其二、能够对复合型本体系统中个别的本体进行诊断。
Chimaera支持用户以合并和诊断本体为目的,以不同的格式下载或上载知识库,重新组织分类法,解决命名的冲突、浏览本体,以及编辑术语等。
KSL对语义网技术的研究主要集中于语义标引和基于代理的技术两个方面。
关于语义网技术研究的项目主要是DAML项目。
DAML项目的全称是DARPA Agent Markup Language Project(以下简称DAML),其中包含基于DAML的服务(DAML.Based Services)、文档模板(Document Templates)和查询式回答(Query Answering)等研究子专题。
DAML项目是由美国国防部高级研究计划署(DARPA,The Defense Advanced Research Proj ects Agency,以下简称DARPA)赞助的项目,旨在于开发第二代互联网一语义网的工具和技术。
Richard Fikes教授是该项目的主要研发人员,Deborah McGuinness博士是项目主管和DAML开发语言工作组的首席科学家。
Sheila Mcllraith博士是基于DAML的Web Services项目的技术主管。
该项目的研究重点有以下四点:·DAML语言研究;
·基于DAML的Web Services技术研究;
●DAML工具研究;
·基于DAML的问答(Query Answering)技术研究。
KSL对“可复用知识海量存储库”的研究是DARPA赞助的快捷知识构造(RKF.Rapid Knowledge Formation)项目的一部分,“可复用知识海量存储库”的前身是高性能知识库项目(HPKB-High Performance Knowledge Bases)。
该项研究旨在开发支持协同构造和高效利用高度易于重用的分布式本体元库(即综合库,元数据与数据均可以存放进去)。
Ontolingua Server作为KSL的许多知识表示项目的核心服务器,提供了一种分布式协作环境,可以对本体进行浏览、创建、编辑、修改和使用。
Chimaera作为对本体进行利用的复杂工具。
具备高级合并和知识库清理功能。
KSL还创建了包含本体和知识表示方面信息源的网上文库,用于储存并提供下载。
除此之外,研究基于本体检索加工的学者和机构还有西班牙萨拉戈萨大学(University of Zaragoza)的Eduardo Mena和巴斯克大学(University of BasqueCountry)的Arantza Iliarramendii,以及美国佐治亚大学(University of Georgia)的大规模分布式信息系统实验室(LSDIS.Large Scale and Distributed Information Systems)159和美国德克萨斯大学计算机系(Department of Computer Sciences。
The University of Texas at Austin)的基于知识系统研究小组。