本体理论与领域本体的构建
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章本体理论与领域本体的构建
2.1 本体理论
2.1.1 本体的基本概念
本体论(Ontology)的概念最初起源于哲学领域,是形而上学理论研究的一个分支,与认识论相对。
认识论研究人类知识的本质和来源,即研究主观认知,而本体论研究的则是客观存在。
Ontology一方面研究存在的本质,另一方面研究客体对象的理论定义,即整个现实世界的基本特征。
现在哲学领域较多翻译为“本体论”。
经过多年的演进,到今天,经过人们对“本体”这一概念的重新理解和定位,本体的理论与方法早已被信息领域采用,用于知识的组织、表示、共享和重用。
本体在计算机学科的使用可以追溯到上个世纪80年代,Alxenader在1986年发表的文章被视为本体在计算机领域获得不同于哲学领域的新的研究的起点。
随后Ontolgoy在人工智能领域界获得稳步的发展,并被逐渐赋予了新的含义[8-9]。
1991年,在人工智能领域,Neches等人最早给出Ontology定义,Neches认为[10]“An ontology defines the basic terms and relations comprising the vocabulary of a topic area,as well as the rules for combining termsand relations to define extensions to the vocabulary.”即“一个本体给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规则定义这些词汇的外延规则。
”本体定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则[11]。
1993年美国斯坦福大学知识系统实验室(Knowledge System Laborary,简称KSL)的Gruber给出了本体在信息科学领域被广泛接受的定义:“An ontology is an explicit specification of a conceptualization”[12]。
即“本体是概念化的明确的规范化说明”。
这也是最著名并被引用最为广泛的定义。
1995年Guarino和Giaretta 将本体定义为[13]“本体是概念化的明确部分的说明一种逻辑语言的模型。
”这个定义与Gruber的理解有异曲同工之妙。
随后在1997年W.N.Borst对Gruber的定义进行了引申,提出了“本体是共享概念模型的形式化规范说明”,以及1998年J.Studer的“本体是共享概念模型的明确的形式化的规范说明”。
本体的定义随着时间的推移也在进行着不断的变化发展,为明确起见,现将本体发展史中较有代表性的定义列表如下:
表2.1 本体发展史中的定义列表时间/提出人定义
1991/Neches 一个本体给出构成相关领域词汇的基本术语
和关系,以及利用这些术语和关系构成的规
则定义这些词汇的外延规则
1993/Gruber 本体是概念化的明确的规范化说明1995/Guarino和Giaretta 本体是概念化的明确部分的说明一种逻辑语
言的模型
1996/ Bernaras等本体提供了一种用来显式地描述概念化的方
式
1997/W.N.Borst 本体是共享概念模型的形式化规范说明
1997/ Swartout 本体是一个为描述某个领域而按继承关系组
织起来作为一个知识库骨架的一系列术语1998/J.Studer 本体是共享概念模型的明确的形式化的规范
说明
2000/ Fensel 本体是对一个特定领域中重要概念的共享形
式化的描述
2001/ Noy F.N. 本体是对某个领域中的概念形式化的明确表
示,每个概念的特性描述了这个概念的各个
方面及其约束的特征和属性
2002/ Fonseca 本体是以某一观点用详细明确的词汇表描述
实体,概念,特性和相关功能的理论2003/Starlab 本体必需包括所使用术语的规范说明,决定
这些术语含义的协议,以及术语之间的联系,
来表达概念由上述列表可见,人们对本体的定义和理解是有一个逐步认识的过程的。
尽管本体的定义有很多不同的方式和不同的侧重点,但从内涵上来讲,本体的概念有下面四层含义:
(1)概念化(conceputalization):通过抽象出客观世界中一些现象(phenomenon)的相关概念而得到的模型,其表示的含义独立于具体的环境状态。
(2) 明确(explicit):概念与概念之间的联系及使用这些概念的约束都被明确定义。
(3) 形式化(formal):有精确的数学描述,是计算机可读的。
(4)共享(Share):本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体[14]。
可见这些不同的研究者虽然各执己见,但对本体的内涵却认识一致,都把本体当作某个领域内不同主体(人、代理、机器等)之间进行交流(对话、互操作、共享等)的语义基础。
其实,本体就是通过对于概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识和描述语言,是一个已经得到公认的形式化的知识表示体系,包含词表(或名称表/术语表),词表中的术语全是与某一专业领
域相关的,而逻辑声明全部用来描述术语的含义及关系。
2.1.2 本体的分类
1、按照领域依赖程度:
(1)顶层(top-level)本体:描述的是最普通的概念及概念之间的关系,如空间、时间、事件、行为等,完全独立于特定的问题和领域,其他本体都是该类本体的特例。
(2)领域(domain)本体:描述的是特定领域(医学、地理等)中的概念及概念之间的关系。
(3)任务 (task)本体:描述的是特定任务或行为中的概念及概念之间的关系。
(4)应用(application)本体:描述的是依赖于特定领域和任务的概念及概念之间的关系。
在这个分类当中,领域本体和任务本体是处于同一个研发层次的,它们都能应用顶层本体中定义的词汇来描述自己的词汇。
应用本体既能应用领域本体中的概念,也能引用任务本体中的词汇。
2、按照细化程度
Guarino从两种不同的维度对本体进行划分。
除了依据对领域的依赖程度分类,还提出了以详细程度分类。
详细程度是相对的、模糊的一个概念,是描述或刻画建模对象的程度。
参考(reference)本体:详细程度高。
共享(shareable)本体:详细程度低。
3、按照形式化程度
(1)高度非形式化:用自然语言松散表示。
(2)结构非形式化:用限制的结构化的自然语言表示。
(3)半形式记:用半形式化(人工定义的)语言表示。
(4)严格形式化:所有术语都具有形式化的语义,能在某种程度上证明完全性和合理性。
4、按照是否具备推理功能
(1)轻量级本体(Lightweight ontology):轻量级本体不具备逻辑推理功能,例如叙词表和WordNet。
(2)中级本体(Middle ontology):中级本体具有简单的逻辑推理功能,系统可以识别一阶谓词逻辑的表达式。
(3)重量级本体(Heavyweight ontology):重量级本体具有复杂的逻辑推理功能,系统可以识别更加复杂的二阶谓词逻辑的表达式,并为更加复杂的推理功能的实现预留了接口,如Cyc本体系统[9]。
5、按本体描述对象的不同,Uschold把本体分为特殊领域本体(如医药、地理、金融等)、一般世界知识本体、问题求解本体和知识表示语言本体等。
6、按不同的研究主题[15]:
(1)知识表示本体(Knowledge Representation ontologies),如Frame Ontology 和斯坦福大学知识系统实验室提出的知识描述语言KIF(Knowledge Interchange Format)。
(2)通用或常识本体(General/Common ontologies),如Cyc本体系统。
到2000年为止,Cyc的常识库已有了1,600,000条知识和几百个微理论
(micro-theory)。
(3)领域本体(Domain ontologies),如基因本体GO(Gene ontologies)、爱丁堡大学企业本体。
(4)语言学本体(linguistic ontologies),关于语言、词汇等的本体,典型实例有GUM(Generalized Upper Model),WordNet和MindNet等。
(5)任务本体(Task ontologies),主要研究如Chandrasekaran等人的关于任务和问题求解方法本体的研究。
除了上述几种分类方法外,1999年,Perez和Benjamins在分析和研究了各种本体分类法的基础上,归纳出10种本体:知识表示本体、常识本体、顶级本体、元(核心)本体、领域本体、语一言本体、任务本体、领域一任务本体、方法本体和应用本体。
这种分类法是对Guarino提出的分类方法的扩充和细化,但是这10种本体之间存在交叉,层次不够清晰。
2.1.3 本体的功能与作用
1、本体为人和主体之间的沟通和交流提供了共享的基础,也方便了不同领域的系统开发人员和研究人员之间的沟通,它是人机在语义上交互的最好的基础。
而开发领域本体的主要目的之一就是在人们和软件智能之间对信息结构的理解提供一种可共享的、共同的理解机制。
2、本体支持对于知识的重用。
本体提供了独立于应用的描述方法使之可在不同系统间重用。
例如在基于构件的软件开发过程中,开发知识系统时知识工程师可以将本体论概念引入知识工程,详细说明模型中的概念、实例、关系和公理等实体,并以此建立领域本体。
然后针对属性提出本体建模概念化分析的形式化方法,解决知识共享中的问题。
此举有效的提高了工作效率,促进了来自不同领域的研究人员和组织间的交流。
3、本体提供了一种结构化的表示领域知识的形式化方法。
在本体中,明确说明了领域概念及概念之间的关系,并且支持对领域规则的描述,是领域知识的形式化表示。
4、知识本体可以明确领域假设,使领域公理得到明确描述从而达成共知。
5、本体有助于知识的标准化。
本体为人们描述目标世界提供了一组通用词汇,而这种通用的词汇正是实现知识系统化的基础。
通用词汇和知识的系统化有利于实现知识的标准化。
2.1.4 本体的应用
目前本体已经广泛应用于人工智能、知识工程及其相关领域。
本体的功能及其应用领域大致可以概括为三类:作为知识表示方法,应用于知识工程和知识管理;作为系统分析方法,应用于信息建模、面向对象分析和数据库设计;作为信息语义的形式化表示方法,应用于异构信息集成、多智能体系统、语义Web等。
具体来说可以分为以下几个方面:
1、信息检索
本体具有的良好的概念层次结构和对逻辑推理的支持,因而在信息检索,特别是在基于知识的检索中得到了广泛的应用。
基于本体的信息检索的基本设计思想可以总结如下:
(1)在领域专家的帮助下,建立相关领域的本体;
(2)收集信息源中的数据,并参照已建立的本体把收集来的数据按规定格式存储在元数据库(RDB(关系数据库),KDB(知识数据库)等)中;
(3)对用户检索界面获取的查询请求,查询转换器按照本体把查询请求转换成规定的格式,在本体的帮助下从元数据库中匹配出符合条件的数据集合,检索的结果经过定制处理返回给用户。
表2.2 本体应用于信息检索的项目项目说明
(Onto)2Agent 帮助用户检索所要的www上已有的Ontology,主要采用参照Ontology,即以www上已有的Ontology为对象建立起来的Ontology,保存各类
Ontology的元数据。
Ontobroker 面向www上的网页资源,目的是帮助用户检索所需的网页,这些网页含
有用户关心的内容。
SKC 解决信息系统语义异构问题,实现异构自治系统间的互操作,通过在Ontology上的一个代数系统来实现Ontology之间的互操作,实现异构系
统之间的互操作。
2、电子商务
电子商务的出现,为来自不同领域、不同地区甚至不同国家的商业伙伴之间进行交易提供了更为方便快捷的商务平台,因此受到了企业和商家越来越多的重视。
但由此而来的电子商务交易方的大量产品描述、目录和文档,以及亟待解决的异构问题成为B2B电子商务发展的瓶颈所在。
本体在B2B的通信中可以起到信息集成的作用,它将信息的表示分为三个层次:语法层、数据模型层和本体层,其中语法层与使用XML序列化表示的文档实例相对应;数据模型层将语法层中的差异抽取出来进行统一表示,并用对象--属性--值的形式对产品进行描述;而本体层则定义不同产品和文档标准提供的各种信息的术语,有效地帮助其完成Web数据的语义处理和管理。
3、数字图书馆
数字图书馆是社会信息基础结构中信息资源管理、存储和传输的基本组织形式,拥有丰富的超容量多媒体介质的数字化信息资源,依托网络为信息需求者提供快捷高效的数字化图书馆信息服务。
但各类信息常在具体系统条件限制下用专门语言定义组织为内部结构和格式,难以有效进行机器支持的检索、解析、处理和交换,更不要说进行跨文献单元、数据类型、数据层次和系统范围的信息挖掘、抽取、综合分析描述、转换了。
本体的出现就极大的解决了语义知识缺乏的问题,为XML与RDF等技术提供语义支持。
在进行信息资源整合时,本体可以灵活处理各类信息资源,有效识别信息资源的类型,提供资源库领域知识的规范描述,提供元数据映射方案,为智能代理与信息环境之间提供基于语义的理解机制,此外还可作为跨平台、跨系统之间的通信中介存在,为揭示知识间的语义关系提供了清晰的描述,为数字图书馆提供了一个统一框架、规范模型,利用概念、属性、属性与属性之间的映射关系等对语义进行描述,为语义理解与交流的可行性大大加分。
4、知识服务
知识服务,即以信息知识的搜寻、组织、分析的知识和能力为基础,根据用户的问题和环境,融入用户解决问题的过程之中,提供能有效支持知识应用和知识创新的服务。
目前,数字图书馆知识服务需要一个新型的技术基础,支持数据挖掘、知识发现、知识析取、知识应用和智能化服务(智能Web服务)。
无疑,本体技术仰仗其丰富的语义和广泛的关系,是实现以上目标的最佳手段,将本体建设和相应的代理引擎设计相结合即可解决问题。
用DAML-S在服务模型基础上定义流程模型本体,综合人工智能规划和工作流程研究成果,定义Web服务中的流程类型和流程控制等信息,可以较好的表示Web服务自动集成中的流程分类、合成、控制和时间约束等细节。
5、自然语言理解
本体是对世界知识概念化描述,它作为系统中的知识库,是由概念集合以及概念之间的关系所组成的计算实体。
我们可以利用本体中所蕴涵的世界知识中的约束,结合语言知识可以进行消歧和推理。
在系统中,歧义的产生主要源于两方面:①句法分析产生多种可能的句法分析树,即结构歧义;②词汇对应多个语义概念,即由多义词产生的词汇歧义。
消
歧就是在多个可能的意义中选择最适合的意义,利用本体中的概念以及概念之间的约束关系进行语义分歧的消除。
一般来说消歧可以有以下几种手段:第一,利用句法信息,在分析及生成句法树的同时检查结构是否符合词汇的句法限制。
第二,利用语义片断组合过程来检查语义限制。
第三,利用本体的结构定义权重,用语义描述的权值来消歧。
由此可知,本体在自然语言理解领域中的作用:首先,领域知识在释疑中往往起到极为重要的作用,而领域本体则为领域知识的表示提供了基础;其次,领域本体有助于识别不明确的语义分类,在此处本体又担当起了概念词典的作用。
2.1.5 本体的集成
本体集成的问题由欧洲委员会于2001年启动的SWAP(Semantic Web and Peer-to-peer)项目[16]发现。
该项目需要一种能够在每个终端构建各自的本体之后生成一个大本体的工具,因而发现了将多个不同团队构建的多个小本体集成为一个大本体时的本体映射和本体合并的问题[17]。
另外,由欧洲委员会资助的另外一个项目SEKT(Semantically Enabled Knowledge technologies)[18]也发现了本质上相同的问题,他们需要为使用多个不同本体的应用找出这些本体之间的关系,实现本体之间的交互,以达成基于这些本体的数据间的重用和互操作[19],称其为“本体调解”(ontology mediation)。
在本体集成的研究过程中,美国斯坦福大学、德国卡尔斯鲁厄大学等一批顶尖本体研究机构与“知识网”(KnowledgeWeb, KW)[20]等项目取得了大量的研究成果,处于国际领先水平。
而在国内,本体集成还是一个相对较新的研究领域,相关研究刚刚起步。
其中,对于本体构建工程的研究集中于本体的自动构建,也就是本体学习(ontology learning),孔敬[21]、杜小勇等人[22]进行了较为全面的综述。
本体维护工程,也就是本体生成之后使用过程中对本体进行修改使其进化的工程,由于这一方面的研究在国际上也还没有展开,所以马文峰等人[23]只是简单的介绍了本体进化的概念和研究前景。
而对于本体集成工程,目前还未见有研究综述出现。
1、本体集成的基本原则
通过国内外本体集成方法和过程的研究,本体集成应该遵循以下四条基本原则:
(1)完备性原则。
主要指语义完备性和约束完备性,待集成本体中如果有语义或约束应用需求,则该语义或约束一定要在目标本体中有所体现。
(2)进化原则。
本体集成同本体构建一样,是一个动态过程,集成后的本体一定要具有可复用性及二次开发的空间和能力。
(3)广度与深度兼顾原则。
即覆盖程度和细化程度要求两者兼顾。
(4)实用性原则。
所谓实用性原则就是一方面要尽量减少人的工作量,另一方面要考虑集成的复杂程度,当将多个本体进行集成所花费的工作量及耗费比
重新构建一个新本体还要大的时候,就已经无所谓集成了[24]。
2、本体集成的分类
广义上所说的本体集成,即本体融合(Ontology Reconciliation),指的是把多个本体汇聚到一起使用,此时所涉及到的情况很多,本体集成也可广义的分为如下两类:本体串联(Ontology Aligning)和本体集成(Ontology Integrating)。
本体串联是把两个本体串在一起,建立相互之间的映射,但各自本体仍然独立并且没有被改变。
本体集成则是把两个本体O1和O2有机地结合在一起,产生新的一个本体O和从实体O1和O2到实体O的映射A*。
狭义来讲,按照集成程度的不同,本体集成可以分为本体映射(ontology mapping)、本体结盟(ontology alignment)和本体合并(ontology merging)。
上述3种形式的集成程度依次增强,体现了从松散集成、封装集成到紧密集成的过渡关系[25]。
按照本体语言的不同,本体集成可以分为本体概念层集成和本体语言层集成。
当有两个或多个本体库描述的领域有交集时,要对这些本体库进行集成,就必须解决概念层描述的差异。
而当语法存在差异以及表达能力上存在差异时,即需进行本体语言层的集成[26]。
2.2 领域本体构建研究
根据前文所述,本体作为一种通用的知识共享模式,为特定领域的人和应用系统的交流提供极大的便利,也因为如此,本体的研究和应用迅速延伸到知识工程、自然语言处理、信息检索系统、智能信息集成和知识管理、信息交换和软件工程等领域,而如何对这些不同领域内的知识进行抽取和描述并构建出合适的领域本体已成为目前的研究热点之一。
所谓的领域本体(domain-specific ontology)就是对学科概念的一种描述,包括学科中的概念、概念的属性、概念间的关系以及属性和关系的约束[27]。
由于知识具有显著的领域特性,所以领域本体能够更为合理而有效的进行知识的表示。
领域本体可以表示某一特定领域范围内的特定知识。
这里的“领域”是根据本体构建者的需求来确立的,它可以是一个学科领域,可以是某几个领域的一种结合,也可以是一个领域中的一个小范围。
2.2.1 领域本体的模型及建模原语
下面是一个用于领域知识表示的本体模型:领域本体是一个四元组O=〈C,I,R,A x〉。
其中:C是本体中的类集,I是类集C中的实例集,R是类集C上的关系集合,类的继承关系(is a)是最常见的类间关系,而A x是类间公理集合,给出类集C的类之间属性和关系的严格约束。
如果再把关系R详细划分为关系和函数,就有了Perez等人用分类法组织的五元组本体:O=(C,R,F,A,I),其中C、R、F、A和I分别是本体中概念、关系、函数、公理和实例的集合,这五点也可以被称为五个基本的建模原语。
1、类(classes)或概念(concepts)
概念(Concept)是一类对象的集合的抽象描述:C={O1,O2…O n},其中O i 是领域中的对象。
概念的含义很广,可以表示任务、功能、行为、策略和推理过程等等。
在实践中,本体中的概念往往可以和类(Class)、类别(Category)、种类(Type)通用。
但是本体中的类与面向对象编程中的类是有区别的,两者的重心不同,前者关心类的结构特征,而后者则关心类的操作特征。
2、关系(Relation)
描述n个概念所含对象之间的联系:C1,C2…C n间的n元关系Rn:C1×C2×…×C n是n个概念的笛卡儿乘积的任意子集。
关系描述领域概念间的相互作用,基本的二元关系有4种:part-of,表示概念之间部分与整体的关系;kind-of,表示概念之间的继承关系;instance-of表示概念的实例与概念之间的关系;attribute-of示某个概念是另一个概念的属性。
在实际建模中,概念之间的关系不限于这4种,可以根据领域的具体情况定义相应的关系,例如connect-to。
在实践中,本体中的关系往往可以和性质(Property)、属性(Attribute)、角色(Role),槽(Slot)通用,例如在描述逻辑中称为Role,而在基于框架的表示中称为Slot。
3、函数(Function)
F:C1×C2×…×C n-1→C n,函数是一类特殊的关系,其前n-1个元素可以唯一的确定第n个元素,如Mother-of就是一个函数,mother-of(x,y)表示y是x的母亲。
4、公理(Axiom)
公理是无需证明的永真断言。
公理在本体中有两个作用:严格定义概念和在本体所表达的知识范围内回答问题。
5、实例(Instance或Individual)
实例表示元素,即概念对应的对象。
一般认为,类C是具有类似性质的所有个体的抽象。
在领域本体中,实例I 和类C紧密相关,是本体中最基本最具体的对象,个体从属于某个类就成为这个类的一个实例。
类有外延和内涵两个侧面。
外延指类所代表的个体的范围,可以认为是类的所有实例构成的集合;内涵则是类的实例共同具有的所有性质。
某个个体是类的实例,当且仅当它具有内涵中规定的所有性质;某种性质在类的内
涵中,当且仅当类的所有实例都具有这种性质。
本体中所有类和实例构成本体的论域。
另外,在基于描述逻辑的本体中,公理A可以分为两类:术语公理和实例公理,实例公理对一个本体而言并非必需的,而术语公理则可以看成一类关系,在实践中往往定义为本体表示语言的描述符。
函数F和实例I不是必需的,可视本体建模的详尽程度而进行取舍。
2.2.2 本体建模语言
目前有很多种本体语言,但归结起来大体可以分为两大类型:基于AI的本体实现语言和基于Web的本体标记语言,以下我们将分别简要介绍。
一、基于 AI 的本体描述语言
1、KIF
KIF(Knowledge Interchange Format)是由斯坦福大学开发的。
斯坦福(Stanford)大学知识系统实验室进行了关于知识本体的研究,包括研究知识的本质特征和基本属性。
在这项研究中,D. Bobrow, R. Brachman和 V. Lifschitz
等AI专家提出了这种称为知识交换格式(knowledge interchange format,简称KIF)的知识描述语言,它的研究重点是语言的表达能力。
它不同于KR系统间交换知识的格式,是一种基于一阶逻辑的语言,特点是:它有公开的语义,不再需要专门的解释器;在逻辑上是全面的,可以对任意的逻辑语句进行表达;可以提供对元知识的表现。
KIF 和其它知识表示语言之间的区别在于它必须是和应用完全无关的,另外必须具有足够的表达能力使得所有其它的知识表示语言都有转换成 KIF 标
准格式的可能。
2、Ontolingua
Ontolingua是一种基于KIF(Knowledge interchange format),提供统一的规范格式来构建本体的语言。
它可以用来定义对象、函数和关系。
KIF拥有明确的语义,它是基于一阶谓词逻辑运算的,并带有注释性的前缀。
KIF还可以提供元知识的表示和非单调性的推理规则。
KIF作为一种交互格式,从本质上对本体进行了规定。
但这种用KIF写出来的有关本体的规范说明相当乏味难懂。
在Ontolingua 中,定义本体是一种形式化和描述性的表示。
它包含一个主体领域中涉及到的词汇(术语)以及描述这些词汇是什么,之间如何相关和能否彼此相互关联的逻辑化的断言。
该语言支持 3 种本体定义方式:(1)采用 KIF 表示;(2)仅仅使用 frame ontology的词汇库定义本体;(3)同时使用上述两种表示方式。
Ontolingua 包含 KIF 分析器、本体分析工具和一组 Ontolingua 转换器,且独立于特定表示系统的本体定义机制。
其特点是:为构造和维护本体,提供了统一的、计算机可读的方式;由其构造的本体可以方便的转换到各种知识表示和。