本体概念、描述语言和方法论方面的综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

本体概念、描述语言和方法论方面的综述。

一、本体的概念
Ontology 的概念最初起源于哲学领域,可以追溯到公元前古希腊哲学家亚里士多德(384-322 b.c.)。

它在哲学中的定义为“对世界上客观存在物的系统地描述,即存在论”,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质[1]。

在人工智能界,最早给出Ontology定义的是Neches等人,他们将Ontology定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”[1]。

Neches认为:“本体定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则。

”(“An ontology defines the basic terms and relations comprising the vocabulary of a topic area, as well as the rules for combining terms and relations to define extensions to the vocabulary.”)[6]。

后来在信息系统、知识系统等领域,越来越多的人研究Ontology,并给出了许多不同的定义。

其中最著名并被引用得最为广泛的定义是由Gruber提出的,“本体是概念化的明确的规范说明”,原文参见:
"An ontology is an explicit specification of a conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what "exists" is that which can be represented. When the knowledge of a domain is represented in a declarative formalism, the set of objects that can be represented is called the universe of discourse. This set of objects, and the describable relationships among them, are reflected in the representational vocabulary with which a knowledge-based program represents knowledge. Thus, in the context of AI, we can describe the ontology of a program by defining a set of representational terms. In such an ontology, definitions associate the names of entities in the universe of discourse (e.g., classes, relations, functions, or other objects) with human-readable text describing what the names mean, and formal axioms that constrain the interpretation and well-formed use of these terms. Formally, an ontology is the statement of a logical theory."[2, 3]。

和这个定义类似的有N. Guarino and P. Giaretta (1995)“本体是概念化的明确的部分的说明/一种逻辑语言的模型”(“an ontology is an explicit, partial account of a conceptualization/ the intended models of a logical language.”)。

W. N. Borst对该定义也进行了引申“本体是共享的概念模型的形式化的规范说明”(“An ontology is a formal specification of a shared conceptualization”)[11]
Fensel对这个定义进行分析后认为Ontology的概念包括四个主要方面[4]:
1. 概念化(conceptualization):客观世界的现象的抽象模型;
2. 明确(explicit):概念及它们之间联系都被精确定义;
3. 形式化(formal):精确的数学描述;
4. 共享(share):本体中反映的知识是其使用者共同认可的。

原文:“an abstract model of a phenomenon termed ‘conceptualization’,a precise mathematical description hints the word ‘formal’, the precision of concepts and their relationships clearly defined are expressed by the term ’explicit’and the existence of an agreement between ontology users is hinted by the term ‘shared’.”
Swartout将本体定义为:“本体是一个为描述某个领域而按继承关系组织起来作为一个知识库的骨架的一系列术语”。

(“An ontology is a hierarchically structured set of terms for describing a domain that can be used as a skeletal foundation for a knowledge base.”)[5]。

他的
定义强调了本体中术语(terms)的重要性。

Fensel定义“本体是对一个特定领域中重要概念的共享的形式化的描述”。

(“An ontology is a common, shared and formal description of important concepts in an specific domain.”)[7]。

Noy F.N. 认为“本体是对某个领域中的概念的形式化的明确的表示,每个概念的特性描述了概念的各个方面及其约束的特征和属性。

”(“An ontology is a formal explicit representation of concepts in a domain, properties of each concept describes characteristics and attributes of the concept known as slots and constrains on these slots.”)[8]。

Fonseca定义“本体是以某一观点用详细明确的词汇表描述实体、概念、特性和相关功能的理论”。

(“An ontology is a theory which uses a specific vocabulary to describe entities, classes, properties and related function with certain point of view.”)[9]。

Starla认为“本体必需包括所使用术语的规范说明、决定这些术语含义的协议、以及术语之间的联系,来表达概念”。

(“An ontology necessarily includes a specification of the terms used (terminology) and agreements that allow to determine their meaning, along with the possible inter-relationships between these terms, standing for "concepts".”)[10]。

M. Uschold and M. Gruninger认为“”(“Ontology is an explicit account or representation of (some part of) a conceptualisation.”)[12]。

他还推荐了一个来自SRKB(Shared Re-usable Knowledge Bases)电子邮件列表的定义“本体是关于共享的概念模型的协议。

共享的概念模型包括进行领域知识建模的概念框架、互操作的agent之间进行交流的内容明确协议、以及表达特定领域理论的协定。

在知识共享的上下文环境中,本体特指表达性词汇表的定义的形式。

一个非常简单的例子就是分类的层次结构,指明了类和它们之间的包含关系。

关系数据库模式的作用也和本体一样,它指定了某些共享数据库之间可以存在的关系以及必须保持的完整性约束”(“Ontologies are agreements about shared conceptualization. Shared conceptualizations include conceptual frameworks for modeling domain knowledge; content-specific protocols for communication among inter-operating agents; and agreements about the representation of particular domain theories. In the knowledge sharing context, ontologies are specified in the form of definitions of representational vocabulary. A very simple case would be a type hierarchy, specifying classes and their subsumption relationships. Relational database shemata also serve as ontologies by specifying the relations that can exist in some shared database and the integrity constraints that must hold for them.”)。

以下是个人的看法:
尽管定义有很多不同的方式,但是从内涵上来看,不同研究者对于本体的认识是统一的,都把本体当作是领域(可以是特定领域的,也可以是更广的范围)内部不同主体(人、机器、软件系统等)之间进行交流(对话、互操作、共享等)的一种语义基础,即由本体提供一种明确定义的共识。

进一步,本体提供的这种共识更主要的是为机器服务,机器并不能像人类一样理解自然语言中表达的语义,目前的计算机也只能把文本看成字符串进行处理。

因此,在计算机领域讨论本体,就要讨论本体究竟是如何表达共识的?也就是概念的形式化问题。

这就涉及到本体的描述语言、本体的建设方法等具体研究内容。

二、本体的描述语言
本体语言使得用户为领域模型编写清晰的、形式化的概念描述,因此它应该满足以下要求[18]:
✓良好定义的语法(a well-defined syntax)
✓良好定义的语义(a well-defined semantics)
✓有效的推理支持(efficient reasoning support)
✓充分的表达能力(sufficient expressive power)
✓表达的方便性(convenience of expression)
大量的研究工作者活跃在该领域,因此诞生了许多种本体描述语言,有RDF和RDF-S、OIL、DAML、OWL(注:DAML+OIL不再单独列出,认为它是一个过渡,直接介绍OWL)、KIF、SHOE、XOL、OCML、Ontolingua、CycL、Loom。

我们简单把它们归类如下:✓和Web相关的有:RDF和RDF-S、OIL、DAML、OWL、SHOE、XOL。

其中RDF 和RDF-S、OIL、DAML、OWL、XOL之间有着密切的联系,是W3C的本体语言
栈中的不同层次,也都是基于XML的。

而SHOE是基于HTML的,在HTML的
一个扩展。

✓和具体系统相关的(基本只在相关项目中使用的)有:Ontolingua、CycL、Loom。

✓KIF已经是美国国家标准,但是它并没有被广泛应用于互联网,作为一种交换格式更多的应用于企业级。

下面我们逐一进行介绍。

1.RDF、RDF-S[22,23]
Resource Description Framework,资源描述框架,是W3C在XML的基础上推荐的一种标准,用于表示任何的资源信息。

RDF提出了一个简单的模型用来表示任意类型的数据。

这个数据类型由节点和节点之间带有标记的连接弧所组成。

节点用来表示Web上的资源,弧用来表示这些资源的属性。

因此,这个数据模型可以方便的描述对象(或者资源)以及它们之间关系。

RDF的数据模型实质上是一种二元关系的表达,由于任何复杂的关系都可以分解为多个简单的二元关系,因此RDF的数据模型可以作为其他任何复杂关系模型的基础模型。

W3C推荐以RDF标准来解决XML的语义局限。

RDF和XML是互为补充的。

首先,RDF希望以一种标准化,互操作的方式来规范XML的语义。

XML文档可以通过简单的方式实现对RDF的引用。

其次,由于RDF是以一种建模的方式来描述数据语义的,这使得RDF可以不受具体语法表示的限制。

但是RDF仍然需要一种合适的语法格式来实现RDF在Web上的应用。

将RDF序列化为XML表示可以使RDF获得更好的应用可处理特性,并使得RDF数据可以像XML数据一样的容易使用、传输和存储。

因此,RDF是定制XML的良伴,而不只是对某个特定类型数据的规范表示,XML和RDF的结合,不仅可以实现数据基于语义的描述,也充分发挥了XML与RDF的各自优点,便于Web数据的检索和相关知识的发现。

与XML中的标记(tags)类似,RDF中的属性(properties)集也是没有任何限制的。

也就是说存在同义词现象和一词多意现象。

RDF的模型不具备解决这两个问题的能力,而RDF Schema虽然可以为RDF资源的的属性和类型提供词汇表,但是基于RDF的数据语义描述仍然可能存在语义冲突。

为了消解语义冲突,我们在描述数据语义的时候可以通过引用Ontology的相关技术,对语义描述结果作进一步的约束。

幸运的是,RDF(Schema)在提供了简单的机器可理解语义模型的同时,为领域化的Ontology语言(OIL,OWL)提供了建模基础,并使得基于RDF的应用可以方便地与这些Ontology语言所生成的Ontology进行合并。

RDF的这一特性使得基于RDF的语义描述结果具备了可以和更多的领域知识进行交互的能力,也使基于XML和RDF的Web数据描述具备了良好的生命力。

2.OIL[20]
Ontology Inference Layer/Ontology Interchange Language。

OIL是一种针对本体的基于互联网的表现和推理层。

它是由the European Union IST programme for Information Society Technologies under the On-To-Knowledge project (IST-1999-1013) and IBROW (IST-1999-19005)资助的,也得到了更广泛的研究者的参与。

它的语言集如下图所示。

OIL综合了三个不同团体的工作,提供一种通用的语义互联网的标记语言。

这三方面的工作分别是:
→基于框架的系统
基于框架的语言在AI中有很长的历史,它们的中心建模元语是类(称作框架)和属性(称为槽)。

→描述逻辑
描述逻辑通过概念(对应于类或者框架)和角色(对应于槽)描述知识。

DL的一个重要特征是它们具有良好理解理论性质,并且在DL中任何表达的含义都可以通过数学的精确的方式描述。

OIL从DL中继承了形式化语义和有效的推理支持。

→互联网标准
这里指的是XML和RDF。

OIL标记语言的语法源自W3C的这些标准。

OIL的使用比较广泛,支持OIL的工具也很多,最著名的有OILEd,是一个基于OIL 的本体编辑器。

其他一些工具,比如OntoEdit、the FaCT (Fast Classification of Terminologies) System等也都支持OIL。

3.DAML[21]
DARPA Agent Markup Language,该项目正式开始于2000年8月,由美国政府支持,目标是开发一种语言和一组工具,为语义互联网提供支持。

Mark Greaves是该项目的领导者。

DAML形成于DAML-ONT(一种本体语言)和DAML-Logic(一种表达公理和规则的语言)。

DAML提出的原因和OIL类似,一批支持语义互联网的研究者发现XML、RDF作为模式语言其表达能力很有限,希望开发一种有更强的表达能力的模式语言。

尽管DAML并不是W3C的标准,但是参与的开发者中有很多来自W3C的工作者,包括Tim Berners-Lee。

DAML扩展了RDF,增加了更多的更复杂的类、属性等定义。

它一度很流行,成为网上很多本体的描述语言,直到DAML的研究者和OIL的研究者开始合作,推出了DAML+OIL 语言,成为W3C研究语言互联网的本体语言的起点。

4.OWL[18,19]
OWL全称Web Ontology Language,是W3C推荐的语义互联网中本体描述语言的标准。

它是从欧美一些研究机构的一种结合性的描述语言DAML+OIL发展起来的,其中DAML 来自美国的提案DAML-ONT,OIL来自欧洲的一种本体描述语言(二者在上文都有介绍)。

在W3C提出的本体语言栈中,OWL处于最上层,见下图。

针对不同的需求OWL有三个子语言,描述列表如下:
子语言描述例子
OWL Lite 用于提供给那些只需要一个分类层次
和简单的属性约束的用户。

支持基数(cardinality),只允许基数为0或1。

OWL DL 支持那些需要在推理系统上进行最大
程度表达的用户,这里的推理系统能够
保证计算完全性(computational
completeness,即所有地结论都能够保
证被计算出来)和可决定性
(decidability,即所有的计算都在有限
的时间内完成)。

它包括了OWL语言的
所有约束,但是可以被仅仅置于特定的
约束下。

当一个类可以是多个类的一个子类时,它被约束不能是另外一个类的实例。

OWL Full 支持那些需要在没有计算保证的语法
自由的RDF上进行最大程度表达的用
户。

它允许在一个Ontology在预定义的
(RDF、OWL)词汇表上增加词汇,从
而任何推理软件均不能支持OWL
FULL的所有feature。

一个类可以被同时表达为许多个体的一个集合以及这个集合中的一个个体。

这三种子语言之间的关系是:
✓每个合法的OWL Lite都是一个合法的OWL DL;
✓每个合法的OWL DL都是一个合法的OWL Full;
✓每个有效的OWL Lite结论都是一个有效的OWL DL结论;
✓每个有效的OWL DL结论都是一个有效的OWL Full结论。

用户在选择使用哪种语言时的主要考虑是:
✓选择OWL Lite还是OWL DL主要取决于用户需要整个语言在多大程度上给出了约束的可表达性;
✓选择OWL DL还是OWL Full主要取决于用户在多大程度上需要RDF的元模型机制(如定义类型的类型以及为类型赋予属性);
✓在使用OWL Full而不是OWL DL时,推理的支持不可预测,因为目前还没有完全的OWL Full的实现。

这三种子语言与RDF的关系是:
✓OWL Full可以看成是RDF的扩展;
✓OWL Lite和OWL Full可以看成是一个约束化的RDF的扩展;
✓所有的OWL文档(Lite,DL,Full)都是一个RDF文档;
✓所有的RDF文档都是一个OWL Full文档;
✓只有一些RDF文档是一个合法的OWL Lite和OWL DL文档。

OWL的语言规范这里不再介绍。

5.KIF[24]
Knowledge Interchange Format (KIF) 是一种为了在不同的计算机系统(这里的不同是指由不同的程序员在不同的时间使用不同的语言开发等)之间交换知识而设计的语言。

它的主要目的不是和人交互,也不是在一个计算机系统内部作为知识的表现方式,只有在不同的计算机系统之间需要交换知识的时候,它们把各自的内部表现方式转换成KIF,交互后再转换成各自的方式。

它是由斯坦福大学的The Logic Group提出并实现的,是一种美国标准(ANSI)。

在KIF的设计中,以下特征是其本质特性:
✓有公开的语义。

它不再需要专门的解释器。

✓在逻辑上是全面的。

可以对任意的逻辑语句进行表达。

✓提供对元知识的表现。

除了这几个本质特征以外,KIF还尽量的最大化实现能力和可读性。

6.SHOE[25]
全称:Simple HTML Ontology Extensions,简单HTML的本体扩展。

这是一种与XML 一致的互联网知识表达语言,使得网页编辑者可以对他们的互联网文档进行标注。

由马里兰大学计算机系提出的,但是目前他们有关本体的研究项目已经使用OWL和DAML+OIL作为互联网本体的描述语言,SHOE已经停止研究了。

SHOE是HTML的一个超集,它扩展了一些标记,使得在HTML中可以增加任意的语义数据。

它的标记有两类,一类用于创建本体,一类用于注解文档。

7.XOL[26]
Ontology Exchange Language,本体交换语言。

源于SRI International's Artificial Intelligence Center (AIC)的Bioinformatics Research Group。

XOL设计之初是为生物信息学领域本体的交换,但是它可以应用于各种领域。

它是一种简单通用的定义本体的方法。

基于XML和RDF Schema有两种变体。

其目的是在不同的数据库、本体开发工具、或者其他应用程序之间交换本体。

8.OCML[27,28]
Operational Conceptual Modelling Language,是由英国的Knowledge Media Institute实验室开发的。

OCML建模语言通过几种具体的构件(Functional terms、Control terms、Logical expressions)来支持知识模型的建模架构。

该语言使得对函数、关系、类、实例和规则的形式化操作成为可能。

它还包括定义本体及问题解决方法的机制。

KMI的WebOnto编辑器是基于OCML的。

9.Ontolingua[1]
一种基于KIF(knowledge interchange format)的提供统一的规范格式来构建Ontology 的语言。

其特点是:为构造和维护Ontology提供了统一的、计算机可读的方式;由其构造的Ontology可以方便地转换到各种知识表示和推理系统(Prolog、CORBA的IDL、CLIPS、LOOM、Epikit、Algernon和KIF),从而将Ontology的维护与使用它的目标系统隔开;主要用于Ontology服务器。

10.CycL[1]
Cyc系统的描述语言,一种体系庞大而非常灵活的知识描述语言。

其特点是:在一阶谓词演算的基础上扩充了等价推理、缺省推理等功能;具备一些二阶谓词演算的能力;其语言环境中配有功能很强的可进行推理的推理机。

11.Loom[1]
Ontosaurus的描述语言,一种基于一阶谓词逻辑的高级编程语言,属于描述逻辑体系。

其特点是:提供表达能力强、声明性的规范说明语言;提供强大的演绎推理能力;提供多种编程风格和知识库服务。

该语言后来发展成为PowerLoom语言。

PowerLoom是KIF的变体,它是基于逻辑的,具备很强表达能力的描述语言,采用前后链规则(backward and forward chainer)作为推理机制。

以下是个人的一些看法:
在选择本体描述语言时,我们的基本认识是向标准看齐,并且我们项目的应用领域也是基于Web的个股信息服务,因此,OWL很自然的成为首选。

三、本体建设的方法论
1.Mike Ushold & Micheal Gruninger的Skeletal Methodology(骨架法)[12]
他们提出的建设本体的方法包括如下步骤:
识别目的和范围(Identify Purpose and Scope)
这个阶段需要弄清楚为什么要建立本体?建好后的用途有哪些?使用该本体的用户范围是什么?等。

✦建设本体(Building the Ontology)
→本体捕获(ontology capture)
本体捕获包括:(1)相关领域中关键概念和关系的识别;(2)这些概念和关系的精确无二义的文本定义的产生;(3)表达这些概念和关系的术语的识别;(4)在以上三点上达成一致。

这一过程再细分为以下步骤:
1>Scoping:
a)通过头脑风暴法(Brainstorming)产生所有潜在相关的术语和短语。

b)进行分组(Grouping):对应于自然产生的子组,将这些术语松散地
组成工作区(Structure the terms loosely into work areas corresponding
to naturally arising sub-groups)。

2>Produce Definitions
a)决定下一步做什么?
i.决定元本体(Determining Meta-Ontology):先不急于提交任何的
元本体,而是仔细考虑概念和它们的内部关系,尽量考虑各种可
能性。

ii.工作区(Work Areas):依次考虑每个工作区。

首选那种和其他
工作区有最多的语义重叠的先作。

iii.术语(Terms):采用了middle-out的方法。

首先定义每个工作区
中最基本的术语,再定义更抽象或者更具体的。

b)达成一致
i.处理二义性的术语(Handling Ambiguous Terms):选定一个合适
的术语来表达这种概念,避免使用二义性的术语。

ii.指导方针(Guidelines):产生一个自然语言文本的定义;确保一
致性;指出关系;避免环状定义的术语;提供必要的补充信息使
术语的定义更有效;在合适的地方给出例子。

iii.造词(Wording):权衡技术准确性和清晰。

3>Review
4>Meta-Ontology:设计一个元本体。

→本体编码(ontology coding)
该阶段是利用某种形式化语言显式地表现上个阶段的概念化成果。

涉及到:(1)作为meta-ontology的基本术语的确定;(2)选择一种表现语言(能够支持meta-ontology);(3)编码。

→集成现有本体(integrating existing ontologies)
在达成一致方面有很多工作需要完成。

✦评价(Evaluation)
并没有提出自己的评价方法。

《引用了Gomez-Perez关于evaluation的定义,需要参见更多的文章》。

✦文档化(Documentation)
目前很多知识库和本体缺少文档也是一种知识共享的障碍,这些文档应该包括本体中定义的主要概念、meta-ontology等。

某些编辑器可以自动生成这些文档。

✦每阶段的指导方针(Guidelines for each phase)
把设计本体的初始的指导方针总结为以下设计标准(重点在于共享和重用):清楚(Clarity)、一致(Coherence)、可扩展性(Extensibility)、最小本体的承诺
(Minimal ontological commitment)、最小的编码偏差(Minimal encoding bias)。

2.Micheal Gruninger & Mark. S Fox的企业建模法(TOVE)
TOVE Ontology Project是多伦多大学Enterprise Integration Laboratory的一个项目,它的目标是建立一套为商业和公共企业建模的集成本体,并且已经建成了相关本体。

作为该项目的一部分,他们设计了一套创建和评价本体的方法“Enterprise Modelling Methodology”。

该方法包括如下几个步骤[13]:
1>激发场景(Motivating Scenario)
应用领域的某些场景激发了本体的建设,因此,给出一个场景有助于理解建设本体的动机。

2>非形式化的能力问题(Informal Competency Questions)
提出一个本体应该能够回答的各种问题,作为需求。

通过指明能力问题和场景之间的关系,可以对新扩展的本体进行一定的非形式化的判断。

也是一种初始的评价,来判断是否需要扩展本体,或者现有本体是不是已经可以涵盖所提出的非形式化问题。

3>一阶逻辑表达的术语规格说明(Specification in first-Order Logic-Terminology)
识别领域中的对象,并用一阶逻辑等方式表达出本体中的术语。

4>形式化的能力问题(Formal Competency Questions)
用形式化的术语把非形式化的能力问题定义出来。

5>一阶逻辑表达的公理规格说明(Specification in first-Order Logic-Axioms)
本体中的公理指定了术语的定义以及约束。

采用本体中的谓词将公理定义为一阶逻辑的句子。

这只是本体的规格说明,并不是本体的实现。

6>完备性定理(Completeness Theorems)
当能力问题都被形式化的表述之后,必须定义在什么条件下这些问题的解决方案是完备的。

在[12]中去掉了一阶逻辑作为描述语言的限制,把该方法表达成:
1>动机的确定(Capture of motivating scenarios)
2>非形式化能力问题的形式化(Formulation of informal competency questions)
3>采用一种形式化语言编写该本体术语的规格说明书(Specification of the terminology
of the ontology within a formal language such as first-order logic)
4>使用该本体的术语把非形式化的能力问题形式化(Formulation of formal competency
questions using the terminology of the ontology)
5>采用形式化语言编写关于该本体中术语的公理和定义的规格说明书(Specification
of axioms and definitions for the terms in the ontology within the formal language)
6>(Justification of the axioms and definitions by proving characterisation theorems)
3.Mariano Fernandez & GOMEZ-PEREZ等的“METHONTOLOGY”[14]
在介绍METHONTOLOGY之前,本文简单介绍了一下本体的开发过程和生命周期。

作者总结本体的开发过程包括如下活动:计划(plan)、详细说明(specify)、获取知识(capturing knowledge)、概念化(conceptualize)、形式化(formalize)、集成(integrate)、实现(implement)、评价(evaluate)、文档化(documentation)、维护(maintain)。

本体的生命周期依次分为以下状态:详细说明(specification)、概念化(conceptualization)、形式化(formalization)、集成(integration)、实现(implementation)和维护(maintenance)。

下图表现了这些活动和状态之间的关系。

作者称METHONTOLOGY方法是结合了骨架法和GOMEZ-PEREZ方法(也是本文作者之一,该方法参照下图右边所示,只是METHONTOLOGY的前身,不再论述)后,提出的一种更为通用的本体建设方法。

METHONTOLOGY是一种建设本体的结构化方法,介绍如下:
1>规格说明书(Specification)
该阶段要产生一份以自然语言编写的非形式化的、半形式化的、或者形式化的本体规格说明书。

至少包括以下信息:本体的目的(预期的用途、场景和最终用户等)、实现本体的形式化程度、范围(包括要表达的术语集、它们的特性和粒度)。

虽然无法确保规格说明书的完整性,但是必须保证一个好的本体规格说明书应该满足以下性质:
→简洁(每个术语都是相关的,没有无关或者重复的术语)
→部分完整性(术语的覆盖范围、每个术语的问题和粒度)
→一致性(每个术语及含义都在领域内有意义)
2>知识获取(Knowledge Acquisition)
知识的来源很多,可以是:专家、书籍、手册、数字、表格、甚至是其他的本体。

从这些数据源获得知识的关联技术包括:头脑风暴法、访谈、文本的形式化或非形式化的分析和一些知识获取工具。

3>概念化(Conceptualization)
该活动将领域知识组织成概念模型,用规格说明书中识别的领域词汇表描述问题和解决方案。

生成的概念模型允许最终用户(a)确定一个本体是否有用,并且对于某个给定应用不需要查看源代码就是可用的(b)比较数个本体的范围、完整性、可重用性、共享性。

4>集成(Integration)
重用别的本体中已经建好的定义时,可以:
a)查看元本体,选择适合自己概念模型的。

b)选择和自己概念模型中的语义和实现一致的术语定义。

5>实现(Implementation)
用任何一种形式化的语言编码实现本体。

需要一套开发环境的支持,至少包括:词法和语法分析器、翻译器、编辑器、浏览器、搜索器、评价器、自动维护工具。

6>评价(Evaluation)
评价是指在本体生命周期的每个阶段和阶段之间,利用某种参考框架对本体、软件环境、文档进行技术判断。

评价包括正确性(verification)和有效性(validation)。

7>文档化(Documentation)
在本体建设的全过程中每个阶段都应该有对应的文档。

4.Alexander Maedche等的Cyclic Acquisition Process[15]
Maedche有一系列关于从文本中抽取领域本体的文章,提出了这种本体获取的方法论,它是一种环状的结构。

1>环形的起点是一个通用的核心本体的选择。

任何大型的通用本体(像Cyc、Dahlgren的本体)、词汇-语义网(像WordNet, GermaNet)、或者领域相关的本体(像TOVE)都可以作为这个过程的开始。

选定基础本体后,用户必须确定用于抽取领域相关实体的文本。

2>从选择的文本中获取领域相关的概念,并建立概念之间的分类关系。

3>除去领域无关的概念,只留下和领域相关的。

这时,建立起了目标本体的概念结构。

4>从基础本体中会继承一些关系,其他的关系需要通过学习的方法从文本中抽取。

5>对得到的领域相关的本体进行评价,还可以进一步的重复上述过程。

5.IDEF-5方法[16]
IDEF的概念是在70年代提出的结构化分析方法的基础上发展起来的。

在1981年美国空军公布的ICAM: integrated computer aided manufacturing工程中首次用了名为“IDEF”的方法。

IDEF是ICAM DEFinition method 的缩写,到目前为止它已经发展成了一个系列。

本体描述获取方法IDEF5(Ontology Description Capture Method)提供了两种语言形式,即图。

相关文档
最新文档