基于ontology的自然语言理解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:2003-04-07
作者简介:潘宇斌(1971)),男,福建人,工程师,研究方向:人工智能。
文章编号:1003-6199(2003)04-071-04
基于Ontology 的自然语言理解
潘宇斌,陈跃新
(国防科技大学计算机科学与工程学院,长沙 410073)
摘 要:本文分析传统意义上基于知识的自然语言理解(KB-NLU )和基于Ontolog y 的自然语言理解系统的基本模型,Ontology 是概念化的描述,以及Ontolog y 与语言知识的结合方式的三种类型:世界知识型、词汇语义型、句法语义型。
关键词:KB-NLU;Ontology;世界知识型;词汇语义型;句法语义型中图分类号: T P31 文献标识码:A
Ontology -Based Natural Language Understand
PAN Yu -bin,CH EN Yue -xin
(College of Computer Science and Engineering,National U niv.of Defense T echnolo gy,Changsha 410073)
Abstract:In this paper,w e analy ze the base model in the area of Knowledge -Based Natural Languag e Un -derstand (KB -NLU )and Ontolog y -Based Natural Language Understand.Ontology is a conceptual descrip -tion.In terms of their relationship w ith the natural language,this paper divides the different Ontolog ies into three ty pes,i.e.world know ledge,lexical semantics one and syntax semantics one.
Key words:KB-NLU ;Ontology;w orld knowledg e;lexical semantics;sy ntax semantics
1 引言
自然语言理解把用自然语言描述的一个受限世界(关于该世界的事实和假设),变换为用机器内部的表示法描述的一个世界模型。这个世界模型用作问题求解器的知识库,来求解各种问题。本文讨论了基于知识的自然语言理解(KB-NLU )[1]的一个新的研究方向)))以本体(Ontology)作为知识体进行自然语言理解。
Ontology 在哲学上是指/世界的本原0[2]
,它所要回答的问题是/所有事物的通用属性是什么?0。在知识工程领域,Ontology 本身作为知识实体是系统的知识库,它是由概念以及概念之间的联系所构成的知识实体,是对世界或者领域知识的概念化描述。本文主要介绍Ontolog y 作为一个知识体,结
合语言学知识,进行自然语言理解,即基于Ontolo -g y 的自然语言理解。
基于Ontology 的自然语言理解的主要任务是利用系统所拥有的知识,提取出文本的意义。它需要解决的问题是:Ontology 如何定义;对文本进行各个层面上的消歧;对文本的推理。本文将就以上问题解决方案进行阐述。
2 Ontology 的定义
2.1 Ontology 的概念
Ontology 可以作为对某个领域的描述词典。它和作为约定的Ontology 没有明显的区分,但是它的重点不是为了共享,而是为了建立起一个领域的概念化说明。从而,它作为领域的论域,所有的知识都是在它的基础之上建立的。
第22卷第4期2003年12月
计 算 技 术 与 自 动 化Computing T echnology and Automatio n
Vol 122,No 14 Dec 12003
Ontology 本身作为知识体(Body of Know -l
edge),这一般是应用到常识知识库中。常识知识库如CYC,利用上面所说的作为领域的描述词典的Ontology 作为基元,建立起关于世界的多个领域的常识知识。而这些常识知识可以作为其他知识系统的知识体。
实际上,这些定义都是很接近的,主要是应用的重点不同。它们都是作为知识的一种表示方法并且可以用来帮助知识系统组织知识。
2.2 基于Ontology 的自然语言处理系统的基本
模型
图1 基于Ontolog y 的基本模型
图1是基于Ontology 的自然语言处理系统的基本模型,语言学的知识包括词汇级、句法级、篇章级等不同层次的知识,在目前的应用Ontolog y 的研究中主要是考虑词汇级和句法级的知识。2.3 Ontology 的分类
根据Ontolog y 与语言知识的结合方式,我们把Ontology 分为三种类型:世界知识型、词汇语义型、句法语义型,它们在建立以及应用于NLU 的过程中都有不同的特征:
A.世界知识型:系统中Ontolog y 的知识的建立不考虑和语言知识的关系,仅仅是对世界知识的描述,在对源文本进行分析的时候,需要加上其它的语言知识接口,如美国T exas 公司CYC [3]
和中
科院盘古系统[9];
世界知识型Ontology 并不是以自然语言处理为唯一目标的,它为智能系统提供必要的世界知识。因此在建立的时候不必考虑和自然语言的结合,仅仅是建立人类对世界或者领域知识的理解和描述。
CYC 是由美国Tex as 的微电子和计算机技术公司开发的一个多语境的大型常识知识库以及推理引擎。到1994年,CYC 已经收集了有约40万条断言,其中包含各种事实与规则,它们是针对普通人的常识。CYC 包含了多个领域的知识,用微
理论(M icrotheory )表示,大约有500个微理论,所有的断言都连接到某个微理论。CYC 中的断言是由其中的常量和变量构成的,常量就是CYC 的基本概念。
/盘古系统0是中科院数学所承担的国家自然科学重点基金项目/常识知识的使用研究0。和CYC 比较,主要特点是它的常识的表示和组织方式。/盘古0是用Agent 和本体来组织常识的,A -gent 负责纵向结构,而本体用来组织各Agent 的横向联系。常识性知识就分布在Agent 个体以及体现Agent 的各种联系的本体中。而且,不仅包含静态知识,而且对常识的使用知识也分布在Agent 和本体中。Agent 能够对自身进行推理,具有主动性,而Agent 之间的推理知识包含在本体中。典型的,这类知识库包含的是常识知识,不仅拥有对多个领域的概念化描述,还包含了推理知识。因此,它们可以应用于自然语言处理的消歧和推理,但是需要加上和语言知识的接口。
B.词汇语义型(Lex ical Semantics):Ontolog y 与词典结合,在建立的过程中需要考虑概念和词汇的关系,分析文本时两者结合进行消歧和推理,如WordNet [4],M ikrokosmos [5,6]等;
词汇语义型Ontology 是与自然语言的词典结合,KB-NLU 系统一般把Ontology 与词典分成两个不同的知识体,词典内的词条映射到Ontolog y 中的概念,在建立的时候需要在两者之间交互。这种方法使得Ontolog y 能够独立于语言,从而更好的重用;而且使得词典和Ontolog y 的获取分离,减轻了开发负担。
这类Ontolog y 一般是特定领域的,仅仅包含了领域知识内的概念以及概念之间的关系,而把其它的实例化知识放在其它的知识库内,比如专有名称词典。此外,Ontology 中不包含推理知识,推理蕴涵在系统的推理机制中。
在分析源文本的时候,词典作为文本与Onto-l ogy 的接口,从词映射到概念,再利用概念所含有的约束进行消歧和推理。如果把系统看作是一个搜索系统,Ontolog y 构成搜索空间,概念间的约束知识作为启发式信息指导剪枝和搜索的进行。在推理的过程中,系统计算概念之间的距离,搜索出一条符合约束的最短距离。
具体的应用中,系统对词典和Ontology 的侧重点不同。例如在WordNet 中偏重于词典的建设,从英语词汇中形成概念,利用同义词集(synset)表示概念,并根据心理语言学理论中人类的记忆模
72计算技术与自动化2003年12月