WordNet研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于WordNet重用的领域本体构建方法研究
摘要:构建本体是开发基于语义信息系统的重要步骤。为了提高构建领域本体的效率,提出了一种基于WordNet重用的领域本体构建方法。该方法分析了WordNet的结构和语义关系,将WordNet抽象为图模型,从中抽取以领域术语为节点的子图,得到一个领域子本体,再利用编辑工具对其进行修改和完善。通过分析与核对实验数据和结果,表明该方法可以重用WordNet的结构并从中获取领域知识,并半自动地快速构建领域本体。
关键词:WordNet; 重用; 领域本体; 语义; 图模型
Research of Building Domain Ontology Method Based On
Reusing WordNet
【Abstract】Building ontology is an important process to develop semantic-based information system. For enhancing the efficiency of building domain ontology, an approach for building a domain ontology reusing WordNet was proposed. The approach analyzed the structure and semantic relations of WordNet and abstracted WordNet as a graph model. Regarding domain terms as the concepts of the ontology, a subgraph whose nodes were domain terms was abstracted and a domain sub-ontology was generated. The ontology was modified and complemented using an ontology editor. By means of analyzing and verifying the figures and results of the experiment, it shows that the structure of WordNet can be reused and domain knowledge is able to be acquired in this approach, and a domain ontology can be built semi-automatically and quickly.
【Key words】WordNet; reusing; domain ontology; semantic; graph model
1 概述
信息技术的知识化和智能化发展趋势,使得信息和数据的表示不只是停留在语法层面,更要聚焦到语义层面。而本体作为语义网的核心技术,它能够在语义层面上描述信息和数据的概念模型,因此为解决该类问题提供了一种良好的途径。在基于本体的应用中,构建本体是一项基本任务。然而现有的领域本体的构建方法基本上是人工处理,该类方法尽管本体概念和概念间的关系处理的比较准确,但是其构建效率不能满足当今信息技术发展的速度要求。因此,自动的领域本体构成方法成为了迫切需求。
本体(Ontology)是共享概念模型的明确的形式化规范说明。这包含四层含义:概念模型、明确、形式化和共享。“概念模型”指通过抽象出客观世界中一些现象的相关概念而得到的模型。“明确”指所使用的概念及使用这些概念的约束都有明确的定义。“形式化”指本体是计算机可读的。“共享”指本体所体现的是共同认可的知识,反映的是相关领域中公认的概念集。本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义。本体的建立是一项非常繁重的工作。因此,如何快速建立本体成为一个热点研究问题。
目前主要有两种方法用于构建本体:第一种是基于数据挖掘的本体构建,第二种是重用现有本体来构建新本体,又分为全自动和半自动构建两种方法。要实现全自动构建本体是非常困难的。
尽管现有的自动领域本体构建的方法在构建效率上取得了一定的提高,但是其所构建领域本体中的概念及其关系由于所采用的技术性能差等原因导致准确度较差。针对以上不足,本文充分利用现有资源,对已提出的一种基于WordNet重用的领域本体构建方法进行研究。该方法将领域术语集看作领域本体中的概念,基于WordNet为源本体,分析其结构和语义关系,自动从WordNet中抽取出相关领域的本体,将其抽象为图模型,从中抽取以领域术语为节点的子图,得到一个领域子本体,再利用编辑工具对其进行修改和完善。实验表明该方法可以重用WordNet的结构,并从中获取领域知识,从而
半自动地快速构建特定领域的本体。
2 WordNet
WordNet是由Princeton(普林斯顿)大学的心理学家、语言学家和计算机工程师在1985年联合设计的一种基于认知语言学的覆盖范围宽广的英语词汇语义网。它是一个在线的词汇参照系统,其独特之处在于它不仅仅是把单词依据词性以字母顺序排列,而是依据词义来组织词汇信息,可以说是一部基于心理学规则的词典。WordNet能在概念层次上查找词汇,根据语义来组织分类词汇信息,而不是根据词典形式,这是与传统词典的一个最明显的区别。
2.1 WordNet的设计思想
一个单词包括两个层面:单词的表现形式和单词所代表的含义。前者称为词性,后者称为词义。WordNet重点解决的问题是词语所表达概念的性质和组织方式,也就是词性和词义之间的映射。这种映射是多种多样的,某些词形有多个不同的词义;某些词义可以用多个不同的词形来表达,它们分别对应着自然语言中的多义词和同义词。WordNet描述的对象包含复合词、短语动词、搭配词、成语和单词,其中单词是最基本的单位,单词主要包括名词、动词、形容词和副词。
WordNet使用同义词集合(Synset)代表概念(Concept),词汇关系在词语之间体现,语义关系在概念之间体现。WordNet构造的核心是如何表示词汇概念节点,以及在这些概念节点之间建立起各点语义关系。WordNet将英语词汇组织为一个同义词集合(Synset),每个集合标明一个词汇概念,比如说{board,plank}表示木板的概念,{board,committee}表示会议桌的概念;同时力图在概念间建立不同指针,表达上下位、同义反义、整体与部分、继承等不同的语义关系。由于语义关系是多个词义之间的关系,而词义用同义集来表示,因此语义关系就可看作是同一词集之间的一些指针。这些语义关系和关系代表的指针所指向的同义词集组成了一个复杂的网络。在这个网络中,知道了一个词语的位置,也就等于了解了这个词的含义。
简单来说:WordNet会很据词条的意义将其分组,每个具有相同涵义的词条组称为一个Synset(同义词集合),WordNet为每一个Synset提供了概要定义,并记录了Synset之间的语义关系。通俗来讲,这个字典中每个词条不是独立的,是有关系的。所以说WordNet是刻画本体的一个字典。
经过这样的过程,原本抽象的概念就被形式化了,变得具体而且可以通过词汇意义加以操作,概念之间还可以建立多种语义关系的联系和推理,这样就构成了一个比较完整的词汇语义网络系统。2.2 WordNet中的名词
本文所进行的源本体研究是基于WordNet1.6版本进行的,其描写了4类实词、99643个概念节点和超过5 000 000个语义关系,形成了一张庞大的概念语义网络。其中实词主要包括名词、动词、形容词和副词4类,虚词不予以考察。WordNet中词汇概念的语义关系主要包括:上下位、同义、反义、整体与部分、蕴含、属性和致使等。而在上述的4类实词中,WordNet着重描写的是名词和动词。从认知的角度来看,名词是大部分概念的主要表现形式;形容词只在较少情况下单独作为概念,一般是作为概念中的修饰语;动词和副词作为概念出现的概率较少,动词作为概念独立出现时,一般也应看做是名词属性。因此,名词是一个本体的主要组成部分。WordNet 的名词网络是第一个发展起来的,正因为如此,本文所研究的对象都仅限于名词网络。
WordNet1.6版本中包含了近800000个名词以及60000个词汇化的概念。WordNet用树结构来定义词,例如oak@→tree@→plant@→organism。这里的“@→”是可传递的、不对称的语义关系,称为上位关系。多个词间的上/下位关系形成WordNet中名词的层次关系,名词网络的主干就是这种蕴涵关系的层次,也就是说这种层次关系组成了名词的骨架,它占据了关系中的将近80%。层次中的最顶层是11个抽象概念,称为基本类别始点(unique beginners),例如实体(entity,“有生命的或无生命的具体存在”),心理特征(psychological feature,“生命有机体的精神上的特征”)。名词层次中最深的层次是16个节点。WordNet为名词划分了25个独立的起始概念(见表1),可看作是客观世界的最大分类,它们所包括的名词数量或多或少,互不排斥,大体上覆盖了明确的概念和词汇范围。
表1 WordNet中独立的起始概念名词
概念名称