一个在线义类词库:词网WordNet

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

/paper_110583811_1/

论文标题:中文信息处理专题研究:语义研究

一个在线义类词库:词网WordNet

论文作者陈群秀

(论文关键词,论文来源语言文字应用,论文单位京,点击次数184,论文页数69~104页1998年1998月论文网/paper_110583811/ 计算机的自然语言理解和处理,依赖于计算语言学的研究成果。)

与计算词汇学和计算句法学相比,计算语义学是计算语言学领域里一门比较年轻的学科。相对而言,句法分析的理论和技术发展得比较成熟、完善,而语义分析的理论和技术起步比较晚,尚处于探索阶段,空白点较多而且难度最大。目前,自然语言理解正处于一个关键时期,处在取得重大突破的前夜,而语义研究领域的进展和突破对全局的进展和突破有至关重要的作用。语义包括词汇义、句义、篇章义等,其中最根本最重要的是词汇义的研究。词汇义的研究和表示的方法有多种,很重要的一种是语义分类。人读的义类词典几乎各国都有,机读的(即信息处理用的)义类词典在日本、美国等先进国家也都有研究或成果。在国内外同类课题中,最著名的是普林斯顿大学Miller等人研制的英语词网数据库WordNet。该词网旨在从心理语言学角度建立英语词汇基本语义关系的实际模型。本文简要介绍这个在线的义类词库。

一词网WordNet的概况

WordNet是一个在线词汇参照系统(在网上可机读的英语词库),是一个基于心理语言学原则的机器词典。WordNet用大家熟悉的拼法来表示词形,用同义词集Synsets(在一定上下文中可以互换的同义词形的列表)来表示词义。有两种关系:词汇的和语义的。词汇关系存在于词形间,语义关系存在于词义间。通常的人读词典或机读词典是按字母顺序组织词汇信息,将拼写相似的词放在一起,而让意思上相近的或相关的词随意地散置。WordNet 则想为广大读者依概念而不是依字母顺序查找词典获取词汇语义知识提供帮助。WordNet 目前包含大约95600个词条(51500个简单词和44100个复合词,它们被组织成约70100个词义或同义词集),描写了上下位、同义、反义、部分—整体等词汇语义关系。有一些国家将WordNet进行了本地化。

WordNet和一个标准的词典之间的最明显的区别就在于WordNet将所有英语词汇分成五类:名词、动词、形容词、副词和功能词。实际上,WordNet只包含名词、动词、形容词和副词。相对来说较小的英语功能词集被省略掉了,这是基于它们可能被作为语言的语法成分的一部分单独存放的假设。名词在词汇记忆中被组织成主题的层次,动词被组织成各种推演(蕴涵)关系,而形容词和副词被组织在N维超空间中。

然而,WordNet最雄心勃勃的特点在于它试图以词义而不是词形来组织词汇信息。从这个角度来说,WordNet更像一部同义词汇编(thes-aurus,义类体系),而不是一部词典。但是WordNet并不仅仅是一部在线的同义词汇编,它包含同义、反义、上下位义、整体部分义等多种语义关系的描写,对英语单词的多义也想方设法予以表示,另外,它也能处理英语词形的曲折形态。

在词汇语义学的理论中,如何用定义来表示词语化的概念,取决于该理论是打算成为构造性的还是仅仅是区分性的。对区分性的理论的要求比较低,但也足以构造出所需的映射。如果阅读该定义的人已经获得了该概念,仅仅需要辨认它,那用一个同义词(或近义词)通常就足够了。例如,某人已经知道board可以指称一片木材或是一群为了某个目的集合起来的人,只需要得到plank或committee的帮助就可以挑出原义。同义词集{board,plank(板材)}和{board,committee(委员会)}可以作为board这两个义项的无歧义的指示器。WordNet 是用区分性理论来表示词义的。由于英语中同义词很多,synsets通常足以用来作区分的目的。但有时候,找不到一个合适的同义词,例如,board的另一个义项是“包伙食”,这时WordNet用一个很短的注释来解决这个多义问题,如{board,(包伙食,即定时提供一个人的三餐以赚钱}可以用来区分board的这一意思,它可以被看成一个只有一个成员的synsets。

同义当然是词形之间的词汇关系,但是由于它在WordNet中扮演了中心角色,故特用{和}括起有同义关系的记号以区别于用[和]括起来的其他词汇关系。WordNet中最重要的关系是同义关系,而且是一种定义较弱的同义关系。根据一个定义(Leibniz)两个表达式同义,是说用一个去替换另外一个绝不会改变句子的真值。根据这个定义,真正的同义词即使存在也很少。这个定义的一个较弱版本是将同义关系和上下文C联系起来,如果在C中将一个换成另一个不会改变句子真值,那么这个表达式是同义的。例如,在“木工”的上下文中将board替换成plank,基本上不会改变真值,尽管在board的另一些上下文中进行这样的替换将是完全不合适的。

另一个大家熟悉的关系是反义关系。令人吃惊的是它非常难以定义。比如说,“贫穷”和“富裕”是反义词,但是说一个人不富裕并不代表他一定贫穷。看起来仿佛非常简单的对称关系的反义关系实际上相当复杂。反义关系是一种词形间的词汇关系,而不是词义间的语义关系。反义关系为WordNet中的形容词和副词提供了一个中心组织原则。

与属于词形间的词汇关系的同义和反义不同。下位/上位是一个词义间的语义关系:例如,{maple(枫树)}是{tree(树)}的一个下位义,而{tree(树)}是{plant(植物)}的一个下位义。下位/上位(或称子类/上类,子集/超集,或ISA关系)引起了很多注意。下位关系是可传递的,反对称的,而且由于一群相关下位义通常只有一个上位义,便产生了一个分层次的语义结构,其中任意一个下位义均位于它的上位义之下。在信息检索系统中广泛使用这种层次表示法,它们被称为继承系统:一个下位义从比自己更为一般的(上位)概念处继承所有的特征,并且至少加上一个特征,以便和自己的上位义及该上位义的所有其他

下位义区分开来。这个约定为WordNet中的名词提供了中心的组织原则。

另一种为人们所熟悉的语义关系是部分—整体关系,词汇语义学家将它称为部分义/整体义。部分义关系是传递的(有限制)和反对称的,而且可以用来构造一个整体/部分层次体系(有一些保留,因为一个部分义可以有多个整体义)。这就是说,部分可以再有部分:手指是手的一部分,手是手臂的一部分,手臂是身体的一部分。与同义、反义、以及下位义类似,这个关系有一个逆表述:如果Wm是Wh的一个部分义(用#表示),则说Wh是Wm 的一个整体义(用%表示)。部分义是下位义可以继承的区别性特征。因此,部分义和下位义以复杂的形式互相缠绕

二词网WordNet中的名词:一个词汇继承系统WordNet是一个词汇继承系统。WordNet中包含了大致57,000个名词词形,它们被组织成大致48,800个词义(Synsets)。这些数字是一个约数,因为WordNet不断地在扩充——这是在线数据库的好处之一。

对普通的名词的典型定义通常给出它的上位项再加上一些区别性特征:这一信息是在WordNet中组织名词文件的基础。上下位关系在Word-Net中产生了一个分层次的语义组织形式,该形式在名词文件中用同义词集(synsets)间的有标号的指针再现。这个层次体系在深度上是有限制的,极少超过12层。区别性特征是用创建一个词汇语义继承系统的方法进入系统的,在该继承系统中,每个单词都继承了所有的上位词的区别性特征。有三种区别性特征:属性(修饰),部分(部分义)和功能,但是现在WordNet的名词文件中只实现了部分义,在描述性形容词和表示恰当的属性的名词synsets之间有指针,尚未实现从名词到动词的功能指针。名词间也有反义,但它不是WordNet中名词的基本组织方法。只有同义、下位义才是WordNet中名词的基本组织方法。WordNet中的名词词库分为25个主题文件,每个主题处理一个不同的基础语义成分。

传统的词典或一般的机器词典(尤其是一部好的词典)里存储了大量的信息(比如拼写、发音、词形变化和衍生的形式、词源、词性、定义、用法示例、同义词和反义词、特殊用法说明甚至图示),但缺憾的是:(1)缺少与其上位项的联系,例如tree(树),其上位项是plant (植物),但tree的定义中并没有指明plant的哪一个意思才是正确的上位义;(2)缺少有关同位项的信息,例如要想找到tree的同位项是很费事的;(3)缺少有关下位项的联系,要想知道tree有多少种类是很难的;(4)缺少有关部件(或部分义)的信息以及有关属性和功能的信息。而WordNet则力图避免这些缺憾或改进(至少是前三项),它通过上下位关系形成一个分层次的语义体系结构(一个词汇继承系统),通过上下位项链及列表形式来使tree与其上位项和同位项、下位项联系起来,继承上位(乃至上位的上位等)的属性,并且与部分义也联系着。

部分义一般被称为“是……的一部分”(也有的称为part of关系),常常被拿来和“是一种……”(亦称ISA关系)关系作比较:两种都是反对称的和(有保留地)传递性的。一共

相关文档
最新文档