信息处理用词语义项区分的原理和方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

[收稿日期]2005-04-01

[作者简介]吴云芳,语言学博士,北京大学计算语言学研究所讲师,研究方向为计算语言学、现代汉语句法和语义;俞士汶,北京大学计算语言学研究所教授,研究方向为计算语言学。

3本文研究得到了国家973项目(2004C B318102)、中国博士后科学基金(2004035029)和863项目(2001AA114210,2002AA117010)的支持。

信息处理用词语义项

区分的原则和方法

3吴云芳 俞士汶

(北京大学计算语言学研究所 北京 100871) [摘要]本文探讨了面向汉语信息处理的词语义项区分应该遵守的原则和方法。先界定了作为计算机自动词义消歧对象的多义词的范围;然后指出面对大规模真实

文本,词语义项区分应具有可操作性,即应具有完备性和离散性;最后论证了上下文

语境是计算机区分词语意义的最终凭借,信息处理用词语义项区分的依据应主要来

自词语的句法行为。

[关键词]义项;多义词;词义标注;词义消歧;语料库

[中图分类号]H08[文献标识码]A[文章编号]100325397(2006)022*******

The Principles and Methods of Sense Discrimination

for Chinese Language Processing

WU Yunf ang ,YU Shiwen

Abstract :This paper reviews the principles and methods that should be followed by

sense discrimination for Chinese language processing.The range of polysem ous w ords as the

object of the com puter automatic w ord sense disambiguation is delimited.The sense discrimination should be operationalized when processing the large natural texts ,that is ,w ord senses should be com pleted and discrete.Als o discriminating the w ord senses should mainly rely on the w ord syntactic behavior on the context.

K ey w ords :sense ;polysem ous w ords ;w ord sense tagging ;w ord sense disambiguation ;

corpus

2006年5月

第2期语言文字应用Applied Linguistics May ,2006N o.2

一 引 言

“义项”本是辞书学术语,本文借用这一术语来表示词语的一个意义条目。

词语义项划分自亚里斯多德时代就一直是个难题。在面向人的辞书编撰中,由于人们对事物的认识并不完全一致,加之受众对象和应用目标的差异,不同辞书在词语义项的分合上存在着较大差异。语言信息处理中词义消歧(W ord Sense Disambiguiation ,WS D )是很多应用系统所必需的一个中间环节(Ide and V éronis ,1998),而词义的正确辨析乃是词义消歧的前提要素。Palmer (2000)认为,计算机正确辨析词义是自然语言处理技术的瓶颈。本文研究的目标是尝试回答:面向汉语信息处理,区分词语义项应该遵守怎样的原则呢?

面向汉语信息处理词语义项的区分是建立在面向人的辞书义项区分的基础之上,在面向人和面向机器的比较中抽取、概括信息处理用义项区分的原则,而不是从零开始来进行词语义项的区分。K ilgarriff (1997)批评传统纸质词典由于受到“传统、印张、易接受性”等多种因素的制约在义项分合上存在许多不足,词典并不能很好地进行词义分析,因此应该走向应用驱动(application 2driven ),词义区别应该和特定应用紧密相连,为特定应用服务。潘竟翰(2000)也指出,词典中义项的制订在符合语义学对于词义限定的同时又得符合辞书编撰的特殊需求,而且在一些情况下还是“唯辞书之需是从”。尽管如此,我们还是以《现代汉语词典》

(1996年修订本,下文简称《现汉》

)作为信息处理用词语义项区分的主要参照,在此基础上依据语料中的实际使用状况和语言信息处理的实际需求作出适当的调整。一般认为,传统辞书上的义项划分对于语言信息处理是过于细微了一些,于是计算语言学家就想方设法对辞书中的义项进行适当归并(Ide and V éronis ,1998)。面向汉语信息处理,北京大学计算语言学研究所已经在词语义

项划分方面做了不懈努力和大量工作,例如《现代汉语语法信息词典》

(俞士汶等,2003)中的“同形”区分,《现代汉语语义词典》(王惠等,2003)中的“义项”区分,这是我们进一步工作的坚

实基础。

二 什么是词义消歧研究中的多义词

从计算机处理的角度看,所谓多义词,就是书写形式上的同一个词形(w ord form )表达了多种不同的意义(meanings ),即形成了形到义一对多的映射关系。现代汉语中词形、词类、读音、意义形成的多义词状况是很复杂的:

同形

同类同音不同义项(去:去北京Π去果皮)不同词(抄:抄笔记Π抄近道)

不同音(调配ti áop èi Π调配di àop èi )不同类同音(锁:门上的锁Π锁好门)

不同音(地道d ìd ào Π地道d ìdao )

图1 现代汉语多义词的音、形、义关系(俞士汶等,2003)

当前经过了词语切分和词性标注的大规模语料已经存在(譬如北京大学研制开发的《人民日报》语料),无论是人工进行词义标注还是计算机进行自动词义消歧,现在一般都是建立在词性标注语料的基础上。因此,不同词类的多义现象在词性标注阶段伴随着词性的正确标注而基本得到了歧义消解,例如下面句子中的“锁”:

【锁】①安在门、箱子等的开合处或铁链的环孔中,使人不能随便打开的金属器具。

721・2006年第2期吴云芳 俞士汶:信息处理用词语义项区分的原则和方法

相关文档
最新文档