意念词典·语义词典·机器翻译

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

意念词典·语义词典·机器翻译

易绵竹薛恩奎/解放军外国语学院

提要词典或词库建设是研制开发自然语言处理系统的一项重要基

础性工程,它区别于纸版辞书的特征是能存放在计算机系统中供语言信息处理程序使用,它一般以CD—ROM(Compact Disc—Read Only Memory高密度盘只读存储器)为介质,登录构成句子的词汇单位所负载的词法信息、句法信息、语用信息、概念信息及对译信息,这就是所谓的机器可读词典(Machine Readable Dictionary,MRD)或电子词典。本文将讨论意念词典、语义词典的性质和编纂原则以及它们在语言信息处理中的作用。

关键词意念词典语义词典电子词典机器翻译

1. 电子词典是机器翻译系统工程化的一个重要方面

据有关文献记载,前苏联工程师П.П.Троянский首次提出了机器翻译设想。1933年9月5日,他在莫斯科登记一项专利,其内容是要求保护“制造一台在从一种语言翻译成另一种语言或多种语言时能选择和打印词汇的机器”的专利,这实际上是一台查字典的机器,其思想已经使计算机介入了语言翻译环节。(ЭСЮФ 1984:214;吴蔚天等1994:224)1946年当世界上第一台电子计算机问世之时,就有人考虑将它应用到语言学研究中,并由此产生了“计算语言学”这一边缘性交叉学科。但是由于受计算机功能和程序设计环境上的制约,当时只能做词条索引及词语系统等方面的工作。1949年,美国工程师W.Weaver(韦弗)提出使用计算机可能“解决世界范围内的翻译问题”,其主要方法也是“查字典”:先为源语言中的每一个词查出一个目标语言中的等价词,再按照目标语言的语法规则来编排每一个词,从而达到翻译的目的。(林尧瑞等 1996:305)可见,词典在机器翻译的原初设想中占据重要地位。

在计算语言学文献中,电子词典亦称自动词典或机器词典,它被认为是语言工程的支柱和基石,构建信息含量大、功能齐全的电子词典应当成为民族语言现代化的一项基本建设。冯志伟先生正确指出:“机器翻译系统的基本信息都来自机器词典,语法语义规则利用来自机器词典中的各种静态信息,运算出表示话语语义特征的各种动态信息来。因此,我们可以说,机器词典是机器翻译的基础,没有好的机器词典,机器翻译就等于做无米之炊,是根本无法进行的。近年来,,机器词典的研制成为一种专门学问,叫做‘电子词典’(electronic dictionary)。电子词典是机器翻译系统工程化的一个重要方面。”(冯志伟1994:231)电子词典是服务于机器翻译的知识库(лингвистическаябазазнаний)的重要构件之一(另一重要构件是语法规则库),它构造的是知识库而不是数据库。电子词典的词条是具有完整意义的单词所代表的简单概念或词素(simple concept or lexeme)和具有完整意义的非自由短语(固定词组或句子)所代表的复合概念或句素(complex concept or phraseme/syntaxeme),而由这些概念所形成的层级化、秩序化的语义关系网络,能够充分揭示中外语言单位之间的内在逻辑联系,为计算机理解词义、句义及篇章义奠定基础。(姚天顺等1995:215 216)众所周知,机器翻译的逻辑过程通常分为分析、转换和生成3个阶段,而对词汇的处理则贯穿机器翻译的全过程。在分析过程中,通过设置一定的语义限制,以便于从源语言一个词的多个义项中选择一个正确的词义,亦即排除词汇歧义:在生成过程中,源语言一个词义往往可用目标语言不同的词来表达,如何选择一个符合目标语言表达习惯的等价词则是选词模块的主要工作:而在转换过程中,主要涉及两种语言词汇的转换和语言表达结构的转换。

2. 意念词典的性质及编纂原则

2.1 什么是意念词典

确定于计算机语言信息处理的总词表或总词库,实际上就是构造某种语言的义类词典(тезаурс),而义类词典亦称意念词典或概念词典(идеологический,идеографическийилиюнцептуальныйсловари)И.М.Кобозева将义类词典确定为语言内容平面聚合关系结构的模式(тезаурускакмодельпарадигматическойструктруыпланасодержанияязыка),并把它看作该语言的语义场系统。(И.M.Кобозева 2000:123 124) 在各类辞书中,对义类词典或意念词典的译义大同小异,下面试列几条:

(1)ТЕЗАУРУС(отгреч.thesauros-сокровище,сокровищница)— 1)словарь,вк-роммаксимальнополнопредставленывсесловаязыкасисчерпывающимпереченемпримеровихупореблениявконтекстах;2)идеографичекийсловарь,вк-ромпоказанысемантическиеотношения(родо-видовые,синонимическиеидр.)междулексическимиединицами.(ЛЭС 1990:506)

(2)ТЕЗАУРУС—идеографическийсловарь,вкоторомпоказанысемантическиеотношениямеждуегоединицами.Структунойосновойтезаурусаявляетсяиерархическаясистемапонятийконкретнойпредметнойобласти.(ПЯ1996:13)

(3)ТЕЗАУРУС…винформатике—полныйсистематизированныйнаборданныхокакой-л.областизнания,позволяющийчеловекуиливычислительноймашниевнейориентироваться.(ССИС 1992:597-598)

(4)ТЕЗАУРУС(спец.)— 1)словарьязыка,ставящийзадачуполногоотражениявсейеголексики;2)словарьилисводданных,полностьюохватывающийтермины,понятиякакой-н.специальнойсферы.(ТСРЯ 1992:819)

(5)THESAURUS — dictionary of words and phrases grouped together acoording to similarities in their meanings.同义语字汇;同义语字典。(OALDCECT 1984:1223) 由上面所引这些译义可以推断,意念词典旨在揭示词汇单位之间各种语义关系(种—属关系、同义关系等),以构成语言知识库的语义描写系统,并使之与某个具体知识领域的概念层级系统对接起来,为人机通用的知识信息处理服务。

2.2 意念词典的编纂原则

与一般详解的词典并不同,意念词典的词条不是按字母顺序排列,而是按一定主题原则(тематическийпринцип)排列。从这个角度看,编纂意念词典应当尽可能全面地搜罗有关语言中概念相近、语义相关的所有词汇及短语,并将它们按照一定的主题原则分门别类,也就把这些词汇和短语表示的不同意义分成若干概念类目,用特定的符号

相关文档
最新文档