机器翻译质量的研究与探讨

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机器翻译质量的研究与探讨

何站涛韩兆强闫栗丽

交大铭泰软件有限公司北京100081

E—mail:hezt@sunv.com

<摘要:本文简介了机器翻译的发展历史和常用方法,重点阐述了提高机器翻译质量的新思路,最后进行了展望.

关键词:机器翻译N元文法语义网语料库计算机辅助翻译

一、引言

计算机对自然语言的研究和处理,一般应经过如下三个方面的过程:

I.把问题在语言学上加以形式化.使之能用数学形式严密而规整地表示出来

2.把这种数学形式表示为算法,使之在计算上形式化;

3.根据算法编写计算机程序,使之在计算机上加以实现。

因此.自然语言处理就成了语言学、数学和计算机科学之间的边缘学科。

二、机器翻译概述

面向计算机的语言的机器翻译研究是二十世纪五十年代才开始的:

从五十年代初期到六十年代中期,机器翻译一直是自然语言处理系统研究的中心课题,当时采用的主要是“词对词”翻译方式,这种不是建立在对自然语言理解的基础上的简单技术,没有得到预期的翻译效果,如,威沃(Weaver)设计实现的机器翻译原型系统,该系统采取查找双语词典,句子译文只是单词译文的简单罗列。

六十年代初,自然语言处理使用了简单的语料库统计方法,不仅依据词的意义.而且依据词与其他词的共现情况对词进行分类。但经验主义遭到了理性主义的批评,如乔姆斯基(Chomsky)对N元语法(N.Gram)的批评、闵斯基(Minsky)等对神经网络的批评。

六十年代中期,人们开始转入对自然语言的语法、语义和语用等基本问题的研究,并尝试着让计算机来理解自然语言。乔姆斯基的转换语法和形式化理论为下一代的自然语言处理提供了一种新的解决方案。

七十年代初,美国哈佛大学人工智能专家伍兹(Woods)提出了扩充转移网络(AugmentedTransitionNetWork,ATN),通过使用成份寄存器和功能约束对有限状态机进行了扩充,ATN考察了更多的上下文信息,保持了有限状态计算的简单性。

从八十年代初期开始,国际计算语言学界出现了一批新的语法理论。比较著名的有广义短语结构语法(GeneralizedPhraseStructureGrammar,GPSG)、中心语驱动的短语结构语法(Head-drivenPhraseStructureGrammar,HPSG)、词汇功能语法(LexicalFunctionalGrammar,LFG)、功能合一语法(FunctionUnificationGrammar,FUG)等确定子句语法。

·218·

九十年代初期,计算机从速度、容量方面都有了,大幅度的提高.且统计方法在语音自动识别、词典编纂等领域取得了重大成功,因此,统计方法在机器翻译领域又重新复苏,引起了广泛关注,先后出现了基于语料的机器翻译系统(Corpus—BasedMachineTranslation)和基于实例(Example.BasedMachineTranslation)的机器翻译系统。

三、机器翻译的三种常用方法

1.直接翻译法(DirectTranslation)

从源语言的句子出发,将其中的单词、固定词组直接替换成目标语言的对应成分。这种方法对翻译过程的认识过于简单化,基本上属于一种过时的方法。

2.中间语言法(IntralingualApproach)

用一种对所有语言都适合的句法,语义表示任意一种源语言.然后再从这种表示生成任意一种目标语言。

3.转换法(TransferApproach)

当今许多实用的系统都采用了转换法,通常都是分三个阶段进行翻译:第一个阶段用代码化的结构标志来表示源语言文句的结构,第二阶段把源语言的结构标志转换为目标语言的结构标志,第三阶段再根据目标语言的结构标志生成目标语言。

第一阶段只涉段源语言,不受目标语言的影响,除了作源语言的词法分析之外,还要进行源语言的句法分析;第三阶段只涉及目标语言,不受源语言的影响,除了作目标语言的词法生成之外,还要作目标语言的句法生成;在第二阶段涉及到源语言和目标语言二者,除了进行源语言和目标语言的词汇转换之外,还要进行源语言和目标语言的结构转换。

四、机器翻译质量的突破

机器翻译经历了半个多世纪的发展,从经验主义的基于统计的方法,到理性主义的基于规则的方法,又回到了统计方法,虽然是一个螺旋式的上升,但机器翻译的翻译质量仍然无法让人满意。

网络推动了技术,技术推动了翻译,翻译推动了交流,交流推动了经济。随着因特网的出现和发展.机器翻译的应用前景将更为诱人。要使机器翻译质量产生一个飞跃,必须打破传统思想,寻求新的思路。

1.专业化的知识体系

1.1基本词典

基本词典要有足够的基本词汇量,常用词语不低于4万;每个词条不仅有基本的词法解释,还应有句法和语义等信息,信息越丰富越好。

1.2专业知识

针对不同的专业领域,要配备不同的专业技术词典、规则库、双语语料库。特别是对于目前迅猛发展的因特网专业词汇、习惯用法等,可以提供定制的网络词典等。

1.3开放式接口

采用开放式接口,允许人工干预,如使用用户自定义的词典,让用户参与交互式分析(对多义词进行排歧)、交互式转换(排除不适当的转换)、交互式生成(在省略、指代、主题化方面提供指导)等等,以牺牲全自动的要求而获取较高质量的译文。

·219·

l4世界知识

建设世界知谚{或常识库,如关系语义知识库.提供对概念及其属性之间的多种语义关系的网状描述,iill-11N“穿将军的大衣”和“穿大衣的将军”之类的语义理解问题。

2.采用三层架构.经验主义和理性主义的有机结合

2.1双语语料库

第一层,使用较大规模的双语语料库,经常使用的源语言句子都能在此语料库中搜索到。因为双语语料库是由人工编辑过的,因此可以直接得到符合人们语言习惯的目标语言句子。

2.2模板规则和评判标准

第二层,使用模板规则和基于实例的翻译方法,建立一套相似度准则。对于那些在双语语料库中找不到的句子.通过分析、比较相似度.得到最后的结果:如果与模板规则库中的某个句子非常相似,则可以按照此模板规则的输出模板或替换规则进行输出;如果找不到.则使用第三层结构进行输出。

2.3自然语言分析

第三层,使用自然语言分析方法,利用语言规则,生成句子结构。需要注意的是,语言学家归纳的语言规则只是一些常用规则,由于语言的复杂性和灵活性.因此,要完全分析出所有的自然语言几乎是不可能的。相反,分析出词与词、片断与片断之间的关系倒是相对容易的多(此时依存文法是最适合的一种方法)。结合短语文法和统计方法,将句子中相关的词先经过分析、组成短语,不仅能提高翻译质量,而且能加快机器翻译的速度。

2.4综合评价

对于第二层和第三层的输出,还可以不直接输出,而是使用一个综合评价,如使用目标语言的语用统计库(计算目标语言句子中词与词间的现实概率).挑选两者中的最优解作为最终输出,提交给用户。

3.利用上下文的相关性,解决歧义、指代、省略等问题

传统的机器翻译系统都是以一个句子为翻译对象,其分析和生成都仅仅局限在这个孤立的句子上。如果结合这个句子出现的上下文(如,包含此句子的6-8个句子的完整的自然段落,形成一个句群),分析其语义,形成语义网(而不是传统的句法树),从中选择最优解,将极大地提高整篇文章的翻译质量。

五、实践运用

1.机器自动翻译

传统的翻译引擎只是从实现的原理进行研究,而没有考虑其实用性以及产品化,因此.在实际运用中遇到很多问题。

我们所作的英汉机器翻译引擎从实用的角度出发,跨平台.支持16位和32位操作系统、资源占用少,并能保证翻译速度和质量。目前基本词典中包含十多万条词条、几万条短语和固定用法、近百万条语料,提供二十多个专业词典,并结合两岸三地的特点,实现简繁体内码的自动识别和转换,针对计算机中常见的软件进行特殊处理,将其中的资源,包括菜单、提示、帮助信息等——对照,提高了引擎的可用性。另外,针对目前流行的Intemet,我们增加网页词典的接口,并优化词典中的词条。同时.将引擎嵌入到每个进程中,不仅能汉化软件.还能智能汉化软件的输出:例如.对于编辑器中的编辑内容,除非用户特别操作,否则

·220·

相关文档
最新文档