机器翻译研究综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机器翻译综述

1.引言

1.1机器翻译的历史

现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。

在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。他提出了两个主要观点:

第一,他认为翻译类似于解读密码的过程。

第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中

间语言”,可以假定是全人类共同的。

在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。

1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期

1.2机器翻译的主要内容

经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法

●句法转换方法

●中间语言方法

●基于规则的方法

●基于语料库的方法

➢基于实例的方法(含模板、翻译记忆方法)

➢基于统计的方法

在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。

下面对各个方法逐一的进行介绍。

2.机器翻译主要方法

2.1直接翻译方法

所谓直接翻译方法就是从句子的表层出发,将单词、词组、短语甚至是句子直接置换成目标语言译文,有时进行一些简单的词序调整实现翻译,并不进行深层次的句法和语义分析。直接翻译方法也是早期翻译系统常用的方法。在1954年,美国乔治敦大学用IBM计算机进行了首次机器翻译的实验后来IBM提出的统计机器翻译模型也可以认为是采用了这一思想。

这种方法只能是作为研究初期的一种方法,因为方法本身就是一个很成熟的方法,举例如下:

How are you?直接翻译结果:怎么是你

How old are you?直接翻译结果:怎么老是你

从这个翻译结果就可以看到直接翻译方法的结果是非常不好的,直接翻译方法仅能满足特定译文生成的需要,比如说只在语言特点较为相似的语言之间的翻译效果较好。对于像英汉语言这样差异较大的语言的翻译就不能使用直接翻译的方法。鉴于直接翻译方法在机器翻译研究中的局限性,现如今几乎没有人继续在这个方法上进行进一步的研究,所以该方法只是在50、60年代作为机器翻译的起始研究方法存在。

2.2句法转换方法

1957年,美国学者V. Yingve在Framework for Syntactic(句法翻译框架)中提出了句法转换方法。

整个过程分为“分析”、“转换”、“生成”三个阶段,分别如下:

分析:将将源语言句子转换成源语言申城结构;在分析的过程中,有相关分析和独立分析两类。所谓相关分析就是在分析时需要考虑目标语言的特点。而独立分析就是分析过程与目标语言无关。

转换:将源语言深层结构转换为目标语言的深层结构;

生成阶段:由目标语言深层结构生成目标语言句子;生成过程也有两类:相关生成和独立生成。即相关生成是在生成时需要考虑语言的特点,而独立生成的生成过程与源语言无关。

理想的转换方法应该做到独立分析和独立生成,这样在进行多语言机器翻译的时候可以大大的减少分析和生成的工作量。但独立分析和独立生成同样也会造成翻译质量的下降。

转换方法的优点是可以较好的保持原文结构,产生的译文结构与原文结构关系密切,尤其对于语言现象已知或句法结构规范的源语言句子具有较强的处理能力和较好的翻译效果。主要不足就是:分析规则由人工编写,工作量大,规则的主观性强,规则的一致性难以保障,不利于系统扩充[1]。

2.3中间语言方法

中间语言翻译方法首先将源语言句子分析成一种与具体语言无关的通用语言或中间语言,然后再由中间语言得到目标语言。整个翻译过程分为“分析”和“生成”两个部分。中间语言的优点在于进行多语种翻译的时候,只需要对每种语言分别开发一个分析模块和一个生成模块,模块总数为2*n,相比之下,如果采用转换方法就需要对每两种语言之间都开发一个转换模块,模块总数为n*(n-1)。

虽然基于中间语言的机器翻译方法能够减少系统实现的工作量,但是如何定义和设计中间语言的表达式并不是一件容易的事情,中间语言在语义表达的准确性、完整性、鲁棒性和领域的可移植性等诸多方面都存在问题[1]。

在基于中间语言机器翻译的基础之上,文献[2]采用统计的方法实现源语言到中间语言的转换和中间语言到目标语言的转换,用以实现一个语音到语音的翻译系统。这种方法从思想方法上已经属于基于统计的范畴,但在技术方法上依然属于中间语言的方法。现在纯粹基于中间语言的方法现在也很少能够引起研究人员的关注。

2.4基于规则的机器翻译方法

自从乔姆斯基的转换生成语法提出后,基于规则的方法一直就是机器翻译研究的主流,乔姆斯基认为一种语言无限的句子可以由有限的规则推导出来[3]。后来法国著名机器翻译专家沃古瓦(B. Vauquois)教授把基于语言规则的机器翻译方法的翻译过程总结为如下图形,这个图形又被称为“机器翻译金字塔”[4]:

图1 机器翻译金字塔

基于规则的方法的优点在于直观,能够表达精确地语言学家的知识,而且规则的颗粒度有很强的可伸缩性:(1)大颗粒度的规则具有很强的概括能力;(2)小颗粒度的规则具有精细的描述能力。能够处理复杂的结构和进行深层次的理解,系统适应性较强,不依赖于具体的训练语料。基于规则的方法同样也存在问

相关文档
最新文档