机器翻译现状
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器翻译的现状与发展
摘要:随着经济全球化的飞速发展以及人类命运共同体的提出,各国之间人民之间的交流必将日益频繁,各个国家语言之间转换需求也必定与日俱增,人为地学习千百种语言实在不易,机器翻译的作用也就越来越受到重视。它涉及计算机语言学、数学和语言学等各个学科,其中语言学为其提供了机译数据库和技术支撑。然而,目前机器翻译还存在许多不足,需要多方面深入研究。本文对机器翻译发展历程、研究方法、存在问题及其应对方法进行了综述,以期机器翻译更进一步发展。
关键词:机器翻译;发展历程;研究方法;语言学理论;问题;应对方法
机器翻译是通过计算机来实现不同自然语言之间的转换,也称为自动翻译,一般是指自然语言之间的部分句子或全文的翻译。它作为应用语言学的一个分支,是建立在语言学、数学和计算机科学基础上的跨学科研究。由于需要通过电脑数据库和翻译软件来完成操作,因此,机器翻译的发展与计算机科学、数学、人工智能、语言学等各学科的发展密不可分,可以说,机器翻译的推进需要这些学科的技术支撑和理论支持。人类进入21世纪以来,随着经济的发展,国际交流合作日益频繁,对机器翻译的需求日益增大。机器翻译是规避国家间交流障碍的有效手段,但作为综合性的学科,它的发展受到多方面牵制,因此需要相关研究人员和学者对其相关学科进行更深入的研究。
1机器翻译发展历史
机器翻译的历史最早可以追溯到20世纪30年代相关学者提出其雏形,如今处于高速发展的阶段。然而在初期机器翻译受到过阻碍,一度陷入低潮期。直到移动互联网时代的到来,一方面,随着计算机网络技术快速发展,人们要求用计算机实现语言翻译的愿望越来越强烈。另一方面自1990年统计机器翻译模型提出以来,基于大规模语料库的统计翻译翻译方法迅速发展,机器翻译再次成为人们关注的热门研究课题,取得了一些令人瞩目的成果。但是,在机器翻译飞速发展的同时,也遇到了很多难题,在目前的技术条件下翻译的质量还不能够达到人们的期望的程度,想让机器让人类一样去理解和分析语言还远不能行。在当今信息大数据时代,机器翻译正发挥越来越重要的作用。
机器翻译的发展可以归结为以下几个发展阶段:
1.1机器翻译人员的独立工作阶段
20世纪50年代初期,随着第一台计算机的问世,美国的科学家W.Weaver和英国工程师A.D. Booth就发表了翻译备忘录,提出了利用计算机进行翻译的设想。随后,通过不懈的努力和试验,美国的乔治伦敦大学和IBM公司合力推出了首个MT系统,为各国的机器翻译奠定了坚实的实践基础。但是由于受到计算机硬件局限性的限制,尤其是内存不足和存储速度慢,以及缺乏高级编程语言,研究人员无法完全依赖机器来完成大规模、高质量的翻译任务。同时,由于研究是在没有句法学家和语义学家的协助下独立进行的,翻译的质量难以保证。
在这样的背景下,早期研究者意识到,无论开发出什么样的系统都只能产生出低质量的输出,因此专家建议,先发展对有控制的语言进行翻译,并限定于某些特定领域。
1.2进入高质量的翻译输出
20世纪60年代,受到改进了的计算机硬件和编程语言的鼓舞,研究人员对机器翻译产生了盲目的乐观。编程语言在句法分析上取得的长足进步让翻译人员感受到了技术革新的成果,他们相信机器翻译有巨大的前景,几年之内就可以达到高质量的输出,这一乐观论调很快传遍了全世界。研究人员还提出假设:机器翻译的目标是产出高质量翻译的全自动系统。研究的重点在于寻求完善的翻译理论和方法。
1.3翻译软件和工具的发展
20世纪70年代以来,随着科技发展和各国间频繁交流,大规模翻译需求日益增加,对计算机翻译的依赖更加突出,机器翻译进入了新的发展阶段。实用性翻译和软件系统如雨后春笋频频出现,如Weinder系统、EURPOTRA多国种翻译系统、TAUM-METEO系统等。80年代产生了大量连接网络和大容量存储的微型计算机,各种翻译工具也应运而生,如词典和术语资料库、多语文字处理、词汇和术语资源的管理、信息传递的
输入和输出。最近又新添了“翻译记忆”功能,它能够存储已存在译文,以便为再利用和修订提供范例。
这一时期的机器翻译已经逐步进入了机器和人工相结合的阶段,机助人译(Computer-aided Machine Translation)和人助机译(Human-aided Translation)相互结合,对各种类型和规模的翻译做出了突出的贡献。同时语料库的发展和应用为机译提供了坚实的理论和技术来源,机器翻译进入到崭新的上升阶段。
1.4我国机器翻译的历程
我国的机器翻译始于1956年,由于当时与苏联的经济政治往来,我国对于机器翻译的需求逐渐显现,中俄语言间的互译催化了MT系统。80年代后,我国研制了KY-1和IMT/EC863两个英汉机译系统,随着计算机技术的成熟和发展,许多计算机公司研制出了一系列高科技的机译软件,如“译星”、“雅信”、“通译”、“科建”等。
机器翻译由简单到复杂,从初级到高级,不断进行着理论和实践的双重革新。其发展历程可概括为以下三代:第一代初级阶段,利用机器翻译词汇,不进行语法分析;第二代进步阶段,对句子的结构和语义进行分析;第三代人工智能阶段,随着心理学,特别是认知心理学的发展,人们认为电脑可以复制人脑的信息处理机制,使机器翻译更加智能化和自动化。目前,各国学者正经历着第三阶段,不断地攻克各种难关,提高机器翻译的质量和效率。
2机器翻译的研究方法
机器翻译研究方法可以从两个方面来叙述,一方面是语言学理论的应用,另一方面是MT研究者们实际所从事的内容。
2.1语言学的方法
机器翻译研究已经被看作一个试验新的语言理论或新的计算技术的领域。换言之,MT已经被视为语言理论的实验基础,因为翻译翻译的质量能由非专家来判断。
与之相关的理论有:20世纪50、60年代的信息理论、范畴语法、转换生成语法、从属语法和层次语法;
70、80年代的人工智能、非语言知识基础,诸如词汇功能语法、广义短语结构语法、中心词驱动短语结构语法和蒙太古语法等形式主义理论;90年代的神经系统网络、连接主义、平行处理和统计学方法以及他理论。人们还发现,那些以小样本为基础,在最初的试验中取得成功的新理论,最终都被证实存在一些问题。为了解决这些问题,必须检验一切有希望的方法并鼓励修正。
20世纪90年代初期,以语料库为基础的方法的出现使机器翻译研究有所增强,特别是引入了统计学方法和以实例为基础的翻译。统计学技术已经摆脱了以前专门以规则为基础(通常定位于句法)的方法的不足和它越来越明显的限制。在以语料库为基础的技术帮助下,歧义消除的问题、首语重复的解决和更多惯用语的生成都已经变得更容易驾驭。
2.2转移法
根据机器翻译转移理论的多数观点,在机器翻译系统中有某种转移成分。这种成分是特定的,从而一对语言可产生一个目标句子。转移成分有一个相应的词库,这是源语言的范式和短语映现于目标语言的包罗万象的清单(Napier,2000)。大量工作取决于对两种语言具体比较的信息。这种转移系统意味着,对每两种语言来说便要翻译,因此这种方法主张翻译本质上就是一种比较语言学的练习。由此可见,必须建立一个词库。
2.3语际法
语际法基于这样的理解:在一批语言的每两种语言之间,只要求将每一个成语语言翻译成中间语言(interlingua),再从中间语言翻译成某种语言。如果有n种语言,就需要n个成员被翻译成目标语言。但Arnold等(1995)对这种方法不以为然,认为使用中间语会导致信息的丢失。
2.4基于知识的方法
近来的趋势是转向基于知识的机器翻译,这是由Carnegie Mellon大学与新墨西哥州立大学的语言研究中心创导的。Arnold等(1995)认为需要3种知识来改进机器翻译系统。
(1)不依赖语境的语言学知识(语义学)。研究者将词语和语义特征联系起来,从而能对其他出现的词语加以制约。
(2)依赖语境的语言学知识,有的成为语用知识(语用学)。有多种方法处理语用学问题,其中之一是学习句子焦点的概念。
(3)常识/真实世界的知识(非语言学知识)
前两类是针对语言本身的,问题不是最大,计算机缺乏真实世界的知识才使研究人员苦恼不已。例如,计