机器翻译技术的研究和应用综述

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

机器翻译技术的研究和应用综述

ACM Matrix_68

摘要：随着互联网的日益发展，网络信息的激增，国际社会交流愈加频繁，机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。本文回顾机器翻译研究的历史，介绍典型的机器翻译方法，在分析机器翻译内涵的基础上，阐述了机器翻译的现状，探讨了机器翻译所面临的问题及机器翻译的发展趋势，对统计以及机器学习方法在机器翻译中的应用进行了描述；论文还介绍了当前机器翻译评测技术；最后对机器翻译进行总结和展望。

关键字：机器翻译；自然语言；基于规则；基于统计；基于实例；混合策略；机器学习

1引言

近年来，自然语言处理的研究已经成为热点，而机器翻译作为自然语言研究领域的一个重要分支，同时也是人工智能领域的一个课题，同样为大家所关注。当电子计算机1946年问世的时候，人们就提出了机器翻译的想法，并且在1954年进行了第一次机器翻译试验。然而与后来的各种语言信息处理研究和应用（语言信息检索、文本自动分类、自动文摘、信息提取等等）相比，机器翻译却是进展最慢的。

从上个世纪40年代英国工程师Booth 和美国工程师Weaver提出利用计算机进行翻译的想法，到50年代欧美国家投入大量的人力、物力致力于机器翻译的研究，再到60年代ALPAC置疑报告的提出，机器翻译走向沉寂。

学者们倾其大半生精力、商家投入为数可观的资金，经历五十多年不懈的研究和开发，得到的成果或者产品却常常不能令人满意。最近的二十年，随着语言学理论的发展、计算机技术的进步以及统计学和机器学习

方法在自然语言处理领域中的广泛应用，人们对机器翻译本身的应用背景、目标等也有了更加准确的认识，机器翻译在此背景下取得了长足的发展，基于统计、基于实例等新的机器翻译方法也都是在这一时期出现，一些机器翻译系统也从实验室走向了市场。

本文第二节介绍了机器翻译的历史现状；第三节介绍了机器翻译面临的问题；第四节介绍几种经典的机器翻译方法；第五节给出近期机器翻译的发展趋势，介绍基于混合策略的机器翻译方法，对统计机器学习在机器翻译中的应用进行总结；第六节讨论当前机器翻译的评测系统；最后，对机器翻译研究进行总结和展望。

2机器翻译的历史现状

机器翻译的研究历史可以追溯到20世纪三四十年代。20世纪30年代初，法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。1933年，苏联发明家П.П.特罗扬斯基设计了把一种语言翻译成另一种语

言的机器，并在同年9月5日登记了他的发明；但是，由于30年代技术水平还很低，他的翻译机没有制成。1946年，第一台现代电子计算机ENIAC诞生，随后不久，信息论的先驱、美国科学家W.Weaver和英国工程师A.D.Booth在讨论电子计算机的应用范围时，于1947年提出了利用计算机进行语言自动翻译的想法。1949年，W.Weaver发表《翻译备忘录》，正式提出机器翻译的思想。走过六十年的风风雨雨，机器翻译经历了一条曲折而漫长的发展道路，学术界一般将其划分为如下四个阶段：

2.1机器翻译的开创期（1947-1964）

1954年，美国乔治敦大学（GeorgetownUniversity）在IBM公司协同下，用IBM-701计算机首次完成了英俄机器

翻译试验，向公众和科学界展示了机器翻译的可行性，从而拉开了机器翻译研究的序幕。

从20世纪50年代开始到20世纪60年代前半期，机器翻译研究呈不断上升的趋势。美国和前苏联两个超级大国出于军事、政治、经济目的，均对机器翻译项目提供了大量的资金支持，而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相

当大的重视，机器翻译一时出现热潮。这个时期机器翻译虽然刚刚处于开创阶段，但已经进入了乐观的繁荣期。

2.2机器翻译的受挫期（1964-1975）

1964年，为了对机器翻译的研究进展作出评价，美国科学院成立了语言自动处理咨询委员会(AutomaticLanguageProcessingAdvisoryC ommittee，简称ALPAC委员会)，开始了为期两年的综合调查分析和测试。

1966年11月，该委员会公布了一个题为《语言与机器》的报告（简称ALPAC报告），该报告全面否定了机器翻译的可行性，并建议停止对机器翻译项目的资金支持。这一报告的发表给了正在蓬勃发展的机器翻译当

头一棒，机器翻译研究陷入了近乎停滞的僵局。无独有偶，在此期间，中国爆发了“十年文革”，基本上这些研究也停滞了。机器翻译步入萧条期。

2.3机器翻译的恢复期（1975-1989）

进入70年代后，随着科学技术的发展和各国科技情报交流的日趋频繁，国与国之间的语言障碍显得更为严重，传统的人工作业方式已经远远不能满足需求，迫切地需要计算机来从事翻译工作。同时，计算机科学、语言学研究的发展，特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处

理上的应用，从技术层面推动了机器翻译研究的复苏，机器翻译项目又开始发展起来，各种实用的以及实验的系统被先后推出，例如Weinder系统、EURPOTRA多国语翻译系统、TAUM-METEO系统等。

而我国在“十年浩劫”结束后也重新振作起来，机器翻译研究被再次提上日程。“784”工程给予了机器翻译研究足够的重视，80年代中期以后，我国的机器翻译研究发展进一步加快，首先研制成功了KY-1和MT/EC863两个英汉机译系统，表明我国在机器翻译技术方面取得了长足的进步。

2.4机器翻译的新时期（1990至今）

随着Internet的普遍应用，世界经济一体化进程的加速以及国际社会交流的日

渐频繁，传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求，人们对于机器翻译的需求空前增长，机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开，中国也取得了前所未有的成就，相继推出了一系列机器翻译软件，例如“译星”、“雅信”、“通译”、“华建”等。在市场需求的推动下，商用机器翻译系统迈入了实用化阶段，走进了市场，来到了用户面前。

3机器翻译面临的问题

3.1影响机器翻译质量的核心是歧义的处理。

在词汇的层面上，词汇的歧义主要是一词多义，如英语单词“note”可以指“笔记”、“短信”、“注释”、“纸币”等。

以下是词汇歧义的例子：原文：

Thank-younotesareheart-warming.机器译文：感谢笔记温暖人心。人工译文：感谢信温暖人心。在结构层面上，常见的结构歧义有and(和)结构，如nicegirlsandboys,它既可表示“好女孩和男孩”，也可表示“好女孩和好男孩”，这种歧义只有人工翻译才能消除，计算机无法识别此歧义，可见歧义的处理是影响机器翻译质量的关键。

3.2人类翻译目标集中于目标语言

如果有必要的话，译者会采用灵活的方式以使翻译传情达意，有的时候会使用意译的方法，这是机器翻译所无法达到的。以文学翻译为例，文学翻译是“传达作者的全部意图，即作者对在读者思想感情上产生艺术作用的全部意图……”。即使对于专业翻译工作者来说，文学翻译也不是件容易的事，