机器翻译技术的研究和应用综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器翻译技术的研究和应用综述
ACM Matrix_68
摘要:随着互联网的日益发展,网络信息的激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,在分析机器翻译内涵的基础上,阐述了机器翻译的现状,探讨了机器翻译所面临的问题及机器翻译的发展趋势,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。
关键字:机器翻译;自然语言;基于规则;基于统计;基于实例;混合策略;机器学习
1引言
近年来,自然语言处理的研究已经成为热点,而机器翻译作为自然语言研究领域的一个重要分支,同时也是人工智能领域的一个课题,同样为大家所关注。当电子计算机1946年问世的时候,人们就提出了机器翻译的想法,并且在1954年进行了第一次机器翻译试验。然而与后来的各种语言信息处理研究和应用(语言信息检索、文本自动分类、自动文摘、信息提取等等)相比,机器翻译却是进展最慢的。
从上个世纪40年代英国工程师Booth 和美国工程师Weaver提出利用计算机进行翻译的想法,到50年代欧美国家投入大量的人力、物力致力于机器翻译的研究,再到60年代ALPAC置疑报告的提出,机器翻译走向沉寂。
学者们倾其大半生精力、商家投入为数可观的资金,经历五十多年不懈的研究和开发,得到的成果或者产品却常常不能令人满意。最近的二十年,随着语言学理论的发展、计算机技术的进步以及统计学和机器学习
方法在自然语言处理领域中的广泛应用,人们对机器翻译本身的应用背景、目标等也有了更加准确的认识,机器翻译在此背景下取得了长足的发展,基于统计、基于实例等新的机器翻译方法也都是在这一时期出现,一些机器翻译系统也从实验室走向了市场。
本文第二节介绍了机器翻译的历史现状;第三节介绍了机器翻译面临的问题;第四节介绍几种经典的机器翻译方法;第五节给出近期机器翻译的发展趋势,介绍基于混合策略的机器翻译方法,对统计机器学习在机器翻译中的应用进行总结;第六节讨论当前机器翻译的评测系统;最后,对机器翻译研究进行总结和展望。
2机器翻译的历史现状
机器翻译的研究历史可以追溯到20世纪三四十年代。20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。1933年,苏联发明家П.П.特罗扬斯基设计了把一种语言翻译成另一种语
言的机器,并在同年9月5日登记了他的发明;但是,由于30年代技术水平还很低,他的翻译机没有制成。1946年,第一台现代电子计算机ENIAC诞生,随后不久,信息论的先驱、美国科学家W.Weaver和英国工程师A.D.Booth在讨论电子计算机的应用范围时,于1947年提出了利用计算机进行语言自动翻译的想法。1949年,W.Weaver发表《翻译备忘录》,正式提出机器翻译的思想。走过六十年的风风雨雨,机器翻译经历了一条曲折而漫长的发展道路,学术界一般将其划分为如下四个阶段:
2.1机器翻译的开创期(1947-1964)
1954年,美国乔治敦大学(GeorgetownUniversity)在IBM公司协同下,用IBM-701计算机首次完成了英俄机器
翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开了机器翻译研究的序幕。
从20世纪50年代开始到20世纪60年代前半期,机器翻译研究呈不断上升的趋势。美国和前苏联两个超级大国出于军事、政治、经济目的,均对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相
当大的重视,机器翻译一时出现热潮。这个时期机器翻译虽然刚刚处于开创阶段,但已经进入了乐观的繁荣期。
2.2机器翻译的受挫期(1964-1975)
1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(AutomaticLanguageProcessingAdvisoryC ommittee,简称ALPAC委员会),开始了为期两年的综合调查分析和测试。
1966年11月,该委员会公布了一个题为《语言与机器》的报告(简称ALPAC报告),该报告全面否定了机器翻译的可行性,并建议停止对机器翻译项目的资金支持。这一报告的发表给了正在蓬勃发展的机器翻译当
头一棒,机器翻译研究陷入了近乎停滞的僵局。无独有偶,在此期间,中国爆发了“十年文革”,基本上这些研究也停滞了。机器翻译步入萧条期。
2.3机器翻译的恢复期(1975-1989)
进入70年代后,随着科学技术的发展和各国科技情报交流的日趋频繁,国与国之间的语言障碍显得更为严重,传统的人工作业方式已经远远不能满足需求,迫切地需要计算机来从事翻译工作。同时,计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处
理上的应用,从技术层面推动了机器翻译研究的复苏,机器翻译项目又开始发展起来,各种实用的以及实验的系统被先后推出,例如Weinder系统、EURPOTRA多国语翻译系统、TAUM-METEO系统等。
而我国在“十年浩劫”结束后也重新振作起来,机器翻译研究被再次提上日程。“784”工程给予了机器翻译研究足够的重视,80年代中期以后,我国的机器翻译研究发展进一步加快,首先研制成功了KY-1和MT/EC863两个英汉机译系统,表明我国在机器翻译技术方面取得了长足的进步。
2.4机器翻译的新时期(1990至今)
随着Internet的普遍应用,世界经济一体化进程的加速以及国际社会交流的日
渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星”、“雅信”、“通译”、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。
3机器翻译面临的问题
3.1影响机器翻译质量的核心是歧义的处理。
在词汇的层面上,词汇的歧义主要是一词多义,如英语单词“note”可以指“笔记”、“短信”、“注释”、“纸币”等。
以下是词汇歧义的例子:原文:
Thank-younotesareheart-warming.机器译文:感谢笔记温暖人心。人工译文:感谢信温暖人心。在结构层面上,常见的结构歧义有and(和)结构,如nicegirlsandboys,它既可表示“好女孩和男孩”,也可表示“好女孩和好男孩”,这种歧义只有人工翻译才能消除,计算机无法识别此歧义,可见歧义的处理是影响机器翻译质量的关键。
3.2人类翻译目标集中于目标语言
如果有必要的话,译者会采用灵活的方式以使翻译传情达意,有的时候会使用意译的方法,这是机器翻译所无法达到的。以文学翻译为例,文学翻译是“传达作者的全部意图,即作者对在读者思想感情上产生艺术作用的全部意图……”。即使对于专业翻译工作者来说,文学翻译也不是件容易的事,