从机器翻译到计算机辅助翻译的发展现状研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
从机器翻译到计算机辅助翻译的发展现状研究
何兴建成都体育学院
摘要:机器翻译,又称自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理的一个分支,与计算语言学、自然语言理解之间存在着密不可分的关系。我们所熟知并广泛使用的互联网翻译,包括谷歌翻译、有道翻译、百度翻译等,都是机器翻译服务。本文从机器翻译的发展历程入手,分析它的优势和不足,并引入计算机辅助翻译进行对比研究。最后,本文通过引入语料库和大数据的概念,探讨了机器翻译技术后续的发展方向,以便更好地为译者服务。
关键词机器翻译;计算机辅助翻译;语料库;大数据
Abstract Machine translation, also known as automatic translation, is a process from a natural source language to another natural target language via computer. As a branch of natural language processing, machine translation has an inseparable relationship with computational linguistics and natural language understanding. Internet translation has widely been used by us. Such as Google Translation, Youdao Translation, Baidu Translation, etc., are all machine translation services. Starting from the development process of machine translation, this paper analyzes its advantages and disadvantages, and then introduces computer aided translation (CAT). Finally, through introducing the concept of corpus and big data, this paper discusses the follow-up development direction of CAT technology, in order that it can give better service for translators.
Key words machine translation (MT); computer aided translation (CAD); corpus; big data
1. 研究背景:机器翻译简介和发展历程
随着国际贸易的发展和经济全球化的崛起,使得市场对专业翻译人才的需求不断增大。机器翻译技术在翻译行业中起着十分关键的辅助作用,可以大大减少翻译的工作量。所谓机器翻译,就是通过电子计算机程序,自动地把一种语言(源语言,source language)翻译成另一种语言(目标语言,target language)。从语言学的角度来讲,机器翻译就是自然语言处理技术的开发。机器翻译从总体模式上可分为三种类型:直接翻译法(Direct Translation)、中间语言法(Interlingual approach)以及转换法(Transfer approach)。
机器翻译的历史最早可追溯到20世纪三四十年代。20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。1933年,苏联发明家П.П.特罗扬斯基设计了把一种语言翻译成另一种语言的机器,并在同年9月5日登记了他的发明。早在1956年,我国就把这项研究列入了全国科学工作发展规划,课题名称是“机器翻译、自然语言翻译规则的建设和自然语言的数学理论”。机器翻译经历了一条曲折而漫长的发展道路,学术界一般将其划分为如下四个阶段:开创期(1947‐1964)、受挫期(1964‐1975)、恢复期(1975‐1989)和新时期(1990‐至今)[1]。
中国机器翻译研究起步于1957年,是世界上第4个开始研究机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都在进行机器翻译的研究。
在文献冯志伟著的《机器翻译研究》中,法国著名机器翻译专家沃古瓦(B.Vauquois)教授把基于语言规则的机器翻译方法总结为如下的图形(图1),我们可以把这个图形就做“机器翻译金字塔”(MT Pyramid):
图1机器翻译金字塔
Fig.1 machine translation pyramid
从机器翻译金字塔可以看出,一个完整的机器翻译过程是这样的:首先,输入源语言的
句子,经过形态分析,得出句子中每个单词的形态信息和其他信息,再进行句法分析[2]。
机器翻译,尤其是以统计机器翻译方法具有很多优势,如开发速度快、周期短、无需人
工干预等,在特定领域训练数据充分的情况下翻译性能基本可以达到实用水平。因此,统计
方法成为众多机器翻译系统开发者的首选。例如,Google、Microsoft以及国内的有道、百
度等互联网公司开发的在线多语言机器翻译系统;Asia Online、SDL Weaver等著名公司向企业和政府提供的翻译服务;及时通信工具Google Talk、MSN中的及时翻译服务,社交网络
Facebook中的翻译服务;以及IBM、Google推出的实时语音翻译系统等等。可以看到,在通用领域,机器翻译已经开始进入人们的日常生活。
2. 机器翻译的现状及其存在的问题
从机器翻译的定义和发展可以看出,同人工翻译一样,机器翻译也离不开对自然语言的理解。但是与人对语言的理解不同,机器只能识别形式化的东西,因此要实现自然语言的理解任务,机器必须用形式化的语言去描述自然语言。下面将描述现存的机器翻译的现状以及存在的问题[3][4]。
(1)翻译死板
使用机器翻译只是句法结构和词汇的机械对应,对源语言的分析只是求解句法关系,完全不是意义上的理解。当碰到段落一句一句处理时,上下文又缺乏联系,翻译结果无法让读者看懂,和语言本身的灵活性存在差异。而人工翻译就能先理解整篇文章的意思,再根据需要适当地调整翻译顺序,这样读者就一目了然。
(2)词义选择和句子歧义问题
多义词是英文中普遍存在的,现在的机器翻译还不能从多个意思中选择适当地一个,这是阻碍其发展的一个难题。在没有语境的情况下,英语句子常常存在着歧义。例如对于这句话:He hit the boy with a stick. 人工翻译有两种译法:“他用木棍打了那个男孩”或者“他打了拿着木棍的男孩”,而机器翻译的结果就只有第一种。
(3)文化因素的问题
对带文化色彩的语句,机器翻译和人工翻译真实有着天壤之别。人工翻译可以通过音译加注,以对遗漏的文化信息进行补充,而机器翻译几乎是不可能的。如果都使用机器翻译,那么大量的文化信息就会在翻译过程中遗失,以至于在译文中得不到原文所表达的意思。众所周知,用词丰富是语言使用的基本原则,英语尤其如此,最忌讳重复使用一个词来表达相近的意思,而机器翻译似乎没有这种能力。机器翻译的常见问题如错误的代词、介词,断章取义的句法,不正确的选词,单复数混淆,错误的时态等。
中国数学家、语言学家周海中曾在论文《机器翻译五十年》中指出:要提高机译的质量,