机器翻译研究现状与展望1 Machine TranslationPast,Present,future
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器翻译研究现状与展望1
戴新宇,尹存燕,陈家骏,郑国梁
(南京大学计算机软件新技术国家重点实验室,南京 210093)
(南京大学计算机科学与技术系,南京 210093)
摘要:本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,包括:基于规则、基于统计以及基于实例的机器翻译方法;针对机器翻译的研究现状,详细介绍和分析了基于混合策略的机器翻译方法,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。
关键字:机器翻译,基于规则,基于统计,基于实例,混合策略,机器学习
Machine Translation:Past,Present,future
Dai Xinyu, Yin Cunyan, Chen Jiajun and Zheng Guoliang (State Key Laboratory for Novel Software Technology, Department of Computer Science
& Technology Nanjing University, Nanjing 210093)
Abstract:This paper firstly presents the history of machine translation, and introduces some classical paradigms of machine translation: RBMT, SBMT and EBMT. Secondly, we introduce the recent research on machine translation, and describe the hybrid strategies on machine translation in detail, and discuss the applications of machine learning for machine translation. We also analyze the current techniques about evaluation on machine translation. Finally, we draw a conclusion and prospect on the research of machine translation.
Keywords:Machine Translation, RBMT, SBMT,EBMT, HSBMT, Machine Learning.
1本论文工作得到863课题资助(编号:2001AA114102, 2002AA117010-04)
戴新宇博士生,主要研究自然语言处理;尹存燕助教,主要研究自然语言处理;陈家骏教授,博士生导师,主要研究自然语言处理、软件工程;郑国梁教授,博士生导师,主要研究软件工程。
一、引言
近年来,自然语言处理的研究已经成为热点,而机器翻译作为自然语言研究领域的一个重要分支,同时也是人工智能领域的一个课题,同样为大家所关注。纵观机器翻译的研究历史,从上个世纪40年代英国工程师Booth和美国工程师Weaver提出利用计算机进行翻译的想法,到50年代欧美国家投入大量的人力、物力致力于机器翻译的研究,再到60年代ALPAC置疑报告的提出,机器翻译走向沉寂。最近的二十年,随着语言学理论的发展、计算机技术的进步以及统计学和机器学习方法在自然语言处理领域中的广泛应用,人们对机器翻译本身的应用背景、目标等也有了更加准确的认识,机器翻译在此背景下取得了长足的发展,基于统计、基于实例等新的机器翻译方法也都是在这一时期出现,一些机器翻译系统也从实验室走向了市场。在中国,机器翻译的研究从50年代开始,多家大学和研究机构先后开发出俄汉、英汉、汉英、日汉、汉日等机器翻译系统,同时在汉语的自然语言理解方面做了大量的研究。在看到机器翻译研究取得进展的同时,我们也知道,由于对语言规律本身认识仍然不足,以及计算机对语言理解的局限性,再加上不同语言之间存在着语法结构、构造方式、语言习惯、社会背景等等的不同,机器翻译的效果与大家所期待的仍有非常大的差距。
本文第二部分介绍几种经典的机器翻译方法;第三部分给出近期机器翻译的研究现状,介绍基于混合策略的机器翻译方法,对统计机器学习在机器翻译中的应用进行总结;第四部分讨论当前机器翻译的评测系统;最后,对机器翻译研究进行总结和展望。
二、典型的机器翻译方法和技术
机器翻译是建立在语言学、数学、信息学、计算机科学等学科基础上的多边缘学科(它的发展是建立在语言学、数学、计算机科学的发展基础之上)现代理论语言学的发展、计算机科学的进步以及概率统计学的引入,对机器翻译的理论和方法都产生了深刻的影响。
Weaver机器翻译思想的提出,开始了机器翻译的研究热潮。Chomsky在50年代后期提出的短语结构语法,给出了“从规则生成句子”的原则。由于短语结构语法采用单一标记的短语结构来描述句子的构成,描述粒度过粗,因此存在约束能力弱、生成能力过强问题,人们逐渐意识到仅依靠单一的短语结构信息,不能充分判别短语类型和确认短语边界,于是,复杂特征集和词汇主义被引入自然语言语法系统,广义短语结构语法、词汇功能语法、中心语驱动的短语结构语法等语言学理论也相应的产生。在这个发展过程中,基于规则方法一直是机器翻译研究的主流。
在基于规则的方法中,语言规则的产生需要大量的人力,而且大量的语言规则之间往往存在着不可避免的冲突。另外,规则方法在保证规则的完备性和适应性方面也存在着不足。而此时,统计学方法在自然语言处理的语音识别领域取得了比较好的效果,于是,基于统计的机器翻译[1]应运而生。随着双语语料的大量增加、计算机性能的提高,基于实例的机器翻译方法被提出[2],并由此泛化产生了基于模板的机器翻译方法。下面我们分别介绍几种典型的机器翻译方法。
2.1 基于规则的机器翻译方法(Rule-Based Machine Translation)
从Chomsky提出转换生成文法之后,基于规则的方法一直是机器翻译研究的主流,Chomsky认为一种语言无限的句子可以由有限的规则推导出来。
早期的机器翻译系统,从体系结构上可以分为直译式、转换式和中间语言式,它们的不同之处在于对源语言分析的深度,它们的相同点是都需要大规模的双语词典、大量的源语言推导规则、语言转换规则和目标语言生成规则。其中,转换式的基于规则方法对源语言分析得比较深,它涉及到词汇结构分析、语法分析、语义分析,并完成词汇、语法、语义三层结构从源语言到目标语言的转换,而且转换式的方法又充分考虑了源语言和目标语言之间的特征联系,它比中间语言方法更容易获得高质量的翻译结果。因此,转换式的方法更多地被应用在早期的机器翻译系统中,整个翻译过程被分为:源语言分析部分,转换部分和目标语生成部分。而早期的系统,如德国西门子的METAL系统、美国的SYSTRAN系统、日本日立公司的A THENE系统以及中国中软公司的HY-1汉英系统,都是基于转换的机器翻译系统。
基于规则的机器翻译的优点在于:规则可以很准确的描述出一种语言的语法构成,并且可以很直观的表示出来。机器可以按照一组规则来理解它面对的自然语言,这组规则包含了不同语言层次的规则,包括用以对源语言进行描述的源语言分析规则、用以对源语言/目标语言之间的转换规则以及用