机器翻译的现状和发展趋势_岳涛
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
72
计算机教育 2005.4
人/才/培/养/与/就/业机器翻译(Machine Trans-lation)是通过计算机来实现不同自然语言之间的翻译。机器翻译是自然语言处理(Natural LanguageProcessing)的一个分支,机器翻译与计算语言学(ComputationalLinguistics)、自然语言理解(Natural Language Understanding)存在着密不可分的关系。机器翻译的研究与发展取决于计算机科学、数学、语言学、人工智能等多学科的发展,因此机器翻译可以说是一个跨学科的综合性系统工程。人类步入21世纪以来,随着国际互联网(Internet)的迅猛发展,网络信息急剧膨胀,国际交流日益频繁以及地球村的形成,机器翻译正在逐渐成为克服人们之间进行交流时所面临的语言障碍的重要手段,同时也面临着很大的市场机遇和挑战。
历史的回顾
从美国人维弗(Warren・Weaver)于1949年发表《翻译》备忘录并正式提出机器翻译的思想以来,机器翻译已经走过了50多个风风雨雨的春秋。在这期间,机器翻译可以说经历了一条曲折而漫长的
发展道路。
1954年,在美国乔治敦大学(Georgetown University)进行了
人类历史上的第一次机器翻译的公开演示。尽管演示尚不算很成功,但是它却具有划时代的意义,因为它拉开了人们研究机器翻译
的序幕。
从20世纪50年代开始到20世纪60年代的前半期,机器翻译的研
究呈不断上升的趋势。美国和前苏联两个超级大国出于军事和政治经济目的,纷纷对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视。
1966年,美国科学院发表的ALPAC报告使当时正在蓬勃发展的机器翻译陷入了停滞的状态。现在来看,该报告是非常片面、狭隘和短视的。
从20世纪60年代中后期到整个70年代,整个机器翻译领域处于一个相对平稳发展的时期,而在某些国家,特别是加拿大和欧盟,机器翻译的研究却取得了比较显著的进步。尤其是在加拿大,由于双语文
化的影响,政府积极支持机器翻译的研发工作,1976年,加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发了提供天气预报服务的实用性机器翻译系统TAUM-METEO,该系统的成功开发标志着
机器翻译已经在某些领域达到了实用化的程度。
进入20世纪80年代以来,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译在全世界范围内开始复苏,并在随后的90年代取得了长足的进步。
20世纪90年代以来的机器翻译技术的新进展
1.机器翻译的分类
进入20世纪90年代,机器翻译领域的的研究方法基本上可以分为两大类,即基于规则(Rule-Based)和基于语料库(Corpus-Based)的方法。基于规则的方法又可以分为基于转换的方法和基于中间语言的方法,基于语料库的方法又可以分为基于统计的方法和基于实例的方法。传统的基于规则的方法又可以
机器翻译的现状和发展趋势
中国软件与技术服务股份有限公司 岳涛/文
◆ 课外新知 ◆
73
计算机教育 2005.4
人/才/培/养/与/就/业
称为理性主义方法,与之相对,基于语料库的方法又可以称为经验主义方法。
2.继续占据主导地位的基于规则方法
纵观机器翻译发展的历程,可以看出,机器翻译的主流方法一直是基于规则的方法。国际上有影响的机器翻译系统基本上都需要规则的贡献,即使在多种技术并存的系统中也有规则,基于规则的机器翻译技术思想是被普遍接受的、成熟的,也是到目前为止应用最广的方法。
基于规则的机器翻译系统就是对语言语句的词法、语义进行分析、判断和取舍,然后重新排列组合,最后生成等价的目标语言。
基于规则的机器翻译技术发展到今天,已经建立了一定规模的规则库,覆盖了相当多的语言现象。同时,基于规则的机器翻译技术不断借鉴和融合其他方法的优点,这些变化主要体现在:
* 在规则的获取方面,传统的规则方法主要依靠语言学家总结\进行调试,而现在更加重视自动从大规模语料库中获取规则。
* 传统的规则方法往往偏重描述粗粒度、全局化的大范围语言学规则知识,而现在则更加重视描述细粒度、局部的小范围的语言学知识,呈现出“小规则库、大词典”的趋势。
* 在知识表示方面,为了以更小的粒度、更加准确地对翻译知识
进行描述,一般要对单纯的上下文无关规则作一些改进。改进的方法有以下两种:一种是采用特征结构与合一算法,如LFG、GPSG等等,这种方法一般要求具有较好的语言学背景;另外一种是采用词汇化的方法对规则加以细化。
* 传统的规则方法采用的往往是非此即彼的确定性原则,系统的鲁棒性较差,而现在规则系统中一般都引入各种形式的概率或者评分函数,系统的鲁棒性有所提高。概率与评分函数方法的区别在于:前者一般有比较严格的数学模型做基础,概率值的计算要以对大规模语料库的统计为依据;后者的主观性较强,评分规则的确定以及具体规则的分值都是人为的,人们可以根据经验进行调整。
3.异军突起的基于统计方法基于统计的机器翻译方法的数学模型是由国际商业机器公司(IBM)的研究者提出来的。统计机
器翻译的基本思想是,把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。从理论上说,这种模型只考虑了词与词之间的线性关系,没有考虑句子的结构。这在两种语言的语序相差比较大时效果可能会不太好。如果在考虑语言模型和翻译模型时将句法结构或语义结构考虑进来,应该会得到更好的结果。
用统计学方法解决机器翻译问题的想法并非是20世纪90年代的全新思想,1949年韦弗就已经提出
使用这种方法,只是由于乔姆斯基(Chomsky)等人的批判,这种方法很快就被放弃了。现在计算机不论从速度还是从容量方面都有了大幅
度的提高,昔日大型计算机才能完成的工作,今日小型工作站或个人计算机就可以完成了。此外,统计方法在语音识别、文字识别、词典编篡等领域的成功应用也表明这一方法在语言自动处理领域还是很有成效的。
基于统计的方法需要大规模双语语料,其翻译模型、语言模型参数的准确性直接依赖于语料的多少,其翻译质量主要取决于概率模型的好坏和语料库的覆盖能力。基于统计的方法不需要依赖大量知识,直接靠统计结果进行歧义消解处理和译文的选择,避开了语言理解的诸多难题,但是语料的选择和处理工程量巨大。因此通用领域的机器翻译系统很少以统计方法为主。
4.另辟蹊径的基于实例方法基于实例的机器翻译(Example-Based Machine
Translation,EBMT)技术发源地要追溯到日本,自长尾真(NagaoMakoto)1984年发表的论文《AFramework of a MechanicalTranslation between Japanese andEnglish by Analogy Principle》被传播开来,便被视为了一个新的起点。这种方法充分利用了人类学外语的传统过程,并利用机器实现这个过程,因此解决了一