机器翻译

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机器翻译

1 概述

机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解( Natural Language Understanding)之间存在着密不可分的关系。

2 国内外现状

机器翻译思想的萌芽关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。笛卡(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。在17世纪中叶,贝克(Cave Beck)、基尔施(Athanasius Kircher)和贝希尔(Johann JoachimBecher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动。维尔金斯(JohnWilkins)在《关于真实符号和哲学语言的论文》(An Essay towards a Real Character andPhilosophical Language, 1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做“机械脑”(mechanical brain)。这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。机械脑于1937年正式展出,引起了法国邮政、电信部门的兴趣。但是,由于不久爆发了第二次世界大战,阿尔楚尼的机械脑无法安装使用。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W. Rieger) 曾经提出过一种数字语(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译” (德文是ein mechanisches Uebersetzen)这个术语。

真正对机器翻译进行研究应该说是从布恩和韦弗开始的。他们研究的是自动词典万, 从1954年1月7日公开展示的IBM701型计算机开始, 机器翻译进人一个繁荣发展的时期。从那时起, 很多国家都投人了大量的人力、物力从事这方面的研究和开发。随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星” 、“雅信” 、“通译” 、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。

中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都

在进行机器翻译的研究;上机进行过实验的机器翻译系统已有十多个,翻译的语种和类型有英汉、俄汉、法汉、日汉、德汉等一对一的系统,也有汉译英、法、日、俄、德的一对多系统(FAJRA系统)。此外,还建立了一个汉语语料库和一个科技英语语料库。中国机器翻译系统的规模正在不断地扩大,内容正在不断地完善。

近来, 我国机器翻译的研究也发展很快。几年来许多公司都推出了高科技机器翻译软件, 如天津通译、中软译星和北京高立翻译软件等。最近, 南京月亮公司、实达铭泰公司、雅信译霸公司都先后推出汉化软件翻译产品。中国科学院计算所等单位联合开发研制了“智能型英汉翻译系统”。该系统实现了对原文的语法、语义和常识的一体化分析, 具有面向多文种翻译软件环境。我国台湾地区的“功学电脑自动翻译系统” , 可使用户在“电子资讯”、“历史法律”、“军事”等方面进行计算机翻译。机器翻译的发展如雨后春笋展现出勃勃生机。

3 主要方法

基于规则( Rule-Based )的机译系统

系统划分

机译系统可划分为基于规则( Rule-Based )和基于语料库(Corpus-Based)两大类。前者由词典和规则库构成知识源;后者由经过划分并具有标注的语料库构成知识源,既不需要词典也不需要规则,以统计规律为主。机译系统是随着语料库语言学的兴起而发展起来的,世界上绝大多数机译系统都采用以规则为基础的策略,一般分为语法型、语义型、知识型和智能型。不同类型的机译系统由不同的成分构成。抽象地说,所有机译系统的处理过程都包括以下步骤:对源语言的分析或理解,在语言的某一平面进行转换,按目标语言结构规则生成目标语言。技术差别主要体现在转换平面上。

语法型机译系统

研究重点是词法和句法,以上下文无关文法为代表,早期系统大多数都属这一类型。语法型系统包括源文分析机构、源语言到目标语言的转换机构和目标语言生成机构3部分。源文分析机构对输入的源文加以分析,这一分析过程通常又可分为词法分析、语法分析和语义分析。通过上述分析可以得到源文的某种形式的内部表示。转换机构用于实现将相对独立于源文表层表达方式的内部表示转换为与目标语言相对应的内部表示。目标语言生成机构实现从目标语言内部表示到目标语言表层结构的转化。

语义型系统

研究重点是在机译过程中引入语义特征信息,以Burtop提出的语义文法和Charles Fillmore提出的格框架文法为代表。语义分析的各种理论和方法主要解决形式和逻辑的统

一问题。利用系统中的语义切分规则,把输入的源文切分成若干个相关的语义元成分。再根据语义转化规则,如关键词匹配,找出各语义元成分所对应的语义内部表示。系统通过测试各语义元成分之间的关系,建立它们之间的逻辑关系,形成全文的语义表示。处理过程主要通过查语义词典的方法实现。语义表示形式一般为格框架,也可以是概念依存表示形式。最后,机译系统通过对中间语义表示形式的解释,形成相应的译文。

相关文档
最新文档