机器翻译基础课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.3 机器翻译路在何方?
• 研究者的尴尬: “你估计开发出产品要多长时间?你的系统正确 率如何?”. 如何回答?“正确率大约在百分之五十左右”?
1.3 机器翻译路在何方?
• 挑剔者的挖苦与讽刺: "MT?不是machine translation,而是mad translation (疯子的翻译) "
1.3.1 机器翻译与人工翻译的区别
人工翻译: • 一般会先通读全文,他会前后照应; • 对源语言求得意义上的理解; • 只有专业翻译人员,没有一个是可以包 打天下的万能翻译人员; • 他的译文是基于他对源语言的理解,不 受源语言的句法结构的束缚; • 他的翻译是一个再创造的过程。
1.3.2 机器翻译的取舍 • 误区 很多人对机器翻译有误解,他们认为机器 翻译偏差大,不能帮人们任何解决问题。 事实上,机器翻译出现误差在所难免。 原因在于,机器翻译运用语言学原理, 机器自动识别语法,调用存储的词库, 自动进行对应翻译,但是因语法、词法、 句法发生变化或者不规则,出现错误是 难免的。
1.3.2 机器翻译的取舍
1.2.4 中国机器翻译的发展
• 1990年代至今,中国的机器翻译进入了快速发 展的时期,研制出了许多机器翻译系统。新一 代机器翻译系统一般配有大规模的专业词典, 并能在网上运行。此外,新的应用领域的机器 翻译研究如对话翻译系统的研究也已开始。 • 在中日机器翻译方面,清华大学、南京大学、 中软先后开展了实用机译系统的研究与开发, 大连理工大学于1990年开始日中机器翻译的研 发,1994年开始中日机器翻译的研究,并先后 开发出PC版的SWK日中机器翻译系统和SWK 中日机器翻译系统。
1.2.4 中国机器翻译的发展
机器翻译的研究开始于1956年,并从一开始就得 到了国家的高度重视,机器翻译后来曾被列为 “六五”、“七五”及“863”等重大科研项目。 20世纪70年代中期,中国的机器翻译研究从停滞 走向了复苏,80年代中期到90年代初期是我国机 器翻译研究复苏以来比较活跃的时期。 研究开发出两个在实用化系统:军事科学院的 KY-1英汉机译系统(“译星”前身)及中科院计 算所研制的863-IMT英汉机器翻译系统。在这一 时期,中国还参加了由日本发起的亚洲五国机器 翻译研发的合作项目(ODA),国内近10个科研 院校参加了这一长达7年的国际项目。
机器翻译的未来可以概括为: • 前途光明,道路曲折 • 没有最好,只有更好 • 路漫漫兮,其修远兮
1.3 机器翻译路在何方?
• 危机 机器翻译比起10年前,可以说相当繁荣了。但 是在这繁荣的后面,却存在着危机。前面说到 的ALPAC报告曾给机器翻译带来的创伤如今似 乎已被抚平了。但实际上它的阴影始终会时不 时地再出现在机译研究者的头上。如今随着有 越来越多的机译系统走向市场,政府部门感到 在这种情况下如果还要投资攻关似乎有点名不 正言不顺了。而商家则只是想现在该是把现成 的技术包装包装就可以赚钱的时候了。
1.3.1 机器翻译与人工翻译的区别
机译过程: • 一句一句处理,处理第一句时不知道第二句的 内容是什么,处理第二句时,也不再去参考第 一句的内容了; • 对源语言的分析只是求解句法关系,完全不是 意义上的理解; • 它的开发者要求它几乎是万能的,它似乎什么 领域都能应付,从计算机到医学,从化工到法 律,似乎只要换一部专业词典就可以了; • 它的译文转换是基于源语言的句法结构的,受 源语言的句法结构的束缚; • 它的翻译只是句法结构的和词汇的机械对应。
1.2.3 机器翻译的发展历史
(1)机器翻译的萌芽(1966年以前) • 1947,Warren Weaver’s memo • 1954,第一个公开展示的俄英MT原型系统 • 1966,美国科学院的ALPAC报告宣告机器翻译走 入低谷 刚刚兴起的机器翻译研究很快就遇到了困难,翻 译质量的低劣引起了人们无休止的抱怨。其中, Bar Hillel作为当时最早参加研究的的专家,对 机器翻译提出了批判,指出“自动翻译系统需要 机器完全理解句子的意思后才能实现高质量的翻 译,而机器不可能做到这些,因此不可能实现高 质量的自动翻译系统”。
1.3.2 机器翻译的取舍
• 比如《大话西游》中“给我一个杀你的理由, 先”之类状语后置的句子。另外,机器翻译不 适宜翻译带有复杂感情的文字。如果你拿着 《诗经》中“所谓伊人,在水一方……所谓伊 人,在水之湄……”等去翻译,其结果一定好 不了。机器毕竟是机器,没有人对语言的特殊 感情。毕竟汉语因其词法、语法、句法的变化 及其语境的更换,其意思大相径庭,就连很多 国人都是丈二和尚—摸不着头脑,就别说机器 了。
1.2.5 机器翻译的现状
经过60年的发展,机器翻译对于许多人来说已 经不是很陌生的了。今天我们可以在软件商店 买到形形色色的PC机译软件,有各种语言间的 机器翻译软件,如英文到中文的,中文到英文 的,或者日文到中文的,甚至也有英文到日文 的等等,还有家庭版的、专业版的,配带各种 不同专业词典可供选择的等等。据估计,世界 上目前市场上有1000多种不同的机器翻译软件 在销售,我国具有一定规模的PC机器翻译软件 也有近20种。在世界范围内PC机译软件的价格 都不贵,而且价格还在不断地下降。现在可以 在网上免费享用翻译系统的服务。
"满篇英文难不住,满篇中文看不懂"
1.3 机器翻译路在何方?--问题的症结
• 译文质量至今并没有取得实质性的进展,很多 50年前未解决的问题如今依然存在。 • 研究人员认识上的危机:“在现有的技术条件 下,机译译文质量也只能这样了”。 这样一来,出现的情况将是投资者和研制者都 在以较低水平的系统忙于行销赚钱,而不再有 足够的经费和技术投入。机器翻译无论在理论 上或是技术上都还未成熟。现在只是由于人们 对于克服语言交流的障碍有着很强烈的需求, 尤其是因特网的出现这种需求更显突出,机器 翻译才获得了以较低的译文质量满足这种需求 的机会,并利用这一机会来求得进一步的发展。
(4)机器翻译第四阶段
显著特点 语料库语言学成为语言研究的主流,为满足实 际应用的需要,基于大规模语料库的统计方法 在自然语言处理领域中逐渐占据了主导地位[19]; 20世纪80年代提出的新的语言理论在实际系统 中得到广泛应用,并与大规模语料库的统计方 法结合,建立了具有实用性的新一代机器翻译 系统;开始了新的机器翻译应用研究,如基于 对话的机器翻译。 以统计方法为主的统计机器翻译横行霸道!
1.3.2 机器翻译的取舍
• 机器翻译的作用
在为机器翻译不精准开脱的同时,我们仍然不 认为着机器翻译无用武之地,相反针对机器翻 译可以大批量的做资料翻译的特点,可被用作 日常事务、日常信息、日常交流往来等方面的 翻译手段。随着经济发展,贸易、交流等各种 事务跨越国界,信息交流量也在加快、加大, 尤其是在网络不断普及的时候,人们需要迅速 获取资讯,却苦于没有充足的多专业人员去翻 译。今天,人们的阅读不再像古人那样字句点 逗都要清清楚楚。现代人需要的是在爆炸式增 长的信息中迅速获取自己所需的信息。
1.2.5 机器翻ቤተ መጻሕፍቲ ባይዱ的现状
机器翻译现状可概括为: • 发展很快,实用化翻译软件产品逐渐增多 • 译文质量普遍很低,可读性较差 • 理想与现实之间差距很大:用户期望值很大, 而翻译软件能力很低,极度“弱智” • 机器翻译的理论研究没有取得重大突破,但机 器翻译的性能在逐渐提高。
1.2.6 机器翻译的未来
(1)机器翻译的萌芽
受Bar Hillel的影响,美国国立科学院于1964 年成立自动语言处理咨询委员会(Automatic Language Processing Advisory Committee, 简称ALPAC),对这10年的研究成果进行评价。 2年后,该委员会发表了一个否定机器翻译系 统实用性的调查报告,即被后人称之为ALPAC 报告,并中止机器翻译项目的研究经费。从此 机器翻译的研究跌入低谷。
–翻译记忆体(Translation Memory,简称TM) –双语对照的文本编辑 –...
1.2.2
现代语言学的崛起
语言是一个民族相互交际的最重要工具,进入 20世纪20年代以后,语言学成为一门新兴的学科。 到了50年代,新的利用计算机研究语言的学科----计算语言学诞生了。 计算语言学的研究起始于机器翻译,机器翻译 又称自动化翻译,是一种高级的人工智能技术,它 是计算机科学、数学和语言学等多学科共同参与研 制的结晶。机器翻译之所以成为可能,一是因为两 种语言之间存在着可译性,二是因为人的翻译过程 具有可模拟性。
(2)机器翻译的第二阶段(特征)
• 这一代机器翻译技术主要采用句法结构变换和 中间语言方式,也称间接型机器翻译。具有实用 价值的机器翻译系统取代了过去的实验系统, 机器翻译由实验研究走向实用研究,并实现商 品化,如加拿大蒙特利尔大学的气象预报机器 翻译系统TAUM-METEO[10](英法)、法国格 勒诺布尔大学的ARIANE机器翻译系统等。这 一时期机器翻译系统所采用的方法也被称为理 性主义方法
ALPAC报告
• ALPAC报告核心内容:经过调查,机器翻 译速度慢,准确率很差,比人工翻译费 用高得多,在近期或可以预见的未来, 开发出实用的机器翻译系统的可能性不 大。 这个报告后来虽曾受到许多严肃的批评, 认为它是带有严重偏见的,但它对机器 翻译研究造成了很大的损害。
(2)机器翻译的第二阶段
(3)机器翻译第三阶段
• 20世纪80年代,机器翻译由面向句法、基于规则的 理性主义方法过渡到语义处理阶段,诞生了基于实例 ( Example-Based Machine Translation) 和 基 于 统 计 (Statistical Based Machine Translation)的机器翻译方 法,被称之为经验主义方法主导的机器翻译系统。 • 这一期间,日本掀起了机器翻译的热潮,以形态素解 析技术为主的语言处理技术得到空前发展,构文解析 技术及格文法解析技术也成为研究热点。实现了大规 模的日英、英日机器翻译系统,并开始了亚洲各国语 言间的机器翻译研究(ODA)。 • 以Chomsky早年提出的形式语言理论为基础,语言学 家针对自然语言处理的特点,又提出了众多新的语言 学理论,如广义短语结构语法(GPSG) 、词汇功能语法 (LFG) 、合一语法(UG)、功能合一语法(FUG)、中心词 驱动的短语结构语法(HPSG) 等
1.2 机器翻译的历史
1.2.1 什么是机器翻译?
• 机器翻译(machine translation),又称 机译(MT),是利用计算机把一种自然语 言转变成另一种自然语言的过程。用以 完成这一过程的软件叫做机器翻译系统。
– 文本机器翻译 – 语音机器翻译
1.2.1 什么是机器翻译?
• 机器辅助翻译(Machine Aided Translation 或Computer Aided Translation,简称MAT 或CAT)
20世纪70年代中期,因ALPAC委员会发表的调查报告 而跌入低谷的机器翻译研究开始在世界范围内复苏并 日趋走向兴旺。这一阶段主要以欧洲为中心,确立了 现代语言学理论在机器翻译中的地位。 标志之一 语 言 学 家 N.Chomsky 于 1 9 5 7 年 提 出 的 《 句 法 结 构 (Syntatic structure)》等形式语言理论被广泛地应用于 自然语言的自动句法分析中,并成为计算语言学的基 础理论之一。 标志之二 诞生了许多句法分析算法,如上下文无关文法解析流 派中的CKY算法、Earley算法、Woods的ATN-Parser、 LR-Parser、LINGOL 等 。 在 语 义 自 动 分 析 方 面 , 有 C.J.Fillmore 提 出 的 格 文 法 理 论 、 Schank 的 概 念 依 存 (Conceptual Dpendency)理论、Montague语法理论及 Wilks的优选语义学(Preference Semantics)等。