_统计机器翻译_述评_冯志伟

合集下载

024036机器翻译技术及应用

024036机器翻译技术及应用

机器翻译技术及应用王海峰东芝(中国)研究开发中心关键词:机器翻译 评测引言语言是人类进行交流的工具,语言不通会阻碍人们之间进行交流。

于是,人类在克服语言交流障碍的过程中发展了语言之间的翻译,产生了翻译学。

用机器来帮助甚至替代人工翻译是人类长久以来的一个梦想。

最原始的机器翻译思想可以追溯到17世纪关于机械词典的构想。

韦弗(Weaver)1949年的著名备忘录1则标志着基于现代计算机的机器翻译正式登上历史舞台。

机器翻译既涉及到人类对自身语言和思维方式的认知,又涉及到人工智能、信息论、知识工程和软件工程等很多技术领域,是一个多项技术深度交叉的学科。

机器翻译也是一门独立的学科。

它既具有自身的发展规律,同时又需要在多种学科基础上综合发展。

本文将在简要回顾机器翻译发展史的基础上,全面论述机器翻译方法,然后介绍牵引机器翻译技术发展的两驾马车:科学评测和实际应用,最后进行总结2。

机器翻译发展回顾机器翻译发展至今,经历了1954年之前的草创期、1954~1966年的高期望期、1967~1976年的沉寂期、1976~1989年的复苏期以及1989年之后的发展期等5个不同的历史时期。

1954年,美国IBM公司和乔治敦大学合作开发的机器翻译原型系统第一次向人们展示了一个现实的机器翻译系统。

这不仅使各国从事机器翻译研究的学者们倍受鼓舞,而且还吸引了大量的政府机构的资金投入。

第一代机译系统都是采用直接法,主要以词典为驱动,辅以较低层次上的语法分析和语义特征的使用。

1966年的ALPAC3报告指出,机器翻译速度慢,准确率低,比人工翻译花费多,且不能马上实用。

为此,各类机器翻译项目纷纷下马,机器翻译研究陷入低谷。

从70年代中期开始,基于规则的第二代机器翻译的方法逐渐成熟,机器翻译研究重现生机。

第二代方法的主导思想是面向句法、基于规则的转换策略。

80年代末开始,在国际交流日益增多的环境下,随着计算机、互联网等相关技术日新月异的发展,机器翻译的技术与应用也呈现出了蓬勃生机。

冯志伟:“巴别塔”上的中国计算语言学先锋

冯志伟:“巴别塔”上的中国计算语言学先锋

“落后分子”编码,55和机器翻译。

师从国际计算语言学学会首任主席沃古瓦,他倍加珍惜宝贵的学习研究机会,给自己规定了“887工作制”:每天8点上班,晚上8点下班,一周7天工作无休。

留法期间,他利用当时先进的大型计算机进行了大规模的基于规则的语言学研究,提出了多叉多标记树形图模型,并在此基础上研制出了世界上第一个从汉语到多种外语的机器翻译系统—“汉-法、英、日、俄、德”多语种翻译系统。

在布拉格的会议上,冯志伟介绍的正是这一具有里程碑意义的研究成果。

几年后,冯志伟调入国家语委语言文字应用研究所(现属教育部)担任计算语言学研究室主任,同时在中国科学院软件研究所担任兼职研究员;后又赴德国从事术语数据库研究,研制成世界上第一个中文术语数据库。

1998年退休后,冯志伟仍心系学术研究、胸怀国际交流。

2000-2002年,他赴韩国科学技术院担任客座教授、为博士生授课;2005年,与人合译出版《自然语言处理综论》;2011-2015年,参与修订汉语拼音出海的国际标准《中文罗马字母拼写法》ISO-7098;他还对国内外自然语言处理的研究成果进行了系统梳理,写成了基于规则与基于统计的自然语言处理方法的专著《自然语言计算机形式分析的理论与方法》,后又应世界上最大的科技出版社之一—德国斯普林格出版社邀约,将这本书译成英文出版。

如今,一直致力于利用跨专业之砖砌筑“巴别塔”的冯老也没有忘记沟通中外的初心。

“面对新技术带来的新形势和新变化,应当学习翻译技术,把新技术也纳入到翻译工作中。

人工智能翻译成绩巨大,应当提倡‘机器翻译+译后编辑’,加强译后编辑的作用,实现机器翻译与人工翻译和谐共处、相得益彰。

”冯老还提出建议,作为国际传播的一部分,有必要加强古代典籍汉译外语资料库建设。

在讲述自己担任ISO-7098国际标准国际工作组组长和应邀出版译作的经历时,冯老还不忘感慨和叮嘱几句:“做国际传播,一定要知己知彼,了解对方的情况”“要尊重对方的意愿,不要强加于对方”……唯有热爱:“我得到精神上的满足”“中国的计算语言学早期做的人少。

基于短语和句法的统计机器翻译

基于短语和句法的统计机器翻译

基于短语和句法的统计机器翻译冯志伟【期刊名称】《燕山大学学报》【年(卷),期】2015(039)006【摘要】The development process of statistical machine translation ( SMT) is described in this paper,and the noisy channel model in SMT,phrase-based SMT and syntax-based SMT are introduced.In order to give impetus to MT,the rationalist approach and the empiricist approach should be combined.%回顾了统计机器翻译发展的历程,讨论了噪声信道模型、基于短语的统计机器翻译和基于句法的统计机器翻译,主张把理性主义方法和经验主义方法结合起来,以推进机器翻译的进一步发展.【总页数】10页(P546-554,560)【作者】冯志伟【作者单位】杭州师范大学外国语学院,浙江杭州311121【正文语种】中文【中图分类】TP391【相关文献】1.短语统计机器翻译的句法调序模型 [J], 薛永增;李生;赵铁军;杨沐昀2.依存句法语言模型对短语统计机器翻译性能的影响 [J], 董人菘;王华;张晓钟;余正涛;张涛3.基于短语的统计机器翻译中短语表的过滤 [J], 狄萍;周宥良;贡正仙;周国栋4.基于短语的统计机器翻译中汉维短语对抽取算法改进 [J], 任高举;吐尔根·伊布拉音;艾山·吾买尔5.利用句法短语改善统计机器翻译性能 [J], 孙水华;丁鹏;黄德根因版权原因,仅展示原文概要,查看原文内容请购买。

浅谈机器翻译存在的问题

浅谈机器翻译存在的问题

机器翻译及其问题浅析摘要:由于信息技术高速发展,国际交流日益频繁,如何克服语言障碍已经成为国际社会共同面对的问题,而人工翻译的方式已经远远不能满足需求。

利用机器翻译协助人们快速获取信息已成为必然趋势,但机器翻译仍存在一些影响译文可读性和准确性的问题。

本文将简单介绍机器翻译并对常见问题进行浅析。

关键词:机器翻译问题语法应用一、引言机器翻译(Machine Tanslation,简称MT),又称自动翻译,是利用计算机来进行不用的自然语言之间的翻译,它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。

它是横跨语言学、数学、计算机科学、翻译学及人工智能等的综合学科,也是信息时代语言应用的一个重要领域。

二、机器翻译的简介(一)机器翻译简史人类在近代就萌发了机器翻译的梦想,但是真正把设想付诸现实还是因为计算机的诞生和计算机技术的发展。

机器翻译的研究历史课追溯到20世纪四五十年代。

1946年第一台现代电子计算机ENIAC诞生,同一年,美国科学家韦弗(W. Weaver)和英国工程师布斯(A. D. Booth)在讨论电子计算机的应用范围时,提出了利用计算机进行语言自动翻译的想法。

1949年,韦弗(W. Weaver)发表《翻译备忘录》,正式提出机器翻译的思想。

经过六十年的曲折发展,到目前互联网的普遍应用,以及人们对翻译需求的迅猛增长,给机器翻译带来新的发展机遇。

我国相继推出了一系列的机器翻译软件如“译星”、“雅信”、“通译”、“华建”等。

在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。

(二)机器翻译的主要方法机器翻译的过程一般可简化为三个阶段:原文分析、原文译文转化和译文生成。

宗成庆统计自然语言处理1一书序言

宗成庆统计自然语言处理1一书序言

宗成庆《统计自然语言处理》1一书序言冯志伟我在1996年出版的《自然语言的计算机处理》中,曾经说过:“自然语言处理(Natural Language Processing, NLP)就是利用计算机为工具对人类特有的书面形式和口头形式的语言进行各种类型处理和加工的技术。

”2这个定义是正确的,它的缺点是比较笼统。

我一直不太满意这个定义。

后来,我在1999年出版的《计算机进展》(Advanced in Computers)第47卷上,看到了美国计算机科学家马纳瑞斯(Bill Manaris)在《从人-机交互的角度看自然语言处理》一文给自然语言处理提出的如下定义:“自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。

自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。

”这个定义的英文如下:“NLP could be defined as the discipline that studies the linguistic aspects of human-human and human-machine communication, develops models of linguistic competence and performance, employs computational frameworks to implement process incorporating such models, identifies methodologies for iterative refinement of such processes/models, and investigates techniques for evaluating the result systems.”3马纳瑞斯的这个定义更加完善,把自然语言处理的研究过程也清楚地反映出来了。

统计机器翻译介绍

统计机器翻译介绍

统计机器翻译介绍统计机器翻译的基本原理是利用统计学方法来建立两种语言之间的翻译模型。

这种方法不仅可以考虑单词的对应关系,还可以考虑短语、句子甚至整个篇章之间的对应关系。

通过学习大量的双语语料库,统计机器翻译可以自动学习两种语言之间的对应关系,从而实现自动翻译的功能。

统计机器翻译在实际应用中已经取得了很大的成功。

它可以被应用在各种不同的领域,包括互联网翻译、商务翻译、科技翻译等。

通过利用大量的双语语料库,统计机器翻译可以实现高质量的翻译,比如谷歌翻译等就是基于统计机器翻译的系统。

尽管统计机器翻译已经取得了很大的成功,但它也存在一些局限性。

比如对于一些复杂的文本结构或语言之间的差异性处理能力有限,翻译质量可能会有所下降。

此外,由于统计机器翻译是基于大量的数据训练的,对于某些语言对来说可能会面临数据稀缺的问题。

总的来说,统计机器翻译是一种基于数据的翻译模型,通过学习大量的双语语料库来实现自动翻译功能。

虽然它已经取得了很大的成功,但仍然存在一些局限性需要不断改进。

随着技术的不断发展,我们相信统计机器翻译的翻译质量将会不断提高。

统计机器翻译是一种利用大量双语语料库进行翻译的方法,从而实现自动翻译的功能。

它的基本原理是通过统计学方法建立两种语言之间的翻译模型,以及使用这些模型来进行翻译。

统计机器翻译已经被广泛应用于互联网翻译、商务翻译、科技翻译等多个领域,并且在一定程度上取得了成功。

统计机器翻译的核心思想是通过学习大量双语语料库,来建立两种语言之间的对应关系。

这种方法不仅可以考虑单词的对应关系,还可以考虑短语、句子甚至整个篇章之间的对应关系。

通过统计分析这些双语语料库,统计机器翻译系统可以自动学习两种语言之间的翻译规律,并利用这些规律来进行翻译。

这种方法的优势是可以自动处理大规模且复杂的双语数据,并且可以在数据训练后实现高质量的翻译。

在实际应用中,统计机器翻译已经被广泛应用于多个领域。

例如,在互联网翻译领域,谷歌翻译等翻译系统就是基于统计机器翻译的。

冯志伟,1939年4月生,云南省昆明市人,计 - 中国

冯志伟,1939年4月生,云南省昆明市人,计 - 中国

载《新华书目报》·《科技新书目》第919期,A05版,《科技人物》专栏,2010年12月9日出版乔姆斯基与冯志伟合影(2010年)冯志伟 与数理语言学共舞冯志伟,1939年4月生,云南省昆明市人,计算语言学家,专门从事语言学和计算机科学的跨学科研究。

他先后在北京大学和中国科学技术大学研究生院两次研究生毕业,获双硕士学位。

先后到法国格勒诺布尔理科医科大学、德国夫琅禾费研究院(FhG)新信息技术与通信系统研究所、德国特里尔大学语言文学院、德国康斯坦茨高等技术学院国际术语学和应用语言学中心(CiTaL)、桑夏自然语言处理研究院、韩国科学技术院(KAIST)电子工程与计算机科学系(EECS)学习、工作。

现为国家教育部语言文字应用研究所研究员、博士生导师、学术委员会委员。

跨学科奇才语言学家冯志伟教授是极为罕见的跨学科奇才。

过去的著名语言学家有的只懂社会科学,不懂自然科学;许多人只懂古代汉语、现代汉语或普通语言学,一般只着重研究汉语的语音、词汇、语法或文字等某一个方面的问题,研究的问题和领域比较单一;他们中的一些佼佼者,至多也只懂得两三门外语,视野不够开阔,语言的纵横向对比研究都不够,有一定的局限性。

而冯志伟先生却懂得理科中的数学、物理、化学和计算机科学,又懂得语言学中的古代汉语、现代汉语、文字学、音韵学和普通语言学,深研过汉、英、法、德、俄、日等语言的语音、词汇和语法的自动处理,并把各方面的知识紧密地结合起来综合应用,在计算机上加以实现,成为文理兼通的语言学专家。

冯志伟教授不但在国外著名大学的电子工程与计算机科学系讲授理科的“机器翻译的方法和技术研究”、“自然语言处理的算法研究”、“计算语言学专题研究”等艰深的博士课程,而且还在国内外大学的中文系讲授“汉魏六朝散文”、“唐诗”、“宋词”、“古代汉语”、“现代汉语”、“汉字的历史与结构”等饶有风趣的课程,他还能给学生们辅导英、德、法、俄、日等外国语课程,提高学生们的外语口语表达能力和书面写作能力。

从机器翻译到计算机辅助翻译的发展现状研究

从机器翻译到计算机辅助翻译的发展现状研究

从机器翻译到计算机辅助翻译的发展现状研究何兴建成都体育学院摘要:机器翻译,又称自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。

它是自然语言处理的一个分支,与计算语言学、自然语言理解之间存在着密不可分的关系。

我们所熟知并广泛使用的互联网翻译,包括谷歌翻译、有道翻译、百度翻译等,都是机器翻译服务。

本文从机器翻译的发展历程入手,分析它的优势和不足,并引入计算机辅助翻译进行对比研究。

最后,本文通过引入语料库和大数据的概念,探讨了机器翻译技术后续的发展方向,以便更好地为译者服务。

关键词机器翻译;计算机辅助翻译;语料库;大数据Abstract Machine translation, also known as automatic translation, is a process from a natural source language to another natural target language via computer. As a branch of natural language processing, machine translation has an inseparable relationship with computational linguistics and natural language understanding. Internet translation has widely been used by us. Such as Google Translation, Youdao Translation, Baidu Translation, etc., are all machine translation services. Starting from the development process of machine translation, this paper analyzes its advantages and disadvantages, and then introduces computer aided translation (CAT). Finally, through introducing the concept of corpus and big data, this paper discusses the follow-up development direction of CAT technology, in order that it can give better service for translators.Key words machine translation (MT); computer aided translation (CAD); corpus; big data1. 研究背景:机器翻译简介和发展历程随着国际贸易的发展和经济全球化的崛起,使得市场对专业翻译人才的需求不断增大。

4feature

4feature

本文载《暨南大学华文学院学报》2006年,第1期(总21期)当前自然语言处理发展的四个特点冯志伟(教育部语言文字应用研究所)摘要:本文分析了当前自然语言处理发展的四个特点:基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标;自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识;统计数学方法越来越受到重视;自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”的倾向。

关键词:自然语言处理,语料库,机器自动学习,统计数学,词汇主义。

二十一世纪以来,由于国际互联网的普及,自然语言的计算机处理成为了从互联网上获取知识的重要手段,生活在信息网络时代的现代人,几乎都要与互联网打交道,都要或多或少地使用自然语言处理的研究成果来帮助他们获取或挖掘在广阔无边的互联网上的各种知识和信息,因此,世界各国都非常重视自然语言处理的研究,投入了大量的人力、物力和财力。

我认为,当前国外自然语言处理研究有四个显著的特点:第一, 基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。

在过去的四十多年中,从事自然语言处理系统开发的绝大多数学者,基本上都采用基于规则的理性主义方法,这种方法的哲学基础是逻辑实证主义,他们认为,智能的基本单位是符号,认知过程就是在符号的表征下进行符号运算,因此,思维就是符号运算。

著名语言学家J. A. Fodor在《Representations》[1]一书(MIT Press, 1980)中说:“只要我们认为心理过程是计算过程(因此是由表征式定义的形式操作),那么,除了将心灵看作别的之外,还自然会把它看作一种计算机。

也就是说,我们会认为,假设的计算过程包含哪些符号操作,心灵也就进行哪些符号操作。

因此,我们可以大致上认为,心理操作跟图灵机的操作十分类似。

清华+中国工程院-2018人工智能之机器翻译研究报告

清华+中国工程院-2018人工智能之机器翻译研究报告

机器翻译研究报告目录1 概述篇 (1)1.1 机器翻译简介 (2)1.2 机器翻译发展历程 (2)1.3 我国机器翻译现状 (5)2 技术篇 (8)2.1 理性主义方法 (9)2.1.1 基于规则的机器翻译 (9)2.2 经验主义方法 (12)2.2.1 基于统计的机器翻译 (13)2.2.2 基于实例的机器翻译 (15)2.2.3 基于深度学习的机器翻译 (16)3 人才篇 (20)3.1 领军人物 (22)3.2 中坚力量 (28)3.3 领域新星 (33)4 应用篇 (35)5 趋势篇 (38)图表目录图 1 抽象转换的分层实现 (3)图 2 机器翻译技术源头 (4)图 3 机器翻译过程 (9)图 4 机器翻译的转换层面 (10)图 5 直接翻译过程 (10)图 6 基于转换方法的翻译流程 (11)图 7 中间语言与转换方法比较 (12)图 8 中间语转换翻译过程 (12)图 9 统计机器翻译典型模型 (13)图 10 基于统计的机器翻译模型 (14)图 11 基于实例方法翻译过程 (15)图 12 深度学习发展脉络 (16)图 13 机器翻译领域全球学者分布 (21)图 14 机器翻译领域中国学者分布图 (21)图 15 机器翻译领域全局热度 (39)图 16 机器翻译领域近期热度 (39)摘要随着计算机科学技术的发展,机器翻译作为自然语言处理研究的重要组成部分越发受到人们关注。

经过了几十年的努力,以机器翻译为代表的自然语言处理工作取得了巨大的进展,并且在未来有着广阔的发展空间,为了梳理机器翻译领域的研究概括,我们编写了此份报告,主要内容包括:机器翻译概论。

首先对机器翻译进行了定义,接着对机器翻译的发展历程进行了梳理,对我国机器翻译现状进行了介绍。

机器翻译技术原理。

机器翻译的技术原理可以概括为基于理性主义的方法和基于经验主义的方法两种,分别对两种方法下的基于规则的翻译方法、基于实例的翻译方法、基于统计的翻译方法以及基于深度学习的翻译方法进行介绍。

基于统计的机器翻译方法研究

基于统计的机器翻译方法研究

基于统计的机器翻译方法研究近年来,随着人工智能技术的迅猛发展,机器翻译作为人工智能领域的重要应用之一,受到了广泛关注。

随着大数据和深度学习等技术的兴起,基于统计的机器翻译方法逐渐成为机器翻译领域的主流。

基于统计的机器翻译方法是一种利用大规模双语文本数据进行翻译的方法。

该方法主要基于统计模型和语言模型,通过对双语语料库进行对齐和训练,从而实现源语言到目标语言的自动翻译。

在这种方法中,翻译引擎会根据输入的源语言句子,通过统计计算选择最可能的目标语言句子作为翻译结果。

基于统计的机器翻译方法主要包括基于短语的机器翻译和基于句法的机器翻译两种。

基于短语的机器翻译方法是一种基于词组的翻译方法,它将源语言句子分割成不同的短语单元,然后通过统计计算选择最可能的目标语言短语单元进行翻译。

而基于句法的机器翻译方法则是基于句子结构的翻译方法,它将源语言句子转化为句法结构,然后根据句法结构进行翻译。

这两种方法在基于统计的机器翻译中发挥着不同的作用。

基于统计的机器翻译方法在研究中取得了一些重要的进展。

一方面,研究人员通过改进统计模型和语言模型,提高了机器翻译的准确率和流畅度。

另一方面,研究人员还尝试将深度学习等新兴技术应用于机器翻译中,从而进一步提升翻译质量。

然而,基于统计的机器翻译方法在实践中也面临着一些挑战。

首先,由于统计模型的数据依赖性较强,当面对生僻词汇或特定领域的文本时,翻译效果可能不尽如人意。

其次,基于统计的机器翻译方法往往需要大规模双语语料库来训练模型,而制作和维护这样的语料库成本较高。

此外,基于统计的机器翻译方法在处理语法结构复杂的语言时也存在一定的困难。

为了克服这些挑战,研究人员正在不断探索基于统计的机器翻译方法的改进之路。

一方面,他们尝试结合深度学习等新兴技术,提高翻译模型的精度和泛化能力。

另一方面,他们还在研究如何优化双语语料库的构建和使用,以提高翻译效果。

此外,研究人员还在研究如何应对语法结构复杂的语言,提高基于统计的机器翻译方法在多语种翻译中的适用性。

机器翻译系统评测规范

机器翻译系统评测规范

语言文字规范GF 2006 —_______________________________________________________________________________机器翻译系统评测规范 (Assessment Specifications of Machine Translation Systems)2006--发布 2006--试行_______________________________________________________________________________ 中华人民共和国教育部国家语言文字工作委员会发布目录前 言1适用范围 (5)2规范性引用文件 (5)3术语和定义 (5)4评测的一般原则和方法 (6)5机器翻译系统的用户类型 (6)6机器翻译评测题目的编制原则 (6)7机器翻译的评测标准 (8)8机器翻译评测的其他内容 (10)前 言本标准规定了机器翻译系统的评测规范。

本标准由教育部语言文字信息管理司提出立项,负责解释。

本标准由教育部语言文字信息管理司归口。

本标准由国家语言文字工作委员会语言文字规范(标准)审定委员会审定。

本标准起草单位:教育部语言文字应用研究所本标准主要起草人:冯志伟、肖航、富丽、章云帆中华人民共和国教育部国家语言文字工作委员会语言文字规范GF2006 -机器翻译系统评测规范(Assessment Specifications of Machine Translation Systems)1 适用范围本标准规定了机器翻译系统的评测规范。

本标准适用于机器翻译系统的评测以及有关的管理工作。

2 规范性引用文件下列文件中的条款通过本标准的引用而成为本标准中的条款。

ISO11179-3信息技术数据元的规范与标准化第3部分:数据元的基本属性GB/T 12200.1 汉语信息处理词汇 01部分:基本术语GB/T 13725 信息处理用现代汉语分词规范GB3259-92 中文书刊名称汉语拼音拼写法GB/T 15834-1995 标点符号用法GB/T 15835-1995 出版物上数字用法的规定GB/T 16159-1996 汉语拼音正词法基本规则第一批异形词整理表第一批异体字整理表部分计量单位名称统一用字表中国人名汉语拼音字母拼写法中国地名汉语拼音字母拼写规则普通话异读词审音表3 术语和定义下列术语和定义适用于本规范。

机器翻译研究综述(DOC)

机器翻译研究综述(DOC)

机器翻译综述1.引言1.1机器翻译的历史现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。

在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。

与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。

在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。

他提出了两个主要观点:第一,他认为翻译类似于解读密码的过程。

第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中间语言”,可以假定是全人类共同的。

在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。

1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。

直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期1.2机器翻译的主要内容经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法●句法转换方法●中间语言方法●基于规则的方法●基于语料库的方法➢基于实例的方法(含模板、翻译记忆方法)➢基于统计的方法在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。

下面对各个方法逐一的进行介绍。

2.机器翻译主要方法2.1直接翻译方法所谓直接翻译方法就是从句子的表层出发,将单词、词组、短语甚至是句子直接置换成目标语言译文,有时进行一些简单的词序调整实现翻译,并不进行深层次的句法和语义分析。

统计机器翻译综合概述

统计机器翻译综合概述

统计机器翻译综合概述简介统计机器翻译(Statistical Machine Translation,SMT)是一种基于统计模型的翻译方法,它将源语言句子映射到目标语言句子,通过分析大量的语料库来学习源语言和目标语言之间的概率模型。

统计机器翻译的发展,标志着计算机在实现人类自动翻译方面取得了重大突破。

历史统计机器翻译的概念最早提出于20世纪90年代,当时科学家们意识到传统的基于规则的翻译方法存在许多限制和困难。

在统计机器翻译出现之前,主要的翻译方法是基于规则的翻译(Rule-based Translation)。

规则翻译方法是通过人工编写规则来实现翻译,然而这种方法对词汇、句法规则和语义知识的要求很高,无法应对复杂多变的语言现象。

统计机器翻译的出现彻底改变了翻译的方式。

通过收集大量的双语语料,统计机器翻译可以从中学习源语言和目标语言之间的概率模型,并基于这种模型进行翻译。

这种方法的优势是可以处理大量的语言现象,而无需事先定义复杂的规则。

在接下来的几十年里,统计机器翻译在翻译领域得到了广泛的应用和研究。

工作原理统计机器翻译的工作原理可以分为两个阶段:训练阶段和解码阶段。

在训练阶段,统计机器翻译系统会使用大规模的双语语料库进行模型的训练。

训练的目标是学习源语言和目标语言之间的概率模型。

训练过程中,系统会通过统计方法计算每个源语言和目标语言单词之间的翻译概率、词语排序的概率、调序概率等。

训练完成后,就得到了一个能够将源语言句子转化为目标语言句子的模型。

在解码阶段,统计机器翻译系统会使用训练好的模型进行翻译。

解码过程是一个搜索问题,系统会根据训练好的模型,寻找最优的目标语言句子。

解码的目标是找到一个目标语言句子,使得它与源语言句子的翻译概率最高。

为了加快解码速度,系统通常会使用一些启发式方法,例如剪枝和缓存策略。

发展与挑战随着统计机器翻译的发展,它成为了机器翻译领域的主流方法之一。

它在很多翻译任务中达到或接近人工翻译的水平,并且可以通过增加训练数据和模型的复杂度来继续提高翻译质量。

机器翻译发展的曲折道路(二)

机器翻译发展的曲折道路(二)

机器翻译发展的曲折道路(二)
冯志伟
【期刊名称】《术语标准化与信息技术》
【年(卷),期】1996(000)004
【摘要】机器翻译发展的曲折道路(二)冯志伟TheZigzagProcedureofMachineTranslationDevelopment(2)¥1956年至1966年是草创期。

在这个时期,我国学者对机器翻译进行了初步的探索和试验。

早在1956年,国家便把...
【总页数】5页(P30-34)
【作者】冯志伟
【作者单位】
【正文语种】中文
【中图分类】H085
【相关文献】
1.曲折发展过程中的艰辛探索——庐山会议前夕毛泽东对中国社会主义发展道路的探索 [J], 冯鑫永
2.《日本摩托车工业发展回顾》之一漫长曲折的发展道路 [J], 杨力斌
3.机器翻译发展的曲折道路(一) [J], 冯志伟
4.发展中有曲折曲折中在发展——评丛进《曲折发展的岁月》 [J], 曹屯裕
5.宝钢武钢重组大幕拉开实际操作“道路曲折” 重组后将成中国第一、世界第二;发改委徐绍史:重组基于去产能考虑 [J], 谢玮
因版权原因,仅展示原文概要,查看原文内容请购买。

大数据时代的语言研究研讨会暨冯志伟先生八十寿诞庆祝会成功举行

大数据时代的语言研究研讨会暨冯志伟先生八十寿诞庆祝会成功举行

190odern ChineseMXIANDAI YUWEN2018.04语言资讯一、会议综述2018年4月14日上午,“大数据时代的语言研究研讨会暨冯志伟先生八十寿诞庆祝会”在浙江大学紫金港校区启真酒店求是厅隆重举行。

来自全国各地近两百位学界同仁共同探讨语言学研究的国际化与科学化进程,并为计算语言学家冯志伟先生庆贺八十寿诞。

冯志伟先生的老朋友——浙江大学外语学院原院长邵永真教授,应用语言学专家应惠兰教授,汉语研究专家吴洁敏教授等专程到会祝贺。

浙江大学外语学院梁君英教授担任大会主持。

国际世界语学院院士、浙江大学求是特聘教授刘海涛做了题为“信息时代的语言观”的主旨演讲,深情回顾了冯志伟先生的学术生涯,并借此揭示语言学研究方法科学化、成果国际化的奥秘。

作为中国计算语言学的先驱与资深专家,冯志伟先生的学术生涯堪称传奇,为中国乃至世界的语言研究作出了巨大贡献。

60年前,当时正在北京大学地球化学系上学的冯志伟对语言产生了浓厚的兴趣,并听从内心的声音转系到了中文系潜心进行语言研究。

用刘海涛教授的话说:这次从理到文的转系,创造了中国语言学的一个历史。

本科毕业后,又接着在北大中文系师从语言学家岑麒祥读研究生。

此后,冯志伟先生考取了中国科技大学的机器翻译研究生,并被公派到法国学习数理语言学。

留学法国期间,冯志伟先生于1981年完成了“汉—法/英/日/俄/德多语言自动翻译试验”,在机器翻译领域走在了世界前沿。

鉴于乔姆斯基短语结构语法存在的局限性,冯志伟先生在1983年提出了MMT模型(多叉多标记树形图分析法),以此为基础进行自然语言计算机处理和机器翻译研究,MMT模型是迄今为止中国学者在计算语言学方面最重要的成就的之一。

除了这些学术成就,冯志伟先生还努力将当时世界最前沿的语言学理论、模型和方法带回中国,先后为国内学界介绍了法国语言学家泰尼埃的“从属关系语法”以及齐普夫定律(Zipf’law),为中国计量语言学的发展奠定了坚实的基础。

罗塞塔石碑与机器翻译

罗塞塔石碑与机器翻译

Rosetta Stone and Machine Translation 作者: 冯志伟[1]
作者机构: [1]杭州师范大学,杭州311121
出版物刊名: 外语学刊
页码: 1-17页
年卷期: 2020年 第1期
主题词: Rosetta石碑;语言数据资源;统计机器翻译;噪声信道模型;神经机器翻译;神经网络;
数据资源匮乏
摘要:解读Rosetta石碑依据的平行语料库方法是非常具有启发性的,这样的方法现在已经成为当代机器翻译方法的基础,它既是统计机器翻译方法的基础,也是神经机器翻译方法的基础。

神经机器翻译需要大规模语言数据资源的支持,语言数据资源的匮乏是当前神经机器翻译面临的一个难题。

澄清对机器翻译的一些误解(论文提要)

澄清对机器翻译的一些误解(论文提要)

澄清对机器翻译的一些误解(论文提要)
冯志伟
【期刊名称】《现代语文(语言研究)》
【年(卷),期】2005(000)001
【摘要】机器翻译(machine translation)是使用电子计算机把一种语言(源语言,sourcelanguage)翻译成另外一种语言(日标语言,targetlanguage)的一门新学科。

这门新学科同时也是一种新技术。

它涉及到语言学、计算机科学、数学等许多部门,是非常典型的多边缘的交叉学科。

在语言学中,机器翻译是计算语言学的一个研究领域;在计算机科学中,机器翻译是人工智能的一个研究领域;
【总页数】1页(P36)
【作者】冯志伟
【作者单位】教育部语言文字应用研究所
【正文语种】中文
【中图分类】G633
【相关文献】
1.藏缅语前缀的动态演化:澄清一些误解∗ [J], 詹姆斯 A.马提索夫[美国](著);孙天心(译);田阡子(译)
2.对现代汉语语文词典中收录"字母词"的一些思考(论文提要) [J], 钮葆
3.论文化语境对机器翻译质量的影响暨应对机器翻译弊端的策略
——以"有道翻译官"为例 [J], 丁立福;蒋威
4.对马克思恩格斯环境伦理思想误解的几点澄清 [J], 杨志华;张翰玉
5.威斯康星思想:概念的误解与澄清 [J], 孙健
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 二 部 分 讲 述 统 计 机 器 翻 译 的 核 心 方 法 ,包 括 基 于 词 的 翻 译 模 型 、基 于 短 语 的 翻 译 模 型 、解 码 、语 言 模 型 、评 测 等 。
第4章 “基于词的翻译模型”重点介绍了IBM 模型。IBM 模型1只使用了 词汇翻译概率,模型2增加了绝对对齐模型(absolute alignment model),模 型 3 增加了繁衍率模型(fertility model),模型4将 绝 对 对 齐 模 型 替 换 为 相 对 对 齐 模 型(relative alignment model),模型5修正了 模 型 中 的 缺 陷,将 概 率 值 分 配 给 那 些不可能的对齐。
第 一 部 分 讲 述 统 计 机 器 翻 译 的 基 础 知 识 ,介 绍 了 机 器 翻 译 的 历 史 、基 本 语 言 学 知 识 、概 率 论 知 识 等 。
第1章 “绪论”简要叙述了机器翻译发展的历史,特别说明了统计机器翻译 的 背 景 以 及 最 新 发 展 ,介 绍 了 统 计 机 器 翻 译 的 应 用 状 况 ,提 供 了 一 份 丰 富 的 语 言 资源清单。本章着重指出,机器 翻 译 技 术 的 应 用 价 值 将 随 着 翻 译 质 量 的 提 升 而 提 升 ,机 器 翻 译 并 不 要 求 译 文 的 完 美 ,粗 略 的 译 文 也 可 以 传 递 信 息 ,因 此 ,也 是 有 实用价值的。
第2章 “词、句子和语料”介绍了等 基础知识,简要描述了齐夫定律、短语结构语法、依存语法、词汇功能语法、组 合 范畴语法等形 式 化 模 型,特 别 指 出 语 体 和 领 域 的 差 别 会 影 响 统 计 机 器 翻 译 的 效果。
第3章 “概率论”介绍了概率论的 基 本 概 念,如 均 值、方 差、二 项 分 布、正 态 分布、联合概率、条件概率、熵 等。 这 些 概 念 对 于 本 书 后 面 部 分 要 讲 述 的 统 计 机 器翻译非常重要。
第8章 “评测”讲述如何评测机器翻译 系 统 的 性 能。 由 于 源 语 言 中 的 一 个 句子可能有很多不同的正确翻译,因此译文评测是个很困难的问题。 在评测时, 可以提供一些参考译文,但不 能 期 望 机 器 翻 译 系 统 精 确 地 将 机 器 译 文 与 参 考 译 文进行匹配。机器 翻 译 系 统 的 性 能 评 测 的 根 据 是 忠 实 度 (adequacy)和 流 利 度 (fluency)。忠实度用于评测译文中包 含 了 多 少 原 文 要 表 达 的 意 思,流 利 度 用 于 评测译文是否流利。不同的人工评测者在评分时会根据自己的标准给译文打 分 ,因 此 有 必 要 规 范 这 样 的 评 分 使 之 具 有 可 比 性 。 在 评 测 机 器 翻 译 系 统 时 ,除 了 考虑译文质量指标外,还 要 考 虑 翻 译 系 统 的 速 度、规 模、集 成 性 能、领 域 适 应 性 等。在使用人工评测方法对机器翻译系统的机器译文与参考译文进行对比时, 还应考虑单词的准确率和召回率。
2013 年 7 月
外 语 教 学 与 研 究 (外 国 语 文 双 月 刊 )
July 2013
第45卷 第4期 Foreign Language Teaching and Research (bimonthly) Vol.45No.4
《统计机器翻译》述评
杭州师范大学 冯志伟
Philipp Koehn.2009.Statistical Machine Translation.Cambridge:Cam- bridge University Press.xi+446pp.
第5章 “基于短语的翻译模型”介绍了基于短语的统计机器翻译模型,这种 模 型 把 短 语 作 为 翻 译 的 单 元 。 在 短 语 翻 译 表 中 ,短 语 之 间 是 一 一 映 射 的 ,也 可 能 存在调序。短语翻译表可以从 词 对 齐 中 通 过 机 器 学 习 而 自 动 得 到,与 词 对 齐 一 致的所有短语偶对都被添加到短语翻译表中。本章还介绍了一种可以直接从双 语平行语料中自动学习短语对齐的替代方法。在短语翻译表中可能存在调序, 因 此 ,本 章 还 介 绍 了 一 个 简 单 的 基 于 距 离 的 调 序 模 型 ,给 出 了 一 个 词 汇 化 的 调 序 模型,并使用对数线性模型 来 融 合 短 语 模 型 中 不 同 的 模 型 组 件。 在 扩 展 原 始 的 翻 译 模 型 时 ,可 以 引 入 额 外 的 模 型 组 件 ,这 些 组 件 包 括 :双 向 翻 译 概 率 、词 汇 化 加 权 、词 惩 罚 和 短 语 惩 罚 。
· 631 ·
2013 年 外 语 教 学 与 研 究 第 4 期
解 码 器 的 搜 索 图 转 换 为 词 格 (word lattice),就 可 抽 取 出 译 文 ;词 格 还 可 用 来 产 生 n-best的译文列 表。 统 计 机 器 翻 译 的 判 别 式 训 练 属 于 有 监 督 学 习 (supervised learning)。训练时需要 准 备 一 组 源 语 言 的 输 入 句 子 和 与 之 对 应 的 候 选 译 文 集 合,候选译文中至少有一个 被 标 记 为 正 确 的。 任 何 一 个 现 代 统 计 机 器 翻 译 系 统 在 训 练 时 都 包 含 参 数 调 节 过 程 ,用 来 为 重 要 的 系 统 参 数 设 置 最 优 值 ,尤 其 是 对 数 线性模型中的参数权重,用 于 对 相 关 子 模 型 的 分 布 建 模。 当 前 统 计 机 器 翻 译 中 一个富有挑战的研究课题是大规模判别式训练方法。在大规模判别式训练中, 概 率 估 计 完 全 被 特 征 和 特 征 值 替 代 ,因 而 在 这 样 的 模 型 中 ,使 用 的 特 征 数 目 达 数 百万之多。与判别 式 训 练 相 关 的 是 后 验 方 法 (posterior methods),这 种 后 验 方 法主要研究在 最 佳 候 选 译 文 样 本 集 上 的 概 率 分 布,使 用 最 小 贝 叶 斯 风 险 解 码 (minimum Bayes risk decoding),选 择 出 一 个 与 大 多 数 高 概 率 译 文 相 似 的 译 文 。
2.内 容 简 介
本书 作 者 Philipp Koehn 是 英 国 爱 丁 堡 大 学 信 息 学 院 讲 师,他 是 欧 洲 EuroMatrix项目的协调人(EuroMatrix现已发展成 EuroMatrixPlus,Philipp Koehn也参加了这个 项 目 ),他 与 机 器 翻 译 领 域 的 知 名 公 司 如 Systran 和 Asia Online等从事过合作研究,有 十 多 年 的 统 计 机 器 翻 译 经 验,亲 自 见 证 了 统 计 机 器翻译的发展过程,他对于 统 计 机 器 翻 译 的 历 史 和 现 状 有 清 楚 的 了 解。 本 书 不 仅全面介绍了统计机器翻译的 基 础 知 识 和 核 心 方 法,还 探 讨 了 统 计 机 器 翻 译 中 的 一 些 前 沿 研 究 问 题 ,系 统 总 结 了 当 前 统 计 机 器 翻 译 发 展 的 最 新 成 果 ,是 一 本 学 习统计机器翻译的好书。
第三部分讲述统计机器翻 译 的 前 沿 研 究,包 括 判 别 式 训 练 的 方 法 以 及 统 计 机器翻译中整合语言学信息的方法。
第9章 “判别式 训 练”介 绍 判 别 式 训 练 (discriminative training)以 及 对 翻 译 任 务 进 行 建 模 的 方 法 。 判 别 式 训 练 使 用 重 排 序 法 (re-ranking),首 先 利 用 基 线 模型产生候选译文,然后再 使 用 额 外 的 特 征 选 择 出 最 佳 译 文。 把 统 计 机 器 翻 译
第7章 “语言模型”介绍高效使用语言 模 型 的 方 法。 使 用 语 言 模 型 可 为 每 个给定的英语单词序列计算出 一 个 概 率,用 于 表 示 该 序 列 在 英 语 中 被 表 达 的 可 能性,从而帮助机器翻译系 统 产 出 流 利 的 译 文。 可 以 将 语 言 模 型 问 题 分 解 为 一 系列利用n元组的统计信息来预测单词的问题。这样的语言模型叫做马尔可夫 链。在马尔可夫链中,只有前面有限的 n-1个单词状态会影响当前单词的状态, n的大小 叫 做 语 言 模 型 的 阶;大 小 为 1、2 和 3 的 n 元 组 分 别 叫 做 一 元 组 (uni- grams)、二元组(bigrams)和三元组(trigrams)。由于在 有 限 的 训 练 语 料 中 无 法 观察到所有可能的 n元组,必须 处 理 数 据 稀 疏 的 问 题。 可 以 通 过 平 滑 经 验 计 数 的方法来处理数据稀疏的问题。
第6章 “解码”介绍了统计机器翻译中的解码算法,对于一个给定的输入句
· 630 ·
冯 志 伟 《统 计 机 器 翻 译 》述 评
子使用解码算法进行搜索,就 可 以 找 到 最 有 可 能 的 翻 译 结 果。 由 于 搜 索 空 间 具 有指数级的算法复杂度,需 采 用 启 发 式 搜 索 方 法。 本 章 描 述 了 从 输 入 到 输 出 构 建 翻 译 的 过 程 ,并 将 其 作 为 搜 索 算 法 的 动 因 。 在 统 计 机 器 翻 译 中 ,对 于 给 定 的 输 入 句 子 ,必 须 处 理 很 多 翻 译 选 项 ;搜 索 是 建 立 在 一 连 串 的 翻 译 假 设 上 完 成 的 ,从 没 有 翻 译 任 何 单 词 的 空 假 设 开 始 ,进 行 假 设 扩 展 ,以 建 立 新 的 假 设 。 翻 译 假 设 重 组可以减少搜索空间。本章还 提 出 了 一 种 组 织 栈 解 码 的 启 发 式 方 法,根 据 已 经 翻译过的外语单词的数量在假设栈里对翻译假设进行组织。利用剪枝策略对栈 空间进行压缩,介绍了直方 图 剪 枝 和 阈 值 剪 枝 两 种 剪 枝 方 法。 本 章 还 介 绍 了 一 些其他启发式搜索算法,例如,基于覆盖栈的柱搜索算法、A* 搜索 算 法 和 贪 婪 爬 山解码算法。本章最后还介绍了有限状态转换机工具包。
相关文档
最新文档