机器翻译研究综述
open-vocabulary综述
open-vocabulary综述Open-vocabulary综述随着自然语言处理技术的不断发展,open-vocabulary(开放词汇)成为了一个备受关注的研究领域。
传统的自然语言处理任务通常是基于预定义的词汇表进行的,而open-vocabulary则是指在处理文本时不受限于预定义词汇表的范围,可以涵盖任意的词汇。
在传统的NLP任务中,预定义的词汇表通常只包含一定数量的词汇,并且这些词汇是根据人为规则和语言学知识进行选择的。
然而,在现实世界中,词汇是无穷无尽的,新的词汇不断涌现,人类语言的变化和发展也使得传统的词汇表很难涵盖所有的情况。
这就需要我们在处理文本时能够处理未知的词汇,即open-vocabulary。
在open-vocabulary中,一种常见的方法是采用基于统计的方法,例如n-gram模型。
n-gram模型可以根据已有的文本数据进行统计,得到不同长度的词组的概率分布,从而对未知的词汇进行预测。
另一种方法是基于神经网络的方法,例如word2vec和BERT。
这些模型可以通过训练大规模的语料库来学习词汇的分布式表示,从而能够更好地处理未知的词汇。
除了词汇的处理,open-vocabulary还涉及到其他方面的问题。
例如,在命名实体识别任务中,传统的方法通常是基于预定义的实体类别进行识别,而open-vocabulary则可以处理更加广泛的实体类别。
在机器翻译任务中,open-vocabulary可以处理未知的单词和短语,从而提高翻译的质量。
在信息抽取任务中,open-vocabulary 可以处理未知的关系类型和实体类型,从而提高抽取的准确性。
然而,open-vocabulary也面临一些挑战和限制。
首先,open-vocabulary需要大规模的文本数据进行训练,这对于资源有限的情况下可能是一个问题。
其次,open-vocabulary需要处理未知的词汇,这可能会导致一些歧义和错误。
二进制翻译研究综述
二进制翻译研究综述目录1. 内容概括 (2)1.1 研究背景 (2)1.2 研究意义 (3)1.3 研究目标 (5)1.4 研究方法与结构 (5)2. 二进制翻译简介 (6)2.1 二进制的概念 (7)2.2 二进制翻译的挑战 (8)2.3 二进制翻译的研究现状 (9)3. 翻译技术发展 (10)3.1 传统的翻译技术 (12)3.2 机器翻译技术 (13)3.3 深度学习在翻译中的应用 (14)4. 二进制翻译的研究方法 (15)4.1 语料库建设 (17)4.2 机器学习方法 (18)4.3 神经网络模型 (19)4.4 研究展望 (20)5. 应用领域的探索 (22)5.1 计算机科学领域 (23)5.2 物理学领域 (24)5.3 信号处理领域 (25)6. 面临的挑战与问题 (26)6.1 数据处理问题 (28)6.2 系统优化问题 (29)6.3 翻译质量评估 (31)7. 案例分析 (31)7.1 领域特定案例 (32)7.2 跨语言翻译研究 (33)8. 未来趋势与展望 (34)8.1 技术发展预测 (35)8.2 应用领域拓展 (37)9. 结论与建议 (38)1. 内容概括二进制翻译研究综述主要介绍了二进制翻译领域的研究现状和发展趋势。
该文首先概述了二进制翻译的基本概念、应用领域及其重要性。
对现有的二进制翻译理论和方法进行了梳理和评价,包括源代码分析、中间代码生成、优化策略等方面。
文章还从语言学视角和计算机科学视角分析了二进制翻译的多元研究方法。
在此基础上,探讨了当前研究的热点问题和挑战,如自动翻译的准确性、效率问题,以及二进制翻译在跨文化交流中的特殊挑战等。
对二进制翻译的未来发展方向进行了展望,强调了在人工智能、自然语言处理等领域的应用前景以及对于全球软件开发和国际技术交流的重要影响。
整个综述旨在为读者提供一个关于二进制翻译研究的全面视角,以便更好地理解和推动该领域的发展。
翻译机器评分的研究综述
m a r k e d b y m a n p o w e r . A s i t r e q u i r e s a l o t o f m a n p o w e r a n d r e s o u r c e s . s o m e r e s e a r c h i n s t i t u t e s t r y t o R & D a u t o m a t i c a l l y t r a n s l a t e d r a t i n g s y s t e m t o s u b s t i t u t e t h e m a n u a l t r a n s l a t i o n s c o r e s y s t e m . T h i S a r t i c l e m a i n l y
词库区域 内, 这个区域即为给分点的集合。 将此 词组与被测译文 2 翻译 自动评 价系统 设计
进行匹配, 在被测译文中会找 到一个 出现这组关键词几率较 大 在 这里设计 的是一个主要针对于C E T 考试翻译 模块的 自动
快速总结相关研究综述范文
摘要:随着信息技术的飞速发展,人工智能(AI)已成为全球科技竞争的焦点。
本文从人工智能的发展历程、主要技术领域、应用场景以及面临的挑战等方面,对人工智能领域的相关研究进行综述。
一、发展历程人工智能的发展历程可分为四个阶段:理论探索阶段、技术突破阶段、应用探索阶段和产业应用阶段。
从20世纪50年代至今,人工智能经历了从理论研究到技术突破,再到产业应用的全过程。
二、主要技术领域1. 深度学习:深度学习是近年来人工智能领域的重要突破,包括卷积神经网络(CNN)、循环神经网络(RNN)和生成对抗网络(GAN)等。
2. 自然语言处理(NLP):NLP是人工智能领域的核心之一,包括文本分类、情感分析、机器翻译、问答系统等。
3. 计算机视觉:计算机视觉是人工智能领域的重要分支,包括目标检测、图像识别、图像分割等。
4. 机器学习:机器学习是人工智能的基础,包括监督学习、无监督学习、半监督学习等。
5. 强化学习:强化学习是使机器通过与环境交互来学习的一种方法,广泛应用于游戏、机器人控制等领域。
三、应用场景1. 金融领域:智能投顾、风险管理、反欺诈等。
2. 医疗领域:疾病诊断、药物研发、健康管理等。
3. 教育:个性化教学、智能评测、教育资源分配等。
4. 交通:自动驾驶、智能交通管理、交通信号控制等。
5. 语音助手:智能客服、智能家居、语音识别等。
四、面临的挑战1. 数据隐私与安全:随着人工智能技术的广泛应用,数据隐私与安全问题日益突出。
2. 算法偏见与公平性:算法偏见可能导致不公平的决策,影响人工智能的公正性。
3. 技术伦理与道德:人工智能技术可能引发伦理道德问题,如机器人的权利、人工智能的决策责任等。
4. 跨学科融合:人工智能技术涉及多个学科领域,需要跨学科的研究与合作。
总结:人工智能领域的研究取得了丰硕的成果,但在实际应用中仍面临诸多挑战。
未来,人工智能技术将继续向深度学习、多模态、跨学科融合等方面发展,为人类社会带来更多福祉。
机器翻译国外发展阶段研究综述
机器翻译国外发展阶段研究综述作者:叶雨婷陈达来源:《文存阅刊》2017年第20期摘要:当涉及法律文书、政府文件等类型的文本或翻译任务量繁重的文本时,人工翻译仍具有一定的局限性,因此辅以机器翻译就成为了必然。
本文对国外机器翻译发展阶段进行研究并形成综述。
关键词:机器翻译;发展;综述随着世界各国联系日益密切,如何在语言和文化背景有所差异的情况下实现顺利交流就尤为重要,尤其是当涉及到关于法律文书、政府文件等类型的文本时,由于其文本特性,人工翻译具有一定的局限性。
因此,我们就需要借助机器翻译来顺利完成翻译任务。
鉴于机器翻译日益凸显的重要性和越来越广泛的应用,本文对机器翻译国外发展阶段进行了研究并形成综述。
一、兴起:1946年——20世纪60年代前半期。
1946年,世界上第一台公认的数字电子计算机诞生,人们开始考虑用计算机代替人工从事文本翻译工作。
1949年,韦弗的《备忘录》极大激发了人们对于机器翻译研究的兴趣。
到20世纪50年代初期,大批来自欧洲和美国的研究人员开始从事这项工作;另一方面,该研究也吸引了大量来自政府和公司等行业的投资。
1954年,在IBM的协助下,美国乔治城大学采用基于计算机的机器翻译系统,首次成功完成机器翻译试验,将机器翻译推入了新的发展阶段。
虽然此时机器翻译仍存在一些问题,但人们乐观地认为只要扩大词汇量和转变语法规则就能解决机器翻译存在的问题。
20世纪50年代中期到20世纪60年代前半期,由于美苏在军事、政治、经济等方面竞争激烈,两国都在机器翻译方面投入了大量资金和技术支持;欧洲其他国家出于经济发展和地缘政治的需要也对机器翻译研究十分重视。
因此,机器翻译在这一时期虽刚起步,但发展非常迅速。
二、停滞:20世纪60年代中期——20世纪70年代中期。
尽管社会各界对于机器翻译研究投入了大量资金和技术支持,但收效甚微。
因此,越来越多的投资者开始渐渐失去耐心;另外,在当时语言知识和计算机技术都有所欠缺的情况下,越来越多的人也开始质疑自动翻译的可能性。
机器翻译技术研究报告
机器翻译技术研究报告摘要:机器翻译技术是一项重要的人工智能应用,旨在实现不同语言之间的自动翻译。
本研究报告综述了机器翻译技术的发展历程、主要方法和应用现状,重点探讨了神经机器翻译模型的优势和挑战。
通过对相关研究的分析和总结,提出了未来机器翻译技术研究的方向和发展趋势。
1. 引言机器翻译技术是将一种语言的文本自动转化为另一种语言的技术。
随着全球化的发展和跨国交流的增加,机器翻译技术在商业、政府和学术领域中扮演着重要角色。
近年来,随着深度学习的兴起,神经机器翻译模型逐渐成为主流方法,取得了显著的研究进展。
2. 机器翻译方法2.1 统计机器翻译统计机器翻译是机器翻译的经典方法之一,其基本思想是通过对大规模双语语料进行统计分析,建立源语言和目标语言之间的概率模型。
该方法在翻译质量和效率方面取得了一定的成果,但受限于特征工程和数据稀疏性问题,其翻译结果仍然存在一定的局限性。
2.2 神经机器翻译神经机器翻译是近年来兴起的一种基于深度学习的机器翻译方法。
它利用神经网络模型,通过将源语言句子映射到目标语言句子的概率分布,实现翻译任务。
神经机器翻译模型具有端到端的特点,能够自动学习输入和输出之间的对应关系,大大简化了传统机器翻译方法中的特征工程过程。
该方法在翻译准确性和语义表达方面取得了显著的提升。
3. 神经机器翻译模型3.1 编码器-解码器模型编码器-解码器模型是神经机器翻译的核心架构,它由两个主要部分组成:编码器和解码器。
编码器负责将源语言句子编码为一个固定长度的向量表示,解码器则根据该向量表示生成目标语言句子。
编码器和解码器通常采用循环神经网络(RNN)或者注意力机制来实现。
3.2 注意力机制注意力机制是神经机器翻译模型中的重要组成部分,它解决了长句子翻译和翻译中的对齐问题。
注意力机制通过对源语言句子的不同部分进行加权,使得解码器能够更好地关注源语言句子中与当前翻译位置相关的信息。
基于注意力机制的模型在翻译结果的流畅性和准确性方面具有明显优势。
机器翻译技术研究综述及未来发展方向
机器翻译技术研究综述及未来发展方向一、前言随着全球化的深入与信息化的发展,翻译行业面临着越来越大的挑战。
传统的翻译方式已经难以满足快速高效、多语种、大规模的翻译需求。
在这样的背景下,机器翻译技术应运而生,为翻译行业带来了全新的变革。
本文将综述机器翻译技术的研究现状及未来发展方向。
二、机器翻译技术发展历程早期的机器翻译技术采用的是基于规则的方法,即利用人工制定的翻译规则,将源语言文本转换成目标语言文本。
但是,由于规则的复杂性、文化差异等种种因素,基于规则的机器翻译技术的翻译质量并不理想。
为了解决这个问题,研究人员开始尝试基于统计学习的机器翻译技术。
基于统计学习的机器翻译技术主要是通过分析大量的源语言和目标语言之间的对应关系,来建立概率模型,再根据该概率模型对源语言文本进行翻译。
其中,最具代表性的是基于短语的机器翻译技术。
短语指的是一组有意义的词语,包括名词、动词、形容词等。
短语翻译模型将源语言和目标语言分别表示成一个个短语,然后通过翻译模型来计算这些短语的对应关系,最终得出目标语言文本。
三、机器翻译技术的发展现状目前,机器翻译技术已经取得了很大的进展。
已有的一些商业化机器翻译系统如Google翻译、百度翻译等,其翻译质量已经可以胜任日常口语交流或一般文件阅读等任务。
但是,对于涉及专业术语、文化背景等领域的翻译,机器翻译技术还需要进一步提升。
近年来,深度学习技术的兴起,使得机器翻译技术得到了新的发展。
深度学习技术主要是通过模仿人脑神经元的工作方式,来进行信息处理和学习。
它具有对大规模数据自动学习的能力,能够有效提升机器翻译的翻译质量。
其中,基于神经网络的机器翻译技术已经成为研究的热点之一。
四、机器翻译技术发展趋势机器翻译技术未来的发展方向主要包括如下几个方面:1. 模型的优化目前机器翻译技术主要采用的是基于序列到序列模型(Seq2Seq)的方式。
但是,这种模型对长文本的翻译效果仍然不够理想。
未来的研究方向是设计新型的翻译模型,提高机器翻译的长文本翻译效果。
低资源语言机器翻译技术研究综述
低资源语言机器翻译技术研究综述随着全球化的发展,机器翻译在跨语言交流中扮演着越来越重要的角色。
然而,对于一些低资源语言来说,由于数据量有限,传统的机器翻译技术往往无法取得理想的效果。
因此,研究者们致力于开发适用于低资源语言的机器翻译技术,以提高翻译质量和效率。
一、低资源语言的挑战低资源语言指的是在机器翻译任务中,可用于训练和测试的语料资源非常有限的语言。
这些语言通常拥有少量的平行语料,而且缺乏大规模的双语语料库。
由于数据稀缺,低资源语言机器翻译面临着以下挑战:1. 数据稀缺:缺乏足够的平行语料用于训练机器翻译模型,这导致了翻译质量的下降。
2. 语言差异:低资源语言与高资源语言之间存在着巨大的语言差异,包括语法结构、词汇表和句法规则等方面的差异,这增加了机器翻译的难度。
3. 词汇表限制:低资源语言的词汇表通常较小,其中可能缺乏一些专业术语和新兴词汇,这给机器翻译带来了困扰。
二、低资源语言机器翻译技术针对低资源语言的机器翻译技术主要包括以下几个方面:1. 基于迁移学习的方法:迁移学习通过利用高资源语言的翻译模型来帮助低资源语言的机器翻译。
这种方法通过将高资源语言的翻译模型进行适应性调整,以适应低资源语言的特点,从而提高翻译质量。
2. 基于无监督学习的方法:无监督学习是指在没有标注数据的情况下进行学习。
对于低资源语言,由于缺乏平行语料,传统的有监督学习方法无法应用。
因此,无监督学习成为一种有效的解决方案。
该方法通过利用大规模的单语语料,通过自学习的方式来进行机器翻译。
3. 基于强化学习的方法:强化学习是一种通过与环境交互来学习最佳行为的机器学习方法。
在低资源语言机器翻译中,强化学习可以用于优化翻译模型的参数,以提高翻译质量。
4. 基于知识库的方法:知识库是一种存储结构化知识的数据库。
对于低资源语言,由于缺乏大规模的平行语料,可以利用知识库中的句子对来进行机器翻译。
这种方法通过将知识库中的句子对进行翻译,并将其用于训练机器翻译模型,以提高翻译质量。
篇章神经机器翻译综述
篇章神经机器翻译综述苏劲松 陈骏轩 陆紫耀 董怡帆 康立言 张海英厦门大学信息学院 厦门 361005摘要:篇章机器翻译旨在使用计算机将一个篇章从一种语言自动翻译成另一种语言,是机器翻译中一项富有挑战性的任务。
近年来,随着神经机器翻译的快速发展,篇章神经机器翻译成为了机器翻译研究的热门方向。
研究者们提出了许多基于神经网络的篇章机器翻译模型,并取得了不错的效果。
相比于传统句子神经机器翻译,篇章神经机器翻译通过建模并利用篇章级别的上下文信息来产生质量更高的译文。
本文首先简单介绍了篇章翻译任务的定义和特点;其次分三个方面对篇章神经机器翻译现有研究进行了介绍:上下文建模、模型训练、模型分析;最后分析了篇章神经机器翻译研究当前面临的主要难点,并探讨未来可能的研究方向。
关键词:自然语言处理;篇章神经机器翻译;上下文建模;模型训练;模型分析中图分类号:G35A Survey of Document-level Neural Machine TranslationSU Jinsong CHEN Junxuan LU Ziyao DONG Yifan KANG Liyan ZHANG HaiyingSchool of Informatics Xiamen University, Xiamen 361005, ChinaAbstract : Document-level machine translation aims to use a computer to automatically translate a whole document fromone language to another, which is a challenging task in machine translation. In recent years, with the rapid development of neural machine translation (NMT), document-level NMT has become one of hot research topics in the community of machine translation. Various document-level machine translation models based on neural networks have been proposed基金项目:国家重点研发计划科技创新2030—“新一代人工智能”重大项目《以中文为核心的多语种自动翻译研究》课题《面向机器翻译的多模态多语言深度融合关键技术》2020AAA0108004;国家自然科学基金面上项目“面向机器翻译的多层次语义表示研究”(61672440);福建省杰出青年基金项目“多源神经机器翻译关键技术研究与应用”(2020J01312146)。
基于循环神经网络的机器翻译方法综述
基于循环神经网络的机器翻译方法综述随着全球化的进程和跨国交流的增加,机器翻译在促进不同国家和地区之间的交流和理解方面起到了重要的作用。
而基于循环神经网络(Recurrent Neural Network,RNN)的机器翻译方法由于其优秀的性能在学术界和工业界受到了广泛关注。
一、循环神经网络的基本原理循环神经网络是一种具有记忆功能的神经网络模型,它能够处理序列数据并保留之前的信息。
RNN的基本结构包括输入层、隐藏层和输出层。
隐藏层的神经元通过一个循环连接,使得网络能够在处理序列数据时考虑到上下文信息。
这一特性使得RNN在处理机器翻译任务时能够更好地理解源语言和目标语言之间的关系。
二、基于循环神经网络的机器翻译方法1. 编码-解码模型编码-解码模型是基于循环神经网络的机器翻译方法中最常用的一种。
该模型将源语言句子编码为一个固定长度的向量表示,然后通过解码器将其转化为目标语言句子。
编码器和解码器都是由循环神经网络构成的。
这种方法能够有效地捕捉源语言和目标语言之间的语义关系,但在处理长句子时存在信息丢失的问题。
2. 注意力机制为了解决编码-解码模型中的信息丢失问题,注意力机制被引入到基于循环神经网络的机器翻译方法中。
注意力机制允许解码器在生成目标语言句子的过程中,根据源语言句子的不同部分分配不同的注意力权重。
这样,解码器可以更加关注与当前要生成的目标语言单词相关的源语言部分,从而提高翻译的准确性。
3. 双向循环神经网络双向循环神经网络是一种结合了前向和后向信息的模型。
它由两个循环神经网络组成,一个按照正向顺序处理输入序列,另一个按照逆向顺序处理输入序列。
这种模型能够更好地捕捉上下文信息,提高机器翻译的质量。
三、基于循环神经网络的机器翻译方法的应用和挑战基于循环神经网络的机器翻译方法在学术界和工业界得到了广泛应用。
它已经被应用于各种语言对的翻译任务,并取得了较好的效果。
然而,基于循环神经网络的机器翻译方法仍然面临一些挑战。
机器翻译系统发展与研究
:
C ia N w e h oo isa d P o u t h n e T c n lge n r d cs
机 器翻译术
( 安徽理工大学计算机科 学与工程学院, 安徽 淮南 2 2 0 ) 30 1
摘 要: 本文详 细地 论述 了机 器翻 译研 究 的发展 历程 和现状 。综述 了机 器翻 译 系统的 类型 和特 点。详 细地介 绍 了九十 年代 以来提 出 的一些 新的 方法 以及 国 内国 际研 究动 态 。 关 键词 : 器翻译 ; 于规 则 ; 于语料 库 机 基 基
中图分 类号 :0 5 H 8 文 献 标 识 码 : B
2 世纪 7 年 代 ,西欧和加拿 大开始 出现 0 0 以追求可读性和 忠实性 为 目 的第二代机器 翻 标 译系统 。 这些系统 以基于转换的方法为代 表 , 普 遍采用 以句法分析 为主 、 以语 义的基于规则 辅 的方法 ,采用有抽象 的转换表 示的分层次实现 策 略 , 合 了多 种技术 : 与算 法分离 , 综 知识 模块 化设计 , 多种句法分析策 略以及语 义分析等等 , 机器 翻译概况 并且大多 引入 了人 工智能技术 ,其中许多方法 机器 翻译 ( ah et nli )又称 为 自 和技术直到今天仍被沿 用。期 间 比较著名 的系 m ci a s tn , n r ao 动 翻译 ,是利用计算机把 一种 自然源语言转变 统有 :Y T A S S R N多语 言 翻译 系统 、 i e We dr系 n 为另 一种 自然 目 标语 言的过程 ,一般指 自然语 统 、 U P T A 多国语翻译 系统 、A M— — E ROR T U ME 言 之间句子和全文 的翻译 。它是 自然语言处理 T O系统等 。 E ( trlL n u g rcsig Naua ag a ePo es )的一个分支 , n 与 2 世纪 9 年代 至今 ,随着 Itnt 0 0 n re 的普 e 计 算语 言 学 (o pti a Lnu t s)自然 遍应用 ,世界经济一体化进程 的加速以及 国际 C m u tnl i ii 、 ao g sc 语 言 理解 (N t a Lnug nes nig 社会交流 的 日 a rl agaeU drad ) u t n 渐频 繁 , 传统 的人 工作 业的方式 之 间存在着 密不 可分的关 系。 已经远远不能满足迅猛增 长的翻译需求 ,人们 整个机器 翻译 的过 程可 以分 为原文 分析 、 对于机器翻译 的需求空前增 长 ,机器 翻译迎来 原文 译文转换和译文生成 3 阶段。在具体 的 了一个新 的发展机 遇。国际陛的关于机器翻译 个 机器 翻译系统 中, 根据不 同方 案的 目的和要求 , 研究的会议频繁 召开 ,中国也取 得了前所未有 可 以将原 文译文转换阶段 与原 文分析阶段结合 的成就 , 相继推 出了一 系列机器 翻译 软件 , 例如 在一起 , 译文生成 阶段独立起来 , 立相关 “ 星” 、 雅 信”、“ 而把 建 译 “ 通译 ”、“ 建” 。在市 华 等 分析独立生成 系统 。 在这样 的系统 中, 原语分析 场需求的推动下 , 商用机器 翻译 系统迈人 了实 时要 考虑译语的特点 ,而在译语 生成 时则不考 用化阶段 , 了市场 , 走进 来到了用户面前。 虑原语 的特点 。在搞多种语言对 一种 语言的翻 三 、 国机器翻译发展 我 译 时 , 于采 用这样 的相关分析独立 生成系统 。 宜 中国机器翻译研究 起步于 15 年, 9 7 是世界 也可 以把 原文分析 阶段独立起 来 , 原文译 文 上第 4 把 个开始搞 机器翻译 的国家 ,0 6 年代 中期 转换 阶段 同译文生成 阶段结合起 来 ,建立独立 以后一度 中断 , 年 代中期 以来 有了进 一步 的 7 0 分析相关生成 系统 。 在这样 的系统 中, 原语分析 发展 。现在 , 国社会科学 院语言研 究所 、 国 中 中 时不考虑 译语的牛| 寺 ,而在译语生成 时要考虑 科学技术 隋报研究所 、中国科学 院计 算技术研 原语 的特点 ,在搞一种语言对多 种语 言的翻译 究所 、 黑龙江大学 、 哈尔滨工业大学等单 位都在 时, 宜于采用这样的独立分析相关生成系统 。 还 进行机器翻译的研究 ;上机进行 过实 验的机器 可 以把原 文分析 、原文译文转换 与译文 生成分 翻译 系统 已有十多个 ,翻译 的语 种和类型有英 别独立开来 , 建立独立分析独立生成系统。 在这 汉 、 、 、 、 等一对一 的系统 ' 俄汉 法汉 日汉 德汉 也有 样 的系统 中 , 析原语时不考虑译语 的特 点 , 分 生 汉译英 、 、 俄 、 的一 对多 系统 (A R 法 日、 德 F J A系 成译语 时也不考虑原语 的特点 , 原语译 语的差 统 ) t , 。a , )l还建立 了一个 汉语语料库 和一个科 异通过原 文译文转换来解决 。在搞多种语 言对 技英 语语料库。 中国机器 翻译 系统的规模正在 多种语言 的翻译 时 ,宜于采用这样 的独立分 析 不断地 扩大 , 内容正在不断地完善 。 比较有代表 独立生成系统 。 性 的系统有 :高立英汉 翻译 系统 , TE I /C英汉 M 二、 国外机器翻译发展 翻译 系统 , a i英汉机 器翻译 系统 ,i Tas M tx r S or n n 15 9 4年 ,由 Gere w ogt n大学 和 I M公 司 汉外机 器翻译系统等等 。 o B 合作 , 了第一个 真正的机器翻译 系统 , 且 实现 并 鉴于机器 翻译仍具相 当市 场 ,中国涉足这 在 IM纽约总部进行 了俄译英公开演示 。f 领域 的厂商也不一 而足 。目 , B 【 ] 前 国内市场上的 用 IM 7 1 B 一 0 计算 机 , 把几个简单 的俄语句子 翻 翻译 软件产品可 以划分为 四大类 : 文翻译 ( 全 专 译成英语 。 尽管这个系统很小 , 只有 20 5 条俄 语 业 翻译 )在线翻译 、 、 汉化软件 和电子词典 。 全文 词汇 ,条语法规 则以及精 心挑选 的翻译例 句 , 翻译软 件以中软 “ 6 译星” 以及“ 信 C T . 为代 雅 A 2” 5 但是第一次 向公众 和科 学界展示 了机器 翻译 的 表 ; 翻译软 件 主要 以“ 山快译 . t 0” 在线 金 n 2 1、 e0 可行 l。 生 华建 的 “ 网上通 ” 翻译 为代表 ; 化类 翻译软 件 汉 2 世纪 5 年代中期,在美国掀起了机器 主要 以“ 陕车 30 ” 0 0 东方 00为代表 ; 词典工具 以“ 金 翻译研究 的高潮 。这一 时期的机器翻译 系统 主 山词 霸. t 0 ” n 2 1为主要代表 。 e0 要采用直 接翻译 (i c Tas tn方法 , Dr t rnli ) e ao 一般 由于机器翻译在今后需要满 足人 们在浩瀚 都没有进行很好 的源语 言据法结构分析 , 是 的互联 网上方便地进行信息搜集 的需 求 ,于是 而 主要 以词典 为驱 动 , 利用 词典中 的语法 和语 义 很 多 翻译 开 发者 在翻 译准 确度 上 下工 夫 的 同 特征来实现翻译 。直接 翻译 方法 的栈 是在 源 时 , 开始 注重结合用户的使用领域并进 行方 向 语 言分析阶段和 目 标语 言综合 ( 即生成 ) 间没 性 的开发 。 之 根据 目 的市场发展看来 , 前 在新一轮 有 明确的区分 ,这样 的系统被 称为第一代机器 的竞赛中, 在线翻译前景十分看好。目 , 前 中国 翻译 系统 。 的网民已超 4 , 亿 并继续以极 li度 增长。 央塞
机器翻译研究综述(DOC)
机器翻译综述1.引言1.1机器翻译的历史现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。
在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。
与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。
在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。
他提出了两个主要观点:第一,他认为翻译类似于解读密码的过程。
第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中间语言”,可以假定是全人类共同的。
在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。
1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。
直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期1.2机器翻译的主要内容经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法●句法转换方法●中间语言方法●基于规则的方法●基于语料库的方法➢基于实例的方法(含模板、翻译记忆方法)➢基于统计的方法在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。
下面对各个方法逐一的进行介绍。
2.机器翻译主要方法2.1直接翻译方法所谓直接翻译方法就是从句子的表层出发,将单词、词组、短语甚至是句子直接置换成目标语言译文,有时进行一些简单的词序调整实现翻译,并不进行深层次的句法和语义分析。
机器翻译综述
机器翻译综述
机器翻译是指利用计算机技术和自然语言处理技术将一种语言的文本转化为另一种语言的文本的过程。
机器翻译技术的发展可以追溯到20世纪50年代,当时主要采用的是基于规则的方法,即设计一系列语言规则来进行翻译。
但是这种方法存在着规则复杂、覆盖面不足等问题,难以达到高质量的翻译效果。
随着计算机技术和自然语言处理技术的不断发展,机器翻译技术也在不断进步。
目前主要采用的是基于统计机器翻译和神经机器翻译的方法。
基于统计机器翻译的方法是利用大量的双语语料库进行训练,通过对源语言和目标语言之间的词汇、短语、句子等进行统计和分析,得出最佳的翻译结果。
这种方法的优点是可以利用大量的语料库进行训练,翻译效果相对较好,但是需要大量的计算资源和时间,且对语料库的质量要求较高。
神经机器翻译是利用深度学习技术,将源语言和目标语言之间的映射关系建立在神经网络中,通过训练神经网络来实现翻译。
这种方法的优点是可以自动学习语言之间的映射关系,翻译效果相对较好,但是需要大量的训练数据和计算资源。
除了以上两种方法,还有一些其他的机器翻译方法,如基于规则和统计的混合方法、基于语言学知识的方法等。
总的来说,机器翻译技术的发展已经取得了很大的进步,但是仍然存在一些问题,如语言的歧义性、语法结构的复杂性等,需要不断地进行研究和改进。
国内近二十年机器翻译错误研究综述
国内近二十年机器翻译错误研究综述
刁丽昱;蔡良钰;仰玉静
【期刊名称】《现代语言学》
【年(卷),期】2024(12)3
【摘要】本文以CNKI (中国知网)期刊数据库中收录的关于机器翻译错误研究的论文为数据来源,运用数据统计的研究方法,对国内机器翻译错误研究进行可视化分析,通过考察论文发表数量、主要研究领域、机器翻译引擎、错误标注手段以及错误分类方法等,整理分析了国内机器翻译错误的发展过程及现状。
研究结果表明,国内机器翻译错误研究在最近十年兴起并呈上升趋势,在2021年达到高潮,文本聚焦领域比较广泛。
文章进而提出了神经网络机器翻译错误技术研究存在的问题,展望未来研究导向,以促进国内机器翻译错误类型再研究、再创造。
【总页数】6页(P287-292)
【作者】刁丽昱;蔡良钰;仰玉静
【作者单位】中国矿业大学(北京)文法学院
【正文语种】中文
【中图分类】TP3
【相关文献】
1.近二十年国内学习错误研究综述
2.近二十年国内语义透明度研究综述——基于CSSCI核心期刊论文的分析
3.近二十年《聊斋志异》国内影视改编潜质研究综述
4.近二十年国内歌曲翻译研究综述
5.近二十年国内医患信任研究综述
因版权原因,仅展示原文概要,查看原文内容请购买。
机器翻译系统融合技术综述
Chn s a e fS in e ,B in 0 1 0 C ia ie eAcd myo ce c s ej g 1 0 9 , hn ) i
中图 分 类 号 :TP 9 31 文献 标 识 码 :A
A u v y o y tm m b na in f rM a h n a l to S r e fS se Co i to o c i e Tr nsa i n
LI M a x ,ZON G o i Che g i g n qn
合 的层 次差 异 , 们 将 系 统 融 合 方 法 分 为 三 类 :句子 级 系统 融合 、 语 级 系统 融合 和 词 汇 级 系统 融合 。然 后 , 对 我 短 针
这 三 种 融 合 方 法 , 文分 别介 绍 了它们 各 自具有 代 表 性 的研 究 工 作 , 该 包括 实现 方 法 、 信 度 估 计 和 解 码 算 法 等 , 置 并
第2 4卷
第 4期
中文 信息 学报
J OURNAL OF CH I NES NFORM A T1 EI 0N R0CES I G P SN
V o. 2 1 4。N O 4 .
21 0 0年 7月
J 1,2 1 u. 0 0
文 章 编 号 : 0 30 7 ( 0 0 0 —0 41 1 0 — 0 7 2 1 ) 40 7 — 1
d s us e ic S d.
着重 阐述 了近 年 来 使 用 广 泛 的 词 汇 级 系统 融 合 方 法 中用 于构 造 混 淆 网络 的 词 对 齐技 术 。 最 后 , 文 对 这 三 类 系统 该
神经机器翻译前沿综述
第34卷 第7期2020年7月中文信息学报JOURNAL OF CHINESE INFORMATION PROCESSINGVol.34,No.7July,2020文章编号:1003-0077(2020)07-0001-18神经机器翻译前沿综述冯洋1,2,邵晨泽1,2(1.中国科学院计算技术研究所智能信息处理重点实验室,北京100190;2.中国科学院大学,北京100049)摘 要:机器翻译是指通过计算机将源语言句子翻译到与之语义等价的目标语言句子的过程,是自然语言处理领域的一个重要研究方向。
神经机器翻译仅需使用神经网络就能实现从源语言到目标语言的端到端翻译,目前已成为机器翻译研究的主流方向。
该文选取了近期神经机器翻译的几个主要研究领域,包括同声传译、多模态机器翻译、非自回归模型、篇章翻译、领域自适应、多语言翻译和模型训练,并对这些领域的前沿研究进展做简要介绍。
关键词:神经机器翻译;模型训练;同声传译;多模态机器翻译;非自回归机器翻译;篇章翻译;领域自适应;多语言翻译中图分类号:TP391 文献标识码:AFrontiers in Neural Machine Translation:A Literature ReviewFENG Yang1,2,SHAO Chenze1,2(1.Key Laboratory of Intelligent Information Processing,Institute of ComputingTechnology,Chinese Academy of Sciences,Beijing 100190,China;2.University of Chinese Academy of Sciences,Beijing 100049,China)Abstract:Machine translation is a task which translates a source language into a target language of the equivalentmeaning via a computer,which has become an important research direction in the field of natural language process-ing.Neural machine translation models,as the main stream in the reasearch community,can perform end-to-endtranslation from source language to target language.In this paper,we select several main research directions of neu-ral machine translation,including model training,simultaneous translation,multi-modal translation,non-autore-gressive translation,document-level translation,domain adaptation,multilingual translation,and briefly introducethe research progresses in these directions.Keywords:neural machine translation;model training;simultaneous translation;multi-modal translation;non-au-toregressive translation;document-level translation;domain adaptation;multilingual translation收稿日期:2020-01-06 定稿日期:2020-01-22基金项目:国家重点研发计划政府间国际科技创新合作重点专项(2017YFE0192900)1 神经机器翻译机器翻译是指通过计算机将源语言句子翻译到与之语义等价的目标语言句子的过程,是自然语言处理领域的一个重要研究方向。
神经机器翻译综述
神经机器翻译综述
章钧津;田永红;宋哲煜;郝宇峰
【期刊名称】《计算机工程与应用》
【年(卷),期】2024(60)4
【摘要】机器翻译主要研究如何将源语言翻译为目标语言,对于促进民族之间的交流具有重要意义。
目前神经机器翻译凭借翻译速度和译文质量成为主流的机器翻译方法。
为更好地进行脉络梳理,首先对机器翻译的历史和方法进行研究,并对基于规
则的机器翻译、基于统计的机器翻译和基于深度学习的机器翻译三种方法进行对比总结;然后引出神经机器翻译,并对其常见的类型进行讲解;接着选取多模态机器翻译、非自回归机器翻译、篇章级机器翻译、多语言机器翻译、数据增强技术和预训练模型六个主要的神经机器翻译研究领域进行重点介绍;最后从低资源语言、上下文相
关翻译、未登录词和大模型四个方面对神经机器翻译的未来进行了展望。
通过系统性的介绍以更好地理解神经机器翻译的发展现状。
【总页数】18页(P57-74)
【作者】章钧津;田永红;宋哲煜;郝宇峰
【作者单位】内蒙古工业大学数据科学与应用学院
【正文语种】中文
【中图分类】TP391.2
【相关文献】
1.无监督神经机器翻译综述
2.稀缺资源语言神经网络机器翻译研究综述
3.蒙汉神经机器翻译研究综述
4.面向神经机器翻译的枢轴方法研究综述
5.非自回归神经机器翻译综述
因版权原因,仅展示原文概要,查看原文内容请购买。
交互式机器翻译综述
交互式机器翻译综述
廖兴滨;秦小林;张思齐;钱杨舸
【期刊名称】《计算机应用》
【年(卷),期】2023(43)2
【摘要】随着深度学习的发展和成熟,神经机器翻译的质量也越来越高,然而仍不完美,为了达到可接受的翻译效果,需要人工进行后期编辑。
交互式机器翻译(IMT)是这种串行工作的一个替代,即在翻译过程中进行人工互动,由用户对翻译系统产生的候选翻译进行验证,并且,如有必要,由用户提供新的输入,系统根据用户当前的反馈生成新的候选译文,如此往复,直到产生一个使用户满意的输出。
首先,介绍了IMT的基本概念以及当前的研究进展;然后,分类对一些常用方法和前沿工作加以介绍,并简述每个工作的背景和创新之处;最后,探讨了IMT的发展趋势和研究难点。
【总页数】6页(P329-334)
【作者】廖兴滨;秦小林;张思齐;钱杨舸
【作者单位】中国科学院成都计算机应用研究所;中国科学院大学计算机科学与技术学院
【正文语种】中文
【中图分类】TP391.2
【相关文献】
1.基于RNN编码器的交互式机器翻译平台控制技术
2.基于CBE的交互式机器翻译方法研究
3.基于LSTM的交互式神经机器翻译方法研究
4.基于交互式机器翻译环境的语境架构
5.基于B/S框架的交互式英汉机器翻译系统设计
因版权原因,仅展示原文概要,查看原文内容请购买。
国内近30年变译研究综述
国内近30年变译研究综述近30年来,鉴于中国社会经济的高速发展,各类新技术和新知识的迅猛涌现,变译研究获得了前所未有的发展。
变译学乃是一门外语教学与研究方法,它拓宽了翻译研究范畴,提高了翻译质量,有效提升了中国外译市场竞争优势。
语言学家普遍认为,变译是传统意译、文字转换的一种翻译理论和实践。
它是从传统的文字翻译的角度出发,从传统的语言迁移等,引入了一种充满创造性的翻译技术,即“变译”。
变译不仅仅就是拼写字面上相似的变化,而是在对源语句子的整体思路和结构的划分、理解、表达、含义进行“变化”的一个特殊的处理技巧。
近30 年来,变译的发展受到了国内外学者们的广泛研究,他们把变译概念从词汇变换、句法变换、意群变换以及语义变换等研究的范畴中审视和拓展,各种视角凸现出变译的丰富内涵和独特性。
变译的语义形态学理论研究,是变译研究主流思潮之一,它脉络清晰,暗含完整,采用“变体概念”将传统词义深化和扩展,强调语义变体形式差异、范畴变形、语境差异、区别性变形、功用变体等的研究,从而更好的理解翻译的变体概念,充分发掘源与译之间语义差异。
在文字转换研究中,变译也受到了学者们的重视。
某些学者利用该概念揭示文字转换中不符合一词多义原则的情况,发现了文字转换中的多义性,并着重探讨了词语变译的概念。
另一些学者则利用变译概念探讨了句法翻译技巧方面的内容,发现了句子变译中的句法、结构和语义变化,充分论证了变译在文字转换中的应用价值。
最后,变译的的发展也提高了翻译的智能化程度。
比如,某些学者利用变译原理在机器翻译领域开展研究,初步实现了从单个词汇到整句的自动转换,从而解决了翻译任务的空间和时间限制问题。
总之,30 年来变译理论和实践的研究,丰富了翻译理论,不断推进了翻译技术的创新和智能化,并为中国外语翻译教学提供了有效技术支撑,推动了外译市场的发展稳定提升。
确定MTI毕业论文的研究方法与数据收集
确定MTI毕业论文的研究方法与数据收集毕业论文是每位研究生的重要课题,而确定研究方法和数据收集方法是论文研究的重要环节。
本文将为您详细介绍关于“MTI毕业论文的研究方法与数据收集”的相关内容。
首先,对于MTI(机器翻译与口译)的毕业论文研究方法,有以下几个常见的研究方法:1. 文献综述法:这种方法是通过查阅相关领域的文献资料,对相关研究进行梳理和总结。
通过对已有研究的回顾和评价,可以归纳出问题的现状和存在的挑战。
在确定论文题目和研究目标时,可以参考已有的研究成果,避免重复研究,并将研究问题与已有理论进行连接。
2. 实证研究法:这种方法主要通过实验、调查等手段,收集并分析大量的实证数据,然后用科学方法对这些数据进行统计和分析,从而验证或推翻研究假设。
对于MTI毕业论文来说,可以通过构建一个实验系统或设计一个问卷来收集数据,用以验证研究问题和目标。
3. 案例研究法:这种方法是通过对具体个案的深入分析,以期获得对该领域的更深入理解。
MTI毕业论文可以选择一个特定的机器翻译或口译案例进行详细分析,从中寻找问题、挑战和解决方案,并提供对其他类似情况的推断。
4. 模型构建法:这种方法是通过构建一个或多个模型,模拟现实生活中的问题并进行仿真实验。
对于MTI毕业论文,可以结合机器学习、统计模型等技术,设计一个适合的MTI模型,并对模型进行实证研究,从而探索和改进机器翻译或口译的效果、方法和技巧。
在确定研究方法之后,接下来是如何进行数据收集的问题。
针对MTI毕业论文的数据收集,常见的方法和步骤如下:1. 确定研究对象:首先,需要明确研究的对象是什么。
可以是特定的机器翻译系统、口译系统或机器翻译过程中的某个环节等。
清晰地定义研究对象有助于后续的数据收集和分析。
2. 设计数据收集方法:根据研究对象的不同,可以采用多种数据收集方法。
例如,对于机器翻译系统的研究,可以通过构建一个评估系统,让参与者评价不同机器翻译结果的质量;对于口译系统的研究,可以录制口译视频,并请专业口译员进行评价。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器翻译综述1.引言1.1机器翻译的历史现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。
在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。
与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。
在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。
他提出了两个主要观点:第一,他认为翻译类似于解读密码的过程。
第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中间语言”,可以假定是全人类共同的。
在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。
1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。
直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期1.2机器翻译的主要内容经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法●句法转换方法●中间语言方法●基于规则的方法●基于语料库的方法➢基于实例的方法(含模板、翻译记忆方法)➢基于统计的方法在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。
下面对各个方法逐一的进行介绍。
2.机器翻译主要方法2.1直接翻译方法所谓直接翻译方法就是从句子的表层出发,将单词、词组、短语甚至是句子直接置换成目标语言译文,有时进行一些简单的词序调整实现翻译,并不进行深层次的句法和语义分析。
直接翻译方法也是早期翻译系统常用的方法。
在1954年,美国乔治敦大学用IBM计算机进行了首次机器翻译的实验后来IBM提出的统计机器翻译模型也可以认为是采用了这一思想。
这种方法只能是作为研究初期的一种方法,因为方法本身就是一个很成熟的方法,举例如下:How are you?直接翻译结果:怎么是你How old are you?直接翻译结果:怎么老是你从这个翻译结果就可以看到直接翻译方法的结果是非常不好的,直接翻译方法仅能满足特定译文生成的需要,比如说只在语言特点较为相似的语言之间的翻译效果较好。
对于像英汉语言这样差异较大的语言的翻译就不能使用直接翻译的方法。
鉴于直接翻译方法在机器翻译研究中的局限性,现如今几乎没有人继续在这个方法上进行进一步的研究,所以该方法只是在50、60年代作为机器翻译的起始研究方法存在。
2.2句法转换方法1957年,美国学者V. Yingve在Framework for Syntactic(句法翻译框架)中提出了句法转换方法。
整个过程分为“分析”、“转换”、“生成”三个阶段,分别如下:分析:将将源语言句子转换成源语言申城结构;在分析的过程中,有相关分析和独立分析两类。
所谓相关分析就是在分析时需要考虑目标语言的特点。
而独立分析就是分析过程与目标语言无关。
转换:将源语言深层结构转换为目标语言的深层结构;生成阶段:由目标语言深层结构生成目标语言句子;生成过程也有两类:相关生成和独立生成。
即相关生成是在生成时需要考虑语言的特点,而独立生成的生成过程与源语言无关。
理想的转换方法应该做到独立分析和独立生成,这样在进行多语言机器翻译的时候可以大大的减少分析和生成的工作量。
但独立分析和独立生成同样也会造成翻译质量的下降。
转换方法的优点是可以较好的保持原文结构,产生的译文结构与原文结构关系密切,尤其对于语言现象已知或句法结构规范的源语言句子具有较强的处理能力和较好的翻译效果。
主要不足就是:分析规则由人工编写,工作量大,规则的主观性强,规则的一致性难以保障,不利于系统扩充[1]。
2.3中间语言方法中间语言翻译方法首先将源语言句子分析成一种与具体语言无关的通用语言或中间语言,然后再由中间语言得到目标语言。
整个翻译过程分为“分析”和“生成”两个部分。
中间语言的优点在于进行多语种翻译的时候,只需要对每种语言分别开发一个分析模块和一个生成模块,模块总数为2*n,相比之下,如果采用转换方法就需要对每两种语言之间都开发一个转换模块,模块总数为n*(n-1)。
虽然基于中间语言的机器翻译方法能够减少系统实现的工作量,但是如何定义和设计中间语言的表达式并不是一件容易的事情,中间语言在语义表达的准确性、完整性、鲁棒性和领域的可移植性等诸多方面都存在问题[1]。
在基于中间语言机器翻译的基础之上,文献[2]采用统计的方法实现源语言到中间语言的转换和中间语言到目标语言的转换,用以实现一个语音到语音的翻译系统。
这种方法从思想方法上已经属于基于统计的范畴,但在技术方法上依然属于中间语言的方法。
现在纯粹基于中间语言的方法现在也很少能够引起研究人员的关注。
2.4基于规则的机器翻译方法自从乔姆斯基的转换生成语法提出后,基于规则的方法一直就是机器翻译研究的主流,乔姆斯基认为一种语言无限的句子可以由有限的规则推导出来[3]。
后来法国著名机器翻译专家沃古瓦(B. Vauquois)教授把基于语言规则的机器翻译方法的翻译过程总结为如下图形,这个图形又被称为“机器翻译金字塔”[4]:图1 机器翻译金字塔基于规则的方法的优点在于直观,能够表达精确地语言学家的知识,而且规则的颗粒度有很强的可伸缩性:(1)大颗粒度的规则具有很强的概括能力;(2)小颗粒度的规则具有精细的描述能力。
能够处理复杂的结构和进行深层次的理解,系统适应性较强,不依赖于具体的训练语料。
基于规则的方法同样也存在问题:(1)规则是由人制定的,主观因素重;(2)规则的覆盖性较差,特别是细粒度的规则很难总结的比较全面;(3)没有很好的办法解决规则之间的冲突。
文献[3]中提到复杂特征集和合一运算[5]的提出使用更细粒度、更加准确的知识表示形式来描述规则。
同时针对确定性规则降低了系统的鲁棒性的缺点,概率上下文无关文法[6]从全局最优的角度考虑,产生最优的翻译结果[3]。
随着这些方法的引入,传统的基于规则的机器翻译方法逐步向以规则为基础、语料库方法为辅助的更高层次的机器翻译方法的研究。
2.5基于语料库的方法在基于规则的机器翻译方法的研究面临一定的问题的情况下,很多学者就开始研究是否可以不依赖于人工制定的规则来进行机器翻译,即从大量语料中学习翻译知识。
基于语料库的翻译方法拥有无需人工编写规则、从语料库中学习得到的知识比较客观、从语料库中学习到的知识的覆盖性比较好的优点。
但同时,基于语料库的翻译方法同样也存在一定的问题:(1)翻译系统性能依赖于语料库;(2)数据稀疏问题严重;(3)语料库中不大容易得到大颗粒度的高概括性知识。
所以说在机器翻译的众多方法中没有哪种方法可以说自己是没有缺点的,只是不同的方法在不同的应用领域中有各自的优点。
目前基于语料库的方法主要有基于实例的机器翻译和基于统计的机器翻译两种方法[7]。
2.5.1基于实例的机器翻译方法日本学者长尾真(Makoto Nagao)提出了基于实例的机器翻译方法[8]。
在基于实例的机器翻译系统中,系统的知识来源是双语对照的翻译实例库,实例苦衷主要有两个字段,一个字段保存源语言句子,另一个句子保存与之对应的译文。
每输入一个源语言句子时,系统把这个句子同实例库中的源语言句子进行比较,找出与这个句子最为相似的句子,并模拟与这个句子相对应的译文,最后输出译文。
该方法的优点是:(1)直接使用对齐的语料库作为知识表现形式,知识库的扩充非常简单;(2)不需要进行深层次的语言分析,也可以产生高质量的译文。
缺点是覆盖率低,实用的翻译系统需要的实例库的规模极大(百万句对以上)。
2.5.2基于记忆的机器翻译方法在基于实例方法的基础上,日本学者佐藤聡(Satoshi Sato)提出了一个衍生的方法——基于记忆的翻译方法[9]。
基于翻译的方法是基于实例方法的特例,同样都需要建立一个实例库,但是作为衍生方法,同样有其独特之处。
该方法的基本思想为:把已经翻译过的句子保存起来;在翻译一个新句子的时候,直接到语料库中查找,如果发现相同的句子,直接输出译文,否则交给人去翻译,但可以通过系统提供一个相似的句子作为参考译文。
该方法的优缺点主要有:●翻译质量有保证;●随着使用时间的增长,匹配成功率逐步提高;●特别适用于重复率高的文本翻译,例如公司的产品说明书;●与语言无关,适用于各种语言对;●缺点是在刚开始使用时匹配成功率不高,无法给出较为合理的参考译文。
2.5.3基于统计的机器翻译方法如果说在机器翻译研究的初期,基于规则的方法是主流,吸引了大部分的研究人员的注意力的话,那现在就是基于统计方法大显身手的时候,目前基于规则的方法的研究依然在进行,只不过,更多的是作为统计机器翻译方法的补充方法。
其基本思想是为翻译过程建立模型,把翻译理解为搜索问题,即从所有可能的译文中选择概率最大的译文,而同为基于语料库方法的实例翻译方法则无需建立统计模型。
在基于实例的翻译方法中,语言知识表现为实例本身,而统计机器翻译汇总,翻译知识表现为模型参数[7]。
基于统计方法的优点:1)无需人工编写规则,利用语料库直接训练得到机器翻译系统;2)系统开发周期短;3)只要有足够多的语料,很容易适应新的领域或者语种。
缺点是:1)时空开销大,进行模型参数的计算需要消耗较多的计算资源;2)数据稀疏问题严重,当语料缺乏或语料的覆盖面不够全的时候就容易出现无法统计出需要的语言知识的情况;3)对语料库依赖严重,所有的工作都建立在语料库的基础上,好的语料库可以产生较好的翻译结果,反之就会影响到翻译质量。
4)有时需要规则的方法进行辅助基于统计的机器翻译方法主要有以下3种:➢基于词的统计机器翻译➢基于短语的机器翻译➢基于句法的统计机器翻译下面就是这3种方法的详细介绍。
2.5.3.1基于词的统计机器翻译在基于统计的机器翻译方法中首先发展起来的就是基于词的机器翻译方法。
IBM公司的Peter F. Brown 等人在1990年提出了基于统计的机器翻译方法,他们使用的就是基于词的机器翻译方法[10]。
他们为翻译建立了概率模型,在文献中他们使用的英语句子和法语句子之间的翻译作为实例。
假设人一个英语句子e和法语句子f,我们定义f翻译成e的概率为:于是将f翻译成e的问题就变成求解问题:.通过提出噪声信道模型将以上计算公式改写为其中P(E)为语言模型,反应“E像一个英语句子”的程度:称为流利度。