Evaluation of machine translation and its evaluation
专业英语翻译教案
浙江师范大学外国语学院课程大纲及教案专业名称:英语专业课程名称:《翻译》(1)主导教材:毛荣贵《新世纪大学英汉翻译教程》所属课程组:翻译组课程负责人:适用年级:英语专业本科2003级200 5 —200 6 学年第一学期翻译(1)(2)课程大纲一、课程概况课程名称:翻译课程类别:专业基础课课程编号:030903081,030903082学分:4 学时:68 开课学期:五、六二、课程教学目标和要求1、[教学目标]通过本课程的教学,帮助学生有效提高翻译实践能力和理论认识,达到高等学校英语专业英语教学大纲对其翻译能力的基本要求,即:能运用翻译理论与技巧,将英美报刊上的文章以及文学原著译成汉语,或将我国报刊、杂志上的文章和一般文学作品译成英语,译文忠实、流畅,译速每小时250-300个英文单词汉字,使之可以胜任未来的中学英语教学以及其他涉及翻译能力的工作。
2、[课程要求]本课程为系列专业基础课,由英译汉和汉译英组成,要求学生按顺序修读。
为达到课程教学的目的,采用讲练结合的方式,布置相当数量的课后作业要求学生按时按量完成,并积极参与课堂讨论。
三、教学内容与教学安排1、[教学内容要点]本课程教学以实践为主,理论为辅,重点是翻译技巧的介绍与练笔,翻译内容涉及各类文体、各个领域。
课程安排按照讲练结合的原则展开,帮助学生有步骤有针对性地训练翻译的基本技能。
通过大量的练习和讲评,强化学生对不同文本语体特点和翻译原则的认识,为其将来从事翻译工作或运用英语作为工作语言打下坚实的双语转换实践基础。
2、[教学安排]本课程教学依据教学大纲,安排在本科三年级上、下两学期进行,共计68学时,其中36学时为英译汉,32学时为汉译英,每周2学时。
教学计划允许授课教师在具体操作中有一定的灵活度,但至少应包含以下3部分的主题内容:1)翻译概述(含翻译的标准、原则、过程、中外翻译简史及翻译名家的主要观点等);2)翻译技巧讲练(介绍主要的英汉互译技巧,结合学生的练笔进行讲评);3)多视角的翻译实践与研究(不同领域的翻译实践及其操作原则与技巧,如外来词翻译、报刊标题及新闻翻译、旅游翻译、科技翻译、广告翻译、文化与翻译等;在实践的基础上开始涉猎翻译的前沿理论,提高学生对翻译的理性认识,目的在于训练其解决问题的探索能力,为其将来从事翻译实践或理论研究开辟一个窗口)。
机器翻译中的评价方法研究
机器翻译中的评价方法研究机器翻译(Machine Translation,MT)是计算机科学和人工智能领域的重要研究方向,旨在将一种自然语言的文本自动翻译为另一种自然语言的文本。
随着人们对多语言交流需求的增加,机器翻译技术的发展也日渐成熟。
然而,由于语言的复杂性和多义性,机器翻译系统仍然存在一定的不准确性和错误率。
因此,评价机器翻译质量的方法和指标非常重要。
在本文中,将介绍机器翻译评价的方法和指标,并讨论它们的优缺点。
评价机器翻译质量的方法主要可以分为人工评估和自动评估两种方法。
一、人工评估人工评估是通过人工参与的方式对机器翻译结果进行质量评估。
在人工评估中,一般会邀请专业的语言学家或翻译人员对翻译结果进行判定和评分。
常用的人工评估方法包括:1.参考人工评估(Reference-based Evaluation):参考人工评估方法将机器翻译的结果和一个或多个专业翻译人员的参考翻译进行比较。
评估者会以一定的评分标准对翻译结果进行评判,并给出相应的得分。
这种方法的优点是结果可靠,能够提供准确的评估结果。
但是,参考人工评估需要大量的人力和时间,而且评价结果受评估者的主观因素影响,缺乏客观性。
2.原文人工评估(Source-based Evaluation):原文人工评估方法不依赖于参考翻译,而是直接对机器翻译的原文进行评估。
评估者会根据原文的质量和准确性对机器翻译的结果进行判断和评分。
这种方法的优点是节省了参考翻译的成本,但是评估结果仍然受评估者主观因素的影响。
3.对抗性评估(Adversarial Evaluation):对抗性评估方法通过模拟真实翻译场景中的对抗情况来评估机器翻译的鲁棒性。
评估者会对机器翻译的结果进行有意义的扰动,并检查机器翻译对扰动的敏感程度。
这种方法可以评估机器翻译系统的稳定性和鲁棒性,但是比较复杂且需要较长时间。
人工评估方法的优点是结果准确可靠,可以提供较为准确的机器翻译质量评估。
科技英语翻译
Company Logo
Scope of translation(P25)
In terms of languages
From native languages into foreign languages Vice versa Oral interpretation Written translation Machine translation Scientific materials Literary works Political essays Practical writing Full-text translation(全文翻译) Abridged translation(摘译,摘选主要内容译出 ) Adapted translation (编译,编辑+翻译 )
Company Logo
Technical terms or common word
memory 记忆/存储器 gate 门/门电路 pupil 小学生/瞳孔
Company Logo
Polysemous word
carrier 航空母舰, 带菌者, 邮递员, 搬运工 laser 激光,激光器 lead 导程; 铅;传爆元件 cousin 堂兄,堂弟,堂姐,堂妹,表哥,表弟,表 姐,表妹 president 总统,总裁,主席,董事长,社长,校长
Company Logo
Criteria of translation
鲁迅---“凡是翻译,必须兼顾着两面,一当然 力求其易解,一则保存着原作得丰姿”。 也就是说既要通顺,又要忠实。所谓忠实,是 指内容上的“信”;所谓通顺,是指表达上的 “顺”。
Company Logo
Criteria of translation
基于自然语言处理的机器翻译系统设计与实现
基于自然语言处理的机器翻译系统设计与实现1. Introduction to Machine Translation SystemsMachine Translation (MT) is an important field in Natural Language Processing (NLP) that aims to automatically translate text or speech from one language to another. With the advancement in technology and the increasing need for seamless communication across different languages, the demand for efficient and accurate machine translation systems has grown significantly.In this article, we will explore the design and implementation of a machine translation system based on natural language processing techniques. We will discuss the key components, challenges, and methods used in building such a system.2. Preprocessing and Language ModelingThe first step in building a machine translation system is preprocessing the source and target languages. This involves tokenizing the input text, removing punctuation, normalizing word forms, and handling language-specific challenges such as sentence segmentation for languages like Chinese or Japanese.Once the data is preprocessed, a language model is built to capture the statistical properties of the source and target languages. Language modeling techniques such as n-gram models or more advanced methods like recurrent neural networks (RNNs) or transformers can be used to estimate the probability distribution of word sequences in each language.3. Word Alignment and Phrase ExtractionTo align the source and target language sentences, word alignment algorithms are employed. These algorithms aim to find the correspondence between words in the source and target languages. Popular alignment techniques include IBM Models, Hidden Markov Models (HMMs), and statistical methods like Expectation-Maximization (EM) algorithms.Once the word alignment is achieved, the next step is to extract phrases from the aligned sentence pairs. Phrases are subsequences of words that carry semantic and syntactic meaning. Phrase extraction algorithms identify these phrases by analyzing the alignments and selecting the most relevant ones for translation.4. Translation Model and Decoding ProcessThe translation model is responsible for generating the translated output given the source language input. It can be implemented using various techniques, including rule-based systems, statistical models, or more modern approaches like neural machine translation (NMT).In statistical machine translation (SMT), the translation model estimates the probability of generating a target sentence given a source sentence and specific translation rules. NMT employs neural networks to learn the translation patterns from large amounts of parallel corpora.During the decoding process, the translation model generates the most probable translation for a given source sentence. This can be done using various search algorithms, such as beam search or dynamic programming, to find the best translation among multiple hypotheses.5. Evaluation and ImprovementEvaluating the quality of machine translation systems is crucial to measure their performance accurately. Automatic metrics like BLEU (Bilingual Evaluation Understudy) or METEOR (Metric for Evaluation of Translation with Explicit Ordering) can assess the translation quality by comparing the output with human-generated translations.Continual improvement of the translation system is achieved by analyzing errors, refining the preprocessing steps, optimizing the translation model, and incorporating feedback from human evaluators. Iterative model training and fine-tuning techniques can enhance the overall translation accuracy and fluency.6. Applications and Future ProspectsMachine translation systems find applications in various domains, including global commerce, travel, international diplomacy, and language learning. They facilitate cross-cultural communication and enable people to access information and services beyond language barriers.The future prospects of machine translation involve the integration of deep learning techniques, leveraging large-scale monolingual data, and exploring unsupervised or semi-supervised learning approaches to overcome the limitations of traditional methods. Neural machine translation has shown promising results and is likely to continue dominating the field.ConclusionIn conclusion, designing and implementing a machine translation system based on natural language processing techniques involves several key components, including preprocessing, language modeling, word alignment, phrase extraction, translation modeling, decoding, evaluation, and continuous improvement. Machine translation has made significant progress in recent years and continues to be an active area of research and development. With further advancements in artificial intelligence and deep learning, the future of machine translation looks promising for enabling seamless communication across diverse languages.。
SYSTRAN Chinese-English
SYSTRAN Chinese-English and English-Chinese HybridMachine Translation SystemsJin Yang, Satoshi Enoue Jean Senellart, Tristan CroisetSYSTRAN Software, Inc. SYSTRAN SA9333 Genesee Ave. Suite PL1 La Grande Arche, 1, Parvis de la DéfenseSan Diego, CA 92121, USA 92044 Paris La Défense Cedex,France{jyang, enoue}@ {senellart,croiset}@systran.frAbstract: This report describes both of SYSTRAN’s Chinese-English and English-Chinese machine translation systems that participated in the CWMT2009 machine translation evaluation tasks. The base systems are SYSTRAN rule-based machine translation systems, augmented with various statistical techniques. Based on the translations of the rule-based systems, we perform statistical post-editing with the provided bilingual and monolingual training corpora. In this report, we describe the technology behind the systems, the training data, and finally the evaluation results in the CWMT2009 evaluation. Our primary systems were top-ranked in the evaluation tasks.Keywords: Chinese-English Machine Translation, English-Chinese Machine Translation, Rule-Based Machine Translation System, Hybrid Approach, Statistical Post-EditingSYSTRAN混合策略汉英和英汉机器翻译系统Jin Yang, Satoshi Enoue Jean Senellart, Tristan CroisetSYSTRAN Software, Inc. SYSTRAN SA9333 Genesee Ave. Suite PL1 La Grande Arche, 1, Parvis de la DéfenseSan Diego, CA 92121, USA 92044 Paris La Défense Cedex,France{jyang, enoue}@ {senellart,croiset}@systran.fr摘要: 本文介绍了SYSTRAN参加CWMT2009机器翻译评测的汉英和英汉机器翻译系统。
机器翻译技术的理论与实践教程
机器翻译技术的理论与实践教程引言随着全球化的发展和信息技术的进步,机器翻译技术已经成为一个热门的研究领域。
机器翻译技术允许将一种自然语言的文本自动地翻译成另一种自然语言的文本,为人们在跨语言交流、信息检索和文化交流等方面提供了便利。
本文将介绍机器翻译技术的理论和实践,包括常见的机器翻译模型、评价指标和实际应用案例。
一、机器翻译技术的发展历程机器翻译技术起源于20世纪50年代,当时的机器翻译主要采用基于规则的方法,即利用人工编写的翻译规则进行翻译。
然而,由于语言的复杂性和多样性,规则方法往往无法覆盖所有的情况,翻译质量较低。
随着机器学习和统计学方法的发展,机器翻译进入了数据驱动的时代。
统计机器翻译(Statistical Machine Translation,SMT)成为主流方法,通过分析大量的双语语料库、计算语言模型和翻译概率,从而实现翻译任务。
二、机器翻译模型1. 统计机器翻译模型统计机器翻译模型以双语平行语料为基础,通过对源语言和目标语言之间的对应关系进行建模,使翻译系统能够从源语言生成目标语言。
常用的统计机器翻译模型包括基于短语的模型和基于句子的模型。
基于短语的模型将句子划分为若干个短语,并建立短语之间的对应关系;基于句子的模型则在整个句子级别上进行翻译建模。
统计机器翻译是机器翻译领域的里程碑,为后续的模型提供了宝贵的经验和基础。
2. 神经机器翻译模型神经机器翻译模型(Neural Machine Translation,NMT)是近年来兴起的一种新型机器翻译模型。
相比于传统的统计机器翻译模型,神经机器翻译模型能够利用神经网络来表示和学习语言的特征,从而提升翻译质量。
常见的神经机器翻译模型包括循环神经网络(Recurrent Neural Network,RNN)和Transformer模型。
在神经机器翻译模型中,源语言的句子通过编码器转换为一个固定维度的向量表示,然后通过解码器将该向量表示转换为目标语言的句子。
Machine translation
基本概念
机器翻译
人工翻译
发展历史
翻译方法
总结展望
1、一句一句处理,并不参考上 下文; 2、对源语言的分析只是求解句 法关系,完全不是意义上的理 解译文转换是基于源语言的句 法结构的,受源语言的句法结 构的束缚; 3、翻译只是句法结构和词汇的 机械对应。
1、先通读全文,前后照 应; 2、译文基于对源语言的理 解,不受源语言的句法结构 的束缚; 3、人工翻译是一个在创造 的过程。
基于统计的机器翻译方
法把机器翻译看成是一 个信息传输过程,用一 种信道模型对机器翻译 进行解释。这种思想认
基于实例的机 器翻译
基于实例的翻译方法不
经过深层分析,仅仅通 过已有的经验知识,通 过类比原理进行翻译。 其翻译过程是首先将源
发展历史
标语言的转换,它采取 了一系列的分析和转换
的生成层次,使一个源
翻译方法
议频繁召开,中国也取得了前所未有 的成就,相继推出了一系列机器翻译
2016
机器翻译迅猛发 展,商用机器翻 译软件翻入实用
软件,例如“译星” 、 “雅信” 、
“通译” 、 “华建”等。在市场需
总结展望
求的推动下,商用机器翻译系统迈入 了实用化阶段,走进了市场,来到了 用户面前。
化阶段。
翻译方法
基本概念
助人类完成某些翻译工 作,而不是完全替代 人,人与机器翻译系统 之间应该是互补的关 系,而不是相互竞争。
中 ,就能使译文的语篇性更强 ,使
语言的三大功能 ,即概念功能、人 际功能和篇章功能 表现得更加突 出。
发展历史
机器翻译还不成熟(in state-of-the-art),需要的
翻译方法
是人与系统的配合,而
mt 指标范围
mt 指标范围全文共四篇示例,供读者参考第一篇示例:MT指标是一种常用于测量翻译质量的指标,通常用来评估翻译人员或机器翻译系统的表现。
MT指标范围就是指在实际应用中,该指标的取值范围以及对翻译质量的影响程度。
下面我们将详细介绍MT指标范围的相关内容。
我们要了解MT指标的种类。
在翻译领域中,常用的MT指标包括BLEU、NIST、METEOR、TER等。
每种指标都有其独特的计算方法和评估标准,用来衡量翻译的准确性、流畅性、信息覆盖度等方面。
这些指标都是基于参考翻译和自动生成的翻译之间的比较,通过计算它们之间的相似度来得出评分。
接着,我们来谈一下MT指标范围的意义。
在实际应用中,MT指标的取值范围可以帮助我们评估翻译质量的优劣。
通常情况下,这些指标的取值范围是从0到1之间,数值越接近1代表翻译质量越好,反之则表示翻译质量较差。
通过比较不同翻译结果的MT指标得分,我们可以选择最优质的翻译结果,从而提高翻译效果。
MT指标范围还可以作为评价翻译人员或机器翻译系统表现的重要依据。
在多语种翻译项目中,我们经常会遇到不同水平的翻译人员或机器翻译系统,通过比较它们的MT指标得分,我们可以更加客观地评估他们的翻译质量,从而选择最适合项目需求的翻译者或系统。
我们也要注意到MT指标范围的局限性。
虽然MT指标可以提供一个较为客观的评估方法,但它并不能完全代表翻译质量的真实情况。
有时候,一些特定领域的术语或文化差异等因素可能会影响到翻译结果的质量,而这些因素在MT指标的计算中并没有得到很好的考虑。
MT指标范围是评估翻译质量的重要参考指标之一,通过比较不同翻译结果的得分,我们可以选择最优质的翻译结果,并且可以作为评价翻译人员或机器翻译系统表现的重要依据。
在实际应用中我们也要注意到MT指标的局限性,结合其他因素综合评估翻译质量,才能得到更为准确的结果。
希望以上内容对您有所帮助,谢谢阅读!第二篇示例:MT指标是一种用来衡量翻译质量的标准,其英文全称是Machine Translation Evaluation Score。
西方主要翻译理论学派总结
most basic structures of Chomsky’s model,for Nida,kernels are the basic structural elements out of which language builds its elaborate(详尽复杂的) surface structures[用来构成语言复杂表层结构的基本结构成分].Kernels are the level at which the message is transferred into the receptor(受体)language before being transformed into the surface structure in three stages:Literal transfer字面转移--minimal最低度~--literary书面~2)Analysis:generative-transformational grammar(转换生成语法by Chomsky)’s four types of functional classEvent(verb)事件:行动、过程等发生的事Object(noun)实体:具体的人和物Abstract(quantities and qualities,adjective)抽象概念Relational(gender,qualities,prepositions and conjunctions)关系2,Basic factors in translation1)The nature of message:content V.S.form2)The purpose(s)of the author/translatorTypes of purposes identified by Nida:①for information②suggest a behavior③imperative(祈使,命令)purpose3)The audiences(4types):children;new literates;average literate adult;specialists3,Relatedness(相关)of language&culture4,Two basic orientations(方向)in translating1)Formal Equivalence(F-E):focuses on the message itself,in both form and content.•Principles governing F-E:①grammatical units语法单元②consistency in word usage词语用法前后一致,连贯性③meanings in terms of the source context源语语境意义2)D-E(dynamic equivalence):①based on the principle of equivalent effect(•Principles governing it)②aiming at complete naturalness of expression;③unnecessary to understand the source culture.•Economic~can be transferable with cultural~.实际上三种形式均可互相转化。
mti词条评分标准
mti词条评分标准
MTI(Machine Translation Evaluation)词条的评分标准是根据翻译质量的准确性、流畅性、一致性和可读性等方面来进行评估的。
1. 翻译准确性:评估翻译是否准确传达了原文的意思。
评分标准包括是否漏译、错译、误译等。
2. 翻译流畅性:评估翻译是否表达得流畅自然,符合目标语言的语法和习惯表达方式。
评分标准包括语法错误、语句结构不通顺、表达不清晰等。
3. 翻译一致性:评估翻译是否保持了一致的词汇和术语使用,避免了翻译过程中的不连贯和矛盾。
评分标准包括是否存在同一术语或短语的不一致翻译等。
4. 翻译可读性:评估翻译是否易读、易懂,并且是否符合目标受众的阅读习惯和文化背景。
评分标准包括是否使用了错误的文化背景知识、是否适应了目标受众的语言水平等。
根据以上评分标准,对MTI词条进行评分,可以综合考虑翻译的准确性、流畅性、一致性和可读性等方面,给出一个综合评分,以评估词条的翻译质量。
ace指标
ace指标ACE指标是一种衡量机器翻译系统质量的指标。
ACE是“自动衡量翻译质量”(Automatic Evaluation of Machine Translation Quality)的缩写。
该指标最初由美国国防高级研究计划署(DARPA)的TIDES项目团队提出,旨在为机器翻译领域研究者提供一种可靠而具有可比性的评估模型。
ACE指标基于查全率(Recall)和查准率(Precision)两个概念衍生而来。
查全率是指正确翻译数量与参考翻译总量之比;查准率是指正确翻译数量与机器翻译结果总量之比。
ACE指标将这两个概念结合起来,计算公式如下:ACE = α·P + (1-α)·R其中,P表示查准率,即计算机生成的翻译中正确翻译的比例;R表示查全率,即计算机生成的翻译中正确翻译的比例;α是权重,通常取值为0.5,表示两个指标权重相等。
ACE指标的特点在于,它不仅考虑了机器翻译的准确性,还考虑了正确翻译的数量和参考翻译的数量。
这种综合考虑能够反映出机器翻译的全面质量。
与此同时,ACE指标还适用于不同语言和不同领域的机器翻译系统的比较,具有广泛的应用性。
ACE指标的计算需要用到一个参考翻译集,即给定的多个人工翻译版本。
计算机生成的翻译结果与参考翻译进行比较,得出正确翻译数量和翻译总量,然后通过上述公式计算ACE指标。
ACE指标的优点在于,能够对机器翻译进行全面的、客观的量化评估。
这种评估模型能够为机器翻译领域的研究和开发提供参考,促进机器翻译技术的进步和提高。
同时,ACE指标也为机器翻译系统的用户提供了参考,帮助他们选择最适合自己需求的机器翻译系统。
面向神经机器翻译系统的多粒度蜕变测试
软件学报ISSN 1000-9825, CODEN RUXUEWE-mail:************.cn Journal of Software ,2021,32(4):1051–1066 [doi: 10.13328/ki.jos.006221] ©中国科学院软件研究所版权所有. Tel: +86-10-62562563面向神经机器翻译系统的多粒度蜕变测试*钟文康1, 葛季栋1, 陈 翔2, 李传艺1, 唐 泽1, 骆 斌11(计算机软件新技术国家重点实验室(南京大学),江苏 南京 210023) 2(南通大学 信息科学技术学院,江苏 南通 226019)通讯作者: 李传艺,E-mail:***********.cn摘 要: 机器翻译是利用计算机将一种自然语言转换成另一种自然语言的任务,是人工智能领域研究的热点问题之一.近年来,随着深度学习的发展,基于序列到序列结构的神经机器翻译模型在多种语言对的翻译任务上都取得了超过统计机器翻译模型的效果,并被广泛应用于商用翻译系统中.虽然商用翻译系统的实际应用效果直观表明了神经机器翻译模型性能有很大的提升,但如何系统地评估其翻译质量仍是一项具有挑战性的工作.一方面,若基于参考译文评估翻译效果,其高质量参考译文的获取成本非常高;另一方面,与统计机器翻译模型相比,神经机器翻译模型存在更显著的鲁棒性问题,然而还没有探讨神经机器翻译模型鲁棒性的相关研究.面对上述挑战,提出了一种基于蜕变测试的多粒度测试框架,用于在没有参考译文的情况下评估神经机器翻译系统的翻译质量及其翻译鲁棒性.该测试框架首先在句子粒度、短语粒度和单词粒度上分别对源语句进行替换,然后将源语句和替换后语句的翻译结果进行基于编辑距离和成分结构分析树的相似度计算,最后根据相似度判断翻译结果是否满足蜕变关系.分别在教育、微博、新闻、口语和字幕这5个领域的中英文数据集上对6个主流商用神经机器翻译系统使用不同的蜕变测试框架进行了对比实验.实验结果表明,所提方法在与基于参考译文方法的皮尔逊相关系数和斯皮尔曼相关系数上分别比同类型方法高80%和20%,说明提出的无参考译文的测试评估方法与基于参考译文的评估方法的正相关性更高,验证了其在评估准确性上显著优于同类型其他方法.关键词: 神经网络;机器翻译;质量评估;蜕变测试;多粒度中图法分类号: TP311 中文引用格式: 钟文康,葛季栋,陈翔,李传艺,唐泽,骆斌.面向神经机器翻译系统的多粒度蜕变测试.软件学报,2021, 32(4):1051–1066. /1000-9825/6221.htm英文引用格式: Zhong WK, Ge JD, Chen X, Li CY, Tang Z, Luo B. Multi-granularity metamorphic testing for neural machine translation system. Ruan Jian Xue Bao/Journal of Software, 2021,32(4):1051–1066 (in Chinese). /1000- 9825/6221.htmMulti-granularity Metamorphic Testing for Neural Machine Translation SystemZHONG Wen-Kang 1, GE Ji-Dong1, CHEN Xiang 2, LI Chuan-Yi 1, TANG Ze 1, LUO Bin 11(State Key Laboratory for Novel Software Technology (Nanjing University), Nanjing 210023, China) 2(School of Information Science and Technology, Nantong University, Nantong 226019, China)Abstract : Machine translation task focuses on converting one natural language into another. In recent years, neural machine translation models based on sequence-to-sequence models have achieved better performance than traditional statistical machine translation models on multiple language pairs, and have been used by many translation service providers. Although the practical application of commercial translation system shows that the neural machine translation model has great improvement, how to systematically evaluate its translation* 基金项目: 国家自然科学基金(61802167, 61972197, 61802095); 江苏省自然科学基金(BK20201250)Foundation item: National Natural Science Foundation of China (61802167, 61972197, 61802095); Natural Science Foundation of Jiangsu Province of China (BK20201250)本文由“面向领域的软件系统构造与质量保障”专题特约编辑潘敏学教授、魏峻研究员、崔展齐教授推荐.收稿时间: 2020-09-12; 修改时间: 2020-10-26; 采用时间: 2020-12-19; jos 在线出版时间: 2021-01-221052Journal of Software 软件学报 V ol.32, No.4, April 2021quality is still a challenging task. On the one hand, if the translation effect is evaluated based on the reference text, the acquisition cost of high-quality reference text is very high. On the other hand, compared with the statistical machine translation model, the neural machine translation model has more significant robustness problems. However, there are no relevant studies on the robustness of the neural machine translation model. This study proposes a multi-granularity test framework MGMT based on metamorphic testing, which can evaluate the robustness of neural machine translation systems without reference translations. The testing framework first replaces the source sentence on sentence-granularity, phrase-granularity, and word-granularity respectively, then compares the translation results of the source sentence and the replaced sentences based on the constituency parse tree, and finally judges whether the result satisfies the metamorphic relationship. The experiments are conducted on multi-field Chinese-English translation datasets and six industrial neural machine translation systems are evaluated, and compared with same type of metamorphic testing and methods based on reference translations. The experimental results show that the proposed method MGMT is 80% and 20% higher than similar methods in terms of Pearson’s correlation coefficient and Spearman’s correlation coefficient respectively. This indicates that the non-reference translation evaluation method proposed in this study has a higher positive correlation with the reference translation based evaluation method, which verifies that MGMT’s evaluation accuracy is significantly better than other methods of the same type.Key words : neural network; machine translation; quality estimation; metamorphic test; multi-granularity1 引 言机器翻译研究如何将基于一种自然语言描述的文本自动翻译成基于另一种自然语言描述的文本,是自然语言处理的一个重要研究问题.传统的机器翻译系统主要采用统计机器翻译模型[1].近年来,随着深度学习的发展和应用,基于序列对序列模型(sequence to sequence model)的神经机器翻译模型[2]在很多语言对的机器翻译任务上都超过了统计机器翻译模型.神经机器翻译模型不仅有很高的研究价值,还有很强的产业化能力[3],目前主流的翻译服务提供商(例如,谷歌翻译、必应翻译、百度翻译、腾讯翻译等)都提供了在线神经机器翻译服务.尽管神经机器翻译为机器翻译任务带来了极大的性能上的提升,但仍存在一些问题.例如,对长句子和低频词语的翻译效果不佳,翻译结果和词对齐模型不符等[4],并且,这些错误出现的规律和原因往往难以被发现.与统计机器翻译模型相比,神经机器翻译系统还存在更为显著的鲁棒性问题[4].Cheng 等人[5]指出,对输入语句做出的极小改变可能会引起翻译结果的剧烈改变,如同“蝴蝶效应”.此外,目前商用的神经机器翻译系统较多,但由于神经网络模型结构和训练数据的差异,各神经机器翻译系统的稳定性并不一样.图1和图2分别展示了谷歌和百度的神经机器翻译系统在翻译3个近似句子时的不同结果.3个待翻译英文句子在结构上完全相同,在内容上仅句尾单词含义不同,但是它们经过谷歌和百度的神经机器翻译系统翻译得到的翻译结果却出现了较大的差异.谷歌翻译在第2个和第3个句子上出现了翻译错误,而百度翻译在第1个句子上出现了翻译错误.Fig.1 Translation errors of Google’s neural machine translation system图1 谷歌神经机器翻译系统的翻译错误示例Fig.2 Translation errors of Baidu’s neural machine translation system图2 百度神经机器翻译系统的翻译错误示例钟文康等:面向神经机器翻译系统的多粒度蜕变测试1053显然,对神经机器翻译系统进行翻译鲁棒性评估具有重要的现实意义和研究意义.目前在该领域还缺乏相关研究.传统的机器翻译质量评估通常采用基于参考译文的方法,侧重翻译的正确性.而神经机器翻译系统采用的神经网络模型导致其与传统的统计机器翻译模型相比存在更为显著的翻译鲁棒性问题,亟需合理的测试手段和评估指标.如何对神经机器翻译系统进行测试和质量评估具有一定的研究挑战性.目前,这种挑战性主要体现在两个方面.神经网络模型的测试困难性.神经机器翻译系统采用的神经网络模型缺乏可解释性和可理解性[6].在进行神经机器翻译时,待翻译语句在神经网络结构中会被转换为多维向量,这种转换涉及到的步骤繁杂,参数众多,很难理解每一个步骤的实际含义.另一方面,神经网络模型对训练数据具有很强的依赖性,相同的网络结构在不同的训练数据集下,训练出的参数取值会存在较大差异,造成输出的稳定性较低.机器翻译任务的评估困难性.翻译质量通常基于参考译文进行评估,即给定人工翻译结果,与神经机器翻译系统输出的翻译进行比较,并通过相似度指标进行量化.但这种方法完全依赖于参考译文的质量,而高质量的参考译文获取的难度较大,成本很高.神经网络模型的测试困难性意味着采用白盒测试方法可行性较低,而机器翻译模型的黑盒测试方法通常基于参考译文,成本较高.为了解决上述研究挑战,实现在没有参考译文情况下对神经机器翻译系统进行有效的翻译鲁棒性评估,本文基于蜕变测试思想提出了一个多粒度的蜕变测试框架MGMT(multi-granularity metamorphic test).MGMT首次采用多粒度的蜕变测试方法进行质量评估,分别在句子、短语和单词粒度上定义了蜕变关系以及相似度计算方法,并基于蜕变关系对每一个句子进行3个粒度上的蜕变测试,最后用蜕变关系满足率作为神经机器翻译系统的鲁棒性量化指标.同时,我们基于MGMT框架开展了实证研究,采用一个公开的中英翻译数据集UM-Corpus[7],选取其中5个领域(教育、微博、新闻、口语、字幕)的英文句子集作为源数据集,在MGMT测试框架下对现有的、使用广泛的大型神经机器翻译系统(包括谷歌翻译[8]、必应翻译[9]、百度翻译[10]、阿里巴巴翻译[11]、腾讯翻译[12]、搜狗翻译[13])进行质量评估.最后将数据集中的中文句子作为参考译文,以基于参考译文的方法为基准,与同类型的蜕变测试方法进行比较,以证明MGMT相比于同类型方法在评估准确度上有显著的优越性.本文第2节对已有的面向神经机器翻译系统的质量评估和测试工作进行总结.第3节介绍本文提出的多粒度蜕变测试框架,描述测试流程、蜕变关系定义以及相似度计算方法.第4节针对6个主流商用神经机器翻译系统在一个多领域的翻译数据集上进行实验,并用同类型蜕变测试工作与基于参考译文的测试方法进行对比,以证明本文方法的有效性.第5节进行总结与展望,对本文工作进行总结并阐明未来可能的工作方向.2 相关工作传统的机器翻译系统质量评估并不区分正确性和鲁棒性,通常用翻译质量来衡量系统质量.Eirini[14]总结了两类翻译质量评估方法.一类是人工评估,即由专业译者来判断翻译质量的好坏.人工评估的优点是评估结果最接近实际,但是时间成本和人力成本都较高.另一类方法是基于参考译文进行评估,即给定翻译好的参考译文,将机器翻译的输出结果与参考译文进行相似度指标计算,最常用的指标有BLEU[15]、METEOR[16]、WER[17]等.基于参考译文的方法相对于人工方法成本有所降低,但是高质量参考译文的获取难度较大,成本仍然很高.如何在没有参考译文的情况下对神经机器翻译系统进行质量评估是一项困难的任务.神经机器翻译系统采用的神经网络模型具有参数规模大、可理解性弱的特点,且普遍存在测试预言问题.测试预言问题[18]是指在测试中对于某个输入需要给定预期的输出来判断系统实际输出的正确性.Wang等人[19]总结了目前常见的解决深度神经网络系统测试预言的方法,将其分为两类.第1类基于差异测试[20],即通过检测同一输入在基于相同规约的实现下的输出是否相同来判断是否出错.另一类基于蜕变测试[21],即通过定义蜕变关系来描述系统的输入变化和输出变化之间的关系.在以往的神经机器翻译系统质量评估工作中,基于蜕变测试的方法较为常见,这种方法的关键在于蜕变关系的定义.Milam等人[22]提出用往返翻译RTT(round-trip translation)在无需参考译文的情况下可以对机器翻译系统1054 Journal of Software软件学报 V ol.32, No.4, April 2021进行测试的有效性.基于RTT构造的蜕变关系是:源语句通过神经机器翻译系统翻译到目标语言,再翻译回源语言得到的翻译结果应该与源语句相同.Daniel等人[23]提出了一种结合蒙特卡洛随机算法和蜕变测试的方法MCMT(Monte Carlo combined metamorphic test),以此来衡量神经机器翻译系统的质量.它定义了一种类似RTT[22]的蜕变关系:源语言经过神经机器翻译系统直接翻译到目标语言,与源语言先使用蒙特卡洛算法随机翻译到一种中间语言,再翻译到目标语言得到的两个翻译结果应该相同.Zhou等人[24]在Daniel等人[23]工作的基础上提出了新的神经机器翻译系统质量评估方法MT4MT.该方法使用基于词替换的蜕变关系:替换源语句中的一个单词,不会影响翻译语句的结构.同时,MT4MT有针对性地设计了一些简单的替换规则.此外,有部分工作研究如何在无需参考译文的情况下进行机器翻译系统的翻译错误定位.He等人[25]提出了结构不变性测试(structure-invariant test,简称SIT)以发现系统的翻译错误.结构不变的含义是指,上下文含义相近的句子在结构上应该相同.具体做法是,将源语句中的某个词通过BERT遮蔽语言模型[26]进行替换,生成上下文相似的句子,最后再比较这两个句子的结构相似度.Zheng等人[27]也提出了一种自动测试神经机器翻译系统的方法,通过短语识别和联系学习可以自动发现神经机器翻译系统的过译(over-translation)和漏译(under- translation)错误.Shashij等人[28]提出了一种翻译错误的自动检测方法,借助句子的成分句法分析树将句子中的短语独立出来,通过比较短语在句子中和独立翻译的结果来自动发现系统的翻译错误.Sun等人[29]提出了一个结合测试与修复的框架TransRepair,在测试阶段也采用了基于词替换的方法来生成上下文相似句子.但是,上述基于蜕变测试的工作仍然存在不足之处.MCMT [23]采用随机算法来选择中间语言,但不同语言的翻译效果有较大差异,会对实验产生干扰.MT4MT[24]设计的替换规则过于主观,能被替换的词的范围较小.另外,基于蜕变测试的已有工作都只采用了一种蜕变关系来进行蜕变测试,实验结果缺乏说服力.针对已有研究工作存在的不足,本文提出了一个多粒度的蜕变测试框架MGMT,可以在无需参考译文的情况下对神经机器翻译系统进行鲁棒性评估.MGMT与已有方法有较大区别.首先,MGMT与已有工作的目的不同.已有工作旨在利用蜕变测试思想对神经机器翻译系统的翻译性能进行评估(例如RTT[22]、MCMT[23])或定位翻译错误的样本(例如SIT[25]、TransRepair[29]),主要关注翻译的正确性;而MGMT的主要目的是借助蜕变测试对神经机器翻译系统的整体鲁棒性进行评估,主要关注翻译的稳定性.具体来说,MGMT与RTT[22]、MCMT[23]、MT4MT[24]都基于蜕变测试对神经机器翻译系统进行整体性评估且不需要参考译文,RTT[22]、MCMT[23]、MT4MT[24]基于单一蜕变关系来评估翻译质量,但MGMT旨在以合理的方式评估翻译系统鲁棒性,因此使用了3种符合翻译直觉的蜕变关系(具体细节可参考第3.2节中的蜕变关系定义).MGMT中短语和单词粒度的测试样本生成思路受SIT[25]和TransRepair[29]的启发,用替换的方式生成测试样本,但SIT[25]的目的是尽可能地发现更多的翻译错误,因此采用了尽可能多且独立于替换方法的相似度计算方法,而MGMT为确保鲁棒性评估的合理性,采用了一一对应的替换方法和相似度计算方法.3 多粒度的蜕变测试框架在本节中,首先介绍框架的整体架构和测试流程(见第3.1节).其次介绍框架中的主要模块设计,包括句子粒度、短语粒度、单词粒度上的蜕变关系定义(见第3.2节).之后介绍MGMT框架中如何选择待替换成分并进行成分替换(见第3.3节)以及如何进行各粒度上的相似度计算(见第3.4节).3.1 整体架构本文提出的面向神经机器翻译系统的多粒度蜕变测试框架MGMT大致可分为3个部分.图3展示了从源语句输入到蜕变关系判定结果输出的主要流程.(1) 选择源语句中的待替换成分.根据MGMT中定义的蜕变关系(见第3.2节),对源语句进行句子、短语、单词粒度的替换.因此,首先要在3个粒度上选择源句子中需要替换的成分.在MGMT的设计中,源句子在句子粒度上的待替换成分即为整个句子.接着进行待替换单词和待替换短语的选择.我们对源语句进行成分句法分钟文康 等:面向神经机器翻译系统的多粒度蜕变测试 1055 析,得到句子的成分句法分析树,再使用DeepSelect 算法(见第3.1.1节)在成分句法分析树上进行选择.在图3所示的例子中,我们根据分析树选择了一个NNP(proper noun,singular)词性单词作为待替换单词和一个ADJP (adjective phrase)词性短语作为待替换短语.(2) 对源语句进行成分替换.句子粒度上的替换基于RTT [22]思想.RTT 包含正译(forward translation,简称FT)和回译(backward translation,简称BT),正译是指将文本从源语言翻译到目标语言,回译是指将正译得到的翻译结果翻译回源语言.我们先将源语句正译到目标语言,再回译到源语言以得到句子粒度的替换结果.短语粒度和单词粒度上的替换基于BERT 遮蔽语言模型[26].本文将上面(1)中选中的待替换单词和短语用遮蔽词替代,再输入BERT 遮蔽语言模型中,该模型可以根据句子的语境预测被遮蔽位置的词.最后用预测出的结果替换源句子中相同位置的单词和短语以得到短语粒度和单词粒度的替换结果.(3) 翻译并对翻译结果进行相似度计算.将源语句连同上面(2)中3个粒度的替换语句输入到神经机器翻译系统中得到4个目标语言翻译结果,并分别对3个粒度上的替换语句和源语句的翻译结果进行相似度计算.在句子粒度上,根据编辑距离[12]分别计算源语言句子对和目标语言句子对的相似度.在短语和单词粒度上,考虑到选择待替换成分是基于成分结构分析树的,因此在计算目标语言句子对相似度时也基于句子的成分结构分析树.最后根据相似度计算结果判断是否满足MGMT 定义的蜕变关系(见第3.2节).Fig.3 Process of multi-granularity metamorphic testing framework图3 多粒度蜕变测试框架的流程3.2 蜕变关系定义为了利用蜕变测试对神经机器翻译系统进行合理的翻译鲁棒性评估,在本节中我们定义了句子、短语和单词3个粒度的蜕变关系.这3个蜕变关系的定义基于对翻译任务的常理性推断.句子粒度的蜕变关系基于:源语句的直译结果与源语句经过多轮翻译得到的翻译结果应该接近.短语和单词粒度的蜕变关系基于:改变源语句中的一小部分,那么源语句其他部分的翻译结果应该不变.下文第3.2.1节、第3.2.2节和第3.2.3节分别详细介绍句子、短语、单词粒度的蜕变关系定义及判定方法.3.2.1 句子粒度蜕变关系RTT [22]是在没有参考译文情况下的一种常用机器翻译系统测试手段.其测试流程是首先将源语言正译成1056 Journal of Software 软件学报 V ol.32, No.4, April 2021 目标语言,再将目标语言翻译结果回译到源语言,最后通过比较两个源语言句子来评估机器翻译系统的质量.本文在RTT“正译-回译”流程的基础上添加1次正译,由此定义了句子粒度的蜕变关系MR sl .定义1(句子粒度蜕变关系MR sl ). 设源语言句子为S ,将S 经过神经机器翻译系统正译得到目标语言翻译结果S t ,再将S t 通过神经机器翻译系统回译到源语言得到翻译结果S 1,最后将S 1通过神经机器翻译系统再一次正译到目标语言得到S t 1,那么S 、S 1、S t 、S t 1应满足:11(,)/(,)1t t Similarity S S Similarity S S ≥ (1)公式(1)的含义是,用目标语言句子对与源语言句子对相似度的比值来评估基于句子粒度的翻译鲁棒性,目的是排除回译对实验的影响.MGMT 框架实际评估的是神经机器翻译系统在源语言到目标语言翻译(正译)上的翻译鲁棒性,然而句子粒度的替换过程(如图3所示)涉及到一次回译.回译采用的神经机器翻译模型是与正译采用的神经机器翻译模型相互独立的,因此在回译阶段产生的翻译错误会影响第2次正译.例如,在某次测试过程中,正译的翻译质量极高而回译的翻译质量很低,直接以Similarity (S ,S 1)或Similarity (S t ,S t 1)评估翻译质量都会导致评估值远高于真实值.因此,我们在公式(1)中用Similarity (S t ,S t 1)/Similarity (S ,S 1)作为翻译质量的评估值,意在为低质量的回译过程增加一个补偿因子:如果某次回译过程翻译质量较差(Similarity (S ,S 1)较小),那么正译翻译质量分数应得到部分补偿(即Similarity (S t ,S t 1)/Similarity (S ,S 1)的值会增大);若回译过程翻译质量较好(即Similarity (S ,S 1)接近1),那么翻译鲁棒性的真实值也更接近目标语言句子对的相似度Similarity (S t ,S t 1),而此时公式(1)中的评估值Similarity (S t ,S t 1)/Similarity (S ,S 1)也更接近Similarity (S t ,S t 1).3.2.2 短语粒度蜕变关系一个句子由单词构成,不同的单词能够组成不同的短语结构.以英文句子为例,短语结构可分为名词性短语(noun phrase,简称NP)、动词性短语(verb phrase,简称VP)、介词性短语(prepositional phrase,简称PP)、副词性短语(adverb phrase)等.将源句子中某个短语结构替换为另一个近似的短语结构之后,源句子和替换后句子经过神经机器翻译系统翻译得到的翻译结果的结构应该相同.本文由此定义了短语粒度的蜕变关系MR pl .定义2(短语粒度蜕变关系MR pl ). 设源语句为S ,替换S 中的某个短语产生结构相似的替换语句S p .再将S 和S p 通过神经机器翻译系统翻译到目标语言得到结果S t 和S pt .那么,S t 和S t 应满足:(,)1t pt StructureSimilarity S S = (2)公式(2)的含义是源语句S 和短语替换语句S p 经过神经机器翻译系统的翻译结果S t 和S pt 在结构上应该相同.本文用基于成分句法分析树的相似度计算方法(见第3.3.3节)来计算S t 和S pt 的结构相似度.结构相似度的取值范围在0~1之间,取值为0时,说明两个句子的句法分析树结构完全不同,取值为1时,说明两个句子的句法分析树结构完全相同.3.2.3 单词粒度蜕变关系一个句子由单词构成,不同的单词有着不同的词性,处在不同的句子结构块中.将源句子中的某个单词替换为相同上下文的近似单词,那么源句子和替换后的句子的翻译结果在结构上应该相同.本文由此定义了单词粒度的蜕变关系MR wl .定义3(单词粒度蜕变关系MR wl ). 设源语句为S ,替换S 中某个单词产生结构相似的替换语句S w ,再将S 和S w 通过神经机器翻译系统翻译到目标语言得到结果S t 和S wt .那么,S t 和S wt 应满足:(,)1t wt StructureSimilarity S S = (3)公式(3)的含义是源语句S 和单词替换语句S w 经过神经机器翻译系统得到的翻译结果S t 和S wt 在结构上应该相同.同样,我们用基于成分句法分析树的相似度计算方法(见第3.3.3节)来计算S t 和S wt 的结构相似度.结构相似度的取值范围为0~1,取值为0时,说明两个句子的句法分析树结构完全不同,取值为1时,说明两个句子的句法分析树结构完全相同.3.3 替 换3.3.1 选择待替换成分根据MGMT 定义的蜕变关系(见第3.2节),对于一个测试样本要在3个粒度上进行基于替换的蜕变测试,钟文康 等:面向神经机器翻译系统的多粒度蜕变测试1057 因此首先要在句子、短语、单词3个粒度上选择源语句中要被替换的成分.句子粒度的待替换成分即整个源句子.短语和单词粒度的待替换成分是句子中的某个短语和单词.在MGMT 中,基于源句子的成分句法分析树来选择短语和单词粒度的待替换成分.图4展示了一个英文句子经过BerkeleyParser [30]得到的成分句法分析树.可以看到,句子根据单词词性和短语词性被组织成树状结构.成分句法分析树的节点都是由句子中的单词构成的,每一棵子树都是某几个单词的组合.那么在句子中选择一个词或一个短语,就等价于在句法分析树中选择到达某棵子树的路径.基于以上特点,本文设计了一种基于成分句法分析树的选择算法DeepSelect 来在短语粒度和单词粒度上选择要替换的成分.算法1. DeepSelect.输入:源语句Sentence ,候选集大小Candidatenum ,短语词性集合PhrasePOS ;输出:待替换路径finalpath .1. 建立待替换路径的候选集Candidates ,初始化为空集2. Tree =BerkeleyParser (Sentence )3. 遍历Tree ,将Tree 中的每一条路径(包含子路径)加入路径集合PathSet 并将PathSet 中的元素按路径长度降序排列4. if 当前粒度为单词粒度 then5. for each path in PathSet do6. if length (Candidates )<Candidatenum then7. Candidates.append (path )8. elif 当前粒度为短语粒度 then9. for each path in PathSet dopath in PathSet10. if length (Candidates )>Candidatenum and Tree [path ] in phrasePOS then11. Candidates.append (path )12. Finalpath=random.choose (Candidates )13. return FinalpathDeepSelect 算法旨在选择句子在短语和单词粒度下的待替换成分.首先,采用BerkeleyParser [30]句法分析器来生成句子的成分句法分析树.由于处在成分句法分析树较深路径的节点的粒度一般较小,选择这些节点更符合MGMT 的蜕变关系定义(见第 3.2节),因此我们将句法分析树中的路径按从长到短排序收集到路径集合PathSet 中.接着,在单词粒度下,我们直接往候选集中添加Candidatanum 条路径;在短语粒度下还需进行一个额外判断,要求路径节点的词性必须是短语结构型.最后,为了保证路径选择的公平性,算法随机从候选集中选择一条路径作为最终的待替换路径.3.3.2 成分替换句子粒度的成分替换采用的是基于往返翻译的方法.首先将源句子输入神经机器翻译系统得到目标语言的直译结果,再将直译结果输入翻译系统翻译回源语言,这样就得到了一个句子粒度的替换语句.短语粒度和单词粒度的成分替换采用的是BERT [26]遮蔽语言模型.BERT 模型是一个非常成功的自然语言理解模型,在很多自然语言处理任务中通过微调都能达到SOTA(state of the art)效果.在BERT 中每个词的词向量不是唯一的,而是与词的上下文相关,因此,通过BERT 可获得符合句子语义的词向量.模型主要通过遮蔽词预测和下一句预测这两个任务来进行训练.其中,遮蔽词预测是指将一个句子中15%的词遮蔽,把预测这些被遮蔽 Fig.4 Example of constituency parse tree 图4 成分句法分析树示例。
百度和有道翻译质量对比——以商务英语文本英译中为例
百度和有道翻译质量对比——以商务英语文本英译中为例摘要:百度和有道推出的在线机器翻译系统是国内当前两大主流机器翻译平台,各有千秋,现已广泛应用于人们的日常生活乃至翻译行业当中。
为探讨这两个平台的翻译质量孰优孰劣,该文从商务英语中的信函和法律文本两方面,分别从内容完整性、准确性、逻辑性、用语规范性及译文字数等角度,对这两个平台提供的译文进行对比分析并得出结论:在商务英语本文的句子翻译中,相较于百度翻译,有道翻译在遣词造句及风格还原上更胜一筹。
关键词:机器翻译;有道;百度;商务英语;译文质量中图分类号:G355引言在经济全球化日益加深的今天,跨语言沟通对身处世界各地的人来说都变得愈发重要。
而另一方面,语言障碍已成为社会发展的重要瓶颈。
在人类不断探索清除语言障碍,重建“巴别塔”的进程中,曾有人提出使用人类通用语(Linguafranca)来替代各种不同语言的想法。
而事实上,这样的想法似乎难以实现。
为了扫除语言障碍,人类已另辟蹊径,依靠科技的力量,提出机器翻译的概念。
如今,机器翻译在跨语言交流活动中扮演着日益重要的角色。
1机器翻译1.1机器翻译的概念机器翻译(Machine Translation, MT)属于计算语言学的一个分支,它是指在有或无人工辅助的情况下能将文本从一种语言自动翻译成另一种语言的计算机系统,[1][2]其有别于帮助译者准确、快速工作,依靠术语数据库和翻译记忆的计算机辅助翻译(Computer Aided Translation, CAT)[3]。
作为一门交叉学科,机器翻译融合了计算机科学、信息学、语言学、统计学等多个学科,具有多学科研究视角和跨学科研究价值[4]。
1.2机器翻译的发展与现状机器翻译这一概念始于1947年[3],其发展主要经历了三个阶段,即从规则驱动,到统计驱动,再到神经网络驱动的发展进程[5]。
第一阶段:基于规则的机器翻译(Rule-based Machine Translation, RMT),其高度依赖于规则库与语料库的建构,在20世纪90年代前主导着机器翻译发展研究方向[6];第二阶段:统计机器翻译(Statistical Machine Translation, SMT),在这一阶段,语料库的读取集中于模型建构的前端而非处理翻译任务的过程,因为双语文本的转换基于统计概率而非对语料库的机械依赖[7];第三阶段:神经网络机器翻译(Neural Machine Translation, NMT),始于2014年谷歌与蒙特利尔大学成功搭建首个神经网络翻译模型,其通过算法模拟搭建人类大脑中的神经元结构,依靠计算机按照“编码—解码”模式实现从源语到目标语的生成过程[8]。
翻译方式的变化英语作文
翻译方式的变化英语作文Title: Evolution of Translation Methods。
Translation is an intricate process that bridges linguistic and cultural gaps between different languages. Over the years, the methods and techniques employed in translation have evolved significantly, reflecting advancements in technology, changes in cultural norms, and shifts in linguistic theories. In this essay, we will explore the evolution of translation methods and their impact on the field of linguistics.1. Traditional Translation Methods:In the past, translation primarily relied on manual methods carried out by bilingual individuals or small groups of translators. These translators possessed a deep understanding of both the source and target languages and often worked meticulously to ensure accuracy and fidelity to the original text. Traditional methods involvedextensive use of dictionaries, glossaries, and linguistic expertise to convey meaning effectively.2. Introduction of Machine Translation:The emergence of computers and computational linguistics in the mid-20th century revolutionized thefield of translation. Machine translation (MT) systems were developed to automate the process of translating text from one language to another. Early MT systems, such as rule-based and statistical approaches, faced limitations in accurately capturing nuances and idiomatic expressions, leading to translations that were often stilted and unnatural.3. Statistical Machine Translation (SMT):SMT, which gained prominence in the late 20th century, relied on statistical models trained on large corpora of parallel texts. These models learned to generate translations based on patterns observed in the data. While SMT improved translation quality compared to earliermethods, it still struggled with context-dependent ambiguity and syntactic structures, resulting in translations that lacked fluency and coherence.4. Neural Machine Translation (NMT):The advent of neural networks and deep learning in the 21st century heralded a new era in machine translation. NMT systems, powered by artificial neural networks, can capture complex linguistic patterns and context more effectively than previous approaches. By processing entire sentences or phrases at once, NMT models produce translations that are often more fluent and contextually accurate.5. Hybrid Approaches:In recent years, hybrid approaches combining the strengths of rule-based, statistical, and neural methods have gained traction in the translation industry. These approaches leverage the rule-based systems' ability to handle specific linguistic rules, statistical models'proficiency in handling large-scale data, and neural networks' capacity to capture context and semantics.6. Crowdsourced Translation:Another notable trend in translation methodology is crowdsourcing, where translations are generated collaboratively by a community of individuals rather than by professional translators alone. Platforms like Wikipedia and TED rely on crowdsourced translations to make content accessible to a global audience. While this approach can enhance translation diversity and speed, it may also lead to inconsistencies and inaccuracies due to varying levels of proficiency among contributors.7. Post-Editing and Quality Assessment:With the proliferation of machine translation systems, the role of human translators has evolved to include post-editing—reviewing and refining machine-generated translations for accuracy and naturalness. Quality assessment tools, such as BLEU (BilingualEvaluation Understudy) and METEOR (Metric for Evaluation of Translation with Explicit Ordering), help evaluate the performance of machine translation systems and guide improvements in their algorithms.8. Ethical and Cultural Considerations:As translation technologies continue to advance, ethical and cultural considerations become increasingly important. Translators and developers must navigate issues such as preserving cultural nuances, avoiding biases in training data, and respecting privacy and confidentiality in multilingual communication.In conclusion, the evolution of translation methods—from traditional manual approaches to sophisticated neural machine translation—has reshaped the landscape oflinguistic exchange. While machine translation offers unprecedented efficiency and scalability, human expertise remains indispensable in ensuring accurate and culturally sensitive translations. As technology continues to evolve, the field of translation will likely witness furtherinnovation, blurring the boundaries between human and machine intelligence in language processing.。
moses评估指标
moses评估指标Moses(Machine Translation Evaluation System)是一个被广泛使用的机器翻译评估指标。
它通过比较机器翻译输出和人工参考翻译之间的差异来对机器翻译的质量进行评估。
下面将对Moses的评估指标进行详细说明。
一、BLEU(Bilingual Evaluation Understudy)BLEU是Moses中最常用的评估指标之一、它通过计算机翻译输出与多个参考翻译之间的n-gram重叠来评估翻译质量。
BLEU将翻译准确性指标化为一个0到1之间的数值,越接近1表示机器翻译质量越高。
二、NIST(Normalized Information-based Metric)NIST是另一个常用的评估指标,它基于信息论和归一化模型,通过计算机翻译输出与参考翻译之间的n-gram重叠,以及n-gram预测概率的对数来评估机器翻译的质量。
NIST对长句子有一定的惩罚,更适合评估长句的翻译质量。
三、WER(Word Error Rate)WER是一种基于单词级别的评估指标,用于计算机翻译输出与参考翻译之间的单词差异。
它通过计算插入、删除和替换操作的数量来度量机器翻译质量,最终以错误率的形式表示。
WER越低表示机器翻译质量越高。
四、PER(Position-independent Error Rate)PER也是一种基于单词级别的评估指标,与WER类似,但它不考虑错误出现的位置。
与WER相比,PER更适合评估句子中单词顺序错乱的机器翻译。
五、TER(Translation Edit Rate)六、METEOR(Metric for Evaluation of Translation withExplicit Ordering)METEOR是一种综合评估指标,它结合了单词重叠率、单词词义相似性、单词顺序、词形变化等因素。
METEOR使用了多个特征,并根据特征之间的重要程度加权综合得出最终评分。
bleu 评价指标
bleu 评价指标Bleu, which stands for Bilingual Evaluation Understudy, is a commonly used metric for evaluating the quality of machine translation outputs. It was proposed by researchers at IBM in 2002 and has since become a widely accepted standard in the field of natural language processing. Bleu measures the similarity between an automatic translationand one or more reference translations by comparing the n-grams (contiguous sequences of n words) in the translations.One perspective on Bleu is that it provides a quick and easy way to assess the quality of machine translation systems. By comparing the n-grams in the automatic translation with those in the reference translations, Bleu can give a numerical score that indicates how well the translation captures the meaning of the original text. This allows researchers and developers to compare different systems and track improvements over time.Another perspective is that Bleu has limitations andmay not always reflect the true quality of a translation. One limitation is that Bleu only considers the n-grams in the translations and does not take into account the overall fluency and coherence of the text. This means that a translation can score well on Bleu even if it contains grammatical errors or awkward phrasing. Additionally, Bleu does not consider the semantic accuracy of the translation, which can be crucial for certain applications.Furthermore, Bleu has been criticized for its reliance on reference translations. Since the quality of reference translations can vary, Bleu scores can be influenced by the choice of references. This means that two translations that are equally accurate and fluent may receive different Bleu scores simply because they were compared against different references. This can make it difficult to compare systems or track progress accurately.Despite its limitations, Bleu remains a popular metric due to its simplicity and widespread use. It provides a standardized way to evaluate machine translation systems and has been instrumental in advancing the field. However,it is important to use Bleu in conjunction with other evaluation metrics and to interpret its scores with caution, taking into account its limitations and potential biases.In conclusion, Bleu is a valuable tool for evaluating the quality of machine translation systems. It offers a quick and standardized way to compare differenttranslations and track improvements over time. However, itis important to recognize its limitations, such as itsfocus on n-grams and its dependence on reference translations. By using Bleu in conjunction with other metrics and considering its shortcomings, researchers and developers can gain a more comprehensive understanding of the quality of machine translations and make informed decisions to improve their systems.。
人工智能机器翻译的研究与改进方法
人工智能机器翻译的研究与改进方法人工智能机器翻译(Artificial Intelligence Machine Translation,简称AI-MT)作为一种自动化翻译技术,可以帮助快速准确地实现不同语言之间的互译。
在过去的几十年中,AI-MT经历了巨大的发展和改进。
本文将就人工智能机器翻译的研究与改进方法进行探讨。
一、机器翻译的发展历程机器翻译的发展经历了从基于规则的方法到统计机器翻译(Statistical Machine Translation,简称SMT)再到当前的神经网络机器翻译(Neural Machine Translation,简称NMT)的演变过程。
在基于规则的方法中,翻译系统是基于专家提供的知识和语法规则进行翻译,但由于人类语言的复杂性,这种方法往往无法做到准确翻译。
随着统计机器翻译的出现,翻译系统不再依赖于专家的知识,而是通过对大规模的双语平行语料进行统计分析来进行翻译。
这种方法在一定程度上提高了翻译的准确性,但仍然存在一些问题,比如对长距离的依赖性不够好,容易产生歧义。
神经网络机器翻译的出现给机器翻译带来了重大突破。
NMT采用了深度学习技术,通过建立多层神经网络模型来进行翻译。
与SMT相比,NMT在翻译质量、语义理解和表达能力上有了显著提高,已成为当前主流的机器翻译方法。
二、研究方向与方法1. 神经网络的改进神经网络机器翻译的核心是神经网络模型,因此改进神经网络模型是提高机器翻译质量的重要研究方向之一。
可以通过改进神经网络结构、调整网络深度和宽度、引入注意力机制等方式来提升机器翻译的性能。
2. 数据增强在神经网络机器翻译中,数据是训练模型的基础。
丰富多样的数据可以提高模型的泛化能力,进而提高翻译质量。
数据增强的方法包括通过同义词替换、句子重排列、生成合成数据等手段来增加训练数据的多样性和数量,从而改善翻译结果。
3. 语言模型的应用语言模型在机器翻译中起着重要作用。
通过改进语言模型,可以更好地处理上下文信息,提高翻译的准确性和流畅性。
智能翻译的工作原理
智能翻译的工作原理智能翻译,又称机器翻译(Machine Translation,MT),是指通过计算机程序自动将一种自然语言的表达形式转换为另一种语言的表达形式。
其工作原理基于自然语言处理(Natural Language Processing,NLP)和机器学习(Machine Learning)等技术,可以大大提高翻译效率和准确性。
基本原理智能翻译的工作原理主要包括以下几个步骤:1.分词与词性标注(Word Segmentation and Part-of-Speech Tagging):首先,将输入的句子进行分词,将句子拆分成一个个单词或标点符号,并为每个单词确定其词性。
这个步骤的目的是对输入的文本进行初步的处理,方便后续的处理和分析。
2.句法分析(Syntactic Parsing):根据每个单词的词性和语法规则,对输入的句子进行句法分析,确定词与词之间的依存关系。
通过建立一个句法树或依存图,可以更好地理解句子的结构和含义。
3.语义分析(Semantic Analysis):在已经进行了句法分析的基础上,进一步对句子的语义进行分析。
这一步通常包括词义消歧、指代消解等任务,旨在准确理解句子中每个单词(或短语)的含义以及彼此之间的关系。
4.翻译模型(Translation Model):基于已有的语料库和机器学习技术,构建一个翻译模型,即将源语言句子翻译为目标语言句子的模型。
这个模型可以是基于规则的,也可以是基于统计的或神经网络的。
–基于规则的翻译模型主要依靠人工编写的规则库,规定了源语言词组与目标语言词组之间的对应关系。
这种方法简单易懂,但对规则的覆盖面有一定的限制。
–基于统计的翻译模型则基于大量的平行语料,在源语言和目标语言之间进行统计分析,选择最有可能的翻译结果。
这种方法能够通过大数据进行学习,提高翻译的准确性和自然度。
–基于神经网络的翻译模型则利用深度学习技术,通过神经网络结构对源语言和目标语言之间进行映射,从而实现翻译功能。
英语翻译软件翻译准确性矫正算法设计
英语翻译软件翻译准确性矫正算法设计黄登娴【摘要】传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析,获取英语语言的句法结构,使得翻译任务间存在的错误迭代传递、结构化实例准确性降低,导致英语语言文学翻译准确性降低.因此,对英语语言文学中的机器翻译准确性方法进行校对研究.设计基于知网的词汇语义相似度以及对数线性模型,采用汉英依存树到串的方式保存对应的双语语料,对源语言端实施依存结构化处理,确保汉英双语的对应关系,通过知网运算输入需要翻译句子(依存树结构)同实例库内源语言(依存树结构)中词汇的语义相似度.描述了机器翻译中相似实例检索模块以及译文生成模块的实现过程,通过面向数据的翻译模型进一步校对英语语言的准确翻译.实验结果表明,所提方法可得到准确率高的译文,具有较高的准确性和稳定性.【期刊名称】《现代电子技术》【年(卷),期】2018(041)014【总页数】4页(P170-172,177)【关键词】英语翻译软件;机器翻译;翻译准确性;语义相似度;矫正算法;迭代传递;依存树结构【作者】黄登娴【作者单位】中国民用航空飞行学院,四川广汉 618300【正文语种】中文【中图分类】TN912.3-34;TP391.2机器翻译是自然语言操作范围中的关键,具有较高的应用价值。
依据实例的机器翻译是一种经验主义的英语语言文学翻译策略,其无需复杂的深层次语法以及语义的分析,提高了英语语言翻译的效率。
但是基于实例的机器翻译方法对实例库质量的要求较高[1]。
传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析,获取英语语言的句法结构,使得翻译任务间存在的错误迭代传递、结构化实例准确性降低,导致英语语言文学翻译准确性降低。
针对该问题,本文研究了英语语言文学中的机器翻译准确性方法,塑造并实现基于汉英依存树串实例的机器翻译系统,提高了英语机器翻译的准确性。
1 基础算法与模型1.1 依存树到串模型依存树到串的模型为<D,S,A>,<D,S>是一个翻译对,D表示源语言的依存树,S表示源语言的目标词语串,A用于描述D与S间的词对齐关系[2-3],依据依存树到串双语对齐模型的实例如图1所示。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Most efforts have focused on strategies for computing some kind of similarity score between the output of an MT system and one or more reference translations. Early approaches to scoring a “candidate” text with respect to a reference text were based on the idea that the similarity score should be proportional to the number of matching words (e.g. Melamed, 1995). Another idea is that matching words in the right order should result in higher scores than matching words out of order (e.g. Brew & Thompson, 1994; Rajman & Hartley, 2001).
The MMS ranges from zero to the length of the shorter bitext axis. We can divide the MMS by the
As a first approximation, suppose we were not interested in giving more credit for correct word order. A na¨ıve approach to computing |X ∩ Y| would be to count the number of hits in the grid. However, this algorithm runs the risk of double-counting, for example by awarding two hits for the single B in the candidate in Figure 1.
|X ∩ Y|
|X ∩ Y|
precision(Y|X) = |Y| ; recall(Y|X) = |X|
(1)
candidate text
E D C
I A
B C
H AB C D E F B A I C reference text
Figure 1: Computation of the maximum match size, using either unigrams or aligned blocks.
might be useful for comparing the relative quality of different MT outputs, it is difficult to gain insight from such measures. What does a BLEU score of 0.016 mean?
Both functions are proportional to |X ∩ Y|, the size of the set intersection in their numerator. The main challenge in adopting these well-known measures for evaluation of MT systems is finding an appropriate definition for the intersection of a pair of texts.
Evaluation of Machine Translation and its Evaluation
Joseph P. Turian, Luke Shen, and I. Dan Melamed
Computer Science Department New York University
{turian,ls750,melamed}@
2.1 Unigram-Based Measures
The intersection of two items is what they have in common. A bitext grid can show what two texts have in common. Figure 1 shows an hypothetical reference text on the X axis and an hypothetical candidate text on the Y axis. Whenever a cell in the grid co-ordinates two words that are identical, we place a bullet in it, and call it a hit.
Abstract
Evaluation of MT evaluation measures is limited by inconsistent human judgment data. Nonetheless, machine translation can be evaluated using the well-known measures precision, recall, and the F-measure. The F-measure has significantly higher correlation with human judgments than recently proposed alternatives. More importantly, the standard measures have an intuitive graphical interpretation, which can facilitate insight into how MT systems might be improved. The relevant software is publicly available from /GTM/.
Perhaps the simplest version of the same idea is that a candidate text should be rewarded for containing longer contiguous subsequences of matching words. Papineni et al. (2002) recently reported that a particular version of this idea, which they call “BLEU,” correlates very highly with human judgments. Doddington (2002) proposed another version of this idea, now commonly known as the “NIST” score. Although the BLEU and NIST measures
To avoid double-counting, we borrow the concept of “maximum matching” from graph theory (Cormen et al., 2001, pg. 1051). A matching is a subset of the hits in the grid, such that no two hits are in the same row or column. The match size of a matching is the number of hits in the subset. A maximum matching is a matching of maximum possible size for a particular bitext.1 The maximum match size (MMS) is the size of any maximum matching. For example, the hits that are in the shaded region of Figure 1 are a maximum matching, so the MMS is 7.
• The correlation between human judgments of MT quality is surprisingly low.
• Therefore, not surprisingly, the correlation between human judges and all automatic measures of MT quality is also quite low, contrary to Papineni et al. and Doddington.
1 Introduction
In the early 1990s, the U.S. government sponsored a competition among machine translation (MT) systems. One of the valuable outcomes of that enterprise was a corpus of manually produced numerical judgments of MT quality, with respect to a set of reference translations (White et al., 1993). The relatively high cost of producing such judgments and the benefits of objective evaluation have encouraged many researchers to seek reliable methods for estimating such measures automatically.