翻译质量自动评价研究综述
评价机器翻译的自动评价指标研究
评价机器翻译的自动评价指标研究机器翻译自动评价指标是机器翻译领域中非常重要的研究方向之一。
机器翻译的目标是将一种语言翻译成另一种语言,这是一项非常困难的任务,因为语言是非常复杂的。
机器翻译自动评价指标可以帮助我们评估机器翻译的质量,进一步改进机器翻译的算法。
在这篇文章中,我们将评价机器翻译的自动评价指标研究。
1. 机器翻译的自动评价指标简介机器翻译的自动评价指标可以帮助我们评估机器翻译的质量。
常见的自动评价指标包括BLEU、NIST、TER、WER等。
BLEU是一种广泛使用的自动评价指标,它基于n-gram匹配来度量译文与参考译文之间的相似性。
NIST评价指标是一种基于n-gram的指标,它与BLEU指标相似,但是使用了不同的权重。
TER评价指标是一种编辑距离的度量,它计算译文与参考译文之间的编辑距离。
WER评价指标是一种字级别的编辑距离度量,它计算译文与参考译文之间的错误率。
2. BLEU指标BLEU指标是一种基于n-gram的度量方法,它通过计算参考译文和机器翻译之间的n-gram匹配来评估翻译的质量。
BLEU指标的计算方法如下:其中,Pn是n-gram的精度,BP是基于翻译长度的惩罚因子。
BLEU指标的优势在于它简单易用,而且针对不同的n-gram可以得到不同的结果。
但是,它也存在一些缺陷,比如不能够处理稀有词和长句子,而且它假设越长的n-gram匹配越重要。
3. NIST指标NIST指标是一种基于n-gram的评价指标,它与BLEU指标类似,但是使用了不同的权重。
NIST指标的计算方法如下:其中,NISTn是n-gram的精度,w(n)是权重因子。
NIST指标的优势在于它可以根据语料库的不同自适应调整权重因子,而且它考虑了n-gram出现的频率。
但是,它也存在一些问题,比如它对于稀有词和长句子的处理能力不够。
4. TER指标TER指标是一种编辑距离的度量方法,它计算机器翻译和参考译文之间的编辑距离。
机器翻译中的自动评价指标研究
机器翻译中的自动评价指标研究随着人工智能技术的不断发展,机器翻译在日常生活和工作中扮演着越来越重要的角色。
在这个过程中,如何准确评价机器翻译的质量成为了一个亟待解决的问题。
本文将对机器翻译中的自动评价指标进行深入研究,探讨其在提高翻译质量、评估翻译结果准确性等方面的作用和局限性。
一、引言随着全球化进程的不断加快,跨语言交流变得越来越普遍。
在这种背景下,机器翻译作为一种快速、高效的翻译工具受到了广泛关注。
然而,由于不同语言之间的语法结构、词汇表达方式等差异,机器翻译仍然存在一定的局限性,难以做到百分之百的精准翻译。
因此,如何评价机器翻译的质量成为了一个迫切需要解决的问题。
二、相关工作在机器翻译领域,评价翻译质量的方法主要可以分为人工评价和自动评价两种。
人工评价需要由专业人员进行,在翻译质量和效率方面具有一定的优势,但成本较高且存在主观因素。
而自动评价则是通过计算机程序对翻译结果进行评估,减少了人力和时间成本,同时也可以实现大规模的翻译评价。
在自动评价方法中,BLEU、TER、METEOR等指标被广泛应用于机器翻译系统的评价中。
这些指标主要基于 n-gram 模型计算翻译结果和参考答案之间的相似度,从而评估翻译质量的好坏。
然而,由于这些指标忽视了语义和上下文的信息,存在一定的局限性,难以完全准确地评价翻译质量。
三、自动评价指标研究现状随着深度学习和自然语言处理技术的发展,越来越多的研究者开始探索如何通过神经网络和深度学习模型来改进机器翻译的自动评价指标。
这些研究主要集中在以下几个方面:1. 基于神经网络的评价指标:一些研究通过训练神经网络模型来学习翻译结果之间的语义信息,从而更准确地评价翻译质量。
这种方法可以有效地提高评价指标的性能,但也存在模型训练成本高、数据需求大等问题。
2. 结合上下文信息的评价指标:为了解决传统评价指标忽视上下文信息的问题,一些研究开始探索如何将句子级别的上下文信息引入评价模型中。
商务英语翻译国内外研究综述
商务英语翻译国内外研究综述本文对商务英语翻译的国内外研究进行了综合性评述,概括了研究现状、方法、成果和不足之处。
通过对文献的搜集、整理和分析,总结了商务英语翻译的定义和特点、重要性和意义、研究现状、问题与挑战、研究方法以及成果与不足。
关键词:商务英语翻译,研究现状,研究方法,成果,不足。
随着全球化的不断发展,商务英语翻译在国际贸易和交流中发挥着越来越重要的作用。
本文旨在综述商务英语翻译在国内外的研究现状,包括研究方法、成果和不足,以期为进一步研究提供参考和启示。
商务英语翻译是将商务领域的语言、文化、惯例等因素转化为另一种语言的过程,以促进国际贸易和交流。
其特点主要包括专业性、跨文化性和交际性。
专业性指商务英语翻译涉及众多专业领域,如经济、法律、医学等;跨文化性指商务英语翻译需要在不同文化背景下进行沟通和理解;交际性则指商务英语翻译需要准确、流畅地传递信息,以实现有效的交流。
商务英语翻译在国际贸易和交流中具有重要意义。
准确、流畅的商务英语翻译能够提高贸易谈判和合作的成功率,促进双方建立良好的合作关系;商务英语翻译能够帮助企业更好地了解国际市场和竞争对手,为其制定正确的商业策略提供有力支持;商务英语翻译可以推动文化的传播和理解,增进不同国家之间的友谊和互信。
近年来,商务英语翻译研究得到了广泛。
国内外学者从不同角度对其进行了深入探讨,主要包括翻译理论、技巧与实践,跨文化交际,语用学等方面。
同时,随着技术的不断发展,计算语言学和人工智能在商务英语翻译领域的应用也逐渐成为研究热点。
尽管商务英语翻译研究取得了一定的成果,但仍存在一些问题和挑战。
商务英语翻译涉及的专业领域众多,对译者的综合素质要求较高;不同文化背景下的语言差异和惯例习俗也给商务英语翻译带来了一定的困难;在全球化背景下,商务英语翻译还面临着口音、方言、技术术语等方面的挑战。
目前,商务英语翻译的研究方法主要包括文献研究法、案例分析法、实证研究法等。
机器翻译质量评测算法-BLEU
机器翻译质量评测算法-BLEU机器翻译质量评测算法-BLEU什么是BLEU?为什么要用BLEU?BLEU的原理是什么?怎么使用BLEU?BLEU的优缺点?最后参考文章本文介绍机器翻译领域针对质量自动评测的方法-BLEU,让你理解为什么BLEU能够作为翻译质量评估的一种指标,它的原理是什么,怎么使用的,它能解决什么问题,它不能解决什么问题。
什么是BLEU?BLEU (Bilingual Evaluation Understudy) is an algorithm for evaluating the quality of text which has been machine-translated from one natural language to another. Quality is considered to be the correspondence between a machine’s output and that of a human: “the closer a machine translation is to a professional human translation, the better it is” – this is the central idea behind BLEU. BLEU was one of the first metrics to achieve a high correlation with human judgements of quality, and remains one of the most popular automated and inexpensive metric. – 维基百科机器翻译跟专业人工翻译专业人工翻译之间的对应关系,核心思想就文本评估算法,它是用来评估机器翻译解释一下,首先bleu是一种文本评估算法机器翻译越接近专业人工翻译,质量就越好,经过bleu算法得出的分数可以作为机器翻译质量的其中一个指是机器翻译越接近专业人工翻译,质量就越好标。
大语言模型在文本翻译中的质量比较研究
大语言模型在文本翻译中的质量比较研究目录一、内容综述 (2)1. 研究背景 (2)2. 研究目的与意义 (3)3. 文献综述 (4)二、大语言模型概述 (5)1. 大语言模型的定义与发展历程 (6)2. 大语言模型的主要技术特点 (6)3. 大语言模型的应用领域 (7)三、文本翻译质量评估方法 (8)1. 机器翻译质量评估方法概述 (9)2. 基于BLEU分数的评估方法 (11)3. 基于NIST分数的评估方法 (12)4. 基于人工评价的评估方法 (13)5. 各评估方法的优缺点分析 (14)四、大语言模型在文本翻译中的质量比较 (15)1. 不同大语言模型之间的质量对比 (17)2. 不同数据集上的质量表现 (18)3. 不同领域文本的翻译质量差异 (18)4. 与其他翻译系统的比较 (19)五、影响大语言模型翻译质量的因素分析 (20)1. 模型参数规模对翻译质量的影响 (21)2. 训练数据量对翻译质量的影响 (22)3. 训练数据多样性对翻译质量的影响 (23)4. 模型架构对翻译质量的影响 (24)5. 迁移学习策略对翻译质量的影响 (25)六、提高大语言模型翻译质量的策略探讨 (26)1. 数据预处理策略 (27)2. 模型优化策略 (28)3. 零样本翻译策略 (30)4. 交互式翻译策略 (31)5. 评估与反馈机制的建立 (32)七、结论与展望 (33)1. 研究总结 (33)2. 研究不足与局限 (34)3. 对未来研究的展望 (34)一、内容综述语义准确性:评估模型在翻译过程中是否能够准确传达原文的语义信息。
通常采用BLEU(Bilingual Evaluation Understudy)分数。
文化适应性:评估翻译结果是否适应目标语言的文化背景。
这涉及到对文化特定元素的识别和处理,如习语、俚语、典故等。
可读性:评估翻译结果的易读性和流畅性。
这包括词汇选择、语法结构、标点符号等方面的评价。
翻译机器评分的研究综述
m a r k e d b y m a n p o w e r . A s i t r e q u i r e s a l o t o f m a n p o w e r a n d r e s o u r c e s . s o m e r e s e a r c h i n s t i t u t e s t r y t o R & D a u t o m a t i c a l l y t r a n s l a t e d r a t i n g s y s t e m t o s u b s t i t u t e t h e m a n u a l t r a n s l a t i o n s c o r e s y s t e m . T h i S a r t i c l e m a i n l y
词库区域 内, 这个区域即为给分点的集合。 将此 词组与被测译文 2 翻译 自动评 价系统 设计
进行匹配, 在被测译文中会找 到一个 出现这组关键词几率较 大 在 这里设计 的是一个主要针对于C E T 考试翻译 模块的 自动
一种机器翻译自动评测方法及其系统[发明专利]
专利名称:一种机器翻译自动评测方法及其系统专利类型:发明专利
发明人:刘群,刘洋
申请号:CN200410000628.8
申请日:20040113
公开号:CN1641631A
公开日:
20050720
专利内容由知识产权出版社提供
摘要:本发明公开了一种机器翻译自动评测方法及其系统。
该方法在至少一篇参考译文中查找机器翻译系统的输出译文的匹配子片断,然后根据这些匹配子片断及其长度计算熵,以及计算长度惩罚系数和匹配比例惩罚系数,最后获得一个评分作为评价指标。
本发明的机器翻译自动评测系统包括子片断搜索模块、长度计算模块、长度惩罚模块、匹配比例惩罚模块和评测得分计算模块。
本发明的机器翻译自动评测方法及其系统可以准确评价译文质量,并且能够生成一个具有绝对意义的评价指标,而且在进行自动评测时不限制匹配子片断的长度。
申请人:中国科学院计算技术研究所
地址:100080 北京市海淀区中关村科学院南路6号
国籍:CN
代理机构:北京泛华伟业知识产权代理有限公司
代理人:王凤华
更多信息请下载全文后查看。
翻译研究的新范式认知翻译学研究综述
引言
随着全球环境的日益恶化和生态危机的加剧,生态翻译学作为一种新兴的翻译 理论,强调翻译过程中语言与生态的相互作用,正逐渐受到学术界的。为了进 一步推动生态翻译学的研究和发展,首届国际生态翻译学研讨会于近期成功召 开。本次演示将对本次研讨会的内容进行综述,旨在呈现与会者的研究成果和 新探索的方向,为读者提供参考。
3、研究方法应具有多样性,以满足生态翻译学理论的复杂性需求。
4、应进一步提高生态翻译学理论成果的应用价值,推动翻译事业的可持续发 展。
未来探讨的方向和建议
根据本次研讨会的成果和共识,本次演示提出以下建议和探讨方向:
1、深入研究生态翻译学的理论基础和实践应用,进一步明确其研究范畴、对 象和方法。
翻译研究的新范式——认知翻译学研究 综述
01 摘要
目录
02 引言
03 认知翻译学研究现状
04 认知翻译学研究不足
05 结论
06 参考内容
摘要
认知翻译学作为翻译研究的新兴领域,着重探讨翻译过程中认知活动的本质和 规律。本次演示对认知翻译学的研究现状、不足进行了综述,并提出了未来研 究的方向和建议。通过对认知翻译学基础理论、核心技术等方面的探讨,文章 指出认知翻译学具有重要的应用价值和前景。
2、加强与其他学科的对话和交流,促进跨学科合作和研究,共同推进翻译学 领域的全面发展。
3、全球环境问题和生态危机对翻译事业的挑战和机遇,将生态翻译学理论应 用于国际交流与合作中,促进全球文化的和谐发展。
4、拓展生态翻译学理论在教育、科技、文学等领域的应用,进一步丰富和完 善其理论体系。
5、培养生态翻译学领域的专业人才,加强学术团队建设,提高研究水平和质 量。
结论
首届国际生态翻译学研讨会为生态翻译学理论的深入探讨提供了平台,为进一 步推动生态翻译学的研究和发展奠定了基础。通过本次研讨会,与会者达成了 以下共识:
基于统计方法的多译本翻译质量评测
基于统计方法的多译本翻译质量评测张英贤;蒋跃;杨延龙【摘要】Based on various translation versions ofPride and Prejudice, this paper presents a statistic approach to evaluate comparatively the qualities of both machine translations (MT) and the human translations (HT) by using data retrieved from a large-scale questionnaire. With the combination of quantitative and qualitative analysis, several statistical concepts (means, standard variance, median, mode, extremum, skewness and kurtoness) are applied to measure the concentric tendency, distribution and discrete degree of the scores. Results show that MT could produce some translations of high qualities when rendering simple and short sentences. However, most MT scores are at the lower end of qualities and have a long way to go in comparison with HT. On the other hand, all the four human translations are normally distributed and no significant difference is found between them. The analysis of the restraints in literary translation reveals that the age factor has greater impact on translation. The textual information structure, the semantic meanings, and the styles of the source text, should be taken into account to adapt to the reading habit of target readers. Besides, a questionnaire, if necessary, can serve as an efficient method to evaluate qualities of translation and provide some reference to improve both MT and HT.%研究以《傲慢与偏见》的人机译本为例,使用问卷调查法和统计学的方法,试图寻找一种有效对比和评测机器翻译与人工翻译质量的方法。
英译汉语言质量自动量化研究_江进林
2013年2月February 2013第36卷第1期Vol.36No.1现代外语(季刊)Modern Foreign Languages (Quarterly )*本研究是国家社会科学基金项目“专用英汉互译机助评分系统的研制”(11CYY007)的部分成果,同时受到对外经济贸易大学优秀青年学者培育计划项目(2012YQ12)的资助。
1.引言主观题的自动评分是测试领域关注的一个焦点。
其基本方法是:利用语料库语言学、自然语言处理、信息检索等学科的知识和技术,可以从一批译文中提取多个反映译文质量的文本特征;以这些文本特征为自变量、人工评分为因变量,能够构建对译文质量具有较强预测力的多元回归方程;该方程可用于对同一题目的其他译文进行自动评分。
目前英语作文的自动评分研究已经比较成熟(Dikli 2006;Quellmalz &Pellegrino 2009;Williamson 2009;梁茂成2005)。
不过,这些成果不能机械地照搬到翻译质量评价中。
例如,已有研究发现文本长度能够预测作文质量,即文本越长,作文质量越高;而译文长度受到原文限制,长度指标对译文质量的预测作用可能并不明显。
因此,有必要单独构建适用于翻译的自动评分系统。
目前学生汉译英的自动评分研究已有较大的发展(如:王金铨2008;王金铨、文秋芳2009),而针对英译汉(评价对象为汉语)的研究仍处于起步阶段(江进林、文秋芳2010)。
由于汉语的词汇缺乏形态变化,语篇衔接以隐性居多(刘宓庆2006),自然语言处理技术也落后于英语,其形式特征的提取存在一定的困难。
本文拟探讨英译汉自动评分研究的难点,即译文语言形式质量的自动量化方法,并使用三种文体、近千篇译文验证其有效性。
2.语言形式质量自动量化指标本研究拟提取字词、句子、篇章三个层面的语言形式量化指标。
由于翻译需要依据原文,这些指标不是译文内的原始数量,而是依据最佳译文集提取,采用译文变量与最佳译文集中相同变量的差值绝对值。
智能翻译系统翻译准确度评估说明
智能翻译系统翻译准确度评估说明智能翻译系统是指能够将一种自然语言的文本准确翻译成另一种自然语言的系统。
在现代社会中,智能翻译系统起到了十分重要的角色,帮助人们打破语言障碍,促进各种交流和合作。
然而,智能翻译系统的翻译准确度一直以来都是一个关键的问题。
翻译准确度的评估是为了了解智能翻译系统的性能和效果,针对其中的问题进行改进和优化。
评估智能翻译系统的翻译准确度可以从多个角度进行,下面将介绍一些评估智能翻译系统翻译准确度的方法和指标:1. BLEU指标(Bilingual Evaluation Understudy):BLEU是一种常用的评估翻译准确度的指标,它通过比较自动翻译结果与人工参考翻译之间的相似度,来评估翻译质量。
BLEU的取值范围在0到1之间,数值越接近1表示翻译准确度越高。
2. 人工评估:人工评估是一种直接从人类的角度出发对翻译质量进行评估的方法。
通过邀请专业的翻译人员或语言专家对翻译结果进行评估和打分,从而得出翻译质量的准确度。
3. 平行语料评估:平行语料评估是一种将机器翻译系统的翻译结果与现有的高质量翻译人工平行语料进行对比的方法。
通过比较翻译系统的输出结果与参考平行语料之间的相似度,评估翻译系统的翻译准确度。
4. 词汇匹配度评估:词汇匹配度评估是一种通过比较翻译系统的输出结果与参考翻译之间的词汇匹配度来评估翻译准确度的方法。
通过计算词汇匹配度的指标,如准确率、召回率、F值等,来评估翻译系统的性能。
5. 语法和句法评估:语法和句法评估是一种通过比较翻译系统的输出结果与参考翻译的语法和句法结构的一致性来评估翻译准确度的方法。
通过检查翻译结果中的语法和句法错误的数量和种类,来评估翻译系统的性能。
在评估智能翻译系统的翻译准确度时,需要注意的是评估方法的选择要与实际应用场景和需求相匹配。
不同的方法和指标适用于不同的场景,并且需要进行有针对性的选择和使用。
此外,评估翻译准确度的过程中还需要考虑评估的客观性和可靠性。
机器翻译模型翻译质量评估说明
机器翻译模型翻译质量评估说明机器翻译(Machine Translation,MT)模型的翻译质量评估是对机器翻译系统输出的译文进行评估的过程。
翻译质量评估主要用于衡量机器翻译系统的性能和效果,帮助研究人员和开发者进一步改进和优化机器翻译模型。
本文将介绍常用的机器翻译质量评估方法和评价指标,并探讨评估过程中可能出现的挑战和解决方法。
评估方法:1. 人工评估:人工评估是现阶段最常用的机器翻译质量评估方法之一。
该方法通常由专业人员组成的评估小组,对机器翻译系统输出的译文进行评估和打分。
人工评估可以提供准确和详细的质量评价,但受到人力资源和时间成本的限制。
2. 语言学评估:语言学评估方法主要从语言学角度出发,对机器翻译系统的译文进行语法、语义和风格方面的评估。
该方法可衡量译文的语言准确性和自然度,但可能会忽视一些语义上的细微差异。
3. 自动评估:自动评估是一种使用计算机程序对机器翻译系统输出的译文进行评估的方法。
其中,BLEU(Bilingual Evaluation Understudy)是最常用的自动评估指标之一。
BLEU 指标通过比对机器翻译系统输出的译文和人工参考译文的相似度,对译文进行评估并给出一个0到1之间的分数。
除了BLEU,还有其他自动评估指标,如METEOR、NIST等,它们在计算方式和评价标准上各有不同。
评估指标:1. 准确性:准确性是机器翻译系统翻译质量的核心指标之一。
准确性指评估译文与参考译文的一致性和正确性,包括语义和语法的正确性。
常用的评估指标有词错误率(Word Error Rate,WER)和句错误率(Sentence Error Rate,SER)。
2. 流畅度:流畅度衡量译文的语言自然性和可读性。
一个流畅的译文应该具有良好的句法结构和自然的表达方式。
流畅度可以通过语言模型来评估,如困惑度(Perplexity)。
3. 一致性:一致性评估机器翻译系统对于相同句子的翻译结果是否一致。
翻译质量自动评价研究综述
Review on automatic translation quality evaluation
QIN Ying
(Dept. of Computer Science, Beijing Foreign Studies University, Beijing 100089, China) Abstract: With the current development of machine translation and innovation of translation teaching, the issue of automatic translation quality evaluation has arisen a lot of concerns. In order to grasp the ideas and methods of translation evaluation, a systemic review on current researches was proposed. According to the characteristics of these studies, a tree was drawn to illustrate the branches of different approaches. Typical algorithms and the map of their improvements were also introduced, as well as the assessment on automatic evaluation, International shared task of machine translation evaluation and open toolkits of automatic evaluation. In the last section, main obstacles and problems on current researches were analyzed. Prospects on this field were also put forward in the part. Key Words: translation quality; automatic evaluation; quality estimation; algorithm 个译文,不同的评价者及同一个评价者多次评价的结果并不完 全一致(即 Inter- and Intra-agreement 问题) 。 面对海量译文,人工评价越来越力不从心。自动评价因其 快速、廉价、客观的特点吸引了众多的研究。尤其在机器翻译 研究蓬勃发展的今天,需要快速发现译文中的错误、调节翻译 系统的参数、评价系统性能、进行不同系统的比较等,使得质 量自动评价研究也成为热点。文献[1]绘制的机器翻译开发周期 图形象地描述了翻译评价的位置和作用(如图 1) 。
机器翻译中的质量评估方法研究
机器翻译中的质量评估方法研究机器翻译(Machine Translation,MT)是利用计算机技术将一种自然语言的文本转化为另一种自然语言的文本的过程。
随着机器翻译技术的不断发展,如何评估机器翻译的质量成为一个重要的研究课题。
本文将介绍机器翻译中的质量评估方法的研究进展。
一、人工评估方法评估机器翻译质量最直接的方法是人工评估,即由人类专家对翻译结果进行评估和打分。
人工评估可以分为两种类型:一是人工评估比较,即将机器翻译的结果与人工参考翻译进行比较;二是人工评估可信度,即由人工专家对机器翻译的质量进行全面的评估,并给出一个综合的质量得分。
人工评估方法的优点是能够准确地反映机器翻译的质量,尤其适用于一些关键性的翻译任务。
然而,人工评估方法也存在一些问题,比如费时费力、成本高昂等。
为了解决这些问题,研究人员提出了其他的机器评估方法。
二、自动评估方法自动评估方法是利用计算机算法对机器翻译的质量进行评估。
这些方法主要分为两大类:基于标准答案的方法和基于语言模型的方法。
1. 基于标准答案的方法基于标准答案的方法通过将机器翻译的结果与人工参考翻译进行比较来评估机器翻译的质量。
这类方法常用的评估指标包括BLEU (Bilingual Evaluation Understudy)、NIST(Normalized Information Similarity Test)、METEOR(Metric for Evaluationof Translation with Explicit Ordering)等。
BLEU是最常用的机器翻译评估指标之一,它通过计算机器翻译结果与参考翻译之间的n-gram重叠率来评估翻译的准确性。
BLEU指标的取值范围是0到1,值越接近1代表机器翻译的质量越好。
NIST是根据信息检索的原理设计的一种评估指标,它将机器翻译结果与参考翻译之间的信息接近度作为评价标准。
NIST指标也是0到1之间的值,越接近1表示机器翻译的质量越高。
翻译质量量化评价研究综述
谢谢观看
1、客观评价方法
(1)均方误差(MSE)和峰值信 噪比(PSNR)
(1)均方误差(MSE)和峰值信噪比(PSNR)
MSE和PSNR是最常用的客观图像质量评价指标,它们主要通过比较原始图像和 处理后的图像像素值来计算误差。MSE表示图像像素值的平方误差的平均值, PSNR则表示原始图像像素值与处理后图像像素值的最大值的比值。
内容摘要
在基础研究方面,翻译质量自动评价被定义为利用计算机技术和自然语言处 理技术,对翻译文本的质量进行自动评估。其特点包括高效性、客观性和可重复 性。然而,自动评价的准确性受多种因素影响,如翻译领域、语言对、数据集等。
内容摘要
在技术手段研究方面,机器学习和深度学习等方法在翻译质量自动评价中得 到了广泛应用。这些方法能够从大量数据中学习翻译规则和模式,从而实现翻译 质量的自动评估。其中,基于深度学习的翻译质量自动评价模型在准确性和稳定 性方面表现更为突出。
翻译质量量化评价研究综述
01 摘要
03 文献综述 05 参考内容
目录
02 引言 04 结论
摘要
摘要
翻译质量量化评价是翻译研究领域的重要课题,旨在客观地评估翻译作品的 准确性、流畅性和可理解性。本次演示对翻译质量量化评价的相关研究进行综述, 总结现有研究成果和不足,并探讨未来研究的发展方向。关键词:翻译质量,量 化评价,研究综述
结论
深入研究不同语言的翻译特点,解决跨语言评价的问题;4)加强与人工评审 的结合,探索更为全面的翻译质量评价体系。
参考内容
内容摘要
随着全球化的深入推进和信息技术的快速发展,翻译需求呈爆炸式增长。然 而,翻译资源有限,难以满足庞大的需求。为提高翻译效率,许多研究者将目光 投向了翻译质量自动评价领域。本次演示旨在综述翻译质量自动评价的研究现状、 方法、成果和不足,并展望未来的研究方向和前景。
机器翻译质量评价的研究与方法分析
机器翻译质量评价的研究与方法分析一、引言随着人工智能技术的发展,机器翻译成为了一个备受关注的领域。
然而,机器翻译的质量评价是一个至关重要的问题。
本文旨在以机器翻译质量评价为研究对象,对机器翻译的质量评价和相关方法进行分析。
二、机器翻译质量评价的定义和标准机器翻译质量评价是指对机器翻译输出的译文进行评估的过程。
机器翻译质量评价的标准包括准确性、自然性、流畅性等方面。
其中,准确性是指译文和源文之间的准确程度;自然性是指译文的语言是否符合人类语言习惯;流畅性是指译文的可读性和易懂性。
三、传统的机器翻译质量评价方法传统的机器翻译质量评价方法主要包括人工评估和自动评估两种。
人工评估的方法是让翻译专业人员对译文逐句进行评估,评估结果的准确性和可靠性较高。
然而,这种方法耗时耗力,成本较高。
自动评估的方法是通过计算机软件对译文进行评估,其优点是效率高,成本低。
但是,自动评估的结果受到数据量、评价指标、译文质量等诸多因素的影响,评估结果的准确性和可信度相对不高。
四、基于语料库的机器翻译质量评价方法基于语料库的机器翻译质量评价方法是一种利用多种词汇、结构和语言风格等各种特征来计算两个文本或多个文本之间相似性的方法。
这种方法的优点是可以评估译文的整体性和准确性,而且可以通过大规模的语料库来提高评估结果的准确性。
常用的方法有BLEU、TER、NIST等。
五、基于人类认知模型的机器翻译质量评价方法基于人类认知模型的机器翻译质量评价方法是一种通过模拟人类对翻译质量的判断来进行评估的方法。
这种方法需要根据人类对翻译质量的认知模型,来计算机器翻译的评估得分。
这种方法的优点是可以更好地模拟人类对翻译质量的判断,相对于传统的自动评估方法和基于语料库的方法更加准确。
常用的方法有HUMAN、CDGER等。
六、机器翻译质量评价的未来展望随着自然语言处理技术和机器学习技术的不断发展,机器翻译质量评价将不断完善。
未来,机器翻译质量评价应更加注重人工智能技术的应用,通过模拟人类对翻译质量的判断来提高评价准确性和可信度。
机器翻译字幕质量评估研究——以“ArcTime”字幕汉译为例
Artificial Intelligence and Robotics Research 人工智能与机器人研究, 2021, 10(2), 206-213Published Online May 2021 in Hans. /journal/airrhttps:///10.12677/airr.2021.102020机器翻译字幕质量评估研究——以“ArcTime”字幕汉译为例吴双姣浙江越秀外国语学院,浙江绍兴收稿日期:2021年4月30日;录用日期:2021年5月21日;发布日期:2021年5月31日摘要AI时代迅猛发展的翻译技术对文本内容的翻译产生了重大影响。
然而作为翻译技术中最新的发展之一,机器翻译技术(MT)更常应用于文本翻译之中,而在视听翻译中的应用仍处于初期。
本文选取电影《疯狂动物城》机器翻译英译中字幕文本为研究文本,结合彼得森提出的FAR模型采用量化统计与质性分析相结合的方法,评估了ArcTime自动生成的英译中字幕文本。
以探索机器翻译字幕质量评估以及制约机器翻译质量的影响因素,总结机器翻译质量以及未来机器翻译发展侧重点。
本次机器翻译字幕质量评估研究表明,机器翻译(MT)在功能对等(functional equivalence)方面,尤其是语义选择与字幕切分等方面错误较多,从而导致机器翻译整体上质量偏低。
此外,扣分仅次于语义错误的是接受程度(acceptability)方面,相对而言,机器翻译字幕在阅读体验(readability)方面整体上出现的错误相对较少。
机器翻译字幕整体质量偏低的原因在于,一方面在于机器翻译无法获取源语言所处的视觉语境,另一方面是影视作品语言整体上口语体居多,而机器翻译其训练语料主要源于书面语,因此以上因素很大程度上制约了机器翻译字幕的质量。
关键词机器翻译,字幕翻译,FAR模型,质量评估Assessing Machine Translation Qualityin Interlingual Subtitling—A Case Study of ArcTimeShuangjiao WuZhejiang Yuexiu University, Shaoxing ZhejiangReceived: Apr. 30th, 2021; accepted: May 21st, 2021; published: May 31st, 2021吴双姣AbstractSince AI enabled translation technology provides basic and overall support for subtitle transla-tion, it’s crucial to enhance subtitle translation technology research. However, machine transla-tion (MT), as one of the most innovative technologies to be deployed in the field of translation, is currently more often used in (non-AV) text translation than in Audiovisual Translation (AVT), where its application is rare. In this article, the author intends to assess the machine translation quality produced by ArcTime in translating the American movie entitled Zootopia, and the prob-lems that would have an impact on the quality of the machine translation. For this purpose, the data was collected from the movie and qualitatively analyzed using Pedersen’s (2017) FAR model, which is a quality assessment model. The results of the study showed that most subtitles are of a relatively good quality in terms of readability, and the less errors or problems were found in terms of acceptability. However, most of the errors are found in terms of functional equivalence, particularly in terms of semantic errors. In addition, the major problems that impact the machine translation of subtitles are lack of visual context, in which the source text is embedded and to which the MT has no access, and the generally informal language used in the audiovisual works.KeywordsMachine Translation (MT), Subtitling, The FAR Model, Quality AssessmentCopyright © 2021 by author(s) and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License (CC BY 4.0). /licenses/by/4.0/1. 引言新时代,中国以更加开放的姿态融入全球化进程,在《关于加快发展对外文化贸易的意见》等一系列国家政策的推动下,影视作品作为中国文化的载体,“走出去”的步伐显著加快。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的评价和机器译文的评价两类,其中机器译文质量评价的研究 成果居多。之所以存在这种分类状况,源于自动评价研究的文 献普遍认为,评价人的译文要远远难于评价机器译文
[7-9]
。评测
机器译文质量性能不错的算法用于评价人的译文时,不能区分 人的译文中的细微差别
[8]
。
。文献[2]甚至指出,自动着翻译质量评价( Translation Quality Evaluation or Assessment) ,质量评价是翻译研究不可或缺的反 馈环节。评价译文质量的应用需求十分广泛:不仅机器翻译系 统需要评测和对比,在译文的出版编辑、语言翻译教学等领域 也需要对译文的质量进行评价。目前评价翻译质量依然主要依 赖人工,甚至是专家。译文质量评价是一个主观性比较强的问 题,评分的高低实质是对评价者而言译文的可接受程度。同一
[4]
。尽管待评译文不是出自机器而是人,但需求是类似的,都
是对译文各方面的问题进行评价:标识错误、评分等。 整体上,自动评价研究处于诸子百家的时代。尽管出现过 几十种算法,也有开源的工具 ,但是和人工评价的相关度 (Correlation)都不高 。 下文首先对目前的研究状况进行梳理,接着回顾典型评价 方法的发展,同时简单述及对评价算法的评测、国际自动评价 研究平台和开放工具。总结部分是对当前研究面临的困难和问 题的讨论,以及未来的发展方向。
*
要:随着机器翻译研究的推进和翻译教学方式的革新,译文质量自动评价问题近年来受到大量关注。为把握翻译质
量自动评价的思路、方法,通过对目前研究脉络的梳理,从研究特点角度绘制出了一个树形分类图谱,并对典型算法及 其改进思路进行了分析;还对自动评价算法的评测方法、国际机器翻译评测平台和自动评测开放工具等给予了介绍。最 后分析了当前研究存在的主要困难和问题,提出了对发展方向的展望。 关键词:翻译质量;自动评价;质量估计;算法 中图分类号:TP18 文献标志码:A
[14-17]
,
, MaxSim
[32]
,wpBLE
[33]
,TESLA
, AMBER
[20]
等。
重语言的相似求解方法则对译文进行较多的语法或语义层 面 的 分 析 , 从 句 法 结 构 (syntactic structure) 、 重 述 ( paraphrase )、 近 义 (synonym) 、 文 本 蕴 涵 (textual entailment)等语言方面计算待评译文和参考译文的相似度, 如 U LC ,RTE
。 研究以加分法为主。
首先需要有专家参与确定译文的评分点,通过统计评分点的出
优先出版
计 算 机 应 用 研 究 性 POS, 同义词典等。 著名的算法有: METEOR TER-Plus
[24] [30]
第 32 卷 , METEOR–NEXT
[19] [31]
还提供更客观的翻译建议,比如以 KWIC(Key Word In Context) 的形式展示在实际语料中某种语言现象的使用情况等。研究的 重点是提供真实的语言使用状况。 1.2 机器译文的评价方法 机器译文自动评价的研究近年来如雨后春笋,大致出现了 三种评价方式:诊断性评价(Diagnostic Evaluation ) ;评分 (Scoring)和 排序(Ranking) 。 1.2.1 诊断性评价 诊 断 评价 在上 述三 种方 式中开 展 得最 少, 主要 文献 有 [12-13]。 文献[12]先由人工将测试句中重要语言测试点挑选出 来并分类,然后在机器译文中 自动检测这些测试点是否被正确译出,从而评价译文质量。测 试点分为词语、成语、词法、基本语法、中级语法和高级语法 等六类,分别设定对质量影响的权重,利用加分法进行评分。 而文献[13]提出的用于 863 机器翻译评测的 WoodPecker,对检 测点实现了自动提取,减少了对人工的依赖。 1.2.2 评分 评分是最多的自动评价方式。评价机器译文时,根据有无 参考译文,又分为两种研究。有参考译文的评价是通过将待评 译文和参考译文比较,根据相似程度评分,这种研究居多。不 需要参考译文的评分也被称为质量估计(Quality Estimation)
语言教学和翻译出版领域的自动评价研究也有一些成果
[4-6]
更适合的是统计机器翻译的评测,评价基于规则的机器翻译系 统时会产生问题。因此,目前自动评价还分为两个研究领域。 1.1 人类译文的评价方法 人类译文的自动评价更多地模拟专家评价的思想。人类译 文自动评价的评价方式包括评分和诊断两类。实现评价时,通 常有加分法和减分法两种。加分法是通过累计正确的得分点的 分数来对译文打分,减分法则是基于译文中的错误从满分值中 作减法。大多质量评价基于错误分类方案进行 ,即根据错误 数及错误的严重程度实行减分。而错误分两类:大错( major error) ,主要指译文基本成分的错,错误将导致语义混淆;小 错, (minor error)则是使用了不正确或不恰当的表达方法或 语法。当然,评价译文质量高低通常有一个人们对错误的容忍 度问题, 文献[10]认为 400 个词左右的译文最多允许有 12 处小 错,1 个大错。因此关于错误体系的构建成为核心研究问题。 美国翻译家协会 ATA 将错误划分为 22 种类型, 不同类型的错有 不同的分值;加拿大翻译局的 Sical 系统能识别 675 种错,包括
图 2. 翻译自动评价研究分类图谱
300 种词汇错和 375 种句法错;英国翻译与口译研究所 ITI 只 有 18 类错误分类,而且每种错误分值相等。 对学习者译文评价的研究也在开展
[8-9]
现情况,并综合其他特征,如译文的形式特征、译文和原文的 对齐特征等作回归分析,得到译文的评分。 为了提供更客观的翻译反馈信息,文献[11]基于自然文本 构建基准语料(benchmark) ,对学习者译文中的问题不仅评分,
图 1. 机器翻译开发周期图 -------------------------------基金项目:校级项目(2009JJ056);全国教育科学规划课题(GPA115033) 作者简介:秦颖(1971-),女,山东人,副教授,博士,主要研究方向为计算语言学(qinying@).
[2] [1]
1 翻译评价研究分类
翻译自动评价的研究成果不断涌现,通过对目前掌握的文 献进行梳理,我们从研究特点角度对其进行了分类。第一级分 类是根据研究对象的不同进行划分, 第二级是评价方式的不同, 第三级是实现方法的不同,然后又从有无参考译文、评价粒度、 对语言知识的依赖程度等进一步细分。最后得到了一个研究分 类的树形图谱(如图 2) ,以期对目前的研究有个比较清晰的把 握。 首先根据译文的来源不同,分为人类译文(或学生译文)
[38]
。这也是目前机器译文和人类
译文的最大区别。 所以有的学者专注于句子流利度的评价方法, 因为人的译文都比机器译文通顺的多。文献[9,39]发现,句法 结构信息更有利于抓住流利的本质。文献[40]则研究了与流利 有关的错误类别划分。
,根据译文特征,将译文质量简单分为“好”或“坏” ,或
者区分人类译文(human-like)和非人译文(non-human-like) 。 质量估计被视作了二分类问题。因此,支持向量机(SVM)等算 法被用于了该种评价。还有一些研究介于有参考译文和无参考 译文之间,比如文献[18]在没有人工参考译文的情况下,将若 干机器译文生成伪参考译文(Pseudo Reference) ,然后用有参 考译文的方法进行评测。 依赖参考译文的评价,参考译文就是标准答案,和参考译 文越相似,译文质量越高,这个假设是评价算法的基本思想。 而求待评译文和参考译文相似度的方法多种多样:这些方法根 据语言粒度, 可以分为词汇层面的相似和句子/语篇层面的相似 两大类;根据对语言知识的依赖度也分为非语言、轻语言和重 语言三类
优先出版
计 算 机 应 用 研 究
第 32 卷
2010 年,ACL 首次将翻译评价标准(Metrics for Machine Translation)和机器翻译、系统综合一起列为统计机器翻译研讨 (SMT Workshop)的三大任务 ,为在共同的平台上研究自动 评测方法提供便利。2010 年和 2013 年均有 14 支参赛队提交了 几十种评测标准
Review on automatic translation quality evaluation
QIN Ying
(Dept. of Computer Science, Beijing Foreign Studies University, Beijing 100089, China) Abstract: With the current development of machine translation and innovation of translation teaching, the issue of automatic translation quality evaluation has arisen a lot of concerns. In order to grasp the ideas and methods of translation evaluation, a systemic review on current researches was proposed. According to the characteristics of these studies, a tree was drawn to illustrate the branches of different approaches. Typical algorithms and the map of their improvements were also introduced, as well as the assessment on automatic evaluation, International shared task of machine translation evaluation and open toolkits of automatic evaluation. In the last section, main obstacles and problems on current researches were analyzed. Prospects on this field were also put forward in the part. Key Words: translation quality; automatic evaluation; quality estimation; algorithm 个译文,不同的评价者及同一个评价者多次评价的结果并不完 全一致(即 Inter- and Intra-agreement 问题) 。 面对海量译文,人工评价越来越力不从心。自动评价因其 快速、廉价、客观的特点吸引了众多的研究。尤其在机器翻译 研究蓬勃发展的今天,需要快速发现译文中的错误、调节翻译 系统的参数、评价系统性能、进行不同系统的比较等,使得质 量自动评价研究也成为热点。文献[1]绘制的机器翻译开发周期 图形象地描述了翻译评价的位置和作用(如图 1) 。