BLEU一种机器翻译自动评价方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
BLEU : 一种机器翻译自动评价方法
BLEU:a Method for Automatic Evaluation of Machine Translation(1)Kishore Papineni,Salim Roukos,Todd Ward, and Wei-Jing Zhu
编译:洪洁文章来源:多语工程技术研究中心《云翻译技术》第12期
摘要:这篇论文是关于BLEU方法的最原始的文字,由IBM公司的研究人员发表。论文从机器翻译评价的研究背景开始,详细介绍了BLEU 方法的基本原理,基本要素,和基本测量指标的选取、指标的修正,以及最终获取BLEU值的计算公式。论文中还对BLEU值的可信性的进行了考察。研究者们作了一系列的翻译评价测试,观测基本测量指标值和最终的BLEU值能否区分人工翻译结果和机器翻译结果,不同的机器翻译结果和不同的人工翻译结果。最后,研究者们还对BLEU值评分和人工评分作了一个相关性分析。
1.研究背景
论文首先提到为什么要进行这个研究。对机器翻译作人工评价时会考量到翻译的许多方面:如翻译的充分性、忠实度、和流畅度。通常这些人工评价工作非常费时也非常昂贵。对于机器翻译的研发人员来说这种人工评价方式非常不方便,因为他们需要对机器翻译系统作日常的监测和评估,以了解每个小改变,从而甄选出好的想法。
在这篇论文中,研究者们提出一种快速、费用低廉、不受语言种类限制,而且同人工评价高度相关的机器翻译自动评价方法。他们是如何评价翻译的好坏呢?研究者们的评价方法所依据的论点是:机器翻译同专业人工翻译越接近越好。为了评价机器翻译质量,他们还需要使用某种“数值型度量指标”来衡量机器译文同人工翻译的参考译文的相近程度。因此这个新的自动评价系统包括两个要素:●数值型度量指标,用来计量待测翻译结果同参考译文的相近程度;
●高质量的人工翻译参考译文。
其中数值型度量指标参考了语音识别工作中使用的“单词出错率”这个指标,并
作了一些调整:如使用多个参考译文,允许选用不同的单词(同义词)和不同的词语顺序。
2.BLEU方法使用的基本度量指标和概念
2.1 “n单位片段”(n-gram)
由于语言的多样性和复杂性,在通常情况下,一句话会有多个“正确”的翻译方式,对应着多个正确的译文。这些译文中可能选用不同的词语,或者是选用的词语相同而语言顺序不同,而人类总是能够清楚地分辨出哪个是更好的译文。比如例1中对同一句汉语的两种译法:
例1:
待评价译文1: It is a guide to action which ensures that the military always obeys the commands of the party.
待评价译文2: It is to insure the troops forever hearing the activity guidebook that party direct.
两个译文质量差别明显,待评价译文1 的质量明显好于待评价译文2。为了比较,我们为这句话提供了三个参考译文:
参考译文 1:It is a guide to action that ensures that the military will forever heed Party commands.
参考译文 2: It is the guiding principle which guarantees the military forces always being under the command of the Party.
参考译文 3: It is the practical guide for the army always to heed the directions of the party.
可以看到待评价译文1同三个参考译文有着较多的相同字词和短语,而待评价译文 2 则没有。待评价译文1同参考译文 1 相同的部分有‘It is a guide to action ’‘ensures that the military ’‘commands’,同参考译文 2 相同的部分有‘which’‘always’‘of the party ’, 同参考译文3 相同的部分有‘always’。相比之下,待评价译文2 同三个参考译文的相似处极少。
BLEU 方法便是对待评价译文和参考译文的“n-单位片段(n-gram)”进行比较,
并计算出匹配片段的个数。这些匹配片段与它们在文字中存在的位置无关。匹配片段数越多,则待评价译文质量越好。作者从最简单的情况,“1单位片段(unigram)”匹配情况开始介绍。
2.2 精确度(Precision)和“修正的n-单位精确度”(modified n-gram precision)论文中研究者们使用的“数值型度量指标”基础是精确度(precision)的测量。先来看“1单位片段”(unigram)的情况。在例1中,将待评价译文和三个参考译文进行比较,待评价译文中单词出现在三个参考译文中的个数除以待评价译文中总单词个数,便得到原始的精确度(precision)计算结果。然而,由于一些特殊情况,研究者们对这个原始的精确度作了一些修正。来看一种特例情况:
例2:
待评价译文 : the the the the the the the
参考译文 1: The cat is on the mat.
参考译文2: There is a cat on the mat.
问题很明显,当某个参考译文中的某个单词匹配完以后,这个单词就不应该再继续计数匹配了。论文中对数值型指标精确度采取的这一修正方式称为“剪切”(clipping)。得到的精确度称为“修正过的n单位片段精确度”(modified n-gram precision)。在例2 中待评价译文得到的“修正过的1单位片段精确度值” =2/7. 在例1中,待评价译文1 得到的“修正过的1单位片段精确度值” =17/18, 待评价译文2 得到的“修正过的1单位片段精确度值” =8/14。这种剪切方式同样适用于n=2,3,4 等任意数值的情况。如在例1中,待评价译文1的“修正过的2单位片段精确度值”(modified bigram precision)=10/17, 待评价译文2得到的“修正过的2单位片段精确度值”=1/13。这种“修正过的n单位片段精确度”(modified n-gram precision)强调了翻译的两个方面:充分性和流畅度。待评价译文同参考译文使用相同的n单位片段(n-gram)反映翻译的充分性,其中匹配片段的长度则反映了翻译的流畅度。
在机器翻译评价中通常使用的是整篇文章和大段文字,此BLEU方法也是如此,