BLEU一种机器翻译自动评价方法
评价机器翻译的自动评价指标研究
评价机器翻译的自动评价指标研究机器翻译自动评价指标是机器翻译领域中非常重要的研究方向之一。
机器翻译的目标是将一种语言翻译成另一种语言,这是一项非常困难的任务,因为语言是非常复杂的。
机器翻译自动评价指标可以帮助我们评估机器翻译的质量,进一步改进机器翻译的算法。
在这篇文章中,我们将评价机器翻译的自动评价指标研究。
1. 机器翻译的自动评价指标简介机器翻译的自动评价指标可以帮助我们评估机器翻译的质量。
常见的自动评价指标包括BLEU、NIST、TER、WER等。
BLEU是一种广泛使用的自动评价指标,它基于n-gram匹配来度量译文与参考译文之间的相似性。
NIST评价指标是一种基于n-gram的指标,它与BLEU指标相似,但是使用了不同的权重。
TER评价指标是一种编辑距离的度量,它计算译文与参考译文之间的编辑距离。
WER评价指标是一种字级别的编辑距离度量,它计算译文与参考译文之间的错误率。
2. BLEU指标BLEU指标是一种基于n-gram的度量方法,它通过计算参考译文和机器翻译之间的n-gram匹配来评估翻译的质量。
BLEU指标的计算方法如下:其中,Pn是n-gram的精度,BP是基于翻译长度的惩罚因子。
BLEU指标的优势在于它简单易用,而且针对不同的n-gram可以得到不同的结果。
但是,它也存在一些缺陷,比如不能够处理稀有词和长句子,而且它假设越长的n-gram匹配越重要。
3. NIST指标NIST指标是一种基于n-gram的评价指标,它与BLEU指标类似,但是使用了不同的权重。
NIST指标的计算方法如下:其中,NISTn是n-gram的精度,w(n)是权重因子。
NIST指标的优势在于它可以根据语料库的不同自适应调整权重因子,而且它考虑了n-gram出现的频率。
但是,它也存在一些问题,比如它对于稀有词和长句子的处理能力不够。
4. TER指标TER指标是一种编辑距离的度量方法,它计算机器翻译和参考译文之间的编辑距离。
利用BLEU进行机器翻译检测(Python-NLTK-BLEU评分方法)
利⽤BLEU进⾏机器翻译检测(Python-NLTK-BLEU评分⽅法)双语评估替换分数(简称BLEU)是⼀种对⽣成语句进⾏评估的指标。
完美匹配的得分为1.0,⽽完全不匹配则得分为0.0。
这种评分标准是为了评估⾃动机器翻译系统的预测结果⽽开发的,具备了以下⼀些优点:1. 计算速度快,计算成本低。
2. 容易理解。
3. 与具体语⾔⽆关。
4. 已被⼴泛采⽤。
BLEU评分是由Kishore Papineni等⼈在他们2002年的论⽂BLEU a Method for Automatic Evaluation of Machine Translation中提出的。
BLEU计算的原理是计算待评价译⽂和⼀个或多个参考译⽂间的距离。
距离是⽂本间n元相似度的平均,n=1,2,3(更⾼的值似乎⽆关紧要)。
也就是说,如果待选译⽂和参考译⽂的2元(连续词对)或3元相似度较⾼,那么该译⽂的得分就较⾼。
我们是翻译众包业务,对于我们的应⽤场景,如何得知译员是否有参考机器翻译引擎就成了⼀个⽐较重要的问题。
我提出的基本思路是:1. 在多个翻译⽹站上翻译原⽂,得到⼀组机器翻译评测集,以下的例⼦中就是⼀段原⽂通过百度、有道翻译之后,组织了⼀个机器翻译评测集2. 将译员翻译出来的译⽂,作为待评测数据,计算其与机器翻译评测集的BLEU值(使⽤NLTK中提供的BLEU评分⽅法)3. 值越⾼,表明匹配度越⾼,则译员参考机器翻译或者直接拷贝机器翻译的可能性就越⾼,此时需要项⽬经理介⼊。
以下是⽰例: 1、原⽂新译星将代表四达时代集团在展览会上闪亮登场,届时我们将从新译星所开展的业务、具备的优势、成功案例等多个维度进⾏介绍,让您更加全⾯的了解新译星。
我们拥有稳定的全职国际化团队,能够确保守时、⾼效的完成翻译和配⾳,并通过⾄臻 2、⼈⼯翻译New Transtar will present itself at the Exhibition on behalf of StarTimes, and we will give a comprehensive introduction of ourselves, including the current services we offer, the advantages we hold, and the projects we have completed, to help yo 3、百度翻译The new translator will stand on the exhibition on behalf of the four times group at the exhibition. We will introduce the new star's business, the advantages and the successful cases, so that you can understand the new translator more comprehe 4、有道翻译The new translator star will represent sida times group in the exhibition, when we will introduce the new translator star's business, advantages, successful cases and other dimensions, so that you can have a more comprehensive understanding o 5、⽤百度翻译和有道翻译组织机器翻译评测集[['The', 'new', 'translator', 'will', 'stand', 'on', 'the', 'exhibition', 'on', 'behalf', 'of', 'the', 'four', 'times', 'group', 'at', 'the', 'exhibition', 'We', 'will', 'introduce', 'the', 'new', 'star`s', 'business', 'the', 'advantages', 'and', 'the', 'successful', 'cases', 'so', 'that 6、⽤⼈⼯翻译组织待检测数据['New', 'Transtar', 'will', 'present', 'itself', 'at', 'the', 'Exhibition', 'on', 'behalf', 'of', 'StarTimes', 'and', 'we', 'will', 'give', 'a', 'comprehensive', 'introduction', 'of', 'ourselves', 'including', 'the', 'current', 'services', 'we', 'offer', 'the', 'advantages', 'we', 7、⾸先测试⼈⼯翻译产出的译⽂与机器翻译评测集之间的BLEU值,得到结果为0.119115465241,如下[root@host-10-0-251-156 ~]# pythonPython 2.7.5 (default, Apr 112018, 07:36:10)[GCC 4.8.520150623 (Red Hat 4.8.5-28)] on linux2Type "help", "copyright", "credits" or "license"for more information.>>> from nltk.translate.bleu_score import sentence_bleu>>>>>> reference=[['The', 'new', 'translator', 'will', 'stand', 'on', 'the', 'exhibition', 'on', 'behalf', 'of', 'the', 'four', 'times', 'group', 'at', 'the', 'exhibition', 'We', 'will', 'introduce', 'the', 'new', 'star`s', 'business', 'the', 'advantages', 'and', 'the', 'successful'>>>>>> candidate=['New', 'Transtar', 'will', 'present', 'itself', 'at', 'the', 'Exhibition', 'on', 'behalf', 'of', 'StarTimes', 'and', 'we', 'will', 'give', 'a', 'comprehensive', 'introduction', 'of', 'ourselves', 'including', 'the', 'current', 'services', 'we', 'offer', 'the', 'advantages >>>>>> score = sentence_bleu(reference, candidate)>>> print score0.119115465241>>> 8、其次我们稍微改动以下百度翻译出来的译⽂,并测试其与机器翻译评测集之间的BLEU值,得到结果0.875629670466,如下: 8.1稍微改动之后的百度翻译New Transtar will stand on the exhibition on behalf of the four times group at the exhibition. We will introduce the new star's business, the advantages and the successful cases, so that you can understand the new translator more comprehensive 8.2⽤改动之后的百度翻译作为待评测数据['New', 'Transtar', 'will', 'stand', 'on', 'the', 'exhibition', 'on', 'behalf', 'of', 'the', 'four', 'times', 'group', 'at', 'the', 'exhibition', 'We', 'will', 'introduce', 'the', 'new', 'star`s', 'business', 'the', 'advantages', 'and', 'the', 'successful', 'cases', 'so', 'that', 'you 8.3BLEU计算>>> candidate_baidu=['New', 'Transtar', 'will', 'stand', 'on', 'the', 'exhibition', 'on', 'behalf', 'of', 'the', 'four', 'times', 'group', 'at', 'the', 'exhibition', 'We', 'will', 'introduce', 'the', 'new', 'star`s', 'business', 'the', 'advantages', 'and', 'the', 'successful',>>> score_baidu = sentence_bleu(reference, candidate_baidu)>>> print score_baidu0.875629670466>>> 9、由上⾯⽰例可看到,当待评测译⽂⾮常接近(也就是说该译员参考了机器翻译或直接进⾏的拷贝)机器翻译评测集中的数据时,BLEU值会升⾼。
bleu python 代码
bleu python 代码本文将介绍如何使用Python实现BLEU算法,以评估机器翻译或文本生成任务的输出质量。
BLEU(Bilingual Evaluation Understudy)是一种广泛应用于自然语言处理领域的自动评估方法。
接下来,我们将详细介绍BLEU算法及其Python实现。
1.了解BLEU算法BLEU算法是一种基于n-gram的指标,它通过比较生成文本与参考文本之间的相似度来评估输出质量。
BLEU算法考虑了以下几个因素:- 单词序列长度:生成文本与参考文本的长度差。
较长的生成文本通常意味着更好的翻译质量。
- 单词序列一致性:生成文本与参考文本中单词的顺序一致性。
较高的顺序一致性通常意味着更好的翻译质量。
- n-gram匹配度:生成文本与参考文本在n-gram级别上的匹配程度。
n-gram越大,匹配度越精确,但计算代价也越高。
2.Python实现BLEU算法在Python中,我们可以使用已有的库(如SacreBLEU)来实现BLEU算法。
以下是一个简单的示例:```pythonfrom sacrebleu import corpus_bleureferences = ["This is a reference translation.","Another reference translation.",]hypotheses = ["This is a hypothesis.","Here"s another hypothesis.",]bleu = corpus_bleu(references, hypotheses)print(f"BLEU score: {bleu}")```3.代码示例及解释在上面的代码中,我们首先导入SacreBLEU库,然后准备参考文本列表和生成文本列表。
bleu的用法 -回复
bleu的用法-回复Bleu是一种常用的机器翻译评估指标,用于衡量自动翻译结果与人工参考翻译之间的相似度。
它通过计算n-gram重合度、翻译结果的不完整性以及召回率等来评估翻译质量。
本文将逐步介绍Bleu的用法,包括其原理、计算方法以及适用性与局限性。
一、Bleu的原理Bleu(Bilingual Evaluation Understudy)是由IBM研究员Kishore Papineni等人在2002年提出的一种机器翻译评估方法,旨在解决人工参考翻译数量不足和评估不准确的问题。
Bleu基于n-gram(连续n个词)的重合度来度量自动翻译结果和参考翻译之间的相似性,同时还考虑了翻译结果的不完整性和召回率。
二、Bleu的计算方法Bleu的计算可以分为以下几个步骤:1. 计算候选翻译结果和参考翻译的n-gram重合度:首先,将候选翻译结果和参考翻译分别切分成n个连续词的序列,称为n-gram。
然后,统计候选翻译结果中每个n-gram在参考翻译中出现的次数,并记录最大出现次数。
最后,将候选翻译结果中每个n-gram的出现次数累加起来,并除以最大出现次数,得到n-gram重合度。
2. 计算Bleu的几何平均值:通过对n-gram重合度进行几何平均值的计算,可以得到Bleu的最终评估结果。
这使得Bleu能够在参考翻译数量不同时进行公平的比较。
3. 考虑翻译结果的不完整性和召回率:Bleu还引入了翻译结果的不完整性和召回率的概念,以解决某些翻译结果可能遗漏了参考翻译中的一部分内容的问题。
不完整性是指候选翻译结果中的n-gram不全由参考翻译包含,而召回率是指参考翻译中的n-gram不全出现在候选翻译结果中。
Bleu通过惩罚不完整性和召回率不足的翻译结果,提高了评估的准确性。
三、Bleu的适用性与局限性Bleu作为一种机器翻译评估指标具有一定的适用性和局限性:1. 适用性:Bleu适用于一对多的机器翻译任务,可以根据参考翻译的数量进行评估。
机器翻译质量评测算法-BLEU
机器翻译质量评测算法-BLEU机器翻译质量评测算法-BLEU什么是BLEU?为什么要用BLEU?BLEU的原理是什么?怎么使用BLEU?BLEU的优缺点?最后参考文章本文介绍机器翻译领域针对质量自动评测的方法-BLEU,让你理解为什么BLEU能够作为翻译质量评估的一种指标,它的原理是什么,怎么使用的,它能解决什么问题,它不能解决什么问题。
什么是BLEU?BLEU (Bilingual Evaluation Understudy) is an algorithm for evaluating the quality of text which has been machine-translated from one natural language to another. Quality is considered to be the correspondence between a machine’s output and that of a human: “the closer a machine translation is to a professional human translation, the better it is” – this is the central idea behind BLEU. BLEU was one of the first metrics to achieve a high correlation with human judgements of quality, and remains one of the most popular automated and inexpensive metric. – 维基百科机器翻译跟专业人工翻译专业人工翻译之间的对应关系,核心思想就文本评估算法,它是用来评估机器翻译解释一下,首先bleu是一种文本评估算法机器翻译越接近专业人工翻译,质量就越好,经过bleu算法得出的分数可以作为机器翻译质量的其中一个指是机器翻译越接近专业人工翻译,质量就越好标。
bleu的用法 -回复
bleu的用法-回复Bleu的用法:Bleu,也被称为双语评估方法之一,是机器翻译领域中常用的一种评估指标。
它是由IBM公司的几位研究人员提出的,旨在衡量自动机器翻译系统的翻译结果与人工参考译文之间的相似程度。
在本文中,我们将逐步介绍Bleu的用法及其在机器翻译中的应用。
首先,我们需要了解Bleu的原理。
Bleu的全称是Bilingual Evaluation Understudy,它通过比较机器翻译结果与人工参考译文之间的n-gram重叠度来评估翻译质量。
其中,n-gram指的是连续的n个单词组成的片段。
Bleu根据n-gram的出现频率计算一个累加得分,并将该得分与参考译文的长度进行归一化。
在具体实现上,Bleu通常使用1-gram到4-gram 进行评估。
为了使用Bleu评估机器翻译系统的质量,我们需要准备两个输入文件:机器翻译结果文件和人工参考译文文件。
机器翻译结果文件包含机器翻译系统生成的翻译结果,而人工参考译文文件包含与之对应的人工参考译文。
注意,每个机器翻译结果都必须有一个相应的人工参考译文。
接下来,我们可以使用Bleu工具来计算机器翻译系统的Bleu分数。
Bleu 工具通常是以命令行方式提供的,所以我们需要在命令行中输入相应的命令来调用该工具。
例如,假设我们有一个名为"mt_results.txt"的机器翻译结果文件和一个名为"ref_translation.txt"的人工参考译文文件,我们可以运行以下命令来计算Bleu分数:perl bleu.pl mt_results.txt ref_translation.txt > bleu_scores.txt上述命令中,"bleu.pl"代表Bleu工具的脚本文件。
我们需要在命令行中输入该脚本文件的路径,以调用Bleu工具。
"mt_results.txt"和"ref_translation.txt"分别是机器翻译结果文件和人工参考译文文件的路径。
bleu评测方法
bleu评测方法摘要:1.引言2.BLEU评测方法简介3.BLEU评测指标计算方法4.BLEU评测方法的优缺点5.结论正文:【引言】在自然语言处理领域,机器翻译和文本生成任务越来越受到人们的关注。
为了评估这些任务的性能,研究人员提出了许多评价指标。
其中,BLEU (Bilingual Evaluation Understudy)评测方法因其简洁、易用和高效而成为最受欢迎的自动评估方法。
本文将详细介绍BLEU评测方法,包括其计算原理、优缺点以及在实际应用中的使用方法。
【BLEU评测方法简介】BLEU评测方法由IBM的研究员Tomaso Esposti等人于2004年提出,旨在为机器翻译和文本生成任务提供一个简洁、高效的评价指标。
BLEU评测方法的核心思想是将生成的文本与参考译文进行比较,从而衡量生成文本的质量。
BLEU评测方法适用于多种语言对,既可以评估机器翻译质量,也可以评估文本生成任务的性能。
【BLEU评测指标计算方法】BLEU评测指标的计算方法如下:1.相似度计算:计算生成文本与参考译文的相似度。
常用的相似度计算方法有编辑距离(Levenshtein距离)和Jaccard相似度。
2.词序惩罚:惩罚生成文本与参考译文之间词序不同的情况。
词序惩罚可以通过计算N-gram(如N-1gram、N-2gram等)的匹配度来实现。
3.长度惩罚:惩罚生成文本过长或过短的情况。
长度惩罚可以通过计算生成文本与参考译文的长度比例来实现。
4.惩罚项加权:将上述相似度、词序惩罚和长度惩罚加权求和,得到BLEU 评测指标。
【BLEU评测方法的优缺点】优点:1.简洁性:BLEU评测方法公式简单,易于理解。
2.高效性:BLEU评测方法计算速度快,适用于大规模数据评估。
3.普适性:BLEU评测方法适用于多种语言对和任务类型。
4.易于实现:BLEU评测方法有成熟的Python库可供使用,如SacreBLEU。
缺点:1.仅考虑词汇层面:BLEU评测方法主要关注词汇层面的相似度,较少考虑句子结构和语义层面的差异。
大语言模型的评价指标
大语言模型的评价指标引言随着人工智能技术的飞速发展,大语言模型成为了自然语言处理领域的热门研究方向。
大语言模型是指能够生成自然语言文本的神经网络模型,它在机器翻译、对话系统、文本生成等任务中具有广泛的应用。
然而,如何评价大语言模型的质量和性能成为了一个关键问题。
本文将介绍大语言模型的评价指标,并探讨其优缺点。
一、自动评价指标1. BLEUBLEU(Bilingual Evaluation Understudy)是一种常用的机器翻译评价指标,也被应用于大语言模型的评估中。
BLEU通过比较生成文本和参考答案之间的n-gram 重叠度来衡量模型生成结果的准确性。
BLEU值越高表示生成结果与参考答案越接近。
优点: - 简单直观,易于计算。
- 能够捕捉到部分匹配信息。
缺点: - 只考虑n-gram重叠度,忽略了句法和语义信息。
- 对于过长或过短的句子评估效果较差。
2. ROUGEROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一种用于自动摘要评价的指标,同样可以用于大语言模型的评估。
ROUGE主要通过比较生成摘要和参考摘要之间的n-gram重叠度来衡量模型生成结果的质量。
优点: - 考虑了n-gram重叠度,能够捕捉到部分匹配信息。
- 可以评估生成文本的整体质量。
缺点: - 仅考虑了表面层次的文本相似性,忽略了句法和语义信息。
- 对于过长或过短的摘要评估效果较差。
3. METEORMETEOR(Metric for Evaluation of Translation with Explicit ORdering)是一种综合考虑n-gram重叠度、词义相似度和词序不变性的机器翻译评价指标。
METEOR通过计算生成文本与参考答案之间的词义相似度、词序得分和惩罚项来综合评价模型生成结果。
优点: - 综合考虑了多个因素,能够更全面地评估模型生成结果。
机器翻译性能评估的使用教程
机器翻译性能评估的使用教程机器翻译(Machine Translation, MT)是一种使用计算机技术自动将一种自然语言的文本转换为另一种自然语言的文本的方法。
随着人工智能技术的发展,机器翻译的性能逐渐提升,但仍然存在差异。
为了评估和比较不同机器翻译系统的性能,常常需要进行评估。
本篇文章将介绍如何使用机器翻译性能评估工具来进行机器翻译性能评估。
一、机器翻译性能评估工具介绍为了准确评估机器翻译系统的性能,需要使用专门的评估工具。
在这里,我们介绍一种常用的机器翻译性能评估工具——BLEU。
BLEU(bilingual evaluation understudy)是一种机器翻译质量评估指标,使用统计方法比较机器翻译结果与参考翻译之间的一致性。
BLEU主要通过计算n-gram的匹配数来评估翻译的质量,同时还考虑了句子长度等因素。
二、使用BLEU进行机器翻译性能评估的步骤1. 确定参考翻译在进行机器翻译性能评估之前,需要准备参考翻译。
参考翻译是与机器翻译结果相对应的正确翻译。
通常情况下,可以选择人工翻译或者专业翻译人员进行准确翻译。
2. 准备机器翻译结果使用机器翻译系统对需要翻译的文本进行翻译,并将结果保存为文本文件。
确保每个句子单独占一行,并且与参考翻译的顺序一致。
3. 安装评估工具在评估之前,需要安装BLEU评估工具。
BLEU评估工具可以在开源机器翻译工具包中找到,如Moses。
4. 运行BLEU评估工具打开终端或命令行界面,进入评估工具所在的目录。
运行评估工具的命令,指定参考翻译文件和机器翻译结果文件的路径。
```bash$ perl ./multi-bleu.pl reference.txt < translation.txt```其中,reference.txt为参考翻译文件的路径,translation.txt为机器翻译结果文件的路径。
运行命令后,评估工具会自动计算BLEU指标,并将结果输出到终端或命令行界面。
bleu 方法
bleu 方法BLEU方法是一种用于自动评估机器翻译质量的指标。
它是一种基于比较参考翻译与机器翻译之间的相似性来衡量翻译质量的方法。
BLEU方法通过计算n-gram重叠度、短语精确度等指标来评估翻译结果的准确性和流畅性。
在机器翻译领域中,评估翻译质量是一个非常重要的任务。
传统的评估方法主要依赖人工评估,这种方式耗时耗力且不具有可扩展性。
因此,研究者们提出了BLEU方法来实现自动化的翻译质量评估。
BLEU方法的核心思想是将参考翻译与机器翻译结果进行比较,并计算他们之间的相似性。
具体而言,BLEU方法首先将参考翻译和机器翻译结果分别切分成n-gram,并统计它们之间的重叠度。
然后,BLEU方法通过计算n-gram重叠度的几何平均值来得到最终的评分。
BLEU方法不仅考虑了n-gram重叠度,还考虑了短语精确度。
短语精确度是指机器翻译结果中与参考翻译完全匹配的短语的比例。
BLEU方法通过计算n-gram重叠度和短语精确度的加权和来得到最终的评分。
BLEU方法的优点是简单、直观且易于计算。
它不依赖于参考翻译的数量,适用于不同长度的句子。
此外,BLEU方法还具有较好的可解释性,可以帮助研究者和从业者了解机器翻译质量的优劣。
然而,BLEU方法也存在一些局限性。
首先,BLEU方法只考虑了n-gram重叠度和短语精确度,而未考虑其他语言特征。
这导致BLEU方法在评估一些语言特征较复杂的句子时可能不准确。
其次,BLEU方法没有考虑翻译的流畅度和语法正确性,因此对于一些语法错误较多的翻译结果评估可能不准确。
为了克服BLEU方法的局限性,研究者们提出了一系列改进方法。
例如,可以引入语言模型来考虑翻译的流畅度和语法正确性;可以使用更复杂的特征来评估翻译结果的质量。
这些改进方法使得机器翻译质量评估更加准确和全面。
BLEU方法是一种用于自动评估机器翻译质量的指标。
它通过比较参考翻译和机器翻译结果之间的相似性来评估翻译质量。
BLEU方法简单、直观且易于计算,但也存在一些局限性。
机器翻译评价指标—BLEU算法
机器翻译评价指标—BLEU算法1,概述 机器翻译中常⽤的⾃动评价指标是BLEU算法,除了在机器翻译中的应⽤,在其他的seq2seq任务中也会使⽤,例如对话系统。
2 BLEU算法详解 假定⼈⼯给出的译⽂为reference,机器翻译的译⽂为candidate。
1)最早的BLEU算法 最早的BLEU算法是直接统计cadinate中的单词有多少个出现在reference中,具体的式⼦是: BLEU=出现在reference中的candinate的单词的个数cadinate中单词的总数 以下⾯例⼦为例: candinate: the the the the the the the reference: the cat is on the mat cadinate中所有的单词都在reference中出现过,因此: BLEU=77=1 对上⾯的结果显然是不合理的,⽽且主要是分⼦的统计不合理,因此对上⾯式⼦中的分⼦进⾏了改进。
2)改进的BLEU算法 — 分⼦截断计数 针对上⾯不合理的结果,对分⼦的计算进⾏了改进,具体的做法如下: Count clipw i =min(Count wi,Ref_Count wi) 上⾯式⼦中: Count wi表⽰单词w i在candinate中出现的次数; Ref_Count wi表⽰单词w i在reference中出现的次数; 但⼀般情况下reference可能会有多个,因此有: Count clip=max(Count clipw i,j),j=1,2,3...... 上⾯式⼦中:j表⽰第j个reference。
仍然以上⾯的例⼦为例,在candinate中只有⼀个单词the,因此只要计算⼀个Count clip,the在reference中只出现了两次,因此: BLEU=2 7 3)引⼊n−gram 在上⾯我们⼀直谈的都是对于单个单词进⾏计算,单个单词可以看作时1−gram,1−gram可以描述翻译的充分性,即逐字翻译的能⼒,但不能关注翻译的流畅性,因此引⼊了n−gram,在这⾥⼀般n不⼤于4。
bleu计算方法
bleu计算方法使用Bleu计算方法评估机器翻译质量引言:随着人工智能的发展,机器翻译技术越来越成熟,但如何评估机器翻译的质量仍然是一个挑战。
Bleu(Bilingual Evaluation Understudy)是一种常用的自动评估方法,用于衡量机器翻译结果与参考翻译之间的相似程度。
本文将介绍Bleu计算方法的原理和应用,并探讨其优缺点及适用范围。
一、Bleu计算方法的原理Bleu是由IBM Research提出的一种机器翻译质量评估指标,它通过比较机器翻译结果与参考翻译之间的n-gram重叠程度来计算得分。
具体而言,Bleu首先将机器翻译结果与参考翻译分别转化为n-gram 序列,然后计算机器翻译结果中每个n-gram在参考翻译中的匹配数目,最后综合考虑n-gram的精确匹配率以及机器翻译结果与参考翻译的长度差异,得到最终的Bleu得分。
二、Bleu计算方法的应用Bleu计算方法广泛应用于机器翻译领域,用于评估机器翻译系统的性能。
通过与参考翻译进行比较,Bleu可以量化机器翻译结果的质量,从而帮助研究人员和开发者改进机器翻译系统。
此外,Bleu还可以用于比较不同机器翻译系统之间的性能差异,从而指导系统的选择和优化。
三、Bleu计算方法的优缺点Bleu计算方法具有以下优点:1. 简单高效:Bleu计算方法使用简单,只需比较n-gram的重叠程度即可得到结果,计算速度快。
2. 相对准确:Bleu计算方法可以较为准确地反映机器翻译结果与参考翻译之间的相似程度,从而评估翻译质量。
然而,Bleu计算方法也存在一些缺点:1. 无法考虑语义一致性:Bleu计算方法主要基于n-gram的重叠程度,缺乏对语义一致性的考量,因此可能无法准确评估机器翻译的质量。
2. 对长句子评估不准确:Bleu计算方法对长句子的评估不够准确,因为长句子中n-gram的匹配率较低。
四、Bleu计算方法的适用范围Bleu计算方法适用于评估机器翻译的质量,尤其在较为简单的翻译任务中效果较好。
bleu用法
bleu用法BLEU(Bilingual Evaluation Understudy)是一种用于机器翻译系统评估的指标,它旨在度量机器翻译输出与参考翻译之间的相似度。
BLEU是一种常用的自动化评估方法,经常用于评估机器翻译系统的性能。
BLEU的计算基于n-gram的匹配以及片段级的精确度。
通常使用的BLEU指标是1-gram至4-gram的组合,并计算这些n-gram在机器翻译输出中的匹配程度,然后结合这些匹配程度来计算综合的BLEU分数。
BLEU分数介于0到1之间,越接近1表示机器翻译的输出与参考翻译越相似。
在Python中,你可以使用nltk库来计算BLEU分数。
以下是一个简单示例:import nltkreference=this is a test sentence for BLEU calculationtranslation=this is a test sentence for calculating BLEU score将参考翻译和机器翻译转换成标记化的词列表referencetokens=nltk.wordtokenize(reference.lower())translationtokens=nltk.wordtokenize(translation.lower())计算BLEU分数bleuscore=nltk.translate.bleuscore.sentencebleu(referencetokens,translationtok ens)print(BLEU Score,bleuscore)请注意,实际上,BLEU分数的计算可能需要考虑更多的参考翻译,并且可以根据需要进行更复杂的设置和参数调整,以更准确地反映机器翻译的质量。
bleu的用法 -回复
bleu的用法-回复什么是BLEU评估方法?BLUE(Bilingual Evaluation Understudy)是一种常见的自动评估机器翻译结果质量的方法。
它通过将翻译结果与参考答案进行比较来计算得分,评估翻译模型的好坏。
由于BLEU可以通过简单的计算得到结果,因此成为了机器翻译研究中被广泛使用的标准评估指标之一。
为什么需要BLEU评估方法?在机器翻译领域中,评估机器翻译结果的质量是关键问题之一。
传统的人工评估方法需要耗费大量的时间和人力,而且评估结果主观性较强,不利于大规模应用。
因此,需要一种自动化的评估方法,可以快速准确地评估机器翻译的质量。
BLEU评估方法正是为了解决这个问题而被提出来的。
BLEU评估方法的基本原理是什么?BLEU评估方法的基本原理是通过计算翻译结果与参考答案之间的差别程度来评估翻译模型的质量。
具体而言,BLEU评估方法将翻译结果和参考答案都进行分词处理,然后比较两者之间的n-gram(n个连续词的序列)的匹配情况来计算得分。
BLEU使用了不同的权重来平衡不同长度的n-gram,以避免评估结果的偏差。
BLEU评估方法的具体计算步骤是什么?BLEU评估方法的具体计算步骤如下:1. 对翻译结果和参考答案进行分词处理,将其划分为多个n-gram(一般取n=1至4)。
2. 统计翻译结果中每个n-gram在参考答案中出现的次数,并计算出现次数最大的n-gram的次数。
同时,统计翻译结果中每个n-gram的总次数。
3. 对每个n-gram的出现次数最大值求和,除以每个n-gram的总次数,得到一个置信度分数。
4. 考虑到翻译结果长度和参考答案长度不一致的情况,引入了一个惩罚因子,通过对翻译结果长度和参考答案长度的比值进行取对数操作,并与置信度分数相乘,得到最终的BLEU得分。
BLEU评估方法的应用场景是什么?BLEU评估方法在机器翻译领域中被广泛使用。
通过计算翻译结果与参考答案之间的差别程度,BLEU能够评估机器翻译模型的质量。
BLEU一种机器翻译自动评价方法
BLEU一种机器翻译自动评价方法
BLEU是一种用于机器翻译自动评价的方法。
它是由Papineni等人于2002年提出的。
BLEU的全称是Bilingual Evaluation Understudy,意
为双语评估助手。
BLEU的评价结果越高,意味着机器翻译的质量越好。
BLEU的计算方
法基于对参考答案和机器翻译结果之间的n-gram匹配进行比较。
它首先
将机器翻译结果和参考答案都转换成n-gram序列,然后计算机器翻译结
果中与参考答案序列匹配的n-gram的数量。
BLEU的计算公式如下:
BLEU = BP * exp(sum(wt * log(pn)))
其中,BP是惩罚项,用于衡量机器翻译结果和参考答案的长度差异。
wt是权重,用于平衡n-gram的重要性。
pn是n-gram匹配的精确程度。
BLEU的优点是简单易用,不需要人工标注参考答案,可以自动评价
大规模翻译结果。
然而,它也存在一些缺点,如对短句子和片段翻译的评
价不准确,并未考虑词序信息等。
尽管BLEU有其局限性,但它仍然是机器翻译领域中最常用的自动评
价方法之一,被广泛应用于机器翻译系统的开发和优化中。
BLEU一种机器翻译自动评价方法
BLEU : 一种机器翻译自动评价方法BLEU:a Method for Automatic Evaluation of Machine Translation(1)Kishore Papineni,Salim Roukos,Todd Ward, and Wei-Jing Zhu编译:洪洁文章来源:多语工程技术研究中心《云翻译技术》第12期摘要:这篇论文是关于BLEU方法的最原始的文字,由IBM公司的研究人员发表。
论文从机器翻译评价的研究背景开始,详细介绍了BLEU 方法的基本原理,基本要素,和基本测量指标的选取、指标的修正,以及最终获取BLEU值的计算公式。
论文中还对BLEU值的可信性的进行了考察。
研究者们作了一系列的翻译评价测试,观测基本测量指标值和最终的BLEU值能否区分人工翻译结果和机器翻译结果,不同的机器翻译结果和不同的人工翻译结果。
最后,研究者们还对BLEU值评分和人工评分作了一个相关性分析。
1.研究背景论文首先提到为什么要进行这个研究。
对机器翻译作人工评价时会考量到翻译的许多方面:如翻译的充分性、忠实度、和流畅度。
通常这些人工评价工作非常费时也非常昂贵。
对于机器翻译的研发人员来说这种人工评价方式非常不方便,因为他们需要对机器翻译系统作日常的监测和评估,以了解每个小改变,从而甄选出好的想法。
在这篇论文中,研究者们提出一种快速、费用低廉、不受语言种类限制,而且同人工评价高度相关的机器翻译自动评价方法。
他们是如何评价翻译的好坏呢?研究者们的评价方法所依据的论点是:机器翻译同专业人工翻译越接近越好。
为了评价机器翻译质量,他们还需要使用某种“数值型度量指标”来衡量机器译文同人工翻译的参考译文的相近程度。
因此这个新的自动评价系统包括两个要素:●数值型度量指标,用来计量待测翻译结果同参考译文的相近程度;●高质量的人工翻译参考译文。
其中数值型度量指标参考了语音识别工作中使用的“单词出错率”这个指标,并作了一些调整:如使用多个参考译文,允许选用不同的单词(同义词)和不同的词语顺序。
bleu公式
bleu公式
BLEU(Bilingual Evaluation Understudy)是一种计算机翻译
评估方法,旨在评估一组机器翻译系统、自然语言处理系统或自然语
言生成系统的质量和精度。
BLEU公式是通过比较机器生成的翻译文本
与人工翻译文本的相似性,来给出一个评估值。
BLEU公式可以表示为:
BLEU = BP * exp(sum(Pn))
其中,BP表示翻译文本长度偏差的惩罚因子,Pn表示n元语言
模型的精确性权重,exp表示指数函数。
BP是为了惩罚机器翻译生成的长度偏差而设置的,因为机器翻译容易出现过长或过短的问题。
同时,该公式会对n元语言模型的精确
性进行权衡,以便评估翻译的准确性。
BLEU评估结果的范围通常在0
到1之间,越高的得分表示翻译质量越高。
BLEU公式的优点在于它是基于自动翻译评估的一种客观方法。
相对于人工评估,BLEU方法具有更高的效率和可重复性。
此外,在翻译
实践中,BLEU方法也被广泛应用,成为翻译领域非常重要的一个指标。
然而,BLEU公式也存在一些缺点。
它主要基于语言模型的统计方式,无法很好地处理自然语言的语义和上下文信息。
BLEU评估结果还
容易被翻译质量偏低的句子所影响。
因此,在使用BLEU方法时,需要
对结果进行适当的解释和判别。
总之,BLEU公式是机器翻译领域中的一种重要评估方法,对于评估翻译系统的效果和精度有很大的帮助。
虽然它存在一些限制,但它
仍然是一种非常有用的工具,可以帮助翻译行业更好地实现精确和高
质量的翻译。
BLEU的计算范文
BLEU的计算范文BLEU(Bilingual Evaluation Understudy)是一种常用的自动化评估机器翻译质量的度量指标。
它通过比较机器翻译的输出与一个或多个参考翻译来评估翻译质量。
BLEU的计算公式基于n-gram的匹配数量,以及机器翻译中词汇的覆盖程度等。
1. 对于每个参考翻译和机器翻译,计算每个n-gram的数量。
2. 对于每个n-gram,计算在机器翻译中出现的最高频次与参考翻译中的最高频次的较小值,然后将这个较小值相加,得到总的较小值匹配数量。
3. 对于每个n-gram,计算机器翻译中出现的总数,然后将这个总数相加,得到总的机器翻译n-gram数量。
4. 对于每个参考翻译,计算参考翻译中出现的总数,然后将这个总数相加,得到总的参考翻译n-gram数量。
5. 对于每个n-gram的数量,计算总的较小值匹配数量除以总的机器翻译n-gram数量的结果,得到每个n-gram的精确度。
6. 对于每个参考翻译,计算总的较小值匹配数量除以总的参考翻译n-gram数量的结果,得到每个参考翻译的覆盖率。
7. 对于每个n-gram的精确度,计算该精确度乘以该参考翻译的覆盖率的结果,得到每个n-gram的权重。
8. 对于所有n-gram的权重,计算自然对数的累加和,然后计算该和除以n-gram的数量的结果,得到BLEU的计算结果。
需要注意的是,BLEU对于超长句子的评估存在一定的问题,因为长句子中的n-gram匹配率较低。
因此,在实际应用中,通常会对句子长度进行惩罚,以避免过高的BLEU分数。
BLEU的优点是简单,易于计算,而且与人工评估结果的相关性较高。
然而,BLEU也存在一些缺点,例如它只考虑了n-gram匹配数量,并没有考虑到翻译的流畅性、一致性等因素。
因此,它对于一些语法错误较少但意思表达不清的翻译结果可能会给出过高的评分。
总之,BLEU是一种常用的机器翻译评估指标,它通过比较机器翻译结果与参考翻译来评估翻译质量,并通过n-gram匹配数量和词汇覆盖率等指标进行计算。
bleu python 代码
BLEU Python代码介绍在自然语言处理中,评估机器翻译结果的质量是一个重要的任务。
BLEU(Bilingual Evaluation Understudy)是一种常用的自动评估指标,用于衡量机器翻译结果与参考翻译之间的相似程度。
本文将介绍BLEU的原理和使用Python代码计算BLEU的方法。
BLEU的原理BLEU是一种基于n-gram的精度指标,它通过比较机器翻译结果和参考翻译之间的n-gram重叠情况来评估翻译质量。
BLEU的计算过程可以分为以下几个步骤:1.计算候选翻译和参考翻译的n-gram精度:–对于每个n-gram,计算候选翻译中出现的次数以及在参考翻译中出现的次数。
–统计候选翻译中每个n-gram的最大出现次数,得到候选翻译的n-gram计数。
–对于每个n-gram,将候选翻译中出现的次数限制在参考翻译中的最大出现次数,得到修正后的候选翻译的n-gram计数。
–将修正后的候选翻译的n-gram计数求和,得到候选翻译的n-gram总计数。
–将候选翻译的n-gram总计数除以候选翻译的总词数,得到候选翻译的n-gram精度。
2.计算候选翻译和参考翻译的短语精度:–对于每个短语长度k,计算候选翻译中出现的短语次数以及在参考翻译中出现的短语次数。
–统计候选翻译中每个短语的最大出现次数,得到候选翻译的短语计数。
–对于每个短语,将候选翻译中出现的次数限制在参考翻译中的最大出现次数,得到修正后的候选翻译的短语计数。
–将修正后的候选翻译的短语计数求和,得到候选翻译的短语总计数。
–将候选翻译的短语总计数除以候选翻译的总词数,得到候选翻译的短语精度。
3.计算候选翻译和参考翻译的长度惩罚:–计算候选翻译的长度和参考翻译的长度,得到候选翻译的长度惩罚因子。
–如果候选翻译的长度小于等于参考翻译的长度,长度惩罚因子为1。
–如果候选翻译的长度大于参考翻译的长度,长度惩罚因子为exp(1-参考翻译的长度/候选翻译的长度)。
bleurt评价指标 -回复
bleurt评价指标-回复BLEURT评价指标是一种用于自动评估文本生成质量的指标,它通过将生成的文本与参考文本进行比较,给出一个评分来衡量生成文本的质量。
BLEURT(Bilingual Evaluation Understudy with Representations from Transformers)结合了BERT预训练模型和传统的BLEU (Bilingual Evaluation Understudy)指标,能够更精确地评估文本生成的质量。
首先,我们来了解一下BLEU指标。
BLEU是一种常用的自动评价指标,用于评估机器翻译的质量。
它主要通过比较生成文本与参考文本之间的n-gram重叠度来给出评分。
然而,BLEU只考虑了n-gram的匹配度,忽略了句子结构和语义等因素,因此在某些情况下无法准确评估文本生成质量。
BLEURT这个评价指标的出现就是为了解决BLEU的一些缺点。
它利用了BERT预训练模型的强大表示能力,将BERT用于比较生成文本与参考文本之间的相似度。
具体而言,BLEURT使用了BERT的encoder部分作为表示生成文本和参考文本的向量,并计算它们之间的余弦相似度。
通过这种方式,BLEURT可以更准确地评估文本生成的质量,尤其是在句子结构和语义上。
为了训练BLEURT模型,需要一个包含生成文本-参考文本配对的训练集。
这些配对通常由人工生成,以确保生成文本与参考文本之间的质量差异。
然后,使用这些配对数据来训练BLEURT模型,使其能够学习如何准确地评估生成文本的质量。
在使用BLEURT评价指标时,需要将生成的文本与参考文本一起输入模型。
模型将计算生成文本与参考文本的相似度得分,并将其映射到一个0到1之间的范围内。
得分越高,表示生成文本与参考文本越相似,质量也越高。
这使得BLEURT成为一种在文本生成任务中,可以用来比较不同模型或系统性能的标准评估指标。
总的来说,BLEURT评价指标通过结合BERT和传统的BLEU指标,能够更准确地评估文本生成的质量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
BLEU : 一种机器翻译自动评价方法BLEU:a Method for Automatic Evaluation of Machine Translation(1)Kishore Papineni,Salim Roukos,Todd Ward, and Wei-Jing Zhu编译:洪洁文章来源:多语工程技术研究中心《云翻译技术》第12期摘要:这篇论文是关于BLEU方法的最原始的文字,由IBM公司的研究人员发表。
论文从机器翻译评价的研究背景开始,详细介绍了BLEU 方法的基本原理,基本要素,和基本测量指标的选取、指标的修正,以及最终获取BLEU值的计算公式。
论文中还对BLEU值的可信性的进行了考察。
研究者们作了一系列的翻译评价测试,观测基本测量指标值和最终的BLEU值能否区分人工翻译结果和机器翻译结果,不同的机器翻译结果和不同的人工翻译结果。
最后,研究者们还对BLEU值评分和人工评分作了一个相关性分析。
1.研究背景论文首先提到为什么要进行这个研究。
对机器翻译作人工评价时会考量到翻译的许多方面:如翻译的充分性、忠实度、和流畅度。
通常这些人工评价工作非常费时也非常昂贵。
对于机器翻译的研发人员来说这种人工评价方式非常不方便,因为他们需要对机器翻译系统作日常的监测和评估,以了解每个小改变,从而甄选出好的想法。
在这篇论文中,研究者们提出一种快速、费用低廉、不受语言种类限制,而且同人工评价高度相关的机器翻译自动评价方法。
他们是如何评价翻译的好坏呢?研究者们的评价方法所依据的论点是:机器翻译同专业人工翻译越接近越好。
为了评价机器翻译质量,他们还需要使用某种“数值型度量指标”来衡量机器译文同人工翻译的参考译文的相近程度。
因此这个新的自动评价系统包括两个要素:●数值型度量指标,用来计量待测翻译结果同参考译文的相近程度;●高质量的人工翻译参考译文。
其中数值型度量指标参考了语音识别工作中使用的“单词出错率”这个指标,并作了一些调整:如使用多个参考译文,允许选用不同的单词(同义词)和不同的词语顺序。
2.BLEU方法使用的基本度量指标和概念2.1 “n单位片段”(n-gram)由于语言的多样性和复杂性,在通常情况下,一句话会有多个“正确”的翻译方式,对应着多个正确的译文。
这些译文中可能选用不同的词语,或者是选用的词语相同而语言顺序不同,而人类总是能够清楚地分辨出哪个是更好的译文。
比如例1中对同一句汉语的两种译法:例1:待评价译文1: It is a guide to action which ensures that the military always obeys the commands of the party.待评价译文2: It is to insure the troops forever hearing the activity guidebook that party direct.两个译文质量差别明显,待评价译文1 的质量明显好于待评价译文2。
为了比较,我们为这句话提供了三个参考译文:参考译文 1:It is a guide to action that ensures that the military will forever heed Party commands.参考译文 2: It is the guiding principle which guarantees the military forces always being under the command of the Party.参考译文 3: It is the practical guide for the army always to heed the directions of the party.可以看到待评价译文1同三个参考译文有着较多的相同字词和短语,而待评价译文 2 则没有。
待评价译文1同参考译文 1 相同的部分有‘It is a guide to action ’‘ensures that the military ’‘commands’,同参考译文 2 相同的部分有‘which’‘always’‘of the party ’, 同参考译文3 相同的部分有‘always’。
相比之下,待评价译文2 同三个参考译文的相似处极少。
BLEU 方法便是对待评价译文和参考译文的“n-单位片段(n-gram)”进行比较,并计算出匹配片段的个数。
这些匹配片段与它们在文字中存在的位置无关。
匹配片段数越多,则待评价译文质量越好。
作者从最简单的情况,“1单位片段(unigram)”匹配情况开始介绍。
2.2 精确度(Precision)和“修正的n-单位精确度”(modified n-gram precision)论文中研究者们使用的“数值型度量指标”基础是精确度(precision)的测量。
先来看“1单位片段”(unigram)的情况。
在例1中,将待评价译文和三个参考译文进行比较,待评价译文中单词出现在三个参考译文中的个数除以待评价译文中总单词个数,便得到原始的精确度(precision)计算结果。
然而,由于一些特殊情况,研究者们对这个原始的精确度作了一些修正。
来看一种特例情况:例2:待评价译文 : the the the the the the the参考译文 1: The cat is on the mat.参考译文2: There is a cat on the mat.问题很明显,当某个参考译文中的某个单词匹配完以后,这个单词就不应该再继续计数匹配了。
论文中对数值型指标精确度采取的这一修正方式称为“剪切”(clipping)。
得到的精确度称为“修正过的n单位片段精确度”(modified n-gram precision)。
在例2 中待评价译文得到的“修正过的1单位片段精确度值” =2/7. 在例1中,待评价译文1 得到的“修正过的1单位片段精确度值” =17/18, 待评价译文2 得到的“修正过的1单位片段精确度值” =8/14。
这种剪切方式同样适用于n=2,3,4 等任意数值的情况。
如在例1中,待评价译文1的“修正过的2单位片段精确度值”(modified bigram precision)=10/17, 待评价译文2得到的“修正过的2单位片段精确度值”=1/13。
这种“修正过的n单位片段精确度”(modified n-gram precision)强调了翻译的两个方面:充分性和流畅度。
待评价译文同参考译文使用相同的n单位片段(n-gram)反映翻译的充分性,其中匹配片段的长度则反映了翻译的流畅度。
在机器翻译评价中通常使用的是整篇文章和大段文字,此BLEU方法也是如此,使用大文字量进行翻译评价。
使用大文字量可以减少偶然性的影响,从而生成更高质量的评价。
在BLEU方法中,首先逐个句子计算“n-单位片段”的匹配个数,然后将经过剪切的“n-单位片段”匹配记数加起来求和,再除以待评价译文中“n-单位片段”个数,得到一个“经修正的n-单位片段精确度值”(modified n-gram precision score),记作P n。
为了证明指标P n能够将质量不同的翻译结果区分开来,作者选取了一段高质量的人工译文和一段标准的机器译文(代表比较差的翻译结果),分别包括127个句子,使用4个参考译文,来分别计算它们的P n值。
当n-gram 的n取值1,2,3,4时,一共得到四个P n值。
结果显示随着n值增大,P n值的绝对值减小,而两个译文的P n值差别增大;而且当n=1时,P n值已经明显显示出两组的差别。
如原文图1.研究者们进一步检测了在译文质量相差不是非常明显的情况下,如比较几个不同的机器翻译结果,或者是比较几个不同的人工翻译结果,P n值这个指标能否对这些译文加以区分。
为了考察这一点,研究者们使用了三个机器翻译系统给出的译文,和两个人工翻译给出的译文,在n-gram 取值不同的情况下,各自计算了它们的P n值。
结果发现,在n为某一固定值时,各个译文得到的P n值大小都有差别,而且在不同n取值情况下,五个译文得到的P n值大小排列顺序是完全一致的。
如原文图2.2.3.BP值(Brevity Penalty)和BLEU值的计算公式P n值可以反映出译文的质量,那么不同n 取值的P n值是如何结合起来的呢?研究者们使用了P n值加权后的对数值之和的形式。
最终BLEU值是如何得到的呢?研究者们还考虑到一种情况,就是待测译文翻译不完全不完整的情况,这个问题在机器翻译中是不能忽略的,而简单的P n值不能反映这个问题。
因此研究者们在最后的BLEU值中引入了BP(Brevity Penalty)这个指标。
作者指定当待评价译文同任意一个参考译文长度相等或超过参考译文长度时,BP值为1,当待评价译文的长度较短时,则用一个算法得出BP值。
以c来表示待评价译文的长度,r来表示参考译文的文字长度,则BP={ 1 if c≥re(1−rc) if c<r最后得到BLEU值计算公式BLEU=BP∙∑w n logp nNn=13、对BLEU值指标评价效果的验证BLEU值的取值范围是从0到1的数值。
只有译文同参考译文完全一致的时候才会有评分为1的情况。
值得注意的一点是,使用越多的参考译文,BLEU评分值就越高。
因此在参考译文数量不同的情况下,对不同BLEU值的译文结果要慎重判断。
为了评价BLEU值指标的性能,作者使用了一份包含500个句子的文档进行翻译评价,选取了五种译文结果:三个为机器翻译系统给出的译文结果,用S1,S2,S3 表示,两个为非专业人工翻译译文结果,用H1,H2 表示。
评价中使用了两份参考译文。
结果如表1 所示。
表 1. 500个句子大小文字得到的BLUE值其中三个机器翻译译文S1, S2, S3的BLEU值非常接近。
作者还希望能回答以下三个问题:1.各个译文结果的BLEU值差异是否可信?2.BLEU值的方差是多少?3.如果我们选用另外一个500句子的文档,能得到相同的结果吗?为了回答这些问题,500个句子的文字被划分成20个部分,每个部分包含25个句子,然后分别使用这20个部分来计算译文的BLEU值。
这样五组译文(三个机器翻译结果,两个非专业人工翻译结果)各得到20个BLEU值。
然后对这五组BLEU值数据进行分析:计算均值,标准差,并对这五组数据每相邻两组(按照均值大小从左至右排列)进行比较,作配对T检验。
结果发现每个BLEU值同其左侧BLEU值比较,差别均具有显著性。
如表2所示。
最后研究者们还进行了了将BLEU评分结果同人工评分结果进行比较的研究。
同样是上面研究使用的机器译文,选取了两组人员进行人工评分,每组10人。