评价准则介绍

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

BLEU具体介绍

BLEU:Bilingual Evaluation Translation

人类评价翻译质量需要考虑以下三方面的情况:adequacy,fidelity (忠实度),fluency(流利度)。

BLEU准则的目的:快速,与语言无关,与人类的评价相关度高。

机器翻译评价系统需要以下两种成分:

1. a numerical “translation closeness” metric

2.a corpus of good quality human reference translations

比较两者n-gram匹配程度,而且与位置无关。

例子1:

我们的标准的最重要的基石是大家都熟悉的precision,对于一元来说,计算准确率公式为:机器翻译中的词出现在参考译文中的词的个数/机器翻译中的总词数。

但是不幸的是,如下面例子2所示,机器翻译系统会过多的产生一些“合理的”词,使准确率提高,但是这不是我们想要的结果。

例子2:

于是我们提出了修正的precision,公式如下所示:

Count clip

Max

Count

)

_

f

Re

min(Count

_

,

其中公式中Count为某N元词在被测译文中出现的次数,

Max_Ref_Count为该N元词在一个参考译文中最大的出现次数。

如例子2所示,修正的一元的准确率为2/7。

修正的N元词的准确率的计算公式与一元的相似。

对于例子1来说:Candidate 1的修正的2元的准确率为10/17(修正不修正都为这个结果),Candidate 2的修正的2元的准确率为1/13。但是对于例子2来说,修正的2元的准确率为0。一元匹配满足adequacy,多元匹配满足fluency。

修正的n-gram的准确率随着n的增加呈现指数级别的衰减,因此我们需要的权重为对数权重。

机器翻译的结果不能太长也不能太短,评价标准应该以这个来约束。在一定程度上,n-gram的准确率已经满足了这个要求(n-gram

准确率惩罚那些虚假的词,而且还惩罚那些在机器翻译结果中出现的次数比参考答案中出现的次数多的词)。但是修正的n-gram的准确率对于翻译系统翻译的句子长度没有过多的限制,如下面例子3所示。

例子3:

因为例子3中Candidate相比于正确的长度来说太短了,修正的一元的准确率为2/2,修正的二元的准确率为1/1。

传统的来说,提出recall来约束这个与句子长度相关的问题。但是BLEU需要考虑多个参考翻译译文,每一个参考翻译对于相同的需要翻译的词翻译为不相同的词。而且,一个好的Candidate只需要这些参考中的一个,而不是全部。的确,recall所有的参考译文会产生一个坏的翻译,如下面例子4所示。

例子4:

Candidate 1从参考中可以recall的词比Candidate 2 多,但是明显的来说翻译1比2坏的多。因此,传统的recall计算并不是一个好

的方法。于是提出了Sentence brevity penalty 的概念。

Candidate 翻译比参考翻译长时已经通过修正的n-gram 进行惩罚了,现在只需要惩罚Candidate 翻译小于等于参考翻译的情况。当参考译文和翻译译文的长度相同时,惩罚值为1。比如:当参考译文的长度为12,15,17时,翻译译文的长度为12时,此时惩罚值为1。如果有两个参考译文的长度和翻译译文的长度同样接近,但一个较长另一个稍短,则取较短的译文的长度。如:翻译译文长度为10,参考译文的长度为8、9、11、15,则参考译文长度认定为9。

惩罚值计算公式:

⎩⎨⎧≤>=-)()(1)/1(r c if r c if BP e

c r 然后BLEU 的计算公式如下:

)log exp(1p w n N

n n BP BLEU ∑=∙= 如果取对数的话,BLEU 的计算公式如下所示:

p w n N n n c r BLEU log )0,1min(log 1

∑=+-= 基线当中,4=N ,权重N

w n 1= 忠实度,流利度

忠实度:输出译文是否传达与原文相同的意思?部分语义信息丢失了、增加了还是被曲解了?

流利度:输出译文是否为流利的英文?包括语法正确性和惯用语选择两个方面。

准确率,召回率,f 测度

P:length

output correct precision -= 不考虑词序。仅仅关注单词匹配而不顾单词顺序,是有缺陷的。因此,我们可以计算系统应该生成的正确单词的个数,而不是系统输出译文中正确的单词数。 R:length

reference correct recall -= 这两个指标都容易被蓄意利用。可以让系统只输出确定的译文单词,译文可能非常短,但有很高的准确率(而召回率很低)。相应的,也可以让机器翻译系统输出所有可能的单词,那么这些译文词与参考译文中所有单词匹配的概率就很高。译文可能会很长,但能获得一个很高的召回率(而准确率很低)。

在机器翻译中,一般同等的对待准确率和召回率。我们既不想输出错误的单词,也不想遗漏任何信息。通常是把准确率和召回率组合在一起,称为f 测度(f-measure ),把它定义为准确率和召回率两个指标的调和平均: F:2

/)(recall precision recall precision measure f +⨯=- 在机器翻译评测中,这个公式可以被写为:

2

/)(length reference length output correct measure f -+-=- 位置无关的错误率(position-independent error rate ),这是一个错误率指标,因此计算的是错误匹配的程度,而不是正确匹配的程度。为了克服过长译文带来的问题,该指标也考虑那些需要作为错误删除

相关文档
最新文档