基于短语的统计机器翻译系统

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计机器翻译中涉及大量的统计模型。

简单的说,这些统计模型分为两类,一类是框架模型,另一类是特征模型。

每一个特征模型都从一个侧面反映了机器翻译源语言S翻译到目标语言T的概率,而框架模型决定了这些特征模型怎么组合得到总体的翻译概率。

主要的框架模型有两种:噪声信道模型和对数线性模型。

噪声信道模型
噪声信道模型是IBM公司提出的模型。

在这种模型中,把机器翻译看成是一个信息传输的过程。

假设说话者已经用目标语想好了一句话T,但是说出的却是源语言的句子S。

这个过程可视为编码过程。

而统计机器翻译就是要从S回推到T,可视为解码过程。

可以认为,一种语言T由于经过了一个噪音通道而发生了扭曲变形,从而在信道的另一端为另外一种语言S,翻译问题实际上就是如何根据观察到的S,恢复最为可能的T的问题。

机器翻译过程就是解码过程,出发点就是贝叶斯公式:
对于给定的源语言句子S来说,分母是一个非随机量,因此可以忽略不计。

那么翻译的过程转化为求条件概率最大值的问题。

这个公式被称为统计机器翻译的基本方程式。

为什么不直接使用P(T/S),而是使用两者乘积这样一个更加复杂的公式来估计译文的概
率呢?其原因在于,如果直接使用P(T/S)来选择合适的T,那么得到的T很可能是不符合译文语法的,而语言模型就可以保证得到的译文尽可能的符合语法。

在噪声信道模型中,统计机器翻译问题被分解为三个问题:
语言模型的参数估计;
翻译模型的参数估计;
搜索问题,寻找最优的译文。

对数线性模型
对数线性模型,早期也被称为最大熵模型,是Och在ACL2002会议上提出来的,该论文被评为该次会议的最佳论文。

Och在试验中发现,如果把噪声信道模型中的反向翻译模型P(S/T)换成正向翻译模型P(T/S),系统的性能并没有明显的变化,更进一步,如果在语言模型和正向翻译模型之间加上一个加权参数,通过调整这个参数,可以大大提高实验系统的性能。

很明显,这种做法从噪声信道模型的思想来看是合理的。

于是Och提出了一种新的统计机器翻译框架模型,就是对数线性模型。

对于给定的S,其最佳译文T可以用以下公式表示:
可以看到,如果将两个特征分别取为语言模型和翻译模型,并去权重均为1,那么这个模型就等价于噪声信道模型。

在特征模型中,语言模型和翻译模型依然是最重要的两个特征模型,其它一些模型通常都比较简单,其重要性也不如这两个模型。

语言模型
一个基于统计的语言模型以概率分布的形式描述了任意语句(字符串)T属于某种语言集合的可能性。

翻译模型
翻译模型是非常复杂的,因为它描述的是整个句子S和T的概率分布。

为了减少复杂性,使用词对齐的概率。

它获取源语言和目标语言之间的对应,从句子对齐的语料中获取词对齐的信息。

因为这种对应不是唯一的或确定的,它们也被描述为概率分布,得到翻译概率。

对于翻译模型,IBM公司提出了5中复杂程度递增的数学模型,简称为IBM Model 1-5。

举例来看一下在IBM模型3框架下,如何通过句子对齐来计算翻译概率。

首先需要知道什么情况属于变形,什么情况属于繁衍。

如图1所示,英语单词“put”在英语句子中的位置是2,其对应的“放”在中文句子中的位置不是2,而是6,这种情况就把它称之为变形。

英语单词“on”对应着两个汉语词“在”和“上”,这种情况称之为繁衍,繁衍率表示英语词对应汉语词的个数。

在这里,on的繁衍率为2。

了解了变形和繁衍之后,就容易理解模型3在计算直译概率、变形概率和繁衍概率时需要考虑什么。

图1 变形和繁衍
图2 源语言词和目标语言词的位置对应
图3 IBM模型3的一个示例
基于短语的统计机器翻译模型逐渐取代了基于词的模型,成为统计机器翻译方法的主流。

翻译的基本单元从词过渡到短语,可以更好地解决词在翻译时对上下文的依赖问题。

基于短语的方法,使得临近的词串在翻译时仍然作为一个整体进行处理,因此词之间的重排序问题变成了短语内部的问题,不再需要翻译模型单独处理。

所以,翻译质量有了明显提高。

实现一个基于短语的统计机器翻译系统,在训练好的模型基础上,将经过预处理的语料,通过解码器进行翻译。

翻译的核心工作是在解码器中完成的。

对于输入端的英文句子,首先到翻译模型中寻找所有可能的翻译候选项,将它们全部读到内存中,然后结合语言模型,进行搜索得到最佳翻译结果。

整个翻译系统如图4所示。

图4 英汉统计机器翻译系统
基于短语的翻译
基于短语进行翻译时,源语言句子以短语为代价进行切分,每一个短语被翻译成相对应的目标语言短语,目标语言短语经过重排序后生成较符合语法的目标语言句子。

不过这里所提到的短语不是语法意义上的短语,只是相邻的词组。

给定一个源语言句子,对这个句子进行短语划分有很多种可能,这些不同的短语所对应的目标语言短语也有很多种可能,把与源语言短语相对应的目标语言短语称之为翻译候选项。

图5 短语翻译示例
图6展示了英文句子“she put a bunch of flowers on the table yesterday.”对应的翻译候选项。

图6 翻译候选项
每一个英语词或每一组英语词所对应的翻译候选项在解码器开始翻译之前被收集起来,而这些翻译候选项就作为解码器进行搜索的搜索空间。

解码器只需要在这些翻译候选项中找出一组符合语法的翻译候选项组合作为最终的翻译结果,这里的寻找符合语法的实际上是寻找概率值较高的。

翻译候选项中携带的信息:
目标语言短语所对应的源语言短语的第一个词(起始位置)
目标语言短语所对应的源语言短语的最后一个词(结束位置)
目标语言短语
短语翻译概率
比如在图6中,翻译候选项“一束花”中携带的信息包括:a,flowers,一束花,p(一束花|a bunch of flowers)。

搜索过程
基于短语的统计机器翻译解码器采用堆栈搜索算法,目标语言句子以状态扩展的形式自左至右生成。

每个状态中有源语言信息S,有目标语言信息T,还有翻译概率P。

状态扩展如图7所示。

图7 状态扩展图
T表示目标语言S表示源语言P表示短语翻译概率。

相关文档
最新文档