基于非连续短语的统计翻译模型研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第21卷 第1期2007年1月
中文信息学报
JOU RNAL OF CH INESE INFORM AT ION PROCESSIN G
V ol.21,No.1Jan.,2007
文章编号:1003-0077(2007)01-00101-08
基于非连续短语的统计翻译模型研究
张大鲲,张玮,冯元勇,孙乐
(中国科学院软件研究所中文信息处理中心,北京100080)
摘 要:目前统计机器翻译的主流方法仍然是基于短语的翻译模型。然而,该模型并没有考虑对非连续短语的处理。本文提出了一种基于非连续短语的统计翻译模型,利用该模型可以使翻译的基本单元从连续短语扩展到带有间隔的非连续短语,以更好地解决词语翻译时的上下文依赖问题。同时,由于该方法抽取的短语数量较少,也使得解码的效率得到了提高。实验表明,在效率提高的情况下,非连续短语模型可以取得与层次型短语模型相当的翻译结果。
关键词:人工智能;机器翻译;非连续短语;统计机器翻译;短语模型中图分类号:T P391 文献标识码:A
Research on Non -contiguous Phrase -based Model for S tatistical Machine Translation
ZH AN G Da -kun,ZH AN G Wei,FENG Yuan -yong,SU N Le
(Chinese Infor matio n P ro cessing Center,Institute o f Softw are,Chinese Academ y of Sciences,Beijing 100080,China)Abstract:T he phr ase -based stat istical machine translat ion mo del is still the most popular model nowadays.Ho wever ,non -contig uo us phrases are not taken int o acco unt in t his model.A st at istical machine tr anslatio n mo del based o n non -contig uous phrases is proposed in this paper.T he units of translation ar e ex tended fro m co ntiguous phrases to phrases with interv als in o rder to take adv ant age of the context dependence.With the less numbers o f phrases,the efficiency o f the deco der in o ur model is also impr oved.Ex per iment s show t hat w ith a better eff iciency the t ranslatio n r esults of our non -contig uous phrase -based model and hier archical mo del are comparable.
Key words:artificial intellig ence;machine tr anslat ion;no n -contig uous phr ase;statistical machine tr anslatio n;phrase -based model
收稿日期:2006-07-28 定稿日期:2006-10-20基金项目:国家自然科学基金资助项目(60203007)
作者简介:张大鲲(1980)),男,博士生,主要研究方向为统计机器翻译。
1 引言
基于短语的统计翻译模型[1~4]近年来逐渐取代了基于词的模型[5]
,成为统计机器翻译方法的主流。翻译的基本单元从词过渡到短语,可以更好地解决词在翻译时对上下文的依赖问题。基于短语模型的方法在翻译时将邻近的词串作为一个整体进行处理,因此词之间的重排序问题变成了短语内部的问题,降低了翻译模型的复杂程度,翻译质量有所提高。尽管这里的短语可以是任意词串,不要求必须是符合语法习惯的短语,但是却要求是连续的词串,
因此,具体地这种方法也可以称为/基于连续短语0
的翻译模型。
以非连续短语作为处理单元的方法在信息检索[6]
中取得了比较好的效果。Simard 等人首先将非连续短语方法用于统计机器翻译模型[7],翻译质量得到了一定程度的改善。然而Sim ard 所使用的非连续短语模型,要求短语内部的间隔(g ap)部分,必须是严格的词,因此在他们的模型中非连续短语的长度是固定的。比如:短语turn the light o n 和turn the left light on 在利用Sim ar d 的模型表示时,得到turn r r on 和turn r r r on(r 表示任意1个词)两个不同的短语。这样的短语形式不够灵活,
中文信息学报2007年
且数量巨大。本文的方法将这种短语扩展为一种短语turn s on(s表示任意1个或多个词),增强了模型的适应能力,同时调整了解码部分的设计以适应非连续短语的翻译。
本文的基本思想源自Simard[7]和Chiang提出的基于层次型短语的翻译模型[8]。非连续短语的间隔部分(s)也可以是短语,甚至整个句子都可以看作是短语(连续的和非连续的)的组合,比如:/他说,0可以翻译成/H e said that,0,这样就能够在更高的层次上模拟整句的翻译过程,从而更好地处理短语之间的重排序和上下文依赖问题。与层次型短语模型相比,非连续短语方法抽取的短语结构简单,数量大大减少,因此带来了计算时间和空间上的优势,这一点尤其在利用最小错误率方法[9]调整特征函数的权重时有明显体现。实验数据表明,在节省时间和空间的情况下,使用非连续短语方法的翻译质量也略有提高。非连续短语方法和Och提出的基于模版的翻译方法[10]的不同点在于:Och的方法主要是将词到词类的一个泛化,我们的方法不包含词类的概念。
本文其他部分的安排如下:第2部分给出非连续短语的定义和抽取方法;第3部分详细介绍基于log-linear模型的非连续短语模型;第4部分是对解码器进行改进的描述;第5部分是实验设计和结果分析;最后是结论和对未来工作的展望。
2非连续短语
使用非连续短语对基于短语的翻译模型进行扩展,目的是使模型具有更强的扩展性。比如:双语句对/请开灯0和/please turn the lig ht o n0,/他向她做鬼脸0和/he m ade a face to her0,如果能识别出句子中的短语/开,0等价于短语/turn, on0,短语/向,做鬼脸0等价于短语/made a face to,0,则可以提高模型对语言的适应能力,更好地对词与词之间的关系进行建模,得到更准确的翻译结果。
2.1定义
在非连续短语方法中,首先需要区分基本短语和扩展短语的概念。基本短语即普通的连续词串,不包含作为占位符的非终结符①;扩展短语即包含占位符的非连续短语。
沿用Zens[11]对双语短语的定义,如果一个双语短语对内部的所有词,只和该短语对内的词存在对齐关系,而不和任意一个短语对外的词存在对齐关系,我们称其为基本短语。如图1所示,根据图1 (a)中的词语对齐关系可以得到图1(b)中的基本短语(由于短语数量的问题,这里不考虑包含对空词的短语)。基本短语BP的形式化描述如公式(1),对于句子对(f J1;e I1)和相应的对齐矩阵A,基本短语表示为:
BP(f J1,e I1,A)={(f j+m j,e i+n i):P(i c,j c)
I A:j[j c[j+m\i[i c[i+n}(1)
如果〈f,e〉和〈C,A〉是基本短语对,且f= f1C f2,e=e1A e2,则f1s f2和e1s e2是一个扩展短语对(s表示任意1个或多个词),即非连续短语对,图1(c)是根据图1(b)得到的非连续短语,抽取算法见2.2节。
2.2非连续短语抽取
翻译模型的基础是短语对列表,短语对的质量也直接决定着最终的翻译质量,因此如何从双语句对齐语料中,获得短语对列表是首先需要解决的问题。目前抽取短语的方法有Och提出的基于改进的词对齐抽取方法[12],这种方法也是基于短语的翻译模型广泛采用的方法[4,8]。此外,也有直接计算短语对列表和相应概率值的方法[3],以及利用非负矩阵分解抽取短语的方法[13]。本文方法是对第一种方法的改进。
Och的短语抽取方法:首先利用GIZA++对双语语料进行词对齐的双向训练(中)英,英)中),分别取两次训练结果的交集和并集,再从交集出发,扩展每个对齐点的邻近点,其上限是对齐结果的并集,形成如图1(a)所示的对齐矩阵。依次循环每一个可能的词语组合,如果符合基本短语的定义,则添加到基本短语列表中[12](图1(b)中的短语按照抽取的顺序排列)。在抽取基本短语对之后,可以进行扩展短语的抽取,只需要去掉词串必须是连续的这一限制即可。非连续短语的抽取过程是一个动态程序过程。算法描述如图2所示。
同样,为了保证解码阶段的效率,需要限制基本短语和扩展短语的长度,本文分别取10和5(s的长度为1);对非连续短语还有一个额外的约束,即
102
①这里的占位符和非终结符用s表示,指非连续短语的间隔
部分,可以是任意的词或连续词串;终结符是指词。