常用统计翻译模型在口语汉英翻译中的比较研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:2006-02-11;修返日期:2006-06-30 基金项目:国家“863”计划资助项目(2004AA117010-08)
作者简介:李俊(1979-),男,湖北襄樊人,硕士研究生,主要研究方向为统计机器翻译(junli@mtla );薛永增(1977-),男,博士研究生,主要研究方向为机器翻译;赵铁军(1962-),男,博导,主要研究方向为自然语言处理、人工智能等.
常用统计翻译模型在口语汉英翻译中的比较研究
*
李 俊,薛永增,赵铁军
(哈尔滨工业大学计算机科学与技术学院语音语言教育部微软重点实验室,黑龙江哈尔滨150001)
摘 要:通过汉语到英语的翻译实验以及对结果译文的分析,对基于词的模型、基于短语的模型和基于句法的模型的翻译性能进行了比较。结果表明基于短语的模型性能优于其他两个模型,但是使用的参数较多;基于句法的模型虽然翻译性能不理想,但可以用较少的参数表达更丰富的信息,值得深入研究。关键词:自然语言处理;统计机器翻译;翻译模型;句法分析器
中图分类号:TP 391.2 文献标志码: A 文章编号:1001-3695(2007)06-0069-03
Com pa rat ive St udy of St at istical Tra nslat ion Models on
Chinese-English Speech T ran slat ion
LI J un,XU E Yong-z eng,ZHAO Tie-jun
(M OE-MS Key Laboratory of Natural L anguage Proces sing &Speech,S chool of C omputer Science &Technology,H ar bin Institute of Technology,H ar bin H eilongjiang 150001,China)
Abst ract :According t o the linguis tics inform a tion,t here are prim ary w ord-bas d,phras ed-ba sed and sy nta x-ba sed tra ns la tion m odels:B y analyz ing and com pa ring the tra ns la tion res ult s,it ’s found that t he perform ance of the phras e-ba sed tra ns la tion m odel is t he best.The sy nt ax -ba sed m odel is t he w orst,but it us es less para m et ers t han t he ot her t wo.It encodes rich inform a-t ion w it h a few param eters,so it ’s deserved furt her research.
Key wo rds:nat ura l la nguag e processing ;st at is tica l m achine trans lat ion;tra ns la tion m odel;parser 机器翻译的目标就是将给定的一个源语言文本翻译成目标语言文本。对汉英翻译来说,输入一个汉语句子c(c m
1,m 为
句子长度),可能会有很多英语译文e(e n
1,n 为句子长度),统计
机器翻译的任务是在所有可能的译文中,找到最佳译文。根据B ayes 公式可得到
e *=arg m ax e
P(e |c)=ar g max e
P(c |e)P(e)
(1)
式(1)包含了两方面的问题,即建模和解码。其中,P(e)是语言模型(La ngua ge Model,LM);P (c |e)表示翻译模型(Translat ion Model,TM);这里的arg m a x 表示解码问题。
早在1949年,Wea ver 就提出利用统计方法研究机器翻译问题。其基本思想是把外语看成是对本地语言的一种编码,而翻译过程就是对外语文章进行解码,用本地语言表达同样的意思。20世纪90年代初,IB M T.J.Wat son 研究中心的Brown 等人开创性地提出了词对词的统计翻译模型,并以此为基础构建了C andide 系统
[1]
。此后对IBM 模型比较重要的改进包括在
IB M 模型2的基础上提出基于隐马尔可夫模型的对齐模型(HMM-ba sed Alignm ent M odel),以及基于IBM 模型4和基于HM M 词对齐模型的对数线性模型。在基于词的统计翻译模型基础上,又相继提出了基于短语和基于句法的统计翻译模型。基于短语的统计翻译模型是目前研究的一个热点,主要包括基于浅层短语结构的翻译模型、对齐模板(Alignm ent Tem pla te)模型、Koehn 的短语翻译模型、基于双语语块(Co-Chunk)的翻译模型等。基于句法的统计翻译模型由于引入了层次结构信
息,有望处理长距离依赖和调序问题,正逐渐成为新的研究热点。这类模型大致可以分为语言学驱动(Ling uist ically-m ot iv a-ted)的模型和非语言学驱动的模型。前者依赖于句法分析树的指导,如Yam a da 的树—串统计翻译模型、概率树替换文法(Probabilistic Tree S ubst it ution Gra m m ar)模型以及多文本文法模型(Mult i-Text Gra m ar,M TG);后者是无指导的,在翻译过程中建立层次结构,主要包括反向转换文法(Inversion Transduc-tion Gram m a r,ITG)模型、中心词转录机(Hea d Transducer)模型、层次化短语翻译模型(Hiera rchical Phra se-based Model)等。此外还有一类模型,利用句法信息来抽取非层次化的短语翻译等价对,可以看做是介于短语和句法翻译模型之间的一类统计翻译模型。
1 翻译模型概述
1.1 基于词的翻译模型
IBM 翻译模型是目前统计翻译模型研究的基础,包括模型1~5。其中模型1、2是基于对齐的模型;模型3~5是基于繁殖数的模型。
模型1、2是假设英语句子中的每个单词都与汉语句子中的一个或多个词存在着对应关系,具体描述为[2,3]
P(c |e)=
∑a ∈Λ(e,c )
P(c,a |e)(2)
其中,Λ(e,c)代表汉语句子c =c m
1=c 1,c 2,…,c m 与英语句子
第24卷第6期2007年6月计算机应用研究
Applicat ion Research of Com puters Vol.24No.6J une 2007