统计机器翻译
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计机器翻译
来自维基百科,免费的百科全书
统计机器翻译(SMT)是一种机器翻译的模型,译文在统计模式的基础上生成,而统计模式所需的参数来自于对双语文本语料库的分析。
机器翻译中基于统计的方法与基于规则的方法和基于实例的方法相对。
统计机器翻译的最初想法由Warren Weaver在1949年〔1〕提出,其中包括对Claude Shannon 的信息理论。
统计机器翻译在1991年时由IBM公司的托马斯•J•沃森研究中心的研究者们再次提出,并且对近些年来重新唤起人们对机器翻译的兴趣作出重大贡献。到2006年为止,它已经是研究最广泛的机器翻译模型。
优势
统计机器翻译相对于最常被人们谈论的传统模型的优势如下:
•更好地利用资源
o存在着大量可被机器读取的格式的自然语言。
o通常,统计机器翻译系统不是针对于任何具体的语言配对。
o基于规则的翻译系统需要对语言规则的手动开发,这样不仅成本很高,而且通常对其它语言不适用。
•更多的自然语言翻译资料
统计机器翻译的想法来自于信息理论。本质上来说,文档的翻译在基于可能性的p(e | f),其中的本国语言(例如英语)字符“e”就是对外国语言(例如法语)中字符“f”的翻译。一般来说,这些可能性都是利用参数估算的技术实现。
将贝叶斯法则应用于p(e | f)这个外语字符译成母语字符的可能性,会得到这一可能性,其中的翻译模型p(f | e)表示母语字符是对外语字符的翻译的可能性,而语言模型p(e)表示那个母语字符出现的可能性。从算术上来说,发现最佳译文也就是选取出现概率最高的那个。
要严格执行这一过程就必须对母语中所有字符e *进行穷举搜索。有效搜索就是机器解码器要做的工作,利用外语字符、启发式的或其它方法来限制搜索范围,同时保证合意的译文质量。质量和所耗时间之间的这种交换在语音识别方面也可以看到。
翻译系统不能将所有的母语字符串和它们的译文都存储起来,所以只能对文档进行逐句翻译,但即使这样也还是不够的。语言模型是典型的可被稳定的n-gram模型模拟的,并且同样的方法已经应用于翻译模型,但是语言中不同的句子长度和词汇顺序造成了更多的复杂问题。
统计机器翻译模型最初是基于词汇的(来自IBM的模型1-5),但是在引入了基于短语的模型之后有了重大的发展。近期已经引入了句法或类似语法的结构。
基于词汇的的翻译
在基于词汇的翻译中,待译的元素是所有的词汇。实际上,由于复合的词汇、词法和习惯用
语,待译语句中的词汇数量是不同的。所译词汇顺序的长度比被称作生产力,它告诉我们每个母语词汇会产生多少外语词汇。简单地基于词汇的翻译无法翻译生产率不是1的语言对儿。要使基于词汇的翻译系统能够有效处理,例如,高生产率的情况,系统可以将一个词与多个词对应,但反之则并非如此。例如,我们在将法语翻译成英语时,每个英语词可以产生出零到多个法语词。但是我们却没有办法将两个英语词结合起来生成一个法语词。
基于词汇的翻译系统的一个实例是包含IBM模型的免费软件GIZA++package(GPLed)。
基于短语的的翻译
在基于短语的翻译中,通过按原文词序安排译文词序的翻译方法来减少基于词汇的翻译系统的限制,而短语的长度可以不同。这些词组被称赋予如“词块”或“短语”这样的称呼,但这些短语并非语言学上的,而是利用统计的方法从语料库中发现提取的。将短语局限在语言学短语的方法已经被证明会降低翻译的质量。
基于句法的翻译对统计机器翻译的挑战
统计机器翻译不得不处理的问题包括:
复合词
习惯用语
词法
迥异的词序
不同语言的词序也不相同。我们可以通过一个句子中的主语(S)、谓语(V)和宾语(O)的顺序来给语言分类,例如,SVO或者VSO语言。词序上还有其它的不同之处,例如,名词修饰语的位置。
在语音识别中,语音符号和相应的文本表述可以按顺序批量互相对应。但这在以两种语言表述的同一文本中却不能普遍应用。对于统计机器翻译来说,翻译模型仅可以翻译小块的词组,并且有时候要考虑到词序的问题。典型的解决方案是重排序模型,根据双语对齐文本针对每个翻译的条目改变词语的位置。通过语言模型给不同的位置变化排序,选取最佳方案。
句法
集外词
统计机器翻译将不同的单词形式存储为单独的互不相关的符号,并且无法翻译不在测试集中的不同的单词形式或短语。出现集外词的主要原因包括测试集的局限性、范围的变化和词法。