机器翻译原理与方法讲义(03)基于词的统计机器翻译方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 目前为止,其他形式的语言模型效果都不如N元语法模型 • 统计机器翻译研究中开始有人尝试基于句法的语言模型
机器翻译原理与方法讲义(02)机器翻译方法 12
N元语法模型-概念辨析
• N元语法模型:N-Gram Model。 • 所谓N-Gram,指的是由N个词组成的串,可以称 为“N元组”,或“N元词串”。 • 基于N-Gram建立的语言模型,称为“N元语法模型 (N-Gram Model)”。 • Gram不是Grammar的简写。在英文中,并没有 N-Grammar的说法。 • 在在汉语中,单独说“N元语法”的时候,有时指“N 元组(N-Gram)”,有时指“N元语法模型(N-Gram Model)”,请注意根据上下文加以辨别。
9
内容提要
• • • • • • • • • 为翻译建立概率模型 IBM的信源信道模型 语言模型 –– n元语法模型 翻译模型 –– IBM模型1-5 词语对齐算法 解码算法 Candide系统 Egypt工具包与Giza++ 机器翻译自动评价
机器翻译原理与方法讲义(02)机器翻译方法 10
语言模型
• 统计语言模型把一种语言理解成是产生一个句 子的随机事件。在统计语言模型看来,对于一 种语言,任何一个句子都是可以接受的,只是 接受的可能性(概率)不同 • 语言模型给出任何一个句子的出现概率: Pr(E=e1e2…en) 归一化条件:ΣEPr(E)=1 • 统计语言模型实际上就是一个概率分布,它给 出了一种语言中所有可能的句子的出现概率
机器翻译原理与方法讲义(02)机器翻译方法 2
为翻译建立概率模型
• 假设任意一个英语句子e和一个法语句子 f, 我们定义f翻译成e的概率为:
Pr(e | f )
其归一化条件为:
e
∑ Pr(e | f ) = 1
机器翻译原理与方法讲义(02)机器翻译方法
• 于是将 f 翻译成 e 的问题就变成求解问题:
信源信道模型 (1)
• 信源信道模型又称噪声信道模型,是由IBM 公司的Peter F. Brown等人于1990年提出来 的:
Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, Paul S. Roossin, A Statistical Approach to Machine Translation, Computational Linguistics,1990
机器翻译原理与方法讲义(02)机器翻译方法
20
翻译模型与对齐
• 翻译模型的计算,需要引入隐含变量: 对齐A: P(F | E ) = ∑ P (F, A | E )
A
• 翻译概率P(F|E)的计算转化为对齐概率 P(F,A|E)的估计 • 对齐:建立源语言句子和目标语言句子 的词与词之间的对应关系和句子结构之 间的对应关系
机器翻译原理与方法讲义(02)机器翻译方法 21
词语对齐的表示 (1)
图形表示
连线 矩阵(见下页)
1 China 2 ’s 3 14 4 open 5 board 6 cities 7 marked 8 economic 9 achievement 中国 1,2 十四 3 个 3
数字表示
给每个目标语言单 词标记其所有对应 的源语言单词
Pr( f j | a1j , f1 j −1 , m, E) = t ( f j | ea j )
机器翻译原理与方法讲义(02)机器翻译方法 27
IBM Model 1 的推导(2)
那么对齐概率可以表示为:
Pr(F, A | E) =
ε
(l + 1)
m
∏ t( f
j =1
m
j
| ea j )
对所有可能的对齐求和,那么翻译概率就可以表 示为:
机器翻译原理与方法讲义(02)机器翻译方法 7
语言模型与翻译模型
• 考虑汉语动词“打”的翻译:有几十种对应的英语词 译文:
打人,打饭,打鱼,打毛衣,打猎,打草稿,……
• 如果直接采用翻译模型,就需要根据上下文建立 复杂的上下文条件概率模型 • 如果采用信源-信道思想,只要建立简单的翻译 模型,可以同样达到目标词语选择的效果:
• 假设:单词wi出现的概率只与其前面的 N-1个单词有关
机器翻译原理与方法讲义(02)机器翻译方法 14
N元语法模型-举例
• N=1时:一元语法模型
– 相当于词频表,给出所有词出现的频率
• N=2时:二元语法模型
– 相当于一个转移矩阵,给出每一个词后面出现另一个 词的概率
• N=3时:三元语法模型
– 首先猜测该单词由哪一个源语言单词翻译而来; – 再猜测该单词应该翻译成什么目标语言词。
机器翻译原理与方法讲义(02)机器翻译方法 25
IBM Model 1 & 2 推导方式 (2)
假设翻译的目标语言句子为: 假设翻译的源语言句子为: 假设词语对齐表示为:
A = a1m = a1a2
m
F = f1m = f1 f 2
机器翻译原理与方法讲义(02)机器翻译方法 16
袋子模型 Bag Model (1)
• 将一个英语句子中所有的单词放入一个袋 子中 • 用N元语法模型试图将其还原
– 对于这些单词的任何一种排列顺序根据N元语 法模型计算其出现概率 – 取概率最大的排列方式
机器翻译原理与方法讲义(02)机器翻译方法
17
Pr(F | E) = ∑ Pr(F, A | E) =
A
ε
(l + 1)
m
∑ ∑∏ t ( f
a1 =1 am =1 j =1
l
l
m
j
| ea j )
ˆ e = argmax Pr(e | f )
e
3
内容提要
• • • • • • • • • 为翻译建立概率模型 IBM的信源信道模型 语言模型 –– n元语法模型 翻译模型 –– IBM模型1-5 词语对齐算法 解码算法 Candide系统 Egypt工具包与Giza++ 机器翻译自动评价
机器翻译原理与方法讲义(02)机器翻译方法 4
边境 5 开放 4 城市 6 经济 8 建设 9 成就 9 显著 7
机器翻译原理与方法讲义(02)机器翻译方法
22
词语对齐的表源自文库 (2)
achievement economic marked cities board open 14 ‘s China 中国 十四 个 边境 开放 城市 经济 建设 成就 显著
机器翻译原理与方法
第三讲 基于词的统计机器翻译方法 刘群
中国科学院计算技术研究所 liuqun@ict.ac.cn
中国科学院计算技术研究所2008-2009年度秋季课程
内容提要
• • • • • • • • • 为翻译建立概率模型 IBM的信源信道模型 语言模型 –– n元语法模型 翻译模型 –– IBM模型1-5 词语对齐算法 解码算法 Candide系统 Egypt工具包与Giza++ 机器翻译自动评价
机器翻译原理与方法讲义(02)机器翻译方法 11
语言模型的类型
• 理论上,单词串的任何一种概率分布,都是一个语言模型。 • 实际上,N元语法模型是最简单也是最常见的语言模型。 • N元语法模型由于没有考虑任何语言内部的结构信息,显然 不是理想的语言模型。 • 其他语言模型:
– 隐马尔科夫模型(HMM)(加入词性标记信息) – 概率上下文无关语法(PCFG)(加入短语结构信息) – 概率链语法(Probabilistic Link Grammar)(加入链语法的结构信 息)
袋子模型 Bag Model (2)
• 实验:取38个长度小于11个单词的英语句子,实验结果如 下:
机器翻译原理与方法讲义(02)机器翻译方法
18
内容提要
• • • • • • • • • 为翻译建立概率模型 IBM的信源信道模型 语言模型 –– n元语法模型 翻译模型 –– IBM模型1-5 词语对齐算法 解码算法 Candide系统 Egypt工具包与Giza++ 机器翻译自动评价
机器翻译原理与方法讲义(02)机器翻译方法
5
信源信道模型 (2)
P(E) E P(F|E) F
• 假设我们看到的源语言文本F是由一段目标语言文 本E经过某种奇怪的编码得到的,那么翻译的目标 就是要将F还原成E,这也就是就是一个解码的过 程。 • 注意,在信源信道模型中:
– 噪声信道的源语言是翻译的目标语言 – 噪声信道的目标语言是翻译的源语言
fm
E = e1l = e1e2
, m}, ai ∈ {0,
el
, l}
am , ∀i ∈ {1,
那么词语对齐的概率可以表示为:
Pr(F, A | E) = Pr(m | E)∏ Pr(a j | a1j −1 , f1 j −1 , m, E ) Pr( f j | a1j , f1 j −1 , m, E )
机器翻译原理与方法讲义(02)机器翻译方法 19
翻译模型
• 翻译模型P(F|E)反映的是一个源语言句子E 翻译成一个目标语言句子F的概率 • 由于源语言句子和目标语言句子几乎不可 能在语料库中出现过,因此这个概率无法 直接从语料库统计得到,必须分解成词语 翻译的概率和句子结构(或者顺序)翻译 的概率
– 相当于一个三维转移矩阵,给出每一个词对儿后面出 现另一个词的概率
• 在自然语言处理中,N元语法模型可以在汉字层 面,也可以在单词层面,还可以在概念层面……
机器翻译原理与方法讲义(02)机器翻译方法
15
二元语法模型-图示
P(t-i-p) = P(X1 = t)P(X2 = i|X1 = t)P(X3 = p|X2 = i) = 1.0×0.3×0.6= 0.18
机器翻译原理与方法讲义(02)机器翻译方法 24
IBM Model 1 & 2 推导方式 (1)
源语言句子E: I1 am2 a3 student4
目标语言句子F: 词语对齐A:
我 1
是 2
一 3
个 3
学生 4
IBM模型1&2的推导过程: 1. 猜测目标语言句子长度; 2. 从左至右,对于每个目标语言单词:
– 翻译模型:不考虑上下文,只考虑单词之间的翻译概率 – 语言模型:根据单词之间的同现选择最好的译文词
机器翻译原理与方法讲义(02)机器翻译方法 8
统计机器翻译的三个问题
• 三个问题:
– 语言模型P(E)的建模和参数估计 – 翻译模型P(F|E)的建模和参数估计 – 解码(搜索)算法
机器翻译原理与方法讲义(02)机器翻译方法
23
机器翻译原理与方法讲义(02)机器翻译方法
IBM Model
对P(F,A|E)的估计 IBM Model 1仅考虑词对词的互译概率 IBM Model 2加入了词的位置变化的概率 IBM Model 3加入了一个词翻译成多个词 的概率 • IBM Model 4 • IBM Model 5 • • • •
这与整个机器翻译系统翻译方向的刚好相反
机器翻译原理与方法讲义(02)机器翻译方法 6
统计机器翻译基本方程式
E = arg max P ( E ) P (F | E )
E
• P.Brown称上式为统计机器翻译基本方程式
– 语言模型:P(E) – 翻译模型:P(F|E)
• 语言模型反映“ E像一个句子”的程度:流利度 • 翻译模型反映“F像E”的程度:忠实度 • 联合使用两个模型效果好于单独使用翻译模 型,因为后者容易导致一些不好的译文。
机器翻译原理与方法讲义(02)机器翻译方法 13
N元语法模型-定义
• N元语法模型(N-gram Model)
P ( w ) = ∏ P ( wi | w1 w2 ... wi −1 )
i =1 n n
≈ ∏ P ( wi | wi − N +1 wi − N + 2 ... wi −1 )
i =1
j =1
注意:在IBM Model中,词语对齐只考虑了源语言到目标语 言的单向一对多形式,不考虑多对一和多对多的形式。
机器翻译原理与方法讲义(02)机器翻译方法 26
IBM Model 1 的推导 (1)
假设所有翻译长度都是等概率的: Pr(m | E) = ε 假设词语对齐只与源语言长度有关,与其他因素 无关: 1 j −1 j −1 Pr(a j | a1 , f1 , m, E) = l +1 假设目标词语的选择只与其对应的源语言词语有关, 与其他因素无关: