机器翻译原理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器翻译原理
Part Ⅵ
双语语料库对齐及 翻译知识自动获取技术
MTLAB of HIT
主要内容
概述
为什么要自动地获取知识(Why ?) 获取什么知识 (What ?) 如何获取知识 (How ?)
双语语料库对齐加工
句子对齐 词汇对齐 结构对齐
翻译知识的获取
直接利用双语语料库获取翻译知识的研究 间接利用双语语料库获取翻译知识的研究
基于词典的词对齐( ) 基于词典的词对齐(1)
完全基于词典的词对齐实验( 完全基于词典的词对齐实验(DA)
正确率: 正确率 96.16% 召回率: 召回率:55.37%
正确对齐的词对数 正确率 = × 100% 得到的对齐词对总数
正确对齐的词对数 召回率 = × 100% 标准对齐文本中的词对 总数
DTSim e, c) = maxSim(d , c) + (Count(Sim(d , c) > h1 ) −1) * 0.1 (
d∈DTe d∈DTe
基于模糊匹配的词对齐( 基于模糊匹配的词对齐(DSimA)
h1>0.5 正确率: 94.47% h1>0.7 正确率: 96.13% 召回率:68.49% 召回率:58.92%
主要思想: 对大规模双语语料库进行统计,获得对译 词的翻译概率 Brown(1,778,620),Gale(897,077),Dagan … 基于统计机器翻译模型的词汇对齐(Brown) 基于统计机器翻译模型的词汇对齐 其中的翻译模型通过词汇对齐模型来实现; 通过EM算法迭代训练词汇翻译概率; 问题:参数空间巨大; 局部最优 基于同现的词汇对应抽取(Gale &Church) 基于同现的词汇对应抽取 同现测度函数:联列表, 互信息,Dice系数,对数似 然比
基于长度的句子对齐方法
源语言文本的长度与译文长度有很强的相关性 基于词数长度的对齐(Brown) 基于字符数的长度对齐方法(Gale Church) 这些算法都把句子对齐看作是句子长的函数;不需 要额外的词典信息;但是容易造成错误的蔓延。
基于词汇的句子对齐方法
Simard等人提出了在长度标准上加上同源概念 (Cognate) 来提高来自百度文库法的性能 Kay和Roscheisen提出了另一种基于语汇的对齐算法, 在该算法中选择句子对齐的标准是其中词汇对齐的 数量。
其他
基于语言学比较(Huang),利用Chunk分析(Sun)
英汉双语语料库词对齐实验
现有方法存在的问题
统计方法:语料库规模小,统计数据不足 统计方法 词典方法: 词典方法:词典译文覆盖率较低,对齐的召回率低
改进
统计方法:在小规模语料库提高统计学习质量 统计方法 词典方法:引入基于词典的模糊匹配 词典方法 使用语义词典,引入基于语义类的对齐 统计、 统计、词典和语言学知识相结合
决策树 归纳学习 基于转换的错误驱动的学习方法(Eric Brill)
基于实例的方法
……
翻译知识获取 知识获取过程: 知识获取过程:
数据预处理 知识挖掘 知识评价 双语语料库对齐加工 翻译知识自动获取
双语语料库及其对齐技术( 双语语料库及其对齐技术(1)
语料库
语料库(Corpora)是按照一定的原则组织在一起的真实的自 然语言数据(包括书面语和口语)的集合,主要用于研究自 然语言的规律,特别是统计语言学模型的训练以及相关系 统的评价和评测
基于统计的翻译词表自动获取( ) 基于统计的翻译词表自动获取(3)
翻译概率的计算模型
互信息方法(Mutual Information): 互信息方法 : MI(Ws,Wt)= log2(freq(Ws,Wt) / freq(Ws) * freq(Wt)) 对数似然比(Log Likelihood Ratio,LLR) : 对数似然比 LLR(Ws,Wt)=2[logL(p1,a,a+b)+logL(p2,c,c+d) - logL(p,a,a+b) - logL(p,c,c+d)) 其中,logL(p,k,n)=klog(p)+(n-k)log(1-p), p1=a/(a+b), p2=c/(c+d), p=(a+c)/(a+b+c+d) 词典加权同现测度: 词典加权同现测度: Wscore (Ws,Wt)=log2(2+DSim(Ws,Wt))*Score (Ws,Wt)
基于统计的翻译词表自动获取( ) 基于统计的翻译词表自动获取(2)
翻译概率的计算模型
对于任意一对源语词Ws和目标语词Wt ,设: a = freq(Ws,Wt) b = freq(Ws) - freq(Ws,Wt) c = freq(Wt) - freq(Ws,Wt) d= N – a – b - c 联列表法: 联列表法: hg (Ws,Wt)= (ad-bc) 2 / (a+b)(a+c)(b+d)(b+c) Dice系数 系数(Dice Coefficient): 系数 : Dice(Ws,Wt)= 2 freq(Ws,Wt) / [freq(Ws) + freq(Wt) ]
基于词典的词对齐( ) 基于词典的词对齐(3)
语义相似度(CSimA) 语义相似度
同义词词林 定义语义相似度:
1 / ClassDist ( S1 , S 2 ) ClassSim( S1 , S 2 ) = 1 S1 ≠ S 2 S1 = S 2
基于语义相似度的词对齐( 基于语义相似度的词对齐(CSimA):
传统的机器翻译:手工编写规则 知识获取瓶颈
解决的途径
从语料库中自动获取机器翻译所需要的各种知识
什么是知识? 什么是知识?
Bacon: “知识就是力量” 知识就是力量” 知识就是力量 Feigenbaum: “知识与信息不一样 知识是信息 知识与信息不一样. 知识与信息不一样 经过加工整理、解释、挑选和改造而形成的” 经过加工整理、解释、挑选和改造而形成的” 董振冬: 知识是一个系统, 董振冬 知识是一个系统,是一个包含着各种 概念与概念之间的关系,以及概念的属性与属 概念与概念之间的关系, 性之间的关系的系统。 性之间的关系的系统。
基于词典的词对齐( ) 基于词典的词对齐(2)
词典模糊匹配
He abandoned himself to grief. 他不胜悲伤。(悲痛,伤心事,忧伤) 汉语词c1和c2的模糊匹配相似度: Sim ( c 1 , c 2 ) = 英语词e和汉语词c的模糊匹配相似度:
2 * c1 I c 2 c1 + c 2
双语语料库对齐技术:句子对齐 双语语料库对齐技术:句子对齐(2)
Debili 和Sammouda实现了Simard的思想,并采用双 语典为指导,以缩小搜索空间 Church利用双语文本中字母的对应信息,在1993年 设计了一种字符对齐算法
长度方法与词汇方法相结合(Wu、Utsuro) 长度方法与词汇方法相结合(Wu、 (Wu 不少学者认为句子对齐已经达到可以实用(~ 不少学者认为句子对齐已经达到可以实用(~ 98%) 98%)
多词对应问题:hard disk/硬盘; profile/配置 文件….. 汉语分词问题:驱动器: 驱动 - 器; 单击:单-击 N-gram的抽取: 停用词将句子分段 The project manager may use the e-mail system to view and reply to message from workgroup member . 生成的N-gram候选: project project-manager use e-mail e-mail-system view reply message workgroup workgroup-member
双语语料库对齐技术:词汇对齐 双语语料库对齐技术:词汇对齐(1)
词汇对齐是指在源文和对应的译文中找到词汇 级的对译关系 大家 都 叫 他 毛 伯伯 。 Everybody calls him Uncle Mao . 由于词汇对齐比句子对齐提供了更细粒度的对 译信息, 译信息,因此可以为自然语言处理提供更大程 度的支持
语料库语言学
语料库语言学是以语料库为基本知识源来研究自然语言规 律的学科,主要研究内容包括语料库加工的理论、方法和 工具以及基于语料库的知识获取。
单语语料库(Monolingual Corpus)和多语语 单语语料库(Monolingual Corpus)和多语语 料库(Multilingual 料库(Multilingual Corpora)
为什么要自动获取知识( 为什么要自动获取知识(Why ?)
机器翻译的发展现状
Internet 的发展进一步促进了对机器翻译技术的需求 现有的机器翻译系统不能令人满意 “满篇英文难不住,满篇中文看不懂”
“ MT,不是machine translation,而是mad translation”
存在的主要问题
双语语料库对齐技术:词汇对齐 双语语料库对齐技术:词汇对齐(2)
词汇对齐的困难
词汇对齐不满足次序性假设 词汇对齐的模式十分复杂(1:1,1:m,m:1,m:m)
她改变角度去写他的报告以迁就她的听众. She angles her reports to suit the people she is speaking to.
双语语料库及其对齐技术( 双语语料库及其对齐技术(3) 双语语料库的对齐技术
对齐:从互译的不同语言文本中找出互译片断的过程 语料库的加工深度决定语料库所能提供的知识的粒度 双语语料库对齐可分为段落、句子、短语、单词不同 级别
句子对齐 词对齐 短语(结构) 短语(结构)对齐
双语语料库对齐技术:句子对齐 双语语料库对齐技术:句子对齐(1)
双语语料库及其对齐技术( 双语语料库及其对齐技术(2) 双语语料库的建设
双语语料库(Bilingual Corpora, 双语语料库(Bilingual Corpora,Parallel Corpora) 国外: 国外:
加拿大的议会会议录(Canadian Hansards),(英法) 英国Brighton大学语言中心双语语料库INTERSECT,(英法书面语) 英国Birmingham大学的LINGUA多语语料库项目,英、法、希腊语 加拿大的BCD(Bilingual Canadian Dictionary)词典编纂项目 瑞典Uppsala大学语言学系建立的Scania多语语料库 …… 国内: 国内: 建立了一些单语语料,尚无大规模汉外双语库的报道 目前国内基于汉外双语语料库的研究大都处于实验和摸索阶段 香港科技大学的英汉双语语料库HKUST 哈工大-微软联合实验室:6万句对
双语语料库的对齐技术:词汇对齐 双语语料库的对齐技术:词汇对齐(4)
基于词典的词汇对齐方法 基于词典的词汇对齐方法 词典
词典包含双语的对译信息,因此是进行词对齐的重 要资源 日本学者Takehito Utsuro 应用基于双语词典的改进算 法对日英双语文本(439句日语 423句英文)进行了试 (439 423 ) 验:将词典中已经给出的词对共现删除,而后对剩 下的词计算共现信息。采用含有50,000个词条的日英 词典,试验表明提高了日英术语词典的抽取效果 Ker, Wang等引入语义词典提高了对齐的召回率
词汇对齐匹配关系难以断定(词典,长度) 采用这种新装置…
The adoption of this new device…..
汉语的特点及英语和汉语间的固有差异 汉语分词问题; 惯用搭配、成语、谚语
双语语料库的对齐技术:词汇对齐 双语语料库的对齐技术:词汇对齐(3)
基于统计的词汇对齐方法 基于统计的词汇对齐方法 统计
获取什么知识( 获取什么知识(What ?)
单语 词汇:分词、词性标注 语法(结构):词性标注、句法分析 语义:词义排歧、聚类分析 双语 翻译知识
词典知识 结构转换知识 译文选择知识
……
如何获取知识( 如何获取知识(How ?)
知识获取的主要方法 手工获取知识 智能人机交互 统计方法(HMM, PCFG……) 机器学习方法
h≥ 0.5 正确率: 61.25% h≥ 1 正确率: 83.55% 召回率:36.94% 召回率:38.86%
DA+DSimA+CSimA
正确率: 91.16% 召回率:72.92%
基于统计的翻译词表自动获取( ) 基于统计的翻译词表自动获取(1)
生成N-gram候选翻译单元 候选翻译单元 生成
Part Ⅵ
双语语料库对齐及 翻译知识自动获取技术
MTLAB of HIT
主要内容
概述
为什么要自动地获取知识(Why ?) 获取什么知识 (What ?) 如何获取知识 (How ?)
双语语料库对齐加工
句子对齐 词汇对齐 结构对齐
翻译知识的获取
直接利用双语语料库获取翻译知识的研究 间接利用双语语料库获取翻译知识的研究
基于词典的词对齐( ) 基于词典的词对齐(1)
完全基于词典的词对齐实验( 完全基于词典的词对齐实验(DA)
正确率: 正确率 96.16% 召回率: 召回率:55.37%
正确对齐的词对数 正确率 = × 100% 得到的对齐词对总数
正确对齐的词对数 召回率 = × 100% 标准对齐文本中的词对 总数
DTSim e, c) = maxSim(d , c) + (Count(Sim(d , c) > h1 ) −1) * 0.1 (
d∈DTe d∈DTe
基于模糊匹配的词对齐( 基于模糊匹配的词对齐(DSimA)
h1>0.5 正确率: 94.47% h1>0.7 正确率: 96.13% 召回率:68.49% 召回率:58.92%
主要思想: 对大规模双语语料库进行统计,获得对译 词的翻译概率 Brown(1,778,620),Gale(897,077),Dagan … 基于统计机器翻译模型的词汇对齐(Brown) 基于统计机器翻译模型的词汇对齐 其中的翻译模型通过词汇对齐模型来实现; 通过EM算法迭代训练词汇翻译概率; 问题:参数空间巨大; 局部最优 基于同现的词汇对应抽取(Gale &Church) 基于同现的词汇对应抽取 同现测度函数:联列表, 互信息,Dice系数,对数似 然比
基于长度的句子对齐方法
源语言文本的长度与译文长度有很强的相关性 基于词数长度的对齐(Brown) 基于字符数的长度对齐方法(Gale Church) 这些算法都把句子对齐看作是句子长的函数;不需 要额外的词典信息;但是容易造成错误的蔓延。
基于词汇的句子对齐方法
Simard等人提出了在长度标准上加上同源概念 (Cognate) 来提高来自百度文库法的性能 Kay和Roscheisen提出了另一种基于语汇的对齐算法, 在该算法中选择句子对齐的标准是其中词汇对齐的 数量。
其他
基于语言学比较(Huang),利用Chunk分析(Sun)
英汉双语语料库词对齐实验
现有方法存在的问题
统计方法:语料库规模小,统计数据不足 统计方法 词典方法: 词典方法:词典译文覆盖率较低,对齐的召回率低
改进
统计方法:在小规模语料库提高统计学习质量 统计方法 词典方法:引入基于词典的模糊匹配 词典方法 使用语义词典,引入基于语义类的对齐 统计、 统计、词典和语言学知识相结合
决策树 归纳学习 基于转换的错误驱动的学习方法(Eric Brill)
基于实例的方法
……
翻译知识获取 知识获取过程: 知识获取过程:
数据预处理 知识挖掘 知识评价 双语语料库对齐加工 翻译知识自动获取
双语语料库及其对齐技术( 双语语料库及其对齐技术(1)
语料库
语料库(Corpora)是按照一定的原则组织在一起的真实的自 然语言数据(包括书面语和口语)的集合,主要用于研究自 然语言的规律,特别是统计语言学模型的训练以及相关系 统的评价和评测
基于统计的翻译词表自动获取( ) 基于统计的翻译词表自动获取(3)
翻译概率的计算模型
互信息方法(Mutual Information): 互信息方法 : MI(Ws,Wt)= log2(freq(Ws,Wt) / freq(Ws) * freq(Wt)) 对数似然比(Log Likelihood Ratio,LLR) : 对数似然比 LLR(Ws,Wt)=2[logL(p1,a,a+b)+logL(p2,c,c+d) - logL(p,a,a+b) - logL(p,c,c+d)) 其中,logL(p,k,n)=klog(p)+(n-k)log(1-p), p1=a/(a+b), p2=c/(c+d), p=(a+c)/(a+b+c+d) 词典加权同现测度: 词典加权同现测度: Wscore (Ws,Wt)=log2(2+DSim(Ws,Wt))*Score (Ws,Wt)
基于统计的翻译词表自动获取( ) 基于统计的翻译词表自动获取(2)
翻译概率的计算模型
对于任意一对源语词Ws和目标语词Wt ,设: a = freq(Ws,Wt) b = freq(Ws) - freq(Ws,Wt) c = freq(Wt) - freq(Ws,Wt) d= N – a – b - c 联列表法: 联列表法: hg (Ws,Wt)= (ad-bc) 2 / (a+b)(a+c)(b+d)(b+c) Dice系数 系数(Dice Coefficient): 系数 : Dice(Ws,Wt)= 2 freq(Ws,Wt) / [freq(Ws) + freq(Wt) ]
基于词典的词对齐( ) 基于词典的词对齐(3)
语义相似度(CSimA) 语义相似度
同义词词林 定义语义相似度:
1 / ClassDist ( S1 , S 2 ) ClassSim( S1 , S 2 ) = 1 S1 ≠ S 2 S1 = S 2
基于语义相似度的词对齐( 基于语义相似度的词对齐(CSimA):
传统的机器翻译:手工编写规则 知识获取瓶颈
解决的途径
从语料库中自动获取机器翻译所需要的各种知识
什么是知识? 什么是知识?
Bacon: “知识就是力量” 知识就是力量” 知识就是力量 Feigenbaum: “知识与信息不一样 知识是信息 知识与信息不一样. 知识与信息不一样 经过加工整理、解释、挑选和改造而形成的” 经过加工整理、解释、挑选和改造而形成的” 董振冬: 知识是一个系统, 董振冬 知识是一个系统,是一个包含着各种 概念与概念之间的关系,以及概念的属性与属 概念与概念之间的关系, 性之间的关系的系统。 性之间的关系的系统。
基于词典的词对齐( ) 基于词典的词对齐(2)
词典模糊匹配
He abandoned himself to grief. 他不胜悲伤。(悲痛,伤心事,忧伤) 汉语词c1和c2的模糊匹配相似度: Sim ( c 1 , c 2 ) = 英语词e和汉语词c的模糊匹配相似度:
2 * c1 I c 2 c1 + c 2
双语语料库对齐技术:句子对齐 双语语料库对齐技术:句子对齐(2)
Debili 和Sammouda实现了Simard的思想,并采用双 语典为指导,以缩小搜索空间 Church利用双语文本中字母的对应信息,在1993年 设计了一种字符对齐算法
长度方法与词汇方法相结合(Wu、Utsuro) 长度方法与词汇方法相结合(Wu、 (Wu 不少学者认为句子对齐已经达到可以实用(~ 不少学者认为句子对齐已经达到可以实用(~ 98%) 98%)
多词对应问题:hard disk/硬盘; profile/配置 文件….. 汉语分词问题:驱动器: 驱动 - 器; 单击:单-击 N-gram的抽取: 停用词将句子分段 The project manager may use the e-mail system to view and reply to message from workgroup member . 生成的N-gram候选: project project-manager use e-mail e-mail-system view reply message workgroup workgroup-member
双语语料库对齐技术:词汇对齐 双语语料库对齐技术:词汇对齐(1)
词汇对齐是指在源文和对应的译文中找到词汇 级的对译关系 大家 都 叫 他 毛 伯伯 。 Everybody calls him Uncle Mao . 由于词汇对齐比句子对齐提供了更细粒度的对 译信息, 译信息,因此可以为自然语言处理提供更大程 度的支持
语料库语言学
语料库语言学是以语料库为基本知识源来研究自然语言规 律的学科,主要研究内容包括语料库加工的理论、方法和 工具以及基于语料库的知识获取。
单语语料库(Monolingual Corpus)和多语语 单语语料库(Monolingual Corpus)和多语语 料库(Multilingual 料库(Multilingual Corpora)
为什么要自动获取知识( 为什么要自动获取知识(Why ?)
机器翻译的发展现状
Internet 的发展进一步促进了对机器翻译技术的需求 现有的机器翻译系统不能令人满意 “满篇英文难不住,满篇中文看不懂”
“ MT,不是machine translation,而是mad translation”
存在的主要问题
双语语料库对齐技术:词汇对齐 双语语料库对齐技术:词汇对齐(2)
词汇对齐的困难
词汇对齐不满足次序性假设 词汇对齐的模式十分复杂(1:1,1:m,m:1,m:m)
她改变角度去写他的报告以迁就她的听众. She angles her reports to suit the people she is speaking to.
双语语料库及其对齐技术( 双语语料库及其对齐技术(3) 双语语料库的对齐技术
对齐:从互译的不同语言文本中找出互译片断的过程 语料库的加工深度决定语料库所能提供的知识的粒度 双语语料库对齐可分为段落、句子、短语、单词不同 级别
句子对齐 词对齐 短语(结构) 短语(结构)对齐
双语语料库对齐技术:句子对齐 双语语料库对齐技术:句子对齐(1)
双语语料库及其对齐技术( 双语语料库及其对齐技术(2) 双语语料库的建设
双语语料库(Bilingual Corpora, 双语语料库(Bilingual Corpora,Parallel Corpora) 国外: 国外:
加拿大的议会会议录(Canadian Hansards),(英法) 英国Brighton大学语言中心双语语料库INTERSECT,(英法书面语) 英国Birmingham大学的LINGUA多语语料库项目,英、法、希腊语 加拿大的BCD(Bilingual Canadian Dictionary)词典编纂项目 瑞典Uppsala大学语言学系建立的Scania多语语料库 …… 国内: 国内: 建立了一些单语语料,尚无大规模汉外双语库的报道 目前国内基于汉外双语语料库的研究大都处于实验和摸索阶段 香港科技大学的英汉双语语料库HKUST 哈工大-微软联合实验室:6万句对
双语语料库的对齐技术:词汇对齐 双语语料库的对齐技术:词汇对齐(4)
基于词典的词汇对齐方法 基于词典的词汇对齐方法 词典
词典包含双语的对译信息,因此是进行词对齐的重 要资源 日本学者Takehito Utsuro 应用基于双语词典的改进算 法对日英双语文本(439句日语 423句英文)进行了试 (439 423 ) 验:将词典中已经给出的词对共现删除,而后对剩 下的词计算共现信息。采用含有50,000个词条的日英 词典,试验表明提高了日英术语词典的抽取效果 Ker, Wang等引入语义词典提高了对齐的召回率
词汇对齐匹配关系难以断定(词典,长度) 采用这种新装置…
The adoption of this new device…..
汉语的特点及英语和汉语间的固有差异 汉语分词问题; 惯用搭配、成语、谚语
双语语料库的对齐技术:词汇对齐 双语语料库的对齐技术:词汇对齐(3)
基于统计的词汇对齐方法 基于统计的词汇对齐方法 统计
获取什么知识( 获取什么知识(What ?)
单语 词汇:分词、词性标注 语法(结构):词性标注、句法分析 语义:词义排歧、聚类分析 双语 翻译知识
词典知识 结构转换知识 译文选择知识
……
如何获取知识( 如何获取知识(How ?)
知识获取的主要方法 手工获取知识 智能人机交互 统计方法(HMM, PCFG……) 机器学习方法
h≥ 0.5 正确率: 61.25% h≥ 1 正确率: 83.55% 召回率:36.94% 召回率:38.86%
DA+DSimA+CSimA
正确率: 91.16% 召回率:72.92%
基于统计的翻译词表自动获取( ) 基于统计的翻译词表自动获取(1)
生成N-gram候选翻译单元 候选翻译单元 生成