基于统计的机器翻译
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. Corpus-based system 基于语料库的机器翻译系统
概念:不同于基于规则的机译系统由词典和语法规则库构成翻译知识库, 基于语料库的机译系统是以语料库(P121-P122)的应用为核心,由经过 划分并具有标注的语料库构成知识库,以统计规律为主。
分类: (1)基于统计(Statistics-based)的机器翻译 (2)基于实例(Example-based)的机器翻译 发展时期: 20世纪80年代(计算机技术和互联网技术的迅猛发展) 代表人物: 香农:香农模式,噪声信道模型 P122 机器翻译之父:1947年Weaver提出的“解码思想”
应用:Google 的在线翻译已为人熟知,其背后的技术即为基于统计的机 器翻译方法,基本运行原理是通过搜索大量的双语网页内容,将其作为 语料库,然后由计算机自动选取最为常见的词与词的对应关系,最后给 出翻译结果。 此外,常用的,基于统t提供的一项文段和网页全文翻译功能网站,作 为Bing服务品牌的一部分。
TM所面对的用户通常是“专家”,既懂双语,又懂专业。
挑剔者的挖苦与讽刺: “MT?不是machine translation, 而是mad translations to bed at 11 in the evening. 相似句子: Mother gets up at 6 in the morning. 母亲早上六点起床。 重组调整:父亲晚上11点上床。
我给玛丽一支笔——I gave Mary a pen. 我给汤姆一本书——I gave Tom a book.
基本思想:在已经收集的双语实例库中找出 与待翻译部分最相似的翻译实例,再对实例 的译文通过替换,删除或增加等一系列变形 操作,实现翻译。
基于实例的机器翻译系统主要由两个数据库(实例 库和同义词库)以及两个模式(检索模式和调整模 式)组成。
实例库(双语语料库) 同义词库(语义词库、词典词库) ↙ ↘ ↙ ↘ 待翻译句子 → 相似实例检索 → 重组与调整 → 翻译结果
具体方法是将翻译看做对原文通过模型转换为译文 的解码过程。 1、模型问题:就是为机器翻译建立概率模型,也就 是要定义源语到目的语的翻译概率的计算方法。 2、训练问题:利用语料库来得到这个模型的所有参 数。 3、解码问题:在已知模型和参数的基础上,对于任 何一个输入的源语言句子,去查找概率最大的译文。
P123
(1)基于统计(Statistics-based)的机器翻译 统计机器翻译的基本思想是通过对大量的平行语料 进行统计分析,构建统计翻译模型,进而使用此模 型进行翻译。
通俗地说,源语到目的语的翻译是一个概率统计问 题,任何一个目的语句子都有可能是任何一个源语 句的译文,只是概率不同,机器翻译的任务就是找 到概率最大的句子。
缺点:由于该方法需要一个很大的语料库作为支撑, 语言的实际需求量非常庞大。但受限于语料库规模, 基于实例的机器翻译很难达到较高的匹配率,往往 只有限定在比较窄的或者专业的领域时,翻译效果 才能达到使用要求。
因而到目前为止,还很少有机器翻译系统采用纯粹 的基于实例的方法,一般都是把基于实例的机器翻 译方法作为多翻译引擎中的一个,以提高翻译的正 确率。
优缺点: 翻译质量的高低主要取决于概率模型的好坏和语料库的覆盖能力。 基于统计的方法虽然不需要依赖大量知识,直接靠统计结果进行歧义消 解处理和译文选择,避开了语言理解的诸多难题,但语料的选择和处理 工程量巨大。
(2)基于实例(Example-based)机器翻译
提出:最早是由日本的机器翻译专家长尾真 1981年提出的。
例句:We do chicken right.
1.我们做鸡是对的。 2.我们做鸡正点耶 。 3.我们就是做鸡的,我们有做鸡的权利。 4.我们只做鸡的右半边。 5.我们可以做鸡,对吧? 6.我们行使了鸡的权利。 7.我们只做右边的鸡。 8.我们让鸡向右看齐。 9.我们只做正版的鸡! 10.只有朝右才是好鸡。 11.我们有鸡的权利! 12.只有我们可以做鸡! 13.我们“正在”做鸡好不好? 14.向右看,有鸡。 15.我们让鸡变右撇子。 16.我们一定要把鸡打成右派! 17.我们做的是“右派”的鸡!(麦当劳做的是“左派”的鸡!) 18.我们只做右撇子鸡! 19.我们干鸡的右边。 20.我们把鸡搞正!(原来是 歪的) 21.我们“躲”在鸡的右怀里。 22.我们做鸡,怎么啦 ? 23.鸡的左边留给麦当劳干。 24.我们知道怎么做鸡。 25.我们知道如何做“鸡”。 26.鸡做得对! 27.你知道我们正在做鸡。 28.我们只做正点的鸡! 29 我们烹鸡的方式最正确。/ 我们是烹鸡专家。
翻译记忆TM ( Translation Memory)
P125
翻译记忆是实例翻译的特例; 基本思想: —把已经翻译过的句子保存起来 —翻译新句子时,直接到语料库中去查找 1)如果发现相同的句子,直接输出译文 2)否则它从实例库中找出相似的例子(常常是多个例 子),并提交给用户,让用户选择。
概念:不同于基于规则的机译系统由词典和语法规则库构成翻译知识库, 基于语料库的机译系统是以语料库(P121-P122)的应用为核心,由经过 划分并具有标注的语料库构成知识库,以统计规律为主。
分类: (1)基于统计(Statistics-based)的机器翻译 (2)基于实例(Example-based)的机器翻译 发展时期: 20世纪80年代(计算机技术和互联网技术的迅猛发展) 代表人物: 香农:香农模式,噪声信道模型 P122 机器翻译之父:1947年Weaver提出的“解码思想”
应用:Google 的在线翻译已为人熟知,其背后的技术即为基于统计的机 器翻译方法,基本运行原理是通过搜索大量的双语网页内容,将其作为 语料库,然后由计算机自动选取最为常见的词与词的对应关系,最后给 出翻译结果。 此外,常用的,基于统t提供的一项文段和网页全文翻译功能网站,作 为Bing服务品牌的一部分。
TM所面对的用户通常是“专家”,既懂双语,又懂专业。
挑剔者的挖苦与讽刺: “MT?不是machine translation, 而是mad translations to bed at 11 in the evening. 相似句子: Mother gets up at 6 in the morning. 母亲早上六点起床。 重组调整:父亲晚上11点上床。
我给玛丽一支笔——I gave Mary a pen. 我给汤姆一本书——I gave Tom a book.
基本思想:在已经收集的双语实例库中找出 与待翻译部分最相似的翻译实例,再对实例 的译文通过替换,删除或增加等一系列变形 操作,实现翻译。
基于实例的机器翻译系统主要由两个数据库(实例 库和同义词库)以及两个模式(检索模式和调整模 式)组成。
实例库(双语语料库) 同义词库(语义词库、词典词库) ↙ ↘ ↙ ↘ 待翻译句子 → 相似实例检索 → 重组与调整 → 翻译结果
具体方法是将翻译看做对原文通过模型转换为译文 的解码过程。 1、模型问题:就是为机器翻译建立概率模型,也就 是要定义源语到目的语的翻译概率的计算方法。 2、训练问题:利用语料库来得到这个模型的所有参 数。 3、解码问题:在已知模型和参数的基础上,对于任 何一个输入的源语言句子,去查找概率最大的译文。
P123
(1)基于统计(Statistics-based)的机器翻译 统计机器翻译的基本思想是通过对大量的平行语料 进行统计分析,构建统计翻译模型,进而使用此模 型进行翻译。
通俗地说,源语到目的语的翻译是一个概率统计问 题,任何一个目的语句子都有可能是任何一个源语 句的译文,只是概率不同,机器翻译的任务就是找 到概率最大的句子。
缺点:由于该方法需要一个很大的语料库作为支撑, 语言的实际需求量非常庞大。但受限于语料库规模, 基于实例的机器翻译很难达到较高的匹配率,往往 只有限定在比较窄的或者专业的领域时,翻译效果 才能达到使用要求。
因而到目前为止,还很少有机器翻译系统采用纯粹 的基于实例的方法,一般都是把基于实例的机器翻 译方法作为多翻译引擎中的一个,以提高翻译的正 确率。
优缺点: 翻译质量的高低主要取决于概率模型的好坏和语料库的覆盖能力。 基于统计的方法虽然不需要依赖大量知识,直接靠统计结果进行歧义消 解处理和译文选择,避开了语言理解的诸多难题,但语料的选择和处理 工程量巨大。
(2)基于实例(Example-based)机器翻译
提出:最早是由日本的机器翻译专家长尾真 1981年提出的。
例句:We do chicken right.
1.我们做鸡是对的。 2.我们做鸡正点耶 。 3.我们就是做鸡的,我们有做鸡的权利。 4.我们只做鸡的右半边。 5.我们可以做鸡,对吧? 6.我们行使了鸡的权利。 7.我们只做右边的鸡。 8.我们让鸡向右看齐。 9.我们只做正版的鸡! 10.只有朝右才是好鸡。 11.我们有鸡的权利! 12.只有我们可以做鸡! 13.我们“正在”做鸡好不好? 14.向右看,有鸡。 15.我们让鸡变右撇子。 16.我们一定要把鸡打成右派! 17.我们做的是“右派”的鸡!(麦当劳做的是“左派”的鸡!) 18.我们只做右撇子鸡! 19.我们干鸡的右边。 20.我们把鸡搞正!(原来是 歪的) 21.我们“躲”在鸡的右怀里。 22.我们做鸡,怎么啦 ? 23.鸡的左边留给麦当劳干。 24.我们知道怎么做鸡。 25.我们知道如何做“鸡”。 26.鸡做得对! 27.你知道我们正在做鸡。 28.我们只做正点的鸡! 29 我们烹鸡的方式最正确。/ 我们是烹鸡专家。
翻译记忆TM ( Translation Memory)
P125
翻译记忆是实例翻译的特例; 基本思想: —把已经翻译过的句子保存起来 —翻译新句子时,直接到语料库中去查找 1)如果发现相同的句子,直接输出译文 2)否则它从实例库中找出相似的例子(常常是多个例 子),并提交给用户,让用户选择。