英语翻译之机器翻译
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
历史与展望
历史
开创期 (1947-1964)
1954 年,美国乔治敦大学(Georgetown University) 在 IBM 公司协同下, 用 IBM-701计算机首次完成了英俄机器翻译试 验,向公众和科学界展示了机器翻译的可行 性,从而拉开了机器翻译研究的序幕。
受挫期 (1964-1975)
年代:20世纪80年代 语料库简介:语料库是一个由大量在真实环 境中使用的语言信息所集成的专项研究使用 的资料库。它是一个为专门目的,按明确标 准收集整理起来的电子文本库。 语料库分类:原始语料库 ,附码语料库 , 平行语料库,学习者语料库,网格式语料库
基于统计的机器翻译
基本理论:语言B准确地或近似地再现语言A的信息 语言A 香农模式
信息 编码 信息 解码
(噪音信道)
语言B
信宿
噪音
基于统计的机器翻译过程图解
ST
转换 全局搜索,求P(T)X P(S/T)最大值 转换
TL文本
P(S/T)词典 模式
P(s/T)对齐模 式
P(T)语言模 式
P(T)为某句在目的语(TL)中出现的概率,P(S/T)表 示原语文本(ST)译成目的语(TL)文本的概率。
以图表示如下:
输入SL句子
检索 检索
检索到的实例
调整
输出TL文本
实例库
同义词库
海量的储存和高速的运算,建造超大型的双语对齐的翻译实例库,并 通过高速匹配检索,发挥计算机的优势,又避开了翻译过程中语义语 法等深层次问题的理解与分析。 它是一个全开放的系统,方便实例的增加或删减,系统也容易维 护,并可充分利用互联网络,实行联机共建。
什么是机器翻译?
机器翻译(machine translation ),又称机译 (MT),是利用计算机把一种自然语言转变成另 一种自然语言的过程。用以完成这一过程的软件叫 做机器翻译系统。
机器翻译与人工翻译
人工翻译
1 一般会先通读全文,译者会前后照应。 2 翻译文章是要基于对文章的理解。 3 这是一个再创造的过程。
基于规则的机器翻译系统之 中间语的机器翻译
自然语言大多一个单词有多种意思,比如,中文 的“方便”二字就有很多不同的意思,容易产生 歧义。在机器翻译中,为了简化纷繁复杂的表达 结构,避免其含糊不清的语义现象,它独立于各 种自然语言,同时又能清晰准确地表达各种自然 语言的人造计算机语言英语而生。这种通用的人 造计算机语言就是中间语。
延伸:
*基于中间语的翻译是指对源语言进行分析,得到一个独立于 源语言和目标语言的、基于概念的中间语言表示,然后从这 个中间语言表示生成目标语言。 *对于N种语言之间的翻译(多语翻译) ①转换翻译需要n(n-1)个模块 ②中间语言翻译需要2n个模块
语言1
语言2 语言2
中间语
语言3
中间语言翻译
转换翻译
分析
转换
生成
机器翻译主要有两套系统: 1.基于原则的 (rule-based system) 2.基于语料库的(corpus-based system)
基于规则的翻译系统
其规则主要包括: 1.词法 2.句法 3.短语规则 4.转换生成语法
大致可分为三个类型: 1.直接翻译 2.结构转换翻译 3.中间语翻译
举例:
待翻译的句子: 他买了一本计算机语言入门书。 假定计算机中已经储存了如下实例: A他买了-----he bought B一本计算机语言学入门书-----a book on introduction to Computational Linguistics 重组产生:he bought a book on introduction to Computational Linguistics.
(1)用代码化的结构标志来标注源于的句子结构— —分析阶段 (2)把原语句子的结构标志转换为目的语句子的结 构标志——转换阶段 (3)由目的语句子结构标志生成目的语句子——生 成阶段
三阶段的新诠释
法国人B.Vouquois将三阶段诠释为六个步骤
分析 转换 生成
原句词法 原句句法 双语词法 双语句法
1964年,为了对机器翻译的研究进展作 出评价,美国科学院成立了语言自动处理 咨询委员会(Automatic Language Processing Advisory Committee,简称 ALPAC委员会),开始了为期两年的综合调 查分析和测试。
恢复期 (1975-1989)
进入 70 年代后,随着科学技术的发展和各国科技 情报交流的日趋频繁,国与国之间的语言障碍显得 更为严重,传统的人工作业方式已经远远不能满足 需求,迫切地需要计算机来从事翻译工作。 同时, 计算机科学、语言学研究的发展,特别是计算机硬 件技术的大幅度提高以及人工智能在自然语言处理 上的应用,从技术层面推动了机器翻译研究的复苏, 机器翻译项目又开始发展起来,各种实用的以及实 验的系统被先后推出,例如 Weinder 系统、 EURPOTRA 多国语翻译系统、TAUM-METEO系 统等。
基于实例的机器翻译
• 定义:把全部或部分人们已经翻译过的句子实例对齐组成 一个庞大的双语对齐语料库。由此通过精确的检索和对比, 从而得到高质量的译文。 • 起源:最早由日本著名机器翻译专家长尾真提出。他在探 讨了人类外语学习和翻译的过程后发现:人们在翻译理解 新句子时,不是去仔细分析语法结构,而是参照曾经掌握 的句子结构,通过类比进行翻译。 因此他设想:若让计算机预先存入标准的翻译实例, 那么翻译时只要将输入的句子与实例中的句子相比较,找出 与之最相似的那个实例,便可模仿其现成译文进行翻译了。
*翻译记忆(Translation memory)
即让计算机记住所有已经翻译过的文本, 构建一个翻译记忆库。这样翻译时,系统会不 断自动检索记忆库中是否存有现成的翻译材料, 提供已有译文参考。同时,翻译记忆系统也会 在用户进行新的翻译过程中自动储存新的译文, 不断完善翻译记忆库。 优点: 它摆脱了机器翻译极其复杂的分析、 转化和生成规则,充分利用计算机海量储存的 能力,准确无误的再现已有的翻译材料,方便 有效。
机器翻译
1. 一句一句处理,处理第一句时不知道第二句的 内容不能通读全文。 2. 翻译时对源语言的分析只是求解句法,而不是 意义上的理解。 3. 翻译只是句法结构和词汇的对应。
机器翻译(machine translation)
机器翻译原理本质:人类思维和语言活动的模拟。
机器翻译的翻译过程如图:
(输入)原语 目的语(输出)
目的语句法
目的语词法
奈达对翻译过程的诠释
奈达根据乔姆斯基的“转换生成语法”做的诠释
SL表层结构 TL表层结构
分析
生成
SL深层结构
转换
转换
SL表层结构
我 5
SL深层分析
TL深层结构
Five
TL表层结构
I
爱
2ቤተ መጻሕፍቲ ባይዱ
Two
Love
你
0
Zero
You
分析
转换
生成
机器翻译中,从原语(SL)句子的表层结构到其深层 结构需要经过词法、句法、语义等分析。形成的深层 结构是一种树(syntax tree)。它反映的事一个句子 内部的语法结构,这种结构认为是人类抽象思维的逻 辑表达式。不同的语言具有相同或相似的深层结构。 就像是一座桥梁,把人类不同的语言连接恰来,使彼 此可以翻译交流。 转换系统中,通过对原语和目的语的结构特征分析, 人们制定出大量的句法结构的转换映射规则,机器可 通过这些规则将直接翻译出的句子的词序进行重新排 列组合,得出可读性更高的译文。
基于规则的机器翻译系统之 转换系统
出现原因
为了提高译文的可读性,人们更 多地从句子的层面来分析处理原 语与目的语的特征 于是在直接翻译系统的基础上, 出现了机器翻译的转换系统
分类
转换系统通常包括分析, 转换,生成三个部分
核心
从原语向目的语的转换 是该系统的核心
三个阶段 (美国学者V.Yingve提出)
机器翻译原理二: 基于语料库的机器翻译系统
B:基于实例的机器翻译
一、What’s corpus(语料库是什么)
• 定义:一个由大量在真实环境中使用的语言信息所集成的专供研究 使用的资料库。 • 由来:由于有些语言相差悬殊,其结构的大相径庭,给构造映射规 则带来巨大困难,基于规则的机器翻译的规则库再大也是有限的, 无法涵盖复杂多变的自然语言现象。于是随着分析的不断深入,20 世纪80年代末人们开始转向大规模的语料库,通过建立海量的相互 对应的双语语料库,甚至实例库,进行机器翻译中的分析、转换和 生成。 • 分类:原始语料库、附码语料库、平行语料库、学习者语料库、网 格式语料库。 • 建设的关键:对现有语料库进行深层次的开发和研究。 包括对原始材料进行词性、语法、句子结构、语音、语义、语篇 乃至语用上附码标记,以及双语(由指按长度和译词数目进行句子层 面上)的对齐。 标记准确,对齐合理,有利于计算机自动高效地检索,从而得出 理想的翻译。
直接翻译系统
机器翻译最初构想:是把原语中的单词或句子直接替换成相应的目 的语的单 词和句子,必要时对词序进行适当的调整。一般在单词的层面上进行,即从 目的语中寻找与原语词汇相对应的单词。 机器翻译发展后期:加入了一些简单的句法甚至语义规则,对替换后的词语 进行重新排序,生成目的语文本。
其翻译模式如图: SL输入 形态分析 汉语字典查询 词序调整 TL输出
基于中间语的机器翻译原理就是不同 语言之间建立一个通用的语义-句法表 达式,如图所示:
分析
合成
SL词典
TL词典和语法库
在翻译中,中间语起到了一个中介的作用,原语与 目的语似乎并不直接接触,仿佛是进行了两次翻译。 故而在设计时,机器翻译分成了两大模块,前一模 块是原语分析模块,输入SL原文,输出为IL表达式; 后一模式目的语合成模式,输入为IL表达式,输出 为TL译文。翻译中,原语与目的语之间不需要另外 设计转换规则,因为中间语表达式对原语和目的语 是一样的。这就为多种语言翻译提供了一种非常经 济有效的途径。因为在双语转换时,输入和输出是 需要不同的转换机制。
*货币的本质是一种等价物,那意味着所有的物品都可以用货 币去衡量,就相当于一种中间语,货币比喻如图: *1000RMB=一头牛 *100欧元=一个花瓶 *1000RMB=100欧元=1货币 *在这个比喻中,虽然不能把一头牛直接等价于一个花瓶, 也不能直接把1000RMB直接等价于100欧元,但是他们 都有相同的等价物1货币,这1货币就是他们之间的桥梁, 他们可以互相交换。 *这就和中间语的功能是相似的。
机器翻译
内容
1 机器翻译的定义 ( 谈海燕) 2 基于规则的机器翻译系统中直接翻译系统(曾祥 翠) 3 基于规则的机器翻译系统中的转换系统(王彩媛) 4 基于规则的机器翻译系统中基于中间语的机器翻 译(李廷霞) 5基于语料库的机器翻译系统中基于统计的翻译 (陈玉凤) 6基于语料库的机器翻译系统中基于实例的机器翻 译(沈怡) 7 机器翻译的历史与展望(毛秋琦)
寻找中间语的难度
“如果设计出一种原语言(中间语言)用 来翻译,那么它就必须包涵多种语言的所 有特征。这种努力不仅毫无止境,而且很 可能毫无止境。” —法国人斯莱德
基于语料库的机器翻译系统
基于规则的机器翻译益处:它通过上下文的搭配关系进 行分析和生成。借助对语法的分析,将语法现象总结成 规律,用于机器翻译。同时借助传统语法树和广义语法 分析,让计算机根据这些规则举一反三进行翻译 基于规则的机器翻译弊处:由于有些语言相差悬殊,其 结构更是大相径庭,所以给构造映射规则带来了巨大困 难。且规则库再大也是有限的,无法涵盖复杂多变的自 然语言现象,随着分析不断深入,需要的相关信息就越 来越多,这样构造的规则就会越来越难,很容易出现死 循环和前后矛盾等难题。
由于原语与目的语在句子语法结构上千差万别,翻译出来的句子的可读性可想 而知。但是它毕竟迈出了机器翻译的最实质性的一步,是机器翻译从梦想到显 示的一次飞跃。
在孩子的教育问题上,家庭教育与学校教育 同等重要。
Family education plays an equally important role in children’s education as school education.
举例:
英译汉不同于汉译英。若有N种语言进行互译,就 必须设计出N×(N—1)个双语转换机制。而采用中间 语之后,每种语言都与中间语发生关系,转换模式 就只需要2N个。假设欧共体15个成员国仅使用10种 官方语言进行机器翻译,那么采用互译转换的方法 就需要研制开发10×(10-1)=90个机器翻译模块, 而使用中间语的则只要2×10=20个,所节省的成本 一目了然。