计算机辅助翻译概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2004
Frederick Jelinek
Yorick Wilks
Julian Sinclair Smith ProPfreosfseosrs,or of Artificial Intelligece
Department of ElectricaDl eapnadrtCmomenptuotferCEonmgpinueteerriSncgience
搜索工具 Full-text search (google) 电子词典 Concordancer (语料库) Bitexts
输入法:手写
阅读浏览 PDF 文本处理工具: Word、UltraEdit、EditPlus,
文字处理常用的快捷键
文字识别 OCR 文档处理工具(文档转换):
SnagIt
计算机辅助翻译(CAT)关注的是“如何应用计 算机软件,最大限度地实现翻译流程的自动化, 提高人工翻译的效率,保证人工翻译的质量,并 能够管理翻译流程”
23
CAT,范围较广,凡是有助于翻译的IT工具
上传下载: Email /FTP/ Portal 虚拟系统:登陆客户方系统翻译 杀毒防毒: kaspersky, 360; 网络收藏夹:资源分类和整理
Franz经Jo验s主ep义h O的c语h 料统计法
统计机器翻译 statistical
MT
语料+统计
Stoneso基u于p 实例的“统机计器+翻规译则Ex”ample-based MT
英汉机器翻译测试大纲 (俞士汶)
基于实例的机器翻译
Example Based Machine Translation(EBMT) 1984年由日本著名机器 翻译专家长尾真提出 背景 ■ 建立在转换基础上的机器翻译系统,在差异较大语言对间进行互译
90年代,平台. 难以提高, 新方法出现1999. 统计MT突破 机器翻译方法的多样化
机器翻译的理论基础或类型: Rule/Statistics
Whenever I fire a linguist, our
system performance improves
Ston19e8s8oup
Some of my Best Friends are Linguists.
5
我们的教学与现实的差距 ?
1.信息技术支持 2.协同翻译模式 3.标准项目管理 4.市场需求导向
文本处理、机器翻译、翻译记忆、 术语库、语料库、百科全书、在 线词典、搜索引擎、专业资料等
协同翻译、角色分工、资源共享
角色分工、行业标准
关注市场需求、实用文体、专 业翻译
几个术语
HT – Human Translation CAT – Computer-aided Translation MT – Machine Translation
IT:自动化程度划分
人机结合,各得其 所
参见短片:认识不同的翻译软Hut件chins & Somers, 1992 什么是CAT
MT:发展历程
参见 冯志伟《机器翻译研究》2004.中国对外翻 译出版公司
制造一种机器,让使用不同语言的人无障碍地自由交 流,一直是人类的一个梦想。 MT早于计算机(1629,笛卡尔) 机器翻译的研究始于上世纪四十年代。
24
25
Spell checker Grammar checker Dictionary
即时交流: MSN, Skype、QQ 系统管理: 分割、压缩(WinZip、WinRar) 文档分类管理 多媒体工具:Open Subtitle Translator 辅助写作工具: Arbortext 排版工具:处理不同格式 资料备份与同步:
1976-复苏
机器翻译研究的发展历程
70年代,机器翻译研究开始复苏 ■ TAUM-METEO系统获得成功 ■ 欧共体启用SYSTRAN系统 ■ 人工智能、知识工程进展的影响。
80年代,机器翻译研究呈繁荣局面,系统产品出现 ■ 日本实施五国合作的ODA计划 ■ 欧盟实施Eurotra计划 ■ 多个公司推出了MT产品 ■ 机器翻译方法的进展
翻译的主体是人。相对比较容易,很实用。
人机结合,各得其所
机器储存、记忆能力 人工智能
核心:翻译记忆(相似性的评判标准)
适用于规范、重复性高的文本.
Eg. Office 2003 Office 2007 Documents
尽可能大而全的语料、尽可能好而快的算法.
狭义与广义翻译技术
翻译技术体现为一组翻译工具,是若干软件工具的集合。
时,效果不好 ■ 人在翻译时不做深层次语言学分析 ■ 人在学外语的时候,首先要作大量的对照记忆,在遇到新的句子时
,会和记忆中的句子类比
建立基于类比思想的机器翻译
基于实例的机器翻译
基本思想
■ 主要知识库是双语对照 的实例库
■ 当需要翻译一个新句 子 时,通过检索的办法在 实例库中寻找和该句类 似的翻译实例。
——社会发展简史
参见短片:1 电脑为你实时翻译:新技术,新生活 ——感受技术的魅力(二)
2
为什么要学习翻译技术
身处信息时代,任何职业都离不开计算机技术,翻译行业 当然也不例外。(参见短片:MIIS计算机辅助翻译课程介 绍)
掌握翻译技术,可能对求职是一个优势。全球化带来了前
所未有的翻译需求(非文学文本占到了翻译总量的 95%(李长栓, 2004) ,如本地化的特点:量大、时间
紧迫。传统的翻译手段难以满足需要。
正确使用翻译技术能有效提高你的工作效率,为你带来效
益。
提高翻译速度
提高翻译质量 降低劳动强度
倍增 生产力
3
现代语言服务人才素质需求
语言基础
IT技术 职业道德
语言服务 人才技能
交流沟通 行业知识
项目经验
4
新一代语言服务人才素养要求
过硬的英中文表达、转换能力 信息技术基础知识 熟练利用多种网络检索技术来获取信息和知识 熟练掌握各类辅助翻译/电子工具 熟练基本的翻译规则和流程 知识广博,并且精通某一行业领域的知识 能够承受工作压力,按照客户要求及项目计划控制项目进度和质量 团队协作精神贯穿整个翻译工作流程,翻译、编辑、校对、工程、测试等 恪守职业道德,敬业态度、忠诚、责任心、细心、保密 安全
Georgetown+IBM 第一个俄英翻译实验
1966-1976低潮(难以跨越的 “语义障 碍”(semantic barrier),机器翻译很困难,这个结论来
之不易)
ALPAC(自动语言处理顾问委员会,Automatic Language Processing Advisory Committee)报告
■ 新句子的翻译可通过模 拟最类似的实例的译文 的方式获得。
基于实例的机器翻译
EBMT的优点 ■ 系统维护容易
* 系统中知识以翻译实例和义类词典等形式存在 ,可以很容 易的利用增加实例和词汇的方式扩 充系统。
■ 容易产生高质量的译文 * 尤其是利用了较大的翻译实例或和实例精确匹 配时更是如 此。
■ 可避免进行深层次的语言学分析
机器翻译(Machine Translation):利用计算机及其软件把一 种语言(自动)翻译成为另外一种语言的技术。
10
MT:发展历程
1933-1954, 初创阶段
1949年,Warren Weaver提倡MT研究 ■ 翻译的过程可用解密过程(decoding)来类比
1954-1966,发展阶段
Johns Hopkins UniversiUtyniversity of Sheffield
MT是语言学问题
词序
I have enjoyed hearing about your experience in Africa.
多义词
spririt
I saw a girl with a telescope in the bank.
基于实例的机器翻译
EBMT的关键问题
■ 大规模的双语语料库 ■ 双语对齐问题
* 语篇、句子、短语和词汇等各种级别
■ 建立合理的相似度准则 ■ 高效的实例检索机制 ■ 译文生成
翻译记忆技术和基于模板的翻译技术
基于统计的机器翻译
Statistic-Based Machine Translation(SBMT) 50年代初曾有提及,遭到以Chomsky为代表的语言学家的反对 90年代初,统计翻译技术复苏 ■ 统计技术在语音识别领域获得成功 ■ 目前计算机性能已能胜任密集型计算 ■ 目前也有大量联机双语电子文本
介词
The fish was bought by the cook/river.
连词and 问题
It is necessary to study the history and grammar of
Chinese language.
参见刘涌泉 1997
机器翻译的基本类型
Give m理e性en主o义ug的h p规ar则al-le智l d能a法ta, and you can have tra直ns接la转tio换n stryasntesfmerfor an词y典t+w规o则 languag中es间in语a言minatteterlrinogfuhaours.
计算机辅助翻译
Computer Aided Translation
为什么要学习翻译技术
工欲善其事,必先利其器。
《论语·卫灵公》
君子生非异也,善假于物也。
荀子《劝学篇》
生产工具的重要意义
生产工具是生产力的主要标志,生产工具在生产力的发展中起着决定 性的作用,生产力的质的飞跃是以生产工具的重大变革为先导的。
不能完全指望机器翻译
词典
新造词是否有对应译法? 不折腾
词库广泛性:收录够不够
嫁给我/娶我
词条描写性:框架合适不合适 Will you marry me
ห้องสมุดไป่ตู้
词典适应性:加载不同属性词典 mouse
规则
规则广度与精度
规则冲突的解决
数据
是否有足够多的语料
是否有较好的算法
关于CAT
全自动高质量翻译FAHQT不行,CAT呢 计算机辅助翻译的主体是谁?计算机辅助
Frederick Jelinek
Yorick Wilks
Julian Sinclair Smith ProPfreosfseosrs,or of Artificial Intelligece
Department of ElectricaDl eapnadrtCmomenptuotferCEonmgpinueteerriSncgience
搜索工具 Full-text search (google) 电子词典 Concordancer (语料库) Bitexts
输入法:手写
阅读浏览 PDF 文本处理工具: Word、UltraEdit、EditPlus,
文字处理常用的快捷键
文字识别 OCR 文档处理工具(文档转换):
SnagIt
计算机辅助翻译(CAT)关注的是“如何应用计 算机软件,最大限度地实现翻译流程的自动化, 提高人工翻译的效率,保证人工翻译的质量,并 能够管理翻译流程”
23
CAT,范围较广,凡是有助于翻译的IT工具
上传下载: Email /FTP/ Portal 虚拟系统:登陆客户方系统翻译 杀毒防毒: kaspersky, 360; 网络收藏夹:资源分类和整理
Franz经Jo验s主ep义h O的c语h 料统计法
统计机器翻译 statistical
MT
语料+统计
Stoneso基u于p 实例的“统机计器+翻规译则Ex”ample-based MT
英汉机器翻译测试大纲 (俞士汶)
基于实例的机器翻译
Example Based Machine Translation(EBMT) 1984年由日本著名机器 翻译专家长尾真提出 背景 ■ 建立在转换基础上的机器翻译系统,在差异较大语言对间进行互译
90年代,平台. 难以提高, 新方法出现1999. 统计MT突破 机器翻译方法的多样化
机器翻译的理论基础或类型: Rule/Statistics
Whenever I fire a linguist, our
system performance improves
Ston19e8s8oup
Some of my Best Friends are Linguists.
5
我们的教学与现实的差距 ?
1.信息技术支持 2.协同翻译模式 3.标准项目管理 4.市场需求导向
文本处理、机器翻译、翻译记忆、 术语库、语料库、百科全书、在 线词典、搜索引擎、专业资料等
协同翻译、角色分工、资源共享
角色分工、行业标准
关注市场需求、实用文体、专 业翻译
几个术语
HT – Human Translation CAT – Computer-aided Translation MT – Machine Translation
IT:自动化程度划分
人机结合,各得其 所
参见短片:认识不同的翻译软Hut件chins & Somers, 1992 什么是CAT
MT:发展历程
参见 冯志伟《机器翻译研究》2004.中国对外翻 译出版公司
制造一种机器,让使用不同语言的人无障碍地自由交 流,一直是人类的一个梦想。 MT早于计算机(1629,笛卡尔) 机器翻译的研究始于上世纪四十年代。
24
25
Spell checker Grammar checker Dictionary
即时交流: MSN, Skype、QQ 系统管理: 分割、压缩(WinZip、WinRar) 文档分类管理 多媒体工具:Open Subtitle Translator 辅助写作工具: Arbortext 排版工具:处理不同格式 资料备份与同步:
1976-复苏
机器翻译研究的发展历程
70年代,机器翻译研究开始复苏 ■ TAUM-METEO系统获得成功 ■ 欧共体启用SYSTRAN系统 ■ 人工智能、知识工程进展的影响。
80年代,机器翻译研究呈繁荣局面,系统产品出现 ■ 日本实施五国合作的ODA计划 ■ 欧盟实施Eurotra计划 ■ 多个公司推出了MT产品 ■ 机器翻译方法的进展
翻译的主体是人。相对比较容易,很实用。
人机结合,各得其所
机器储存、记忆能力 人工智能
核心:翻译记忆(相似性的评判标准)
适用于规范、重复性高的文本.
Eg. Office 2003 Office 2007 Documents
尽可能大而全的语料、尽可能好而快的算法.
狭义与广义翻译技术
翻译技术体现为一组翻译工具,是若干软件工具的集合。
时,效果不好 ■ 人在翻译时不做深层次语言学分析 ■ 人在学外语的时候,首先要作大量的对照记忆,在遇到新的句子时
,会和记忆中的句子类比
建立基于类比思想的机器翻译
基于实例的机器翻译
基本思想
■ 主要知识库是双语对照 的实例库
■ 当需要翻译一个新句 子 时,通过检索的办法在 实例库中寻找和该句类 似的翻译实例。
——社会发展简史
参见短片:1 电脑为你实时翻译:新技术,新生活 ——感受技术的魅力(二)
2
为什么要学习翻译技术
身处信息时代,任何职业都离不开计算机技术,翻译行业 当然也不例外。(参见短片:MIIS计算机辅助翻译课程介 绍)
掌握翻译技术,可能对求职是一个优势。全球化带来了前
所未有的翻译需求(非文学文本占到了翻译总量的 95%(李长栓, 2004) ,如本地化的特点:量大、时间
紧迫。传统的翻译手段难以满足需要。
正确使用翻译技术能有效提高你的工作效率,为你带来效
益。
提高翻译速度
提高翻译质量 降低劳动强度
倍增 生产力
3
现代语言服务人才素质需求
语言基础
IT技术 职业道德
语言服务 人才技能
交流沟通 行业知识
项目经验
4
新一代语言服务人才素养要求
过硬的英中文表达、转换能力 信息技术基础知识 熟练利用多种网络检索技术来获取信息和知识 熟练掌握各类辅助翻译/电子工具 熟练基本的翻译规则和流程 知识广博,并且精通某一行业领域的知识 能够承受工作压力,按照客户要求及项目计划控制项目进度和质量 团队协作精神贯穿整个翻译工作流程,翻译、编辑、校对、工程、测试等 恪守职业道德,敬业态度、忠诚、责任心、细心、保密 安全
Georgetown+IBM 第一个俄英翻译实验
1966-1976低潮(难以跨越的 “语义障 碍”(semantic barrier),机器翻译很困难,这个结论来
之不易)
ALPAC(自动语言处理顾问委员会,Automatic Language Processing Advisory Committee)报告
■ 新句子的翻译可通过模 拟最类似的实例的译文 的方式获得。
基于实例的机器翻译
EBMT的优点 ■ 系统维护容易
* 系统中知识以翻译实例和义类词典等形式存在 ,可以很容 易的利用增加实例和词汇的方式扩 充系统。
■ 容易产生高质量的译文 * 尤其是利用了较大的翻译实例或和实例精确匹 配时更是如 此。
■ 可避免进行深层次的语言学分析
机器翻译(Machine Translation):利用计算机及其软件把一 种语言(自动)翻译成为另外一种语言的技术。
10
MT:发展历程
1933-1954, 初创阶段
1949年,Warren Weaver提倡MT研究 ■ 翻译的过程可用解密过程(decoding)来类比
1954-1966,发展阶段
Johns Hopkins UniversiUtyniversity of Sheffield
MT是语言学问题
词序
I have enjoyed hearing about your experience in Africa.
多义词
spririt
I saw a girl with a telescope in the bank.
基于实例的机器翻译
EBMT的关键问题
■ 大规模的双语语料库 ■ 双语对齐问题
* 语篇、句子、短语和词汇等各种级别
■ 建立合理的相似度准则 ■ 高效的实例检索机制 ■ 译文生成
翻译记忆技术和基于模板的翻译技术
基于统计的机器翻译
Statistic-Based Machine Translation(SBMT) 50年代初曾有提及,遭到以Chomsky为代表的语言学家的反对 90年代初,统计翻译技术复苏 ■ 统计技术在语音识别领域获得成功 ■ 目前计算机性能已能胜任密集型计算 ■ 目前也有大量联机双语电子文本
介词
The fish was bought by the cook/river.
连词and 问题
It is necessary to study the history and grammar of
Chinese language.
参见刘涌泉 1997
机器翻译的基本类型
Give m理e性en主o义ug的h p规ar则al-le智l d能a法ta, and you can have tra直ns接la转tio换n stryasntesfmerfor an词y典t+w规o则 languag中es间in语a言minatteterlrinogfuhaours.
计算机辅助翻译
Computer Aided Translation
为什么要学习翻译技术
工欲善其事,必先利其器。
《论语·卫灵公》
君子生非异也,善假于物也。
荀子《劝学篇》
生产工具的重要意义
生产工具是生产力的主要标志,生产工具在生产力的发展中起着决定 性的作用,生产力的质的飞跃是以生产工具的重大变革为先导的。
不能完全指望机器翻译
词典
新造词是否有对应译法? 不折腾
词库广泛性:收录够不够
嫁给我/娶我
词条描写性:框架合适不合适 Will you marry me
ห้องสมุดไป่ตู้
词典适应性:加载不同属性词典 mouse
规则
规则广度与精度
规则冲突的解决
数据
是否有足够多的语料
是否有较好的算法
关于CAT
全自动高质量翻译FAHQT不行,CAT呢 计算机辅助翻译的主体是谁?计算机辅助