计算机辅助翻译概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ALPAC(自动语言处理顾问委员会,Automatic Language Processing Advisory Committee)报告
1976-复苏
机器翻译研究的发展历程
70年代,机器翻译研究开始复苏 ■ TAUM-METEO系统获得成功 ■ 欧共体启用SYSTRAN系统 ■ 人工智能、知识工程进展的影响。 80年代,机器翻译研究呈繁荣局面,系统产品出现 ■ 日本实施五国合作的 ODA 计划 ■ 欧盟实施Eurotra计划 ■ 多个公司推出了 MT产品 ■ 机器翻译方法的进展 90年代,平台. 难以提高, 新方法出现1999. 统计MT突破 机器翻译方法的多样化
■
建立在转换基础上的机器翻译系统,在差异较大语言对间进行互译 时,效果不好
■
■
人在翻译时不做深层次语言学分析 人在学外语的时候,首先要作大量的对照记忆,在遇到新的句子时 ,会和记忆中的句子类比
建立基于类比思想的机器翻译
基于实例的机器翻译
基本思想
■
主要知识库是双语对照 的实例库
■
■
当需要翻译一个新句 子 时,通过检索的办法在 实例库中寻找和该句类 似的翻译实例。 新句子的翻译可通过模 拟最类似的实例的译文 的方式获得。
Eg. Office 2003 Office 2007 Documents
尽可能大而全的语料、尽可能好而快的算法.
狭义与广义翻译技术
翻译技术体现为一组翻译工具,是若干软件工具的集合。
计算机辅助翻译(CAT)关注的是“如何应用计 算机软件,最大限度地实现翻译流程的自动化, 提高人工翻译的效率,保证人工翻译的质量,并 能够管理翻译流程”
IT:自动化程度划分
人机结合,各得其 所
Hutchins & Somers, 1992
参见短片:认识不同的翻译软件 什么是CAT
MT:发展历程
参见 冯志伟《机器翻译研究》2004.中国对外翻 译出版公司
制造一种机器,让使用不同语言的人无障碍地自由交 流,一直是人类的一个梦想。 MT早于计算机(1629,笛卡尔) 机器翻译的研究始于上世纪四十年代。 机器翻译(Machine Translation):利用计算机及其软件把一 种语言(自动)翻译成为另外一种语言的技术。
MT是语言学问题
词序
I have enjoyed hearing about your experience in Africa.
多义词 spririt 介词
I saw a girl with a telescope in the bank.
The fish was bought by the cook/river.
计算机辅助翻译
Computer Aided Translation
为什么要学习翻译技术
工欲善其事,必先利其器。
《论语·卫灵公》
君子生非异也,善假于物也。
荀子《劝学篇》
生产工具的重要意义
生产工具是生产力的主要标志,生产工具在生产力的发展中起着决定 性的作用,生产力的质的飞跃是以生产工具的重大变革为先导的。 ——社会发展简史
■ ■
大规模的双语语料库 双语对齐问题
* 语篇、句子、短语和词汇等各种级别
■
■ ■
建立合理的相似度准则 高效的实例检索机制 译文生成
翻译记忆技术和基于模板的翻译技术
基于统计的机器翻译
Statistic-Based Machine Translation(SBMT) 50年代初曾有提及,遭到以Chomsky为代表的语言学家的反对
参见短片:1 电脑为你实时翻译:新技术,新生活 ——感受技术的魅力(二)
2
身处信息时代,任何职业都离不开计算机技术,翻译行业 当然也不例外。(参见短片:MIIS计算机辅助翻译课程介 绍) 掌握翻译技术,可能对求职是一个优势。全球化带来了前 所未有的翻译需求(非文学文本占到了翻译总量的 95%(李长栓, 2004) ,如本地化的特点:量大、时间 紧迫。传统的翻译手段难以满足需要。 正确使用翻译技术能有效提高你的工作效率,为你带来效 益。 提高翻译质量
23
CAT,范围较广,凡是有助于翻译的IT工具
上传下载: Email /FTP/ Portal Spell checker 虚拟系统:登陆客户方系统翻译 Grammar checker 杀毒防毒: kaspersky, 360; Dictionary 网络收藏夹:资源分类和整理 即时交流: MSN, Skype、QQ 搜索工具 系统管理: 分割、压缩(WinZip、WinRar) 文档分类管理 Full-text search (google) 多媒体工具:Open Subtitle Translator 电子词典 辅助写作工具: Arbortext Concordancer (语料库) 排版工具:处理不同格式 Bitexts 资料备份与同步: 输入法:手写 阅读浏览 PDF 文本处理工具: Word、UltraEdit、EditPlus, 文字处理常用的快捷键 文字识别 OCR 文档处理工具(文档转换): 24 SnagIt
基于实例的机器翻译
EBMT的优点 ■ 系统维护容易 * 系统中知识以翻译实例和义类词典等形式存在 ,可以很容 易的利用增加实例和词汇的方式扩 充系统。 ■ 容易产生高质量的译文 * 尤其是利用了较大的翻译实例或和实例精确匹 配时更是如 此。 ■ 可避免进行深层次的语言学分析
基于实例的机器翻译
EBMT的关键问题
Franz Joseph Och 语料+统计 统计机器翻译 statistical MT 基于实例的机器翻译Example-based MT
Stone soup “统计+规则”
英汉机器翻译测试大纲 (俞士汶)
基于实例的机器翻译
Example Based Machine Translation(EBMT) 1984年由日本著名机器 翻译专家长尾真提出 背景
10
MT:发展历程
■
1933-1954, 初创阶段
1949年,Warren Weaver提倡MT研究 翻译的过程可用解密过程 (decoding)来类比
1954-1966,发展阶段
Georgetown+IBM 第一个俄英翻译实验
1966-1976低潮(难以跨越的 “语义障 碍”(semantic barrier),机器翻译很困难,这个结论来 之不易)
提高翻译速度 降低劳动强度
为什么要学习翻译技术
倍增
生产力
3
现代语言服务人才素质需求
语言基础
IT技术
交流沟通
语言服务 人才技能
职业道德
行业知识
项目经验
4
新一代语言服务人才素养要求
过硬的英中文表达、转换能力 信息技术基础知识 熟练利用多种网络检索技术来获取信息和知识 熟练掌握各类辅助翻译/电子工具 熟练基本的翻译规则和流程 知识广博,并且精通某一行业领域的知识 能够承受工作压力,按照客户要求及项目计划控制项目进度和质量 团队协作精神贯穿整个翻译工作流程,翻译、编辑、校对、工程、测试等 恪守职业道德,敬业态度、忠诚、责任心、细心、保密 安全
It is necessary to study the history and grammar of Chinese language. 参见刘涌泉 1997
连词and 问题
机器翻译的基本类型
理性主义的规则 智能法 Give me enough parallel data, and you can 直接转换 transfer have translation system for any two 词典 +规则 中间语言 interlingua languages in a matter of hours. 经验主义的语料统计法
25
机器翻译的理论基础或类型: Rule/Statistics
Whenever I fire a linguist, our system performance improves 1988 Stone soup Some of my Best Friends are Linguists. 2004
Yorick Wilks Frederick Jelinek Professor of Artificial Intelligece Julian Sinclair Smith Professor, Department of Computer Science Department of Electrical and Computer Engineering University of Sheffield Johns Hopkins University
5
我们的教学与现实的差距
?
1.信息技术支持
文本处理、机器翻译、翻译记忆、 术语库、语料库、百科全书、在 线词典、搜索引擎、专业资料等 协同翻译、角色分工、资源共享 角色分工、行业标准 关注市场需求、实用文体、专 业翻译
2wk.baidu.com协同翻译模式
3.标准项目管理
4.市场需求导向
几个术语
HT – Human Translation CAT – Computer-aided Translation MT – Machine Translation
规则
数据
是否有足够多的语料 是否有较好的算法
关于CAT
全自动高质量翻译FAHQT不行,CAT呢 计算机辅助翻译的主体是谁?计算机辅助 翻译的主体是人。相对比较容易,很实用。
人机结合,各得其所
机器储存、记忆能力 人工智能 适用于规范、重复性高的文本.
核心:翻译记忆(相似性的评判标准)
90年代初,统计翻译技术复苏
■ ■ ■
统计技术在语音识别领域获得成功 目前计算机性能已能胜任密集型计算 目前也有大量联机双语电子文本
不能完全指望机器翻译
词典
词库广泛性:收录够不够 词条描写性:框架合适不合适 词典适应性:加载不同属性词典 规则广度与精度 规则冲突的解决
新造词是否有对应译法? 不折腾 嫁给我/娶我 Will you marry me mouse