计算机辅助翻译技术Review
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算机辅助翻译技术概论
押题:
1、隐马尔科夫模型
2、机器翻译的方法
3、文本电子化OCR
4、双语对齐处理
5、汉语切分的方法和关键问题
5-20考试——计算机辅助翻译技术
考试题型:填空、判断、问答7-8个
考查内容:基本概念梳理,理解分析能力,考题思路,课件!
1、概论
1.1概况
为什么要研究翻译技术?
➢何谓翻译技术(translation technology)?能够用来进行语言翻译或辅助进行语言
翻译的信息技术。
➢解决或缓解语言障碍(language barrier)问题,提高翻译从业人员的生产率。
➢翻译技术的研究始于机器翻译
关于机器翻译
➢机器翻译(Machine Translation)定义:利用计算机及其软件把一种语言(自动)翻译成为另外一种语言的技术。
➢机器翻译研究的目标是研制具有翻译能力的计算机软件系统。
➢机器翻译的研究始于20世纪40年代末期。
➢机器翻译结论很困难。
翻译技术的分流
➢机器翻译(MT):机器翻译的主体是机器。目前比较困难。(目标是寻找彻底的解决方案)
➢计算机辅助翻译(CAT):计算机辅助翻译的主体是人。相对比较容易,但却很实用。
➢计算机辅助翻译立足为翻译人员提供(软件)工具。协助翻译人员提高效率(生产率)。
名词辨析
CAT - Computer-aided Translation
MAT - Machine-aided(-assisted) Translation
MAHT - Machine-assisted Human Translation
HAMT - Human-assisted Machine Translation
MT - Machine Translation
FAHQMT - Fully Automatic High Quality MT
关于翻译技术的理解
➢狭义的理解,翻译技术指计算机辅助翻译技术和机器翻译技术。
➢广义的理解,翻译技术指的是对翻译人员工作有益的任何信息技术。
文字处理工具(MS Word) (不可或缺)
国际互联网及其应用(WWW、Email...)
各种电子资源(百科全书光盘...)
➢本课程的定位:主要是狭义的翻译技术。配合翻译技术的一些通用技术(数据获取技术、文本处理技术)
关于本地化
何谓本地化(localization)?
The term “localization” refers to the process of customizing or adapting a product for a target language and culture.
全球化没有带来其他语言的消亡,带来了本地化。
本地化的特点:量大、时间紧迫、技术(应用)性强
simship
An abbreviation of “simultaneous shipment”,which refers to the practice of releasing multiple language versions of a product at the same time (or at least as close to the same time as is possible).
翻译技术概观
翻译技术体现为一组翻译工具,是若干软件工具的集合。
翻译工具可以涵盖翻译的不同阶段、面向不同的需要。
资料的收集\原文的理解\术语的处理
1.2工具
语言材料的电子化工具
➢Data-capture tools
➢使用翻译技术的前提:待翻译的文本需要是电子化的,是计算机可以处理的。翻译过程中所需要的各种资源需要是电子化的。
➢何为机器可读(Machine readable)? 文字变成编码形式
➢常见的电子化手段:手工键盘输入(keyboarding)、Scanning + Optical Character Recognition、Voice Recognition
➢文件格式转换工具
➢编码转换工具
➢多语种处理能力
语料库分析工具
➢Corpus:a large collection of electronic texts that have been gathered according to specific criteria.
➢Type of corpus:
monolingual corpus:orpus which consists of texts in one language.
parallel corpus:corpus containing source texts aligned with their translations.
语料电子化工具、语料处理工具
➢Corpus-analysis tools
Software that allow users to access and display the information contained within a corpus in a variety of useful ways. Most corpus-analysis tools typically contain a number of useful features that allow users to generate and manipulate word frequency lists, concordances, and collocations.(频率表、关键词、搭配)
➢Frequency list
➢Concordance (bilingual or monolingual)
➢Collocation
➢Corpus-analysis tools
➢allow users to have access to frequency data and to
➢see terms in a variety of contexts simultaneously –
➢features that dictionaries can not easily provide.
➢Keyword in context (KWIC): a method of displaying
➢concordance lines in which all occurrences of the
➢search word are centered on the screen surrounded
➢by the immediate context
➢直观认识
语料处理工具
汉语切词(segmentation)
词性标注(POS tagging)
屈折语形态还原(lemmatization)
句法分析(parsing)
双语对齐(alignment)
……
既是语料处理工具通常也是机器翻译或机器辅助翻译系统的组成部分
术语管理工具
翻译中的术语一致性问题:term bank, term base
Terminology-management System (TMS): A software application that allows users to create, store, and retrieve term records.
Active terminology recognition
Terminology pre-translation
Term extraction (identification)
Monolingual or Bilingual
Quality of term extraction