计算机辅助翻译讲座提纲
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
CAT基本原理与应用
一、基本原理:
1.1950-90年代:基于规则的机器翻译系统
简而言之:就是根据词法、句法和语义规则进行转换。
2.1990年代到现在:经验主义的机器翻译系统
主要特征:
A.使用双语平行语料库(parallel corpora)——以实例为基础(example-based
approach)的方法——基本思想:利用现有翻译作为实例,形成新的翻译。
B.也使用平行语料库——使用统计方法(statistical MT)——基本思想:对
双语文本进行词语、短语、句子的对齐(align),翻译过程中软件将原文
与双语对齐记忆库进行比对,然后按照匹配率将建议译文排列出来供译员
选择。
(统计方法的前提:软件中的双语对齐文本需要有较高的权威性。)
二、机器翻译预期的效果:
基本思想:希望通过记忆库和词典的配合能够最大限度地提高待译文件与记忆库的匹配率。
个人意见:有价值的匹配率在30%--100%之间,低于此范围可以借助Google Translate等机器自动翻译软件,然后人工修改。
三、认识雪人软件
熟悉软件界面:
(1)新建项目:匹配率、外挂词典、外挂记忆库
项目设置:
A.“相似句子使用自动翻译”选项是指对相似例句的不同部分,由软件
自动做智能的替换翻译;
B.“不使用系统词典”,如果设置了系统词典翻译过程中对于有规律
的重复出现软件会自动提示或填充。如Figure-1等。
C.“不使用规则词典”,与上面相似,设置只作用于当前项目。
D.“识别大写词语”,开启时能够翻译大写英文单词。
用户词典:供外挂词典
记忆库设置:供外挂记忆库
服务器设置:多人联网合作用,暂不讲。
(2)导入原文
(3)记忆库匹配分析:价值较大,告诉我们有没有必要用软件翻译。(4)预翻译:自动填充匹配译文。
(5)对照模式中翻译:注意:记忆库和术语提示区
(6)单句模式中翻译:注意:同上,此外,单词词义提示。
(7)质量检查:注意:检查遗漏或术语不一致。
(8)导出译文:注意:导出的译文格式。
四、建立和维护双语对齐记忆库
1.新建双语对齐项目
2.导入双语文件
双语粘贴:处理中英混在一起的文章对齐,按双语粘贴按钮后,软件自动将混在一起的中英句子分开。
也可以利用CTL+C和CTL+V拷贝粘贴进软件。
导入时遇到软回车,可以勾选“识别软回车”。
3.双语文件对齐
注意:需要细心,逐句阅读。
4.自动对齐后可以进行编辑
主要是修改一些不规范的表达,或者断句问题。
5.导出双语对齐记忆库
注意:
(1)项目记忆库的修改,按F2键;
(2)记忆库尽量外挂,否则占用系统资源!
五、建立和维护项目词典
项目词典:存放在翻译过程中增加的新词、术语,也可以导入别人做好的词
典。
1.词典条目的录入:CTL+N或在编辑区右键单击选择“增加词语”
2.修改词语:
3.设为术语:设定后,术语在术语窗口中进行提示。
4.屏幕取词:自动加入项目词典,蓝色字体显示。
5.定义新词:鼠标取词
6.定义术语:鼠标取词
7.导入词典:
.DIC的雪人词典软件
.XLS的Excel文件
8.词典的导出:
.DIC格式
注意:
(1)词典不是只有词语对应,也可以存储短语、成语等。
(2)翻译过程中,如果定义新词或定义术语,可以提高原文与记忆库的匹配度。
六、自动短语提取
词语管理—>短语提取—>勾选后 确定(存入项目词典)
好处:不会遗漏项目中的高频词,提高词典利用率。
七、规则词典
导入雪人自带规则词典,位置:规则样例
八、断句规则
可以自定义断句规则,用于不以句号和数字等为断句规则的语篇。