“机器翻译+译后编辑在不同文本类型中的适用性分析——以技术类文本和历史题材类文本汉译英翻译项目为例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

摘要
随着经济全球化的发展,社会对翻译的需求越来越大,同时对翻译速度的要求也越来越高。

此外,随着科技的发展,机器翻译也不断得到优化,在这种情况下,“机器翻译+译后编辑”模式受到越来越多的关注。

但该模式并非适用所有类型文本的翻译,那么探讨该模式对各种文本类型的适用性程度,在何种情况下能提高翻译效率就具有一定的现实意义。

本论文以技术类文本和历史题材类文本汉译英翻译项目为例,从文本类型、文本特点、文本功能以及对译文质量要求的角度,具体探讨了机器翻译对于两类文本的适用性。

笔者通过分析发现,“机器翻译+译后编辑”对技术类文本有较高的适用性,通过专业度较高的译后编辑处理,一般可以达到合格的译文质量,有效提高翻译效率。

而对于历史题材类文本的适用性相对较低,在机器翻译的基础上进行译后编辑修改出高质量译文所需要的编辑距离较长。

本论文希望通过分析实际案例,进一步探讨“机器翻译+译后编辑”模式对于不同文本的适用性问题,希望可以总结经验,为其他译者提供参考。

关键词:机器翻译;译后编辑;技术类文本;历史题材类文本;适用性分析
ABSTRACT
As economic globalization proceeds,translators are faced with a big challenge in producing qualified translations within limited turnaround time,which has given rise to the emergence of“machine translation(MT)+post-editing(PE)”model.In recent years, especially since the development of neural machine translation(NMT),MT has gained a momentum in both research and applications,and the quality of MT-based translations has significantly improved.However,MT needs to be further developed to be able to produce a well-rendered translation that is accurately and effectively received by the readership as expected,and MT is not applicable to all types of texts to be translated.
Based on a case study of two translation projects of different text types,this thesis discusses through a comparative analysis the feasibility of the“MT+PE”model in C-E translation of technical and historical documents,and mainly focuses on specific and strategies on PE based on the types of translation materials.
It is concluded that“MT+PE”is not applicable to all types of texts to be translated. The author further finds that this model is more suitable for translating technical documents,usually straightforward and featuring simple sentence structure,than other types of texts,such as historical documents.And it is advisable to analyse source texts before machine translation.This paper also tries to provide some useful insights for translators who will be involved in translating such text types.
Keywords:machine translation;post-editing;technical documents;historical documents; feasibility analysis
目录
致谢 (I)
摘要 (II)
ABSTRACT (III)
引言 (1)
第一章项目描述和文本特点 (2)
第一节项目描述 (2)
一、技术类文本项目描述 (2)
二、历史题材类文本项目描述 (2)
第二节文本特点 (3)
一、技术类文本特点 (3)
二、历史题材类文本特点 (4)
第二章机器翻译与译后编辑 (7)
第一节机器翻译 (7)
第二节译后编辑 (7)
第三节YiCAT平台 (7)
第三章“机器翻译+译后编辑”在两类文本中的适用性分析 (9)
第一节“机器翻译+译后编辑”模式对于技术类文本的适用性分析 (9)
一、术语、词汇翻译效率高 (10)
二、句法错误类型集中,编辑距离较小 (13)
第二节“机器翻译+译后编辑”对于历史题材类文本的适用性分析 (15)
一、词汇翻译效率低,术语错误率高 (16)
二、句法错误类型多样,编辑距离较长 (17)
第三节“机器翻译+译后编辑”模式的适用性总结 (20)
结语 (21)
参考文献 (22)
附录 (23)
引言
近年来,随着经济全球化的发展,国内外对翻译的需求越来越旺盛,译者面临的挑战之一是在短时间内快速产出译文,于是机器翻译得以迅速发展。

然而,对于机器翻译的应用问题,人们的看法似乎并不统一:有人认为,机器翻译效率高、成本低,最终将取代人类;也有很多人认为,尽管机器翻译发展迅速,但其译文仍然具有很大提升空间。

在笔者看来,人类译员与机器翻译并非你死我亡。

机器翻译的确能在某种程度上提高翻译效率,但也确实存在不足,需要人类译员总结规律,扬长避短,最终使得机器翻译成为人类译员的助力,提高效率又能保证质量。

笔者在研二期间曾于银联数据服务有限公司国际业务部实习,接触了大量科技类文本的翻译,这类文本通常专业术语密集、语言直白,整体翻译难度中等,笔者大多采用了“机器翻译+译后编辑”模式,取得了不错的效果。

研二下学期,在学院黄协安教授的带领下,笔者参与了国家重大项目“日本侵华战争‘慰安妇’资料的整理与研究”成果的翻译,该项目采用了“机器翻译+译后编辑”模式,但操作层面困难重重,于是结合实际,笔者想进一步探讨该模式的可行性。

本文共分为三章:第一章简要介绍了两个翻译项目的概况和各自的文本特点;第二章着重介绍机器翻译、译后编辑和YICAT平台的基本情况;第三章基于文本特点,笔者从词汇和句子层面分析了“机器翻译+译后编辑”模式对于两种文本的适用性,并最终得出结论,机器翻译并非适合所有的文本类型,译前分析至关重要,以期对人机耦合的实践提供一定的参考。

第一章项目描述和文本特点
第一节项目描述
一、技术类文本项目描述
在硕士二年级期间,笔者曾在银联数据服务有限公司国际业务部实习7个月,进行了大量汉译英翻译实践,包括银行系统后端字段、平台接口技术规范、收单业务平台操作手册、银行短信提醒、商务合同等项目,以上材料为典型的技术类文本,字数共计约7万中文字,由笔者独立负责初译,译文完成后,公司安排了精通双语的工程师对译文进行审校及通读。

从译文受众角度,大部分译文供系统架构工程师参阅,以及作为新工程师的培训材料等,还有少量的译文读者为系统用户或银行客户。

许多文档的第一部分会列出文档的基本信息,其中包括读者类型。

他们大多是具有一定专业知识背景的人员,对本行业专业术语和专业知识已经十分熟悉,大概一看就能明白所讲内容,语言是否优美并不是重要的考量因素,重要的是术语准确,语言通顺流畅。

从文本功能角度,以上文本的目的是让读者获取基本信息,例如,《NEW8210U 盘脱机升级方法》的功能就在于指导读者如何升级U盘,告知读者升级U盘的准备工作及操作步骤。

因此,译文需要简单直白、表述客观。

二、历史题材类文本项目描述
本文要对比研究的另一个案例为历史题材类书籍翻译。

本项目是对国家重大项目“日本侵华战争‘慰安妇’资料的整理与研究”成果的翻译,作者团队依据战时的日伪档案、日本人在华文献和书籍、日军老兵回忆、战时中国报刊资料、中国受害者和证人的证词,并通过实地查证,发现了172个上海日军慰安所,本书详细记录了以上172个慰安所的历史,是日军战时罪行的有力证据。

每一个慰安所介绍框架基本一致,包括慰安所的由来及历史演变过程等。

此外,原文中涉及众多史料,并使用大量的数字和图片作为例证。

全书约17万中文字,项目周期为2个月,客户对译文的要求不高,准确传达原文信息即可。

该项目翻译团队由1名审校老师、19名译员组成。

翻译流程为术语提取→协同初译→译员互校→老师审校→通读。

笔者自加入项目以来,共参与约10000中文字翻译。

第二节文本特点
一、技术类文本特点
笔者结合项目实际操作,把此类文本的特征总结为:专业性强,重复率高,有表达惯例,表意直白,原文多采用简单句、祈使句,句式相对固定。

笔者将举例进行具体说明。

1.专业性强
专业性强主要表现在该项目原文使用了大量科技词汇,且术语重复率高。

笔者参与翻译的项目文本甚至有整篇都是术语短语的形式,字段用于内嵌至银行系统后端。

笔者遇到的词汇大致可分为两类:专业技术词汇和普通词汇,其中普通词汇是指在某行业特定语境中,普通词汇获得专业上的新词义后转化为科技术语。

以下以笔者翻译的文本举例说明专业词汇和普通词汇。

1.中央处理器:计算机术语“CPU(Central Processing Unit)”,为专业技术词汇。

2.报文:通信行业术语“message”,账单:银行业术语“statement”,均为普通词汇。

2.行业表达惯例多
在技术类文本中,有些词汇或短语有着明确的行业表达惯例,这就要求我们在翻译过程中通过风格指南或者术语表来了解这些术语的表达惯例,而不能按照字面对应。

例如:
“制卡”在术语表中为“card embossing”,译者不能随意翻译为“make a card”或者“card creating”;
“消费”在大多数语境下为“purchase”,而不能随意处理为“consumption”、“expenditure”;
在接口术语中,“循环次数”对应“loop count”,其中“循环”对应“loop”,而不是“circulation”,“次数”对应“count”,而不对应“number”,因为银行业中“number(No.)”对应“编号”,混用会引起歧义。

此外,除了词汇、短语有行业表达惯例外,笔者还接触到一类特殊文本。

这些文本需要内置到后端开发脚本中,具有字符数限制,因此还有词汇的缩略规则。

例如:
例1:
【原文】:分期申请书编号APP_SDAY兼容范围:
【译文】:Installment application No.APP_SDAY compatibility range
【缩略】:Instal.appl.No.APP_SDAY cmpt range
3.表意直白
文本目的决定语言风格,因此该项目原文表意直白,句式简单,多用简单句和祈使句。

译者清楚基本原理后,在文字的理解难度上较小。

例如:
例2:
【原文】:《NEW8210U盘脱机升级方法》升级前准备:
升级工具及下载包
1.U盘:建议内存小于8GB;
B OTG连接线:Mini_USB_B Plug to USB_A Receptacle
或在淘宝上购买:
/item.htm?spm=a230r.1.14.45.33lSGy&id=16222645357
或者直接与我们联系提供。

3.拷贝U盘升级包(PKG文件)到U盘根目录下,做好升级前准备工作。

U盘升级包联系华智融客服提供
【分析】:该文本用于指导用户如何在脱机状态下升级U盘,该文本中简单句、祈使句较多,结构单一,表意明确,信息直白,笔者尽管不是专业人员,但仍能很快了解基本原理。

二、历史题材类文本特点
根据赖斯的文本类型理论,历史题材类文本跟技术类文本一样,也属于信息型文本,但不同类型的信息型文本语言风格之间差异巨大,笔者参与的历史题材类文本更是有自己独特的语言特点。

笔者在参与项目的过程中,将慰安所项目的文本特点概括为以下几点:
1.历史文化负载词多
该历史题材类文本涉及大量有关中日战争历史以及慰安妇相关词汇,还有很多日韩人名、参考资料等,例如:贷座敷、洞富雄、洪再娣、洼田义男、浦东北部队联络官事务所暨浦东宪兵分遣队等。

2.语体多样,故事性强
上文笔者提到,作者团队在书中大量引用了战时的日伪档案、日本人在华文献和书籍、日军老兵回忆、战时中国报刊资料、中国受害者和证人的证词,导致整本书语体复杂,书面语体和口语体皆有。

此外,作者团队引用的文献部分为文言文。

例3:
【原文】:日商田口:“因为我那个部队北九州的士兵多,毕竟还是同乡的女人好吧,所以是在九州募集的。

我记得一开始是在远贺川的河边上寻摸来着。

开头人数不那么多……”
作者团队:“总之你募集的是有卖淫经验的喽。

条件是什么呢?对这种女性一般是由老板借给她预支款来拴住她的身子。

什么手纸费啦,伙食费啦,眼看着借支越来越多,让她动了心。

军队当时是以什么条件要她们去呢?和这相似吗?”
【分析】:该书多角度论证了日军战时罪行,上文是作者团队和日商的对话,描述了当时帮日军征集慰安妇的回忆,较为口语化。

例4:
【原文】:某人因于“八·一三”战争爆发时未逃出战区,日前以50元贿买通行证一张,偕另一领有通行证者进入虹口区访寻,遍觅无踪,因闻敌军以两路口大厦及虹口大旅社为拐禁妇女纵乐场所,商准敌方宪兵,得以入内访寻,乃进入路局。

甫一进门,即见四处皆生火炕,一丝不挂之裸女麇集其间,往来嬉戏,一若毫无羞耻者,盖处于淫威之下,环境迫人,不得已也。

……
【分析】:以上文本为作者团队引用战时出版社1938年版的《皇军的兽行》一书,记载了日军暴行的事例,通篇为文言文,加大了译员的阅读难度和理解难度,机器翻译识别效果较差。

3.句子结构复杂,部分逻辑不清
作者团队经过实地考察,发现了172个上海日军慰安所,书中详细记录了每一个慰安所的历史变迁,涉及众多地理、历史等,句子结构较为复杂。

例5:
【原文1】:海南路路底原是一长排2层的砖木结构石库门建筑,以太安里为界,以西是海能路81弄,以东为82弄。

乍浦路向北延伸后,海能路81弄被从中截断。

【原文2】:顺天坊位于海宁路乍浦路口的西北角,即今海宁路316弄。

建于1932年,有2层砖木结构石库门房屋5排,共20幢,建筑面积约2340平方米。

【分析】:该项目详细记录了172个慰安所的历史,作者团队进行了实地考察,书中几乎每一个慰安所都有详细的地理位置描述,加之上海里弄街巷结构复杂,又经历了历史演变,译者读起来都会有压力,更给机器翻译造成负担。

例6:
【原文】:又由于在上文提到的慰安所组合会的登记表格中,这一慰安所登记时间是1940年,可以基本断定表格中的“广东街”应该是今天的福德路、新广路和启东路三条马路中的一条。

接着再从“三多里”着手。

根据《上海市虹口区地名志》
记载,虹口区有两处“三多里”。

一处是唐山路133弄,该里坊建于1912年,弄内有2层砖木结构住房15幢,建筑面积约1370平方米。

另一处是周家嘴路786弄,该里坊建于1930年,弄内有2层砖木结构住房22幢,建筑面积约3191平方米。

但这两处“三多里”无法与上述提到的任何一条“广东街”相关联。

第二章机器翻译与译后编辑
第一节机器翻译
机器翻译(Machine Translation,简称MT)就是利用计算机实现从一种自然语言到另一种或多种自然语言文本的翻译(李正栓,孟俊茂,2009:1)。

发展至今,机器翻译系统按其使用的技术可大致分为三种:基于规则(rule-based)、基于语料库(corpus-based)和基于人工神经网络(neural machine translation)等系统,目前,最热门的机器翻译系统莫过于基于人工神经网络的机器翻译,实践表明,这一翻译系统能够有效提高机器翻译的译文质量和效率,因此被广泛应用。

总而言之,机器翻译具有速度快、成本低、专业术语前后一致等优点(林海梅,2009:114)。

第二节译后编辑
与上个世纪五六十年代相比,目前的机器翻译已经取得了巨大的进步,并被广泛应用到一些专业领域中,例如法律条文、说明书、科技文献、工业专利、等领域,机器翻译已经得到推广(罗季美,李梅:2012)。

但目前的机器翻译仍不完善,无法处理所有文本和解决一切翻译问题,至少在将来相当长的一段时间内是无法实现的(李正栓,孟俊茂,2009:2)。

因此,还需要人工对机器翻译结果进行译后编辑。

译后编辑是“检查和修正机器翻译的输出”(to check and correct MT output),即对直接通过机器翻译得到的译文进行译后编辑(崔启亮,2014)。

简而言之,译后编辑是指在机器翻译结果的基础上,针对译文的错误进行修正,使译文达到交付标准,同时提升工作效率,降低译员工作负担。

如今,机器翻译的译后编辑已经被运用于语言服务领域进行商业翻译(崔启亮,2014)。

第三节YiCAT平台
两个项目的翻译平台为YiCAT。

该在线翻译平台是由Tmxmall自主研发,以海量优质语料数据为基础,功能包括智能翻译、语料管理、术语查询等,本论文主要探讨其机器翻译的表现。

该平台接入多种神经网络机器翻译引擎,包括谷歌、百度、有道、搜狗、小牛翻译、腾讯翻译君和新译科技等。

根据李开复、王永刚的观点,在所有流行的翻译工具中,谷歌翻译支持语种最多,翻译效果最好(李开复、王永刚,2017b:8),因此笔者选择接入谷歌翻译来进行初译。

在该平台操作的优势有很多。

第一,允许多人协同翻译,统一术语和特定表达,导入术语库之后,系统能自动识别并在页面显示;第二,创建项目时可以选择锁定各种类型的重复,翻译时记忆库也可以显示重复句段,免去译者重复翻译,另外翻译过的字段可以自动存储在记忆库中,下文遇到结构相似的句段会自动匹配并标示不同的地方,便于译者快速修改且能保持句式统一;第三,导入原文后分条显示,方便译者逐条翻译,选择谷歌翻译进行预处理,译文将自动填入空白区域,无需复制粘贴,提高效率;第四,译者可根据文本合并或拆分句段,使得逻辑更加衔接,提高机器翻译逻辑准确性;另外,导出翻译结果时可以选择导出单语文件、双语文件或TMX文档,且基本上能保持原文格式不变。

第三章“机器翻译+译后编辑”在两类文本中的适用性分析
本章的研究主要分为三个阶段:准备阶段、分析阶段和总结阶段。

在准备阶段,笔者先收集语料,输入机器翻译进行处理;在分析阶段,笔者将机器翻译结果与译后编辑定稿逐字逐句进行对比,分类标注机器翻译错误类型;在总结阶段,笔者对错误类型进行统计总结,试析错误原因,并对机器翻译的质量作出评价。

通过分析机器翻译在两个项目的表现,结合笔者进行译后编辑的不同侧重,笔者发现了一些规律。

整体来说,机器翻译在处理两个文本时的共性是可以快速处理简单的专业文本,例如常见专业术语和简单句,在机器翻译结果的基础上,译者可以进行零译后编辑或简单的译后编辑。

以下笔者将按照文本类型进行适用性分析。

第一节“机器翻译+译后编辑”模式对于技术类文本的适用性分析
“技术文本能够用简单的文字把复杂的信息简明扼要地讲述清楚,从而使读者在最短的时间内、以最便捷的方式,正确全面地掌握自己想要的信息”(刘芳:2010)。

因此,技术型文本的译文不应该给读者的工作增加额外负担,而要以清楚、简洁的语言传递信息。

技术文本的翻译原则跟技术写作有很多共性,部分技术写作的规范同时也是技术翻译需要遵循的规范。

根据世界几大IT公司撰写的技术写作规范,如IBM的
Developing Quality Technical Information:A Handbook for Writers and Editors、微软公司的Microsoft Manual of Style for Technical Publications以及SAP公司的Guide to Writing English等,笔者总结了技术写作与技术类文本翻译共通的四条原则如下:•只表达必要信息,语言简单、自然、流畅;
•文内风格尽量保持一致,使用相似的句式、排版、说明等;
•使用读者语言——读者熟悉的术语和概念,准确传递信息;
•信息呈现具有逻辑性,明确具体,无歧义等。

基于以上原则,本文评估了在YiCAT平台使用谷歌翻译处理技术类文本的表现,用翻译实践验证了机器翻译在处理技术类文本时表现不俗,翻译常见专业术语以及简单句时准确率较高,可以有效帮助译者节省时间、提高效率。

此外,由于是技术类文本,文内有各种格式,包括项目编号、表格、图示、流程图、文字加粗大小写等,在平台导出译文时,能够做到文本格式与原文基本保持一致,只需要译者对照原文进行简单排版,从而减轻了译者的排版压力,提高了翻译效率。

另外,由于在平台上操作,系统可以自动将翻译内容作为语料存储在记忆库中,下文出现相同或类似内容能迅速调动记忆库弹出已有译文,有利于提高效率,且有利于保持译文统一。

以下笔者将从词汇和句法两个方面进行具体分析。

一、术语、词汇翻译效率高
以参与翻译的《苏里南银行系统后台字段》为例,抽取系统后台字段200条(含术语、短语、短句),共计约1000中文字,对机器翻译和译后编辑进行比对,统计可直接交付和不可直接交付的比例如下:
可直接交付的有101条(50.5%),不可直接交付的有99条(49.5%)。

需要指出,在不可直接交付的99条字段中,有38条为可接受译文,部分用词不符合公司风格指南或术语表,需要人工进行快速修正,例如:
例7:
【原文】:自主清算/非自主清算
【机器翻译】:Independent clearing/Involuntary liquidation
【译后编辑】:Independent Settlement/Dependent Settlement
【分析】:该词出现在笔者参与翻译的《苏里南银行系统后台字段》中,列举不同的清算方式供用户进行选择,公司术语表规定,“清算”对应“settlement”,尽管“clearing”业内也可表示清算。

另外,为保持节奏一致性,“自主”/“非自主”处理成“independent”/“dependent”。

参考风格指南和术语表,译者可以对术语错误进行快速修正。

例8:
【原文】:卡号黑名单
【机器翻译】:Card number blacklist
【译后编辑】:Card No.Blacklist
【分析】:机器翻译结果准确,但由于该文本用于系统后台字段,需要简洁直观,根据公司内部风格指南,“number”要缩写成“No.”。

再如,“序列号”要缩写成“S/N”。

除去可直接交付以及不符合公司风格指南或术语表的部分,在剩下的61条字段中,每一条存在一种或多种词汇错误共计66处,参考李梅教授(2013)“机器译文错误分类——词汇类”分类标准,结合项目操作实践,笔者总结了词汇错误分类以及数量统计如下:
机器翻译词汇错误分析结果数量统计
编号子类数量所占比例
1词汇术语1218.18%
2词汇漏译1116.67%
3词性错误1015.15%
4语境错译1319.70%
5词汇冗余2030.30%
现举例说明以上五种错误类型。

1.词汇术语:指在银行业为专业术语,但机器翻译无法识别,仅进行字面转换的词汇。

例如:
例9:
【原文】:归属卡组织
【机器翻译】:Home card organization
【译后编辑】:Card issuing institution
【分析】:意为用户所用银行发卡机构。

例10:
【原文】:苏里南盾
【机器翻译】Suriname shield
【译后编辑】:Suriname Guilder
【分析】:“苏里南盾”指的是是苏里南国家的通用货币,而不是“盾牌”之意。

2.词汇漏译:指漏译含有信息的词汇。

例11:
【原文】:卡号长度
【机器翻译】:Card length
【译后编辑】:Card No.Length
【分析】:“卡号”是银行业专业术语,一般由数字组成,机器译文将“号”漏译,错误传递原文信息。

3.词性错误:该类错误指词性误译,如将形容词误译为动词。

例如:
例12:
【原文】:注册应用提供商标识
【机器翻译】:Register an application provider ID
【译后编辑】:Registered APP provider Identifier
【分析】:“注册”一词在语境中为“形容词”,表示“已经注册的”,但机器翻译将其视为动词。

4.语境错译:指不符合文本语境的词汇。

例如:
例13:
【原文】:机构信息
【机器翻译】:Agency Information
【译后编辑】:Institution Info
【分析】:这里的“机构”指的是银行业机构,例如发卡行等,按照行业内术语,对应的是“institution”,而不是“agency”,需要译者人工修正。

此外,根据公司风格指南,可以将“information”缩写为“Info”。

5.词汇冗余:指不影响信息传递的前提下,需要人工编辑使译文简洁的词汇。

需要指出,这里的“词汇冗余”并非由于母语造成的迁移性冗余信息,而是根据文本用途进行删减,从而使译文更加简洁的词汇,在笔者参与翻译的技术类文本中,此类错误尤为典型,约占词汇错误的30%。

例如:
例14:
【原文】:记录修改时间
【机器翻译】:Record modification time
【译后编辑】:Modified at
【分析】:文本作为后台字段内置到系统,展示于前端用户界面,界面配备用户交互情景和图示,该文本意为操作人员修改记录的时间,整条记录还有修改内容、修改人等信息,字段字符数受限,在不影响信息传递的前提下,译文应尽量简洁。

通过以上数据分析,机器翻译在处理术语时效率较高;尽管存在词汇错误,但词汇错误类型较为集中,且易于修改。

如果语料库足够丰富,对机器翻译系统规则加以改进,那么将大幅降低机器翻译处理技术类文本的词汇错误。

此外,机器翻译行业通用的专业词汇方面甚至能弥补笔者专业知识的不足。

由于用户可以建立术语库,也省去译者在Excel表格中一一进行查找的时间,整体上能够大幅提高翻译效率。

相关文档
最新文档