机器翻译工具英译汉译文质量评估、对比和改进建议——以有道翻译和金山快译为例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器翻译工具英译汉译文质量评估、对比和改进建议——以有道翻译和金山快译为例
发布时间:2022-01-06T07:11:37.445Z 来源:《教学与研究》2021年第24期作者:苏怡然
[导读] 近年来,机器翻译发展成为大势所趋,
苏怡然
吉首大学
摘要:近年来,机器翻译发展成为大势所趋,尤其当深入学习在机器翻译中的广泛应用后,对机器翻译而言更是如虎添翼。
而机器翻译软件的译文质量究竟如何呢?本文选取了国内市场上两家机器翻译平台——金山快译和有道翻译,从译文的准确性、格式规范、语言风格角度,对其译文质量进行评价、打分、比较和改善。
本次译文比较主要是聚焦于英译汉。
研究发现:从译文质量角度来看,在英译汉方面,有道翻译以66分远优于金山快译的37分。
从错误类型角度来说,句意错误、转换痕迹重、词汇错译这三方面是最为常见的共性问题。
本文也就存在的问题,为机器翻译软件提出了进一步改善的建议。
关键词:机器翻译;译文对比;有道翻译;金山快译;质量评估
有道翻译、百度翻译、搜狗翻译、小牛翻译、腾讯翻译君、新译翻译、谷歌翻译等翻译平台遍地开花,成为了人们工作办公、外出旅行的“发声器”。
但是译文质量到底如何呢?能否准确传达意图呢?为了解决这一疑惑,本文选取了国内市场上两家机器翻译平台——有道翻译和金山快译进行对比研究,主要对英译汉译文进行对比研究。
主要依据“中译国青杯”联合国文件翻译大赛对两个翻译平台的英译汉质量进行对比和质量点评。
从而,客观、直观的展现机器翻译译文的质量,指出待改进的方面,以及改进的方法,以期为机器翻译进一步优化提出合理建议,也就机器翻译是否会替代人工翻译的这一辩题,提供笔者的思考。
1.机器翻译发展现状
新世纪以来,各个互联网公司基于大数据和强大的统计方法,纷纷涉足机器翻译领域,研发出了基于大数据的翻译数据库和翻译平台。
如今,受限于语料库规模,基于实例(Example-based)的机器翻译很难达到较高的匹配率,往往只在个别限定的专业或是领域时,翻译效果才能达到使用要求。
一旦内容是数据库内从未涉及到的领域,翻译质量就很难保障。
2013年,深度学习(Deep Learning)技术获得新突破,基于人工神经网络的机器翻译(Neural Machine Translation)也逐渐兴起。
该技术核心是利用神经元的深度神经网络,自动的从语料库中学习翻译知识,而不是纯粹的语料查找、匹配和翻译。
这样真正实现了像人一样进行“理解语言,生成译文”,大大提高了译文的语法规范程度、流畅度、和可读性。
相比之前的翻译技术,质量有了质的飞跃。
2. 国内机器翻译发展历程
中国的机器翻译研究起步于1957年,是世界上第4个开始研究机器翻译的国家。
中国社会科学院语言研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都在进行机器翻译的研究。
国内语料库也是层出不穷。
例如:语料库在线、北京大学中国语言学研究中心、中国传媒大学媒体语言语料库(Media Language Corpus)、中央研究院语言研究所中文句结构树资料库、句酷等。
中国机器翻译系统的规模正在不断地扩大,内容正在不断地完善。
近年来,中国的互联网公司也发布了互联网翻译系统,如“百度翻译”、“有道翻译”、“腾讯翻译君”、“金山快译”等等。
3.有道翻译和金山快译英译汉质量评估和对比
3.1 英译汉文本翻译
下面文本选自“中译国青杯”联合国文件翻译大赛英译汉文章,内容有关澳大利亚大火,以此来测试有道翻译和金山快译在英译汉时的译文质量:
Experts say some immediate steps are being taken to help along the recovery of this vast area. A moratorium on logging has been proposed, and pressure is building to act more aggressively on the pest control of feral cats and foxes, in addition to introducing weed removal. “Weeds recolonize areas disturbed by fire. They use resources that native plants and animals might need,” York explains.
Identifying and protecting areas that did not burn is also an important subject for debate. Specifically, some are arguing that cultural burns may be better than the hotter, more intense, hazard reduction burning. Cultural burns are cool-burning, knee-high blazes that were designed to happen continuously and across the landscape, practiced by indigenous people long before Australia’s invasion and colonization. The fires burn up fuel like kindling and leaf detritus, so that a natural bushfire has less to devour.
Since Australia's fire crisis began last year, calls for better reintegration of this technique have grown louder. But they may be of limited value at this crisis point, according to Clarke. “We need to appreciate how different things are now. Cultural burns happened to enable people to move through dense vegetation easily, or for ceremonial reasons. They weren’t burning around 25 million people, criss-crossed by complex infrastructure and in a climate change scenario,” he estimates.
Concrete measures to combat climate change are indeed crucial for the future of biodiversity. In spite of green shoots of optimism in some quarters, the prognosis of whether the bush will ever recover its biodiversity is looking somewhat grim. Breaking it down, Clarke surmises that “A chunk of it will be good – a third will be able to bounce back. A third is in question, but a third is in serious trouble. I’ve been studying 2 / 3fire
ecology for twenty years, but we’re dealing with unchartered territory changing before our eyes.”
图1 有道翻译英译汉结果
图2 金山快译英译汉结果
3.2 英译汉文本译后编辑
依据参赛官方提供的译文,对金山快译和有道翻译的版本进行译后编辑,如图3、图4所示:(标注:红色字体为词汇层面错误;红色下
划线是句子层面错误;黄色部分为处理较好的地方;紫色部分为译后调整)
图3:金山快译译后编辑.
图4:有道翻译译后编辑3.3英译汉译文错误类型统计表格
统计过后得出,对金山快译翻译版本改动次数达35次,对有道翻译版本改动次数达13次。
下面,依据翻译的准确性、格式规范、语言风格,从词汇、句子、内容、逻辑层面,对上述两个文本的错误进行了类型统计,如表1所示。
(标注:有些错误同时属于多种错误类型,
因此会出现累计计算。
)
表1:. 译文错误类型统计表格
表1:译文错误类型统计表格3.4英译汉译文评分
打分细则:
满分为100分; 严重性错误2分/次; 一般性错误1分/次总分=100-(严重性错误个数×2+一般性错误个数×1)金山快译:严重性错误30处; 一般性错误13处
有道翻译:严重性错误15处;一般性错误4处
金山快译得分=100-(30×2+13×1)=37分
有道翻译得分=100-(15×2+4×1)=66分
综上可见,有道翻译的译文质量要远远高于金山快译。
3.5 英译汉两个译文错误类型统计与错误案例分析
表2金山快译英译汉错误类型比重表3有道翻译英译汉错误类型比重
依据表2和表3可得出,金山快译和有道翻译各自存在的翻译问题不尽相同,但也有共性问题。
下文将用举例的方式明确指出其问题所在。
在金山快译英译汉错误类型比重中,句意错误和词汇错译问题最为明显,占比23%左右;转换痕迹重和措辞不当问题也较为突出,均占比14%。
此外,句序不当问题也较为严重,占比9%。
相比之下,译文质量较高的有道翻译出现的问题不大相同。
在有道翻译的英译汉错误类型比重中,句意错译问题最为明显,占比37%。
值得注意的是,37%并不代表有道翻译的质量比金山快译的差,虽然后者的句意错译占比只有23%。
鉴于有道翻译整体的翻译质量较高,错误相对较少,致使句意错译的比重相对较高。
但是,确实解决好句意错译问题会使得有道翻译质量锦上添花。
此外,和金山快译一样,词汇错译和转换痕迹重也是比较严重的问题,占比16%,影响到了译文的质量。
上述就金山快译和有道翻译的不同问题进行了简要的阐述,不难看出,句意错误、转换痕迹重、词汇错译是困扰两个翻译平台的共性。
下述将就这三个方面进行详细阐述和举例说明:
一、句意错译类比:
原文例句1:
Cultural burns happened to enable people to move through dense vegetation easily, or for ceremonial reasons. They weren’t burning around 25 million people, criss-crossed by complex infrastructure and in a climate change scenario,” he estimates.
较好译本1:
过去这里地广人稀,人们可以不费吹灰之力穿过浓密的植被森林,有时处于节日气氛,也会进行文化燃烧;但如今澳大利亚人口数量超过2500万,基础设施广布,加之气候变化,文化燃烧已然不合时宜。
金山快译1:
文化的烧伤碰巧使人们能够容易地移动过密集的植物,或为仪式说服。
他们没有在燃烧大约二千五百万个人,波刃短剑-越过被合成物系统内各部分而且在气候中改变情节,”他估计。
存在的问题:该译本本身不表意,属于错译,中文读者无法从字面判断内容。
造成问题的原因:a.没有结合上下文,致使逻辑错误。
前半部分讲文化燃烧,文化燃烧在土著居民时期就流行开来,为何如今不再大范围施行。
如果抓住这个思路,就可以翻译出正确的版本。
b.关键的词汇翻译错误:cultural burns、ceremonial reasons、criss-crossed by
c.英文的转换痕迹重:he estimates的翻译,十分生硬。
直接对应成“他估计”,没有表达出个人的观点。
有道翻译1:
文化碰巧燃烧使人们能够轻易地穿过茂密的植被,或正式的原因他们没有烧毁大约2500万人,纵横交错复杂的基础设施和气候变化的情景,”他估计。
存在的问题:前半句译文算是做到了表意,但是后半句不表意。
造成问题的原因:
a.欠缺了对上下文逻辑的把握,导致前后半句分裂开来,不表意。
如果明白了后半句讲的是为什么现今文化燃烧不流行,译文就会通顺表意。
b.词汇搭配错误,只是纯粹的词汇匹配,导致意思不明确。
c.英文的转换痕迹重:he estimates的翻译,十分生硬。
直接对应成“他估计”,没有表达出个人的观点。
二、转换痕迹重类比
转换痕迹指的就是,在中文译本中,能够明显看出原来英文的形式。
转换痕迹常常会在被动转主动、词性转换、时态的翻译过程中体现出来。
下述将以被动转主动为例,进行简要分析:原文例句2:
Experts say some immediate steps are being taken to help along the recovery of this vast area. 较好译本2:
专家指出,已采取部分紧急措施助力受灾区域生态恢复。
原文例句3:
A moratorium on logging has been proposed, 较好译本3:
相关部门已经出台政策叫停木材砍伐,原文例句4:
Cultural burns are cool-burning, knee-high blazes that were designed to happen continuously and across the landscape, practised by indigenous people long before Australia’s invasion and colonization. 较好译本4:
早在澳大利亚人入侵和殖民之前,当地土著居民就有文化燃烧的习惯。
金山快译版本:
金山快译2:专家说一些立即的步骤被拿沿着这的恢复帮助巨大的金山快译3:一个延期偿付关于登录已经被计划,金山快译4:开拓殖民之前长久地被该土地所固有的人练习的被设计不断地和横过风景发生的高火焰。
存在的问题:英文中的被动,在翻译成中文的时候,没有做任何改动,直接沿用被动,导致译文不通顺。
造成问题的原因:忽略了英文和汉语表达习惯上的差异。
英文喜被动,用物做主语;中文喜主动,用人做主语。
一味地保留被动,不符合中文习惯。
有道翻译版本:
有道翻译2:专家说,正在采取一些立即的措施来帮助恢复广大的地区。
有道翻译3:暂停伐木已经被提出。
有道翻译4:在澳大利亚的入侵和殖民统治很久以前,原住民就开始这样做了。
存在的问题:个别句子在处理英文的被动时,还是直接沿用。
但是整体来看有道翻译对于例句1和例句3的被动处理都十分妥当。
增补出主语让译文行文更加通顺,与此同时也说明有道翻译对于英文中过去分词充当的成分,有一个很好的认识。
造成问题的原因:某些程度上仍旧忽略了英文和汉语表达习惯上的差异。
英文喜被动,用物做主语;中文喜主动,用人做主语。
一味地保留被动,不符合中文习惯。
三、词汇错译类比
词汇错译是机器翻译过程中经常会出现的问题。
最根本原因是,英文本身一词多义的现象就很多。
同一个词,在不同的语境、搭配中就会衍生出不同的词义。
除了词义不同之外,,词性也有可能会发生变化。
这就给不擅长做语境区分的机器带来了难度。
机器只会依据现有的数据库,来猜测和推断词义,一旦数据库内没有现成的搭配,机器翻译就会举步维艰。
因此,可以看到在金山快译和有道翻译的版本中,词汇错译占得比重都颇高。
个别词汇的错译,很大程度上也导致了句意错译,因此,词汇错译是一个非常关键的环节。
以下仍会采用具体例子来进行分析:(标红词汇为错译词汇)原文例句5:
Pressure is building to act more aggressively on the pest control of feral cats and foxes, in addition to introducing weed removal. 较好译文例句5:
相关部门已经出台政策叫停木材砍伐,进一步施压严厉控制流浪猫和野狐潜入灾区,同时割除杂草。
原文例句6:
Weeds recolonize areas disturbed by fire. 较好译文例句6:
过火区野草丛生。
原文例句7:
Cultural burns are cool-burning.
较好译本文例句7:
文化燃烧却属于冷燃烧。
原文例句8:
The fires burn up fuel like kindling and leaf detritus, so that a natural bushfire has less to devour. 较好译文例句8:
事先人为烧掉一些可燃物和碎叶子,当林火真正来袭时,可燃物减少了,由此降低林火火灾隐患。
原文例句9:
Calls for better reintegration of this technique have grown louder.
较好译文例句9:
人们对文化燃烧的呼声越来越高。
金山快译译文:
金山快译5: 除了介绍之外除草移动。
(introduce有介绍之意,但此处表示引进,进行)金山快译6: 因火而扰乱的区域,(disturb有打扰之意,但这里表示破坏)
金山快译7: 文化的烧伤是凉爽的。
(cool说到天气是凉爽,但在此处是固定术语)金山快译8 : 火烧掉像点火和叶碎石的燃料,所以一个天然的林火有比较少量吞食。
(devour 确实表示吞咽,可是结合语境,大火devour,应该是“吞噬”)
存在的问题:没能根据句意选择合适的词汇的意思,挑选了不符合当下语境的词义,导致句子语义失真。
造成问题的原因:机器直接对应了某个词汇最为常用的表达,没能联系语境本身做出选择。
有道翻译译文:
有道翻译5:除了引进除草。
(introduce理解正确)
有道翻译6:杂草重新占领了受火灾影响的地区。
(disturb理解正确)
有道翻译7:文化灼伤是一种冷灼伤。
(cool理解正确,但是表达需要改进:冷燃烧。
)有道翻译8:这样自然的森林大火就没有那么多可吞噬,(理解正确)
3.6英译汉两个译文改进建议
针对新译翻译的严重错误,具体指句意错误、转换痕迹重、词汇错译三方面的错误,本文提供了不同的改进方法。
针对句意错误,应该加强机器对于英文句子结构的认识和分析理解,与此同时要加强机器对于文章内容上下文的考量,由此一来更容易通过上下文推断不太明确的句子意义何在。
针对转换痕迹重,应当加强机器对于英文和中文句法和词法特征的学习,深知共同之处和不同之处,以此在面对英文中因为时态、被动等出现的词缀形式时,不需要找中文的对等。
往往英文中的词缀是表意的,并不是中文中必须要对等处的形式。
只需达意即可。
针对词汇错译,有道翻译做了一个不错的表率。
在这一环节,有道翻译可以比较准确的识别出应当选用某个词汇的哪一个意思,才符合上下文。
4. 结语
本文从准确性、格式规范、语言风格方面,对金山快译和有道翻译的英译汉译文质量进行了评价,以量化的方式计算得出二者的译文质量分数,统计分析了主要的错误类型,给出了改进意见,并且指出了目前两种译本的可取之处。
虽然本文选取的测试文本有限,得出的结果具有随机性,不一定能非常准确地反映金山快译翻译和有道翻译的译文质量水平,但在一定程度上反映了其不足。
本文看到机器翻译确实发展如火如荼,但是译文质量的进步空间还很大,尤其是在句意错误、转换痕迹重、词汇错译三方面。
本文作为一次尝试性探究,希望为今后的机器翻译译文质量测评提供借鉴,并且能为今后提升机器翻译译文质量提供一定的进步方向。
5.参考文献
[1]Bowker, L. Computer-Aided Translation Technology: A practical Introduction [M]. Ottawa: University of Ottawa Presss, 2002.
[2]Kenny, D. CAT Tools in an Academic Environment: What Are They Good for? [J]. Target, 1999(1).
[3] 冯全功,崔启亮. 译后编辑研究:焦点透析与发展趋势[J]. 上海翻译. 2016(06)起始页码.
[4] 冯志伟. 机器翻译研究[M]. 北京:中国对外翻译出版社公司,2004.
[5] 靳光洒. 计算机辅助翻译技术的现状与发展趋势论析[J]. 沈阳工程学院学报(自然科学版),2010(3): 264-266.
[6] 李英军. 机器翻译与翻译技术研究的现状与展望——伯纳德·马克·沙特尔沃思访谈录[J]. 中国科技翻译. 2014(01)).
[7] 王华树. 浅议实践中的术语管理[J]. 中国科技术语,2013,15(02):11-14.
[8] 王勇. 搜索引擎与翻译[J]. 中国科技翻译,2005(1): 28-30.
[9] 徐彬、郭红梅、国晓立. 21世纪的计算机辅助翻译工具[J]. 山东外语教学,2007(4): 79-86.
[10] 周光父,高岩杰. 论机器翻译质量的评估[J]. 上海科技翻译. 1989(04)起始页码.。