浅析语料库对于翻译研究的意义

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅析语料库对于翻译研究的意义

【摘要】基于语料库的翻译研究在当今已进入一个全新模式,多种语料库被开发应用在人工翻译和机器翻译等实践领域当中。本文对语料库的概念以及某些种类语料库在翻译活动中具体实用情况做出分析,揭示语料库对于翻译研究的意义。

【关键词】语料库;翻译;双语语料库;平行/对应语料库

An Analysis on the Significance of Corpus to Translating Research

CHEN Dan

(Eastern Liaoning University,Dandong Liaoning 118000,China)

【Abstract】Translating research based on corpus has stepped into a new mode today,and many kinds of corpora are developed and applied in practical fields of manual translation and machine translation. The thesis analyzes the concept corpus and the application of some corpora in translating,which exemplify the significance of corpus to translating research.

【Key words】Corpus;Translating;bilingual corpus;Parallel corpus

“语料库”的英语单词corpus来源于拉丁语,意思是body,有“全集”的含义,即“语料的集合”。有的学者认为语料库是基于形式和目的的存储于电子数据库中的文本集合,是描述自然发生语言的集合;也有人认为它是按照明确的语言学标准选择并排序的语言运用材料的汇集,旨在用作语言的样本。国内语料库学者杨惠中对语料库的定义做了较为详细的界定。他指出,“语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库”。

语料库所收集的语料是真实、自然的语言。不同于普通的文本数据库,它的设计和建设是以系统的理论语言学原则为依据,并且具有明确的目的性。语料库的结构严格依照既定程序设定,以一定研究目的为基础,按学科或语篇类型分类存储。语料库中的语料必须符合科学的语言研究,语料可以随机抽取或按统计学方法采集。

语料库的类型和分类标准很多。按用途分,语料库可分为通用语料库(general corpus)和专用语料库(specialized corpus);按语料选取时间,语料库可分为历时语料库(diachronic corpus)和共时语料库(synchronic corpus);按不同结构,语料库可分为平衡语料库(balanced corpus)和自然随机结构语料库(random structure corpus);按语料库的性质,语料库可分为原始语料库(raw corpus)和标注语料库(annotated corpus);按语言种类,语料库可分为单语语料库

(monolingual corpus)、多语语料库(multilingual corpus)和双语语料库(bilingual corpus)等。

传统上,语料库在翻译中往往作为辅助性的工具。随着计算机技术的飞速发展和翻译研究的不断深入,语料库已经成为翻译理论和翻译实践中不可或缺的“利器”尤其是在人工翻译和机器翻译等应用领域。

在人工翻译实践中,我们可将已译好的文本进行格式处理并保存到数据库中,以便为日后的翻译工作提供参考。在这些翻译系统中,通常配备有文本对齐和术语管理的工具,它们可为以后的翻译工作提供译文参考,极大缩短了日后查阅术语、短语词组所用的时间,甚至可以为整句翻译直接提供译文。

除了为重复出现的文本翻译提供参考之外,多语平行语料库还可在翻译过程中为不经常重复出现的文本翻译提供帮助。平行/对应语料库(parallel corpora)可被当做多语种的词汇库来使用,它比字典所能提供的内容更全面、更具实用性。多语种比较语料库可被用来区分不同的语言类型以及语言使用的领域。术语语料库的建立为专门用途文本的翻译与专业术语的规范提供了有力的依据。如果对语料库中的语料进行标注,就可进一步将它运用于解决语法或语义上的翻译问题。比较语料库(comparable corpora)的研究可应用于很多领域。在文学研究或翻译中,不同语料库的对比可以揭示一个作者在写作中或译者在翻译过程中所体现出的个人风格,这有利于我们对文学作品的把握。

机器翻译的目标就是应用计算机辅助或代替人来从事复杂及枯燥的翻译活动。机器翻译是最早的利用计算机来进行的非数字化的应用,也是自然语言处理的计算机应用之一。现阶段许多人一直在研究完善利用双语对应语料库实现机器翻译。由于传统的基于规则和词典的机器翻译系统往往不能生成适合特定语境的通顺译句,人们希望利用双语对应库大量提取实用的翻译例句。例如,在汉译英时我们可以把每个中文句子跟其英文翻译句连接起来,反之亦然,这样就形成了大规模的翻译例句语料库。当人们用机器翻译时,软件可以自动快速的搜索类似翻译。后来人们把对齐的词汇和词组翻译应用于机器翻译,试图在大规模双语对应语料库中提取各级语言单位的翻译。

近年来,多语尤其是双语对应语料库开始引起语言学界和翻译界的高度重视,各种对应库的建设和相关研究都在进行中。对具体文本翻译而言,最重要的应该是双语(或多语)平行/对应语料库。其优点在于平行/对应语料库可大量存储同一语篇的两种或多种语言的互译译文,并对对应语料加以词性、句法和语义信息等标注。有了这样的语料库,利用特别研制的检索工具,可探究一种语言的词集(sets of words)或语法特征,可在对齐语句中检索一种语言及其外语对应成分,这种对齐和检索过程简单易行。

在收集对应语料以建立双语对应语料库的过程中,也要注意一些问题。比如翻译质量问题。翻译人员的水平参差不齐,有些译文质量不太高,甚至有错误。如果在语料库中收入这类文章,将影响其所包涵的翻译知识的可靠性,会对基于这些语料库的研究产生负面影响。另外还有选择语料问题。如果想要用于研究整

相关文档
最新文档