大数据时代汉英语际对应词的挖掘

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

摘要文章分析了大数据时代词典编纂可用或可参考数据的特点，探索如何从海量数据中挖掘汉英语际对应词等词汇知识，还简要探讨了与数据或语料使用相关的问题。挖掘实践表明：充分利用可用资源，从纷杂的大数据中可以挖掘出所需的词汇知识，但目前仍需专业人员进行筛选、认定和解读。词典要保持生命力必须及时修订和收录新词。对于汉英词典来说，提供汉语词语的地道英语对应词会提升其实用价值。研究语际对应词挖掘不仅有助于编纂出符合用户需求的双语词典，对构建大数据语言资源库和开发挖掘分析软件也有参考价值。

关键词大数据时代对应词新词挖掘汉英词典

一、研究背景

移动互联网的飞速发展加快了媒体融合的进程，也使传统的词典学研究和词典编纂实践面临挑战。不仅纸质词典，就连掌上型电子词典也遭到了前所未有的冷遇。人们更喜欢通过智能手机或计算机查询在线网络词典或离线电子词典。

大数据的应用前景广阔。但是，词典学研究和词典编纂可用的数据是大数据吗？词典学研究和词典编纂真的需要大数据吗？我们尝试从大数据时代词典学研究和编纂实践可用数据的特点出发回答第一个问题，结合汉英语际对应词的挖掘实例分析回答第二个问题，还简要探讨与数据或语料使用相关的问题。

二、大数据与编纂词典的可用数据

1. 大数据的特点

传统意义上的“数据”指的是“有根据的数字”。现在，“数据”不仅指“数字”，还统称一切保存在电脑中的信息（包括文本、声音、视频等）。（赵勇，徐轲2014）在这个信息爆炸的时代，经过一定时间的积累就会出现海量或巨量的数据。过去，计算机存储信息或数据的计量单位用gb/gigabytes（1gb=1024mb）就已经很大了。现在用到tb/terabytes（1tb=1024gb），pb/petabytes（1pb=1024tb=1048576gb），甚至更大的计量单位。但是，不能简单地认为数量大就是大数据。大数据的体量巨大，不仅存储量大，计算量也大，超出了传统数据处理方法所能管理和处理的能力。

现在具有代表性的观点是大数据具备4v特征：（1）数据量庞大（volume）。（2）数据呈现多样性（variety），不但类型多（如文本、网页、图片、音频、视频和位置信息等），而且来自多种数据源，不仅有结构化数据，更多的是半结构化数据和非结构化数据。（3）时效性（velocity），即数据增长速度快、变化速度快，处理速度也要求快，包括大量的在线或

（4）实时数据分析处理。例如电子商务对销售数据的实时快速分析就意味着能及时抓住商机。

数据价值高（value），但价值密度低，即价值与数据总量之比很低，需要对海量的数据进行挖掘分析才能形成用户价值。如在长时间连续的监控视频中查找犯罪线索，有用的数据可能只有短短几秒钟。（赵勇，徐轲2014；严霄凤，张德馨2013；宗威，吴锋2013）

2. 大数据的定义

信息时代的“数据”概念是明确的，但是对于“大数据”至今还没有一个公认的标准定义。

美国国家科学基金会（nsf）将大数据定义为：“由科学仪器、传感设备、互联网交易、电子邮件、音频视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集。”（黄南霞，谢辉，王学东2013）

李战怀、王国仁和周傲英（2013）从数据库研究者的视角对大数据进行了解读，认为大数据是个笼统的概念。他们指出：“与应用密切相关的各类数据都属于大数据范畴，大数据强调支持实际应用所涉及到的多个来源且相互关联的大量、高速、异构数据；世界上凡是可以表达出来的信息都是数据；当为了一个具体的应用而需要把大量的不同类型、质量各异的数据及时进行处理时，这些数据就进入了大数据的范畴。”

胡雄伟、张宝林和李抵飞（2013）认为：“不存在严格意义上的大数据资源的定义，任何已有数据资源的汇集和整合就可以构成所谓的大数据资源。……大数据是各种类型的小数据的集合，通过各种类型的小数据整合、集合、集成处理，从中挖掘出潜在的新价值。所以说，大数据是小数据的再次利用和多次重复利用。”

3. 编纂词典的可用数据及特点

各行各业都有可能产生大数据，但是并非所有的数据都能用于词典编纂。

从是否付费的角度看，编纂词典的可用数据包括自有内部数据，可免费使用的外部数据和需交费使用的外部数据。

通过互联网等各种途径搜集或积累起来的单语、双语，甚至是多语语言资源，为词典编纂提供了丰富的语料或知识来源。但是将收集到的海量或巨量数据进行挖掘，找出规律并有效地加以利用才能创造价值。因此，挖掘和提炼出有价值的词汇知识对词典编纂工作来说至关重要。

三、汉英语际对应词及其挖掘

1. 语际对应词

语际对应词（interlingual equivalents）指的是可插入性对应词（insertible equivalents），包括两种语言间的绝对对应词和部分对应词。

包双喜和斯日古楞（2007）指出：一种语言的词，在基本意义上可以与另一种语言直接对译的词，彼此之间称为“对应词”；对应词是大量存在的，否则不同语言之间的翻译和交流就不能实现。

李明和周敬华（2000）在《双语词典编纂》一书中详细介绍和探讨过对应词的分类、在双语词典中提供对应词的方法、辨别对应词意义的手段，以及对应词的质量问题。他们发现双语词典编纂者在寻找（语际）对应词时可能会遇到三种情况：（1）能找到绝对对应词（absolute equivalents；或称对等词）；（2）只能找到部分对应词（partial equivalents；或称局限对应词bound equivalents）；（3）找不到对应词，出现词汇空缺（lexical gap）。李明和周敬华（2000）认为：除了绝对对应词和部分对应词，还可以把对应词分为翻译对应词（translational equivalents，又称插入对应词insertible equivalents）和解释性对应词（explanatory equivalents，又称描写性对应词descriptive equivalents）。他们建议把对应词分成插入性对应词和非插入性对应词。因为非插入性对应词只是词语的解释性翻译或描写性释义，所以不是严格意义上的对应词。插入性对应词有助于产出，而非插入性对应词有助于理解。在两者都可用的情况下，双语词典提供的插入性对应词在翻译方面对读者的帮助更大。

2. 现存问题

提供语际对应词是编纂双语词典的重要任务，也是专家们的共识。但是，提供地道实用的语际对应词的难度不小。正如曾泰元（2005）指出的那样，双语词典中对应词不够地道或不准确的现象并不少见，冗长的解释性释义依然存在。李安兴（2010）的研究显示：国内一些汉英词典编纂者未能将前人（尤其是国内外翻译家）已经给出的一些汉语词语的佳译提供给读者。

通过构建语料库获取对应词的研究早已有之。我国的语料库建设和应用也有了实质性进展。尽管不少研究机构和出版社已经或正在构建与词典编纂和出版相关的语料库，但是各方都是专注建设自己的语料库或数字出版资源库，没有采用统一的数据标准。而且，仅仅依靠现有的语料库不能完全满足词典编纂的需要。再加上建设周期、更新速度和使用权限的限制，词典编纂人员实际可用的语料库并不像人们想象的那样全面。

3. 汉英语际对应词的挖掘探索

大数据时代的到来为充分利用包括网络资源在内的各种资源和技术编纂汉英词典打开了