语料库语言学的方法在《现代汉语常用实词搭配词典》中的应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语料库语言学的方法在《现代汉语常用实词搭配词典》中的应用

作者:刘凤芹

来源:《现代语文(语言研究)》2008年第04期

摘要:语料库语言学的方法在词典编纂中的应用已有三十年的历史了,但汉语研究中对其应用仍显不足。《现代汉语常用实词搭配词典》的编纂,是对语料库语言学方法应用的一种尝试。由于这部词典是以第二语言学习者为对象的,所以选词范围限制在《汉语水平词汇与汉字等级大纲》的8822词中的实词,释义尽量简明、有代表性。采用的是基于语料库数据的方法,即从语料库出检索出某一实词的所有搭配结构,并且在人工干预下描绘出它的搭配词的语义类别,并举出其有代表性的搭配结构和范围。

关键词:语料库搭配关键词搭配词

《现代汉语常用实词搭配词典》①是一部专门为第二语言学习者学习汉语编纂的实用型词典。由于第二语言学习者缺乏汉语语感,再加上不同的词语有不同的搭配词,搭配中有词性、词义、词形和语用等制约因素,所以有时学生即使明白了词义,在使用中也常常会出现搭配不当的现象。对外汉语教学工作的实践证明,相当多的语句偏误出现在搭配上,这种搭配不仅表现为语法搭配,更表现为语义搭配。现有的几部搭配词典,虽然介绍了语法搭配,列举了搭配词条,但对于搭配词的语义类别没有概括,举例代表性不够,所以留学生在学习中没有很好的参考工具,因此,编写一部适用于以汉语为第二语言的学习者的搭配词典,就显得尤为重要。在这部词典中,不仅指出了某个词常常和哪类词搭配,而且概括出搭配词的语义类,然后再列举其有代表性的结构。同时对有些词还概括出语音搭配,即两个搭配词的音节和谐问题。另外,在语用方面也有所兼顾,如有的词书面语色彩突出,在词典中都有说明。

因为词典的使用群体是留学生,所以收词范围、释义等都以《汉语水平词汇与汉字等级大纲》8822个词为参照。具体特点如下:

(一)收词和释义:词典以汉语水平考试大纲中的8000多个词为基础,剔除虚词、单纯的构词成分以及个别搭配特点不明显的实词。释义可参考各类工具书和各种对外汉语教材,尽量适合以汉语为第二语言学习者学习阶段的水平,力求浅显简约,使用最常用最基本的少量核

心词,具体标准就是将释义用词的范围控制在汉语水平考试大纲中的3000余个甲、乙级词语范围之内。

(二)搭配结构的选择:考虑到外国人学习汉语的需要,本词典不反映词目的全部语法功能,所收词目不列举其全部搭配结构,只选收外国人学习汉语时容易出现问题的搭配结构和代表性的结构,并概括出搭配词的语义类。

(三)搭配结构的排列:词典分义项列举词目的搭配情况首先根据词语的搭配能力,分别列举词目与不同类词语的自由搭配情况。自由组合尽量指明搭配范围(即概括出搭配词的义类),并举例列举(列举搭配词语有代表性),有一定限制性的组合尽量列举全部搭配词语。例句基本不出现。

(四)不能搭配的结构:搭配项列举完后,可根据留学生使用词语的情况,注明词目不与哪类词语搭配以及其他需要注意的事项,以▲标出。②

在词典编纂过程中,拟采用语料库数据支持的方法,主要有基于语料库数据的方法(data-based approach)和语料库数据驱动的(data-driven approach)方法。这两种方法从语料库语言学的兴起开始,已经有30年的历史了,其中卓有成效的研究有(Jones & Sinclair,1974;Sinclair 1987、1991、1996;Kjellmer,1984、1987、1991;Kennedy,1990)。之所以采用语料库语言学的方法,是因为词语搭配中呈现出共现性、相对稳定性和不可解释性,这些特征有的可以从语法、语义的角度加以解释,但有些是人们长期习用的结果,表现出一些统计学特征,统计学特征就需要语料库证据的支持,才能更全面。因此,有了合适规模的语料库,就可以全面、准确、快速地完成编纂任务,再也不用像《English Collocation Dictionary》那样历时二十年才编纂成书了。

语料库的建设,这是编纂搭配词典的基础平台。目前语料库建设已经完成,建库时既利用了现有的语料库成果,又增加了一些适用于留学生的语料,其中既有各类学校编写的对外汉语教材,又有现当代汉语语料。题材、各类语料的比例力求科学合理。有了语料库以后,具体方法的运用主要采用基于语料库数据的方法。

类联接是词语搭配研究中的一个重要概念,是“语法范畴在句法结构上的相互关系”(Tognini Binelli 2001:5)。它不是指具体词与词的搭配,而是词的语法类别之间的搭配,如V+N、ADV+AD、N+N等都是类联接。在此搭配词典中,是以词项为中心,将要研究其搭配结构的词项称为关键词,参照类联接框架,观察、概括和描述词项的搭配。

索引(concordance),是语料库中含有所研究的关键词的句子。采用索引软件即可进行索引。将要研究的关键词输入计算机,计算机就会按照编好的程序列举出索引。目前,国外的Brown、COB等语料库都可以利用索引软件直接查询。国内有北京大学汉语语言学研究中心的现代汉语、古代汉语、汉英双语语料库。

语料库建设完成以后,可用索引软件从语料库中寻找含有某一关键词的所有索引,从索引中寻找搭配结构。关键词有词性的区别,可按照词性将索引进行粗分类,将同一词性的视为一类,然后按类归纳。同一词性的词有单义与多义之分,对于多义词可以按照义项再分类,同一个义项的归为一类,并对索引进行归类,单义词不存在再分类的问题。按词性、义项分类完毕以后,检查关键词与它的左右搭配词,看其左右搭配词中实词结合的紧密程度,虚词剔除。如和左搭配词更能构成一个完整的结构,就提取关键词和左搭配词,如和右搭配词更能构成一个完整的结构,就提取关键词和右搭配词。有时根据意义同时提取左右搭配词,视情况而定,但要以表达一个完整的意义为准。

搭配词也存在词性问题,根据词性,就可提取出类联接。再归纳同一类联接的搭配词的义类,从而列举出某一关键词的搭配范围。归纳义类不是随意而为的,参照了《同义词词林》的义类划分标准,并在确保意义准确的情况下尽量用浅显的语言概括出来,在搭配范围后列举典型例证,兼顾到所有的搭配范围。这就是基于数据的方法,用这种方法,研究者凭借丰富的资源,可对关键词的搭配情况和搭配特点进行较为扎实的概括,如果语料库容量比较大,且有一定的代表性,那么研究结果就有较高的效度。

由于这部词典收词选取的是有代表性的搭配结构,而不是所有的自由组合都不加取舍地收进来。所以,在索引中就有一个进一步取舍的问题。对于在语料中偶然出现的搭配,不是仅靠直觉,而是计算出关键词和搭配词的共现频率。在用检索软件检索关键词后,将所有的搭配词按降频排列,非常低的共现频率不予考虑,这样就可避免偶然搭配,很好地体现编写体例中的代表性特征。

我们从北大CCL现代汉语语料库中查到的“选拔”一词的索引有3804条,下面是部分索引:

(1)国统考是我国选拔硕士生的主要方式,它分为初试和复试。

(2)在98MBA联考的考生中选拔,而不再组织统考或单考。

相关文档
最新文档