基于语料库的现代汉语研究方法综述

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于语料库的现代汉语研究方法综述

一、绪论

正如Sinclair所言:语料库所提供的海量语料使研究者系统地对大量文本语料进行审视,使我们有可能发现一些新的未发现的语言事实。语料库在语言研究中能提供空前广泛的语言资料,使得对语言多方面、多层次的研究成为可能。本文以2000年以来基于语料库的现代汉语研究的文献为依托,深入分析文献中基于语料库的研究方法,并从借助的语料库类型进行具体综述,据此对研究中存在的问题进行了分析。

二、借助的语料库类型

语料库为语言描述提供了丰富的数据资源,在基于语料库的语言研究中,语言学家利用机储数据库去描写语言的词汇和语法。基于语料库的研究方法,方便研究者统计数据,并在已有成果基础上,深化对某一类词群的研究。

然而,语料库种类众多,现代汉语研究方向也是多方面的,选择与研究内容相适应的语料库类型才能更好地提高研究效率,取得更佳的研究成果。笔者通过归纳2000年以来基于语料库的现代汉语研究的文献,总结以下几种常用的语料库类型。

(一)基于标注语料库的研究

标注就是使语料的某些单位(词、句、段等)和表示对这些单位的某种层次的理解的知识信息(标记符)相关联。标记语料库即含有

这些加工者添加其对语料的理解信息的语料库。这样的语料库可以作为句法规律研究的重要参考。

孙建功等,基于标记语料库对单句句型句模对应关系进行研究,归纳总结出现代汉语单句句型和句模对应关系的主要特点。杜婷借助《国家语委现代汉语通用平衡语料库》的标注语料库(在线提供免费检索的语料约2000万字),对现代汉语中小类词口部动词的频度进行了统计,进而发现其语法语用规律。

对语料库的标注工作,既是语料库建设中的一个重要环节,也丰富了语料库的利用价值,使其在句型、词汇等方面的研究中可以发挥出更大的作用。

(二)基于静态语料库的研究

静态语料库是收集某一固定时期的共时语言使用样本构成的语料库,属于共时语料库的一种。现有的许多类型的词典,被众多语言研究者运用到语言学研究中,形成基于静态语料库的现代汉语研究范式。

亢世勇在进行现代汉语谓宾动词分类统计研究时,即利用《现代汉语词典》等静态语料库作为语料源,利用计算机进行穷尽性检索,根据动词所带宾语类型对动词分类。针对外来词的研究,骆牛牛在《汉语经济外来词研究》中,以多部具有代表性的外来词词典为语料库,从中穷尽性检索出符合条件的经济类词条作为研究对象,以对其进行分析、总结规律。

基于以词典为主的静态语料库的研究,有利于更好地把握现代汉

语发展演变过程中某一时段的共时特征,对历时发展规律的研究有很好的基础性作用。

(三)基于自建语料库的研究

现代汉语中的词汇也是在人际接触交往中不断更新的。汉语词汇的日渐丰富,使得语料库的发展速度达不到词汇发展要求,因而出现研究者根据真实文本资料自建语料库,用于自己的研究,也为后来的研究者提供借鉴意义。

薛松蕙人,通过在《现代汉语词典》和《新华新词语词典》等辞书中检索对应词条,建立了一个旧词新义词语语料库来佐证自己的研究,为旧词新义语料库补充了新语料。卢海滨、王晓娟等分别自建了外来词语料库和派生词语料库,为他们的对比和实证研究提供重要参考依据。

这些自建的语料库一方面可以方便研究者开展自己的研究论题,另一方面,它们也是已有的静态语料库的动态补充。研究者在自建语料库的过程中提出的全新的建库标准原则,为以后语料库的丰富完善提供了指导性意义。

三、研究中存在的问题

基于语料库的现代汉语研究虽已得到进一步发展,研究方法也在逐步完善并广泛应用于各个方向的研究。然而,基于语料库的研究方法在运用时候仍然存在着一些问题:

(一)规模不够大

我国现已建成的语料库数目较多,涉及到的类型也较为丰富,但

相关文档
最新文档