全球汉语学习者语料库建设方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2011年5月
第2期语言文字应用Applied Linguistics May ,2011No.2[收稿日期]2010-12-27
[作者简介]崔希亮,北京语言大学教授,博士,博导,主要研究方向为语言学及应用语言学;张宝林,北京语言大学汉语水平考试中心研究员,研究方向为语言学及应用语言学。
*本研究得到北京市教育委员会共建项目专项资助。
全球汉语学习者语料库建设方案
*崔希亮
张宝林(北京语言大学北京100083)
[摘要]本文在对汉语中介语语料库建设情况进行较为全面、深入的考察的基础
上,提出“全球汉语学习者语料库”的建设构想,具体介绍了该语料库的内容、建设原
则、
建库方式与步骤和主要特点。文章倡议学界共同努力,建设一个最大最好的汉语中介语语料库,实现最充分的资源共享,为全球的汉语教学与研究服务。
[关键词]外国汉语学习者;汉语中介语语料库;建设方案;资源共享
[中图分类号]H195[文献标识码]A [文章编号]
1003-5397(2011)02-0100-09The Principles for Building the
“International Corpus of Learner Chinese ”
CUI Xiliang ,ZHANG Baolin
Abstract :In this paper ,the design principles of “International Corpus of Learner
Chinese ”is proposed based on an overall and thorough investigation of the situation of
Chinese interlanguage corpus development.This paper introduces the contents ,principles ,methods ,steps of the construction of the corpus and its main characteristics.
With the purpose of serving for the global Chinese teaching and research ,this paper also is
an initiative to call for joint efforts of academic circle for the construction of the biggest and
the best Chinese interlanguage corpus ,and the realization of adequate sharing of
resources.
Keywords :foreign learners of Chinese ;Chinese interlanguage corpora ;construction
framework ;resources sharing
2011年第2期崔希亮张宝林:全球汉语学习者语料库建设方案·101·
一汉语中介语语料库建设现状
(一)汉语中介语语料库建设概观
汉语中介语语料库的建设始于20世纪90年代,第一个语料库即北京语言学院于1995年建成的汉语中介语语料库检索系统。此后有南京师范大学的外国学生汉语中介语偏误信息语料库、中山大学的留学生中介语语料库、暨南大学华文学院的留学生汉语中介语语料库、北京语言大学的HSK动态作文语料库问世。目前还有一些语料库在建设中,例如北京语言大学的首都外国留学生汉语文本语料库。
这些语料库在对外汉语教学的相关研究中发挥了巨大作用。研究者通过这些语料库发现了前人未曾发现的一些语言现象,并把定性研究与定量研究相结合,使研究结论具有较强的客观性、普遍性和稳定性,极大地提高了对外汉语教学研究的水平。例如赵金铭教授主持的“基于中介语语料库的汉语句法研究”、张博教授主持的“基于中介语语料库的汉语词汇专题研究”、肖奚强教授主持的“外国学生汉语句式学习难度及分级排序研究”,都是基于语料库的具有代表性的研究成果。
(二)语料库建设中存在的主要问题
1.数量较少,规模较小,语料不够全面。
与国内外众多的母语语料库相比,汉语中介语语料库数量很少,中国大陆已经建成并可以实际使用且有一定影响的汉语中介语文本语料库屈指可数。一般来说,这些语料库收集的学习者样本不多,语料规模较小:熟语料在几十万字至四百多万字之间。汉语中介语口语语料库则只有北京语言大学的汉语学习者口语语料库。
语料不全面包括两种情况:一是有的语料库只有某个或某些学习阶段学习者的语料,而缺少另外某些学习阶段的学习者的语料。例如HSK动态作文语料库只收入了参加高等考试的考生作文(初中等没有写作考试)。基于这样的语料库,只能对某个阶段学习者的习得情况进行考察,而无法对学习者的整个学习过程进行全面研究。(张宝林,2008)二是语料库中收集的语料以韩国、日本、东南亚一些国家汉语学习者的语料居多,欧美学习者的语料很少,不利于对欧美学习者的汉语习得情况进行全面、具体、深入的考察与研究。
2.语料库建设没有统一标准,建库实践带有很强的随意性。
汉语中介语语料库的建设目的是明确的,那就是为汉语教学及相关研究提供一个基础平台,使汉语中介语研究、作为第二语言的汉语习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考试研究、汉外语言对比研究等建立在更为扎实的基础上,并为汉语本体研究提供参考,使研究结论具有更广泛的普遍性和更充分的科学性。(张宝林、崔希亮、任杰,2004)但是,汉语中介语语料库应怎样建设?建库的基本原则是什么?语料库整体结构应该是怎样的?应收集什么样的语料?语料规模应多大?应标注哪些内容?应采用什么样的标注方式?如何保证标注的质量与一致性?应该收集语料的哪些背景信息?怎样收集?语料库是否向公众开放?怎样开放?如何实现资源共享?这些问题至今尚未展开充分的讨论,更没有一个为大家普遍接受的标准。
因此,在建设语料库的过程中就呈现出一种随意状态,不同的语料库建设者基本上是依据自己的主观认识与想法各行其是。其具体表现是:有的语料库语料规模为几十万字,有的则达几百万字;有的语料是学生平时的写作练习,有的是作文考试答卷;有的语料库除计算机录入