语料库与语料库建设
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库和语料库建设
一、什么叫语料库
1、定义
语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的
语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。
目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。
语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。
语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。
二、语料库产生的背景及发展历史
对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期,
在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。
20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象,语料库收集的只是人们的语言运用,语言运用会因超语言因素的影响而发生变化,它并不能确切的反映语言能力。2、语料的不充分性。他们认为自然语言句子的数量是无限的,语料库的规模即使再大也无法穷尽所有可能的句子,因此“任何自然语料都是偏颇的”。在此后的长达20年的时间里理性主义在欧美一直占有统治地位,语料库研究一度陷入低谷。但在此期间仍有些语言学家凭着非凡的勇气继续不懈地从事语料库研究。最早的计算机语料库布朗语料库(Brown Corpus),1961年由纳尔逊(F. Nelson)和库切拉(H. Kucera)建立。布朗语料库容量为100万词,收集了60年代有代表性的美国英语语料,语料选自各种出版物,建库时照顾到了各种文体的平衡,严格按照随机原则抽样,是一个标准语料库。布朗语料库是第一个现代语料库,它对于后来的语料库的发展具有重要的影响。1975年,Jan Svartvik开始创建伦敦——隆德语料库(London —Lund Corpus),这两个语料库堪称现代语料库的开山鼻祖。
20世纪80年代以来,在相对沉寂了近20年之后,语料库研究重新萌发了生机,迅速得到发展。
语料库研究的迅速发展基于以下三个方面的原因:首先,具有语言学基础。在英国语言学研究中,实证主义从弗斯到韩礼德再到辛克莱一直被传承了下来,实证主义的基石是对可观察的对象进行研究,作为人们外部行为的语言运用是可观察的、可靠的依据,而人们内在的语言能力是不可直接观察的,只能通过语用实例进行推断。语料库是在随机采样的基础上收集的有代表性的真实语言材料的集合,是语言运用的样本。如果样本具有代表性,采样具有随机性,且样本的量又足够大,则可以认为样本就是总体的真实代表;样本具有总体的统计特征,研究语料库中的语言材料即近似于研究语言本身。语料库中的语言材料都是人们实际使用的语言材料,因此语料库语言的研究结果具有可靠性和真实性。强大的技术支持是语料库迅速发展的又一原因。主要体现在以下三个方面:一、以计算机为主导的硬件技术的发展。PC机的兴起、计算机计算速度的高速增长、存储介质的开发、存储容量的剧增都为计算机语料库的建设发展提供了技术保障。二、计算机网络的发展为语料库的发展和应用提供了有利条件。首先,大量的文献和文件具有电子文本形式在网上传播,为语料库语料的获得提供了便利条件;其次,大量语料库成为在线语料库,允许用户在网上实时使用;再者,研究者和用户能够在网上就语料库及时交流经验和看法。三、可以共享的语料库索引软件的开发。如今的索引软件大多已不是专为某一个语料库单独设计与开发的,而是能够应用于各种类型甚至不同语种的语料库。语料库迅速发展的第三个原因是需求的增长。在语料库的应用领域,不断增长的用户群体和不断扩大的应用领域进一步体现了语料库的应用价值。其应用包括传统领域、扩展领域和新兴领域。传统领域包括自然语言处理、语法分析和辞典编纂等,扩展领域包括教材的组织编写、机器翻译、语言识别和语言对比;新兴领域包括语言教学、数据驱动语言学习、中间语对比分析研究、多媒体计算机辅助教学、在线语料库。
在上述因素促动下,语料库建设迅速发展,相继出现了一批语料库,如,LOB 语料库(Lancaster-Oslo-Bergen Corpus)、COBUILD语料库、国际英语语料库(The International Corpus of English,简称ICE)、赫尔辛基历史英语