语料库的类型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库的类型
[作者:李文中转贴自:Corpora and the ELT点击数:97 文章录入:neilruan ]
语料库来自拉丁词corpus,原意为“汇总”、“文集”等,复数形式为corpora或corpuses。语料库是“作品汇集,以及任何有关主题的文本总集”(OED)是“书面语或口头语材料总集,为语言学分析提供基础”(OED)。语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”(Sinclair,1986:185-203)。语料库是按照明确的设计标准,为某一具体目的而集成的大型文本库(Atkins and Clear,1992:1-16)。
Renouf认为,语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”(Renouf, 1987:1)。
Leech指出,大量收集的可机读的电子文本是概率研究方法中获得“必需的频率数据”的基础,“为获得必需的频率数据,我们必须分析足量的自然英语(或其它语言)文本,以便基于观测频率(observed frequency)进行合乎实际的预测。
因此,就需要依靠可机读的电子文本集,即可机读的语料库”(Leech, 1987:2)。综上所述,语料库具有以下基本特征:
1〕语料库的设计和建设是在系统的理论语言学原则指导下进行的,语料库的开发具有明确而具体的研究目标。如二十世纪六十年代初的BROWN语料库主要目的是对美国英语进行语法分析,而随后的LOB语料库基本按照BROWN语料库的设计原则收集了同年代的英国英语,目的是进行美国英语和英国英语的对比分析和语法分析。
2〕语料库语料的构成和取样是按照明确的语言学原则并采取随机抽样方法收集语料的,而不是简单地堆积语料。所收集的语料必须是语言运用的自然语料(naturally-occurred data)。
3)语料库作为自然语言运用的样本,就必须具有代表性(representativeness)。Chomsky曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料,其结果必然存在偏差,缺乏代表性,“自然语料库存在如此严重的偏差,以至于对其所进行的描述将不过是一个词表而已”(Chomsky, 1962:159)。这种批评对任何以概率统计为基础手段的研究都是有价值的(McEnery, 1996:5)。
但是,目前的计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差,增强语料的代表性。决定语料代表性的主要因素不外乎样本抽样的过程和语料量的大小。语料库抽样一般采取随机抽样方法。一种做法是在抽样前首先确定抽样的范围,如BROWN语料库和LOB语料库分别是以1961年全年的美国英语和英国英语出版物作为抽样范围i[i];再就是确定语料的分层结构,进行分层抽样,如把语料按文类(genre)和信道(channel, 如书面语和口语等)进行分层,如图2.1所示。从各种语料的抽样比例上又可分为‘均衡抽样’(balanced)和‘塔式抽样’(pyramidal)。前者对各种语料按平均比例抽取,而后者对不同的语料进行不等比例抽取。
4)语料库语料以电子文本形式储存并且是通过计算机自动处理的。巨量语料以纯文本形式存储在磁盘上,以便语料库索引软件检索和处理。也可以通过转换软件把其它格式的文件如超文本(htm 或html)格式转换为纯文本。另外,语料库具有一定的容量。语料库的大小取决于语料库的设计原则和研究需求,以及建库过程中语料资源的获取难度及其它因素。计算机语料库实际上提供了一种人机交互,这种交互方式随着语料库工具的发展而逐步加强其自动化特性。Leech认为这种人机交互有以下四种渐进的模式:(1)‘数据检索模式’。计算机以便利的形式提供数据,人进行分析。(2)‘共生模式’。计算机提供部分经过分析的数据,人不断改善其分析系统。(3)‘自我组织模式’。计算机分析数据并不断改善其分析系统,人提供分析系统参数及软件。(4)‘发现程序模式’。计算机基于数据自动划分数据范畴并进行分析,人提供软件(Leech,1991:19)。
计算机自动处理包括自动词性附码(tagging)、自动句法分析(parsing)等。其基本处理和分析过程包括以下几个步骤:
语音分析(phonetic analysis)指音段分析,主要用于语音识别和语音合成。
正字分析(orthographic analysis)指对文本中各种非文字符号、标点、大小写问题等进行处理和歧义消除。
形态分析(morphological analysis)即词性指定和附码。语料库自动附码软件通过概率统计和分析,对所给句子每一个词指定一个或多个词性码。结果显示分列显示和行显示两种。目前语料库自动词性附码准确率一般在97%以上。
句法分析(syntactic analysis)是指句子成分切分、句法关系识别、以及句法分析。语义分析(semantic analysis)和语用分析对语篇进行语义指定和意义解释。
5)基于语料库的研究以量化研究为基石,以概率统计为基本手段,以“数据驱动”为基本理念。其基本方法是通过对实际语言运用的抽样,确定其对语言整体的代表性,通过对样本特征的描述概括整体特征。在量化分析中,首先对特征进行分类,并统计各个特征的频率,通过建立复杂的统计模型对观测到的数据进行解释。分析结果可对研究对象总体进行概括。量化分析能够使我们发现在某一种语言或语言变体中哪些现象反映了语言的真实特征,那些现象仅属于偶然的个例。针对某一语言变体而言,我们还可以确切地知道某一语言现象的显著性,从而确认该现象是规范的还是异常的(McEnery,1997:3)。
6)语料库既是一种研究方法,又代表着一种新的研究思维,并以当代先进的计算机技术为技术手段。
7)语料文本是一连续的文本或话语片断(running text or continuous stretches of discourse),而不是孤立的句子和词汇。在语料库研究中,对某一搜索词的语法关系、用法、以及搭配的观察是通过分析提供的语境(context)进行的。语料库索引提供的语境可分为以下几种:(1)指定跨距,即使用者指定以搜索词为中心左右相邻的词数;(2)意元语境,即以某一意义单元结束为一微型语境,在语料库索引中意元的确定是以意义结束符号如“,;”等为标识的;(3)句子语境,即以句子终结符号如“. !”等为标识;(4)可扩展语境,即对搜索词所在语境可无限扩展。这对研究词汇的语法关系、词汇用法、词汇搭配、词丛(word cluster)、词汇在连续语篇中呈现的范型(pattern)、以及主题词汇之间的意义关系提供了可靠而方便的途径。如“necessarily”一词在《新英汉词典》中作为“necessary”词条下该词的副词形式,定义为“必定,必然”;Oxford Advanced Learner’s Dictionary of Current English把它列为一个单独的词条,给出的定义为“adv as a necessary result; inevitably”;各种英语教科书中对该词的定义和解释也大同小异。在上海交大科技英语语料库(以下简称JDEST)中搜索“necessarily”这个词,发现该词在全库中出现264次,频率最大的搭配词“not”出现在该词左边第一个位置,观察搭配频数为136。全库中出现5次以上的三词词丛有20组,同时含有“not”和“necessarily”的词丛有18组。通过索引行统计和词丛统计可以看出(见图2.4示例),“necessarily”一词最典型的用法是与“not”