语料库语言学简史

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语料库语言学简史
语料库语言学及语料库方法的作用在今天已不容忽视，但是语料库语言学的发展却经历了一段长期曲折的过程。

以1957年Chomsky《句法结构》的发表为界，此前的语料库研究被语言学界广泛称为“早期的语料库语言学”；从上世纪50年代至80年代语料库语言学进入低谷；从80年代开始，语料库语言学迎来了它的“复苏期”。

1 早期的语料库语言学
利用真实语言资料进行研究，是词汇学家和语法学家的优良传统。

早在1747年英语词典编纂的鼻祖Samuel Johnson就发表了Plan of an English Dictionary，将前人收集资料的最好方法作了总结，他所编的英语词典含15万条以上的引证说明，可见其所收集的资料库已相当可观。

Oxford English Dictionary于1928年完成，所用的引证达400多万条，卡片1100多万张，还专门出版了中古英语手稿与文章350册，供编写OED时参考。

Webster’s New International Dictionary第二版的编写参照了100多万条引证，第三版于1961年付印时，新旧引证共达1000多万条。

英语语法大师Jesperson在编写《英语语法大全》（1909-1949）时，所使用的卡片数目多达30至40万张。

（王建新，1998：52）
20世纪40年代，美国的语言学家Boas在研究美洲印第安语言时就使用了语料库的方法（corpus-based methodology），后来的结构主义语言学家更是如此。

只不过当时还没有出现一个专门叫“语料库语言学”的词汇而已。

下面是早期语料库语言学的一些主要研究领域：
1．1 语言习得研究
19世纪70年代，语言学家就系统地对幼儿语言习得进行了研究。

这些研究都基于父母对幼儿话语及时记录的日记材料。

即使在现代，基于原始语料的语言习得研究也没有停止（Ingram，1978）。

在以日记材料为语料的研究风行过后（通常认为从1876年至1926年），语言习得的研究主要表现为下面两种方式：（1）以大量的、不同年龄段的儿童为语言素材的来源（informant），进行语言发展和成熟的研究；（2）以少量的儿童为语言素材的来源，长期跟踪记录他们使用的语言而进行的历时研究（McEnery，Wilson，2001：3）。

1．2 拼写规范研究
德国语言学家Kading以德语大型语料（1100万词次）为基础，对德语各字母在文本中的出现频率以及字母串进行了研究。

1．3 语言教学研究
20世纪20年代，由于大量移民涌向北美，以及各英属殖民地对英语教学的需要，有好几项工程都把寻找英语语言中最常用的词汇作为了主要的研究目标（Fries 和Traver，1940；Bongers，1947）。

1921年，Thorndike借助于语料库发布了英语词汇的使用频率研究报告。

此项研究对后来美国以及世界其他地区的英语教学都产生了巨大的影响。

1944年，Thorndike进一步完善了他的早期研究，发表了“教师3万词汇手册”（The Teacher’s Wordbook of 30，000 words）。

此时，Thorndike 研究所依据的语料库已达到1800万词次。

出于教学目的而对英语词汇进行基于语料库研究最著名的例子是Michael West的“实用英语词汇表”（General Service List of English Words）。

此项成果发表于1953年，它对当时英语书面语中最常用的2，000个词汇进行了具体的描述，
不仅有不同词义的使用频率情况，还有用法说明。

这些早期研究都得出这样的结论：不论在何种语体和文本中，都是为数不多的常用词占据了文本的大部分篇幅。

1．4 对比语言学研究
在对比语言学领域，语料库方法很早前就得到了应用。

最有代表性的例子是Eaton在1940年对荷兰语、法语、德语和意大利语词义频率的对比研究。

即使从今天的眼光看，这也是一项非常复杂的工作。

1．5 句法学和语义学研究
对词义频率的研究也出现在单语研究领域，Lorge的研究（1949）是这方面的例子之一。

与此同时，句法研究也使用了语料库的方法。

Fries （1952）以电话听抄稿为语料，对英语语法进行了系统分析，这项研究是早期描写语法的一个代表。

从以上的诸多例证可以看出，语料库方法在语言研究领域很早以前就已经被使用。

但语料库语言学的发展却有一个明显的低谷时期，它从20世纪50年代开始，以Chomsky的著作《句法结构》的发表为标志。

因为Chomsky在书中对语料库方法的批评，语料库方法和语料库语言学曾一度极度低落，几近死亡。

2 语料库语言学的低谷时期
Chomsky的转换生成语法在很短的时间内就在语言学界引起了一场革命，经验主义（empiricism）也很快被理性主义（rationalism）所取代。

Chomsky对语料库方法进行了直截了当的批评，他认为语料库永远也不会成为语言研究的有用工具，因为语言研究的最终目的是寻找语言能力（language competence）而不是语言行为（language performance）。

语言能力是所有说本族语的人可以理解并且说出从来没有听过的句子的能力，这是人人都共有的、内在的语言知识。

语言行为只是语言能力在特定场合下的表现，它是支离破碎的，不能反映语言能力的实际情况。

语言行为受到很多外部事物的影响，说话人是否饮了酒、说话时的环境等都会对语言行为产生影响。

因此，Chomsky认为语料库充其量只是对语言能力的外在表现——语言行为即言语的一种收集，这些数据无法指导语言学家获得语言能力的模型。

除此之外，Chomsky还对语料库语言学进行了进一步的批评。

早期的语料库语言学的做法会使人得出这样的两条假设：（1）自然语言中的句子是有限的；（2）自然语言中的句子是可以被收集的。

Chomsky批评说：很显然自然语言的句子是无限的，任何人都有说出或写出从未听过的句子的能力。

此外，英语的句子结构具有循环性（recursiveness）的特点，例如“The man that the cat saw that the dog ate that the man knew that the…”。

循环性进一步证明了自然语言中句子的无限性。

退一步说，假设自然语言中的句子是有限的，语料库方法会不会是研究语言的最佳方法呢？Chomsky也给出了否定的答案。

他认为语料库方法是多余的，语言学家只要通过内省（introspection）就可以进入思维活动的中心，从而对语言能力进行考察。

很多时候，语言直觉（intuition）比在语料库中搜索更节省时间。

像下面这样的句子是不大可能在语料库中出现的，如果不是靠内省，我们该如何将合乎语法的句子和不合乎语法的句子区分开来。

He shines Smith books.
我们怎么知道这是一个不合乎语法的句子呢？在语料库中，我们会找到大量与此结构类似的句子。

He gives Smith books.
He lends Smith books.
He owes Smith books.
语料库在这里毫无用处，反而给人以假象：这样的句子是可以接受的。

另外，歧义结构也只有通过内省才能够得到甄别，光靠对句子结构的观察是不够的。

例如：
Tom and Ruby sat down---he read a book of medicine.
Tom and Ruby sat down---he ate a can of dog food.
如果遇到像这样的句子，我们只有知道Ruby是一条狗的名字才能够理解句义。

除Chomsky之外，早期的语料库语言学也受到其他学者的质疑，这些质疑主要表现在语料库方法的“可信性”方面。

Abercrombie（1965）称语料库语言学的研究方法为“伪方法”（pseudo-procedures）。

在计算机技术还很落后的年代，这样的批评并不是空穴来风。

谁能想象语言学家们如何对大型语料库（如Kading的1100万字次的语料库）进行检索？在没有检索软件支持的情况下，光凭人工是无法实现科学、全面的检索和统计的。

因此可以说，由于计算机技术的限制，早期语料库语言学进行研究的基本条件在当时并不具备。

虽然Chomsky的批评对语料库语言学是致命的一击，但基于语料库的研究却从来没有停止过。

例如在语音学领域，对实际话语的记录材料一直是语言学研究的主要素材。

同样的情况也出现在语言习得的研究方面。

从20世纪50年代至80年代，语料库语言学领域仍有下面这些显著的成就：
1959年，英国伦敦大学的Randolph Quirk提出建立“英语用法调查”语料库（Survey of English Usage，SEU）。

不久以后，Nelson Francis和Henry Kucera在美国Brown大学召集了一些“语料库的有识之士”，开始了最终被称为Brown语料库的建设工作。

Brown语料库是世界上第一个根据系统性原则采集样本的标准语料库，规模为100万词次，主要代表了当代美国英语。

在当时的学术环境下，他们的研究是逆流而动的。

尽管受到许多语言学家的质疑，但他们对语料库的信心却没有动摇。

上述语料库的最终成功也极大地鼓舞了同行专家，为建设更大规模的语料库积累了经验。

1970年，在英国Lancaster大学的著名语言学家Geoffrey Leech的倡议下，LOB 语料库开始建设。

这项工作由挪威Oslo大学的Stig Johansson主持，完成于1978年，最后安装在挪威Bergen大学挪威人文科学计算中心。

LOB语料库与Brown 语料库相当，主要代表当代英国英语。

20世纪60年代初，Randolph Quirk主持的英语用法调查课题组曾收集了2000个小时的谈话和广播等口语素材，并整理成了书面材料。

这些材料后来由瑞典Lund 大学J. Svartvik教授主持全面录入计算机，这就是1975年建成的London-Lund英语口语语料库。

除了上面的语料库研究之外，这一时期还有“美国传统中级英语语料库”（The American Heritage Intermediate Corpus）和“康乃尔语料库”（The Cornell Corpus）等。

尽管在20世纪80年代之前，语料库的研究一天也没有真正停止，但应该承认这个阶段语料库语言学的发展步履维艰，语料库的建设也由于受诸多负面因素的影响而进展缓慢。

另外，这个阶段的语料库普遍规模小、加工深度低，除了对原始语料的简单处理外，对语料本身没有做什么分析和标注。

因此，这一时期的语料库被后人称为第一代语料库。

3．语料库语言学的复苏
语料库语言学的复苏始于20世纪80年代①。

第一代电子语料库有其时代局限性，Brown语料库和LOB语料库可以在计算机上使用，但所含的语料均为书面语，缺乏口语与手稿。

London-Lund语料库没有与之比较的美国英语口语语料库，
无法做共时比较研究。

到了20世纪80年代，计算机软、硬件都有了较大的技术进步，语料库的建设进入了高速发展期，第二代千万级以及亿级以上的语料库从此拉开了建设的序幕。

第二代语料库规模大，语料有一定的加工深度，在词类的自动赋码（tagging）、句法分析（parsing）和检索软件的开发等方面都有巨大的进步。

1991年8 月在斯德哥尔摩召开的诺贝尔语料库语言学研究会（Nobel Symposium on Corpus Linguistics）上，语言学家们在认真总结和评估了语料库语言学取得的研究成果之后得出了以下结论：语料语言学“正在成为一个独立的学科”，而且发展前景相当广阔（Svartvik，1992）。

第二代语料库主要有：
（1）COBUILD语料库
COBUILD语料库也常被称为Birmingham语料库，它是英国柯林斯出版社和伯明翰大学的一个合作项目，由伯明翰大学的John Sinclair教授负责，它最初的名称为“The Birmingham Collection of English Texts，BCET”（伯明翰英语文汇）。

COBUILD语料库最初的建设目的是为词典编纂服务，基于该语料库的词典编纂始于1980年，现已有多部词典问世，它们就是著名的COBUILD系列词典。

据Renouf（1987），COBUILD语料库的主体部分选择了“满足学习者、教师和其他使用者需要的英语语言，同时也要对当代英语的研究者具有一定价值”。

为了达到这一目标，语料在结构和内容上都有具体的要求。

要求包括：口语语料必须占25％的比例；语料应该主要是通用语言材料而不是技术语言材料；语料应该反映自1960年以来的英语用法；语料应该有广泛的代表性，英国英语语料占70％，美国英语语料20％，其他英语地域变体10％。

对于COBUILD语料库来说，书面语部分的选择经过了精心的策划。

文章必须来源于通俗的、知名的和被广泛阅读的作品，75％的内容由男作家写作，25％的内容选择女作家的作品。

口语语料来源于各种录音的文字记录（transcript），有广播稿、访谈和大学课堂的讲稿等等。

到1982年8月，COBUILD语料库的规模就达到了7300万词次。

COBUILD语料库具有很多创新，这不仅表现在它超大规模的语料，将商业目的和语料库的研究和开发进行联姻，并成功产出了一系列的词典、语法著作和教材也是该语料库的独到之处。

（2）朗文语料库网络（The Longman Corpus Network）
朗文语料库网络由三大语料库组成，它们是朗文-兰开斯特英语语料库（Longman/Lancaster English Language Corpus，LLELC）、朗文口语语料库（Longman Spoken Corpus，LSC）和朗文学习者英语语料库（Longman Corpus of Learners’English，LCLE）。

该语料库的主要目标之一是编纂英语学习词典，为外国人学习英语服务。

80年代后期，Della Summers与Leech合作，开始着手编制朗文-兰开斯特英语语料库。

该语料库将20世纪以来英国英语、美国英语和世界上其他主要的英语变体作为选材范围，涉及书面英语和口头英语两种形式，是一个覆盖范围很广的语料库，计划库容为5000万词次。

为确保语料库的代表性，语料的收集分为两个部分：一半语料选自1900年以来出版的供成人阅读的书籍，选材遵循严格的科学抽样原则；另一半语料是根据事先确定好的比例选自范围很广的、影响很大的文本。

58％的语料属于信息类，42％的语料是想象类文本。

语料选自2000多本书籍、期刊和末公开发表的材料。

（3）英国国家语料库（BNC，British National Corpus）
英国国家语料库的编制从1991年开始到1995年结束，历时5年，由英国政府出资，牛津大学出版社、朗文出版社、钱伯斯出版社、牛津大学计算中心、兰
开斯特大学和大英图书馆共同参与。

该语料库收集了当代英国英语4124篇文本，其中书面语占90％，口语占10％，共计一亿词次。

BNC书面语文本分为两大类：信息类部分（informative）和想象类部分（imaginative），其中前者占书面语语料的75％，后者占25％。

信息类部分的语料是选自1975年以来的英国英语；想象类部分的语料选自1960以后的英语书面语。

BNC的书面语选材范围很广，据Kennedy （2000：51），BNC语料中的60％来自书籍、25％来自期刊、5％来自各种出版的小册子、还有5％选自未出版的信函、会议纪要等，其余的来源于剧本和演讲稿。

同时，书面语料的选择还充分考虑了语体的差异，在BNC中，语体分为3个层次：“上层文体”的文学体、“中间文体”的一般文体和“下层文体”的非正式体，比例分别为30％、45％和35％。

下表是“信息类”文章的具体选材情况：占信息类语料的百分比占书面语总语料的百分比
自然科学、纯科学应用科学社会、团体国际事务商务财经艺术思想、信仰与宗教休闲6.813.313.320.013.313.36.713.3 51010151010510
总计100.0 75
（Kennedy，2000: 51）
BNC的口语部分共有1000万词次，主要有两个来源：其一，在英国12个地区采集的课堂讲座、新闻报道、商务会谈、访谈、布道、政治演说，甚至还有夜总会的交谈、电台的电话参与节目等；其二，124名自愿者为BNC计划提供了2000个小时的录音，这些录音稿是口语的第二大来源。

BNC的文章都进行了标注（annotated），编码系统采用了SGML（Standard Generalized Markup Language）。

兰开斯特大学开发的CLAWS系统为BNC进行了词类的自动赋码（word-class tagging）。

（4）国际英语语料库（ICE，International Corpus of English）
早在1988年，SEU的主持人Sidney Greenhaum就提议建设包含世界各主要英语变体的大型语料库并进行各变体间的对比研究，这项工程于1990年正式启动。

ICE共有23个子语料库组成，每个子语料库都是100万词次。

参照Brown语料库和LOB语料库，各子语料库都由500篇文章组成，每篇文章都是2000字左右。

在建设各子语料库的同时，ICE工程还开发了相应的软件，用于语料检索和分析的软件不仅适用于ICE各子语料库，也同样适用于其他一些语料库，比如20世纪60年代的SEU。

利用这样的软件既可以进行各英语变体间的共时对比研究，同时还可以进行英语语言的历时研究。

（5）英语文库（BOE，Bank of English）
由于语料库只是话语全域的一个缩影，所以语言学家们认为向已建成的语料库中不断添加新内容非常必要，Sinclair称这类语料库为监控语料库（monitor corpus）。

20世纪90年代末，Sinclair宣布COBUILD语料库已被扩展为一个规模宏大的语言数据库——英语文库。

到2002年，该语料库已经达到了4.5亿词次，是目前已知的规模最大的语料库。

BOE的语料包括口语和书面语，材料主要来源于英国（2.25亿）和美国（0.65亿）。

此外，还有3000多万词次的语料选自澳大利亚的报纸。

BOE的语料来源有16个渠道，其中9个是英美报刊，2个是广播，2个是英美的各种书籍，还有2个是英美的各种小册子，最后一种语料是非正式的谈话稿。

由于BOE是监控语料库，所以其规模还在日益增大。