语料库

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语料库、学习者语料库与外语教学

□李文中

0.概述语料库(corpora )是应用计算机技术对海量自然语言材料进行处理(包括预处理、语法自动附码、自动句法分析、语义分析等)、存储,以供自动检索(retrieval )、索引(concordance )以及统计分析的大型资料库。它是按照明确的设计标准为某一具体目标而建立的语言资料库(Atkins and Clear 1992:5,引自G ranger 1996)。如果作进一步区分,还可以把语料库与大型文档资源库(text archives )区别开来。前者具有明确语料选择比例和设计标准,而后者更注重语料容量和语料来源的多样性(Edwards 1993)。所谓自然语言是指任何人类在童年习得的语言(Leech 1987:1)。使用这一概念的意义在于,把人类自然语言同人工编制的人工语言(artificial languag 2es )(如C 语言、BASIC 、JAVA 、FORTRAN 等)区别开来;在对语言描述和研究中,自然出现的语料不同于研究者为某一目的而引出的材料(elicited data )。语料库的研究对象是人类语言自然运用(performance ),而不是内在语言能力(com petence )。语料库的应用主要在于以下几个方面:1)自然语言处理(包括自动语言识别、自动语法附码、句法分析、语义分析、知识表达、机器翻译等)。基于语料库方法可以提供有关语言结构和特征的可靠信息,而这些信息是内省法研究或心理测验获取的信息所不能比拟的。语料库是人们广泛深入理解语言所必需的工具(Edwards 1993,Leech 1991,1992,Svartvik 1992)。2)词典编纂。语料库能够提供更为完备和详尽的关于词义和词汇搭配信息(K jellmer 1984,Sinclair 1982,引自Edwards 1993)。3)语言学习与语言教学。早在本世纪60年代,美国Brown 大学创建了最早的语料库BROW N C ORPUS ,容量为100万词,广泛搜集了当时美国英语各种文体的语言材料。与此相呼应的是70年代初在欧洲同样容量的LOB 语料库,搜集了同年代的英国英语材料。基于这两个语料库,开展了大量的重要研究,研究的重点是对英语语法的描述和分析(Rundell 1996)。另外,70年代初还建成了50万词的英语口语语料库London 2Lund C orpus (LLC )。但对于大规模的词汇研究(如词典编纂)而言,100万词的容量显然不能满足要求。80年代初,由Birmingham 大学John Sinclair 主持建成了专门用于词典编纂的大型语料库BCET (Birmingham C ollection of English T exts )。该语料库最初容量为730万词,到80年代中期,其迅速扩充为2000万词。与此同时,朗曼公司词典部开始建立自己的语料库Longman 2Lancaster 语料库,容量达到3000万词。在我国,上海交通大学杨惠中教授在80年代末主持建成了容量为300万词的科技英语语料库(JDEST ,1997年扩充至360万词),主要用于大学英语教学大纲制定和教材开发。80年代建成的语料库还有Lancaster 的英语口语语料库(ESC ,1984—1987)、用于跨文化比较的PIXI 语料库。90年代初,包含英国书・

15・外语界1999年第1期(总第73期)①本文在写作过程中,承蒙Sylviane G ranger 教授惠寄有关资料以及对有关问题的讨论。C ornelis H.J.Vaes 寄来International

Journal o f Corpus Linguistics 以供参考。M ike Scott 寄来有关索引软件M icroC oncord 使用手册。导师杨惠中教授阅读了初稿并提出了修改意见。在此一并致谢。

面英语和口语容量为1亿词的英国国家语料库建成(BNC ,British National C orpus ,1994),而伯明翰大学的BCET 语料库进一步扩展为英语库(Bank of English ),容词量为两亿。到90年代中期,朗曼公司在BNC 库中又增加1亿词美国英语,C OBUI LD 的Bank of English 进而增长至3.2亿词(Rundell 1996)。

语料库的出现不仅标志着语言学研究手段的技术进步,还标志着语言研究思想的重大转变。它代表一种新的语言学思维,一种新的事业(Leech 1992,G ranger 1997)。语料库方法注重运用而非能力,重描述(description )而非普遍语法(universals ),重量化分析(quantitative analysis )而非定性分析(qualitative analysis )。语言学家对语言的研究从传统的直觉经验方法转向基于实验和统计的方法。但G ranger 认为这两种方法可以互补,而不是相互排斥①。语料库在语言描述和分析中发挥着愈来愈重要的作用。“现在不会有人试图不使用语料库信息就去编制新的词典。的确,对该领域大多数人而言,不参照实验性数据而试图进行语言描述的想法将被视

为反常。”

(Rundell 1996)1.学习者语料库的发展

随着计算机处理速度的飞速增长以及存储能力的扩大②,语料库建设呈现多元化发展和增殖趋势。在90年代,各种专门语料库纷纷建成或在建,如用于文学作品分析的各种作家语料库,用于历史语言学分析的历史语言语料库,用于学习者语言运用分析的学习者语料库。语料库的种类不再仅限于英语,而发展到各个语种③。语料库多元化的发展既包括研究方法的多元化,如历时性语料库和共时性语料库,也包括语料语体上的多样化,如书面语和口语语料库、通用型语料库和专门语料库,以及英语的各种变体语料库,如英国英语、美国英语、澳大利亚英语、印度英语、南非英语等。在这种多元化发展中,针对外语学习者而建立的学习者语料库(learner corpora )可谓异军突起,成为当今语料库建设中一股新的力量。学习者语料库的创建和研究只是近几年的事情。最早的学习者语料库是80年代末建立起来的朗曼学习者语料库(Longman Learners πC orpus )。90年代中期,在比利时Louvain 大学以Sylviane G ranger 为首建成了国际学习者英语语料库(IC LE )。该库是一个广泛的国际合作项目,容词量为100万词,所搜集的学习者语料来自14种不同的母语背景(包括法、德、荷兰、西班牙、瑞典、芬兰、波兰、捷克、保加利亚、俄、意大利、希伯莱、日、汉语)。另外香港科技大学的学习者语料库(HK UST Learner C orpus )搜集了以汉语为母语的学习者语言材料,容量为360万词。学习者语料库的发展,使得基于学习者语料库的研究异彩纷呈,方兴未艾。1996年8月在芬兰举行的“第十一届世界应用语言学大会:开发计算机学习者语料库”,与会者从不同角度对学习者语言进行了初步探讨。如Aarts 对多义动词‘find ’和‘want ’的对比研究,Altenberg 对瑞典英语学习者议论文写作中各种词汇、语法和话语特征的滥用或少用的研究,K aszubski 研究了波兰英语学习者词汇的重复和华・

25・①②③在Barlow 博士“语料库语言学”的主页上,列出了16种语言的网上各种语料库。这还不包括东方的主要语言,如汉语、日

语、朝鲜语等。中国的汉语国家语料库建设始于1992年,初始容词量为500万,主要用于汉语语法研究。到1995年,该语料库扩大至5000万词,并开发了针对汉语语料库的多阶处理系统(Qian Zhou and Shiwen Y u 1997)。

在1996年,一台配置Pentium 586,133MH z 处理器,1.7G 硬盘,16M RAM ,8xCD 2ROM 的个人计算机算得上先进,到了1998

年,这种配置已明显落后。(如266Π400MH z Pentium Ⅱ,4.3G Π10G+硬盘,128M RAM ,24xCD -ROM )。

Leech (1987)在比较自然语言处理中基于语料库方法和基于人工智能方法时表达了相似的观点,认为这两种方法并不互

相排斥,而是相互补充。语料库方法在自然语言处理中具有广域适应优势,但由于概率错误失之于准确;而基于规则的人工智能方法准确性高,但局限于某个领域。Leech 认为这两种方法是“从两端挖掘同一条隧道”。

相关文档
最新文档