小型学习者语料库的建设与应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第25卷第6期
贵州大学学报(社会科学版)V o.l 25 N o .62007年11月J OURNAL OF GU IZ HOU UN IVERS I TY (Socia l Sc i ences)N ov .2007
小型学习者语料库的建设与应用
周 杰
(贵州大学大学外语教学部,贵州贵阳550003)
摘 要:语料库在研究语言的用法、翻译、教学、教材编写以及词典编撰等方面起着重要作用。

外语教师可
以收集整理相关材料,有针对性地建设小型学习者语料库,并将其应用到实际教学、研究、翻译中。

本文介绍了
语料库的种类和用途、建设小型学习者语料库的基本方法以及小型学习者语料库的应用等。

关键词:小型;学习者语料库;建设与应用
中图分类号:H 319.3 文献标识码:A 文章编号:1000-5099(2007)06-0117-04
语料库自20世纪60年代发展至今,已经广泛应用于语言学研究的各个方面,如:词典编撰、语言本质的研究、教材编写、翻译比较、语言教学等。

计算机技术的高速发展使语料库语言学(Corpus L i n gu istics)在过去的20多年来也得到了长足的发展,已成为现代语言学的一个重要分支(潘永樑,2001)。

大型语料库语料收集面广,代表性强,可以为语言研究提供可靠的信息。

但正因为其包罗万象,大型语料库在辅助教学研究等方面缺乏针对性,实用性不强。

作者认为,广大教师可以根据自己的实际需要建设小型学习者语料库,开展有针对性地研究,并将其应用到教学中。

本文从语料库语言学的种类与用途、建设小型学习者语料库的可行性、建设小型语料库的基本方法以及如何使用小型语料库等方面做了主要论述。

一、语料库的种类与用途
建设语料库之前,我们应首先明白语料库的定义。

在语料库语言学的长期发展过程中,根据不同学者的研究内容或形式,形成了语料库的不同定义,但其核心内容均包含计算机和语料文本以及检索分析工具等。

笔者认为,Granger 的定义能清楚明确地描述语料库(Co r pus),即:应用计算机技术对海量自然语言材料进行处理(包括预处理、语法自动赋码、自动句法分析、语义分析等)、存储,以供自动检索(retr i e val)、索引(concordance)以及统计分析的大型资料库。

它是按照明确的设计标准为某一具体目标而建立的语言资料库(转引自李文中,1999)。

简单说来,语料库是指存放在计算机里的大量原始语料文本或经过加工后带有信息标注的文本。

它是一个庞大的语言素材的集合体,主要用于观察、分析和研究目标语的各种特征(唐洁仪,2004)。

而更通俗的说法则是把语料库看作是 按照特定的目的与方式建立起来的存储语言材料的仓库 (武和平,2002)。

那么,这个 仓库 能发挥怎样的作用呢?从语料库语言学的发展历程我们可以看到,语料库的用途主要体现在对语言现象以及语言本质的研究,如语言频率统计、词典编撰、词汇搭配研究和自然语言处理等方面。

现在,语料库也逐渐应用到教学研究中。

根据邢富坤(2006)的统计,国内基于语料库的教学研究的绝对数量越来越大,将语料库应用于外语教学的趋势也越来越明显。

根据不同标准,语料库可以分为单语语料库、多语种平行语料库、历时语料库、共时语料库等多种类型(潘永樑,2001)。

以下为其中两种分类法:
1)以语料的原始形式分类:书面语语料库、口语语料库和视频语料库。

书面语语料库语料收集相对容易,因而语料库规模较大;而口语和视频语料库的内容需要通过音频或视频转写,工作繁杂,难度大,因而相对来说,这两种语料库规模较小,且建成的不多,国内现已完成的库容量较大的主要有南京大学的!117! 收稿日期:2007-11-08
作者简介:周 杰(1971-),女,四川乐山人,贵州大学大学外语教学部副教授。

中国学生英语口笔语语料库。

2)以语料的来源分类:母语语料库和学习者语料库。

实际上,现在国际上规模最大的语料库如The
B ritish N ational Corpus(BNC)、COB U I LD和The Longm an Corpus Net w or k等收集的语料均来自英语为母语的国家。

国内的 现代汉语语料库(清华大学)和 大型中文语料库(北京语言文化大学)等也属于母语语料库。

各国现在也在建设自己的学习者语料库。

国内最早建立的学习者语料库是上海交通大学与广州外语外贸大学联合建成的 中国学习者语料库(CLEC)。

根据Leech(1998)的论述,学习者语料库的语料来自外语学习者产出的口语或书面语。

将这些语料经过计算机处理后形成的数据库即为学习者语料库。

学习者语料库的建设将为深入研究学习者的二语语音、词汇、语法、语篇、语用、交际能力的发展提供充分的数据,而且还为研究学习过程、自主性学习以及教材编写和测试提供重要的反馈和支持(文秋芳,2005)。

随着语料库语言学的发展,学习者语料库的建设已经成为了当今语料库语言学研究的重点之一(甑凤超,2004)。

国外建成的规模较大的学习者语料库是Ca m bri d ge Lear ner Cor pus(CLC)。

国内也逐渐出现了学习者语料库,除拥有100万词的CLEC之外,规模较大的还有南京大学的 中国英语专业语料库(100多万词)和 中国学生英语口笔语语料库(200多万词)以及规模更大的香港科技大学学习者语料库等。

这些大型语料库为广大学者和教师提供了大量真实的学习者的语料,可以对学习者的词汇用法、语法特征,特别是错误分析等进行研究。

同时,可以对照英语本族语语料库,将英语学习者的语料与本族语语料进行对比,找出它们的异同,为教材编写、大纲制定等提供有用的数据。

二、小型学习者语料库的建设
(一)建库的可行性和目的
尽管国内已经建成了上述学习者语料库,也有大量基于这些语料库的研究成果,但这些语料库涵盖的语料来源太广,广大教师可以利用其对国内英语学习者语言的整体特点等方面进行研究。

但具体来看,这些语料库并不能反映广大一线教师自己所任班级的学生的语言学习情况和语言特点。

相对来说,基于这些语料库的研究对一线教师的教学并没有很强的针对性。

因此,一般的外语教师应自己动手,收集与教材相关的材料和学生日常的材料,建立适用于教学的各种语料档案,如与课文相关的阅读材料档案库、学生作文档案库、教师∀∀∀学生课堂话语档案库等(卫乃兴,2005)。

这种小型语料库有着种种优势,如:目标明确、语料收集针对性强、语料能不断扩展、及时更新、自主设计、灵活标注等特点(谢家成,2003)。

技术的发展使语料库软件的操作越来越简单。

教师可以利用计算机对这些档案库中的语料进行处理,再利用语料库软件进行分析。

笔者认为,如上所述的学生作文语料库,即小型学习者书面语语料库是针对具体学生语言学习情况的最重要的语料库之一。

教师可以利用检索软件得出分析数据,了解学生总体的语言学习情况、词语搭配掌握情况以及错误情况等,而不是根据个人直觉对学生的学习情况作出判断。

从中找出自己学生的问题所在,分析问题,解决问题,从而达到提高学生整体水平的效果。

(二)语料来源和分类保存
学习者语料库的语料应来自学生在课堂或课外的语言产出,可以是书面的,如课堂作业、写作和考试等;也可以是口头的,如课堂对话、演讲和口语考试等。

书面语料的收集较为容易,可以在课后将课堂作业输入计算机存档;计算机的普及可以让学生用电子文档的方式提交写作材料。

相对来说,考试中的作文语料收集工作量较大,需要在试卷批改存档后输入计算机。

大部分书面语料的收集在日常教学中就可以完成。

口语语料收集输入需要两个基本步骤:录音和转写。

现代设备如MP3使录音的工作较为简单,但录音之后的转写需要花费大量的时间和精力。

以上述方式获得的语料是未经计算机处理的语料,可以称为生文本(ra w text)。

存档时,应把每一个生文本作为一个独立文件单独命名存放。

文件应以英文字母形式命名便于能让软件识别,并统一格式,方便以后添加新的文件。

同时,所有文件的格式应统一,建议使用纯文本(.txt)格式存档,这是几乎所有的语料库软件都能识别的格式。

(三)语料的标注和赋码
存档之后,应对生文本进行加工,使它具备更多的信息。

首先应加注篇头或文本头(header)。

文本头应提供这篇语料的相关基本信息,如作者姓名、年级、专业班级、性别、年龄、文本文体、文本字数等。

信息!
!
118
越多,对以后的研究就更实用。

通常的标注方法是将上述信息放入尖括号 <>中。

例如:<GRADE> =年级;<CLASS>=班级;<SEX>=性别;<AGE>=年龄;等等。

如果教师建设学习者语料库的目的是要对学生的错误现象进行分析,然后开展有针对性地教学,那么,文本头标注之后,就应对文本进行错误标注。

错误标注是一项细致的工作,教师应先对错误分类,然后制定错误标注赋码表,解释各赋码的含义,方便教师在标注时使用。

例如:
代码代码说明举例
<sp->拼写错误It i s ture<sp-true>t hat w e shou l d#
<ca->首字母应大写未大写#v ie w s on co m puter ga m es.i n<ca-In>m y opi n i on,#
<pr->代词使用错误Students like p l ay i ng g a m es.H e<pr-They>play g a m es everyday#
<g r->语法错误T he student want<gr-w ants>to p l ay ga m e
上表是笔者在对错误进行标注时使用的赋码表中的一些内容。

这只是对错误的简单标注。

若教师希望对学生的某一错误了解得更细的话,可以再将错误进一步分类,比如语法错误,可以分为第三人称单数错误、主谓一致错误、时态错误等等。

标注完成之后,就可以利用检索软件进行检索。

检索赋码与检索其他单词或词组都是相同的操作,所以简便易行。

若建库目的是了解学生的词汇搭配或词汇量等语言使用情况,则不用进行错误标注,这样工作量相对较小。

此外,应对语料进行词性赋码。

在进行词性赋码之前,应确定赋码方案(tagset)。

现在已经开发了多种词性赋码方案,如CLAW S自动词性赋码器等。

目前比较流行的词性赋码工具有AnnoToo l和GoTagger软件(赵宏展,2007)。

值得注意的是,无论做何种标注或赋码,都应保存一份生文本,以备将来进行更多的研究或标注时使用。

(四)语料库检索软件
计算机的普及让广大教师都能利用计算机对收集到的语料进行整理和处理。

下一步需要定位检索软件来对这些语料进行管理和检索。

很多功能强大、使用简便的定位检索软件网上也能免费下载,如:M i croconcord、Concapp、Concor dance等(谢家成,2003)。

常用的软件还有W o r dSm ith Too ls,主要工具包括Concord,W ordlis,t和K ey W or ds等语料库研究常用工具,功能非常强大。

这款软件需要购买,网上可以下载试用版。

上述软件各有特点,教师可以根据需要选择使用。

这些软件简便易学,教师在学习使用这些软件时,也可参考软件自带的帮助文件。

简单说来,小型学习者语料库的构建基本步骤为:规划、语料收集、语料输入计算机、校对、标注、赋码、入库。

上述工作完成之后,我们应将这些库文件统一命名保存,方便语料的维护与应用。

语料库的建设也就基本结束。

这样建成的语料库是开放的,教师可以在今后的教学过程中不断添加新的语料,使语料库发挥更大的作用。

三、小型学习者语料库的应用
学习者语料库建成之后,教师可以利用软件对语料库进行定位检索。

通过检索,找出自己学生在写作中的用词规律、词语搭配情况、语言特点以及错误类型情况等。

分析之后,进行有针对性地教学。

也可以通过将检索情况演示给学生,让学生自己发现问题,这样能加强学生自主学习的能力并提高他们的学习兴趣。

在实践中,笔者根据上述方法自建了一个小型学习者语料库,语料来源为自己所任班级学生的一次议论文写作材料,全班89人,共收集到85篇文章,约1万字,全部加注了文本头(header)和词性赋码。

在批改学生作文时,发现大部分学生有情态动词使用不准确的情况。

于是,笔者就对语料进行了专门标注,把语料中所有情态动词都标注为<m v>,希望通过定位检索工具找到确切的数据和问题所在。

下图为利用W ordS m ith工具中的Concord功能检索到的情态动词使用情况:
图中的数据显示,共有427个句子使用了不同的情态动词,其中,使用can的句子占了44.5%,另外三个常用的情态动词为w il,l should和m ay,占了37.9%。

这说明学生在句子中过分依赖上述4个情态动词来表达,这与英语为本族语的学生的用法相差太大,说明学生并没有掌握这几个词的用法。

这样,将来的教学中就可以更有针对性地对这些情态动词的使用进行讲解。

当然,我们还可以对情态动词的错误用法进行进一步标注,进而分析得出更细的结果。

!
!
119
上述对语料库的应用研究只是简单示范,还可以根据实际情况进行更多地分析研究。

本文中不再详细介绍。

小型学习者语料库的构建方法并不复杂,但需要团队的力量才能使繁杂的工作变得简单有序。

因此,建议形成合作小组,共同建设同一个专业,或同一个年级,或同一个学校的学习者语料库。

这样,可以使已建成的语料库发挥更大的作用。

当然,这类语料库功能的发挥还取决于以下两个方面,一是对语料的标注。

一般来说,标注越细,通过检索能得到的信息就越多,应用范围就越广。

二是教师的综合能力。

除了教学能力之外,教师还应具备语言学知识,善于总结、发现语言特点。

这样才能做到在教学中研究,在研究中教学。

本文中的构建方法还有一些不足的地方,需要我们在实践中不断完善。

此外,如何能更方便地对文本进细致的标注也是今后研究中应关注的问题。

参考文献:
[1]李文中. 语料库、学习者语料库与外语教学[J].外语界.1999,(1).
[2]潘永樑. 语料库语言学的目的和方法[J].解放军外国语学院学报.2001,(2).
[3]唐洁仪,何安平. 语料库在外语教学中的应用[J].外语电化教学.2004,(5).
[4]卫乃兴.∃语料库应用研究%[M].上海:上海外语教育出版社.2005.
[5]文秋芳.∃中国学生英语口笔语语料库%[M].北京:外语教学与研究出版社.2005.
[6]武和平. 基于网络的语料库及其在英语教学中的应用[J].电化教育研究.2002,(10).
[7]谢家成. 论个人教学语料库的构建[J].外语电化教学.2003,(3).
[8]邢富坤. 语料库:值得教育技术学关注的新型学习资源[J].解放军外国语学院学报.2006,(2).
[9]甑凤超,张霞.2004, 语料库语言学发展趋势展望[J].外语界.2004,(4).
[10]赵宏展. 小型翻译语料库的DI Y[J].中国科技翻译.2007,(2).
[11]K ennedy,G rae m e.An I n trodu cti on t o Corpus L i ngu istics[M].B eiji ng:Forei gn Language T eac h i ng and Res earch Press.2000.
[12]Leech,G.Learner Engli sh on Co m pu t er[M].N e w York:Long m an.1998.
To Buil d and Appl y S m all sized Learner Corpora
Z HOU Jie
(C olle g e E ng lish Depa rt m e n t,G uizh ou University,G ui yang,Gu i zhou,550003,Ch i na)
Abst ract:Co r pora play a critica l ro le in the st u dy of the language use,translati o n,teaching and tex t b ook co m p ilati o n.Teachers m ay co llect students&w ritings and bu ild s m all sized learner cor pora in li n e w ith their needs and apply the m i n teach i n g research and translati o n.The present study introduces the varieties and purpo ses of this k i n d o f corpora,the basic m ethod to bu il d up the s m a ll sized co r po ra and their applicati o n.
K ey W ords:s m all sized;learner co r pora;bu ild and app l y
!
!
120。

相关文档
最新文档