在美国当代英语语料库(COCA)如何查词

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

在美国当代英语语料库(COCA)如何查词.doc 在美国当代英语语料库(COCA)如何查词

摘要:美国当代英语语料库(Corpus of Contemporary American English,COCA)由美国Brigham Young University 的Mark Davies教授开发,目前单词容

量在4.5亿,是美国当前最新的当代英语语料库,也是当今世界上最大的英语平衡语料库。该语料库的语料来自1990-2012年,每年更新,检索功能强大,是最佳的英语学习助手。本文以sorry为例介绍了如何在美国当代英语语料库中查询单词及对单词sorry的检查与研究结果。

关键词:美国当代英语语料库,平衡语料库,sorry

Abstract: The Corpus of Contemporary American English (COCA) is the largest freely-available corpus of English,and the only large and balanced corpus of American English.The corpus was created by Mark avies of Brigham Young University,and it is used by tens of thousands of sers every month (linguists,teachers,translators,and other searchers).COCA is also related to other large corpora that we have created.

The corpus contains more than 450 million words of text and is

qually divided among spoken,fiction,popular magazines,newspapers,and academic texts.It includes 20 million words each year from 1990-2012.

Key words: the Corpus of Contemporary American English,parallel corpus,sorry

中图分类号:H319.3文献标识码:A文章编号:1006-026X(2013)12-0000-02

一、引论

美国当代英语语料库(Corpus of Contemporary American English,COCA)由美国Brigham Young University 的Mark Davies教授开发,目前单词容量在4.5亿以上,是美国当前最新的当代英语语料库,也是当今世界上最大的英语平衡语料库,且与其他所建语料库相连。访问者可利用COCA查询单词,短语,通配符,词形,词性,或任何以上的结合。帮助访问者对比词在不同类型,如口语,小说,杂志或报纸中的用法,或对比从1990年至今的该词的用法。每个月COCA的访问量都在好几万,其中有语言学家,教师,翻译,也有其他研究人员和英语学习者。与其他语料库需要注册或付费使用所不同的是,它是免费在线供大家使用,且每年更新,最新更新于2012年夏季。涵盖了1990-2012年的口语、小说、流行杂志报纸和学术期刊五大类型的语料,是观察及研究美国当代英语使用变化的一个良好平台。

二、关于COCA的界面及使用

COCA的查询界面由四部分组成:基本显示区,显示语料库名称和语料库容量;显示及查询条件界定区,查询结果数据显示区和例句显示区。下面以sorry为例,对其使用做详细阐述。使用COCA查单词:直接在显示及查询条件界定区的查询栏中输入所要查询的单词sorry,其他项忽略,点击search即在查询结果数据显示区得到下面(图表一)的查询结果:

此表表明COCA中所有关于sorry的词条总数为40036条。再在上图的sorry

上点击一下,将在例句显示区得出100个有关sorry的例句,且显示例句的来源,如是选自杂志还是报纸,名称(即杂志或报纸的名字)和年份(语料库默认从当前向1990年排列),每页例句显示为100条。但这样笼统的查询并不能具体直观的显示sorry的用法。

在其他项忽略的情况下,将显示方式(display)选为图表显示(chart),则得到下图的显示结果:(图表二)

此图左半部分表明sorry一词在COCA五大类型语料中的使用频率,在小说中

的使用频率最高,其次为口语中,在杂志、报纸和学术刊物中甚少使用;右半部分是从1990至2012年每五年的使用情况,图中显示sorry的使用变化差别不大。分别点击各个单项可在例句显示区得到五大语料类型下的sorry的例句,其中普遍看到的有以下四种情况:

1.sorry与系动词构成 be sorry的句子单独使用;

2.sorry单独成句;

3.sorry后搭配to;

4.sorry后接for;

以上结果只是用户的推断,对sorry前后的具体搭配并不清楚。如果想要弄清sorry经常前后与何种词搭配频率高,则可以在显示方式(display)中选择KWIC(前后文关键字)。在其他项忽略的情况下,系统的sorting and limits 项将自动变

更为display/sort项,且display默认为按字母排列(Alphabetical),排序(sort)项默认为L。。。-。。。R,

-表示关键字,L表示排序关键字左边三个词,R表示排序关键字右边三个词。点击查询,则得出的结果与上面用户的推断有很大的出入:例句显示区中的例句中关键字sorry左右三个词都出现了颜色标示,通过颜色标示可清楚的看出与sorry 经常构成的搭配的单词中,按频率由高往低排列: 1.sorry与系动词构成be sorry 的句子;

2.sorry后接for;

3.sorry后接to;

4.sorry state of;

5.sorry that…;

相关文档
最新文档