美国当代英语语料库(COCA)使用介绍要点

合集下载

常用在线语料库使用简介

常用在线语料库使用简介

字串查询区
图5-1
COCA
5. COCA界面简介(图5-1)
语料库分类区
图5-1
COCA
5. COCA界面简介(图5-1)
查询结果排列 方式区
图5-1
COCA
5. COCA界面简介(图5-1)
查询结果数据显示区
图5-1
COCA
5. COCA界面简介(图5-1)
例句显示区/帮助信息显示区
图5-1
结果如图6.5-2
图6.5-1
图6.5-2
COCA
7. 新增功能 7.1 Words and Phrases (图7.1-1)
/
图7.1-1
COCA
7. 新增功能 7.1 Words and Phrases 7.1.1 Frequency List (图7.1.1-1)
COCA语料库规模大,涵盖美国1990-2012年间
口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的文本 使用界面友好,检索速度快 时效性强,不断更新功能
COCA
5. COCA界面简介 三大功能区:
图6.1.1-4
COCA
6.1.2 检索某一词性的单词
输入“feature.[v*]”,可得到“feature”做动词时的使
用情况 (图6.1.2-1) “.”表示feature不与其后的字符串组成短语 “[v*]”代表所有形式的动词 点击POS LIST后的问号,可了解具体词性代码
在搜索结果区可得到“feature”的频数 (图6.1.1-2 )
点击该词,可在例句显示区看到含有“feature”的词条

coca等级词汇

coca等级词汇

coca等级词汇【原创实用版】目录1.引言:介绍 COCA 等级词汇表2.COCA 等级词汇表的构成3.COCA 等级词汇表的应用领域4.COCA 等级词汇表在我国的影响5.结论:总结 COCA 等级词汇表的重要性正文1.引言COCA 等级词汇表是一个用于描述英语语言中词汇频率的列表,它由美国南加州大学语言学家马克·戴维斯(Mark Davies)创建,并根据最大的英语语料库——COCA 语料库(Corpus of Contemporary American English)而得名。

这个表对于英语学习者、教育工作者和研究者来说都具有重要的参考价值。

2.COCA 等级词汇表的构成COCA 等级词汇表将英语词汇分为五个等级,分别是:(1)核心词汇(Core vocabulary):最常用的词汇,包括大约 2,200 个单词,这些词汇在英语中出现的频率非常高,掌握这些词汇有助于进行日常交流。

(2)基本词汇(Basic vocabulary):常用词汇,包括大约 7,500 个单词,这些词汇在英语中出现频率较高,掌握这些词汇有助于进行一般性的阅读、写作和交流。

(3)通用词汇(General vocabulary):包括大约 22,000 个单词,这些词汇在英语中出现频率适中,掌握这些词汇有助于进行更深入的阅读、写作和交流。

(4)学术词汇(Academic vocabulary):包括大约 10,000 个单词,这些词汇在学术性阅读和写作中出现频率较高,掌握这些词汇有助于进行专业性的阅读、写作和交流。

(5)专业词汇(Professional vocabulary):非常专业的词汇,包括大约 50,000 个单词,这些词汇在特定领域的阅读和写作中出现,掌握这些词汇有助于进行专业领域的研究和交流。

3.COCA 等级词汇表的应用领域COCA 等级词汇表在多个领域都有广泛的应用,包括英语教学、研究、翻译等。

美国当代英语语料库简介

美国当代英语语料库简介

美国当代英语语料库简介发表于《中小学外语教学(中学篇)》2013年第10期/s/blog_6056c9a60101nav5.html湖北:周韵【摘要】美国杨百翰大学的Mark Davies教授主持创立了一系列英语语料库,语料以各种英语变体为主,包括美国英语、英国英语、加拿大英语、《时代》杂志中的书面英语和美国肥皂剧中的英语口语。

其中,美国当代英语语料库是当前针对美国英语的大型历时语料平衡的网络语料库,具有库容大、语料丰富、检索方便灵活等特点。

本文介绍了美国当代英语语料库,以语料库及其关系数据库为平台,通过不同检索实例演示了以词汇为中心的应用与操作,以期探讨美国当代英语语料库在词汇教学中的应用。

【关键词】美国当代英语语料库,词汇教学,词汇检索,关系数据库一、美国当代英语语料库美国当代英语语料库(Corpus of Contemporary American English,简称COCA)是目前最大的免费英语语料库,也是第一个大型的语料平衡的美国英语语料库,口语、小说、流行杂志、报纸和学术性文体在语料库库容中各占20%。

它不仅是一个简单的在线词典,而且从建立之初就体现了其作为检索语料库的特征,能够协助研究者追溯语言发展中的变迁(Davies,2010)。

该语料库由美国杨百翰大学的Mark Davies教授主持创立并在2008年正式上线。

目前,每月有数以万计的包括语言学家、教师、翻译工作者在内的各种类型的研究者通过互联网免费使用该语料库。

美国当代英语语料库由包含4.5亿词的文本构成,这些文本由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。

从1999年至2012年这五个部分以每年增加2亿词的速度进行扩充,以保证语料库内容的时效性。

语料库每年更新1~2次。

因此,美国当代英语语料库被认为是用来观察美国英语当前发展变化的最合适的英语语料库。

除了在语料上拥有其他语料库无法比拟的优势外,美国当代英语语料库还将语料和检索软件结合起来,帮助语言研究者方便、快捷地分析和研究语料。

美国当代英语语料库在英语词汇学习中的应用

美国当代英语语料库在英语词汇学习中的应用
学 习 者 习得 地 道 纯 正 的 美 语 。 [ 关键词 ] COC A 语料库
引 言 Biblioteka 搭 配 同 义词 一

2 O 世纪8 O 年代 以来 , 基 于语料库 的语言学 及其相关研究越来 越受 到重视 。语 料库将大量 语言使用者 的语言直 觉汇集起来 , 从而使 语言 分析 更为客观。 自然发生 的语 言数据的最大优势是可 观察性和可检验 性, 基 于 语 料库 的观 察 本 质 上 比 内省 式 的 判断 更 经 得起 实证 检 测 ( Mc E n e r y&Wi l s o n . 2 0 0 1 : 1 4 ) 。 近年来 语 教学 中学 习者逐 渐处 于学 习的主体地 位 , 语料 库作为一种 辅助性工 具应用于语 言教学成 为必然 的趋势。语料库辅助教 学的主要思想是指引语 言学 习者充分利用 网络 和语料库 资源 , 通过观察 和分析大量客观 真实的语料, 发现语 言语法规 则、 意 义表达及语用 特征 , 积极主动地解决 问题 。有 助于提高学 习者 的 语言直觉 , 从而 掌握 准确地道 的语言 , 而且能培养 学习者 的思 考 、 推理 能力 , 使学习者“ 通过发现来学 习” ( T r i b b l e &J o n e s 1 9 9 0: 1 2 ) 。 二、 美国 当代英语语料库 ( COCA) 美国当代英语语料库 ( C o r p u s o f C o n t e mp o r a r y A me r i c a n E n g l i s h , C O - C A) 于2 0 0 8 年在互联 网上推 出 , 是迄今 为止 网上最 大 的免 费英语语料 库, 也是 当今世界上最大 的英语平衡语料 库。C O C A是 由美 国杨伯翰大 学( B r i g h a mYo u n gU n i v e r s i t y ) Ma r kD a v i e s 教授 开发 的 , 库容高 达 4 . 5 亿 词汇是美 国最新 当代英语 语料库 , 每月有 近 1 O 万人使 用该 语料库 以及 D a v i s 开发 的其他 几个 语料库用于学 习或科研 , 是使 用者不可多得 的一 个英语 参考资源 , 也是查询 和观察美 国英语使用 和变化 的一个极好 窗 口。 ( 汪兴富等 , 2 0 0 8 : 2 7 ) D a v i e s ( 2 0 0 5 ) 指 出, C O C A具备 了一个 好语 料库 的三项 最基 本条 件: 规模( s i z e ) 、 速度 ( s p e e d ) 以及 词性标注 ( a n n o t a t i o n ) 。C O C A的在线 查询速 度依据查 询内容差异 及复杂度 、 网络状况 和联 网计算 机配置而 定, 高达4 . 5 亿词 汇库容在 8 个2 . 4 G H z 的服务器上 同时计算 , 因此绝大 多数查询 都能在 几秒 内呈现 结果 ; 词性 标注使用 的是英语语 料广泛采 用的 C L AWS 7 软件 。C OC A已收集过去 2 0多年( 1 9 9 0年起 ) 美 国境 内多 个领域 的语料 , 涵盖美国 口语 、 小说 、 流行杂 志 、 报纸和学术期刊五大类 型的语料 , 并且 在这 五个类型方面基本呈均 匀分 布 , 在每五年 的时段 中

coca等级词汇

coca等级词汇

coca等级词汇【原创实用版】目录1.引言:介绍 COCA 词汇等级2.COCA 词汇等级的定义与划分3.COCA 词汇等级的应用领域4.COCA 词汇等级对于英语学习的重要性5.结论:总结 COCA 词汇等级的价值和意义正文1.引言COCA(Corpus of Contemporary American English)是美国当代英语的一个大规模语料库,它包含了众多英语词汇和短语。

在 COCA 中,词汇被分为五个等级,分别为高频词汇、中频词汇、低频词汇、罕见词汇和极罕见词汇。

这些等级对于英语学习者来说具有重要的参考价值。

2.COCA 词汇等级的定义与划分(1)高频词汇:在 COCA 语料库中出现频率最高的词汇,如“the”、“is”、“and”等。

这些词汇是英语基础中的基础,掌握这些词汇有助于提高阅读和写作效率。

(2)中频词汇:在 COCA 语料库中出现频率较高的词汇,如“education”、“technology”等。

这些词汇扩大了英语学习者的词汇量,有助于提高阅读理解的能力。

(3)低频词汇:在 COCA 语料库中出现频率适中的词汇,如“empanada”、“antics”等。

这些词汇在日常交流中不常用,但在特定场景下会出现,掌握这些词汇有助于提高英语表达的准确性。

(4)罕见词汇:在 COCA 语料库中出现频率较低的词汇,如“plethora”、“ephemeral”等。

这些词汇在日常交流中很少出现,但在文学作品或专业领域中会有所涉及,掌握这些词汇有助于提高英语阅读和写作的深度。

(5)极罕见词汇:在 COCA 语料库中出现频率极低的词汇,如“supercalifragilisticexpialidocious”等。

这些词汇在英语学习中几乎不会用到,但对于语言研究和词汇爱好者来说具有一定的价值。

3.COCA 词汇等级的应用领域COCA 词汇等级在英语教学、研究、翻译等领域都有广泛的应用。

英语学习者可以根据这些等级有针对性地进行学习和记忆,提高自己的英语水平。

在美国当代英语语料库(COCA)如何查词

在美国当代英语语料库(COCA)如何查词

在美国当代英语语料库(COCA)如何查词.doc 在美国当代英语语料库(COCA)如何查词摘要:美国当代英语语料库(Corpus of Contemporary American English,COCA)由美国Brigham Young University 的Mark Davies教授开发,目前单词容量在4.5亿,是美国当前最新的当代英语语料库,也是当今世界上最大的英语平衡语料库。

该语料库的语料来自1990-2012年,每年更新,检索功能强大,是最佳的英语学习助手。

本文以sorry为例介绍了如何在美国当代英语语料库中查询单词及对单词sorry的检查与研究结果。

关键词:美国当代英语语料库,平衡语料库,sorryAbstract: The Corpus of Contemporary American English (COCA) is the largest freely-available corpus of English,and the only large and balanced corpus of American English.The corpus was created by Mark avies of Brigham Young University,and it is used by tens of thousands of sers every month (linguists,teachers,translators,and other searchers).COCA is also related to other large corpora that we have created.The corpus contains more than 450 million words of text and isqually divided among spoken,fiction,popular magazines,newspapers,and academic texts.It includes 20 million words each year from 1990-2012.Key words: the Corpus of Contemporary American English,parallel corpus,sorry中图分类号:H319.3文献标识码:A文章编号:1006-026X(2013)12-0000-02一、引论美国当代英语语料库(Corpus of Contemporary American English,COCA)由美国Brigham Young University 的Mark Davies教授开发,目前单词容量在4.5亿以上,是美国当前最新的当代英语语料库,也是当今世界上最大的英语平衡语料库,且与其他所建语料库相连。

美国当代英语语料库(COCA)使用介绍精品名师资料

美国当代英语语料库(COCA)使用介绍精品名师资料
美国当代英语语料库(COCA)使用说明
/
免费的英语语料库资源
• /static/worldcorpora.htm
• /index.html
• /m/micase/ • http://lextutor.ca/conc/eng/ • /
COCA界面简介
COCA界面简介
• 字串查询区:
• Ⅰ、WORDS:输入字符串。 • Ⅱ、COLLOCATES:上下文限定。 • Ⅲ、POS LIST:词性列表
COCA界面简介
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
• 功能:此区可以对查询的字符串限定语料类型 (Genre)和时段(Year) ,并且可以明确到查询某一 个子语料库,时段也可以查询任何一年的某个字词 的使用情况。
POS LIST





pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
图2.1.2-1
图2.1.2-2
Whiten*];动词: [v*]; 形容词: [j*]; 副词: [r*];代词:[p*];连词:[c*]……
POS LIST 词性列表
noun.ALL=名词 noun.SG=单数名词 noun.PL=复数名词 noun.CMN=普通名词 noun.+PROP=专有名词 noun.-PROP=非专有名词
COCA语料库简介

COCA简介

coca语料库在英语写作课堂教学中的应用

coca语料库在英语写作课堂教学中的应用

coca语料库在英语写作课堂教学中的应用Coca语料库在英语写作课堂教学中的应用________________________________________________________________________随着社会经济发展,英语已经成为世界上最重要的语言。

在大多数国家,学生都必须学习英语作为一门外语,以满足他们的学习和工作需求。

英语写作教学是一项重要的教育活动,旨在培养学生的英语写作能力。

然而,由于教师们缺乏有效的教学方法,学生在写作过程中经常会遇到各种问题。

因此,有必要引入一种有效的写作教学方法,以改善学生的写作能力。

Coca语料库是一种新兴的教学方法,它主要通过分析大量的英语文本来帮助学生更好地理解英语句子结构。

Coca语料库是一个由大量英语文本组成的数据库,包括来自不同文本来源的英语句子。

它可以帮助学生理解英语句子的结构,从而更好地进行写作。

Coca语料库的主要应用是帮助学生理解句子的结构,以便于他们更好地进行写作。

例如,Coca语料库可以帮助学生理解句子的主干成分、句子的主题和句子的结构特征。

这将有助于学生更好地理解句子的内容,从而更好地进行写作。

此外,Coca语料库还可以帮助学生更好地理解英语文本中使用的词汇和句式。

通过分析文本中使用的词汇和句式,学生可以更好地理解文本的意思,从而帮助他们更好地进行写作。

此外,Coca语料库也可以帮助学生分析不同文本之间的差异。

通过对不同文本中使用的词汇和句式进行分析,学生可以更好地理解不同文本之间的差异,从而帮助他们进行写作时更好地考虑到不同文本之间的差异。

最后,Coca语料库还可以帮助学生理解不同文化背景下使用的不同表达方式。

通过分析不同文化背景下使用的不同表达方式,学生可以更好地理解不同文化背景下使用的表达方式,从而帮助他们在写作时更好地考虑到不同文化背景之间的差异。

总之,Coca语料库是一种有效的写作教学方法,可以帮助学生更好地理解句子的结构、词汇和句式、文本之间的差异以及不同文化背景下使用的表达方式,从而帮助他们更好地进行写作。

COCA语料库操作演示.ppt教程

COCA语料库操作演示.ppt教程

图2.4.2
规则:在WORDS的方格里分别输入woman和man,再在 COLLOCATES方框里输入[j*],选在左3,表示前面3个跨 距内所有的形容词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.3 搜索近义词 • 如:搜索beautiful的所有近义词(如图2.4.3-1)
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):
图2.3-3
• 2.4 进行语义倾向比较 • 2.4.1 比较近义词 • 如:近义形容词hot和warm后面所跟名词的 区别(如图2.4.1):
图2.4.1
规则:首先选择 COMPARE 显示。然后在WORDS的方格里分 别输入hot和warm,再在COLLOCATES方框里输入[n*],表示 后面所跟任何名词。当然也可以比较在某个子语料库中出 现的频率比较。
ቤተ መጻሕፍቲ ባይዱ
• 2.4.2 比较反义词 • 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.1.4-1
规则:若要得到某个单词的所有单复数和时态形式,那么 就要在输入时,在这个单词外加 [ ]。
图2.1.4-2
形容词early的原形,比较级和最高级三种形式一次性检索出来检索
• 2.1.5 输入某种词性且部分带有某些字母的命令, 如要得到以 un- 开头、 -ed 结尾的所有形容词的所 有 形 式 ( 见 图 2.1.5-1 ) 和 得 到 动 词 + 任 何 词 +ground的所有词组(见图2.1.5-2): • 规则:若要得到某种词性且词中带有部分带有某 些字母的形式时,如要得到以 un- 开头、 -ed 结尾 的所有形容词的所有形式,那么输入: un*ed.[aj*]; 若要得到动词+任何词+ground的所有词组,那么输 入: [vv*]*[ground]即可。前者用来研究词汇,后者 用来查询特定词性的搭配。

使用COCA等在线语料库相关说明

使用COCA等在线语料库相关说明

1. Who created these corpora?The corpora were created by Mark Davies, Professor of Linguistics at Brigham Young University in Provo, Utah, USA. In most cases (though see #2 below) this involved designing the corpora, collecting the texts, editing and annotating them, creating the corpus architecture, and designing and programming the web interfaces. Even though I use the terms "we" and "us" on this and other pages, most activities related to the development of most of these corpora were actually carried out by just one person.2. Who else contributed?3. Could you use additional funding or support?As noted above, we have received support from the US National Endowm ent for the Humanities and Brigham Young University for the developm ent of several corpora. However, we are always in need of ongoing support for new hardware and software, to add new features, and especially to create new corpora. Because we do not charge for the use of the corpora (which are used by 80,000+ researchers, teachers, and language learners each month) and since the creation and maintenance of these corpora is essentially a "one person enterprise", any additional support would be very welcom e. There might be graduate programs in linguistics, or ESL or linguistics publishers, who might want to make a contribution, and we would then "spotlight" them on the front page of the corpora. Also, if you have contacts at a funding source like the Mellon Foundation or the MacArthur grants, please let them know about us (and no, we're not kidding).4. What's the history of these corpora?The first large online corpus was the Corpus del Español in 2002, followed by the BYU-BNC in 2004, the Corpus do Português in 2006, TIME Corpus in 2007, the Corpus of Contemporary American English (COCA) in 2008, and the Corpus of Historical American English (COHA) in 2010. (More details...)5. What is the advantage of these corpora over other ones that are available?For some languages and time periods, these are really the only corpora available. For example, in spite of earlier corpora like the American National Corpus and the Bank of English, our Corpus of Contemporary American English is the only large, balanced corpus of contemporary American English. In spite of the Brown family of corpora and the ARCHER corpus, the Corpus of Historical American English is the only large and balanced corpus of historical American English. And the Corpus del Español and the Corpus do Português are the only large, annotated corpora of these two languages. Beyond the "textual" corpora, however, the corpus architecture and interface that we have developed allows for speed, size, annotation, and a range of queries that we believe is unmatched with other architectures, and which makes it useful for corpora such as the British National Corpus, which does have other interfaces. Also, they're free -- a nice feature.6. What software is used to index, search, and retrieve data from these corpora?We have created our own corpus architecture, using Microsoft SQL Server as the backbone of the relational database approach. Our proprietary architecture allows for size, speed, and very good scalability that we believe are not available with any other architecture. Even complex queries of the more than 425 million word COCA corpus or the 400 million word COHA corpus typically only take one or two seconds. In addition, be cause of the relational database design, we can keep adding on more annotation "modules" with little or no performance hit. Finally, the relational database design allows for a range of queries that we believe is unmatched by any other architecture for large corpora.7. How many people use the corpora?As measured by Google Analytics, as of March 2011 the corpora are used by more than 80,000 unique people each month. (In other words, if the same person uses three different corpora a total of ten times that month, it counts as just one of the 80,000 unique users). The most widely-used corpus is the Corpus of Contemporary American English -- with more than 40,000 unique users each month. And people don't just come in, look for one word, and move on -- average time at the site each visit is between 10-15 minutes.8. What do they use the corpora for?For lots of things. Linguists use the corpora to analyze variation and change in the different languages. Some are materials developers, who use the data to create teaching materials. A high number of users are language teachers and learners, who use the corpus data to model native speaker performance and intuition. Translators use the corpora to get precise data on the target languages. Some businesses purchase data from the corpora to use in natural language processing projects. And lots of people are just curious about language, and (believe it or not) just use the corpora for fun, to see what's going on with the languages currently. If you are a registered user, you can look at the profiles of other users (by country or by interest) after you log in.9. Are there any published materials that are based on these corpora?As of mid-2011, researchers have submitted entries for more than 260 books, articles and conference presentations that are based on the corpora, and this is probably only a sm all fraction of all of the publications that have actually been done. In addition, we ourselves have published three frequency dictionaries that are based on data from the corpora -- Spanish (2005), Portuguese (2007), and American English (2010).10. How can I collaborate with other users?You can search users' profiles to find researchers from your country, or to find researchers who have similar interests. In the near future, we may start a Google Group for those who want more interaction.11. What about copyright?Our corpora contain hundreds of millions of words of copyrighted material. The only way that their use is legal (under US Fair Use Law) is because of the limited "Keyword in Context" (KWIC) displays. It's kind of like the "snippet defense" used by Google. They retrieve and index billions of words of copyright material, but they only allow end users to access"snippets" (片段,少许)of this data from their servers. Click here for an extended discussion of US Fair Use Law and how it applies to our COCA texts.12. Can I get access to the full text of these corpora?Unfortunately, no, for reasons of copyright discussed above. We would love to allow end users to have access to full-text, but we simply cannot. Even when "no one else will ever use it" and even when "it's only one article or one page" of text, we can't. We have to be 100% compliant with US Fair Use Law, and that means no full text for anyone under any circumstances -- ever. Sorry about that.13. I want more data than what's available via the standard interface. What can I do?Users can purchase derived data -- such as frequency lists, collocates lists, n-grams lists (e.g. all two or three word strings of words), or even blocks of sentences from the corpus. Basically anything, as long as it does not involve full-text access (e.g. paragraphs or pages of text), which would violate copyright restrictions. Click here for much more detailed information on this data, as well as downloadable samples.14. Can my class have additional access to a corpus on a given day?Yes. Sometimes your school will be blocked after an hour or so of heavy use from a classroom full of students. (This is a security mechanism, to prevent "bots" from running thousands of queries in a short time.) To avoid this, sign up ahead of time for "group access".15. Can you create a corpus for us, based on our own materials?Well, I probably could, but I'm not overly inclined to at this point. Creating and maintaining corpora is extremely time intensive, even when you give me the data "all ready" to import into the database. The one exception, I guess, would be if you get a large grant to create and maintain the corpus. Feel free to contact me with questions.16. How do I cite the corpora in my published articles?Please use the following information when you cite the corpus in academic publications or conference papers. And please remember to add an entry to the publication database (it takes only 30-40 seconds!). Thanks.In the first reference to the corpus in your paper, please use the full name. For example, for COCA: "the Corpus of Contemporary American English" with the appropriate citation to the references section of the paper, e.g. (Davies 2008-). After that reference, feel free touse something shorter, like "COCA" (for example: "...and as seen in COCA, there are..."). Also, please do not refer to the corpus in the body of your paper as "Mark Davies' COCA corpus", "a corpus created by Mark Davies", etc. The bibliographic entry itself is enough to indicate who created the corpus.。

COCA 语料库界面查询输入说明(修订)

COCA 语料库界面查询输入说明(修订)
/表示或者;在LIST中上下排列结果;选择SHOW SECTIONS时结果更直观
fairly *
查与fairly搭配的情况
*是通配符,此处代指任一个词;注意:fairly与*之间有空格
un*ly
查以un开头以ly结尾的词
查到单词如unlikely,unusually;此处*代指任意数量的字母
[slip].[v*]
查beautiful的同义词与flower的同义词搭配的情况
small
little
[nn*]
0/3各
RELEVANCE
查small和little后面3个词内的名词使用对比情况
ground.[n*]
floor.[n*]
[j*]
3/0
RELEVANCE
各查ground和floor作名词时前面3个词内的形容词使用对比情况
查is被缩写为’s情况的句式结构
’s在本语料库中可以被视为一个词单独查询,即,和前面的单词要空格且输成‘s,其它缩写形式也是用类似方法查询
it is [v*] that
或we [vv*] that
查句式结构
选择CHART显示可以看出第一个是学术结构,是口语的8.5倍;第二个结构口语中最常用
to [v*] or not to [v*]
[sing]
查sing的任何形式
查到sing,singing,sang等,但不包括song
[=publish]
查publish的同义词
=表示同义关系,结果为publish,circulate,announce等。说明:查同义词是COCA语料库的一大特色
[[= publish]]
查publish的同义词并且
查slip作动词的情况

COCA语料库操作 演示.ppt知识讲解

COCA语料库操作 演示.ppt知识讲解

图2.4.1
规则:首先选择 COMPARE 显示。然后在WORDS的方格里分 别输入hot和warm,再在COLLOCATES方框里输入[n*],表示 后面所跟任何名词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.2 比较反义词
• 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):
图2.3-3
• 2.4 进行语义倾向比较
• 2.4.1 比较近义词
• 如:近义形容词hot和warm后面所跟名词的 区别(如图2.4.1):
图2.4.3-3
思考:
• 1)如何查询多义词特定的词性的KWIC,如for 作连词或介词等?
• 2)如何查询某个词前/或者后面特定词性的若干 搭配词, 如confidence 前的形容词?
• 3)词性附码应放置在什么位置?
此课件下载可自行编辑修改,仅供参考! 感谢您的支持,我们努力做得更好!谢谢
图2.1.5-1
图2.1.5-2
动词+任何词+ground的所有词组
• 2.2 搜索搭配词和出现的频率 • 如 “thick后跟的名词” (图2.2-1)
图2.2-1
规则:在COLLOCATES里输入[n*] 后选择4,表示 在thick后面(4跨距范围内)出现的任何名词
• 如跟在 “smile前面的形容词” (图2.2-2)
COCA语料库操作 演示.ppt
图1.1 COCA界面简介
1. 显示方式 2. 关键词输入栏

coca分频词汇释义

coca分频词汇释义

COCA(Corpus of Contemporary American English)是一个大型的英语语料库,它包含了大量的美国英语口语和书面语料。

COCA词频词汇是指在这个语料库中被统计出来出现频率较高的词汇。

这些词汇被认为是英语母语者日常交流和阅读中常用的词汇。

由于COCA词频词汇表包含的词汇非常多,这里提供几个示例词汇及其释义:1. justice - n. 公正,公道,正义;司法制度;法律制裁。

例如:"The word justice is usually associated with courts of law."(正义这个词常常同法院联系在一起。

)2. justify - vt. 证明……正当/有理;为辩解。

例如:"You should attempt to justify yourself."(你应该设法证明自己有理。

)3. keep - vt. & vi. 使处于,保持(某种状态);遵守;保守;保留;保管;存放;供养;饲养;经营;记(日记、帐等)。

例如:"Keep calm, especially when you are with other people."(保持镇静,尤其是身边还有其他人的时候。

)4. keep away from -远离。

例如:"In the past, following others was a way to keep away from danger."(在过去,跟随别人是一种远离危险的方法。

)5. keep on -继续进行,继续下去。

例如:"Never keep on exercising if you feel pain."(如果你感到疼痛,就不要继续锻炼。

)这些词汇只是COCA词频词汇表中的一部分。

COCA词汇表根据词汇在语料库中的出现频率进行排序,频率高的词汇代表了英语使用者的常用词汇。

BNC和COCA语料库

BNC和COCA语料库

Un开头 ly结尾的词
R开头中间有 N的词

4. 输入 lemma (即一个单词的单复数、时态等所 有形式)以sing为例
规则:若要得到某个单词的所有单复数和时态形式,那 么就要在输入时,在这个单词外加 [ ]。
形容词early的原型,比较级和最高级三种形式一次性检索出 来检索
5.若要得到某种词性且词中部分带有某些字母的形 式时,如要得到以un-开头、-ed结尾的所有形容 词的所有形式,那么输入: un*ed.[aj*]
2.词组(形容名词” 得到的结果都是 white后面跟的名词 短语 检索表达式为: white [n*]

规则:输入名词的话用正 确表达式: [n*];动词: [v*]; 形容词: [aj*]; 副词: [av*]……
White+名词的短语
3. 输入un*ly和r?n*,

/
杨百翰大学BNC语料库使用方法说明
/bnc
BYU-BNC界面简介
1.单词 mysterious 为例
使用LIST显示
使用CHART显示
使用KWIC(key words in the context)显示方式
规则:在words的方格里分别输入hot和warm,再在collocates方框里输入[n*], 表示后面所跟任何名词。
11.搜索搭配词以及出现的频率 如:thick后跟的名词
规则:在context里输入[nn*] 后选择4,表示在thick后面(4跨距范围内)出现的任何 名词
we want to say
翻译是一个循序渐进的过程。需要积累,需要 耐心,需要不断挖掘知识的方方面面 。 语料库为我们做翻译带来了便利。希望我们能充 分利用各种有利条件,不断提升自己的翻译水平 与能力。 希望我们在岑老师的带领下,把翻译做好,把自 己今后的翻译之路规划好。

常用在线语料库使用简介分析

常用在线语料库使用简介分析

频数
图2.1-2
BNC
2.2 其他可下载的BNC产品
➢ BNC XML edition:BNC全库 ➢ BNC Baby:BNC子库,包含小说、新闻、科技、口语四
类文本各100万词 ➢ BNC sampler:BNC 子库,包含书面语、口语两类文本
各100万词 ➢ 注:以上语料库采用XML格式,需使用XAIRA软件检索
➢ 输入“feature”(图6.1.1-1)
图6.1.1-1
COCA
6.1.1 检索某一词形
➢ 在搜索结果区可得到“feature”的频数 (图6.1.1-2 ) ➢ 点击该词,可在例句显示区看到含有“feature”的词
条(图6.1.1-3)
图6.1.1-2
图6.1.1-3
COCA
6.1.1 检索某一词形
图5.3-1
COCA
5.3 语料库分类区
➢ 42个子语料库 (图5.3-2)
图5.3-2
COCA
5.3 语料库分类区
➢ 42个子语料库 (图5.3-3)
图5.3-3
COCA
5.4 查询结果排列方式区
➢ Sort by:检索结果的排列方式,可按频率、关联度、 或字母顺序排列,一般默认按频率排列 (图5.4-1)
➢ 在显示方式区选择KWIC 并再次点击search, 可得含有“feature”的词语 索引(图6.1.1-4)
Sketch Engine: 在线语料库管理及检索工具,可有 效总结词汇的语法及搭配行为。
BNC
1. BNC官网主界面(图1-1)
基本信息及 功能介绍区
简单搜索区 进入简单搜索功能介绍
图1-1
BNC
2. BNC在线检索功能介绍 2.1 BNC simple search

coca词汇表

coca词汇表

coca词汇表(最新版)目录1.引言:介绍 COCA 词汇表2.COCA 词汇表的构成3.COCA 词汇表的应用领域4.COCA 词汇表的优势和局限性5.结论:总结 COCA 词汇表的重要性正文1.引言COCA(Corpus of Contemporary American English)词汇表是一个收录了大量美国英语词汇的表单,对语言学家、教育工作者以及翻译人员等有着重要的参考价值。

本文将详细介绍 COCA 词汇表的构成、应用领域、优势和局限性。

2.COCA 词汇表的构成COCA 词汇表是由美国杨百翰大学(Brigham Young University)的语言学家马克·戴维斯(Mark Davis)教授领导的团队创建的。

该词汇表收录了超过 500 万条美国英语词汇,包括单词、词组、短语以及它们的词频。

这些词汇来源于大量的当代美国英语语料库,如新闻文章、小说、电影剧本等。

3.COCA 词汇表的应用领域COCA 词汇表在多个领域有着广泛的应用,包括但不限于:(1)语言学研究:COCA 词汇表为语言学家提供了大量真实语料,有助于分析和研究美国英语的词汇特征、用法以及演变规律。

(2)教育:COCA 词汇表为英语教育工作者提供了参考,有助于制定教学大纲、设计课程以及编写教材。

(3)翻译:COCA 词汇表为翻译人员提供了美国英语词汇的准确用法,有助于提高翻译质量。

(4)词典编纂:COCA 词汇表为词典编纂者提供了大量真实语料,有助于修订和完善词典内容。

4.COCA 词汇表的优势和局限性优势:(1)真实性:COCA 词汇表的词汇来源于大量的当代美国英语语料库,反映了现实语言的真实面貌。

(2)全面性:COCA 词汇表收录了超过 500 万条美国英语词汇,具有较高的覆盖率。

局限性:(1)地域性:COCA 词汇表主要收录美国英语词汇,对于其他地区的英语用法可能不够全面。

(2)时效性:COCA 词汇表的词汇来源于当代语料库,对于历史英语词汇的收录可能不够全面。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

COCA语料库简介
COCA简介
– COCA美国当代英语语料库涵盖美国这一时期 的口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的语料库,并且在这五个类 型方面基本呈均匀平衡分布。
– 网址:/coca
• 例1. 输入单词“mysterious” (图2.1.1-1):得 到相关结果(图2.1.1-2):在各子库中的频率,每 百万词使用的频率。
• 若对图2中的相应条块进行点击,那么就可以看到 KWIC,如图2.1.1-3 (以点Fiction的条块为例):
图2.1.1-1
图2.1.1-2
使用CHART显示
POS LIST
det.GEN 类指限定词 det.POS 物主限定词 num.CARD 基数词 num.ORD 序数词 conj.CRD 并列连词 conj.SUB 从属连词 Interj. 叹词 PUNC 标点
词性列表的使用
• 1)查询多义词特定的词性 • 2)某个词前或者后面特定词性的若干搭配
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
二、COCA主要搜索功能
• 2.1 搜索words、phrases、lemmas(单 词的所有形式)、wildcards(通配符)和 其他更加复杂的字词。
POS LIST
pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
• 例4.输入lemmas(即一个单词的单复数、时态等 所有形式),若要得到sing这个单词的所有形式, 可以如下图所示。
EXAMPLE 4
规则:若要得到某个单词的所有单复数和时态形式,那么 就要在输入时,在这个单词外加 [ ]。
EXAMPLE 4
形容词early的原形,比较级和最高级三种形式一次性检索出来检索
图2.1.1-3
例句显示区使用的是KWIC显示
KWIC显示方式
KWIC显示方式
• 蓝色——名词 • 紫色——动词 • 绿色——形容词 • 棕色——副词 • 灰色——代词 • 黄色——介词
COCA主要搜索功能
• 例2. 输入词组 “white+名词” (图2.1.2-1),得到 的结果都是white 后面跟的名词短语 (图2.1.2-2),检索 表达式为:white [n*]。
的搭配情况。
COCA界面简介
COCA界面简介
• 字串查询区:
• Ⅰ、WORDS:输入字符串。 • Ⅱ、COLLOCATES:上下文限定。 • Ⅲ、POS LIST:词性列表
COCA界面简介
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
• 功能:此区可以对查询的字符串限定语料类型 (Genre)和时段(Year) ,并且可以明确到查询某一 个子语料库,时段也可以查询任何一年的某个字词 的使用情况。
美国当代英语语料库(COCA)使用说明
/coca
一、COCA语料库简介
• COCA简介
– COCA:美国当代英语语料库(Corpus of Contemporary American English)是由美国杨 伯翰大学(Brigham Young University)的 Mark Davies 教授开发的美国最新当代英语语 料库,是当今世界上最大的英语平衡语料库。
选择学习COCA的原因
• 1. COCA免费且在线方便。 • 2. 规模大(4.5亿,1990-2012)、速度快
(一般几秒)、词性标注易于理解。 • 3.时效性强——每年至少更新两次,并且每年新增Fra bibliotek000万词汇。
COCA界面简介
➢主要包括三大功能区:
➢ Ⅰ 显示及查询条件界定区,包括:显示方式区, 字串查询区,语料库分类区,查询结果排列方式 区。
词,如confidence前的形容词 • 3)词性附码放置的位置——WORDS或
COLLOCATES处
COCA主要功能(一)
• 例3.输入通配符(wildcards),如分别输入un*ly 和r?n*,结果如图。
? 代替一个字母 * 代替任意数量字母
EXAMPLE 3
EXAMPLE 3
COCA主要搜索功能
➢ Ⅱ 查询结果数据显示区 ➢ Ⅲ 例句显示区
COCA界面简介
COCA界面简介
• 显示方式区:
• 1.LIST——列表显示 • 2.CHART——图表显示,可以显示在各语料库类型中的使
用频率和各时间段内的使用情况。 • 3.KWIC——Key word in context,上下文关键词显示 • PARE——单词比较显示,比较两个不同词或短语
图2.1.2-1
图2.1.2-2
White+名词的短语
规则:输入名词的话用正表达式: [nn*];动词: [v*]; 形容词: [j*]; 副词: [r*];代词:[p*];连词:[c*]……
POS LIST 词性列表
POS LIST
noun.ALL=名词 noun.SG=单数名词 noun.PL=复数名词 noun.CMN=普通名词 noun.+PROP=专有名词 noun.-PROP=非专有名词
POS LIST
verb base=动词原形 verb.INF=动词不定式 verb MODAL=情态动词 verb 3SG=动词第三人称单数 verb ED=过去式 verb EN=过去分词 verb ING=现在分词 verb.LEX=lexical verb实意动词 verb.[BE]=系动词 verb.[DO]=do verb.[HAVE]=have
相关文档
最新文档