美国当代英语语料库(COCA)使用介绍
运用语料库提升学生作文中词汇的运用能力--以 COCA的应用为例
语 料 均 衡 。C 0 c A的语料来源 十分广泛 , 涵盖 1 9 9 0年 至 今 美 国英 语 多 个 领 域 , 覆 盖学术 期刊 、 报纸 、 口语 、 小说、 通 俗
语 语料库( C L E C ) 是语 言 教学 与语 料 库研 究 结合 的典范 , 该 语 料 库 为 多角 度 研 究 中 国 学 生 英 语 书 面 语 提 供 了语 料 支 持 。( 3 ) 用 语 料 库 进 行 写 作 教 学 。董 洪 学 等 以输 人 假 设 理
避 免 词 汇使 用 简 单 化 、 固定 化 。
一
、
语料库应 用与英语写作教学 ( 国内) 相 关 研 究
国 内 对语 料 库 应 用 于 写 作 教 学 的 研 究 有 以 下 几 个 方
便 可免 费使 用 。 在语 料 库 有 功 能 更 新 时 , 系 统 还 会 发 送 邮 件 给注册用户 , 让 用 户 体 验 最新 的 内 容 。( 2 ) C OC A 是 监 控 语 料库 , 语 料 在 不 断 更 新 和 发 展 。该 语 料 库 的更 新 频 率 为 每 年 一 到 两 次 。2 0 0 8年 推 出 至 今 , c Oc A 已经更 新多 次 ,
用 能 力 方 面 的优 势 , 帮 助 学 生 克服 写作 中 词 汇 的 运 用 障 碍 ,
二、 美 国 当 代 英 语 语 料 库 简 介
美 国 当代 英 语 语 料 库 ( C 0 C A) 是 语 料 库 语 言 学 与 现 代 网络 技 术 发 展 结 合 的 优 秀 成 果 , Ma r k Da v i e s ( 就 职 于 美 国
美国当代英语语料库_COCA_的自主学习应用_方玲
1 引言自20世纪80年代以来,基于语料库的语言学和语言教育研究愈来愈受到重视。
语料库将大量语言使用者的语言直觉汇集起来,从而使语言分析更为客观。
自然发生的语言数据的最大优势是可观察性和可检验性,基于语料库的观察本质上比内省式的判断更经得起实证检测(McEnery & Wilson,2001:14)。
以其最大限度的取样及丰富性,语料库语言学的量化比经验主义语言学中的量化更有意义,在数据取得、数据丰富以及数据的自然性等方面具有优势(i b i d,131-2)。
常宝宝和俞士汶(2009:43)将语料库定义为一定规模的真实语言样本的集合,其应具有以下三个特性:(1)收入语料库的语言材料取自实际使用的真实文本,对于其应用目标而言,所收录的语言材料应该具有代表性;(2)语料库应是机器可读的,是运用计算机技术获取、编码、存储和组织的,并支持基于计算机技术的分析和处理;(3)收入语料库的语言材料经过适当的标注和加工处理,例如经过词语切分或者词类标注处理。
近年来,外语教育中学习者逐渐在外语学习中处于主体地位,语料库作为一种辅助性工具应用于语言教学成为必然的趋势。
曾用强(2002:33)认为利用语料库对语言的特征以及学习者的语言使用特征等方面作出分析,其分析结果可应用于指导语言教学的实践,如语言现象的分布和频率等信息可以用来指导教师确定教方向。
2 美国当代英语语料库Contemporary American www. 国杨伯翰大学(Brigham Mark 语料库以及D a v i 2008)D a v i e s (2005)指了一个好语料库的三项最(s i z e) 、速度(s p e e (a n n o t a t i on)。
C O C 摘 要: 本主题词:COCA;语料库;自主学习;搭配中图分类号:H319 文献标识码:A 文美国当代英语语料库(C O C 学习应用①方 玲 汪兴富重庆大学机配置而定,高达4.1亿词汇库容在8个2.4G H z 的服务器上同时计算,因此绝大多数查询都能在几秒内呈现结果;词性标注使用的是英语语料广泛采用的C L A W S7软件。
美国当代英语语料库(COCA)使用介绍
• 2.3 搜索在子语料库内(或之间)出现的频率 (或比较)(不同语域中的用法)
• 如在Fiction和Newspaper子语料库中passionate 后面可以跟任何名词的词及频率,分别如两图 (2.3-1和2.3-2)。
图2.3-1
图2.3-2
COCA主要功能(三)
• 但是也可以之间对两者子语料库中它们出现频率 的对比,操作:分别选择section 1&2,如下图(图 2.3-3):
• 例1. 输入单词“mysterious” (图2.1.1-1):得 到相关结果(图2.1.1-2):在各子库中的频率,每 百万词使用的频率。 • 若对图2中的相应条块进行点击,那么就可以看到 KWIC,如图2.1.1-3 (以点Fiction的条块为例):
图2.1.1-1
图2.1.1-2
使用CHART显示
COCA主要功能(二)
• 如:跟在 “smile前面的形容词” (图2.2-2)
规则:在words里输入: smile.[n*],表示作为名词的smile; 在collocates里输 入: [aj*]表示其前后出现形容词的语境。
Confidence前使用的形容词 图2.2-3
COCA主要功能(三)
COCA主要功能(四)
• 2.4 进行语义倾向比较 • 2.4.1 比较近义词 • 如:近义形容词hot和warm后面所跟名词的 区别(如图2.4.1):
图2.4.1
规则:在words的方格里分别输入hot和warm,再在collocates 方框里输入[nn*],表示后面所跟任何名词。当然也可以比较在 某个子语料库中出现的频率比较。
POS LIST
verb base=动词原形 verb.INF=动词不定式 verb MODAL=情态动词 verb 3SG=动词第三人称单数 verb ED=过去式 verb EN=过去分词 verb ING=现在分词 verb.LEX=lexical verb实意动词 verb.[BE]=系动词 verb.[DO]=do verb.[HAVE]=have
常用在线语料库使用简介
字串查询区
图5-1
COCA
5. COCA界面简介(图5-1)
语料库分类区
图5-1
COCA
5. COCA界面简介(图5-1)
查询结果排列 方式区
图5-1
COCA
5. COCA界面简介(图5-1)
查询结果数据显示区
图5-1
COCA
5. COCA界面简介(图5-1)
例句显示区/帮助信息显示区
图5-1
结果如图6.5-2
图6.5-1
图6.5-2
COCA
7. 新增功能 7.1 Words and Phrases (图7.1-1)
/
图7.1-1
COCA
7. 新增功能 7.1 Words and Phrases 7.1.1 Frequency List (图7.1.1-1)
COCA语料库规模大,涵盖美国1990-2012年间
口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的文本 使用界面友好,检索速度快 时效性强,不断更新功能
COCA
5. COCA界面简介 三大功能区:
图6.1.1-4
COCA
6.1.2 检索某一词性的单词
输入“feature.[v*]”,可得到“feature”做动词时的使
用情况 (图6.1.2-1) “.”表示feature不与其后的字符串组成短语 “[v*]”代表所有形式的动词 点击POS LIST后的问号,可了解具体词性代码
在搜索结果区可得到“feature”的频数 (图6.1.1-2 )
点击该词,可在例句显示区看到含有“feature”的词条
coca等级词汇
coca等级词汇【原创实用版】目录1.引言:介绍 COCA 等级词汇表2.COCA 等级词汇表的构成3.COCA 等级词汇表的应用领域4.COCA 等级词汇表在我国的影响5.结论:总结 COCA 等级词汇表的重要性正文1.引言COCA 等级词汇表是一个用于描述英语语言中词汇频率的列表,它由美国南加州大学语言学家马克·戴维斯(Mark Davies)创建,并根据最大的英语语料库——COCA 语料库(Corpus of Contemporary American English)而得名。
这个表对于英语学习者、教育工作者和研究者来说都具有重要的参考价值。
2.COCA 等级词汇表的构成COCA 等级词汇表将英语词汇分为五个等级,分别是:(1)核心词汇(Core vocabulary):最常用的词汇,包括大约 2,200 个单词,这些词汇在英语中出现的频率非常高,掌握这些词汇有助于进行日常交流。
(2)基本词汇(Basic vocabulary):常用词汇,包括大约 7,500 个单词,这些词汇在英语中出现频率较高,掌握这些词汇有助于进行一般性的阅读、写作和交流。
(3)通用词汇(General vocabulary):包括大约 22,000 个单词,这些词汇在英语中出现频率适中,掌握这些词汇有助于进行更深入的阅读、写作和交流。
(4)学术词汇(Academic vocabulary):包括大约 10,000 个单词,这些词汇在学术性阅读和写作中出现频率较高,掌握这些词汇有助于进行专业性的阅读、写作和交流。
(5)专业词汇(Professional vocabulary):非常专业的词汇,包括大约 50,000 个单词,这些词汇在特定领域的阅读和写作中出现,掌握这些词汇有助于进行专业领域的研究和交流。
3.COCA 等级词汇表的应用领域COCA 等级词汇表在多个领域都有广泛的应用,包括英语教学、研究、翻译等。
美国当代英语语料库简介
美国当代英语语料库简介发表于《中小学外语教学(中学篇)》2013年第10期/s/blog_6056c9a60101nav5.html湖北:周韵【摘要】美国杨百翰大学的Mark Davies教授主持创立了一系列英语语料库,语料以各种英语变体为主,包括美国英语、英国英语、加拿大英语、《时代》杂志中的书面英语和美国肥皂剧中的英语口语。
其中,美国当代英语语料库是当前针对美国英语的大型历时语料平衡的网络语料库,具有库容大、语料丰富、检索方便灵活等特点。
本文介绍了美国当代英语语料库,以语料库及其关系数据库为平台,通过不同检索实例演示了以词汇为中心的应用与操作,以期探讨美国当代英语语料库在词汇教学中的应用。
【关键词】美国当代英语语料库,词汇教学,词汇检索,关系数据库一、美国当代英语语料库美国当代英语语料库(Corpus of Contemporary American English,简称COCA)是目前最大的免费英语语料库,也是第一个大型的语料平衡的美国英语语料库,口语、小说、流行杂志、报纸和学术性文体在语料库库容中各占20%。
它不仅是一个简单的在线词典,而且从建立之初就体现了其作为检索语料库的特征,能够协助研究者追溯语言发展中的变迁(Davies,2010)。
该语料库由美国杨百翰大学的Mark Davies教授主持创立并在2008年正式上线。
目前,每月有数以万计的包括语言学家、教师、翻译工作者在内的各种类型的研究者通过互联网免费使用该语料库。
美国当代英语语料库由包含4.5亿词的文本构成,这些文本由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。
从1999年至2012年这五个部分以每年增加2亿词的速度进行扩充,以保证语料库内容的时效性。
语料库每年更新1~2次。
因此,美国当代英语语料库被认为是用来观察美国英语当前发展变化的最合适的英语语料库。
除了在语料上拥有其他语料库无法比拟的优势外,美国当代英语语料库还将语料和检索软件结合起来,帮助语言研究者方便、快捷地分析和研究语料。
美国当代英语语料库(COCA)使用介绍要点
COCA语料库简介
COCA简介
– COCA美国当代英语语料库涵盖美国这一时期 的口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的语料库,并且在这五个类 型方面基本呈均匀平衡分布。
– 网址:/coca
• 例1. 输入单词“mysterious” (图2.1.1-1):得 到相关结果(图2.1.1-2):在各子库中的频率,每 百万词使用的频率。
• 若对图2中的相应条块进行点击,那么就可以看到 KWIC,如图2.1.1-3 (以点Fiction的条块为例):
图2.1.1-1
图2.1.1-2
使用CHART显示
POS LIST
det.GEN 类指限定词 det.POS 物主限定词 num.CARD 基数词 num.ORD 序数词 conj.CRD 并列连词 conj.SUB 从属连词 Interj. 叹词 PUNC 标点
词性列表的使用
• 1)查询多义词特定的词性 • 2)某个词前或者后面特定词性的若干搭配
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
二、COCA主要搜索功能
• 2.1 搜索words、phrases、lemmas(单 词的所有形式)、wildcards(通配符)和 其他更加复杂的字词。
POS LIST
pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
coca等级词汇
coca等级词汇摘要:一、引言1.介绍COCA 等级词汇的背景和作用2.阐述COCA 等级词汇对于学习者的重要性二、COCA 等级词汇的概述1.COCA 的定义和来源2.COCA 等级词汇的分类和特点三、COCA 等级词汇的应用1.在英语学习中的作用2.如何有效地利用COCA 等级词汇提高英语水平四、COCA 等级词汇与其他词汇体系的比较1.GSL (General Service List)2.BNC (British National Corpus)五、结论1.总结COCA 等级词汇的重要性2.鼓励学习者积极利用COCA 等级词汇提高英语能力正文:一、引言COCA(The Corpus of Contemporary American English)等级词汇是英语学习者提高英语能力的重要工具。
COCA 等级词汇不仅可以帮助学习者掌握英语中最常用的词汇,还能让学习者了解词汇的难度和重要性,从而更好地进行英语学习。
二、COCA 等级词汇的概述COCA 等级词汇是基于COCA 语料库(The Corpus of Contemporary American English)进行的研究成果。
COCA 语料库包含了大量美国英语的文本,包括书籍、报纸、杂志、网络文章等,共约5.2 亿词。
通过对这些语料库的分析,研究人员将词汇按照其在英语中的使用频率和重要性进行分类,形成了COCA 等级词汇。
COCA 等级词汇共分为十个等级,从最常用的Level 1 词汇到较为生僻的Level 10 词汇。
每个等级的词汇都有其特定的使用场景和重要性。
例如,Level 1 词汇是英语中最常用的词汇,学习者需要熟练掌握这些词汇;而Level 10 词汇虽然在日常生活中使用频率较低,但对于学习特定领域(如科技、医学等)的专业知识具有重要意义。
三、COCA 等级词汇的应用COCA 等级词汇在英语学习中具有广泛的应用。
学习者可以通过掌握不同等级的词汇,提高自己的英语水平。
美国当代英语语料库(COCA)使用介绍精品名师资料
/
免费的英语语料库资源
• /static/worldcorpora.htm
• /index.html
• /m/micase/ • http://lextutor.ca/conc/eng/ • /
COCA界面简介
COCA界面简介
• 字串查询区:
• Ⅰ、WORDS:输入字符串。 • Ⅱ、COLLOCATES:上下文限定。 • Ⅲ、POS LIST:词性列表
COCA界面简介
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
• 功能:此区可以对查询的字符串限定语料类型 (Genre)和时段(Year) ,并且可以明确到查询某一 个子语料库,时段也可以查询任何一年的某个字词 的使用情况。
POS LIST
pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
图2.1.2-1
图2.1.2-2
Whiten*];动词: [v*]; 形容词: [j*]; 副词: [r*];代词:[p*];连词:[c*]……
POS LIST 词性列表
noun.ALL=名词 noun.SG=单数名词 noun.PL=复数名词 noun.CMN=普通名词 noun.+PROP=专有名词 noun.-PROP=非专有名词
COCA语料库简介
COCA简介
coca语料库在英语写作课堂教学中的应用
coca语料库在英语写作课堂教学中的应用Coca语料库在英语写作课堂教学中的应用________________________________________________________________________随着社会经济发展,英语已经成为世界上最重要的语言。
在大多数国家,学生都必须学习英语作为一门外语,以满足他们的学习和工作需求。
英语写作教学是一项重要的教育活动,旨在培养学生的英语写作能力。
然而,由于教师们缺乏有效的教学方法,学生在写作过程中经常会遇到各种问题。
因此,有必要引入一种有效的写作教学方法,以改善学生的写作能力。
Coca语料库是一种新兴的教学方法,它主要通过分析大量的英语文本来帮助学生更好地理解英语句子结构。
Coca语料库是一个由大量英语文本组成的数据库,包括来自不同文本来源的英语句子。
它可以帮助学生理解英语句子的结构,从而更好地进行写作。
Coca语料库的主要应用是帮助学生理解句子的结构,以便于他们更好地进行写作。
例如,Coca语料库可以帮助学生理解句子的主干成分、句子的主题和句子的结构特征。
这将有助于学生更好地理解句子的内容,从而更好地进行写作。
此外,Coca语料库还可以帮助学生更好地理解英语文本中使用的词汇和句式。
通过分析文本中使用的词汇和句式,学生可以更好地理解文本的意思,从而帮助他们更好地进行写作。
此外,Coca语料库也可以帮助学生分析不同文本之间的差异。
通过对不同文本中使用的词汇和句式进行分析,学生可以更好地理解不同文本之间的差异,从而帮助他们进行写作时更好地考虑到不同文本之间的差异。
最后,Coca语料库还可以帮助学生理解不同文化背景下使用的不同表达方式。
通过分析不同文化背景下使用的不同表达方式,学生可以更好地理解不同文化背景下使用的表达方式,从而帮助他们在写作时更好地考虑到不同文化背景之间的差异。
总之,Coca语料库是一种有效的写作教学方法,可以帮助学生更好地理解句子的结构、词汇和句式、文本之间的差异以及不同文化背景下使用的表达方式,从而帮助他们更好地进行写作。
COCA
COCA———美国当代英语语料库(Corpus of Contemporary A2merican English)(2011-05-13 10:53:38)转载▼标签:分类:每周一推美国当代英语语料库coca英语教学研究平台免费教育COCA———美国当代英语语料库(Corpus of Contemporary A2merican English)/由美国B righam Young University的M ark Davies教授开发的高达3.6亿词汇的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。
与其它语料库不同的是它是免费在线供大家使用,给全世界英语学习者带来了福音,是不可多得的一个英语学习宝库,也是观察美国英语使用和变化的一个绝佳窗口。
COCA美国当代英语语料库于2008年2月20日在互联网上正式推出。
在来自全球25个国家和地区有140余位专家学者参会的AACL22008(American Association for Corpus Linguis2tics)学术会议上,会议的组织者M ark Davies教授介绍了自己开发的COCA美国当代英语语料库,此外在此学术会议上还有部分学者对研究使用这一语料库进行了交流,获得了热烈反响。
为让更多中国的英语教师和学习者从大型语料库的知识海洋中受益,现积极向国内读者作介绍。
1优点许多语言学习者对普通网络搜索引擎有偏好,那是无法获取免费语料库的无奈之举。
但网络信息作为语料库的问题就是用户无法限定要查询字词的词性,无法作词与词的对比,无法限定要查找的语料类型,也无法确切地查找某一时段的字词使用信息,更无法限定要查找的字词间的距离,也就没有办法确定字词互信息的值。
而其它专业点的英语语料库又需要较贵的注册费或软件购买费用,让普通使用者望尘莫及。
COCA美国当代英语语料库是一个大型在线并免费供大家使用的语料库,为英语研究者和英语学习者共享美国英语资源提供了一个良好平台。
COCA语料库操作演示.ppt教程
图2.4.2
规则:在WORDS的方格里分别输入woman和man,再在 COLLOCATES方框里输入[j*],选在左3,表示前面3个跨 距内所有的形容词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.3 搜索近义词 • 如:搜索beautiful的所有近义词(如图2.4.3-1)
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):
图2.3-3
• 2.4 进行语义倾向比较 • 2.4.1 比较近义词 • 如:近义形容词hot和warm后面所跟名词的 区别(如图2.4.1):
图2.4.1
规则:首先选择 COMPARE 显示。然后在WORDS的方格里分 别输入hot和warm,再在COLLOCATES方框里输入[n*],表示 后面所跟任何名词。当然也可以比较在某个子语料库中出 现的频率比较。
ቤተ መጻሕፍቲ ባይዱ
• 2.4.2 比较反义词 • 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.1.4-1
规则:若要得到某个单词的所有单复数和时态形式,那么 就要在输入时,在这个单词外加 [ ]。
图2.1.4-2
形容词early的原形,比较级和最高级三种形式一次性检索出来检索
• 2.1.5 输入某种词性且部分带有某些字母的命令, 如要得到以 un- 开头、 -ed 结尾的所有形容词的所 有 形 式 ( 见 图 2.1.5-1 ) 和 得 到 动 词 + 任 何 词 +ground的所有词组(见图2.1.5-2): • 规则:若要得到某种词性且词中带有部分带有某 些字母的形式时,如要得到以 un- 开头、 -ed 结尾 的所有形容词的所有形式,那么输入: un*ed.[aj*]; 若要得到动词+任何词+ground的所有词组,那么输 入: [vv*]*[ground]即可。前者用来研究词汇,后者 用来查询特定词性的搭配。
COCA 语料库界面查询输入说明(修订)
fairly *
查与fairly搭配的情况
*是通配符,此处代指任一个词;注意:fairly与*之间有空格
un*ly
查以un开头以ly结尾的词
查到单词如unlikely,unusually;此处*代指任意数量的字母
[slip].[v*]
查beautiful的同义词与flower的同义词搭配的情况
small
little
[nn*]
0/3各
RELEVANCE
查small和little后面3个词内的名词使用对比情况
ground.[n*]
floor.[n*]
[j*]
3/0
RELEVANCE
各查ground和floor作名词时前面3个词内的形容词使用对比情况
查is被缩写为’s情况的句式结构
’s在本语料库中可以被视为一个词单独查询,即,和前面的单词要空格且输成‘s,其它缩写形式也是用类似方法查询
it is [v*] that
或we [vv*] that
查句式结构
选择CHART显示可以看出第一个是学术结构,是口语的8.5倍;第二个结构口语中最常用
to [v*] or not to [v*]
[sing]
查sing的任何形式
查到sing,singing,sang等,但不包括song
[=publish]
查publish的同义词
=表示同义关系,结果为publish,circulate,announce等。说明:查同义词是COCA语料库的一大特色
[[= publish]]
查publish的同义词并且
查slip作动词的情况
COCA语料库操作 演示.ppt知识讲解
图2.4.1
规则:首先选择 COMPARE 显示。然后在WORDS的方格里分 别输入hot和warm,再在COLLOCATES方框里输入[n*],表示 后面所跟任何名词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.2 比较反义词
• 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):
图2.3-3
• 2.4 进行语义倾向比较
• 2.4.1 比较近义词
• 如:近义形容词hot和warm后面所跟名词的 区别(如图2.4.1):
图2.4.3-3
思考:
• 1)如何查询多义词特定的词性的KWIC,如for 作连词或介词等?
• 2)如何查询某个词前/或者后面特定词性的若干 搭配词, 如confidence 前的形容词?
• 3)词性附码应放置在什么位置?
此课件下载可自行编辑修改,仅供参考! 感谢您的支持,我们努力做得更好!谢谢
图2.1.5-1
图2.1.5-2
动词+任何词+ground的所有词组
• 2.2 搜索搭配词和出现的频率 • 如 “thick后跟的名词” (图2.2-1)
图2.2-1
规则:在COLLOCATES里输入[n*] 后选择4,表示 在thick后面(4跨距范围内)出现的任何名词
• 如跟在 “smile前面的形容词” (图2.2-2)
COCA语料库操作 演示.ppt
图1.1 COCA界面简介
1. 显示方式 2. 关键词输入栏
coca分频词汇释义
COCA(Corpus of Contemporary American English)是一个大型的英语语料库,它包含了大量的美国英语口语和书面语料。
COCA词频词汇是指在这个语料库中被统计出来出现频率较高的词汇。
这些词汇被认为是英语母语者日常交流和阅读中常用的词汇。
由于COCA词频词汇表包含的词汇非常多,这里提供几个示例词汇及其释义:1. justice - n. 公正,公道,正义;司法制度;法律制裁。
例如:"The word justice is usually associated with courts of law."(正义这个词常常同法院联系在一起。
)2. justify - vt. 证明……正当/有理;为辩解。
例如:"You should attempt to justify yourself."(你应该设法证明自己有理。
)3. keep - vt. & vi. 使处于,保持(某种状态);遵守;保守;保留;保管;存放;供养;饲养;经营;记(日记、帐等)。
例如:"Keep calm, especially when you are with other people."(保持镇静,尤其是身边还有其他人的时候。
)4. keep away from -远离。
例如:"In the past, following others was a way to keep away from danger."(在过去,跟随别人是一种远离危险的方法。
)5. keep on -继续进行,继续下去。
例如:"Never keep on exercising if you feel pain."(如果你感到疼痛,就不要继续锻炼。
)这些词汇只是COCA词频词汇表中的一部分。
COCA词汇表根据词汇在语料库中的出现频率进行排序,频率高的词汇代表了英语使用者的常用词汇。
常用在线语料库使用简介分析
频数
图2.1-2
BNC
2.2 其他可下载的BNC产品
➢ BNC XML edition:BNC全库 ➢ BNC Baby:BNC子库,包含小说、新闻、科技、口语四
类文本各100万词 ➢ BNC sampler:BNC 子库,包含书面语、口语两类文本
各100万词 ➢ 注:以上语料库采用XML格式,需使用XAIRA软件检索
➢ 输入“feature”(图6.1.1-1)
图6.1.1-1
COCA
6.1.1 检索某一词形
➢ 在搜索结果区可得到“feature”的频数 (图6.1.1-2 ) ➢ 点击该词,可在例句显示区看到含有“feature”的词
条(图6.1.1-3)
图6.1.1-2
图6.1.1-3
COCA
6.1.1 检索某一词形
图5.3-1
COCA
5.3 语料库分类区
➢ 42个子语料库 (图5.3-2)
图5.3-2
COCA
5.3 语料库分类区
➢ 42个子语料库 (图5.3-3)
图5.3-3
COCA
5.4 查询结果排列方式区
➢ Sort by:检索结果的排列方式,可按频率、关联度、 或字母顺序排列,一般默认按频率排列 (图5.4-1)
➢ 在显示方式区选择KWIC 并再次点击search, 可得含有“feature”的词语 索引(图6.1.1-4)
Sketch Engine: 在线语料库管理及检索工具,可有 效总结词汇的语法及搭配行为。
BNC
1. BNC官网主界面(图1-1)
基本信息及 功能介绍区
简单搜索区 进入简单搜索功能介绍
图1-1
BNC
2. BNC在线检索功能介绍 2.1 BNC simple search
coca词汇表
coca词汇表(最新版)目录1.引言:介绍 COCA 词汇表2.COCA 词汇表的构成3.COCA 词汇表的应用领域4.COCA 词汇表的优势和局限性5.结论:总结 COCA 词汇表的重要性正文1.引言COCA(Corpus of Contemporary American English)词汇表是一个收录了大量美国英语词汇的表单,对语言学家、教育工作者以及翻译人员等有着重要的参考价值。
本文将详细介绍 COCA 词汇表的构成、应用领域、优势和局限性。
2.COCA 词汇表的构成COCA 词汇表是由美国杨百翰大学(Brigham Young University)的语言学家马克·戴维斯(Mark Davis)教授领导的团队创建的。
该词汇表收录了超过 500 万条美国英语词汇,包括单词、词组、短语以及它们的词频。
这些词汇来源于大量的当代美国英语语料库,如新闻文章、小说、电影剧本等。
3.COCA 词汇表的应用领域COCA 词汇表在多个领域有着广泛的应用,包括但不限于:(1)语言学研究:COCA 词汇表为语言学家提供了大量真实语料,有助于分析和研究美国英语的词汇特征、用法以及演变规律。
(2)教育:COCA 词汇表为英语教育工作者提供了参考,有助于制定教学大纲、设计课程以及编写教材。
(3)翻译:COCA 词汇表为翻译人员提供了美国英语词汇的准确用法,有助于提高翻译质量。
(4)词典编纂:COCA 词汇表为词典编纂者提供了大量真实语料,有助于修订和完善词典内容。
4.COCA 词汇表的优势和局限性优势:(1)真实性:COCA 词汇表的词汇来源于大量的当代美国英语语料库,反映了现实语言的真实面貌。
(2)全面性:COCA 词汇表收录了超过 500 万条美国英语词汇,具有较高的覆盖率。
局限性:(1)地域性:COCA 词汇表主要收录美国英语词汇,对于其他地区的英语用法可能不够全面。
(2)时效性:COCA 词汇表的词汇来源于当代语料库,对于历史英语词汇的收录可能不够全面。
BNC和COCA语料库
Un开头 ly结尾的词
R开头中间有 N的词
4. 输入 lemma (即一个单词的单复数、时态等所 有形式)以sing为例
规则:若要得到某个单词的所有单复数和时态形式,那 么就要在输入时,在这个单词外加 [ ]。
形容词early的原型,比较级和最高级三种形式一次性检索出 来检索
5.若要得到某种词性且词中部分带有某些字母的形 式时,如要得到以un-开头、-ed结尾的所有形容 词的所有形式,那么输入: un*ed.[aj*]
2.词组(形容名词” 得到的结果都是 white后面跟的名词 短语 检索表达式为: white [n*]
规则:输入名词的话用正 确表达式: [n*];动词: [v*]; 形容词: [aj*]; 副词: [av*]……
White+名词的短语
3. 输入un*ly和r?n*,
/
杨百翰大学BNC语料库使用方法说明
/bnc
BYU-BNC界面简介
1.单词 mysterious 为例
使用LIST显示
使用CHART显示
使用KWIC(key words in the context)显示方式
规则:在words的方格里分别输入hot和warm,再在collocates方框里输入[n*], 表示后面所跟任何名词。
11.搜索搭配词以及出现的频率 如:thick后跟的名词
规则:在context里输入[nn*] 后选择4,表示在thick后面(4跨距范围内)出现的任何 名词
we want to say
翻译是一个循序渐进的过程。需要积累,需要 耐心,需要不断挖掘知识的方方面面 。 语料库为我们做翻译带来了便利。希望我们能充 分利用各种有利条件,不断提升自己的翻译水平 与能力。 希望我们在岑老师的带领下,把翻译做好,把自 己今后的翻译之路规划好。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
POS LIST
pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
规则: 若要得到某种词性且词中带有部分带有某些字母的形 式时,如要得到以 un- 开头、 -ed 结尾的所有形容词的所有形 式,那么输入: un*ed.[j*]; 若要得到动词 + 任何词 +ground 的所有词组 , 那么输入 : [v*]*[ground]即可。 前者用来研究词汇,后者用来查询特定词性的搭配。
查询结果
筛选出“应用”和“增加”作主谓搭配的例句
• The annual application of fertilizers has increased by 5.48% on average since 1980, and that of pesticide… • In ten Member States, average application of nitrogen increased almost 400% between 1950 and 1981. • Finally, studies have shown that application of biosolids increases the water holding capacity as well as reduces the potential of(wildcards) ,如分别输入 un*ly 和r?n*,结果如图。
? 代替一个字母 * 代替任意数量字母
EXAMPLE 3
EXAMPLE 3
COCA主要搜索功能
• 例 4. 输入 lemmas (即一个单词的单复数、时态等 所有形式),若要得到 sing 这个单词的所有形式, 可以如下图所示。
COCA界面简介
COCA界面简介
• 显示方式区:
• 1.LIST——列表显示 • 2.CHART——图表显示,可以显示在各语料库类型中的使 用频率和各时间段内的使用情况。 • 3.KWIC——Key word in context,上下文关键词显示 • PARE——单词比较显示,比较两个不同词或短语 的搭配情况。
POS LIST
det.GEN 类指限定词 det.POS 物主限定词 num.CARD 基数词 num.ORD 序数词 conj.CRD 并列连词 conj.SUB 从属连词 Interj. 叹词 PUNC 标点
词性列表的使用
• 1)查询多义词特定的词性 • 2)某个词前或者后面特定词性的若干搭配 词,如confidence前的形容词 • 3)词性附码放置的位置——WORDS或 COLLOCATES处
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
二、COCA主要搜索功能
• 2.1 搜索words、phrases、lemmas(单 词的所有形式)、wildcards(通配符)和 其他更加复杂的字词。
COCA主要功能(四)
• 2.4 进行语义倾向比较 • 2.4.1 比较近义词 • 如:近义形容词hot和warm后面所跟名词的 区别(如图2.4.1):
图2.4.1
规则:在words的方格里分别输入hot和warm,再在collocates 方框里输入[nn*],表示后面所跟任何名词。当然也可以比较在 某个子语料库中出现的频率。
选择学习COCA的原因
• 1. COCA免费且在线方便。 • 2. 规模大(4.5亿,1990-2012)、速度快 (一般几秒)、词性标注易于理解。 • 3.时效性强——每年至少更新两次,并且每 年新增2000万词汇。
COCA界面简介
主要包括三大功能区:
Ⅰ 显示及查询条件界定区,包括:显示方式区, 字串查询区,语料库分类区,查询结果排列方式 区。 Ⅱ 查询结果数据显示区 Ⅲ 例句显示区
POS LIST
verb base=动词原形 verb.INF=动词不定式 verb MODAL=情态动词 verb 3SG=动词第三人称单数 verb ED=过去式 verb EN=过去分词 verb ING=现在分词 verb.LEX=lexical verb实意动词 verb.[BE]=系动词 verb.[DO]=do verb.[HAVE]=have
COCA主要功能(二)
• 如:跟在 “smile前面的形容词” (图2.2-2)
规则:在words里输入: smile.[n*],表示作为名词的smile; 在 collocates里输入: [aj*]表示其前后出现形容词的语境。
Confidence前使用的形容词 图2.2-3
COCA主要功能(三)
• 2.4.2 比较反义词 • 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.4.2
规则:在words的方格里分别输入woman和man,再在 collocates方框里输入[j*],选在左3,表示前面3个跨距内所有的形 容词。当然也可以比较在某个子语料库中出现的频率比较。
EXAMPLE 4
规则:若要得到某个单词的所有单复数和时态形式,那么 就要在输入时,在这个单词外加 [ ]。
EXAMPLE 4
形容词early的原形,比较级和最高级三种形式一次性检索出来检索
COCA主要功能(一)
• 例 5.输入某种词性且部分带有某些字母的命令, 如要得到以 un- 开头、 -ed 结尾的所有形容词的所 有 形 式 ( 见 图 2.1.5-1 ) 和 得 到 动 词 + 任 何 词 +ground的所有词组(见图2.1.5-2):
图2.1.2-1
图2.1.2-2
White+名词的短语
规则:用正表达式 名词: [nn*];动词: [v*]; 形容词: [j*]; 副词: [r*];代词:[p*];连词:[c*]……
POS LIST 词性列表
noun.ALL=名词 noun.SG=单数名词 noun.PL=复数名词 noun.CMN=普通名词 noun.+PROP=专有名词 noun.-PROP=非专有名词
/coca
一、COCA语料库简介
• COCA简介
– COCA:美国当代英语语料库(Corpus of Contemporary American English)是由美国杨 伯翰大学(Brigham Young University)的 Mark Davies 教授开发的美国最新当代英语语 料库,是当今世界上最大的英语平衡语料库。
结论
• Application可以和 increase作主谓搭配,但 多用于学术期刊中,口语中出现很少。
• 2.4.3 搜索近义词 • 如:搜索beautiful的所有近义词(如图 2.4.3-1)
规则:在words的方格里输入[=beautiful],表示和beautiful语 义相近的所有形容词。
• 再如:搜索动词clean的所有近义词,如下 图:
图2.4.3-2
Question
• Application和increase能否作主谓搭配?
图2.1.1-3
例句显示区使用的是KWIC显示
KWIC显示方式
蓝色——名词 棕色——副词
紫色——动词 灰色——代词
绿色——形容词 黄色——介词
COCA主要搜索功能
• 例2. 输入词组 “white+名词” (图2.1.2-1),得到 的结果都是white 后面跟的名词短语 (图2.1.2-2),检索 表达式为:white [n*]。
COCA语料库简介
COCA简介
– COCA美国当代英语语料库涵盖美国这一时期 的口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的语料库,并且在这五个类 型方面基本呈均匀平衡分布。 – 网址:/coca
图2.1.5-1
图2.1.5-2
动词+任何词+ground的所有词组
COCA主要搜索功能(二)
• 2.2 搜索搭配词和出现的频率
• 如“thick后跟的名词” (图2.2-1)
图2.2-1
规则:在collocates里输入[n*] 后选择4,表示在thick4后面 (4跨距范围内)出现的任何名词
• 例1. 输入单词“mysterious” (图2.1.1-1):得 到相关结果(图2.1.1-2):在各子库中的频率,每 百万词使用的频率。 • 若对图2中的相应条块进行点击,那么就可以看到 KWIC,如图2.1.1-3 (以点Fiction的条块为例):
图2.1.1-1
图2.1.1-2
使用CHART显示
美国当代英语语料库(COCA)使用说明
/
免费的英语语料库资源
• /static/worldcorpora.htm
• /index.html
• /m/micase/ • http://lextutor.ca/conc/eng/ • /
COCA界面简介
COCA界面简介
• 字串查询区:
• Ⅰ、WORDS:输入字符串。 • Ⅱ、COLLOCATES:上下文限定。 • Ⅲ、POS LIST:词性列表
COCA界面简介
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。