美国当代英语语料库(COCA)使用介绍
运用语料库提升学生作文中词汇的运用能力--以 COCA的应用为例
![运用语料库提升学生作文中词汇的运用能力--以 COCA的应用为例](https://img.taocdn.com/s3/m/18ef412e0912a2161479299e.png)
语 料 均 衡 。C 0 c A的语料来源 十分广泛 , 涵盖 1 9 9 0年 至 今 美 国英 语 多 个 领 域 , 覆 盖学术 期刊 、 报纸 、 口语 、 小说、 通 俗
语 语料库( C L E C ) 是语 言 教学 与语 料 库研 究 结合 的典范 , 该 语 料 库 为 多角 度 研 究 中 国 学 生 英 语 书 面 语 提 供 了语 料 支 持 。( 3 ) 用 语 料 库 进 行 写 作 教 学 。董 洪 学 等 以输 人 假 设 理
避 免 词 汇使 用 简 单 化 、 固定 化 。
一
、
语料库应 用与英语写作教学 ( 国内) 相 关 研 究
国 内 对语 料 库 应 用 于 写 作 教 学 的 研 究 有 以 下 几 个 方
便 可免 费使 用 。 在语 料 库 有 功 能 更 新 时 , 系 统 还 会 发 送 邮 件 给注册用户 , 让 用 户 体 验 最新 的 内 容 。( 2 ) C OC A 是 监 控 语 料库 , 语 料 在 不 断 更 新 和 发 展 。该 语 料 库 的更 新 频 率 为 每 年 一 到 两 次 。2 0 0 8年 推 出 至 今 , c Oc A 已经更 新多 次 ,
用 能 力 方 面 的优 势 , 帮 助 学 生 克服 写作 中 词 汇 的 运 用 障 碍 ,
二、 美 国 当 代 英 语 语 料 库 简 介
美 国 当代 英 语 语 料 库 ( C 0 C A) 是 语 料 库 语 言 学 与 现 代 网络 技 术 发 展 结 合 的 优 秀 成 果 , Ma r k Da v i e s ( 就 职 于 美 国
美国当代英语语料库_COCA_的自主学习应用_方玲
![美国当代英语语料库_COCA_的自主学习应用_方玲](https://img.taocdn.com/s3/m/3214f9f0aef8941ea76e051e.png)
1 引言自20世纪80年代以来,基于语料库的语言学和语言教育研究愈来愈受到重视。
语料库将大量语言使用者的语言直觉汇集起来,从而使语言分析更为客观。
自然发生的语言数据的最大优势是可观察性和可检验性,基于语料库的观察本质上比内省式的判断更经得起实证检测(McEnery & Wilson,2001:14)。
以其最大限度的取样及丰富性,语料库语言学的量化比经验主义语言学中的量化更有意义,在数据取得、数据丰富以及数据的自然性等方面具有优势(i b i d,131-2)。
常宝宝和俞士汶(2009:43)将语料库定义为一定规模的真实语言样本的集合,其应具有以下三个特性:(1)收入语料库的语言材料取自实际使用的真实文本,对于其应用目标而言,所收录的语言材料应该具有代表性;(2)语料库应是机器可读的,是运用计算机技术获取、编码、存储和组织的,并支持基于计算机技术的分析和处理;(3)收入语料库的语言材料经过适当的标注和加工处理,例如经过词语切分或者词类标注处理。
近年来,外语教育中学习者逐渐在外语学习中处于主体地位,语料库作为一种辅助性工具应用于语言教学成为必然的趋势。
曾用强(2002:33)认为利用语料库对语言的特征以及学习者的语言使用特征等方面作出分析,其分析结果可应用于指导语言教学的实践,如语言现象的分布和频率等信息可以用来指导教师确定教方向。
2 美国当代英语语料库Contemporary American www. 国杨伯翰大学(Brigham Mark 语料库以及D a v i 2008)D a v i e s (2005)指了一个好语料库的三项最(s i z e) 、速度(s p e e (a n n o t a t i on)。
C O C 摘 要: 本主题词:COCA;语料库;自主学习;搭配中图分类号:H319 文献标识码:A 文美国当代英语语料库(C O C 学习应用①方 玲 汪兴富重庆大学机配置而定,高达4.1亿词汇库容在8个2.4G H z 的服务器上同时计算,因此绝大多数查询都能在几秒内呈现结果;词性标注使用的是英语语料广泛采用的C L A W S7软件。
常用在线语料库使用简介
![常用在线语料库使用简介](https://img.taocdn.com/s3/m/daba6c65af1ffc4ffe47ac95.png)
字串查询区
图5-1
COCA
5. COCA界面简介(图5-1)
语料库分类区
图5-1
COCA
5. COCA界面简介(图5-1)
查询结果排列 方式区
图5-1
COCA
5. COCA界面简介(图5-1)
查询结果数据显示区
图5-1
COCA
5. COCA界面简介(图5-1)
例句显示区/帮助信息显示区
图5-1
结果如图6.5-2
图6.5-1
图6.5-2
COCA
7. 新增功能 7.1 Words and Phrases (图7.1-1)
/
图7.1-1
COCA
7. 新增功能 7.1 Words and Phrases 7.1.1 Frequency List (图7.1.1-1)
COCA语料库规模大,涵盖美国1990-2012年间
口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的文本 使用界面友好,检索速度快 时效性强,不断更新功能
COCA
5. COCA界面简介 三大功能区:
图6.1.1-4
COCA
6.1.2 检索某一词性的单词
输入“feature.[v*]”,可得到“feature”做动词时的使
用情况 (图6.1.2-1) “.”表示feature不与其后的字符串组成短语 “[v*]”代表所有形式的动词 点击POS LIST后的问号,可了解具体词性代码
在搜索结果区可得到“feature”的频数 (图6.1.1-2 )
点击该词,可在例句显示区看到含有“feature”的词条
coca等级词汇
![coca等级词汇](https://img.taocdn.com/s3/m/d9eefd21001ca300a6c30c22590102020640f277.png)
coca等级词汇一、什么是COCA词汇等级COCA(Corpus of Contemporary American English)词汇等级是根据词汇在当代美国英语中的使用频率划分的。
COCA等级词汇分为五个等级,分别是:最常用词汇(Level 1)、较常用词汇(Level 2)、中等常用词汇(Level 3)、较少用词汇(Level 4)和极少用词汇(Level 5)。
二、COCA词汇等级的划分标准COCA词汇等级是根据词汇在COCA语料库中的出现频率划分的。
COCA 语料库包含了大量的当代美国英语文本,包括书籍、杂志、报纸、网络文章和口语等。
词汇等级的划分标准如下:1.最常用词汇(Level 1):在日常生活中、书籍、文章等方面频繁出现的词汇。
2.较常用词汇(Level 2):在一般阅读材料中经常出现的词汇。
3.中等常用词汇(Level 3):在特定领域或专业文章中出现的词汇。
4.较少用词汇(Level 4):在较为生僻的文章或专业领域中使用的词汇。
5.极少用词汇(Level 5):非常生僻、罕见的词汇。
三、COCA等级词汇的应用场景COCA等级词汇对于英语学习者和使用者具有很高的指导意义。
通过掌握不同等级的词汇,可以基本满足日常生活和学习中的阅读需求。
在学习过程中,可以根据自己的实际需求选择相应等级的词汇进行学习。
此外,COCA等级词汇还可以用于以下场景:1.英语考试:了解COCA等级词汇有助于提高英语考试的阅读理解和写作能力。
2.英语写作:掌握高级词汇可以提升写作水平,使文章更具深度和说服力。
3.专业领域:在特定领域的研究中,熟练运用COCA等级词汇有助于展现专业素养。
四、如何提高COCA等级词汇量1.制定学习计划:根据自己的英语水平和需求,制定合适的学习计划,逐步提高COCA等级词汇量。
2.使用教材和词汇书:选用适合自己的教材和词汇书进行学习,如《新概念英语》、《英语词汇的奥秘》等。
3.多读多写:通过阅读书籍、文章、新闻等,积累COCA等级词汇,并尝试在写作中运用。
coca等级词汇
![coca等级词汇](https://img.taocdn.com/s3/m/d5e0e3603a3567ec102de2bd960590c69ec3d8b7.png)
coca等级词汇【原创实用版】目录1.引言:介绍 COCA 词汇等级2.COCA 词汇等级的定义与划分3.COCA 词汇等级的应用领域4.COCA 词汇等级对于英语学习的重要性5.结论:总结 COCA 词汇等级的价值和意义正文1.引言COCA(Corpus of Contemporary American English)是美国当代英语的一个大规模语料库,它包含了众多英语词汇和短语。
在 COCA 中,词汇被分为五个等级,分别为高频词汇、中频词汇、低频词汇、罕见词汇和极罕见词汇。
这些等级对于英语学习者来说具有重要的参考价值。
2.COCA 词汇等级的定义与划分(1)高频词汇:在 COCA 语料库中出现频率最高的词汇,如“the”、“is”、“and”等。
这些词汇是英语基础中的基础,掌握这些词汇有助于提高阅读和写作效率。
(2)中频词汇:在 COCA 语料库中出现频率较高的词汇,如“education”、“technology”等。
这些词汇扩大了英语学习者的词汇量,有助于提高阅读理解的能力。
(3)低频词汇:在 COCA 语料库中出现频率适中的词汇,如“empanada”、“antics”等。
这些词汇在日常交流中不常用,但在特定场景下会出现,掌握这些词汇有助于提高英语表达的准确性。
(4)罕见词汇:在 COCA 语料库中出现频率较低的词汇,如“plethora”、“ephemeral”等。
这些词汇在日常交流中很少出现,但在文学作品或专业领域中会有所涉及,掌握这些词汇有助于提高英语阅读和写作的深度。
(5)极罕见词汇:在 COCA 语料库中出现频率极低的词汇,如“supercalifragilisticexpialidocious”等。
这些词汇在英语学习中几乎不会用到,但对于语言研究和词汇爱好者来说具有一定的价值。
3.COCA 词汇等级的应用领域COCA 词汇等级在英语教学、研究、翻译等领域都有广泛的应用。
英语学习者可以根据这些等级有针对性地进行学习和记忆,提高自己的英语水平。
美国当代英语语料库(COCA)使用介绍要点
![美国当代英语语料库(COCA)使用介绍要点](https://img.taocdn.com/s3/m/f24cd105a8114431b90dd865.png)
COCA语料库简介
COCA简介
– COCA美国当代英语语料库涵盖美国这一时期 的口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的语料库,并且在这五个类 型方面基本呈均匀平衡分布。
– 网址:/coca
• 例1. 输入单词“mysterious” (图2.1.1-1):得 到相关结果(图2.1.1-2):在各子库中的频率,每 百万词使用的频率。
• 若对图2中的相应条块进行点击,那么就可以看到 KWIC,如图2.1.1-3 (以点Fiction的条块为例):
图2.1.1-1
图2.1.1-2
使用CHART显示
POS LIST
det.GEN 类指限定词 det.POS 物主限定词 num.CARD 基数词 num.ORD 序数词 conj.CRD 并列连词 conj.SUB 从属连词 Interj. 叹词 PUNC 标点
词性列表的使用
• 1)查询多义词特定的词性 • 2)某个词前或者后面特定词性的若干搭配
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
二、COCA主要搜索功能
• 2.1 搜索words、phrases、lemmas(单 词的所有形式)、wildcards(通配符)和 其他更加复杂的字词。
POS LIST
pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
coca等级词汇
![coca等级词汇](https://img.taocdn.com/s3/m/fce21248854769eae009581b6bd97f192279bf27.png)
coca等级词汇摘要:一、引言1.介绍COCA 等级词汇的背景和作用2.阐述COCA 等级词汇对于学习者的重要性二、COCA 等级词汇的概述1.COCA 的定义和来源2.COCA 等级词汇的分类和特点三、COCA 等级词汇的应用1.在英语学习中的作用2.如何有效地利用COCA 等级词汇提高英语水平四、COCA 等级词汇与其他词汇体系的比较1.GSL (General Service List)2.BNC (British National Corpus)五、结论1.总结COCA 等级词汇的重要性2.鼓励学习者积极利用COCA 等级词汇提高英语能力正文:一、引言COCA(The Corpus of Contemporary American English)等级词汇是英语学习者提高英语能力的重要工具。
COCA 等级词汇不仅可以帮助学习者掌握英语中最常用的词汇,还能让学习者了解词汇的难度和重要性,从而更好地进行英语学习。
二、COCA 等级词汇的概述COCA 等级词汇是基于COCA 语料库(The Corpus of Contemporary American English)进行的研究成果。
COCA 语料库包含了大量美国英语的文本,包括书籍、报纸、杂志、网络文章等,共约5.2 亿词。
通过对这些语料库的分析,研究人员将词汇按照其在英语中的使用频率和重要性进行分类,形成了COCA 等级词汇。
COCA 等级词汇共分为十个等级,从最常用的Level 1 词汇到较为生僻的Level 10 词汇。
每个等级的词汇都有其特定的使用场景和重要性。
例如,Level 1 词汇是英语中最常用的词汇,学习者需要熟练掌握这些词汇;而Level 10 词汇虽然在日常生活中使用频率较低,但对于学习特定领域(如科技、医学等)的专业知识具有重要意义。
三、COCA 等级词汇的应用COCA 等级词汇在英语学习中具有广泛的应用。
学习者可以通过掌握不同等级的词汇,提高自己的英语水平。
在美国当代英语语料库(COCA)如何查词
![在美国当代英语语料库(COCA)如何查词](https://img.taocdn.com/s3/m/1a2c53c4ba0d4a7302763af3.png)
在美国当代英语语料库(COCA)如何查词.doc 在美国当代英语语料库(COCA)如何查词摘要:美国当代英语语料库(Corpus of Contemporary American English,COCA)由美国Brigham Young University 的Mark Davies教授开发,目前单词容量在4.5亿,是美国当前最新的当代英语语料库,也是当今世界上最大的英语平衡语料库。
该语料库的语料来自1990-2012年,每年更新,检索功能强大,是最佳的英语学习助手。
本文以sorry为例介绍了如何在美国当代英语语料库中查询单词及对单词sorry的检查与研究结果。
关键词:美国当代英语语料库,平衡语料库,sorryAbstract: The Corpus of Contemporary American English (COCA) is the largest freely-available corpus of English,and the only large and balanced corpus of American English.The corpus was created by Mark avies of Brigham Young University,and it is used by tens of thousands of sers every month (linguists,teachers,translators,and other searchers).COCA is also related to other large corpora that we have created.The corpus contains more than 450 million words of text and isqually divided among spoken,fiction,popular magazines,newspapers,and academic texts.It includes 20 million words each year from 1990-2012.Key words: the Corpus of Contemporary American English,parallel corpus,sorry中图分类号:H319.3文献标识码:A文章编号:1006-026X(2013)12-0000-02一、引论美国当代英语语料库(Corpus of Contemporary American English,COCA)由美国Brigham Young University 的Mark Davies教授开发,目前单词容量在4.5亿以上,是美国当前最新的当代英语语料库,也是当今世界上最大的英语平衡语料库,且与其他所建语料库相连。
美国当代英语语料库(COCA)使用介绍精品名师资料
![美国当代英语语料库(COCA)使用介绍精品名师资料](https://img.taocdn.com/s3/m/ddb14320e87101f69f319519.png)
/
免费的英语语料库资源
• /static/worldcorpora.htm
• /index.html
• /m/micase/ • http://lextutor.ca/conc/eng/ • /
COCA界面简介
COCA界面简介
• 字串查询区:
• Ⅰ、WORDS:输入字符串。 • Ⅱ、COLLOCATES:上下文限定。 • Ⅲ、POS LIST:词性列表
COCA界面简介
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
• 功能:此区可以对查询的字符串限定语料类型 (Genre)和时段(Year) ,并且可以明确到查询某一 个子语料库,时段也可以查询任何一年的某个字词 的使用情况。
POS LIST
pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
图2.1.2-1
图2.1.2-2
Whiten*];动词: [v*]; 形容词: [j*]; 副词: [r*];代词:[p*];连词:[c*]……
POS LIST 词性列表
noun.ALL=名词 noun.SG=单数名词 noun.PL=复数名词 noun.CMN=普通名词 noun.+PROP=专有名词 noun.-PROP=非专有名词
COCA语料库简介
COCA简介
COCA
![COCA](https://img.taocdn.com/s3/m/56e560ef910ef12d2af9e77c.png)
COCA———美国当代英语语料库(Corpus of Contemporary A2merican English)(2011-05-13 10:53:38)转载▼标签:分类:每周一推美国当代英语语料库coca英语教学研究平台免费教育COCA———美国当代英语语料库(Corpus of Contemporary A2merican English)/由美国B righam Young University的M ark Davies教授开发的高达3.6亿词汇的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。
与其它语料库不同的是它是免费在线供大家使用,给全世界英语学习者带来了福音,是不可多得的一个英语学习宝库,也是观察美国英语使用和变化的一个绝佳窗口。
COCA美国当代英语语料库于2008年2月20日在互联网上正式推出。
在来自全球25个国家和地区有140余位专家学者参会的AACL22008(American Association for Corpus Linguis2tics)学术会议上,会议的组织者M ark Davies教授介绍了自己开发的COCA美国当代英语语料库,此外在此学术会议上还有部分学者对研究使用这一语料库进行了交流,获得了热烈反响。
为让更多中国的英语教师和学习者从大型语料库的知识海洋中受益,现积极向国内读者作介绍。
1优点许多语言学习者对普通网络搜索引擎有偏好,那是无法获取免费语料库的无奈之举。
但网络信息作为语料库的问题就是用户无法限定要查询字词的词性,无法作词与词的对比,无法限定要查找的语料类型,也无法确切地查找某一时段的字词使用信息,更无法限定要查找的字词间的距离,也就没有办法确定字词互信息的值。
而其它专业点的英语语料库又需要较贵的注册费或软件购买费用,让普通使用者望尘莫及。
COCA美国当代英语语料库是一个大型在线并免费供大家使用的语料库,为英语研究者和英语学习者共享美国英语资源提供了一个良好平台。
corpus of contempirary american english
![corpus of contempirary american english](https://img.taocdn.com/s3/m/df8f05c8d1d233d4b14e852458fb770bf78a3b0d.png)
corpus of contempirary american english
【原创版】
目录
1.概述当代美国英语语料库
2.当代美国英语的特点
3.语料库对语言研究的重要性
4.我国对英语学习的需求和应用
正文
当代美国英语语料库(Corpus of Contemporary American English,简称 COCA)是一个庞大的数据库,包含了当今美国英语的各种语料。
它为语言学家、教育工作者和翻译人员提供了宝贵的资源,帮助他们更好地了解和研究美国英语的现状和发展趋势。
当代美国英语有许多特点,例如:词汇丰富、表达多样、语法灵活等。
与传统英式英语相比,美式英语在发音、拼写、词汇和语法等方面都有所不同。
这些特点使得美国英语在世界范围内具有广泛的影响力,成为国际交流的主流语言。
语料库对语言研究的重要性不言而喻。
通过对大量真实语料的分析,研究者可以更准确地了解语言的用法、演变和地域差异。
此外,语料库还可以为词典编纂、机器翻译、语言教学等应用提供支持。
我国对英语学习有着极高的需求,英语已成为人们交流、学术研究和国际合作不可或缺的工具。
随着全球化的加深,我国与英语国家的联系日益紧密,对美国英语的了解和掌握显得尤为重要。
因此,利用当代美国英语语料库等资源,提高我国英语教育质量和应用水平具有重要意义。
总之,当代美国英语语料库为我们提供了宝贵的研究资源,帮助我们更好地了解美国英语的特点和现状。
COCA语料库操作演示.ppt教程
![COCA语料库操作演示.ppt教程](https://img.taocdn.com/s3/m/5fc2f12e76c66137ee061957.png)
图2.4.2
规则:在WORDS的方格里分别输入woman和man,再在 COLLOCATES方框里输入[j*],选在左3,表示前面3个跨 距内所有的形容词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.3 搜索近义词 • 如:搜索beautiful的所有近义词(如图2.4.3-1)
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):
图2.3-3
• 2.4 进行语义倾向比较 • 2.4.1 比较近义词 • 如:近义形容词hot和warm后面所跟名词的 区别(如图2.4.1):
图2.4.1
规则:首先选择 COMPARE 显示。然后在WORDS的方格里分 别输入hot和warm,再在COLLOCATES方框里输入[n*],表示 后面所跟任何名词。当然也可以比较在某个子语料库中出 现的频率比较。
ቤተ መጻሕፍቲ ባይዱ
• 2.4.2 比较反义词 • 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.1.4-1
规则:若要得到某个单词的所有单复数和时态形式,那么 就要在输入时,在这个单词外加 [ ]。
图2.1.4-2
形容词early的原形,比较级和最高级三种形式一次性检索出来检索
• 2.1.5 输入某种词性且部分带有某些字母的命令, 如要得到以 un- 开头、 -ed 结尾的所有形容词的所 有 形 式 ( 见 图 2.1.5-1 ) 和 得 到 动 词 + 任 何 词 +ground的所有词组(见图2.1.5-2): • 规则:若要得到某种词性且词中带有部分带有某 些字母的形式时,如要得到以 un- 开头、 -ed 结尾 的所有形容词的所有形式,那么输入: un*ed.[aj*]; 若要得到动词+任何词+ground的所有词组,那么输 入: [vv*]*[ground]即可。前者用来研究词汇,后者 用来查询特定词性的搭配。
COCA 语料库界面查询输入说明(修订)
![COCA 语料库界面查询输入说明(修订)](https://img.taocdn.com/s3/m/d333657faf1ffc4ffe47ac1a.png)
fairly *
查与fairly搭配的情况
*是通配符,此处代指任一个词;注意:fairly与*之间有空格
un*ly
查以un开头以ly结尾的词
查到单词如unlikely,unusually;此处*代指任意数量的字母
[slip].[v*]
查beautiful的同义词与flower的同义词搭配的情况
small
little
[nn*]
0/3各
RELEVANCE
查small和little后面3个词内的名词使用对比情况
ground.[n*]
floor.[n*]
[j*]
3/0
RELEVANCE
各查ground和floor作名词时前面3个词内的形容词使用对比情况
查is被缩写为’s情况的句式结构
’s在本语料库中可以被视为一个词单独查询,即,和前面的单词要空格且输成‘s,其它缩写形式也是用类似方法查询
it is [v*] that
或we [vv*] that
查句式结构
选择CHART显示可以看出第一个是学术结构,是口语的8.5倍;第二个结构口语中最常用
to [v*] or not to [v*]
[sing]
查sing的任何形式
查到sing,singing,sang等,但不包括song
[=publish]
查publish的同义词
=表示同义关系,结果为publish,circulate,announce等。说明:查同义词是COCA语料库的一大特色
[[= publish]]
查publish的同义词并且
查slip作动词的情况
英语语料库及词频表介绍
![英语语料库及词频表介绍](https://img.taocdn.com/s3/m/facf89b9f605cc1755270722192e453610665b35.png)
英语语料库及词频表介绍
英语语料库是收集英语书面和口语等各类英文表述方式的语言材料集合,涵盖了英语词汇的各个方面。
其中,目前主流的有三个语料库,分别是GBC(Google Book's Corpus)、BNC(British National Corpus)和COCA(Corpus of Contemporary American English)。
COCA(Corpus of Contemporary American English)是由美国伯翰大学(Brigham Young University)的Mark Davies教授开发的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。
它涵盖了美国这一时期的口语、小说、流行杂志、报纸和学术期刊五大类型的语料库,并且这五个方面基本上成均匀平衡分布。
COCA词频表基于COCA的5亿单词语料库,利用算法提取出来最高的前5000和20000的高频词,并注释了搭配,解决了单词最实际的实用问题。
如需更多关于英语语料库及词频表的信息,建议咨询英语专业人士或查阅相关文献资料。
COCA语料库操作 演示.ppt知识讲解
![COCA语料库操作 演示.ppt知识讲解](https://img.taocdn.com/s3/m/6f0ea47f0066f5335b812123.png)
图2.4.1
规则:首先选择 COMPARE 显示。然后在WORDS的方格里分 别输入hot和warm,再在COLLOCATES方框里输入[n*],表示 后面所跟任何名词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.2 比较反义词
• 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):
图2.3-3
• 2.4 进行语义倾向比较
• 2.4.1 比较近义词
• 如:近义形容词hot和warm后面所跟名词的 区别(如图2.4.1):
图2.4.3-3
思考:
• 1)如何查询多义词特定的词性的KWIC,如for 作连词或介词等?
• 2)如何查询某个词前/或者后面特定词性的若干 搭配词, 如confidence 前的形容词?
• 3)词性附码应放置在什么位置?
此课件下载可自行编辑修改,仅供参考! 感谢您的支持,我们努力做得更好!谢谢
图2.1.5-1
图2.1.5-2
动词+任何词+ground的所有词组
• 2.2 搜索搭配词和出现的频率 • 如 “thick后跟的名词” (图2.2-1)
图2.2-1
规则:在COLLOCATES里输入[n*] 后选择4,表示 在thick后面(4跨距范围内)出现的任何名词
• 如跟在 “smile前面的形容词” (图2.2-2)
COCA语料库操作 演示.ppt
图1.1 COCA界面简介
1. 显示方式 2. 关键词输入栏
coca语料库注意事项
![coca语料库注意事项](https://img.taocdn.com/s3/m/4ed25cb9fbb069dc5022aaea998fcc22bcd143ae.png)
coca语料库注意事项在使用COCA语料库时,以下是一些需要注意的事项:一、语言选择COCA语料库支持多种语言,包括英语、西班牙语、汉语等。
在使用时,请根据您的需求选择正确的语言。
确保您的代码中指定了正确的语言,以便语料库可以正确加载相应的数据。
二、数据清洗在使用COCA语料库之前,建议进行数据清洗。
这包括删除重复的句子、标点符号和特殊字符等。
确保您的数据干净、准确,以便获得更好的结果。
三、代表性样本COCA语料库包含大量的文本数据。
如果您只需要一部分数据,请确保您选择的样本具有代表性。
这可以确保您的结果不会受到数据偏差的影响。
四、版权问题COCA语料库中的文本数据可能受到版权保护。
在使用这些数据时,请确保您遵守版权法规,并获得适当的许可。
不要将受版权保护的数据用于商业用途或分发给他人。
五、数据安全COCA语料库中的文本数据可能包含个人信息、敏感信息和机密信息。
在使用这些数据时,请确保采取适当的安全措施,以保护您的系统和数据免受未经授权的访问和泄露。
六、标准化处理在使用COCA语料库之前,建议对数据进行标准化处理。
这包括文本预处理、分词、词干提取等。
这有助于提高模型的性能和准确性。
确保您对数据进行适当的标准化处理,以便获得更好的结果。
七、文档注释在使用COCA语料库时,建议添加适当的文档注释。
这可以帮助其他开发人员更好地理解您的代码和数据。
确保您在代码中添加了有用的注释,以便其他人可以轻松地理解和使用您的代码。
八、文档编码COCA语料库中的文本数据可能包含多种字符编码。
在使用这些数据时,请确保您的代码支持正确的字符编码,以避免出现乱码或其他问题。
如果您的代码不支持特定的字符编码,请考虑使用适当的库或工具来处理这些编码问题。
常用在线语料库使用简介分析
![常用在线语料库使用简介分析](https://img.taocdn.com/s3/m/31869da0ed630b1c59eeb5fe.png)
频数
图2.1-2
BNC
2.2 其他可下载的BNC产品
➢ BNC XML edition:BNC全库 ➢ BNC Baby:BNC子库,包含小说、新闻、科技、口语四
类文本各100万词 ➢ BNC sampler:BNC 子库,包含书面语、口语两类文本
各100万词 ➢ 注:以上语料库采用XML格式,需使用XAIRA软件检索
➢ 输入“feature”(图6.1.1-1)
图6.1.1-1
COCA
6.1.1 检索某一词形
➢ 在搜索结果区可得到“feature”的频数 (图6.1.1-2 ) ➢ 点击该词,可在例句显示区看到含有“feature”的词
条(图6.1.1-3)
图6.1.1-2
图6.1.1-3
COCA
6.1.1 检索某一词形
图5.3-1
COCA
5.3 语料库分类区
➢ 42个子语料库 (图5.3-2)
图5.3-2
COCA
5.3 语料库分类区
➢ 42个子语料库 (图5.3-3)
图5.3-3
COCA
5.4 查询结果排列方式区
➢ Sort by:检索结果的排列方式,可按频率、关联度、 或字母顺序排列,一般默认按频率排列 (图5.4-1)
➢ 在显示方式区选择KWIC 并再次点击search, 可得含有“feature”的词语 索引(图6.1.1-4)
Sketch Engine: 在线语料库管理及检索工具,可有 效总结词汇的语法及搭配行为。
BNC
1. BNC官网主界面(图1-1)
基本信息及 功能介绍区
简单搜索区 进入简单搜索功能介绍
图1-1
BNC
2. BNC在线检索功能介绍 2.1 BNC simple search
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Concordances显示方式
• • • • • •
蓝色——名词 紫色——动词 绿色——形容词 棕色——副词 灰色——代词 黄色——介词
COCA主要搜索功能
• 例:输入词组 “excuse+名词” 得到的结果都是 excuse后面跟的 名词短。检索表达 式为:white [n*]。
图2.1.2-2
un-开头、-ed结尾的所有形容词
动词+任何词+ground的所有词组
COCA主要搜索功能(二)
• 搜索搭配词和出现的频率
• 如“go后跟的形容词”
规则:在collocates里输入[n*] 后选择4,表示在thick4后面(4跨距范 围内)出现的任何名词
• 如:跟在 “名词smile前面的形容词”
COCA界面简介
• 字串查询区:
• Ⅰ WORDS:输入字符串。 • Ⅱ POS LIST:词性列表
COCA界面简介
• 语料库类区(五大类型语料库共包括42个 子语料库)。
• 功能:此区可以对查询的字符串限定语料类型 (Genre)和时段(Year) ,并且可以明确到查询某一 个子语料库,时段也可以查询任何一年的某个字词 的使用情况。
POS LIST
det.GEN 类指限定词 det.POS 物主限定词 num.CARD 基数词 num.ORD 序数词 conj.CRD 并列连词 conj.SUB 从属连词 Interj. 叹词 PUNC 标点
词性列表的使用
• 某个词前或者后面特定词性的若干搭配词, 如confidence前的形容词
POS LIST
pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
POS LIST
verb base=动词原形 verb.INF=动词不定式 verb MODAL=情态动词 verb 3SG=动词第三人称单数 verb ED=过去式 verb EN=过去分词 verb ING=现在分词 verb.LEX=lexical verb实意动词 verb.[BE]=系动词 verb.[DO]=do verb.[HAVE]=have
规则:在words里输入: smile.[n*],表示作为名词的smile。
COCA主要功能(三)
• 搜索在子语料库内(或之间)出现的频率(或 比较)(不同语域中的用法)
• Dwell是个文学色彩词吗?
• COCA主要功能(四) • 搜索近义词 • 如:搜索beautiful的所有近义词
规则:在words的方格里输入[=beautiful],表示和beautiful语 义相近的所有形容词。
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
COCA主要搜索功能(一)
• 搜索words、phrases、lemmas(单词的所 有形式)、wildcards(通配符)和其他更 加复杂的字词。
美国当代英语语料库(COCA)使用说明
/coca
一、COCA语料库简介
• COCA简介
– COCA:美国当代英语语料库(Corpus of Contemporary American English)是由美国杨 伯翰大学(Brigham Young University)的 Mark Davies 教授开发的美国最新当代英语语 料库,是当今世界上最大的英语平衡语料库。
COCA语料库简介
– 涵盖美国这一时期的口语(spoken)、小说(fiction)、 流行杂志(pop magzine)、报纸(newspaper)和学术期 刊(academic)五大类型的语料库,并且在这五个类型 方面基本呈均匀平衡分布。
COCA界面简介
主要包括三大功能区:
Ⅰ 显示及查询条件界定区,包括:显示方式区, 字串查询区,语料库分类区,查询结果排列方式 区。 Ⅱ 查询结果数据显示区 Ⅲ 例句显示区
COCA主要搜索功能
• 例:输入 lemmas (即一个单词的单复数、时态等 所有形式)。若要得到get这个单词的所有形式, 可以如下图所示。
EXAMPLE
规则:若要得到某个单词的所有单复数和时态形式,那么 就要在输入时,在这个单词外加 [ ]。
• 例:输入通配符 (wildcards) ,输入 un*ly ,结果 如图。
White+名词的短语
规则:名词: [n*];动词: [v*]; 形容词: [j*]; 副词: [r*];代词:[p*]; 连词:[c*]
POS LIST 词性列表
POS LIST
noun.ALL=名词 noun.SG=单数名词 noun.PL=复数名词 noun.CMN=普通名词 noun.+PROP=专有名词 noun.-PROP=非专有名词
? 代替一个字母 * 代替任意数量字母
EXAMPLE
• 例:输入某种词性且部分带有某些字母的命令, 如要得到以 un- 开头、 -ed 结尾的所有形容词的所 有形式,以及得到动词 + 任何词 +ground 的所有词 组。
规则: 若要得到某种词性且词中带有部分带有某些字母的形 式时,如要得到以 un- 开头、 -ed 结尾的所有形容词的所有形 式,那么输入: un*ed.[j*]; 若要得到动词 + 任何词 +ground 的所有词组 , 那么输入 : [v*] * [ground]即可。 前者用来研究词汇,后者用来查询特定词性的搭配。
COCA界面简介
• 显示方式区:
• 1.LIST——列表显示 • 2.CHART——图表显示,可以显示在各语料库类型中的使 用频率和各时间段内的使用情况。 • 3.Concordances——Key word in context (KWIC),上下 文关键词显示 • PARE——单词比较显示,比较两个不同词或短语 的搭配情况。