在美国当代英语语料库(COCA)如何查词

合集下载

BNC和COCA语料库

BNC和COCA语料库

6.若要得到动词+任何词+ground的所有词组,那么输入: [vv*]*[ground]即可。
பைடு நூலகம்
动词+任何词+ground的所有词组

7.搜索近义词 如:搜索beautiful的所有近义词
规则:在words的方格里输入[=beautiful],表示和beautiful语义相 近的所有形容词。

/
杨百翰大学BNC语料库使用方法说明
/bnc
BYU-BNC界面简介
1.单词 mysterious 为例
使用LIST显示
使用CHART显示
使用KWIC(key words in the context)显示方式
规则:在words的方格里分别输入hot和warm,再在collocates方框里输入[n*], 表示后面所跟任何名词。
11.搜索搭配词以及出现的频率 如:thick后跟的名词
规则:在context里输入[nn*] 后选择4,表示在thick后面(4跨距范围内)出现的任何 名词
we want to say
2.词组(形容词+名词)


输入词组“white+ 名词” 得到的结果都是 white后面跟的名词 短语 检索表达式为: white [n*]

规则:输入名词的话用正 确表达式: [n*];动词: [v*]; 形容词: [aj*]; 副词: [av*]……
White+名词的短语
3. 输入un*ly和r?n*,

再如:搜索动词clean的所有近义词,如下图:


8.比较反义词 如:woman和man前面所跟的形容词的区别)

coca等级词汇

coca等级词汇

coca等级词汇一、什么是COCA词汇等级COCA(Corpus of Contemporary American English)词汇等级是根据词汇在当代美国英语中的使用频率划分的。

COCA等级词汇分为五个等级,分别是:最常用词汇(Level 1)、较常用词汇(Level 2)、中等常用词汇(Level 3)、较少用词汇(Level 4)和极少用词汇(Level 5)。

二、COCA词汇等级的划分标准COCA词汇等级是根据词汇在COCA语料库中的出现频率划分的。

COCA 语料库包含了大量的当代美国英语文本,包括书籍、杂志、报纸、网络文章和口语等。

词汇等级的划分标准如下:1.最常用词汇(Level 1):在日常生活中、书籍、文章等方面频繁出现的词汇。

2.较常用词汇(Level 2):在一般阅读材料中经常出现的词汇。

3.中等常用词汇(Level 3):在特定领域或专业文章中出现的词汇。

4.较少用词汇(Level 4):在较为生僻的文章或专业领域中使用的词汇。

5.极少用词汇(Level 5):非常生僻、罕见的词汇。

三、COCA等级词汇的应用场景COCA等级词汇对于英语学习者和使用者具有很高的指导意义。

通过掌握不同等级的词汇,可以基本满足日常生活和学习中的阅读需求。

在学习过程中,可以根据自己的实际需求选择相应等级的词汇进行学习。

此外,COCA等级词汇还可以用于以下场景:1.英语考试:了解COCA等级词汇有助于提高英语考试的阅读理解和写作能力。

2.英语写作:掌握高级词汇可以提升写作水平,使文章更具深度和说服力。

3.专业领域:在特定领域的研究中,熟练运用COCA等级词汇有助于展现专业素养。

四、如何提高COCA等级词汇量1.制定学习计划:根据自己的英语水平和需求,制定合适的学习计划,逐步提高COCA等级词汇量。

2.使用教材和词汇书:选用适合自己的教材和词汇书进行学习,如《新概念英语》、《英语词汇的奥秘》等。

3.多读多写:通过阅读书籍、文章、新闻等,积累COCA等级词汇,并尝试在写作中运用。

COCA 语料库界面查询输入说明(修订)

COCA 语料库界面查询输入说明(修订)
The Materials for Guiding Students to Use COCA
1. COCA界面的字符串查询(WORD(S))处输入词示例内容的说明
输入词示例
作用
说明与技巧
Jumbo或
soft landing
查具体的词或短语
也可以输入长字符串(9词以下)
borrow/lend
简单对比两个词的使用频率
SECTION 2=FIC
查smart的同义词在报纸和小说中的使用情况
查beautiful的同义词与flower的同义词搭配的情况
small
little
[nn*]
0/3各
RELEVANCE
查small和little后面3个词内的名词使用对比情况
ground.[n*]
floor.[n*]
[j*]
3/0
RELEVANCE
各查ground和floor作名词时前面3个词内的形容词使用对比情况
查is被缩写为’s情况的句式结构
’s在本语料库中可以被视为一个词单独查询,即,和前面的单词要空格且输成‘s,其它缩写形式也是用类似方法查询
it is [v*] that
或we [vv*] that
查句式结构
选择CHART显示可以看出第一个是学术结构,是口语的8.5倍;第二个结构口语中最常用
to [v*] or not to [v*]
dis* [v?d]
查第一个词以dis开头,
下一个词为过去式结构
(注意与上面的区别)
查到district had, disease was, disease had等
*ly.[j*]
查以ly结尾的形容词
仅查ly结尾的词作形容词使用情况

美国当代英语语料库(COCA)在词汇教学中的应用价值

美国当代英语语料库(COCA)在词汇教学中的应用价值

美国当代英语语料库(COCA)在词汇教学中的应用价值张仁霞【摘要】本研究介绍了美国当代英语语料库(COCA)在英语词汇教学中的利用价值:充实单词语义,建立图式;学习单词搭配,归纳语义偏好;培养学生语体意识,学会恰当使用单词;发现单词的同义词近义词;真实语料和语境中习得词汇,培养观察归纳思维能力。

COCA对于学生进行英语词汇网络自主学习是很有价值的语料库资源和工具。

【期刊名称】齐齐哈尔大学学报(哲学社会科学版)【年(卷),期】2015(000)004【总页数】4【关键词】语料库;COCA;词汇教学□学科教学研究近年来,计算机和网络技术的迅猛发展为英语教学创造了新的条件,大大提高了英语教学的效率。

教学中引入网络语料库手段,将极大丰富英语教学的手段。

COCA—美国当代英语语料库 (Corpus of Contemporary American English) 是美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。

关于其系统介绍,可以参考《美国当代英语语料库(COCA)——英语教学与研究的良好平台》[1]专业语料库需要购买昂贵的软件或者注册费用,繁忙的教学使得教师们无暇自建语料库,所以提到语料库,很多英语教师望而却步,加上多数具有“技术恐惧症”,认为语料库望尘莫及。

英语教师和学习者要观察当今美语使用变化的情况,COCA 提供了在线免费使用的良好平台。

它是由杨伯翰大学 Mark Davies 教授开发的高达 4.5 亿词汇库容的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。

其界面主要是为语言学家和语言学习者了解单词、短语以及句子结构的频率及进行相关信息比较而设计。

它具备了一个好语料库的三项最基本条件:规模、速度以及词性标注。

[2] 它收集的数据涵盖了最近22 年(1990 年到2012 年)美国的口语、小说、流行杂志、报纸和学术期刊五大类型的语料,并且每种类型基本呈均匀平衡分布。

值得一提的是,COCA 具有其它语料库不可企及的突出优势,它是一种动态的语料库资源,没有最后的版本,处于不断更新与发展中,每年约2000 万词汇,而且今后每年至少更新两次。

coca等级词汇

coca等级词汇

coca等级词汇【原创实用版】目录1.引言:介绍 COCA 词汇等级2.COCA 词汇等级的定义与划分3.COCA 词汇等级的应用领域4.COCA 词汇等级对于英语学习的重要性5.结论:总结 COCA 词汇等级的价值和意义正文1.引言COCA(Corpus of Contemporary American English)是美国当代英语的一个大规模语料库,它包含了众多英语词汇和短语。

在 COCA 中,词汇被分为五个等级,分别为高频词汇、中频词汇、低频词汇、罕见词汇和极罕见词汇。

这些等级对于英语学习者来说具有重要的参考价值。

2.COCA 词汇等级的定义与划分(1)高频词汇:在 COCA 语料库中出现频率最高的词汇,如“the”、“is”、“and”等。

这些词汇是英语基础中的基础,掌握这些词汇有助于提高阅读和写作效率。

(2)中频词汇:在 COCA 语料库中出现频率较高的词汇,如“education”、“technology”等。

这些词汇扩大了英语学习者的词汇量,有助于提高阅读理解的能力。

(3)低频词汇:在 COCA 语料库中出现频率适中的词汇,如“empanada”、“antics”等。

这些词汇在日常交流中不常用,但在特定场景下会出现,掌握这些词汇有助于提高英语表达的准确性。

(4)罕见词汇:在 COCA 语料库中出现频率较低的词汇,如“plethora”、“ephemeral”等。

这些词汇在日常交流中很少出现,但在文学作品或专业领域中会有所涉及,掌握这些词汇有助于提高英语阅读和写作的深度。

(5)极罕见词汇:在 COCA 语料库中出现频率极低的词汇,如“supercalifragilisticexpialidocious”等。

这些词汇在英语学习中几乎不会用到,但对于语言研究和词汇爱好者来说具有一定的价值。

3.COCA 词汇等级的应用领域COCA 词汇等级在英语教学、研究、翻译等领域都有广泛的应用。

英语学习者可以根据这些等级有针对性地进行学习和记忆,提高自己的英语水平。

美国当代英语语料库(COCA)使用介绍要点

美国当代英语语料库(COCA)使用介绍要点

COCA语料库简介
COCA简介
– COCA美国当代英语语料库涵盖美国这一时期 的口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的语料库,并且在这五个类 型方面基本呈均匀平衡分布。
– 网址:/coca
• 例1. 输入单词“mysterious” (图2.1.1-1):得 到相关结果(图2.1.1-2):在各子库中的频率,每 百万词使用的频率。
• 若对图2中的相应条块进行点击,那么就可以看到 KWIC,如图2.1.1-3 (以点Fiction的条块为例):
图2.1.1-1
图2.1.1-2
使用CHART显示
POS LIST
det.GEN 类指限定词 det.POS 物主限定词 num.CARD 基数词 num.ORD 序数词 conj.CRD 并列连词 conj.SUB 从属连词 Interj. 叹词 PUNC 标点
词性列表的使用
• 1)查询多义词特定的词性 • 2)某个词前或者后面特定词性的若干搭配
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
二、COCA主要搜索功能
• 2.1 搜索words、phrases、lemmas(单 词的所有形式)、wildcards(通配符)和 其他更加复杂的字词。
POS LIST
pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词

基于美国当代英语语料库的外研版教材词汇分析

基于美国当代英语语料库的外研版教材词汇分析

基于美国当代英语语料库的外研版教材词汇分析何欢(华东师范大学教师教育学院,上海200062)摘要:词汇是外语学习的基础,尤其是高频词的学习会对外语学习者产生重要影响,而学生学习的词汇主要来源于教材。

文章运用基于语料库的定量分析的方法,借助美国当代英语语料库COCA5000高频词,描述分析外研版初高中系列教材词汇,发现教材中的词汇在COCA5000高频词中所占比例达到80%以上,词汇选择比较合理,但每本教材中仍有相当一部分词汇属于低频词,建议教师应合理使用该教材进行词汇教学,同时教材编者应充分利用语料库这一资源,在教材中呈现更全面、更具代表性的词汇。

关键词:语料库;高频词;教材词汇分析一、引言英国著名语言学家Wilkins说过:没有语法,人们不能表达很多东西;而没有词汇,人们则无法表达任何东西(Wilkins,1972,转引自李健民,2012)。

《普通高中英语课程标准(2017年版)》(教育部,2018)提出了英语学科的四大核心素养,其中英语语言能力构成英语学科核心素养的基本要素。

词汇作为英语语言能力的重要组成部分,是最小的可独立运用的语言单位,也是外语学习的基础,对语篇的理解、听、说、读、写、看各项技能的提升都有着不可忽视的作用。

在词汇学习中,高频词的学习又是最为基础和重要的部分。

高频词在文本中出现频率较高,对语篇覆盖率较大。

在BROWN语料库中,频率最高的1000个词,对普通英语的覆盖率为72%,2000个高频词的覆盖率为79.7%(桂诗春,2006)。

可见高频词的学习会为外语学习者打下良好基础。

外语学习者学习的词汇主要来源于教材,教材作为教师主要的教学材料和学生的学习资源,其词汇的选择和呈现对教师和学生的词汇教学会产生重要影响。

因此,评估外语教材中的词汇具有重要意义。

本文借助美国当代英语语料库COCA5000高频词(以下简称为COCA5000高频词),描述和分析外研版初高中系列教材中高频词汇的比例和变化趋势,以期能为新课改背景下教师词汇教学和教材编写提供参考意见。

基于COCA语料库英语同义词辨析——以Compulsory和Mandatory为例

基于COCA语料库英语同义词辨析——以Compulsory和Mandatory为例

- 217 -校园英语 / 语言文化研究基于COCA语料库英语同义词辨析——以Compulsory和Mandatory为例成都理工大学外国语学院/郭齐园 金铠【摘要】本文基于语料库的研究方法,以compulsory和mandatory为例,利用美国当代英语语料库COCA从不同语域的词频分布、搭配特征、句法结构等方面,结合定性和定量的方法,辨析英语同义词。

本研究对英语教学和实践提供了一种有效的手段和视角,以语料库为基础的英语同义词教学有一定的借鉴意义。

【关键词】COCA语料库 同义词 搭配特征 类连接统计数据表明,同义词占到所有英语单词的60%以上。

传统方法是词典学习,老师自身经验,学生内化。

此类学习方法宏观,不具体。

而COCA 语料库在辨析同义词,微观,具体。

一、语料库语言学背景20世纪中后期,语料库语言学对于辨析同义词的研究成为一种新的方法,具有语言真实,数据量大,检索快速。

在语言学中,语料库即大量文本的集合,库中的文本(称为语 料),通常经过整理,具有既定的格式与标记,特指计算机存储的数字化语料库。

语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。

应用于词典编纂、语言教学、传统语言研究、自然语言处理中基于统计或实例的研究等方面。

语料库可分成四种类型:(1)异质的:没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的:只收集同一类内容的语料;(3)系统的:根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的:只收集用于某一特定用途的语料。

COCA 是当前重要的语料库工具之一,全称为美国当代英语语料库,可免费在线使用且分布均匀,其涵盖SPOK ,FIC ,MAG ,NEWS ,ACAD 五个部分。

二、研究对象及工具1. compulsory 和mandatory 在字典中的定义。

《牛津高阶英汉双解词典,(7th Edition)》中,compulsory 解释为:that must be done because of a law or a rule (因法律或规则 而)必须做的,强制的,强迫的;短语和例句有:Compulsory education / schooling 义务教育、Compulsory redundancies 强制裁员等。

基于COCA语料库的近义词辨析——以size和measure为例

基于COCA语料库的近义词辨析——以size和measure为例

2024年第10期现代商贸工业Modern Business Trade Industry作者简介:王艳艳(2000-),女,汉族,河南周口人,西安石油大学研究生,研究方向:翻译;于艳英,女,汉族,西安石油大学外国语学院院长㊁教授(通讯作者)㊂基于COCA 语料库的近义词辨析以size 和measure 为例王艳艳㊀于艳英(西安石油大学,陕西西安710000)摘㊀要:在英语学习中,近义词的辨析一直是英语学习的难点和重点㊂该文以美国当代英语语料库COCA 为研究工具,以近义词size 和measure 为例,通过检索size 和measure 在COCA 语料库的使用情况,从词频㊁语域和搭配这几个方面来分析他们的异同,旨在用真实的语料分析这组近义词的含义以及用法,提升英语学习者对近义词的辨析能力㊂关键词:COCA 语料库;近义词;词频;语域;搭配中图分类号:F74㊀㊀㊀㊀㊀文献标识码:A㊀㊀㊀㊀㊀㊀doi:10.19311/ki.1672-3198.2024.10.0181㊀研究背景英语作为世界上使用最广泛的语言之一,其词汇量极其庞大,近义词的出现频率也很高㊂据统计,英语语言中同义词㊁近义词的数量约占总词汇量的60%以上㊂由此可见,近义词的辨析对英语学习者尤为重要㊂ size 和 measure 作为名词都有 尺寸 的词典释义, size 在‘牛津高阶英汉双解词典(8th Edition )“的解释为 how large or small a person or thing is ㊂其中解释有7个:1.official action 正式行动;2.unit of size /quan-tity 度量单位;3.amount 程度;4.instrument for measuring 测量仪器;5.way of showing /judging 展示方式/判断方法;6.suggested new law 法案;7.in music 音乐㊂对于第2个的扩展释义有 the size,length,or amount of sth(某物的)尺寸,长度,数量 短语有 to take sbᶄs waist measure 量某人的腰围㊂ 从中可以看出 size 和 measure 虽然都有和尺寸相关的含义,但measure 在词典中的尺寸含义更为隐含㊂两个词的含义和例句没有明确的区别,会使学习者在运用过程中过于纠结㊂这时需要一种方法区别这两个近义词,以提高这些词的准确使用率㊂2㊀基于COCA 语料库对 size 和 measure 进行数据分析美国当代英语语料库(简称COCA)是当今世界上最大的英语平衡语料库㊂COCA 语料库规模大㊁速度快㊁词性标注明确㊂该语料库使用模块包括:简单查询㊁相互信息值查询㊁语义查询㊁语体及搭配用法查询㊁谚语查询等㊂以COCA 语料库为工具,在词频㊁语域和搭配方面对 size 和 measure 进行研究分析㊂2.1㊀词频分布&分析表1为size 和measure 在COCA 语料库中词频分布表㊂表1㊀size 和measure 在COCA 语料库中词频分布表Word Freqsize115388measure 93952㊀㊀通过在COCA 语料库中的List 板块检索,数据显示两个词的使用频率相差2万多(表1)㊂其中,size 的使用频率明显高于measure,高达11万次;而measure 的使用频率有9万多次㊂size 在59160篇文本中出现,sizes 的次数出现14900,占总频次的约12.9%㊂measure 在41586篇文本中出现,measures 的次数出现50892,占总频次的约54.1%㊂由此得出,在八大类型的语料库中,size 常以单数出现,而measure 单复数使用频率相近;对于近义词size 和measure,size 的应用更为频繁㊂2.2㊀语域分布差异语域是指人们在实际的语言活动中,出于交际的需要,或因其从事的职业和兴趣不一样,又或者是因其话语发生的场景㊁说话的对象㊁地点和话题的不同而产生的一种语言变体,体现为语言的不同语体风格㊁用语格调等㊂所以语域对于近义词辨析具有一定的意义,在辨析近义词时,结合语域可以直观地观察到两者的差别㊂通过在COCA 语料库的Chart 板块分别输入size 和measure 可以得到表2size 和measure 在COCA 语料库中不同语域的词频分布情况和表3size 和measure 在CO-CA 语料库的历史发展轨迹㊂㊃35㊃现代商贸工业Modern Business Trade Industry2024年第10期表2㊀size和measure在COCA语料库中不同语域词频分布表Word BLOG WEB TV/M SPOK FIC MAG NEWS ACADmeasure Freq727490241288442128078999832722016 Per mil56.5672.6310.0635.0523.7271.3768.40183.79size Freq1270614832574262328883195621050222474 Per mil98.79119.3744.8349.4175.07155.1486.26187.61㊀㊀从表2可以看出,无论是在口语㊁小说㊁杂志㊁新闻和学术期刊中的使用频率,size在八大文体的词频都高于measure㊂其中在学术期刊中出现的频率是最高的,这也说明两个词更多的是用于文本写作㊂上述数据表明,size和measure在口语㊁新闻㊁学术的使用频数差别不大㊂使用频数最为显著的是在博客㊁网站㊁杂志和小说中㊂比较之下measure更多地用于杂志㊁报纸和学术领域,而size可以广泛用于除杂志㊁报纸和学术之外的博客㊁小说㊁网站㊁电视电影和口语领域㊂表3㊀size和measure在COCA语料库中的历史发展轨迹Size MeasureFreq Per mil Freq Per mil 1990-199********.34755762.40 1995-9913118104.77765161.11 2000-041239799.47795863.86 2005-0912315100.08768262.43 2010-1412478101.16904273.30 2015-191141993.03796864.91㊀㊀通过分析COCA语料库数据显示的发展轨迹(表3),size的使用频率保持着较为均衡的状态,总体呈现略微下降的趋势㊂而measure的使用频率,大体上呈上升趋势,说明measure一词的使用在逐渐增加㊂2.3㊀搭配分析通过数据化分析搭配词的搭配强度,可以总结出词的特征㊂这一搭配强度可以用MI值(相互信息值)来判断,如果词与词的搭配度越高,那么MI值越大㊂利用COCA语料库在size和measure的左右两侧3个词的跨距内检索MI值大于等于3的搭配词,最终选取COCA 语料库中两词的前20个相互信息值较高的显著搭配词作为示例(表4)㊂以measure为节点词,在跨距-3/+3内检索MI> 3的搭配词,按照搭配频次列举前20个搭配词(表4所示):used㊁success㊁large㊁designed㊁ballot㊁performance㊁pas-sed㊁tape㊁measure㊁equal㊁progress㊁outcome㊁quality㊁dis-tance㊁effectiveness㊁tests㊁accurately㊁approved㊁achieve-ment㊁items㊂查看这些词的共现行,不难发现这些词与measure搭配时,measure大多体现的是抽象引申义,而没有 测量 尺寸㊁大小 的本意㊂由此可见,与meas-ure搭配的大多是抽象概念的名词,而measure常在前面修饰这些名词㊂表4㊀size和measure在COCA语料库中的显著搭配词表搭配词FREQ MI measureused1619 3.10success857 4.42large760 3.11designed586 4.28ballot569 6.46performance495 3.51passed467 3.66tape435 4.81measure399 4.00equal370 4.27progress359 3.96outcome344 4.77quality330 3.00distance309 3.77effectiveness301 5.46tests268 3.71accurately259 5.79approved248 4.41achievement225 4.31items213 3.08 sizesample3248 6.76small3021 3.93effect2108 4.72shape1761 5.67large1330 3.26population1086 4.00class1053 3.35average988 3.81twice984 4.71increase939 3.74larger924 4.34smaller894 4.67depending702 5.30weight683 3.70reduce677 4.23roughly614 5.16size542 3.14range509 3.17sheer508 6.01screen502 3.60㊀㊀同样地,以size为节点词,在跨距-3/+3内检索MI>3的搭配词,前20个搭配词如下:sample㊁small㊁effect㊁shape㊁large㊁population㊁class㊁average㊁twice㊁in-crease㊁larger㊁smaller㊁depending㊁weight㊁reduce㊁roughly㊁size㊁range㊁sheer㊁screen㊂查看这些词的共现行,这些词大都为形容词修饰size;还有与size搭配的名词,像样本㊁人口这样的名词,这些都能看出size和measure有很大的区分,size大都用自己的本意 尺寸㊁大小 ㊂㊃45㊃2024年第10期现代商贸工业Modern Business Trade Industry基金项目:教育部人文社会科学青年基金项目 新疆旅游舆情指数构建与旅游减贫效应研究 (18YJC630041)㊂作者简介:王冠青(1993-),男,汉族,四川安岳人,天津工业大学硕士研究生,河北冀工胶管有限公司财务总监,注册会计师,研究方向:资本市场财务与会计㊁管理会计㊁公司治理;郜攀峰(1994-),男,汉族,安徽濉溪人,合肥工业大学硕士研究生,注册会计师,研究方向:资本市场与公司财务㊁公司治理㊂3㊀结束语基于COCA 语料库,从3个方面对size 和measure 分别进行有关词频,语域和搭配的对比分析:(1)通过检索该组近义词的词频,size 比measure 应用更为频繁㊂(2)通过检索两词的语域,以及size 和measure 在COCA 语料库中的历史发展轨迹,总结出measure 更多地用于杂志㊁报纸和学术领域,而size 可以广泛用于博客㊁小说㊁网站㊁电视电影和口语领域,从而可以看出measure 的使用较size 相比更为正式㊂历史角度的数据显示,size 的使用频率基本没有明显的变化,而measure 的使用频率则有些变化,大体上呈上升趋势㊂(3)通过分析搭配词,可以明显看出两词在使用上的区别,size 更多应用词的原本义,measure 则较多应用词的引申义,修饰抽象词汇㊂参考文献[1]贺晓东.英汉双解英语同义词词典[M ].北京:商务印书馆国际有限公司,2003.[2]方玲,汪兴富.美国当代英语语料库(COCA )的自主学习应用[J ].中国外语,2010,(6):79-84,91.[3]杨惠中.语科库语言学导论[M ].上海:上海外语教育出版社,2002.企业数字化转型分析师盈余预测与资本市场定价效率基于股价同步性的分析王冠青1,3㊀郜攀峰2(1.天津工业大学经济与管理学院,天津300387;2.合肥工业大学管理学院,安徽合肥230009;3.河北冀工胶管有限公司,河北衡水053000)摘㊀要:本文选取2012 2021年沪深两市A 股上市公司为研究对象,基于股价同步性的视角实证检验了分析师盈余预测对资本市场定价效率的影响,并检验了企业数字化转型对两者之间关系的影响㊂研究结果表明,分析师盈余预测质量对资本市场定价效率具有显著的正向影响㊂进一步研究发现,企业数字化转型能够降低分析师盈余预测质量对资本市场定价效率的正向影响㊂上述研究结果在替换主要变量以及使用倾向得分匹配法(PSM )与工具变量法克服内生性问题后依然稳健㊂本文从分析师与数字化转型联动的角度丰富了资本市场定价效率影响因素的相关研究,并为推动企业进行数字化转型升级提供了新的启示㊂关键词:数字化转型;分析师预测;资本市场;信息效率;股价同步性中图分类号:F27㊀㊀㊀㊀㊀文献标识码:A㊀㊀㊀㊀㊀㊀doi:10.19311/ki.1672-3198.2024.10.0190㊀引言资本市场定价效率是指股票价格是否能够对资本市场中的信息作出及时㊁充分㊁准确的反应,主要反映的是资本市场的信息效率㊂资本市场定价效率可以通过股价同步性来体现,股价同步性衡量了个股与市场收益之间的关联性,反映了股票之间的同涨同跌现象,其形成的主要原因在于市场参与者缺乏公司特质信息,导致投资者与公司之间存在信息不对称现象㊂股价同步性具有双重性,即 信息效率 和 非理性噪声 ㊂股价同步性 信息效率 的观点认为,较低的股价同步性主要是由于有更多的公司特质信息有效反映在公司股票价格当中,从而提高资本市场的信息效率与资本的配置效率; 非理性噪声 的观点认为在新兴资本市场中,较低的股价同步性是因为股票价格中包含了更多的 噪声 ,使公司特质信息无法有效反映,从而降低了资本市场的信息效率㊂股价同步性的差异具体表现为公司特质信息还是非理性噪声,目前还没有统一的结论㊂作为资本市场上重要的信息中介,证券分析师在信息传播中扮演着关键角色㊂分析师通过自身信息挖掘㊁信息解读以及盈余预测的专业能力对公司特质信息进行分析,将有价值的公司特质信息传递给资本市场,从而降低投资者与公司之间的信息不对称,对提高资本市场的运行效率和实现社会资源的优化配置起着至关重要的作用㊂但是,也有学者指出分析师作为公司的 外部人 ,无法及时㊁㊃55㊃。

COCA语料库操作演示.ppt教程

COCA语料库操作演示.ppt教程

图2.4.2
规则:在WORDS的方格里分别输入woman和man,再在 COLLOCATES方框里输入[j*],选在左3,表示前面3个跨 距内所有的形容词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.3 搜索近义词 • 如:搜索beautiful的所有近义词(如图2.4.3-1)
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):
图2.3-3
• 2.4 进行语义倾向比较 • 2.4.1 比较近义词 • 如:近义形容词hot和warm后面所跟名词的 区别(如图2.4.1):
图2.4.1
规则:首先选择 COMPARE 显示。然后在WORDS的方格里分 别输入hot和warm,再在COLLOCATES方框里输入[n*],表示 后面所跟任何名词。当然也可以比较在某个子语料库中出 现的频率比较。
ቤተ መጻሕፍቲ ባይዱ
• 2.4.2 比较反义词 • 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.1.4-1
规则:若要得到某个单词的所有单复数和时态形式,那么 就要在输入时,在这个单词外加 [ ]。
图2.1.4-2
形容词early的原形,比较级和最高级三种形式一次性检索出来检索
• 2.1.5 输入某种词性且部分带有某些字母的命令, 如要得到以 un- 开头、 -ed 结尾的所有形容词的所 有 形 式 ( 见 图 2.1.5-1 ) 和 得 到 动 词 + 任 何 词 +ground的所有词组(见图2.1.5-2): • 规则:若要得到某种词性且词中带有部分带有某 些字母的形式时,如要得到以 un- 开头、 -ed 结尾 的所有形容词的所有形式,那么输入: un*ed.[aj*]; 若要得到动词+任何词+ground的所有词组,那么输 入: [vv*]*[ground]即可。前者用来研究词汇,后者 用来查询特定词性的搭配。

基于语料库的check、examine词义辨析

基于语料库的check、examine词义辨析

基于语料库的check、examine词义辨析作者:周欣来源:《文教资料》2019年第02期摘要:近义词辨析是英语学习的重点和难点。

本文主要使用英语国家语料库(BNC)和美国当代英语语料库(COCA)对check, examine, inspect这组近义词进行研究。

采用对比分析方法从词频、搭配、语域这三个角度对check, examine这组近义词进行详细的比较。

关键词: check examine 语料库在第七版《牛津高阶英汉双解词典》第324页,check被定义为“to examine sth. to see if it is correct, safe, or acceptable检查;审查;核查;检验”,如Check the oil and water before setting off. 出发前查看一下油和水。

在第七版《牛津高阶英汉双解词典》第688页,examine被定义为“to look at sth/sb closely to see if there is anything wrong or to find the cause of a problem仔细地检查;检验”,如The goods were examined for damage on arrival.货物到达时检查是否有破损。

从check和examine这两个词的中英文解释可以看出,这两个词意义相近,都有“检查;检验”的意思。

这两个词表面意义看起来很相近,但是观察它们各自使用的语域和搭配词可以很明显地发现之间的区别。

1.相关研究近义词一直是英语学习的难点,利用语料库这个强大的检索工具可以真实地反映词语运用语境,从而为近义词的研究提供一些帮助和依据。

Sinclair提出,任何研究文本的人都需要了解不同的词性在文本中出现的次数,即词频。

Frith指出,从一个词的相伴可知该词。

从词语的搭配,学习者了解词块,把它们作为整体一块记忆。

这个连专业翻译都爱用的在线词典,你一定要试一下!

这个连专业翻译都爱用的在线词典,你一定要试一下!

这个连专业翻译都爱用的在线词典,你一定要试一下!ZSCI中英文的相互转换是当下学生工作中的必备技能,作为科研人,做学术不免要写论文,写论文不免会遇到翻译问题,常规的翻译就是把论文题目、摘要、关键文翻译成英语,那么怎么在海量的词库中,寻找到最精准的那个单词呢?今天介绍的这款COCA英语在线词库,就能完美解决这个问题!一、COCA英语在线词库网址:/coca/COCA英语在线词库是目前最大的免费英语词库,由美国杨百翰大学的Mark Davies教授主持创立并在2008年正式上线,除了强大的文本检索功能之外,由于将语料按照年份进行了细致的划分,使得研究者追溯语言发展中的变迁成为可能,其中它还包含文本小说、口语、杂志、报纸、学术文章等文体。

其时效性很强,一些新词也会收录在内。

可以作为平时词典的补充,把不确定的表达可以放到语料库里查,确认是否地道或者是找到更过的信息。

注意:使用COCA时建议注册一个账号(语库的使用和注册都是免费的),不然会有查询次数限制。

二、重点功能介绍1、确认所用单词是否为地道英语进入官网后,这里是输入查询词的地方,有4种搜索,可供下面用户选择,如下图所示:以“Non-small cell lung cancer”为例做操作流程的讲解,首先点击“List”,然后在搜索框内输入“Non-small cell lung cancer”,再点击“Find matching strings”以下是搜索的结果,我们可以看到系统里有22处的例证,这也说明了“Non-small cell lung cancer”这个表达没有问题。

2、检索词的合理搭配搜索进入网站后点击“List”,本次讲解以“Regulatory mechanism of cell migration”为例(注:此处直接输入仅显示cause本身的搜索结果,检索单词的全部形式,检索时需加[]符号)在搜索框内输入[=cell] migration(这个指令主要是为了搜索“call”的近义词,并且能与 migration搭配)以下为搜索结果,根据结果显示,除了Cell能跟migration完美搭配外,系统也推荐了“group”,点击“group migration”,可以看到COCA将文本分成了不同的语体,我们可以比较在不同状态下,最标准的语体的表达,供用户参考。

COCA语料库操作 演示.ppt知识讲解

COCA语料库操作 演示.ppt知识讲解

图2.4.1
规则:首先选择 COMPARE 显示。然后在WORDS的方格里分 别输入hot和warm,再在COLLOCATES方框里输入[n*],表示 后面所跟任何名词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.2 比较反义词
• 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):
图2.3-3
• 2.4 进行语义倾向比较
• 2.4.1 比较近义词
• 如:近义形容词hot和warm后面所跟名词的 区别(如图2.4.1):
图2.4.3-3
思考:
• 1)如何查询多义词特定的词性的KWIC,如for 作连词或介词等?
• 2)如何查询某个词前/或者后面特定词性的若干 搭配词, 如confidence 前的形容词?
• 3)词性附码应放置在什么位置?
此课件下载可自行编辑修改,仅供参考! 感谢您的支持,我们努力做得更好!谢谢
图2.1.5-1
图2.1.5-2
动词+任何词+ground的所有词组
• 2.2 搜索搭配词和出现的频率 • 如 “thick后跟的名词” (图2.2-1)
图2.2-1
规则:在COLLOCATES里输入[n*] 后选择4,表示 在thick后面(4跨距范围内)出现的任何名词
• 如跟在 “smile前面的形容词” (图2.2-2)
COCA语料库操作 演示.ppt
图1.1 COCA界面简介
1. 显示方式 2. 关键词输入栏

coca分频词汇释义

coca分频词汇释义

COCA(Corpus of Contemporary American English)是一个大型的英语语料库,它包含了大量的美国英语口语和书面语料。

COCA词频词汇是指在这个语料库中被统计出来出现频率较高的词汇。

这些词汇被认为是英语母语者日常交流和阅读中常用的词汇。

由于COCA词频词汇表包含的词汇非常多,这里提供几个示例词汇及其释义:1. justice - n. 公正,公道,正义;司法制度;法律制裁。

例如:"The word justice is usually associated with courts of law."(正义这个词常常同法院联系在一起。

)2. justify - vt. 证明……正当/有理;为辩解。

例如:"You should attempt to justify yourself."(你应该设法证明自己有理。

)3. keep - vt. & vi. 使处于,保持(某种状态);遵守;保守;保留;保管;存放;供养;饲养;经营;记(日记、帐等)。

例如:"Keep calm, especially when you are with other people."(保持镇静,尤其是身边还有其他人的时候。

)4. keep away from -远离。

例如:"In the past, following others was a way to keep away from danger."(在过去,跟随别人是一种远离危险的方法。

)5. keep on -继续进行,继续下去。

例如:"Never keep on exercising if you feel pain."(如果你感到疼痛,就不要继续锻炼。

)这些词汇只是COCA词频词汇表中的一部分。

COCA词汇表根据词汇在语料库中的出现频率进行排序,频率高的词汇代表了英语使用者的常用词汇。

coca语料库操作方法

coca语料库操作方法

coca语料库操作方法如何使用Coca语料库。

第一步:访问Coca网站首先,我们需要打开浏览器,输入Coca的网址(第二步:注册一个账户在Coca的网站上,你需要注册一个账户才能使用它的功能。

点击网站右上角的“Sign up”按钮,填写个人信息并创建一个账户。

注册完成后,你将能够登录并开始使用Coca语料库。

第三步:选择语料库Coca语料库提供了多个语料库供用户选择。

这些语料库涵盖了不同的英语文本类型和语言水平,包括英国英语、美国英语、口语和书面语等。

根据你的需要和研究目的,选择适合的语料库。

第四步:输入查询词一旦你选择了一个语料库,你将被带到一个搜索页面。

在这个页面上,你可以输入你想要查询的单词、短语或句子。

Coca语料库将根据你的查询返回符合条件的语料库中的文本。

第五步:设置查询条件在查询页面上,你还可以设置一些查询条件以获得更准确的结果。

你可以选择搜索范围(比如整个文本、标题或标签)、语言(英语、其他语言)和文本类型(新闻、文学、学术论文等)。

你还可以设置返回结果的数量和排序方式。

第六步:查看查询结果一旦你输入了查询条件并点击搜索按钮,Coca语料库将返回与你输入的词或短语相关的文本。

你可以查看每个文本的摘要、正文以及其他相关信息。

你还可以向下滚动浏览更多的查询结果。

第七步:分析文本一旦你找到了与你研究或分析目的相关的文本,你可以进一步分析它们。

Coca语料库提供了一些工具和功能,帮助用户对文本进行计数,统计和比较。

你可以分析特定词汇的频率、词组的搭配性,以及词汇在不同文本类型中的分布情况等。

第八步:导出结果如果你需要将查询结果导出为文件,Coca语料库也提供了这个功能。

你可以将查询结果导出为文本文件或表格文件,以便进一步处理和分析。

总结:使用Coca语料库可以帮助我们对英语语言进行研究和分析。

通过登录并选择合适的语料库,输入查询词并设置查询条件,我们可以获得与查询相关的文本,并进一步分析和比较它们。

美国当代英语语料库(COCA)使用介绍

美国当代英语语料库(COCA)使用介绍

• 2.3 搜索在子语料库内(或之间)出现的频率 (或比较)(不同语域中的用法)
• 如在Fiction和Newspaper子语料库中passionate 后面可以跟任何名词的词及频率,分别如两图 (2.3-1和2.3-2)。
图2.3-1
图2.3-2
COCA主要功能(三)
• 但是也可以之间对两者子语料库中它们出现频率 的对比,操作:分别选择section 1&2,如下图(图 2.3-3):
POS LIST

verb base=动词原形 verb.INF=动词不定式 verb MODAL=情态动词 verb 3SG=动词第三人称单数 verb ED=过去式 verb EN=过去分词 verb ING=现在分词 verb.LEX=lexical verb实意动词 verb.[BE]=系动词 verb.[DO]=do verb.[HAVE]=have
美国当代英语语料库(COCA)使用说明
/coca
一、COCA语料库简介
• COCA简介
– COCA:美国当代英语语料库(Corpus of Contemporary American English)是由美国杨 伯翰大学(Brigham Young University)的 Mark Davies 教授开发的美国最新当代英语语 料库,是当今世界上最大的英语平衡语料库。
图2.1.2-1
图2.1.2-2
White+名词的短语
规则:输入名词的话用正表达式: [nn*];动词: [v*]; 形容词: [j*]; 副词: [r*];代词:[p*];连词:[c*]……
POS LIST 词性列表
POS LIST
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

在美国当代英语语料库(COCA)如何查词.doc 在美国当代英语语料库(COCA)如何查词摘要:美国当代英语语料库(Corpus of Contemporary American English,COCA)由美国Brigham Young University 的Mark Davies教授开发,目前单词容量在4.5亿,是美国当前最新的当代英语语料库,也是当今世界上最大的英语平衡语料库。

该语料库的语料来自1990-2012年,每年更新,检索功能强大,是最佳的英语学习助手。

本文以sorry为例介绍了如何在美国当代英语语料库中查询单词及对单词sorry的检查与研究结果。

关键词:美国当代英语语料库,平衡语料库,sorryAbstract: The Corpus of Contemporary American English (COCA) is the largest freely-available corpus of English,and the only large and balanced corpus of American English.The corpus was created by Mark avies of Brigham Young University,and it is used by tens of thousands of sers every month (linguists,teachers,translators,and other searchers).COCA is also related to other large corpora that we have created.The corpus contains more than 450 million words of text and isqually divided among spoken,fiction,popular magazines,newspapers,and academic texts.It includes 20 million words each year from 1990-2012.Key words: the Corpus of Contemporary American English,parallel corpus,sorry中图分类号:H319.3文献标识码:A文章编号:1006-026X(2013)12-0000-02一、引论美国当代英语语料库(Corpus of Contemporary American English,COCA)由美国Brigham Young University 的Mark Davies教授开发,目前单词容量在4.5亿以上,是美国当前最新的当代英语语料库,也是当今世界上最大的英语平衡语料库,且与其他所建语料库相连。

访问者可利用COCA查询单词,短语,通配符,词形,词性,或任何以上的结合。

帮助访问者对比词在不同类型,如口语,小说,杂志或报纸中的用法,或对比从1990年至今的该词的用法。

每个月COCA的访问量都在好几万,其中有语言学家,教师,翻译,也有其他研究人员和英语学习者。

与其他语料库需要注册或付费使用所不同的是,它是免费在线供大家使用,且每年更新,最新更新于2012年夏季。

涵盖了1990-2012年的口语、小说、流行杂志报纸和学术期刊五大类型的语料,是观察及研究美国当代英语使用变化的一个良好平台。

二、关于COCA的界面及使用COCA的查询界面由四部分组成:基本显示区,显示语料库名称和语料库容量;显示及查询条件界定区,查询结果数据显示区和例句显示区。

下面以sorry为例,对其使用做详细阐述。

使用COCA查单词:直接在显示及查询条件界定区的查询栏中输入所要查询的单词sorry,其他项忽略,点击search即在查询结果数据显示区得到下面(图表一)的查询结果:此表表明COCA中所有关于sorry的词条总数为40036条。

再在上图的sorry上点击一下,将在例句显示区得出100个有关sorry的例句,且显示例句的来源,如是选自杂志还是报纸,名称(即杂志或报纸的名字)和年份(语料库默认从当前向1990年排列),每页例句显示为100条。

但这样笼统的查询并不能具体直观的显示sorry的用法。

在其他项忽略的情况下,将显示方式(display)选为图表显示(chart),则得到下图的显示结果:(图表二)此图左半部分表明sorry一词在COCA五大类型语料中的使用频率,在小说中的使用频率最高,其次为口语中,在杂志、报纸和学术刊物中甚少使用;右半部分是从1990至2012年每五年的使用情况,图中显示sorry的使用变化差别不大。

分别点击各个单项可在例句显示区得到五大语料类型下的sorry的例句,其中普遍看到的有以下四种情况:1.sorry与系动词构成 be sorry的句子单独使用;2.sorry单独成句;3.sorry后搭配to;4.sorry后接for;以上结果只是用户的推断,对sorry前后的具体搭配并不清楚。

如果想要弄清sorry经常前后与何种词搭配频率高,则可以在显示方式(display)中选择KWIC(前后文关键字)。

在其他项忽略的情况下,系统的sorting and limits 项将自动变更为display/sort项,且display默认为按字母排列(Alphabetical),排序(sort)项默认为L。

-。

R,-表示关键字,L表示排序关键字左边三个词,R表示排序关键字右边三个词。

点击查询,则得出的结果与上面用户的推断有很大的出入:例句显示区中的例句中关键字sorry左右三个词都出现了颜色标示,通过颜色标示可清楚的看出与sorry 经常构成的搭配的单词中,按频率由高往低排列: 1.sorry与系动词构成be sorry 的句子;2.sorry后接for;3.sorry后接to;4.sorry state of;5.sorry that…;由上图看出该词在学术期刊上的使用频率最低,所以应尽可能避免在学术期刊中该词的使用。

在显示及查询条件界定区中的字符串查询区(search string)有最后称之为random的一项,在语料库中这是用来随机查询浏览新词的。

在显示及查询条件界定区中的语料库分类区(sections),若点击选择则可看到所查单词在五大语料中各分区的使用频率及年代排列;若默认则显示的是所查单词在语料库中总的使用情况。

Section中有两个内容相同的部分,但其功能是不一样的。

此区可对所查询的字符串限定语料类型和时段,并可以明确到查询某一个子语料库,时段也可以查询任何一年的某个字词的使用情况。

可以在点选了一个语料库后按住CTRL键继续选择多个语料库或时段,另外在CHART显示结果后,可在查询结果显示区点击SEE ALL SECTIONS也可以看到所查询的字符串在每个子语料库和每年中的细节信息。

选择显示方式(display)为图表显示(CHART),Section 1选择口语(Spoken),Section 2也选择相应项则sorting and limits 项自动变更为按相关排列(Relevance),最低出现频率(minimum)为10.得到下图结果(图表三): 从此图中可以看出,sorry的词频为12260,每百万词频是128.27,右半部分是在每个年代分布中的使用情况;Sorting and Limits这一项中,可选择查询结果的排序方式,系统默认为按字符串总词频排列,即最频繁使用的最先显示。

也可以选择按相关度。

若点击查询结果排列方式区(Click to see options),可看到Group by(按词形排列)、Display(显示方式)、Save Lists(存储结果)和#HITS(最多显示条数)。

其中Group by中有五小项:LEMMAS、WORDS、NONE、BOTH WORDS和BOTH LEMMAS,默认为WORDS.由于本文查询的是单个词sorry,且sorry只有一个词性,因此这一项并没有起作用。

BOTH WORDS和BOTH LEMMAS 可以查询到词的多重搭配,在比较同义词时效果明显。

Display(显示方式)包括以下四项:RAW FREQ(字符串总词频)、PER/ML(每百万词频)、RAW FREQ+(总词频和每百万词频)和PER/ML+(每百万词频和总词频)。

表示查询结果在查询结果数据显示区的显示方式,图表二中的上两项分别就是总词频和每百万词频的查询结果,且五个语料类型的查询结果是分开显示的。

用存储结果区(SAVE LISTS)可以将查询结果存入自己的列表,做多显示条数(#HITS)的默认值是100,可修改的最大值为1000.若想知道sorry这个形容词都与那些名词搭配时,在查询栏中输入sorry.[n*],collates中输入[n*],默认数字选择5,则得到下图(图表四): 前五项即为与本词经常搭配的名词词语。

三、结论通过以上查询和说明,表明美国当代英语语料库(COCA)词量丰富。

功能强大,对于英语语言学习者是不可多得的研究和学习助手。

它不仅可以做简单的单词查询,还可以对关键字进行查询,并对各年代段的单词使用频率做直观的图表显示。

参考文献:[1]Davies,Mark.The Advantage of using relational databases forlarge corpora: speed,advanced queries,and unlimitedannotation.International Journal of Corpus Linguistics,2005,10[2]Davies,Mark.Semantically-based queries with a jointBNC/WordNet base.In Corpus Linguistics Twenty-five years on,ed Roberta Facchinetti Amsterdam: Rodopi,2007。

相关文档
最新文档