BNC和COCA语料库
基于语料库BNC和COCA对SORRY的对比研究_丁玲玲
156青年文学家·语言研究基于语料库BNC和COCA对SORRY的对比研究丁玲玲 西安电子科技大学人文学院 陕西 西安 710071TOTBNC 10766COCA 40036图一:sorry 的频数对比摘 要:本文使用英国国家语料库BNC(The British NationalCorpus)和当代美国英语语料库COCA(Corpus of ContemporaryAmerican English)对sorry 进行对比研究。
目的是说明这两种语料库之间的异同点以及加深语言学习者对于sorry 的认识。
关键词:BNC ;COCA ;sorry ;对比研究[中图分类号]:H061 [文献标识码]:A[文章编号]:1002-2139(2013)-13-156-01一、前言现在国内运用BNC 、中国学习者英语语料库CLEC 以及中国大学学习者英语口语语料库COLSEC 进行对比研究的较多,但是运用BNC 与COCA 来进行英式英语与美式英语对比的研究还较少。
本文将以sorry 为例在这方面做一尝试。
二、使用工具——BNC 和 COCA本文用到的语料库有英国国家语料库(BNC ),美国当代英语语料库(COCA )。
本文会依次对sorry 上述两个语料库中进行检索,比较得出的结果,并进行阐释说明。
BNC :英国国家语料库是目前世界上最具代表性的当代英语语料库之一,是目前网络可直接使用的最大的语料库,其中书面语语料库9千余万词,口语语料库1千余万词。
COCA :美国当代英语语料库,是由美国Brigham Young University 的Mark Davies 教授开发的高达3.6亿词汇的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。
与其他语料库不同的是它是免费在线供大家使用,是不可多得的一个英语学习宝库。
三、研究问题本文的研究将从以下几个方面展开:(一)sorry 在BNC 与COCA 里面的总频数对比;(二)sorry 在BNC 与COCA 里面的搭配 a)左右搭配情况的对比(取前一百个例子分析),b)sorry 在KWIC 中搭配频率最高的单词统计对比;(三)sorry 在BNC 和COCA 里面出现场合情况对比;四、研究结果与分析(一)sorry 在BNC 与COCA 里面的总频数对比首先我们将SORRY 放入BNC 语料库与COCA 语料库分别进行检索,发现SORRY 在BNC 中一共出现了10766次,而在COCA 中却出现了40036次(如图一所示)。
可以免费使用的大型英语语料库资源
英语语料库#参考2012-03-02 22:29:26■BNC=The British National Corpus英国国家语料库/(备用)/bnc/■ANC = The American National Corpus美国国家语料库/■COCA = Corpus of Contemporary American English 美国当代英语语料库/■COHA = Corpus of Historical American English 美国近当代英语语料库/coha/■BOE=Bank of English 柯林斯英语语料库/wordbanks/■NMC=New Model Corpus 新规范语料库/■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库/auth/preloaded_corpus/aclarc/ske/first_form■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库/auth/preloaded_corpus/bawe2/ske/first_form/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库/fac/soc/celte/research/base/■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库/■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库/cmsw/Slang/ (American, English, and Urban slang)/slang/ (UK)//cybereng/slang///可以免费使用的大型英语语料库资源常用语料库资源链接汇集(语料天涯)/time/http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯)http://202.204.128.82/sweccl/Corpus//netprints/Corporalink/Corporalink.htm1. BNC-World Simple Search ☆☆☆/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context.2. Brown, LOB, BNC sampler ☆☆☆Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora.English: /concordance/WWWConcappE.htmEnglish: http://www.lextutor.ca/concordancers/concord_e.htmlParallel: /concordance/paralleltexts/3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆/Corpus/CorpusSearch.aspxThe Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text.4. New BNC interface - VIEW: ☆☆☆☆☆/5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆The Brown Corpus and many others - native, learner... Go tohttp://www.lextutor.ca/concordancers/concord_e.html6. MICASE ☆☆☆☆/m/micase/There are currently 152 transcripts (totaling 1,848,364 words) available at the site.7. CLEC online concordancing ☆☆☆☆/corpus/EngSearchEngine.aspxCLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
专业的语料库建设理论
专业的语料库建设理论语料库是指用于语言学研究的大型文本数据库,它包含大量实际使用的自然语言文本,如书籍、报纸、杂志、互联网文本、对话录音等等。
语料库建设理论旨在有效地选择、组织和分析语料库,以便满足研究者的需求。
本文将介绍一些专业的语料库建设理论。
1. 语料库选择选择合适的语料库是语料库建设的首要任务。
语料库的规模和内容应该与研究目的相匹配。
通常,大型综合性语料库可以满足大多数研究项目的需求。
研究者可以选择已经存在的现成语料库,如COCA (Corpus of Contemporary American English)、BNC(British National Corpus)等,也可以根据自己的需要创建新的语料库。
2. 语料库组织语料库的组织需要考虑多种因素。
首先,语料库应该包含各种不同类型的文本,以反映真实的语言使用情况。
其次,语料库应该具有丰富的标注信息,如词性标注、句法分析、语义标记等,以便进行更深入的语言分析。
最后,语料库还应该具备良好的可访问性和可搜索性,以便研究者能够方便地检索和提取需要的语言样本。
3. 语料库分析语料库的分析是语料库建设的核心内容。
研究者可以利用语料库中的样本进行语言学的定量和定性分析。
定量分析可以通过统计方法计算出语言现象的频率、分布和变异等信息,帮助研究者揭示语言规律和趋势。
定性分析则可以通过人工观察和解释来深入理解特定的语言现象,如语言变体、修辞手法等。
4. 语料库应用语料库的应用范围广泛。
首先,语料库在语言学研究中扮演着重要角色,帮助研究者进行语言规律的发现和验证。
其次,语料库也被广泛应用于语言教学和学习中。
教师可以利用语料库的真实语言样本来帮助学生理解和掌握语言的实际用法。
另外,语料库还可以用于机器翻译、语音识别、自然语言处理等领域,为相关技术的发展提供重要的数据支持。
总结:专业的语料库建设理论包括语料库选择、语料库组织、语料库分析和语料库应用四个方面。
美国当代英语语料库(COCA)使用介绍要点
COCA语料库简介
COCA简介
– COCA美国当代英语语料库涵盖美国这一时期 的口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的语料库,并且在这五个类 型方面基本呈均匀平衡分布。
– 网址:/coca
• 例1. 输入单词“mysterious” (图2.1.1-1):得 到相关结果(图2.1.1-2):在各子库中的频率,每 百万词使用的频率。
• 若对图2中的相应条块进行点击,那么就可以看到 KWIC,如图2.1.1-3 (以点Fiction的条块为例):
图2.1.1-1
图2.1.1-2
使用CHART显示
POS LIST
det.GEN 类指限定词 det.POS 物主限定词 num.CARD 基数词 num.ORD 序数词 conj.CRD 并列连词 conj.SUB 从属连词 Interj. 叹词 PUNC 标点
词性列表的使用
• 1)查询多义词特定的词性 • 2)某个词前或者后面特定词性的若干搭配
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
二、COCA主要搜索功能
• 2.1 搜索words、phrases、lemmas(单 词的所有形式)、wildcards(通配符)和 其他更加复杂的字词。
POS LIST
pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
常用的英语语料库
常用的英语语料库有以下几个:
英国国家语料库(BNC):是目前世界上非常有代表性的当代英语语料库之一,收录了1亿字的电子资源,涉及口语和书面英语。
美国当代英语语料库(COCA):是目前最大的免费英语语料库,包含5.2亿词的文本,由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。
密歇根大学学术口语语料库(MICASE):专注于学术口语,收集了大量学术讨论和讲座的语音转录。
密西根高阶学生论文语料库(MICUSP):主要收录高年级学生的论文,对于研究学术写作风格和习惯很有帮助。
台湾清大自然语言处理语料库(Linggle):结合大数据分析,提供了丰富的语料和语言统计信息。
这些语料库各具特色,可以根据具体的研究需求选择合适的语料库。
coca等级词汇
coca等级词汇摘要:一、引言1.介绍COCA 等级词汇的背景和作用2.阐述COCA 等级词汇对于学习者的重要性二、COCA 等级词汇的概述1.COCA 的定义和来源2.COCA 等级词汇的分类和特点三、COCA 等级词汇的应用1.在英语学习中的作用2.如何有效地利用COCA 等级词汇提高英语水平四、COCA 等级词汇与其他词汇体系的比较1.GSL (General Service List)2.BNC (British National Corpus)五、结论1.总结COCA 等级词汇的重要性2.鼓励学习者积极利用COCA 等级词汇提高英语能力正文:一、引言COCA(The Corpus of Contemporary American English)等级词汇是英语学习者提高英语能力的重要工具。
COCA 等级词汇不仅可以帮助学习者掌握英语中最常用的词汇,还能让学习者了解词汇的难度和重要性,从而更好地进行英语学习。
二、COCA 等级词汇的概述COCA 等级词汇是基于COCA 语料库(The Corpus of Contemporary American English)进行的研究成果。
COCA 语料库包含了大量美国英语的文本,包括书籍、报纸、杂志、网络文章等,共约5.2 亿词。
通过对这些语料库的分析,研究人员将词汇按照其在英语中的使用频率和重要性进行分类,形成了COCA 等级词汇。
COCA 等级词汇共分为十个等级,从最常用的Level 1 词汇到较为生僻的Level 10 词汇。
每个等级的词汇都有其特定的使用场景和重要性。
例如,Level 1 词汇是英语中最常用的词汇,学习者需要熟练掌握这些词汇;而Level 10 词汇虽然在日常生活中使用频率较低,但对于学习特定领域(如科技、医学等)的专业知识具有重要意义。
三、COCA 等级词汇的应用COCA 等级词汇在英语学习中具有广泛的应用。
学习者可以通过掌握不同等级的词汇,提高自己的英语水平。
杨百翰大学BNC语料库使用说明
• 2.4.2 比较反义词 • 如:woman和man前面所跟的形容词的区
别(如图2.4.2)
图2.4.2
规则:在words的方格里分别输入woman和man,再在context方 框里输入[aj*],选在左3,表示前面3个跨距内所有的形容词。当然 也可以比较在某个子语料库中出现的频率比较。
• 以上方法同样可以用于检索代表当代美国 的语料库 /, 以及以不同年代的TIME做成的历史语料库
/
• 2.1.5 输入某种词性且部分带有某些字母的命令, 如要得到以un-开头、-ed结尾的所有形容词的所 有 形 式 ( 见 图 2.1.5-1 ) 和 得 到 动 词 + 任 何 词 +ground的所有词组(见图2.1.5-2):
• 规则:若要得到某种词性且词中带有部分带有某 些字母的形式时,如要得到以un-开头、-ed结尾 的所有形容词的所有形式,那么输入: un*ed.[aj*]; 若要得到动词+任何词+ground的所有词组,那么输 入: [vv*]*[ground]即可。前者用来研究词汇,后者 用来查询特定词性的搭配。
• 2.4.3 搜索近义词 • 如:搜索beautiful的所有近义词(如图
2.4.3-1)
规则:在words的方格里输入[=beautiful],表示和beautiful语义相 近的所有形容词。
• 再如:搜索动词clean的所有近义词,如下 图:
图2.4.3-2
• 当然可以进一步搜索与clean语义相近的动 词+the+名词的词组,[[=clean]].[v*] the [n*] 如下图:
基于COCA、BNC语料库的近义词辨析r——以raise和rise为例
基于COCA、BNC语料库的近义词辨析r——以raise和rise为例姜敏;黄蕾【摘要】随着语料库语言学的发展和各种语料库的建立,基于语料库的行为描述法在语言学研究和教学方面被公认为是一种科学有效的方法.正确运用英语词汇,尤其是近义词,是英语学习的重点和难点.基于美国当代语料库(COCA)、英国国家语料库(BNC),分别从语域、类连接和搭配三个方面对近义动词raise和rise进行辨析,使英语学习者运用语料库更好地掌握近义词.【期刊名称】《长春教育学院学报》【年(卷),期】2018(034)006【总页数】4页(P39-41,46)【关键词】COCA;BNC;语域;类连接;搭配;近义词【作者】姜敏;黄蕾【作者单位】成都理工大学外国语学院,四川成都610059;成都理工大学外国语学院,四川成都610059【正文语种】中文【中图分类】H313词汇是英语学习的基础。
据统计,英语中同义词、近义词的数量约占总词汇量的60%(贺晓东,2003)。
由此看出,英语近义词数量庞大,是英语学习重中之重,掌握好近义词辨析,就能更好地学习英语。
现代语料库的出现为研究同义词区别及应用提供了新的途径。
语料库收集语料范围广泛、规模较大,再现该语言在母语人群中真实自然的使用情况,为英语学习者提供更加直观、可靠的语境,以便更好地辨析近义词。
以往的学者大多采用单一语料库研究近义词辨析,采用两个及以上语料库的比较少见。
笔者在前人研究的基础上,基于COCA和BNC两个语料库对raise和rise进行辨析,探讨这两个词在语域、类连接和搭配上的差异,希望对今后的英语教学有所启示。
一、研究设计(一)研究工具美国当代英语语料库(COCA)由杨百翰大学Mark Davies教授开发,是当今世界最大的美国英语平衡语料库。
迄今其规模已超过5.6亿词汇,收集从1990年至2017年期间美国境内口语、小说、杂志、报纸及学术期刊五大领域的语料。
同时也是一款在线免费的语料库。
基于语料库辨析英语单词
基于语料库辨析英语单词近义词辨析,一直以来都是英语学习中的重点和难点。
本文以bean和pea的用法为例,通过检索它们在大型语料库COCA和BNC中的使用情况,来分析它们的区别和实际使用方法,并借此来阐明语料库检索工具对于近义词辨析尤其是在英美两国单词的近义词使用情况上分别所起的重要作用。
本文利用在线COCA和BNC对bean与pea进行辨析,发现这两个词在使用频率、单词搭配等方面都有明显的区别,对学生掌握近义词的区别和用法有很大帮助。
研究背景英语中的近义词很多,区分近义词对于英语学习者来说有一定难度。
一般来说,英语学习者都是根据自己的经验或已获得的知识进行辨别区分的,偶尔能借助工具书进行辨析或者从词汇的感情色彩、语体修辞、固定搭配等角度进行区分。
但是,由于缺乏大量地道的语料输入,有时候学习者的所谓的“语感”往往是错误的,即便是工具书也不能及时对很多新出现的语言现象或者词汇搭配做出及时修订。
而现代科技的发展以及计算机的应用,为英语近义词的辨析提供了新的手段和方法。
基于语料库的近义词辨析弥补了传统近义词辨析方法的一些不足,利用语料库的检索功能,通过语境,可以得到更加直观、更加真实的分析结果。
笔者发现Mr. Bean (憨豆先生)和Black Eyed Peas(黑眼豆豆)中这两个“豆”的不同表达方式,并以bean和pea为例,通过利用COCA和BNC两个语料库,探讨英美两国对bean和pea用法的区别。
文中的BNC是British National Corpus的缩写,一般译为“英国国家语料库”。
它是由英国多家知名出版社、牛津大学计算机服务中心?p兰卡斯特大学英语计算机中心及大英图书馆等联合开发建立的大型语料库,用以呈现20世纪后期以来的英式英语。
该语料库包含书面语和口语,单词容量超过1亿。
文中的COCA是Corpus of Contemporary American English的缩写,一般译为“美国当代英语语料库”。
语言学常用语料库
语言学常用语料库
以下是一些语言学常用的语料库:
- Brown语料库:这是一个基于英语的语料库,包含了1961年至1979年间推广的1,000,000个单词的样本,覆盖了各种文体和题材。
- COCA(Corpus of Contemporary American English):这是一
个覆盖美国当代英语的语料库,包含了1990年至今的一亿多
个单词样本。
- BNC(British National Corpus):这是一个覆盖英国英语的
语料库,包含了1980年代至1993年间的一亿个单词样本。
- CHILDES(Child Language Data Exchange System):这是一
个收集婴儿和儿童语言数据的数据库,用于研究儿童语言发展。
- Penn Treebank:这是一个标注了句法和语义信息的英语语料库,用于自然语言处理研究。
- EuroParl语料库:这是一个包含欧洲议会会议记录的多语言
语料库,可以用于研究多语言对比和机器翻译。
- COrE(Corpus of English):这是一个以英语为基础的多样
化语料库,包含了来自不同国家和地区的语言样本,用于研究语言变体和语言接触。
- WALS(World Atlas of Language Structures):这是一个收集了世界各地不同语言结构的数据库,可以用于跨语言比较和语言学理论研究。
这些语料库可以通过在线平台或特定的研究机构访问和获取。
使用语料库可以帮助语言学家进行语言研究、语言分析和理论构建。
免费的英语语料库汇总
免费的英语语料库汇总Some are not corpora, but (I think) they are corpus-related. The list is incomplete and just let me know if I omit any corpora.1. The best corporaCOCA:/BNC-BYU:/bnc/TIME-BYU:/time/JustTheWord:http://193.133.140.102/JustTheWord/index.html BNCweb:/bncwebSignup/user/login.php Jukuu(句酷):/ for learnersLeeds: /internet.htmlLextutor: http://www.lextutor.ca/Web Concordancer: 2. General CorporaJiaoda(上海交大): /WebCast/click on “guest”Brown/lob Corpus: http://www.lextutor.ca/concordancers/concord_e.html Corpuseye: http://corp.hum.sdu.dk/cqp.en.htmlCorpus swb : /cgi-bin/?&corpus=swb BNC: //lookup.ht mlBank of English: /Corpus/CorpusSearch.aspx ANC: /OANC/index.htmlICE Corpora /english-usage/i...load/index.htm3. English-Chinese Parellel Corpora(英汉双语语料库)CEO:/ceo/Babel:.sg/cgi-bin/babel/paraconc.plThe Dream Of Red Chamber(红楼梦): .sg/hlm/index.htmHK Poly U(香港理工大学):.hk/Co...ts/default.htmLaozi(老子): .sg/laozi/index.htmXiamen U(厦门大学): /ec-corpus/query.asp 4. Textbook CorporaCollege English:/corpora/COLEN.rarNew Horizon College English(NHCE):New Concept English:/oechw/hanyu/da...e/framconc.aspFamily Album USA:/oechw/hanyu/da...m/framconc.asp5. Business and Financial CorporaBusiness English Corpus (BEC): http://users.utu.fi/micnel/BEC/PolyU BusinessCorpus: .hk/en...ng=1&corpus=30Business Letter Corpus: /concordancer Financial Corpus: .hk/hkfsc/6. Literary CorporaThe Online Corpus of Old English Poetry(OCOEP):http://www.oepoetry.ca/Shakespeare's SonnetsCorpus: /ecorpus/sonnets/framconc.aspBlues Lyric Poetry Corpus: / (search Catalog). Canadian Poets Anthology Corpus: / (search Catalog). CAPA (contemporary American PoetryArchive): /Claremont Corpus of Elizabethan Verse: / (search Catalog)Late Modern English Prose Corpus: / (search Catalog) New Dragon Book of Verse Corpus : / (search Catalog).Northwest Coast Indian mythology Corpus: / (search Catalog).Online Classics Horror and PhantasyFiction: http://home.swipnet.se/~w-60478/SETIS Australian Literary and HistoricalTexts: .au/ozlit/Corpus of Middle English Prose andVerse: /c/cme/Harry Potter Corpus:/oechw/hanyu/da...r/framconc.aspTowneley Plays Corpus: / (search Catalog)Web Concordances Site: /english/wics/wics.htm York Miracle Play Cycle Corpus: / (search Catalog) ME Texts Anthology Corpus: / (search Catalog) 7. Web As CorpusWeb As Corpus :/searchwac.htmWeb Corp: /WebCONC: http://www.niederlandistik.fu-berlin...=en&art=google8. Learner CorporaChinese Learners of English(中国英语学习者): /corpus/EngSearchEngine.aspxCorpus of Hungarian students' essays:/2008/06...subcorpus.htmlThe Multimedia Adult English Learner Corpus:/maelc_access.htmlThe Uppsala Student English Corpus (USE):Dowloadable data at /headers/2457.xml Michigan Corpus of Upper-level StudentPapers: /eli/eli1/micusp/Contact.htmIWILL Corpus: /project/bncrce/default.htm Wordneighbours:t.hk/PICLE Corpus:.pl/~kprzemek/conc...h_adv_new.html EV A Corpus:http://kh.hd.uib.no/eva/PolyU Language Bank Concordancer:.hk/en...ng=1&corpus=16The Montclair Electronic Language Learners' Database under construction)/linguistics/MELD/Singapore Corpus of Research in Education:.sg/score/index.htmBirkbeck Spelling Error Corpus: / (search Catalog) Open Mind Commonsense Corpus: / Corpus for Higher Education:.hk/en...ng=1&corpus=11National Taiwan Normal University Corpora:.tw/English/search/Default.htm.tw/English/search/tag.htm.tw/English/search/tag2.htmhttp://140.122.83.246/cwb/http://140.122.83.246/cwb2/ELISA corpus: http://www.uni-tuebingen.de/elisa/html/elisa_index.html VLC: .hk/9. News CorporaReuters Corpus: /researchandstandards/corpus/ arpers Magazine 1879-1880 Corpus: / (search Catalog).Hong Kong South China Morning PostCorpus: / (search Catalog)New York Newspaper Advertisements and News Items1777-1779: /VOA Special EnglishCorpus: /voa/sentences.htmVOA Special English audio and textcorpus: /voanews.html.American News Stories Corpus: / (search Catalog). MPQA Opinion Corpus: /mpqa/databaserelease/。
语言翻译必备:国内外23个语料库推荐
语言翻译必备:国内外23个语料库推荐语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。
下面推荐一些优质的语料库资源。
国内语料库资源1. 国家语委现代汉语语料库 现代汉语通用平衡语料库现在重新开放网络查询了。
重开后的在线检索速度更快,功能更强,同时提供检索结果下载。
现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。
2. 国家语委古代汉语语料库 网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。
同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。
3. 北京大学“《人民日报》标注语料库”4. 北大语料库——北京大学中国语言学研究中心 北大语料库由“现代汉语语料库”、“古代汉语语料库”、“汉英双语语料库”三个语料库组成。
其中,北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。
正在此基础上做汉英对照短语库,预计规模将达数十万条。
(汉英双语语料库目前仅对北大校内用户开放)5. 北京语言大学高翻学院的“高翻记忆库”6. 清华大学汉语均衡语料库TH-ACorpus7. 中央研究院“现代汉语平衡语料库” 专门针对语言分析而设计的,每个文句都依词断开,并标示词类。
语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。
现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。
8. 中央研究院“近代汉语标记语料库”9. 中央研究院汉籍电子文献(瀚典全文检索系统) 包含整部25史整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。
英语语料库及词频表介绍
英语语料库及词频表介绍
英语语料库是收集英语书面和口语等各类英文表述方式的语言材料集合,涵盖了英语词汇的各个方面。
其中,目前主流的有三个语料库,分别是GBC(Google Book's Corpus)、BNC(British National Corpus)和COCA(Corpus of Contemporary American English)。
COCA(Corpus of Contemporary American English)是由美国伯翰大学(Brigham Young University)的Mark Davies教授开发的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。
它涵盖了美国这一时期的口语、小说、流行杂志、报纸和学术期刊五大类型的语料库,并且这五个方面基本上成均匀平衡分布。
COCA词频表基于COCA的5亿单词语料库,利用算法提取出来最高的前5000和20000的高频词,并注释了搭配,解决了单词最实际的实用问题。
如需更多关于英语语料库及词频表的信息,建议咨询英语专业人士或查阅相关文献资料。
美国当代英语语料库(COCA)使用介绍
/coca
一、COCA语料库简介
• COCA简介
– COCA:美国当代英语语料库(Corpus of Contemporary American English)是由美国杨 伯翰大学(Brigham Young University)的 Mark Davies 教授开发的美国最新当代英语语 料库,是当今世界上最大的英语平衡语料库。
COCA主要功能(一)
• 例 3. 输入通配符 (wildcards) ,如分别输入 un*ly 和r?n*,结果如图。
? 代替一个字母 * 代替任意数量字母
EXAMPLE 3
EXAMPLE 3
COCA主要搜索功能
• 例 4. 输入 lemmas (即一个单词的单复数、时态等 所有形式),若要得到 sing 这个单词的所有形式, 可以如下图所示。
图2.1.1-3
例句显示区使用的是KWIC显示
KWIC显示方式
KWIC显示方式
• • • • • •
蓝色——名词 紫色——动词 绿色——形容词 棕色——副词 灰色——代词 黄色——介词
COCA主要搜索功能
• 例2. 输入词组 “white+名词” (图2.1.2-1),得到 的结果都是white 后面跟的名词短语 (图2.1.2-2),检索 表达式为:white [n*]。
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
二、COC(单 词的所有形式)、wildcards(通配符)和 其他更加复杂的字词。
COCA界面简介
COCA界面简介
BNC和COCA语料库
Un开头 ly结尾的词
R开头中间有 N的词
4. 输入 lemma (即一个单词的单复数、时态等所 有形式)以sing为例
规则:若要得到某个单词的所有单复数和时态形式,那 么就要在输入时,在这个单词外加 [ ]。
形容词early的原型,比较级和最高级三种形式一次性检索出 来检索
5.若要得到某种词性且词中部分带有某些字母的形 式时,如要得到以un-开头、-ed结尾的所有形容 词的所有形式,那么输入: un*ed.[aj*]
2.词组(形容名词” 得到的结果都是 white后面跟的名词 短语 检索表达式为: white [n*]
规则:输入名词的话用正 确表达式: [n*];动词: [v*]; 形容词: [aj*]; 副词: [av*]……
White+名词的短语
3. 输入un*ly和r?n*,
/
杨百翰大学BNC语料库使用方法说明
/bnc
BYU-BNC界面简介
1.单词 mysterious 为例
使用LIST显示
使用CHART显示
使用KWIC(key words in the context)显示方式
规则:在words的方格里分别输入hot和warm,再在collocates方框里输入[n*], 表示后面所跟任何名词。
11.搜索搭配词以及出现的频率 如:thick后跟的名词
规则:在context里输入[nn*] 后选择4,表示在thick后面(4跨距范围内)出现的任何 名词
we want to say
翻译是一个循序渐进的过程。需要积累,需要 耐心,需要不断挖掘知识的方方面面 。 语料库为我们做翻译带来了便利。希望我们能充 分利用各种有利条件,不断提升自己的翻译水平 与能力。 希望我们在岑老师的带领下,把翻译做好,把自 己今后的翻译之路规划好。
常用在线语料库使用简介分析
频数
图2.1-2
BNC
2.2 其他可下载的BNC产品
➢ BNC XML edition:BNC全库 ➢ BNC Baby:BNC子库,包含小说、新闻、科技、口语四
类文本各100万词 ➢ BNC sampler:BNC 子库,包含书面语、口语两类文本
各100万词 ➢ 注:以上语料库采用XML格式,需使用XAIRA软件检索
➢ 输入“feature”(图6.1.1-1)
图6.1.1-1
COCA
6.1.1 检索某一词形
➢ 在搜索结果区可得到“feature”的频数 (图6.1.1-2 ) ➢ 点击该词,可在例句显示区看到含有“feature”的词
条(图6.1.1-3)
图6.1.1-2
图6.1.1-3
COCA
6.1.1 检索某一词形
图5.3-1
COCA
5.3 语料库分类区
➢ 42个子语料库 (图5.3-2)
图5.3-2
COCA
5.3 语料库分类区
➢ 42个子语料库 (图5.3-3)
图5.3-3
COCA
5.4 查询结果排列方式区
➢ Sort by:检索结果的排列方式,可按频率、关联度、 或字母顺序排列,一般默认按频率排列 (图5.4-1)
➢ 在显示方式区选择KWIC 并再次点击search, 可得含有“feature”的词语 索引(图6.1.1-4)
Sketch Engine: 在线语料库管理及检索工具,可有 效总结词汇的语法及搭配行为。
BNC
1. BNC官网主界面(图1-1)
基本信息及 功能介绍区
简单搜索区 进入简单搜索功能介绍
图1-1
BNC
2. BNC在线检索功能介绍 2.1 BNC simple search
美国当代英语语料库(COCA)使用介绍
• 2.4.3 搜索近义词 • 如:搜索beautiful的所有近义词(如图 2.4.3-1)
规则:在words的方格里输入[=beautiful],表示和beautiful语 义相近的所有形容词。
• 再如:搜索动词clean的所有近义词,如下 图:
图2.4.3-2
Question
• Application和increase能否作主谓搭配?
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
二、COCA主要搜索功能
• 2.1 搜索words、phrases、lemmas(单 词的所有形式)、wildcards(通配符)和 其他更加复杂的字词。
规则: 若要得到某种词性且词中带有部分带有某些字母的形 式时,如要得到以 un- 开头、 -ed 结尾的所有形容词的所有形 式,那么输入: un*ed.[j*]; 若要得到动词 + 任何词 +ground 的所有词组 , 那么输入 : [v*]*[ground]即可。 前者用来研究词汇,后者用来查询特定词性的搭配。
COCA主要功能(一)
• 例 3. 输入通配符 (wildcards) ,如分别输入 un*ly 和r?n*,结果如图。
? 代替一个字母 * 代替任意数量字母
EXAMPLE 3
EXAMPLE 3
COCA主要搜索功能
• 例 4. 输入 lemmas (即一个单词的单复数、时态等 所有形式),若要得到 sing 这个单词的所有形式, 可以如下图所示。
EXAMPLE 4
规则:若要得到某个单词的所有单复数和时态形式,那么 就要在输入时,在这个单词外加 [ ]。
基于BNC和COCA两大语料库探析动名词搭配 ——以三个典型搭配为例
基于BNC和COCA两大语料库探析动名词搭配——以三个
典型搭配为例
余涵彬
【期刊名称】《今天》
【年(卷),期】2022()14
【摘要】词汇是一门语言的基础,在词汇学习中尤其要注意词语搭配。
参考 CLEC 语料库中学习者出现的一些言语失误,基于 BNC 和 COCA 两大英美语料库中真实的语料来探索英语词汇中的动名词搭配,一方面可以帮助非本族语者鉴别地道和非地道的表达,另一方面也可以凸显词汇搭配的重要性,进而为探索相应的教学策略提供启发。
【总页数】2页(P0071-0072)
【作者】余涵彬
【作者单位】武汉文理学院
【正文语种】中文
【中图分类】C
【相关文献】
1.基于BNC语料库的语义搭配及其翻译研究--以size为例
2.基于BNC语料库分析英语同义词搭配特征——以able和capable为例
3.基于COCA语料库的英语近义词名词搭配及语域辨析——以delay和postpone为例
4.基于Sketch Engine在线BNC语料库的英语近义词搭配辨析——以affect和influence为例
5.基于Sketch Engine在线BNC语料库的英语近义词搭配辨析——以affect和influence为例
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
周雪清 李杏
BNC
BNC特点
COCA
杨百翰大学(Brigham Young University)语料库 英国国家语料库BNC /bnc 当代美国的语料库COCA / 不同年代的TIME做成的历史语料库Time Corpus of American English
6.若要得到动词+任何词+ground的所有词组,那么输入: [vv*]*[ground]即可。
动词+任何词+ground的所有词组
7.搜索近义词 如:搜索beautiful的所有近义词
规则:在words的方格里输入[=beautiful],表示和beautiful语义相 近的所有形容词。
Un开头 ly结尾的词源自R开头中间有 N的词
4. 输入 lemma (即一个单词的单复数、时态等所 有形式)以sing为例
规则:若要得到某个单词的所有单复数和时态形式,那 么就要在输入时,在这个单词外加 [ ]。
形容词early的原型,比较级和最高级三种形式一次性检索出 来检索
5.若要得到某种词性且词中部分带有某些字母的形 式时,如要得到以un-开头、-ed结尾的所有形容 词的所有形式,那么输入: un*ed.[aj*]
/
杨百翰大学BNC语料库使用方法说明
/bnc
BYU-BNC界面简介
1.单词 mysterious 为例
使用LIST显示
使用CHART显示
使用KWIC(key words in the context)显示方式
翻译是一个循序渐进的过程。需要积累,需要 耐心,需要不断挖掘知识的方方面面 。 语料库为我们做翻译带来了便利。希望我们能充 分利用各种有利条件,不断提升自己的翻译水平 与能力。 希望我们在岑老师的带领下,把翻译做好,把自 己今后的翻译之路规划好。
再如:搜索动词clean的所有近义词,如下图:
8.比较反义词 如:woman和man前面所跟的形容词的区别)
规则:在words的方格里分别输入woman和man,再在 collocates方框里输入[aj*],选在左3,表示前面3个跨距内所有的 形容词。
9.比较近义词 近义形容词hot和warm后面所跟名词的区别
规则:在words的方格里分别输入hot和warm,再在collocates方框里输入[n*], 表示后面所跟任何名词。
11.搜索搭配词以及出现的频率 如:thick后跟的名词
规则:在context里输入[nn*] 后选择4,表示在thick后面(4跨距范围内)出现的任何 名词
we want to say
2.词组(形容词+名词)
输入词组“white+ 名词” 得到的结果都是 white后面跟的名词 短语 检索表达式为: white [n*]
规则:输入名词的话用正 确表达式: [n*];动词: [v*]; 形容词: [aj*]; 副词: [av*]……
White+名词的短语
3. 输入un*ly和r?n*,