常用在线语料库使用简介
专业的语料库利用技巧
专业的语料库利用技巧语料库(Corpus)是指收集而成的大规模文本数据库,其中包含了各种语言的实际语言数据。
语料库是语言学研究、自然语言处理以及其他相关领域的重要资源。
在现代信息时代,语料库的利用技巧对于深入理解语言以及提高语言能力至关重要。
本文将介绍一些专业的语料库利用技巧,帮助读者更好地利用语料库进行学习与研究。
一、选择适合的语料库语料库有很多种类,包括通用语料库、专业领域语料库以及特定语言的语料库等。
在利用语料库之前,确保选择适合自己需求的语料库非常重要。
比如,如果你是英语学习者,可以选择通用的英语语料库,如British National Corpus(BNC)或者Corpus of Contemporary American English(COCA)。
如果你是专业翻译或者研究某一领域的学者,可以选择相关专业领域的语料库,如生物医学语料库或金融领域语料库。
二、设定查询限定条件在利用语料库进行查询时,设定合适的查询限定条件可以提高查询的准确性。
比如,设定查询单词的所在位置、所属文本类型、词性等条件,可以帮助你找到更精准的语料示例。
另外,一些语料库还提供强大的高级查询功能,如模糊搜索、正则表达式和语法查询等,这些技巧可以帮助你更好地操纵语料库,找到所需数据。
三、分析语料示例对于查询得到的语料示例,要进行仔细的分析和解读。
首先,注意上下文,观察单词的用法和搭配情况。
其次,关注词组、短语或句式的使用,这些都是丰富自己语言表达的重要资源。
同时,注意语境中的语法结构、语气和修辞手法等,这些都有助于提升自己的语言能力。
四、比较语料示例利用语料库进行比较分析,可以深入探究语言的变化和差异。
比如,可以比较不同时间段、不同地域或不同语言之间的语料示例,找出共同点和差异。
这种比较分析有助于揭示语言的演变规律和文化差异,对于学术研究和翻译工作都非常有价值。
五、利用频率统计语料库可以提供单词、短语、句式等的频率统计数据,帮助我们了解语言的使用规律和常用表达方式。
语料库方法
语料库方法
语料库是一种用于自然语言处理的重要工具,它可以帮助我们更好地理解语言。
语料库是一种由大量文本组成的数据库,它可以帮助我们更好地理解语言,从而更好地分析和处理文本。
语料库的主要功能是收集和存储大量文本,以便进行语言分析和处理。
它可以
收集各种文本,包括新闻、小说、报纸、网络文章等,并将其存储在一个数据库中。
语料库还可以收集和存储语言的语法、词汇、句法等信息,以便进行语言分析和处理。
语料库的应用非常广泛,它可以用于机器翻译、自然语言处理、语音识别、文
本挖掘等领域。
它可以帮助我们更好地理解语言,从而更好地分析和处理文本。
此外,语料库还可以用于语言学研究,帮助我们更好地理解语言的结构和特征。
总之,语料库是一种重要的工具,它可以帮助我们更好地理解语言,从而更好
地分析和处理文本。
它的应用非常广泛,可以用于机器翻译、自然语言处理、语音识别、文本挖掘等领域,也可以用于语言学研究,帮助我们更好地理解语言的结构和特征。
专业的语料库应用技巧
专业的语料库应用技巧语料库是指收集和存储大量真实语言文本的数据库,这些文本可以用来进行语言学研究、语言教学以及自然语言处理等方面的工作。
在当今信息爆炸的时代,语料库的应用变得越来越重要。
本文将介绍一些专业的语料库应用技巧,帮助读者更好地利用语料库。
一、语言学研究语料库在语言学研究中有着广泛的应用。
研究人员可以通过语料库收集大规模的语言数据,分析其中的语言现象,从而对语言规律进行深入研究。
比如,研究人员可以通过语料库来研究某一语言的词汇使用频率、词义变化、语法特点等。
此外,语料库还可以帮助研究人员找到真实语言中的典型例子,验证自己的研究假设。
二、语言教学语料库在语言教学中也有着重要的应用。
通过利用语料库,教师可以为学生提供大量真实语言文本,让学生通过观察和分析,深入了解语言的使用。
学生可以通过语料库了解词汇的用法、短语和句型的搭配,从而提高自己的语言表达能力。
此外,语料库还可以帮助教师设计教学材料,制定教学计划。
三、自然语言处理语料库在自然语言处理领域也具有重要意义。
自然语言处理是研究如何使计算机能够理解和处理人类语言的学科。
语料库中的大量文本可以作为训练数据,用于开发和评估自然语言处理系统。
比如,通过语料库可以训练机器翻译系统、文本分类系统、信息抽取系统等。
语料库还可以帮助改善问答系统、机器人对话系统等人机交互系统。
四、语料库的构建构建一个优质的语料库是语料库应用的基础。
首先,语料库的收集需要广泛而有代表性,涵盖各类语言和语体。
其次,语料库的标注也非常重要,可以通过手工标注或自动标注的方式,对语料库中的各种语言信息进行注释。
再次,语料库需要定期更新和维护,以保证其数据的新鲜和可靠性。
最后,语料库的存储和检索功能也需要得到合理的设计和实现,方便用户的使用和查询。
五、语料库查询工具为了更好地利用语料库,我们需要了解一些有效的查询工具。
常见的查询工具有AntConc、Sketch Engine、CLAWS等。
语料检索使用
语料检索使用一、简介语料检索是指在大量的语料库中,通过关键词、短语或其他搜索条件,快速准确地找到所需的信息。
它是自然语言处理领域中的一个重要应用,广泛应用于信息检索、机器翻译、文本分类等方面。
二、语料库1. 什么是语料库?语料库是指大量的自然语言文本集合,包括书籍、新闻文章、电影剧本等。
这些文本被数字化并存储在计算机中,可以被用于各种自然语言处理任务。
2. 语料库的分类根据不同的分类标准,可以将语料库分为不同的类型。
按照来源可以分为网络语料库和实验室制作的语料库;按照文体可以分为新闻、小说、科技等不同类型的文本;按照规模可以分为小型和大型语料库等。
3. 常见的语料库常见的英文语料库包括Brown Corpus、Penn Treebank等;中文则有人民日报数据集、SIGHAN Bakeoff数据集等。
三、检索技术1. 关键词检索关键词检索是最常见也是最简单的一种检索方式。
用户输入一个或多个关键词,系统返回与这些关键词相关的文本。
这种方式适用于短文本或者用户已经明确知道自己需要什么样的信息。
2. 短语检索短语检索是指用户输入一个或多个短语,系统返回包含这些短语的文本。
与关键词检索相比,短语检索更加精准,但也更加局限。
3. 布尔检索布尔检索是指通过逻辑运算符(AND、OR、NOT)将多个关键词或短语组合起来进行检索。
这种方式可以实现更加复杂的查询需求,但需要用户具备一定的逻辑思维能力。
4. 自然语言查询自然语言查询是指用户直接使用自然语言进行查询。
这种方式最为直观和易用,但也需要系统具备较高的自然语言理解能力。
四、应用场景1. 信息检索信息检索是最常见的应用场景之一。
例如,在搜索引擎中输入关键词进行搜索时,就是一种基于语料库的信息检索。
2. 机器翻译机器翻译需要大量的平行句对作为训练数据,而这些数据往往来自于大规模的双语语料库。
因此,在机器翻译中使用语料库进行检索是非常重要的。
3. 文本分类文本分类是指将大量的文本按照一定的标准进行分类。
美国当代英语语料库COCA使用介绍
图2.1.1-2
使用CHART显示
美国当代英语语料库COCA使用介 绍
图2.1.1-3
例句显示区使用的是KWIC显示
美国当代英语语料库COCA使用介 绍
KWIC显示方式
美国当代英语语料库COCA使用介 绍
KWIC显示方式
• 蓝色——名词 • 紫色——动词 • 绿色——形容词 • 棕色——副词 • 灰色——代词 • 黄色——介词
美国当代英语语料库COCA使用介 绍
COCA语料库简介
COCA简介
– COCA美国当代英语语料库涵盖美国这一时期 的口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的语料库,并且在这五个类 型方面基本呈均匀平衡分布。
➢主要包括三大功能区:
➢ Ⅰ 显示及查询条件界定区,包括:显示方式区, 字串查询区,语料库分类区,查询结果排列方式 区。
➢ Ⅱ 查询结果数据显示区 ➢ Ⅲ 例句显示区
美国当代英语语料库COCA使用介 绍
COCA界面简介
美国当代英语语料库COCA使用介 绍
COCA界面简介
• 显示方式区:
• 1.LIST——列表显示 • 2.CHART——图表显示,可以显示在各语料库类型中的使
美国当代英语语料库(COCA)使用说明
美国当代英语语料库COCA使用介 绍
美国当代英语语料库COCA使用介 绍
一、COCA语料库简介
• COCA简介
– COCA:美国当代英语语料库(Corpus of Contemporary American English)是由美国杨 伯翰大学(Brigham Young University)的 Mark Davies 教授开发的美国最新当代英语语 料库,是当今世界上最大的英语平衡语料库。
现代汉语语料库词语频率表
现代汉语语料库词语频率表摘要:一、现代汉语语料库简介二、词语频率表的重要性三、如何运用词语频率表提升写作水平四、实例分析与应用正文:现代汉语语料库是语言学研究的重要工具,它收集、整理和分析了大量的现代汉语原始文本,为语言学家、文学家、教育工作者等提供了丰富的研究资源。
其中,词语频率表是现代汉语语料库的一个核心组成部分,它统计和展示了各类词汇在现代汉语中的使用频率。
本文将从词语频率表的重要性、如何运用词语频率表提升写作水平以及实例分析与应用三个方面进行阐述。
首先,词语频率表的重要性不言而喻。
它可以帮助我们了解现代汉语中哪些词汇使用频率较高,哪些词汇使用频率较低,从而在写作过程中更加注重选用常用词汇,提高文章的通俗易懂程度。
此外,词语频率表还可以反映出一个时代的语言特点和变迁,为语言学研究和教学提供有力支持。
其次,如何运用词语频率表提升写作水平呢?首先,我们要关注高频词汇。
高频词汇往往是现代汉语中的基本词汇,具有较强的表达力和通用性。
在写作时,可以适当增加这些词汇的使用频率,使文章更具可读性。
其次,适当使用低频词汇。
低频词汇可以丰富文章的表达形式,增加语言的生动性。
但在使用低频词汇时,要注意语境的搭配,避免造成阅读障碍。
最后,避免使用过于口语化的词汇。
过于口语化的词汇虽然能够拉近与读者的距离,但过多使用会导致文章的质量下降。
最后,我们通过实例分析来展示如何运用词语频率表提升写作水平。
假设我们要撰写一篇关于环保的文章,首先可以使用词语频率表查找环保相关的高频词汇和低频词汇。
在文章中,我们可以这样使用:1.高频词汇:环保、保护、环境、资源、生态、可持续发展。
2.低频词汇:生物多样性、气候变化、生态足迹、碳中和、绿色出行。
3.避免使用过于口语化的词汇:例如,“垃圾分分类,大家一起来”可以改为“垃圾分类,共建美好家园”。
通过以上实例,我们可以看出,运用词语频率表有助于提高写作水平,使文章更具可读性和实用性。
多语种在线语料库检索平台使用简明手册
)
大学
教授创建的 系列语料库检索界面(
)。类似的
在线语料库检索系统还有
、、
、
等。而当前主
流的语料库工具属于第三代,其中以
、
和
等为代表。
第四代语料库工具,将语料库与分析工具合二为一,越来越受到普通用户的青睐。在线
语料库工具通常将语料库文本按特定格式建成索引( ),存储在服务器上。用户检索响
应速度要远高于三代软件在本地电脑上的检索速度。其操作也较三代语料库软件简便得多。
之间的距离)
出现次数
检索词、中心词、节点词
查询结果每页显示的行数
查询、检索
限定条件查询
直译:在 个不同文本中返回
个匹
配项
意译:在 个文本中查到
例子
查询结果按中心词排序
简单查询(不区分大小写)
词语相关查询
附录 :复杂检索举例(查询时,选择
)
单词检索:
、
、
词码混合检索:
、
、
、
、
近义词批量检索:
、
北外语料库语言学团队网站:
表 :查询结果后续操作分项功能表
新查询,返回语料库检索首页
查询结果随询结果排序设定
搭配计算
下载保存查询结果
键,即可
(随机取样),比如,可从 万行结果中,随机抽取 行。
(频数分解)表示在进行复杂查询时,对命中的不同词项分别计
算频数。比如,查询
时,会按这 个词
结果;
( )计算特定词语在语料库中的典型搭配(
);
( )计算语料库中的核心关键词(
),等。
1
、
使用实例
标准查询模式
在简单查询模式(
语料库功能架构
语料库功能架构
语料库是存储和管理大量文本数据的地方,为语言和文本处
理任务提供支持和参考。
它是自然语言处理(NLP)和机器学
习的重要组成部分,用于训练模型、构建字典和词汇表、语义
分析等。
1.数据收集和整理:语料库的第一步就是收集和整理数据。
数据收集可以通过网络爬虫、API接口等方式进行;而数据整
理则包括数据清洗、去除噪声和冗余等步骤,确保数据的质量
和准确性。
2.数据存储和管理:语料库需要一个可靠、高效的存储系统
来管理大量的文本数据。
常见的存储方式包括关系型数据库、NoSQL数据库、文件系统等。
同时,语料库管理系统需要提供方便的数据检索和查询功能,以便用户可以按照自己的需求获
取所需的文本数据。
3.数据标注和注释:为了方便后续的语言处理任务和模型训练,语料库需要进行数据标注和注释。
标注可以包括实体标注、词性标注、句法结构标注等,注释可以包括语义解析、情感分
析等。
标注和注释的目的是为了帮助机器理解文本中的信息和
结构。
4.数据预处理和特征提取:在语料库中进行数据预处理和特
征提取是为了构建模型所需的特征表示。
预处理可以包括分词、去除停用词、词干提取等步骤,用于简化文本并减少特征空间。
特征提取则是将文本转化为计算机可以理解和处理的数值表示,例如词袋模型、TFIDF等。
5.语料库分析和挖掘:语料库可以用于进行文本分析和挖掘,以发现其中的规律和模式。
常见的分析任务包括文本分类、情
感分析、主题建模、实体识别等。
这些任务可以提供对文本数
据的深入理解和洞察,支持决策和应用开发。
最新常用在线语料库使用简介PPT课件
字串查询区
图5-1
COCA
5. COCA界面简介(图5-1)
语料库分类区
图5-1
COCA
5. COCA界面简介(图5-1)
y在线语料库在初中英语教学中的运用
0在教学中的作用
01 语料库的定义与发展
定义:语料库是通过在随机采样的基础上收集人们 实际使用的、有代表性的真实语言材料而创建起来 的语言资料库。(刘满堂,2004)
语料库的发展
1
手工语料库 时期
2
第一代电子 语料库时期
3
第二代电子语 料库时期
02 语料库在教学中的直接作用
01
在线大型语料库BYU-BNC
02 在线语料库CQPweb 03 在线COCA语料库
在线大型语料库BYU-BNC
/bnc/
1.Lsit
01 一个词语的各种形式,如输入“SWIM”,可以显示SWIM的各种
变化形式
02 包含某个或某些字母的单词,如输入“*ir*”,可以显示包含
字母“ir”的单词
03 某个形容词所能修饰的名词,如输入“each NOUN”,可以显示
each所能修饰的名词
04 同义词检索,如输入“=complete”,可以显示complete的同义词
05 同语义场词语检索,如输入“@body_n”,可以显示body相关的
名词
2.Chart
think
谢谢收看谢,谢请多倾指听点 11020228@qq.cToHmANK YOU FOR YOUR ATTENTION
/teliss
4 发展趋势
语料库与语言教学
Leech 指出, 教学与语料库研究之间显然已经形成一种相互结合、学科共进的局 面。他认为这种结合有三个重点:一是语料库间接用于教学(如工具参考书的出版、 教材开发和语言测试等);二是语料库直接用于教学(如“教语料库语言学”、 “教如何利用语料库”以及“用语料库来教”);三是面向教学的语料库建设(如 专门用途语言语料库、学习者语料库)。(G .Leech,1997)
y在线语料库在初中英语教学中的运用
Think在口语中的分布情况就呈现出来了。由此学生可以知道,think一词主要用在口语当中,书面较少使用。且经常以I think的形式出现。
我们还可以进行同语义场词语检索,如的输入形式要注意下。输入之后,我们可以看到与身体有关的所有单词。
这就是List的5个小功能。接下来我们看Search下的Chart功能。Chart的功能是以直观图的形式呈现这个单词在不同体裁中的检索结果,包括口语、小说、期刊、报纸、非学术、学术和其它共7种体裁。
出现了如图所示的页面。这个是按照搭配强度排列的,on排在第一位。
单击on,我们可以查看on这个单词的统计数据。我们直接看下面部分。这边的距离-3表示这个在effect左边的第三个位置,1表示在右边的第一个位置,我们看到1占的比例是最高的。说明与effect搭配的on通常在右边第一个位置。我们点击这个1,出现以下页面。
这个语料库在刚开始使用时使不需要注册的,但是在使用10次左右之后,需要注册,但是依旧是免费的。
下面我们来看下另一个在线语料库,CQPweb。这个语料库是由英国兰卡斯特大学研发的,是一个在线语料库检索平台,该平台有许多语料库,功能强大,检索方法简单易学。这是它的网址,我们在搜索引擎中打开,看到了如下页面。这个语料库的使用需要注册,但注册方法比较简单。我们看到,这个在线语料库检索平台包含许多语料库,今天我们就以American English 2006这个语料库为例。我们点击它,出现以下页面,默认为标准检索。
常用在线语料库使用简介分析
频数
图2.1-2
BNC
2.2 其他可下载的BNC产品
➢ BNC XML edition:BNC全库 ➢ BNC Baby:BNC子库,包含小说、新闻、科技、口语四
类文本各100万词 ➢ BNC sampler:BNC 子库,包含书面语、口语两类文本
各100万词 ➢ 注:以上语料库采用XML格式,需使用XAIRA软件检索
➢ 输入“feature”(图6.1.1-1)
图6.1.1-1
COCA
6.1.1 检索某一词形
➢ 在搜索结果区可得到“feature”的频数 (图6.1.1-2 ) ➢ 点击该词,可在例句显示区看到含有“feature”的词
条(图6.1.1-3)
图6.1.1-2
图6.1.1-3
COCA
6.1.1 检索某一词形
图5.3-1
COCA
5.3 语料库分类区
➢ 42个子语料库 (图5.3-2)
图5.3-2
COCA
5.3 语料库分类区
➢ 42个子语料库 (图5.3-3)
图5.3-3
COCA
5.4 查询结果排列方式区
➢ Sort by:检索结果的排列方式,可按频率、关联度、 或字母顺序排列,一般默认按频率排列 (图5.4-1)
➢ 在显示方式区选择KWIC 并再次点击search, 可得含有“feature”的词语 索引(图6.1.1-4)
Sketch Engine: 在线语料库管理及检索工具,可有 效总结词汇的语法及搭配行为。
BNC
1. BNC官网主界面(图1-1)
基本信息及 功能介绍区
简单搜索区 进入简单搜索功能介绍
图1-1
BNC
2. BNC在线检索功能介绍 2.1 BNC simple search
常用语料库软件的应用
Brown/LOB:分层抽样,大小一致;分层抽样如文学中小说占35%, 散文占8%,戏剧占2%。2nd generation corpora: The Corpus di
Italiano Scritto
BNC:大小不一(max:40,000 words);25%/75%(lit./inf.)
基本检索 以Antconc为例实施检索。基本检索包含token检索和 wild card检索,检索前先要熟悉语料的存储方式。
高级检索 Antconc中的单语高级检索:正则表达式检索,使用正
则表达式的term list检索。
双语语料检索:基本检索和高 级检索
Paraconc中的双语高级检索:正则 表达式检索
2.结合注释疏通文义,了解文本内容,掌握文本写作思路。
correlation; keyness 微型教学语料库的创建和使用 翻译课堂教学用双语语料的制作和应用
语料库的基本特征-1
Computer-readable: txt, xml, html, doc, pdf Consistency:
his mother; his mother; his\nmother Annotation:
抽样字数及分配
语料取样计算
语料文本的基本处理:主要处理方式-1
语料的最常用存储方式是纯文本,纯文本顾名思义就是 只有文字,不支持任何其他字符格式,如粗体、斜体、 下划线、表格框,等等。语料以这种方式存储占用空间 极小,且几乎所有检索软件都支持。
将语料以这种方式存储只是检索的操作,更重要的是让 存储的文本内容规范,格式尽量一致,而且没有乱码, 不必要的空格和软回车、硬回车,等等文本噪音。要做 到这些,就需要对语料进行按部就班的处理。使用 Microsoft Word可以对文本进行处理。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
字串查询区
图5-1
COCA
5. COCA界面简介(图5-1)
语料库分类区
图5-1
COCA
5. COCA界面简介(图5-1)
查询结果排列 方式区
图5-1
COCA
5. COCA界面简介(图5-1)
查询结果数据显示区
图5-1
COCA
5. COCA界面简介(图5-1)
例句显示区/帮助信息显示区
图5-1
结果如图6.5-2
图6.5-1
图6.5-2
COCA
7. 新增功能 7.1 Words and Phrases (图7.1-1)
/
图7.1-1
COCA
7. 新增功能 7.1 Words and Phrases 7.1.1 Frequency List (图7.1.1-1)
COCA语料库规模大,涵盖美国1990-2012年间
口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的文本 使用界面友好,检索速度快 时效性强,不断更新功能
COCA
5. COCA界面简介 三大功能区:
图6.1.1-4
COCA
6.1.2 检索某一词性的单词
输入“feature.[v*]”,可得到“feature”做动词时的使
用情况 (图6.1.2-1) “.”表示feature不与其后的字符串组成短语 “[v*]”代表所有形式的动词 点击POS LIST后的问号,可了解具体词性代码
在搜索结果区可得到“feature”的频数 (图6.1.1-2 )
点击该词,可在例句显示区看到含有“feature”的词条
(图6.1.1-3)
图6.1.1-2
图6.1.1-3
COCA
6.1.1 检索某一词形
在显示方式区选择KWIC
并再次点击search, 可得含有“feature”的词语 索引(图6.1.1-4)
输入任意文本,可获得该文本中的高频学术词汇或短语。
图7.1-2
COCA
7. 新增功能 7.1 Words and Phrases 7.1.2 Analyze texts(图7.1-2)
图7.1-2
图7.1-2
COCA
7. 新增功能 7.2 Academic Vocabulary Lists
/ 可免费下载学术词汇词表
BNC
3. 其他BNC检索界面(如图3-1)
图3-1
COCA
4. COCA简介
由美国杨伯翰大学(Brigham Young University)的
Mark Davies 教授开发,是大型语料库资源平台 /的一部分。如图4-1
图4-1
COCA
4. COCA简介
个人语料库,如图8-2
图8-2
Sketch Engine
8. Sketch Engine 简介
主要功能
Sketch:呈现所检索词项在语法结构下 所搭配的高频词汇 Thesaurus:提供同义或近义词 Sketch-Diff:呈现近义词之间的搭配差异
图5.4-1
图5.4-2
COCA
5.5 查询结果数据显示区
以列表形式呈现结果 (图5.5-1)
图5.5-1
COCA
5.5 查询结果数据显示区
以图表形式呈现结果 (图5.5-2)源自图5.5-2COCA
5.6 例句显示区
默认例句显示方式 (图5.6-1)
图5.6-1
COCA
5.6 例句显示区
COCA
5.1 显示方式区(DISPALY) (图5.1-1)
LIST——列表显示 CHART——图表显示,可以显示在各语料库类型中的使用频
率和各时间段内的使用情况。 KWIC——Key word in context,例句以词语索引的形式呈现 COMPARE——单词比较显示,比较两个不同词或短语的搭 配情况。
输入任意词,可获得该词在COCA词表中的排位、频率、
搭配词、词语索引、近义词等信息。如图7.1.1-2
图7.1.1-1
COCA
7. 新增功能 7.1 Words and Phrases 7.1.1 Frequency List
频数
释义
近义词 各字库频数 词语索引
图7.1.1-2
COCA
7. 新增功能 7.1 Words and Phrases 7.1.2 Analyze texts(图7.1-2)
——以BNC、COCA和Sketch Engine 为例
One-word Introduction
英国国家语料库(British National Corpus/BNC): 库
容1亿词的现代英式英语样本集合,文本来源广泛,其 中书面语占90%,口语占10%。 美国当代英语语料库((Corpus of Contemporary American English/COCA): 库容为4.5亿词的大型平 衡语料库,含有多个字库,具有多种检索功能,可免 费在线使用。 Sketch Engine: 在线语料库管理及检索工具,可有效 总结词汇的语法及搭配行为。
图2.1-2
BNC
2.2 其他可下载的BNC产品
BNC XML edition:BNC全库 BNC Baby:BNC子库,包含小说、新闻、科技、口语
四类文本各100万词 BNC sampler:BNC 子库,包含书面语、口语两类文本 各100万词 注:以上语料库采用XML格式,需使用XAIRA软件检索
Ⅰ 显示及查询条件界定区,包括:显示方式区,
字串查询区,语料库分类区,查询结果排列方 式区。 Ⅱ 查询结果数据显示区 Ⅲ 例句显示区
COCA
5. COCA界面简介(图5-1)
/coca/
显示方式区
图5-1
COCA
5. COCA界面简介(图5-1)
图6.1.2-1
COCA
6.1.3 检索短语
输入“white [n*]”(图6.1.3-1)
可得所有white修饰的名词短语 (图6.1.3-2)
图6.1.3-1
图6.1.3-2
COCA
6.1.4 检索lemma
输入“[suggest]”(图6.1.4-1)
可得suggest所有词形的使用 情况(图6.1.4-2)
图6.3-1
COCA
6.3 对比某词项在两个子库中的频数 两子库中suggest的搭配词显著不同,频数也相差很多
图6.3-2
COCA
6.4 进行语义趋向比较
对比generate和create语义趋向 在显示方式区选择COMPARE,WORD(S)后输入
[generate]和[create],COLLOCATES后输入[n*],如图 6.4-1,结果如图6.4-2
图5.1-1
COCA
5.2字串查询区(图5.2-1)
WORDS:输入字符串 COLLOCATES:搭配词限定
POS LIST:搭配词词性限定
图5.2-1
COCA
5.3 语料库分类区
此区共包括42个子语料库,可以对查询的字符串限定语
料类型(Genre)和时段(Year) ,并可明确限定某一个子语 料库,或某一年某个字词的使用情况。(图5.3-1)
点击conditions可进一步观察prevail的语境 (图6.2-3) 通过观察例句,我们发现与prevail共现的conditions常
有消极意义的词修饰,例如harsh, precarious, daunting, severe, colder and drier, dangerous等 点击其中一条例句,可查extended context: Relatively peaceful conditions existed when the survey was conducted in April 1999. Very different conditions prevail three and a half years later. If similar findings are observed under these dissimilar conditions, confidence in their accuracy and generalizability will increase.
图6.1.4-1
图6.1.4-2
COCA
6.1.5 使用通配符检索
“*”代表任意数量的字符
“?”代表一个任意字符 输入un*ly和r?n*,结果如图6.1.5-1, 6.1.5-2
图6.1.5-1
COCA
6.1.5 使用通配符检索
图 6.1.5-2
COCA
6.2 检索搭配词
如需检索prevail前的名词,可在WORD(S)里输入
“[prevail]”,COLLOCATES里输入[n*],右边跨距设 为0, 如图6.2-1
图6.2-1
COCA
6.2 检索搭配词
prevail左侧高频搭配名词如下(图6.2-2) 由高频搭配词可知,prevail常与表示“条件,环境”,
或者“制度,观点”的词搭配
图6.2-2
COCA
6.2 检索搭配词
BNC
2.1 BNC simple search
可通过点击图2.1-1中的链接了解检索语言和词性标注代码
检索语言说明
词性标注代码
图2.1-1
BNC
2.1 BNC simple search
随机生成50条结果,不以索引形式排列。例如检索
“feature=VVB”,检索结果如图2.1-2