常用在线语料库使用简介分析解析

合集下载

专业的语料库分析方法

专业的语料库分析方法

专业的语料库分析方法语料库是语言学和计算语言学中非常重要的研究资源,它是一种大规模的语言数据集合,通过对其中的文本进行分析,可以揭示语言使用的规律和特点。

本文将介绍一些专业的语料库分析方法,以帮助读者更好地理解和利用语料库进行研究。

一、语料库获取与构建语料库的获取是进行语料库分析的第一步。

目前,常见的方式包括手动构建语料库和利用自然语言处理技术从互联网上抓取文本数据。

手动构建语料库需要多人合作,通过收集、整理和标注文本数据,构建一个具有代表性的语料库。

这种方式对数据质量要求较高,但可以获得更加精细和专业的语言资源。

另一种方式是利用自然语言处理技术从互联网上抓取文本数据构建语料库。

这种方式可以获取大规模的文本数据,但需要对数据进行清洗和预处理,以确保数据的准确性和一致性。

二、语料库标注与注释语料库中的文本数据需要进行标注和注释,以便后续的分析和研究。

常见的语料库标注方法包括词性标注、句法分析、命名实体识别等。

词性标注是将每个单词与其所属的词性进行对应,句法分析则是分析句子的结构和成分。

命名实体识别可以识别出文本中的人名、地名、机构名等实体。

通过标注和注释,可以使语料库的数据更加有结构和可利用,为后续的分析提供基础。

三、语料库查询与分析语料库的查询和分析是通过提出特定的问题或假设,从语料库中获取相关的语言数据,并进行统计分析和语言学研究。

常见的语料库查询方法包括关键词查询、语境查询和词汇共现分析。

关键词查询可以指定一个或多个关键词,从语料库中检索包含这些关键词的文本。

语境查询则可以指定一个词的上下文环境,寻找与该词相关的语言现象。

词汇共现分析可以通过统计某个词与其他词之间的共现频率,揭示词汇之间的语义关系。

通过语料库查询和分析,可以得出一些关于语言使用规律和特点的结论,为语言研究和自然语言处理技术的发展提供依据。

四、语料库分析的应用领域语料库分析方法在多个领域具有广泛的应用。

下面简单介绍几个主要的应用领域:1. 语言学研究:语料库分析为语言学提供了大量真实的语言数据,可以揭示不同语言现象的规律和特点,如词汇使用频率、句法结构、语义关系等。

专业的语料库与语言数据分析

专业的语料库与语言数据分析

专业的语料库与语言数据分析语料库和语言数据分析是现代语言学和计算机科学领域中的重要研究方向。

语料库是指收集和组织大规模语言数据的存储库,通过语料库可以获取真实的语言使用情况,从而进行精确的语言分析和研究。

本文将介绍专业的语料库与语言数据分析的基本概念、应用领域以及研究方法。

一、语料库的概念与分类语料库是语言研究中的重要资源,它可以包含不同形式的语言数据,如书面文本、口语对话、网页内容等。

根据收集和组织方式的不同,语料库可以分为自建语料库和现成语料库两种。

自建语料库是研究人员通过特定的采集方法和技术自行构建的语料库,收集对象可以是特定领域的文本或特定人群的口语对话。

现成语料库则是基于已有的语言数据进行整理和分类构建的语料库,常用的现成语料库包括英语语料库、汉语语料库等。

二、语言数据分析的应用领域语言数据分析可以在多个领域中得到应用。

首先,在语言学领域中,语料库可以提供真实的语言使用数据,用于研究语言的规律、变体和演化等问题。

其次,在教育学领域中,语料库可以用于语言教学和学习资源的开发,帮助学习者更好地理解和掌握语言知识。

此外,在社会学和心理学领域中,语言数据分析可以用于分析社会和个体的语言使用习惯、偏好和行为等。

三、专业的语料库与语言数据分析方法专业的语料库与语言数据分析需要借助计算机科学的方法和工具进行处理和分析。

常用的语料库与语言数据分析方法包括语言统计分析、语义分析和文本挖掘等。

语言统计分析是使用统计学方法对语料库中的语言数据进行分析。

通过计算词频、词组搭配、句法结构等指标,研究人员可以了解语言的词汇使用规律、语法结构和语义关系等。

语义分析是研究语言中词义和句义的方法。

通过对语料库中的词语和句子进行语义分析,可以揭示词汇的语义关系、词义变化和句法结构等问题。

文本挖掘是从大规模文本数据中挖掘出有价值的信息和知识的方法。

通过对语料库进行文本挖掘,可以发现隐藏的规律、模式和趋势等,从而为科研、商业决策和社会分析等提供有力支持。

现代汉语语料库词语频率表

现代汉语语料库词语频率表

现代汉语语料库词语频率表摘要:一、现代汉语语料库简介二、词语频率表的重要性三、如何运用词语频率表提升写作水平四、实例分析与应用正文:现代汉语语料库是语言学研究的重要工具,它收集、整理和分析了大量的现代汉语原始文本,为语言学家、文学家、教育工作者等提供了丰富的研究资源。

其中,词语频率表是现代汉语语料库的一个核心组成部分,它统计和展示了各类词汇在现代汉语中的使用频率。

本文将从词语频率表的重要性、如何运用词语频率表提升写作水平以及实例分析与应用三个方面进行阐述。

首先,词语频率表的重要性不言而喻。

它可以帮助我们了解现代汉语中哪些词汇使用频率较高,哪些词汇使用频率较低,从而在写作过程中更加注重选用常用词汇,提高文章的通俗易懂程度。

此外,词语频率表还可以反映出一个时代的语言特点和变迁,为语言学研究和教学提供有力支持。

其次,如何运用词语频率表提升写作水平呢?首先,我们要关注高频词汇。

高频词汇往往是现代汉语中的基本词汇,具有较强的表达力和通用性。

在写作时,可以适当增加这些词汇的使用频率,使文章更具可读性。

其次,适当使用低频词汇。

低频词汇可以丰富文章的表达形式,增加语言的生动性。

但在使用低频词汇时,要注意语境的搭配,避免造成阅读障碍。

最后,避免使用过于口语化的词汇。

过于口语化的词汇虽然能够拉近与读者的距离,但过多使用会导致文章的质量下降。

最后,我们通过实例分析来展示如何运用词语频率表提升写作水平。

假设我们要撰写一篇关于环保的文章,首先可以使用词语频率表查找环保相关的高频词汇和低频词汇。

在文章中,我们可以这样使用:1.高频词汇:环保、保护、环境、资源、生态、可持续发展。

2.低频词汇:生物多样性、气候变化、生态足迹、碳中和、绿色出行。

3.避免使用过于口语化的词汇:例如,“垃圾分分类,大家一起来”可以改为“垃圾分类,共建美好家园”。

通过以上实例,我们可以看出,运用词语频率表有助于提高写作水平,使文章更具可读性和实用性。

常用语料库软件的应用

常用语料库软件的应用

? Brown/LOB:分层抽样,大小一致;分层抽样如文学中小说占35%, 散文占8%,戏剧占2%。2nd generation corpora: The Corpus di Italiano Scritto
? BNC:大小不一(max:40,000 words);25%/75%(lit./inf.)
? 我们_r; 我们/r; 我们<r>; <w pos=“r”>我们</w> ? Header:
? 有关文本的元信息,涉及文本的作者、文体、出版时间等 ? <LANGUAGE>Chinese</LANGUAGE><SL>English</SL><TITLE>M
eiGuoShi</TITLE><TRANS>WeiYeChou</TRANS><CATEGORY>1 </CATEGORY><STYLE>3</STYLE><GENRE>G</GENRE><PUBLI SHER>Shangwuyinshuguan</PUBLISHER><TIME>1929</TIME>< ERA>B</ERA><SIZE>23052</SIZE> ? 相对完整的语料文件范本
语料文本的基本处理:主要处 理方式-2
? Word中的替换、Macro的使用 ? 其他语料文本处理工具的使用(Editplus)
语料文本的基本处理:主要处 理方式-3
? 规范语料文件的生成:无噪音、符合预期的加 工规范(标记充分)。

语料库技术及其应用

语料库技术及其应用

二、ELAN自建汉语方言多媒体 语料库
ELAN(Endangered Languages Archive)是由德国马普学会语言学研究所 开发的一款用于语言资料库建设的软件工具,可用于创建、管理和分析多种语言 的语音、文字和影像资料。本次演示将介绍如何利用ELAN自建汉语方言多媒体语 料库,以便对这些珍贵资料进行系统化的收集、整理和分类。
2、机器翻译:多模态语料库中的多种语言素材可以用于机器翻译系统的训 练,提高翻译的准确度和流畅度。
3、文本生成:基于语料库40的强大语料信息,可以用于自动文本生成,为 新闻报道、小说创作等领域提供丰富的素材和灵感。
4、教育领域:教师可以通过使用语料库40多模态语料库,让学生更好地接 触到真实的语境和多样化的语言表达方式,从而提高学生的语言能力和跨文化交 际能力。
语料库技术及其应用
目录
01 引言
03 关键词:内容构思
02 关键词:语料库技术 04 关键词:文本处理
目录
05 关键词:应用场景
07 参考内容
06 结论
引言
语料库技术是指以大量真实文本为基础,运用计算机和统计分析工具,对语 言使用进行系统研究的一种方法。随着计算机技术的不断发展,语料库技术在语 言学、文学、翻译等领域的应用日益广泛。本次演示将介绍语料库技术的定义、 特点及其在各领域的应用价值,同时探讨语料库技术在不同场景下的优势和不足, 以及未来可能的发展方向。
未来展望
随着技术的不断发展和应用需求的增长,语料库40多模态语料库的建设将不 断深入和完善。未来,语料库40可能会朝着以下几个方向发展:
1、更大规模的数据采集:随着互联网和数字化设备的普及,未来将能够采 集到更多样化、更大规模的数据,使语料库40更加全面和丰富。

浅谈语料库分类及用途

浅谈语料库分类及用途

浅谈语料库分类及用途一、语料库的定义在语言学中,语料库是指大量文本的集合。

在语料库语言学中,他们是主要用来进行统计分析与假设检定,在某一领域中,测试语言规律的出现或有效性。

语料库可以是某一单独语种的文本(单语语料库),又或者是多种语言中的文本数据。

二、语料库的分类1.多语种语料库多语种语料(Multilingual corpora)经常经过格式特殊处理进行比对研究,也被称作平行语料库。

它是由大量的平行文本(parallel text)组成。

平行文本通常是几种语言放在一起,有原文有译文,对齐放置。

较为著名的平行文本有洛布古典丛书和克莱梵语丛书。

平行文本不仅仅是两种语言的平行,有时会有多种语言集合。

如圣经研究中,关于圣经的译文可以有多种版本。

较为著名的便是俄利根的《圣经六国译文合璧》,其中为旧约提供了六个版本。

在多語种语料库中,一定要注意多语种语义的平行对齐,这是保障语言学研究的前提条件。

一般情况下,双语平行语料库中,主要有两种类型,翻译语料库(translation corpus)和对比语料库(comparable corpus)。

在翻译语料库中,一种语言的文本会是另外语种语言文本的翻译。

在翻译过程中,翻译人员可以对句子进行拆分、合并、删除、插入或重新排列。

翻译语料库现如今广泛运用于机器翻译中,机器翻译实际属于计算机语言学中的一类,其方法是通过某种程序将一种语言翻译成另外一种语言。

借助语料库,便可以提供大量准确而地道的目标语言文本,从而使计算机可以生成更加复杂的自动翻译,处理更复杂的语言翻译。

在对比语料库中,文本都是同种类型,覆盖同种内容,但是他们并不是互相翻译的关系。

为开发平行语料库,有些文本需以一个短语或句子组成的语块进行匹配。

其中,经常会运用由两种语言语料库组成的平行语块对双语的机器翻译进行训练。

为使语料库能够对语言学研究更能有用,他们通常会运用到注释程序,比如,对演讲的部分内容进行注释或是词性标注。

国外个主流语料库使用

国外个主流语料库使用

1. The Complete Lexical Tutorhttp://www.lextutor.ca/参考期刊网上刘玉山,胡志军的介绍。

是一个语料库中心词索引软件(concordancer),加拿大魁北克大学Tom Cobb the University of Quebec at Montreal (UQAM), 开发三部分:learners, researchers, teachers自我学习,研究,教师命题。

特别是concordance中有13个语料库为检索对象。

还可以用来对学生作文中的用词分析。

http://www.lextutor.ca/concordancers/concord_e.html可以同时提供多个语料库的在线搜索,但缺点是每次只能对一个文本加工。

2.BNC2014年开始,免费获得,通过BYU的申请。

British National Corpus一亿词,书面语90%,口语10%,共4124篇文本,从1980到1993年的语料英国牛津出版社﹑朗文出版公司﹑钱伯斯—哈洛普出版公司﹑牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库共有七类口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic还有COCA分类中没有的两类non-academic, miscellaneoussecond edition BNC World (2001)third edition BNC XML Edition (2007)extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text通常可进入的那个链接是BYU, 美国杨百翰大学提供的BYU大学在2012年对语料库经行了重新附码,用的CLAWS 73. COCA: the corpus of contemporary American EnglishBrigham Young University 美国犹他州杨百翰大学Doctor Mark Davies3.6亿,1990-2007年间,美国国内各种语料口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic共五类语料来源且持续更新中,每年以2000万词递增,目前到1990-2012,共4.5亿词Display:显示方式,compare选项可以用来比较两个词的搭配区别,排列方式选择relevance 相关度标记了语料的时间,便于研究语言历时与共时的变化教学中相关用法查找同义词,如[=scold].[V*]表示查找所有scold的同义词查找某一话题的词汇,如flower.[N*],表示查找与花有关的词汇,如果需要查找更为专业的词汇,就利用互信息。

Web语料库在外语听力教学中的应用

Web语料库在外语听力教学中的应用

Web语料库在外语听力教学中的应用随着技术的不断进步和发展,Web语料库在外语教学中的应用已经成为了一种趋势,越来越多的教师和学生开始重视Web语料库在外语听力教学中的应用。

本文将从以下几个方面来阐述Web语料库在外语听力教学中的应用。

一、Web语料库简介Web语料库是通过互联网获取的一种文本语料库,语料库通常包含语音、文本和图片等多种类型。

在Web语料库中,可以找到各种各样的数据,如各种类型的文章、论文、新闻报道等。

这些语料库可以被用来研究语言的使用、语言习得等方面。

二、Web语料库在外语听力教学中的应用1.帮助学生提高听力技能Web语料库可以帮助学生提高英语听力技能,因为它提供了各种类型、各种场景的英语听力材料。

学生可以通过Web语料库来听取不同类别的材料,如新闻报道、科技杂志等,从而提高自己的听力技能。

2.帮助学生锻炼听力速度和技巧Web语料库中包含了各种不同的语速和语调,学生可以通过此来锻炼听力速度和技巧。

并且听取不同速度、不同难度的听力材料,还可以帮助学生逐渐适应外国人的语速和语调。

3.提供面向主题的听力教材Web语料库可以提供面向特定主题的听力教材,以满足学生的需要。

比如,学生可以选择听取关于运动、文化等特定主题的材料,以满足自己的学习需求。

4.通过Web语料库提高听力教学的效率Web语料库将听力课程从传统的教材和作业中解放出来,让听力材料不再是单一的。

而且,它还可以帮助老师更加便捷地查找合适的听力材料,以适应不同的教学需求。

三、Web语料库在听力教学中的案例以下是一些Web语料库在听力教学中的案例,这些案例将有助于我们更好地理解Web语料库在听力教学中的应用。

1.使用Youtube上的视频进行听力教学老师可以通过在YouTube上查找有关课程的视频来进行听力教学。

这些视频可以是各种类型的,比如科技、音乐、纪录片、电影和卡通等。

学生可以在自己的电脑或智能手机上观看这些视频。

老师可以根据学生的教学需求,修改视频的播放速度并添加字幕以帮助学生理解。

美国当代英语语料库(COCA)使用介绍精品名师资料

美国当代英语语料库(COCA)使用介绍精品名师资料
美国当代英语语料库(COCA)使用说明
/
免费的英语语料库资源
• /static/worldcorpora.htm
• /index.html
• /m/micase/ • http://lextutor.ca/conc/eng/ • /
COCA界面简介
COCA界面简介
• 字串查询区:
• Ⅰ、WORDS:输入字符串。 • Ⅱ、COLLOCATES:上下文限定。 • Ⅲ、POS LIST:词性列表
COCA界面简介
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
• 功能:此区可以对查询的字符串限定语料类型 (Genre)和时段(Year) ,并且可以明确到查询某一 个子语料库,时段也可以查询任何一年的某个字词 的使用情况。
POS LIST





pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
图2.1.2-1
图2.1.2-2
Whiten*];动词: [v*]; 形容词: [j*]; 副词: [r*];代词:[p*];连词:[c*]……
POS LIST 词性列表
noun.ALL=名词 noun.SG=单数名词 noun.PL=复数名词 noun.CMN=普通名词 noun.+PROP=专有名词 noun.-PROP=非专有名词
COCA语料库简介

COCA简介

杨百翰大学BNC语料库使用说明

杨百翰大学BNC语料库使用说明
规则:在words的方格里分别输入hot和warm,再在context方框里输入 [nn*],表示后面所跟任何名词。当然也可以比较在某个子语料库中出现的频 率比较。
• 2.4.2 比较反义词 • 如:woman和man前面所跟的形容词的区
别(如图2.4.2)
图2.4.2
规则:在words的方格里分别输入woman和man,再在context方 框里输入[aj*],选在左3,表示前面3个跨距内所有的形容词。当然 也可以比较在某个子语料库中出现的频率比较。
• 以上方法同样可以用于检索代表当代美国 的语料库 /, 以及以不同年代的TIME做成的历史语料库
/
• 2.1.5 输入某种词性且部分带有某些字母的命令, 如要得到以un-开头、-ed结尾的所有形容词的所 有 形 式 ( 见 图 2.1.5-1 ) 和 得 到 动 词 + 任 何 词 +ground的所有词组(见图2.1.5-2):
• 规则:若要得到某种词性且词中带有部分带有某 些字母的形式时,如要得到以un-开头、-ed结尾 的所有形容词的所有形式,那么输入: un*ed.[aj*]; 若要得到动词+任何词+ground的所有词组,那么输 入: [vv*]*[ground]即可。前者用来研究词汇,后者 用来查询特定词性的搭配。
• 2.4.3 搜索近义词 • 如:搜索beautiful的所有近义词(如图
2.4.3-1)
规则:在words的方格里输入[=beautiful],表示和beautiful语义相 近的所有形容词。
• 再如:搜索动词clean的所有近义词,如下 图:
图2.4.3-2
• 当然可以进一步搜索与clean语义相近的动 词+the+名词的词组,[[=clean]].[v*] the [n*] 如下图:

最新常用在线语料库使用简介PPT课件

最新常用在线语料库使用简介PPT课件
进 入 夏 天 ,少 不了一 个热字 当头, 电扇空 调陆续 登场, 每逢此 时,总 会想起 那 一 把 蒲 扇 。蒲扇 ,是记 忆中的 农村, 夏季经 常用的 一件物 品。 记 忆 中 的故 乡 , 每 逢 进 入夏天 ,集市 上最常 见的便 是蒲扇 、凉席 ,不论 男女老 少,个 个手持 一 把 , 忽 闪 忽闪个 不停, 嘴里叨 叨着“ 怎么这 么热” ,于是 三五成 群,聚 在大树 下 , 或 站 着 ,或随 即坐在 石头上 ,手持 那把扇 子,边 唠嗑边 乘凉。 孩子们 却在周 围 跑 跑 跳 跳 ,热得 满头大 汗,不 时听到 “强子 ,别跑 了,快 来我给 你扇扇 ”。孩 子 们 才 不 听 这一套 ,跑个 没完, 直到累 气喘吁 吁,这 才一跑 一踮地 围过了 ,这时 母 亲总是 ,好似 生气的 样子, 边扇边 训,“ 你看热 的,跑 什么? ”此时 这把蒲 扇, 是 那 么 凉 快 ,那么 的温馨 幸福, 有母亲 的味道 ! 蒲 扇 是 中 国传 统工艺 品,在 我 国 已 有 三 千年多 年的历 史。取 材于棕 榈树, 制作简 单,方 便携带 ,且蒲 扇的表 面 光 滑 , 因 而,古 人常会 在上面 作画。 古有棕 扇、葵 扇、蒲 扇、蕉 扇诸名 ,实即 今 日 的 蒲 扇 ,江浙 称之为 芭蕉扇 。六七 十年代 ,人们 最常用 的就是 这种, 似圆非 圆 , 轻 巧 又 便宜的 蒲扇。 蒲 扇 流 传 至今, 我的记 忆中, 它跨越 了半个 世纪, 也 走 过 了 我 们的半 个人生 的轨迹 ,携带 着特有 的念想 ,一年 年,一 天天, 流向长
字串查询区
图5-1
COCA
5. COCA界面简介(图5-1)
语料库分类区
图5-1
COCA
5. COCA界面简介(图5-1)

使用COCA等在线语料库相关说明

使用COCA等在线语料库相关说明

1. Who created these corpora?The corpora were created by Mark Davies, Professor of Linguistics at Brigham Young University in Provo, Utah, USA. In most cases (though see #2 below) this involved designing the corpora, collecting the texts, editing and annotating them, creating the corpus architecture, and designing and programming the web interfaces. Even though I use the terms "we" and "us" on this and other pages, most activities related to the development of most of these corpora were actually carried out by just one person.2. Who else contributed?3. Could you use additional funding or support?As noted above, we have received support from the US National Endowm ent for the Humanities and Brigham Young University for the developm ent of several corpora. However, we are always in need of ongoing support for new hardware and software, to add new features, and especially to create new corpora. Because we do not charge for the use of the corpora (which are used by 80,000+ researchers, teachers, and language learners each month) and since the creation and maintenance of these corpora is essentially a "one person enterprise", any additional support would be very welcom e. There might be graduate programs in linguistics, or ESL or linguistics publishers, who might want to make a contribution, and we would then "spotlight" them on the front page of the corpora. Also, if you have contacts at a funding source like the Mellon Foundation or the MacArthur grants, please let them know about us (and no, we're not kidding).4. What's the history of these corpora?The first large online corpus was the Corpus del Español in 2002, followed by the BYU-BNC in 2004, the Corpus do Português in 2006, TIME Corpus in 2007, the Corpus of Contemporary American English (COCA) in 2008, and the Corpus of Historical American English (COHA) in 2010. (More details...)5. What is the advantage of these corpora over other ones that are available?For some languages and time periods, these are really the only corpora available. For example, in spite of earlier corpora like the American National Corpus and the Bank of English, our Corpus of Contemporary American English is the only large, balanced corpus of contemporary American English. In spite of the Brown family of corpora and the ARCHER corpus, the Corpus of Historical American English is the only large and balanced corpus of historical American English. And the Corpus del Español and the Corpus do Português are the only large, annotated corpora of these two languages. Beyond the "textual" corpora, however, the corpus architecture and interface that we have developed allows for speed, size, annotation, and a range of queries that we believe is unmatched with other architectures, and which makes it useful for corpora such as the British National Corpus, which does have other interfaces. Also, they're free -- a nice feature.6. What software is used to index, search, and retrieve data from these corpora?We have created our own corpus architecture, using Microsoft SQL Server as the backbone of the relational database approach. Our proprietary architecture allows for size, speed, and very good scalability that we believe are not available with any other architecture. Even complex queries of the more than 425 million word COCA corpus or the 400 million word COHA corpus typically only take one or two seconds. In addition, be cause of the relational database design, we can keep adding on more annotation "modules" with little or no performance hit. Finally, the relational database design allows for a range of queries that we believe is unmatched by any other architecture for large corpora.7. How many people use the corpora?As measured by Google Analytics, as of March 2011 the corpora are used by more than 80,000 unique people each month. (In other words, if the same person uses three different corpora a total of ten times that month, it counts as just one of the 80,000 unique users). The most widely-used corpus is the Corpus of Contemporary American English -- with more than 40,000 unique users each month. And people don't just come in, look for one word, and move on -- average time at the site each visit is between 10-15 minutes.8. What do they use the corpora for?For lots of things. Linguists use the corpora to analyze variation and change in the different languages. Some are materials developers, who use the data to create teaching materials. A high number of users are language teachers and learners, who use the corpus data to model native speaker performance and intuition. Translators use the corpora to get precise data on the target languages. Some businesses purchase data from the corpora to use in natural language processing projects. And lots of people are just curious about language, and (believe it or not) just use the corpora for fun, to see what's going on with the languages currently. If you are a registered user, you can look at the profiles of other users (by country or by interest) after you log in.9. Are there any published materials that are based on these corpora?As of mid-2011, researchers have submitted entries for more than 260 books, articles and conference presentations that are based on the corpora, and this is probably only a sm all fraction of all of the publications that have actually been done. In addition, we ourselves have published three frequency dictionaries that are based on data from the corpora -- Spanish (2005), Portuguese (2007), and American English (2010).10. How can I collaborate with other users?You can search users' profiles to find researchers from your country, or to find researchers who have similar interests. In the near future, we may start a Google Group for those who want more interaction.11. What about copyright?Our corpora contain hundreds of millions of words of copyrighted material. The only way that their use is legal (under US Fair Use Law) is because of the limited "Keyword in Context" (KWIC) displays. It's kind of like the "snippet defense" used by Google. They retrieve and index billions of words of copyright material, but they only allow end users to access"snippets" (片段,少许)of this data from their servers. Click here for an extended discussion of US Fair Use Law and how it applies to our COCA texts.12. Can I get access to the full text of these corpora?Unfortunately, no, for reasons of copyright discussed above. We would love to allow end users to have access to full-text, but we simply cannot. Even when "no one else will ever use it" and even when "it's only one article or one page" of text, we can't. We have to be 100% compliant with US Fair Use Law, and that means no full text for anyone under any circumstances -- ever. Sorry about that.13. I want more data than what's available via the standard interface. What can I do?Users can purchase derived data -- such as frequency lists, collocates lists, n-grams lists (e.g. all two or three word strings of words), or even blocks of sentences from the corpus. Basically anything, as long as it does not involve full-text access (e.g. paragraphs or pages of text), which would violate copyright restrictions. Click here for much more detailed information on this data, as well as downloadable samples.14. Can my class have additional access to a corpus on a given day?Yes. Sometimes your school will be blocked after an hour or so of heavy use from a classroom full of students. (This is a security mechanism, to prevent "bots" from running thousands of queries in a short time.) To avoid this, sign up ahead of time for "group access".15. Can you create a corpus for us, based on our own materials?Well, I probably could, but I'm not overly inclined to at this point. Creating and maintaining corpora is extremely time intensive, even when you give me the data "all ready" to import into the database. The one exception, I guess, would be if you get a large grant to create and maintain the corpus. Feel free to contact me with questions.16. How do I cite the corpora in my published articles?Please use the following information when you cite the corpus in academic publications or conference papers. And please remember to add an entry to the publication database (it takes only 30-40 seconds!). Thanks.In the first reference to the corpus in your paper, please use the full name. For example, for COCA: "the Corpus of Contemporary American English" with the appropriate citation to the references section of the paper, e.g. (Davies 2008-). After that reference, feel free touse something shorter, like "COCA" (for example: "...and as seen in COCA, there are..."). Also, please do not refer to the corpus in the body of your paper as "Mark Davies' COCA corpus", "a corpus created by Mark Davies", etc. The bibliographic entry itself is enough to indicate who created the corpus.。

COCA语料库操作演示.ppt教程

COCA语料库操作演示.ppt教程

图2.4.2
规则:在WORDS的方格里分别输入woman和man,再在 COLLOCATES方框里输入[j*],选在左3,表示前面3个跨 距内所有的形容词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.3 搜索近义词 • 如:搜索beautiful的所有近义词(如图2.4.3-1)
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):
图2.3-3
• 2.4 进行语义倾向比较 • 2.4.1 比较近义词 • 如:近义形容词hot和warm后面所跟名词的 区别(如图2.4.1):
图2.4.1
规则:首先选择 COMPARE 显示。然后在WORDS的方格里分 别输入hot和warm,再在COLLOCATES方框里输入[n*],表示 后面所跟任何名词。当然也可以比较在某个子语料库中出 现的频率比较。
ቤተ መጻሕፍቲ ባይዱ
• 2.4.2 比较反义词 • 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.1.4-1
规则:若要得到某个单词的所有单复数和时态形式,那么 就要在输入时,在这个单词外加 [ ]。
图2.1.4-2
形容词early的原形,比较级和最高级三种形式一次性检索出来检索
• 2.1.5 输入某种词性且部分带有某些字母的命令, 如要得到以 un- 开头、 -ed 结尾的所有形容词的所 有 形 式 ( 见 图 2.1.5-1 ) 和 得 到 动 词 + 任 何 词 +ground的所有词组(见图2.1.5-2): • 规则:若要得到某种词性且词中带有部分带有某 些字母的形式时,如要得到以 un- 开头、 -ed 结尾 的所有形容词的所有形式,那么输入: un*ed.[aj*]; 若要得到动词+任何词+ground的所有词组,那么输 入: [vv*]*[ground]即可。前者用来研究词汇,后者 用来查询特定词性的搭配。

北京语料库检索使用说明

北京语料库检索使用说明

北京语料库检索使用说明首页一关于CCL语料库及其检索系统二关于查询表达式2.1 特殊符号2.2 基本项2.3 简单项2.4 复杂项2.5 过滤项2.6 子旬2.7 查询表达式三关于查询结果四在结果中查找五举例一关于CCL语料库及其检索系统(1)CCL语料库及其检索系统为纯学术非盈利性的。

不得将本系统及其产生的检索结果用于任何商业目的。

CC口承担由此产生的一切后果。

(1)本语料库仅供语言研究参考之用。

语料本身的正确性需要您自己加以核实(1)语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。

比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式(1)语料库中的中文文本未经分词处理。

(1)检索系统以汉字为基本单位。

(1)主要功能特色:支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);支持对标点符号的查询(比如查询”可以检索语料库中所有疑问句);支持在“结果集”中继续检索;用户可定制查询结果的显示方式(如左右长度,排序等);用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。

特殊符号查询表达式中可以使用的特殊符号包括7个:|$#+-~!这些符号分为三组:Operator1:|Operator2:$#+-~Operaotr3:!符号的含义如下:(一)Operator1:Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)|相当于逻辑中的“或”关系。

(二)Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)$表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。

y在线语料库在初中英语教学中的运用

y在线语料库在初中英语教学中的运用
我们以think为例,检索结果如图所示,我们可以看到think在不同体裁中的分布。由此看以看到,think主要出现在口语当中,其次是小说,其它分布比较少。我们可以进一步观察think在口语中、在小说中等的分布情况。我们点击口语那行的蓝色直方图。
Think在口语中的分布情况就呈现出来了。由此学生可以知道,think一词主要用在口语当中,书面较少使用。且经常以I think的形式出现。
我们还可以进行同语义场词语检索,如的输入形式要注意下。输入之后,我们可以看到与身体有关的所有单词。
这就是List的5个小功能。接下来我们看Search下的Chart功能。Chart的功能是以直观图的形式呈现这个单词在不同体裁中的检索结果,包括口语、小说、期刊、报纸、非学术、学术和其它共7种体裁。
出现了如图所示的页面。这个是按照搭配强度排列的,on排在第一位。
单击on,我们可以查看on这个单词的统计数据。我们直接看下面部分。这边的距离-3表示这个在effect左边的第三个位置,1表示在右边的第一个位置,我们看到1占的比例是最高的。说明与effect搭配的on通常在右边第一个位置。我们点击这个1,出现以下页面。
这个语料库在刚开始使用时使不需要注册的,但是在使用10次左右之后,需要注册,但是依旧是免费的。
下面我们来看下另一个在线语料库,CQPweb。这个语料库是由英国兰卡斯特大学研发的,是一个在线语料库检索平台,该平台有许多语料库,功能强大,检索方法简单易学。这是它的网址,我们在搜索引擎中打开,看到了如下页面。这个语料库的使用需要注册,但注册方法比较简单。我们看到,这个在线语料库检索平台包含许多语料库,今天我们就以American English 2006这个语料库为例。我们点击它,出现以下页面,默认为标准检索。

常用在线语料库使用简介分析

常用在线语料库使用简介分析

频数
图2.1-2
BNC
2.2 其他可下载的BNC产品
➢ BNC XML edition:BNC全库 ➢ BNC Baby:BNC子库,包含小说、新闻、科技、口语四
类文本各100万词 ➢ BNC sampler:BNC 子库,包含书面语、口语两类文本
各100万词 ➢ 注:以上语料库采用XML格式,需使用XAIRA软件检索
➢ 输入“feature”(图6.1.1-1)
图6.1.1-1
COCA
6.1.1 检索某一词形
➢ 在搜索结果区可得到“feature”的频数 (图6.1.1-2 ) ➢ 点击该词,可在例句显示区看到含有“feature”的词
条(图6.1.1-3)
图6.1.1-2
图6.1.1-3
COCA
6.1.1 检索某一词形
图5.3-1
COCA
5.3 语料库分类区
➢ 42个子语料库 (图5.3-2)
图5.3-2
COCA
5.3 语料库分类区
➢ 42个子语料库 (图5.3-3)
图5.3-3
COCA
5.4 查询结果排列方式区
➢ Sort by:检索结果的排列方式,可按频率、关联度、 或字母顺序排列,一般默认按频率排列 (图5.4-1)
➢ 在显示方式区选择KWIC 并再次点击search, 可得含有“feature”的词语 索引(图6.1.1-4)
Sketch Engine: 在线语料库管理及检索工具,可有 效总结词汇的语法及搭配行为。
BNC
1. BNC官网主界面(图1-1)
基本信息及 功能介绍区
简单搜索区 进入简单搜索功能介绍
图1-1
BNC
2. BNC在线检索功能介绍 2.1 BNC simple search

美国当代英语语料库(COCA)使用介绍

美国当代英语语料库(COCA)使用介绍
规则: 若要得到某种词性且词中带有部分带有某些字母的形 式时,如要得到以 un- 开头、 -ed 结尾的所有形容词的所有形 式,那么输入: un*ed.[j*]; 若要得到动词 + 任何词 +ground 的所有词组 , 那么输入 : [v*]*[ground]即可。 前者用来研究词汇,后者用来查询特定词性的搭配。
POS LIST





pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
美国当代英语语料库(COCA)使用说明
/coca
一、COCA语料库简介
• COCA简介
– COCA:美国当代英语语料库(Corpus of Contemporary American English)是由美国杨 伯翰大学(Brigham Young University)的 Mark Davies 教授开发的美国最新当代英语语 料库,是当今世界上最大的英语平衡语料库。
图2.1.1-3
例句显示区使用的是KWIC显示
KWIC显示方式
KWIC显示方式
• • • • • •
蓝色——名词 紫色——动词 绿色——形容词 棕色——副词 灰色——代词 黄色——介词
COCA主要搜索功能
• 例2. 输入词组 “white+名词” (图2.1.2-1),得到 的结果都是white 后面跟的名词短语 (图2.1.2-2),检索 表达式为:white [n*]。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

BNC
3. 其他BNC检索界面(如图3-1)
图3-1
COCA
4. COCA简介
由美国杨伯翰大学(Brigham Young University)的
Mark Davies 教授开发,是大型语料库资源平台 /的一部分。如图4-1
图4-1
COCA
4. COCA简介
图6.1.2-1
COCA
6.1.3 检索短语
输入“white [n*]”(图6.1.3-1)
可得所有white修饰的名词短语 (图6.1.3-2)
图6.1.3-1
图6.1.3-2
COCA
6.1.4 检索lemma
输入“[suggest]”(图6.1.4-1)
可得suggest所有词形的使用 情况(图6.1.4-2)
个人语料库,如图8-2
图8-2
Sketch Engine
8. Sketch Engine 简介
主要功能
Sketch:呈现所检索词项在语法结构下 所搭配的高频词汇 Thesaurus:提供同义或近义词 Sketch-Diff:呈现近义词之间的搭配差异
BNC
1. BNC官网主界面(图1-1)
简单搜索区
进入简单搜索功能介绍
基本信息及 功能介绍区 图1-1
BNC
2. BNC在线检索功能介绍 2.1 BNC simple search
提供简单的检索功能,适用于快速检查词汇的频数、拼
写等。可检索: •a word, punctuation mark, or delimited string e.g. jam, ?, Mrs.; •a word-and-POS pair, e.g. CAN=NN1; •a phrase, e.g. not on your life; •a pattern, e.g. colou?r; •an SGML query, e.g. bread _ butter
KWIC显示方式(图5.6-2) 颜色代表不同词性
图5.6-2
COCA
6. 主要搜索功能介绍 6.1 搜索words、phrases、lemmas、wildcards和其他更 加复杂的字词 6.1.1 检索某一词形
输入“feature”(图6.1.1-1)
图6.1.1-1
COCA
6.1.1 检索某一词形
图6.1.1-4
COCA
6.1.2 检索某一词性的单词
输入“feature.[v*]”,可得到“feature”做动词时的使
用情况 (图6.1.2-1) “.”表示feature不与其后的字符串组成短语 “[v*]”代表所有形式的动词 点击POS LIST后的问号,可了解具体词性代码
图6.4-1
COCA
6.4 进行语义趋向比较
SCORE的值越高,越趋向与该检索词搭配
通过初步观察搭配词可知,generate侧重于使内在固有的
性能释放和呈现,create侧重于挖掘出原来不存在的东西
图6.4-2
COCA
6.5 搜索近义词
搜索indicate的近义词 WORD(S)后输入[=indicate].[v*],如图6.5-1
COCA
6.2 检索搭配词
图6.2-3
COCA
6.3 对比某词项搭配词在两个子库中的频数
对比[suggest]前出现的名词在Academic和Fiction子库
中的频数 在Section 1中选择Academic,在Section 2中选择Fiction 如图6.3-1,结果如图6.3-2

图6.1.4-1
图6.1.4-2
COCA
6.1.5 使用通配符检索
“*”代表任意数量的字符
“?”代表一个任意字符 输入un*ly和r?n*,结果如图6.1.5-1, 6.1.5-2
图6.1.5-1
COCA
6.1.5 使用通配符检索
图 6.1.5-2
COCA
6.2 检索搭配词
如需检索prevail前的名词,可在WORD(S)里输入
点击conditions可进一步观察prevail的语境 (图6.2-3) 通过观察例句,我们发现与prevail共现的conditions常
有消极意义的词修饰,例如harsh, precarious, daunting, severe, colder and drier, dangerous等 点击其中一条例句,可查extended context: Relatively peaceful conditions existed when the survey was conducted in April 1999. Very different conditions prevail three and a half years later. If similar findings are observed under these dissimilar conditions, confidence in their accuracy and generalizability will increase.
图5.3-1
COCA
5.3 语料库分类区
42个子语料库 (图5.3-2)
图5.3-2
COCA
5.3 语料库分类区
42个子语料库 (图5.3-3)
图5.3-3
COCA
5.4 查询结果排列方式区
Sort by:检索结果的排列方式,可按频率、关联度、或
字母顺序排列,一般默认按频率排列 (图5.4-1) Minimum:检索结果的最低限定值,可按频数或MI值 进行限定,默认最低频数为10 (图5.4-2)
——以BNC、COCA和Sketch Engine 为例
One-word Introduction
英国国家语料库(British National Corpus/BNC): 库
容1亿词的现代英式英语样本集合,文本来源广泛,其 中书面语占90%,口语占10%。 美国当代英语语料库((Corpus of Contemporary American English/COCA): 库容为4.5亿词的大型平 衡语料库,含有多个字库,具有多种检索功能,可免 费在线使用。 Sketch Engine: 在线语料库管理及检索工具,可有效 总结词汇的语法及搭配行为。
图5.1-1
COCA
5.2字串查询区(图5.2-1)
WORDS:输入字符串 COLLOCATES:搭配词限定
POS LIST:搭配词词性限定
图5.2-1
COCA
5.3 语料库分类区
此区共包括42个子语料库,可以对查询的字符串限定语
料类型(Genre)和时段(Year) ,并可明确限定某一个子语 料库,或某一年某个字词的使用情况。(图5.3-1)
COCA
5.1 显示方式区(DISPALY) (图5.1-1)
LIST——列表显示 CHART——图表显示,可以显示在各语料库类型中的使用频
率和各时间段内的使用情况。 KWIC——Key word in context,例句以词语索引的形式呈现 COMPARE——单词比较显示,比较两个不同词或短语的搭 配情况。
COCA语料库规模大,涵盖美国1990-2012年间
口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的文本 使用界面友好,检索速度快 时效性强,不断更新功能
COCA
5. COCA界面简介 三大功能区:
BNC
2.1 BNC simple search
可通过点击图2.1-1中的链接了解检索语言和词性标注代码
检索语言说明
词性标注代码
图2.1-1
BNC
2.1 BNC simple search
随机生成50条结果,不以索引形式排列。例如检索
“feature=VVB”,检索结果如图2.1-2
频数 出处
图6.3-1
COCA
6.3 对比某词项在两个子库中的频数 两子库中suggest的搭配词显著不同,频数也相差很多
图6.3-2
COCA
6.4 进行语义趋向比较
对比generate和create语义趋向 在显示方式区选择COMPARE,WORD(S)后输入
[generate]和[create],COLLOCATES后输入[n*],如图 6.4-1,结果如图6.4-2
“[prevail]”,COLLOCATES里输入[n*],右边跨距设 为0, 如图6.2-1
图6.2-1
COCA
6.2 检索搭配词
prevail左侧高频搭配名词如下(图6.2-2) 由高频搭配词可知,prevail常与表示“条件,环境”,
或者“制度,观点”的词搭配
图6.2-2
COCA
6.2 检索搭配词
输入任意词,可获得该词在COCA词表中的排位、频率、
搭配词、词语索引、近义词等信息。如图7.1.1-2
图7.1.1-1
COCA
7. 新增功能 7.1 Words and Phrases 7.1.1 Frequency List
频数
释义
近义词 各字库频数 词语索引
图7.1.1-2
COCA
7. 新增功能 7.1 Words and Phrases 7.1.2 Analyze texts(图7.1-2)
在搜索结果区可得到“feature”的频数 (图6.1.1-2 )
点击该词,可在例句显示区看到含有“feature”的词条
(图6.1.1-3)
图6.1.1-2
图6.1.1-3
相关文档
最新文档