语料检索的速成教程:AntConc生鲜入门

合集下载

antconc用法

antconc用法

antconc用法一、AntConc基本用法AntConc是一款超棒的语料库分析工具呢!它的界面简洁明了。

你打开AntConc之后,首先要做的就是加载语料库。

这就好比你要打开一个装满各种宝贝(文本数据)的大箱子。

可以加载纯文本文件,格式得是.txt的哦。

比如说,你要是研究某本小说的用词特点,就把这本小说转成.txt格式然后加载进去。

在查询功能方面,它很强大。

你可以直接输入一个单词或者短语进行搜索。

就像你在一个大仓库里找特定的货物一样。

例如,你输入“love”这个单词,它就能快速地在整个语料库中把包含“love”的所有句子都找出来。

而且它还能显示这个单词在语料库中的频率分布呢,这就像是知道这个“货物”在仓库各个角落的数量一样。

它还有一个很实用的功能是生成词表。

你点击一下相应的按钮,它就像一个超级管家一样,把语料库中的所有单词按照一定的顺序(比如频率高低)给你列出来。

这有助于你快速了解这个语料库中的主要词汇构成。

二、AntConc中的固定搭配分析用法AntConc对于分析固定搭配那是相当拿手的。

你可以使用它的“N - grams”功能。

比如说,你想研究英语中的双词搭配(bigrams),就像“hot dog”这种常见的固定搭配。

你设置好参数为2(表示两个单词一组),然后它就会在语料库中搜索所有这样的双词组合。

这就如同在一群小伙伴中找那些总是手拉手一起出现的组合一样有趣。

还有哦,对于多词固定搭配也没问题。

假设你想找像“in the end”这种三个单词的固定搭配,你把参数设为3,它就能把语料库中所有这种三词组合给你揪出来。

这就像是在一个复杂的拼图中找到特定的几块总是连在一起的小块。

三、双语例句(英语 - 汉语)1. “I used AntConc to analyze the fr equency of the word'happiness' in this English novel. It was like having a magic key to unlock the secrets of the author's use of this important concept.(我使用AntConc来分析这个英语小说里‘happiness(幸福)’这个词的频率。

用AntConc处理中文

用AntConc处理中文

用AntConc处理中文concordance, wordlist, N-gram不知道laohong用的什么宝贝!我的方法是这样的:我刚才是把Token Definition里面的letter token classes 下面的全部选中,再把Chinese Encoding 里面的第一项选中就行了,下面的我想就不用我来说了。

另外,我发现按照我的下午选项,其实没有进行分词的中文语料也是可以进行全文检索和显示的。

对不起各位,早上贴完帖子就搬家去了,累到现在才回家打开电脑。

这里是大家关心的我是如何用AntConc处理中文的:1、文本格式:大家有没有注意到上面贴的我试验AntConc的文本中既有中文简体、繁体也有英文?为了能在同一个文本中显示好中文简体、繁体和英文,我把所有文本都转存成UTF-8了。

也就是说,我用AntConc 处理的语料文本是存成UTF-8格式的,不是GB或Big5。

另外,中文文本是经过分词处理的。

请搜索本站找相关的自动分词和词性标注工具:SegT ag、ICTCLAS、NEUCSP、Hylanda、WinAT等。

2、设置AntConc:在Global Settings 下的Language Encodings,我没有选Chinese Encodings下的选项,而是选择了Unicode Encodings 下的Unicode(UTF-8)。

其它设置可以用默认的。

3、功能:这样设置后AntConc的功能就全部可以处理中文文本了,也就是说大家这样就可以用AntConc 来处理分词后的中文的Concordance,Wordlist,Cluster,N-Gram等等了。

Wordsmith 终于有了一个免费的竞争对手!请问如何显示卡方检验和互信息的值1.卡方检验是用做key words,需要一个参照语料库的wordlist和一个要分析语料库的wordlis.2.在Tool preference下选择Collocates preference 然后选择show statistics measure下的MI值或者T值然后再选择show collocate即可.3.2.1w 是最新版本,应该不是版本问题。

antconc语义韵

antconc语义韵

antconc语义韵(原创版)目录1.AntConc 的概述2.AntConc 的语义韵特点3.AntConc 的应用场景4.AntConc 的未来发展正文一、AntConc 的概述AntConc(Antarctic Concordance)是一款基于人工智能的中文自然语言处理工具,主要功能为语义韵分析。

它能够对中文文本进行精细的情感、主题和风格分析,为知识类写作提供有力支持。

AntConc 语义韵分析技术以我国官方立场为基准,紧密贴合时代背景,助力用户创作出富有时代特色、符合国家价值观的作品。

二、AntConc 的语义韵特点1.高度智能化:AntConc 运用深度学习算法,自动学习语料库中的知识,不断提升分析能力。

2.全面性:AntConc 不仅能够分析文本的情感倾向,还能识别主题和风格,满足多元化需求。

3.立场鲜明:AntConc 以我国官方立场为基准,对文本进行分析,有利于引导网络文化健康发展。

4.持续更新:AntConc 会不断更新语料库,以适应社会发展和时代变迁,为用户提供最前沿的语义韵分析服务。

三、AntConc 的应用场景1.新媒体写作:AntConc 可以帮助新媒体写作者更好地把握文章的情感、主题和风格,提升作品质量。

2.广告文案创作:通过 AntConc 分析,广告文案创作者可以更准确地把握目标受众的心理需求,提高广告效果。

3.教育教学:教师可以利用 AntConc 对学生作文进行分析,为学生提供针对性的写作指导。

4.其他领域:如政治传播、企业文化宣传等,均可运用 AntConc 语义韵分析技术,提升文本质量。

四、AntConc 的未来发展随着人工智能技术的不断进步,AntConc 在未来将具备更强大的语义韵分析能力,为知识类写作提供更加精确、高效的支持。

此外,AntConc 还将拓展更多应用场景,满足不同用户的需求。

antconc检索英语被动句子的方法

antconc检索英语被动句子的方法

使用AntConc检索英语被动句子的方法如下:
1. 在AntConc软件的文本视图中输入你想要检索的句子或段落。

2. 在软件界面上选择“调查”选项卡。

3. 在下拉菜单中选择“语态”选项。

4. 在“被动”复选框上打钩。

5. 点击“问题”按钮以显示搜索结果。

需要注意的是,为了正确地检索被动句子,你需要输入完整的句子,而不是仅输入一部分句子或关键词。

此外,AntConc软件只能检索出文本中出现的被动句子,无法判断句子的正确性或语法是否正确。

因此,在使用AntConc软件进行语言分析时,还需要结合其他语言分析工具和方法进行综合分析和评估。

免费的AntConc强大好用的本地语料检索工具

免费的AntConc强大好用的本地语料检索工具

免费的AntConc强大好用的本地语料检索工具Laurence Anthony 天资聪慧,年轻轻轻就考入日本著名的早稻田大学物理系。

但等到读完本科的时候他却发现自己真正喜欢的东西并不是相对论,量子力学或者希格斯玻色子,而是莎士比亚十四行诗,词汇词源和语言学研究。

于是毅然转行,攻读起了语言学方向的硕士和博士。

LaurenceAnthony博士论文的方向是语料库研究,所以经常要与各种大规模文本打交道,但在这个过程中碰到了不少瓶颈,那时还是2000年,微软还没推出Windows XP,谷歌刚刚诞生不久,诺基亚的功能机正在开始风靡全球,语料库的研究也还处于刀耕火种的半手工状态中。

用计算机辅助语料库研究还属于比较前沿的一个理念,可以用的软件更是少之又少。

好在我们的Laurence Anthony 是理工科出身,写得了一手好代码。

学英语懂技术,就像流氓会武术。

经过不懈的努力,他终于在2002年成功开发出了一款用于语料库统计的软件:AntConc ,并借助它顺利完成了博士阶段的研究。

后来这款软件逐渐流行起来,并在后面的十几年时间里不断升级完善,被众多英语研究者参考使用。

Laurence Anthony 还为此建立起了专门的网站出处:使用实例: 1.(原文标题:建立你自己的专属英语语料库,妈妈再也不担心你的写作啦【2023-01-15】,文内介绍了一点AntConc的用法)一言以蔽之:自己准备好语料,然后用AntConc语料,把自己的本地语料当作电子词典、工具书、例句库用。

不想付费用在线语料库,不嫌自建语料库麻烦的,可以试试这个方法。

2.(原文标题:)详细使用说明:。

AntConc

AntConc

AntConc开始是作为相对简单的索引程序,不过慢慢地进步成一个相对有用的文本分析工具。

它是在ActiveState供应商的优良Komodo 跨平台支持多种程序软件的开发环境下用Perl5.8程序语言写成的。

这个程序只要双击可执行文件就可以打开,这个文件可以从Laurence Anthony实验室网站下载。

这个程序可以在任何窗口环境下运行,包括Win 98/Me/2000/NT and XP, and also Macintosh OSX and Linux的电脑。

如果用户发现任何这个程序在一个特定的操作系统下的使用问题,请让我知道。

AntConc包括以下工具:索引**Concordance**索引定位**Concordance Plot**文件查看**File View**词丛**Clusters** N元模式(部分词丛)**N-Grams (part of Clusters)**搭配**Collocates**词单**Word List**关键词单**Keyword List**注意每个工具都可以点击工具窗口上各自的选项卡或者使用功能键F1至F7打开。

Contents[hide]∙ 1 “索引”(Concordance)∙ 2 "索引定位"(Concordance Plot)∙ 3 “文件查看”(File View)∙ 4 “词丛”(Clusters)∙ 5 “N元模式”(部分词丛)∙ 6 “搭配”(Collocates)∙7 统计量(Statistical Measures)∙8 “词单”(Word List)∙9 “关键词单”(Keyword List)∙10 “菜单选项”(Menu Options)∙11 “总体设置”o11.1 “颜色设置”<Color Settings>o11.2 “字体设置”o11.3 "语言编码"<Language Encodings>∙12 “工具预设”o12.1 其它评论o12.2 致谢o12.3 法律事务“索引”(Concordance)索引工具生成用户选择的一个或多个目标文件的索引行(concordance lines或上下文关键词: key word in context)行。

ANTCONC

ANTCONC

AntConc开始是作为相对简单的索引程序,不过慢慢地进步成一个相对有用的文本分析工具。

它是在ActiveState供应商的优良Komodo跨平台支持多种程序软件的开发环境下用Perl5.8程序语言写成的。

这个程序只要双击可执行文件就可以打开,这个文件可以从Laurence Anthony实验室网站下载。

这个程序可以在任何窗口环境下运行,包括Win98/Me/2000/NT and XP,and also Macintosh OSX and Linux的电脑。

如果用户发现任何这个程序在一个特定的操作系统下的使用问题,请让我知道。

AntConc包括以下工具:索引**Concordance**索引定位**Concordance Plot**文件查看**File View**词丛**Clusters**N元模式(部分词丛)**N-Grams(part of Clusters)**搭配**Collocates**词单**Word List**关键词单**Keyword List**注意每个工具都可以点击工具窗口上各自的选项卡或者使用功能键F1至F7打开。

Contents[hide]∙1“索引”(Concordance)∙2"索引定位"(Concordance Plot)∙3“文件查看”(File View)∙4“词丛”(Clusters)∙5“N元模式”(部分词丛)∙6“搭配”(Collocates)∙7统计量(Statistical Measures)∙8“词单”(Word List)∙9“关键词单”(Keyword List)∙10“菜单选项”(Menu Options)∙11“总体设置”o11.1“颜色设置”<Color Settings>o11.2“字体设置”o11.3"语言编码"<Language Encodings>∙12“工具预设”o12.1其它评论o12.2致谢o12.3法律事务“索引”(Concordance)索引工具生成用户选择的一个或多个目标文件的索引行(concordance lines或上下文关键词:key word in context)行。

用AntConc处理中文

用AntConc处理中文

用AntConc处理中文concordance, wordlist, N-gram不知道laohong用的什么宝贝!我的方法是这样的:我刚才是把Token Definition里面的letter token classes 下面的全部选中,再把Chinese Encoding 里面的第一项选中就行了,下面的我想就不用我来说了。

另外,我发现按照我的下午选项,其实没有进行分词的中文语料也是可以进行全文检索和显示的。

对不起各位,早上贴完帖子就搬家去了,累到现在才回家打开电脑。

这里是大家关心的我是如何用AntConc处理中文的:1、文本格式:大家有没有注意到上面贴的我试验AntConc的文本中既有中文简体、繁体也有英文?为了能在同一个文本中显示好中文简体、繁体和英文,我把所有文本都转存成UTF-8了。

也就是说,我用AntConc 处理的语料文本是存成UTF-8格式的,不是GB或Big5。

另外,中文文本是经过分词处理的。

请搜索本站找相关的自动分词和词性标注工具:SegT ag、ICTCLAS、NEUCSP、Hylanda、WinAT等。

2、设置AntConc:在Global Settings 下的Language Encodings,我没有选Chinese Encodings下的选项,而是选择了Unicode Encodings 下的Unicode(UTF-8)。

其它设置可以用默认的。

3、功能:这样设置后AntConc的功能就全部可以处理中文文本了,也就是说大家这样就可以用AntConc 来处理分词后的中文的Concordance,Wordlist,Cluster,N-Gram等等了。

Wordsmith 终于有了一个免费的竞争对手!请问如何显示卡方检验和互信息的值1.卡方检验是用做key words,需要一个参照语料库的wordlist和一个要分析语料库的wordlis.2.在Tool preference下选择Collocates preference 然后选择show statistics measure下的MI值或者T值然后再选择show collocate即可.3.2.1w 是最新版本,应该不是版本问题。

(完整版)AntConc的详细使用说明

(完整版)AntConc的详细使用说明

AntConc3.2.0的使用说明11.提取语境共现1.1设置检索项(1)单项检索a)点击file下拉菜单中的“open files”,选择要打开的语料(如果想打开整个文件夹,可以选择open directory);b)在“Search Term”一栏键入要检索的词项,如go;c)在“Search Window Size”一栏设置每一共现行出现的词数;d)点击,开始检索。

检索结果如图1.1所示:图1.1单项检索结果(2)多项检索●设置多项检索除了检索单个词项以外,AntConc还具有检索多个词项的功能,检索方法为在检索项间键入“|”符号。

例:要检索动词go的各种时态形式,可在“Search Term”中输入go|went|gone|goes●设置语境词检索为了限制语境共现的检索,可以设定一个语境词在检索项周边一定的语境范围内出现。

例:如要研究a … of 这一类词组,可通过AntConc提取所有的词项,检索方法如下:a)在“Search Term”一栏键入a;b)点击“Search Term”旁的,进入“Advanced Search”界面,如图1.2所示。

点击“Use context words and horizons”,然后在“ContextWords”一栏键入of,点击。

如要重新设置语境词,可先点击清除原来语境词,后重复以上操作。

另外,还需设定语境词距离检索项的1此说明书由华南师范大学外文学院2007研究生张杏娟编写,导师何安平订正和补充。

其中限定范围的检索方法由香港城市大学D.Lee博士提供,仅此致谢。

位置,如本研究中,of在a的右二位置,所以“Content Horizon ”确定为,最后点击;c)回到语境共现的界面后,点击,开始检索。

结果可提取a lot of, a bit of 等词块。

●设置多字语检索在研究中,如需检索多个词项,除了使用“|”以外,也可使用以下方法,尤其适合检索项数目较多的情况。

AntCone在话语标记语教学研究中的应用

AntCone在话语标记语教学研究中的应用

AntCone在话语标记语教学研究中的应用[摘要]AntConc是一款绿色语料库工具软件, 作者以标记语为例举例说明AntConc的检索、词丛、搭配和文件查看等功能辅助词汇、语法和篇章教学,最后阐明它是语言教师教学研究的好帮手,也是引导学生主动搜索、观察语料和掌握更地道语言的学习工具。

[关键词]AntConc;话语标记语;语境共现;外语教学研究语料库是语料的集合,面对海量的语料库,很难想象用人工(manual work)处理将会耗费多少时间和精力。

而要进行语料的检索,分析和处理离不开语料工具。

它可同时观察千万条语言实例,这种以概率和频率为基础的研究范式拓宽了二语习得研究的方法,语言学研究从关注具体问题向方法的转变。

[1]3-7目前,语料库检索工具软件主要有Free Text Browser, Conc 1.70, MicroConcord, Wordsmith, Web Concordancer等。

使用者可以根据自己的具体需求,有针对性地选择相应的检索工具。

WordSmith功能虽然强大,但它是商业软件,需要购买才能使用。

AntConc具有界面简洁和操作方便的优点,它的功能可以和Wordsmith Tools等软件相媲美。

王春艳通过与WordSmith 的基本功能进行对比,统计分析验证了AntConc的可信度。

[2]45-47一、AntConc 软件介绍AntConc 软件是日本早稻田大学Laurence Anthony编写的一款绿色语料处理软件。

该软件可以在http://www.antlab.sci.waseda.ac.jp/software.html下载,只有4.40M,可装在U盘等外接设备上,在任何窗口环境下处理几乎所有的语言。

对于一线教师来说, 更为重要的是可以免费下载,根据个人教学需要收集语料、整理加注就可以直接运用于课堂教学。

二、AntCon在话语标记语教学中的应用AntConc包括以下工具:检索、检索定位、文件查看、词丛、N 元模式、搭配、词表和关键词表,每个工具都可以点击工具窗口上各自的选项卡或者使用功能键F1至F7打开。

基于语料库工具AntConc对《...

基于语料库工具AntConc对《...

基于语料库⼯具AntConc对《...Overseas English Testing: Pedagogy and Research 国外英语考试教学与研究, 2020, 2(2), 106-119Published Online May 2020 in Hans. /doc/a216386486.html/journal/oetprhttps:///doc/a216386486.html/10.12677/oetpr.2020.22010A Corpus-Based Evaluation of the PrepEdgeBridging Writing Textbook via AntConc inTerms of Medium-Frequency VocabularyDifficulty and DistributionFengxian LiGuangzhou New Oriental School, Guangzhou GuangdongReceived: Mar. 8th, 2020; accepted: Apr. 15th, 2020; published: May 29th, 2020AbstractCorpus, a one-time unfamiliar concept restricted to only a certain number of professionals, has been gaining mounting momentum and revolutionizing the linguistic and education field. This paper aims to explore the methodology of corpus construction for the purpose of analytical studies of textbook evaluation. Basic functions like the concordance and cluster sections of corpus software AntConc demonstrate the possibility to evaluate the medium-frequency vocabulary difficulty and vocabulary distribution in the PrepEdge Bridging writing textbook. This essay aims to put forward relevant suggestions for improvement in language teaching and textbook compilation.KeywordsTextbook, Vocabulary, Difficulty, Frequency, Corpus, Concordance基于语料库⼯具AntConc对《PrepEdgeBridging》写作教材的中等频率词汇难度和词汇分布研究李丰贤⼴州新东⽅学校,⼴东⼴州收稿⽇期:2020年3⽉8⽇;录⽤⽇期:2020年4⽉15⽇;发布⽇期:2020年5⽉29⽇李丰贤摘要过去,语料库曾经是少数专业⼈⼠如语⾔学或语⾔测试学专家使⽤的⼯具;但现在随着电脑技术的⼴泛普及和教学理念的更新,基于语料库的研究⽅兴未艾。

antconc使用

antconc使用

英语词频 日本人开发,支持中文。 北大计算所98年1月份人民日报分词语料为例 计算词频,生成词频表; 计算n元组的出现频率; 保存结果
处理中文之间要做个语言设置,否则显示乱码
Antconc包括以下工具: 索引 Concordance 索引定位 Concordance Plot 文件查看 File View 词丛 Clusters N元模式(部分词丛) N-grams 搭配 Collocates 词单 Wordlist 关键词单 Keyword List
将指针移到其中一行索引行突出的检索词上, 指针变成手形工具,点击检索词,可以看到 检索词在原文出现的情况。 注意:索引行的总数在“concordance hits” 下显示,处理结束时,会“FINISHED”;如果 没有产生索引行,则“NO HITS”,并且索引 行的窗口不会更新。
检索词可以通过“search term”上面的word选项 设定为“词(默认)”或“词的片段”,也可以 通过case来选择不区分大小写,也可选择 “Regex”使用完整的正则表达式。 /quickstart.html
按Advanced键,可以进行更为复杂的搜索。
两个高级搜索项: 定义一组检索词,可以一行一个的输入,也 可以直接载入文件中的检索词单,这个特征 允许用户使用一大组检索词,但不用每次重 复输入;
定义上下文词(context words)和一个上下 文的范围,在这个范围中必须出现检索词;
选择显示的关键词数极限值; 选择是否显示负关键词(show negative keywords),即与参照语料库相比目标语料 库中不同寻常的低频词; 选择一个文本文件的参照语料库; 参照语料库的文件列表将在参照语料库选项 下的窗口中显示出来; 点击Apply,返回主窗口; 选择生成关键词单的排列选项; 点开始键,可随时中止; 点击关键词会产生一组上下文关键词行。

(完整版)AntConc的详细使用说明.doc

(完整版)AntConc的详细使用说明.doc

(完整版)AntConc的详细使用说明.docAntConc3.2.0 的使用说明11.提取境共1.1 置索( 1)索a)点 file 下拉菜中的“ open files”,要打开的料(如果想打开整个文件,可以 opendirectory);b)在“ Search Term”一入要索的,如 go;c)在“ Search Window Size”一置每一共行出的数;d)点,开始索。

索果如 1.1 所示:图 1.1 单项检索结果(2)多索置多索除了索个以外, AntConc 具有索多个的功能,索方法在索入“ |”符号。

例:要索go 的各种形式,可在“Search Term”中入go|went|gone|goes置境索了限制境共的索,可以定一个境在索周一定的境范内出。

例:如要研究a ? of 一,可通AntConc 提取所有的,索方法如下:a)在“ Search Term”一入a;b)点“ Search Term”旁的,入“ Advanced Search”界面,如 1.2 所示。

点“ Use context words and horizons”,然后在“ ContextWords”一入 of,点。

如要重新置境,可先点清除原来境,后重复以上操作。

另外,需定境距离索的位置,如本研究中,of 在a 的右二位置,所以“ Content Horizon”确定为,最后点击;c)回到语境共现的界面后,点击,开始检索。

结果可提取 a lot of, a bit of等词块。

设置多字语检索在研究中,如需检索多个词项,除了使用“|”以外,也可使用以下方法,尤其适合检索项数目较多的情况。

例:研究感官动词watch, sound, feel, hear, smella)在TXT文本中键入所有要检索的词项,可多达250 个词。

然后为该文本起名保存。

需注意:键入的词项需以列的形式排列。

如:feelfeelsfeltb)点击Search Term旁的,选择“ Use search term(s) from list below”。

AntConc软件基本操作

AntConc软件基本操作

主讲人:李广伟010302AntConc 软件介绍AntConc 功能介绍AntConc 功能演示AntConc基本操作AntConc是由日本早稻田大学(WasedaUniversity)教授Laurence Anthony开发的一款免费的语料库检索工具,主要用于语料库语言学、翻译学、外语教学等领域。

AntConc软件介绍 功能介绍图1 AntConc打开主界面如上图所示,AntConc包含“concordance”索引工具、“Concordance Plot”索引定位、“File View”文件查看、“Clusters/ N-Gram”词丛/N元模式、“Collocates”搭配、 “Word List”词表、“Keyword List”关键词表等菜单。

◆ 该软件具有提取语境共现、提取搭配词表、提取词频表等功能,以下《黄帝内经·素问》为例进行逐一说明:◆ 运用concordance工具进行提取语境共现,首先,单击File菜单,选择Open Files, 选择要打开的语料(如果想打开整个文件夹,可以选择open directory),然后,在下方Search Term下的输入框里输入“Huangdi”。

功能介绍AntConc功能演示提取语境共现图2“Huangdi”语境共现界面如2所示,“Huangdi”一词被用蓝色进行了凸显,《黄帝内经·素问》英译本里共出现“Huangdi”644次。

◆ 单击“start”,检索结果呈现在KWIC里显示,如下图所示:AntConc还具有检索多个词项的功能,检索方法为在检索项间键入“|”符号,如在“Search Term”里输入“do|does|did|doing|done”(如图3),还可以单击“Advanced”,勾选“Use search term(s) from list below”。

在检索下面框手动输入(也可以直接加载一个txt词表用来检索),注意每个单词独立成行,设置完成后单击“Apply,然后回到语境共现界面。

antconc 检索单词词形

antconc 检索单词词形

antconc 检索单词词形
AntConc 是一个用于分析语料库的软件,它可以帮助你检索和处理文本数据。

使用AntConc 检索单词的词形变化,可以按照以下步骤进行:
1. 打开AntConc 软件,并加载你想要分析的语料库。

2. 在主界面上,选择你想要分析的文本文件或文件夹。

3. 在“Wordlist”选项卡下,选择“Conc”按钮,以打开一个词频统计表。

4. 在词频统计表中,你可以看到每个单词的出现次数和频率。

在“Form”列中,你可以看到单词的各种词形变化。

5. 根据需要筛选和排序单词,以查看特定词形的出现次数和频率。

需要注意的是,AntConc 的词形变化检索功能取决于你的语料库中包含的文本数据。

如果你的语料库中包含多个语言的文本,AntConc 可以自动识别不同语言的词形变化。

如果你的语料库中只包含一种语言的文本,AntConc 也可以识别该语言的词形变化。

语料检索的速成教程:已经词性赋码语料的检索

语料检索的速成教程:已经词性赋码语料的检索

《语料检索的速成教程:已经词性赋码语料的检索》 作者:李亮(广东外语外贸大学 词典学中心)2012年8月16日 Email: 492130980@AntConc的下载地址http://www.antlab.sci.waseda.ac.jp/software.html【步骤1】准备两个txt文件,和AntConc软件;【步骤2】其中一个txt文件是“干净语料”;【步骤3】而另一个txt文件是“下划线型”的词性标注(POS,parts of speech),adj表示形容词,vt表示及物动词,period表示句号;【步骤4】运行AntConc,从菜单“File”上选择“Open File(s)”;【步骤5】在“文件选择对话框”中找到即将处理的文件,“打开”它;【步骤6】它就被加载到AntConc的左侧上方的“待处理的文件列表”了,虽然看到是因为中文文件名而乱码却不影响我们后续的操作;【步骤7】假设我们需要检索“形容词+名词”这样的搭配,就输入“*/adj */noun”,这里是“星号+斜线+词性标签”的哈;注意adj后面有1个空格;【步骤8】近距离看看吧,“Windows放大镜”真是帮助了“近视眼”!【步骤9】“Words”这个选项的前面的小勾勾,可以勾上,可以不够上都不太影响检索结果的;星号是“通配符”,表示一个或多个字符;例如“b*e”就表示bee或bake或battle;再例如“*ful”就表示artful或helpful或skillful之类的【步骤10】点“Start”按钮之后就看到检索结果了,关键部分的单词们都变成了天蓝色,被染色的也包括了“词性标签”呢【步骤11】近看一下吧,好美哟【步骤12】如果不是检索搭配模式,而只是检索某个词性(词类)的话,就直接来个“星号加斜线加词性标签”;注意哈,“/”这是斜线,而“\”这是反斜线哟,上面偏左或是偏右决定了“正反”,嘻嘻“左倾是反,右倾是正”【步骤13】近观一下结果吧,蓝蓝的是“被命中的对象们”【步骤14】如果你不需要看到检索结果有“词类标签”,那么就要进行“Global Settings”的小小设置哈【步骤15】“显示,彻底隐藏,隐藏而可被检索”这三项要选择第3个,同时,一定要把“Hide embedded tags”的默认的“_”改为“/”,因为我们是“斜线型标注”【步骤16】设置完,不要忘记点右下角的“Apply”按钮哟,否则你就等于放弃了这些设置了!【步骤17】设置完,我们再次确认,是“*/adj”,就是要检索所有的“形容词adjective”,好,点“Start”【步骤18】出来了!蓝蓝的形容词们啊,可苦了我的一番心血【步骤19】到上面为止你已经掌握了“斜线型词类标注”的检索,但是,“XML型标注”正在崛起,越来越多呢,我们继续学“XML型词类标注”的检索技巧吧……【步骤20】假设我们仅仅是对fat进行了标注,“<adj>”这是XML标注的“起始标签”,“</adj>”这是XML标注的“结尾标签”,前后呼应,真是壮观而科学呀!瞧,下面我输入的“东东”【步骤21】输好了,就点“Start”按钮【步骤22】哇,再次呈现漂亮的检索画面:带XML标签的fat呢【步骤23】好,上面就是XML型标注的检索的技能,下面是“下划线型词性标注”的检索讲解,瞧,下面的“东东”【步骤24】假设我们只是对fat进行了“下划线型标注”,我们同样是输入“*_adj”这么一个符合当前需求的“特殊字符串”来搜索……星号表示一个或多个字符所组成的“某个单词”【步骤25】瞧,关键词+下划线+语料标签都变成了“蓝精灵”【步骤26】学到这里,但你也许照着做却发现完全不能出来上面的任何结果呢,为什么?原因极大可能就是“文字编码”不是AntConc所默认所喜欢的“ANSI”!所以,跟我来,把你的txt文件变一变吧,经过一个小操作你就成功了!【步骤27】如上图,双击打开你的txt文件,然后点“另存为”【步骤28】瞧上图的下部的“编码”,你当前是“UTF-8”这种文字编码呢,怎么会这样呢,别管了,你直接把它变成ANSI吧就能检索了,听我的没错!【步骤29】你鼠标选择“编码”这个下拉菜单中的第一项“ANSI”,然后点“保存”,稍等一两秒,就算做好了!【步骤30】那么,汉语语料用上述方法是否也能搞掂呢?答案是“否”【步骤31】上图的汉语语料已经被典型的标注为“斜线型词性标注”了,用“*/adj”检索下,看看效果如何?【步骤32】天!全乱了,虽然其中的“/adj”与“/noun”等标签依然是“依稀可见”【步骤33】别急,小意思,设置一下“文字编码”即可“破镜重圆”的【步骤34】点“Global Settings”的“Language Encodings”,然后点“Edit”这个按钮,它弹出一个下拉菜单来……你就如下图的选一下啦【步骤35】点了“Apply”按钮,确认且退出之后,就在主界面点“Start”按钮……哇,奇迹出现了,不仅不乱码,连左侧的文件名列表也完全是正常的汉字了!【步骤36】日语的语料检索却跟英语和汉语都不一样呢,下面我展示一下【步骤37】上图是一句日语,第二行是对应的汉语句子;下图是用斜线标注,标注用的汉语标签;【步骤38】日语检索的特殊性在于你必须提供“UTF-8”的文字编码的txt文件,所以我们双击打开语料文件之后,点菜单“另存为”;【步骤39】把默认的“ANSI”的编码,重新选择为“UTF-8”,点保存,然后退出;【步骤40】启动AntConc,还需要设置一下“Language Encoding”,有点熟练了,对不对?毕竟做了好几遍了【步骤41】如下图,你选择“uft8”,它是Unicode编码的8位形式,也属于Unicode,而16位甚至32位的Unicode是未来的大趋势!【步骤42】如下图,输入我们要检索“名词”……【步骤43】如下图,日文显示完全正常,以上做法是我的推荐,也许还有其他可行的做法,欢迎你找找看……。

学习使用计算机辅助语言学工具

学习使用计算机辅助语言学工具

学习使用计算机辅助语言学工具计算机辅助语言学工具是一种利用计算机技术来辅助语言学研究的工具。

通过使用这些工具,语言学家可以更加高效地进行语言学分析、文本处理、语音处理和翻译等任务。

学习使用计算机辅助语言学工具,不仅可以提高语言学研究的效率和准确性,还可以拓宽研究的领域和方法。

本文将介绍几种常见的计算机辅助语言学工具,以及如何学习和应用这些工具。

一、语料库工具语料库是指一大批真实的语言材料,如书籍、报纸、互联网文本等,是语言学研究的重要数据来源。

计算机辅助语言学工具中的语料库工具可以帮助语言学家对语料库进行检索、统计和分析。

1. AntConcAntConc是一款免费开源的语料库分析工具。

它可以对大规模的语料库进行词频统计、关键词提取、共现分析等操作。

学习使用AntConc可以帮助语言学家深入理解语料库数据,发现语言中的规律和特点。

2. Sketch EngineSketch Engine是一款强大的语料库查询工具。

它提供丰富的查询选项,可以帮助语言学家根据具体的研究问题来提取相关语料,进行定量分析和比较研究。

掌握Sketch Engine的使用方法,可以使语言学研究更加深入和精确。

二、文本处理工具文本处理是语言学研究中的常见任务,如文本清洗、标注、分词、词性标注等。

计算机辅助语言学工具中的文本处理工具可以帮助语言学家自动完成这些繁琐的任务。

1. NLTKNLTK(Natural Language Toolkit)是一款常用的Python文本处理工具包。

它提供了丰富的文本处理函数和算法,可以帮助语言学家进行文本预处理、特征提取和机器学习等任务。

学习使用NLTK可以提高文本处理的效率和准确性。

2. Stanford CoreNLPStanford CoreNLP是一款基于Java的文本处理工具包。

它提供了多种自然语言处理功能,如分句、分词、词性标注、句法分析等。

掌握Stanford CoreNLP的使用方法,可以对文本进行全面的语言分析和理解。

语料库辅助EFL自主学习的多维探索第3章

语料库辅助EFL自主学习的多维探索第3章


AntConc http://www.antlab.sci.waseda.ac.jp/antconc_in dex.html Wordsmith Tools /wordsmith/index.html Wordsmith Tools 中文使用说明: /view/195a3704cc175 527072208a3.html Range /lals/staff/paulnation/nation.aspx




AntConc官方使用指南、视频演示教程: http://www.antlab.sci.waseda.ac.jp/software/READ ME_AntConc3.2.4.pdf AntConc中文版官方使用指南(熊庆安译): /antconc-user-manual/ AntConc详细使用说明书(张杏娟编写,何安平订 正和补充): /view/f3860043336c1eb9 1a375df2.html

案例:7:如何查询文本中情态动词的使用情 况?

案例8:如何查询swelter在文中的词汇搭配 情况?

案例9:如何查询介词in在文中的用法有几 种?

案例10:在I Have a Dream一文中,哪些实 义词出现的频率较高?这说明了什么?

案例11:I Have a Dream 这篇演讲中哪些单 词含有抽象名词后缀-ity?

案例2:I Have a Dream中dream一词主要出 现在文中的什么位置?我们从中可以观察 到什么信息?

案例3:如何利用正则表达式检索sign的各 种形式?

案例4:如何利用通配符查询文本中含明喻 这种修辞手法的句子?

案例5:如何查询文本中的“名词 + of…” 结构?

语料检索的速成教程:AntConc生鲜入门

语料检索的速成教程:AntConc生鲜入门

《语料检索的速成教程:AntConc生鲜入门》作者:李亮(广东外语外贸大学 词典学中心)2012年8月27日 Email: 492130980@【步骤1】AntConc这款免费软件,诞生于2002年4月16日(当时是1.0版),到2012年8月就刚好10年4个月了,适合处理不超过200MB的英语语料,因为当你处理200MB 的txt文件的时候,要占用1GB的物理内存呢,而100万英语单词的“中国英语学习者语料库”(CLEC库)才6.6MB,足够处理30个“CLEC库”了,也就是3千万单词的英语语料库;作者是长年居住在日本早稻田大学的英国俊男(1970年出生),本科是物理专业,硕博士阶段就转向语言学了,读博期间开发了针对博士论文的AntConc;【步骤2】AntConc有七大功能,你一看(下面截图的7个菜单项目)就眩晕的话,不妨听我打一些比方;整体上说,一个所谓的语料库检索软件,就是来计算“3大关系”:(1)一大堆的文章到底有多少单词?(2)这些单词的两侧经常有哪些单词?(3)同一个词在这一大堆文章中的出现频率,是否跟在另一大堆文章中的出现频率有显著差异?【步骤3】无论你是学英语或是教英语的人士,你都是一个社会普通成员,必然有自己的人际交往圈子,也必然有擦肩而过的身边人,擦肩而过的人也许跟你认识就打个招呼,也许跟你不认识,所以就算你打招呼,对方也只能难堪地笑笑或盯着你;一个人,其实跟书本上的单词,跟生活中的单词挺相似的境遇,都是接触面挺宽,亲密人并不多;【步骤4】AntConc就像一个私家侦探,你随时可以抓来一大堆英语文章,把这些文章中的熟悉单词和陌生单词都做个“清单”和“谱系图”和“交际分析”;【步骤5】AntConc的7大菜单,其实相当于在回答这7大问题:●●●●经常擦肩的身边人有哪些?(Clusters)●固定交往的身边人有哪些?(Collocates)●●多处兼职的身边人有哪些?(Keyword List)【步骤6】诚然,打比方只是一种“切入”,到底有多么确切,也见仁见智;下图是在阿富汗与巴基斯坦边境地区被小培养为恐怖分子的三个小男孩,他们怀抱的是“AK47”(诞生于1947年,是苏联人研制的稳定耐用的优秀的自动步枪);而“AK47”在整体上虽然你应该把它看作一个单词,但是,AntConc的默认状态却是只认“AK”呢!【步骤7】我们当前所处的时代是“2010s”,根据维基百科,它意味着2010年1月1日到2019年12月31日之间的整整10年,我是“70后(70s)”,你也是“70s”或者“60s”或“80s”啦,“We are 70s”这三个词,AntConc会告诉你“它”只看到“We are s”这三个词,它这么抬高“s”这个后缀字母的地位,你也许极为不赞成,但这就是AntConc 的默认状态!【步骤8】"2012"是一部关于全球毁灭的灾难电影,讲述在2012年世界末日到来时,主人公以及世界各国人民挣扎求生的经历,当你用AntConc来计算“2012 is a good film”这个句子有多少个单词,AntConc会告诉你“只有4个单词”,因为它在默认状态下会对“独立连续的数字串或依附于其他英语字母的连续数字串”视而不见!这也就解释了上面的“AK”与“47”发生脱离的问题;【步骤9】英语中有挺多的系动词或助动词或情态动词所构成的否定表达的缩略形式,例如is not变成了isn't呀,are not变成了aren't呀,was not变wasn't呀,has not变hasn't呀,will not变won't呀,would not变wouldn't呀,shall not变shan't呀,do not 变don't呀,did not变didn't呀,ought not变oughtn't呀;反正,单引号都代表着“被省略的字母o”;这些“中间有单引号兼省略号的否定合成词”你让AntConc来计算“单词个数”,它会默认把它们进行“强拆”,把“单引号”当作空格呢,所以“didn't”就变成了“didn”和“t”,而“isn't”变成了“isn”和“t”,而“don't”变成了“don”和“t”,天啦,“don”可也是一个独立的单词呢,意思是“校长”或“黑帮老大”!【步骤10】英语中也有“Ph.d.”或“a.m.”或“o'clock”或“etc.”这类单词,其他中间或单词尾部带“省略符号”的词也频频露面;AntConc也都把“省略符号”当作“词与词的国境线”而把它们强拆开;【步骤11】上面这些“AntConc的默认状态的异常现象”的根源,并非AntConc的“缺陷”,而是英语实在是太复杂了,“一条规则”总是夹杂着“多条意外规则”,到底是“漏过居多”抑或是“误抓居多”也跟个人的具体需求有很大关系,你瞧AntConc的默认的对单词的识别规则是“纯粹字母的连续体”呢!……一旦遇到一个并非字母的符号就被当作“前一个单词与后一个单词的分界线”了【步骤12】上面都是在回答“生活独立的成年人有多少?”,这是“单词”与“成年人”之间的比喻;这个问题影响深远,你在使用不同的语料检索软件的时候,它们的单词计算结果不一致,搭配词计数不一致,统计检验值不一致,语块生成列表不一致,应该就是从“什么是独立且完整的单词”而缘起的!【步骤13】像你我这样的普通成年人,每天在生活中遇到的人分为3大类:视而不见类,点头之交类,促膝谈心类。

AntConc

AntConc

AntConcAntConc开始是作为相对简单的索引程序,不过慢慢地进步成一个相对有用的文本分析工具。

它是在ActiveState供应商的优良Komodo 跨平台支持多种程序软件的开发环境下用Perl5.8程序语言写成的。

这个程序只要双击可执行文件就可以打开,这个文件可以从Laurence Anthony实验室网站下载。

这个程序可以在任何窗口环境下运行,包括Win 98/Me/2000/NT and XP, and also Macintosh OSX and Linux的电脑。

如果用户发现任何这个程序在一个特定的操作系统下的使用问题,请让我知道。

AntConc包括以下工具:索引**Concordance**索引定位**Concordance Plot**文件查看**File View**词丛**Clusters** N元模式(部分词丛)**N-Grams (part of Clusters)**搭配**Collocates**词单**Word List**关键词单**Keyword List**注意每个工具都可以点击工具窗口上各自的选项卡或者使用功能键F1至F7打开。

Contents[hide]1 “索引”(Concordance)2 "索引定位"(Concordance Plot)3 “文件查看”(File View)4 “词丛”(Clusters)5 “N元模式”(部分词丛)6 “搭配”(Collocates)7 统计量(Statistical Measures)8 “词单”(Word List)9 “关键词单”(Keyword List)10 “菜单选项”(Menu Options)11 “总体设置”o11.1 “颜色设置”o11.2 “字体设置”o11.3 "语言编码"12 “工具预设”o12.1 其它评论o12.2 致谢o12.3 法律事务“索引”(Concordance)索引工具生成用户选择的一个或多个目标文件的索引行(concordance lines或上下文关键词: key word in context)行。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《语料检索的速成教程:AntConc生鲜入门》作者:李亮(广东外语外贸大学 词典学中心)2012年8月27日 Email: 492130980@【步骤1】AntConc这款免费软件,诞生于2002年4月16日(当时是1.0版),到2012年8月就刚好10年4个月了,适合处理不超过200MB的英语语料,因为当你处理200MB 的txt文件的时候,要占用1GB的物理内存呢,而100万英语单词的“中国英语学习者语料库”(CLEC库)才6.6MB,足够处理30个“CLEC库”了,也就是3千万单词的英语语料库;作者是长年居住在日本早稻田大学的英国俊男(1970年出生),本科是物理专业,硕博士阶段就转向语言学了,读博期间开发了针对博士论文的AntConc;【步骤2】AntConc有七大功能,你一看(下面截图的7个菜单项目)就眩晕的话,不妨听我打一些比方;整体上说,一个所谓的语料库检索软件,就是来计算“3大关系”:(1)一大堆的文章到底有多少单词?(2)这些单词的两侧经常有哪些单词?(3)同一个词在这一大堆文章中的出现频率,是否跟在另一大堆文章中的出现频率有显著差异?【步骤3】无论你是学英语或是教英语的人士,你都是一个社会普通成员,必然有自己的人际交往圈子,也必然有擦肩而过的身边人,擦肩而过的人也许跟你认识就打个招呼,也许跟你不认识,所以就算你打招呼,对方也只能难堪地笑笑或盯着你;一个人,其实跟书本上的单词,跟生活中的单词挺相似的境遇,都是接触面挺宽,亲密人并不多;【步骤4】AntConc就像一个私家侦探,你随时可以抓来一大堆英语文章,把这些文章中的熟悉单词和陌生单词都做个“清单”和“谱系图”和“交际分析”;【步骤5】AntConc的7大菜单,其实相当于在回答这7大问题:●擦肩而过的身边人有哪些?(Concordance)●左右两侧距人群边缘多远?(Concordance Plot)●百米以内的身边人有哪些?(File View)●经常擦肩的身边人有哪些?(Clusters)●固定交往的身边人有哪些?(Collocates)●生活独立的成年人有多少?(Word List)●多处兼职的身边人有哪些?(Keyword List)【步骤6】诚然,打比方只是一种“切入”,到底有多么确切,也见仁见智;下图是在阿富汗与巴基斯坦边境地区被小培养为恐怖分子的三个小男孩,他们怀抱的是“AK47”(诞生于1947年,是苏联人研制的稳定耐用的优秀的自动步枪);而“AK47”在整体上虽然你应该把它看作一个单词,但是,AntConc的默认状态却是只认“AK”呢!【步骤7】我们当前所处的时代是“2010s”,根据维基百科,它意味着2010年1月1日到2019年12月31日之间的整整10年,我是“70后(70s)”,你也是“70s”或者“60s”或“80s”啦,“We are 70s”这三个词,AntConc会告诉你“它”只看到“We are s”这三个词,它这么抬高“s”这个后缀字母的地位,你也许极为不赞成,但这就是AntConc 的默认状态!【步骤8】"2012"是一部关于全球毁灭的灾难电影,讲述在2012年世界末日到来时,主人公以及世界各国人民挣扎求生的经历,当你用AntConc来计算“2012 is a good film”这个句子有多少个单词,AntConc会告诉你“只有4个单词”,因为它在默认状态下会对“独立连续的数字串或依附于其他英语字母的连续数字串”视而不见!这也就解释了上面的“AK”与“47”发生脱离的问题;【步骤9】英语中有挺多的系动词或助动词或情态动词所构成的否定表达的缩略形式,例如is not变成了isn't呀,are not变成了aren't呀,was not变wasn't呀,has not变hasn't呀,will not变won't呀,would not变wouldn't呀,shall not变shan't呀,do not 变don't呀,did not变didn't呀,ought not变oughtn't呀;反正,单引号都代表着“被省略的字母o”;这些“中间有单引号兼省略号的否定合成词”你让AntConc来计算“单词个数”,它会默认把它们进行“强拆”,把“单引号”当作空格呢,所以“didn't”就变成了“didn”和“t”,而“isn't”变成了“isn”和“t”,而“don't”变成了“don”和“t”,天啦,“don”可也是一个独立的单词呢,意思是“校长”或“黑帮老大”!【步骤10】英语中也有“Ph.d.”或“a.m.”或“o'clock”或“etc.”这类单词,其他中间或单词尾部带“省略符号”的词也频频露面;AntConc也都把“省略符号”当作“词与词的国境线”而把它们强拆开;【步骤11】上面这些“AntConc的默认状态的异常现象”的根源,并非AntConc的“缺陷”,而是英语实在是太复杂了,“一条规则”总是夹杂着“多条意外规则”,到底是“漏过居多”抑或是“误抓居多”也跟个人的具体需求有很大关系,你瞧AntConc的默认的对单词的识别规则是“纯粹字母的连续体”呢!……一旦遇到一个并非字母的符号就被当作“前一个单词与后一个单词的分界线”了【步骤12】上面都是在回答“生活独立的成年人有多少?”,这是“单词”与“成年人”之间的比喻;这个问题影响深远,你在使用不同的语料检索软件的时候,它们的单词计算结果不一致,搭配词计数不一致,统计检验值不一致,语块生成列表不一致,应该就是从“什么是独立且完整的单词”而缘起的!【步骤13】像你我这样的普通成年人,每天在生活中遇到的人分为3大类:视而不见类,点头之交类,促膝谈心类。

视而不见类,是陌生人,他们的生活跟你的生活只是擦肩而过,或恰好乘坐同一辆公交车去另一个地方;点头之交类,是“形式上的熟人”,礼尚往来仅限于“点头”;促膝谈心类,可以上门求教或送礼或拉家常;英语中的单词与其他单词之间也恰好是这三类关系呢!一个单词总是有很多的单词相伴左右,都是偶然的,纯属“路过”;一个单词也总是有不太多的单词是它的“点头之交”,也许哪天真的变成“促膝之交”了呢;一个单词到底有多少的促膝之交,跟这个单词本身的是否经常“出门”有重大关系,也跟这个单词的“先天素质”有重大关系;【步骤14】AntConc这个软件的巨大优势在于,它能高速地在“单词的海洋”或“人潮汹涌”中找到你的“百米以内者、擦肩而过者、经常擦肩者、固定交往者”,这四类从左到右是“从疏远到亲密”呀!英语中的“百米以内者”是“上下文语境中的更多单词”,“擦肩而过者”是“偶然在一起的若干单词”,而“经常擦肩者”是“习惯表达”或“固定短语”,而“固定交往者”就是“搭配”或“习语”啦!【步骤15】从“语言学是一门先进的科学”的角度来说,“语料库”就像一个“试管”或“森林公园”或“饲养场”,把大量的野生动物汇集到了一起,你可以随时观察,它们也不会溜掉或逃逸,你可以测量它们的各种特征,也可以把它们三五成群地组成一个新的观察视角,甚至可以在它们身上安装监控跟踪器,哪怕漆黑的夜里你也知道它身处何处!所以,在一个“库”或“栅栏内”的语料们,总是有“围墙”的,某个单词距离围墙有多远,这就是AntConc试图回答的“左右两侧距人群边缘有多远?”,这就是把整个语料文件当作一个饲养场,每个单词都相当于在一个有一定长度的直线上的某个位置!(语料软件把一个语料文件进行扫描,总是从第一个词到最后一个词,总共100个词的话,你是第50个词,就正好在一个直线的正中央呢。

【步骤16】有了“库”,就像有了一个微型的虚拟城市;每个词,都有了多个活动空间或活动场所或多重身份;你会看到一个人在家是丈夫,在医院是病人,在商店是顾客,在学校是学生,在公司是领导,但是,哪种身份才是“更本质”呢?回答这个问题,一则要看你是怎么定义“本质”的,二则要看你期望得到什么样的答案,三则要看你用什么手段或工具来衡量,四则要看你是否给不同的测量以不同的权重(重视程度);回到英语单词,你会发现日常词汇往往也能出现在专业领域,浅显单词也能出现在深奥文章,童年言辞也容易变为成人用语;进一步回到语料库语言学来说,这叫做“词汇在不同语料库之间的对比及其显著性”;这样的对比能发现某个单词在客场作战的时候是否真的是客场的“重要人物”!【步骤17】很多人一拿到AntConc就急于看结果,其实AntConc跟大部分软件一样,要从菜单“文件”的“打开”一个文件而开始的;否则,一个软件怎么知道你要处理“谁”或“哪个文件”呢,它自动推测的话,岂不乱了套!【步骤18】选了一个文件,它就躺在“语料文件列表(Corpus Files)”了;你可以一次选择多个文件到这个列表(如下图),也可以多次选取来不断添加到这个列表;【步骤19】上面两个图的右侧的图片的“9.txt”是用鼠标点了一下,就变成了天蓝色的“选中状态”,你就可以把它从列表中“踢掉”了,同样是点“File”菜单……【步骤20】上面的第1个图的“Close File”就是踢掉当前选中的某个文件,第2个图的“Close All Files”就是踢掉当前列表的所有文件,而“Open Dir”就是把一个文件夹的所有txt文件都自动添加到当前的文件列表中,而不用你逐个选择,Dir是Directory 是“目录”是“文件夹”的意思;【步骤21】一旦选择好了一个或多个你准备进行分析的文件,输入一个词(组),就可以点“Start”这个按钮来进行“Concordance”了!【步骤22】Concordance就是找“某个词(组)”的“擦肩而过的身边人有哪些?”说白了,就是看“左右两侧的10个词左右的范围的语境”,中央是天蓝色或其他的耀眼颜色凸现的“搜索词(组)”,“hit(命中)”就是“找到了一个”,而“KWIC”是KeyWord In Context的缩写,就是方便你集中地观察每个含有“搜索目标”的“局部文本”;【步骤23】你现在知道了“点一个按钮,就能找到很多实例”了,下一步就往往是肉眼观察,但是,你看到的结果只是按照在原文中出现的先后顺序而呈现,所以不利于你观察左右两侧的相同搭配词的相互对比,例如:【步骤24】所以,你需要点一下“排序”按钮;但是,排序总要有“标准”呀,而AntConc 的默认标准是“右侧第一个词最优先,其次是右侧第二个词,再次是右侧第三个词”【步骤25】AntConc的默认状态是“通吃大小写”,无论你输入“a”或“A”,它就找来所有的“a”和“A”,这叫做“大小写不敏感”;你瞧“AIDS”和“aids”就很不一样嘛;China和china是只有一个字母的大小写差别却是“专用名词与普通名词的差异性”;【步骤26】在“搜索输入框”的右侧,还有一个“Advanced”按钮,当你需要对多个词进行先后检索却不希望多次输入而希望一次输入就看到多次检索的结果的话,你就点它;这“高级”按钮就两个功能,另一个功能是“准ConcGram”,就是一个句子或段落同时含有多个“搜索词”但不要求这些搜索词的先后出现顺序;上面两个截图的上半部就是“多次同时做”,下半部就是“多词同时有”,哈哈,我这么概括,太生动了!要特别注意的是,你输完单词,一定要勾上上面右侧截图中的一个或两个箭头所指向的小勾勾哟,否则“设置等于无效,是不执行”的!同时,你做ConcGram 的时候,一定要设置一个“左右范围”如下图(6L就是左侧6个词,6R就是右侧6个词),下面的第2个图是“准ConcGram”在AntConc中必须设置的某个“中心词”【步骤27】点了“Apply”而让设置确认之后,回到主界面,点“Start”按钮,稍等,就会看到……上面就是以“is”为中心为蓝色凸显,而同时在左右两侧6个词范围内,必须同时有the 和to这两个词的检索效果!而“标准的ConcGram检索”可以限定在一定的单词连续出现的范围有若干个搜索词,最后把这些搜索词都染成不同颜色而凸显!ConcGram是个有点复杂的概念,看看下面的标准的ConcGram吧……上图,是“what”和“call”这两个词的ConcGram;下图,是“we”和“facing”和“challenges”这三个词的ConcGram;可见,ConcGram有个中心词,用来对齐其他词的相对位置【步骤28】对着检索出来的“中央的蓝色的单词”,你鼠标左键点一下,就会自动调转到源文件中的对应的部分(见下面的第2个图),这是“File View”功能,我把这功能叫做“百米之内的身边人有哪些?”,这个说法很形象吧?【步骤29】检索了某个词(组)之后,你可以点“Concordance Plot”来看在整个语料文件中的“词(组)分布”了,下面是CLEC库,整个库的开始部分是中学生语料,后续是大学英语四级和六级水平,最后是专业英语低年级和高年级,而我们检索的“totally”这个词比较难,所以,到了较高水平的阶段的作文才有了越来越多的出现,所以你看到整个分布是偏向右侧末尾就有“密集的竖线”了!【步骤30】Clusters就是“连续多个词且含有某个词(组)的文本片段”……【步骤31】上图的“Cluster Size”被我手工设为“3”,所以出现的结果都是3个词构成的“连续体”;如果你没有给出搜索词就要生成一系列的连续词块,那你就是要生成N-grams,你把“Cluster Size”设置为“4”或“2到5”,就能让AntConc列出某个“宽度”或“宽度范围”的所有单词块了,而此刻你发现“Clusters”这个字眼都变成“N-grams”这个字眼了!这,被我叫做“经常擦肩的身边人有哪些”,你看这些词块的频率都被AntConc列出了呢,Frequency(频率)就是“经常的程度”啦【步骤32】“Collocates”的语料检索的本质是发现“固定交往的身边人有哪些”,词典学家们也是借此而确定了“收入正式条目”的搭配性词(组);但是,词典学家是很保守的,不够正规或不够稳定或不够严肃或不够文雅的搭配往往被暂时“冷遇”;搭配也可能不是手牵手或肩并肩的,而是有其他若干词的“间隔”的,所以在AntConc中,让你可以指定“间隔程度”,左侧的第N个位置到右侧的第M个位置(下面的第1个图);你也可以指定至少要出现多少次才能算得上搭配且列入输出的“检索排行榜”(下面的第2个图),这样能避免太多的低频或只有一两次的单词也“脱颖而出”;当然,“搭配排行榜”也可以用多种方式进行排序(包括逆序),见下面的第3个图;“Sort by Word”就是按照单词字母顺序,“Sort by Freq(L)”就是“以左侧频率为排序标准”,“Sort by Word End”就是以每个词的从尾部往头部的逐个字母的排序顺序,“Sort by Stat”是按照默认的搭配强度计算方式的取值来排序(MI值或T-Score值);值得注意的是,Collocates功能是依赖“Word List”功能的,所以你还没有主动生成Word List之前,AntConc就会提醒说“即将自动产生Word List再产生Collocates列表”……【步骤33】下面第1个图是“Word List”的最高频部分,下面第2个图是“Collocates”的最高频部分,“Freq(L)”是“在被搜索词的左侧的次数”,“Freq(R)”是“在被搜索词的右侧的次数”,“Freq”是“在被搜索词的左侧与右侧的累加次数”,而“Stat”就是默认的或你设置的“MI值”或“T-Score值”;而“Word List”和“Collocates”的计算都涉及到“数字呀、标点呀、连字符呀之类的非字母能不能算作一个单词的整体组成或词与词之间的分隔符”的问题,这点你要注意哈【步骤34】至此,AntConc的七大菜单项目的功能我们已经只剩下“多处兼职的身边人有哪些?(Keyword List)”,这可能是最复杂的功能,不过你不用怕,我会“生鲜讲解”的,因为“多重身份”或“多处兼职”就是人和单词的共性嘛,但在AntConc中你并不能直接点一两点就算是“Keyword List分析”的,因为这种分析是来看那些单词在不同的语料库中的频率有“严重区别”的。

相关文档
最新文档