语料库检索程序concapp使用简介

合集下载

AntConc的详细使用说明

AntConc的详细使用说明

AntConc3.2.0的使用说明11.提取语境共现1.1设置检索项(1)单项检索a)点击file下拉菜单中的“open files”,选择要打开的语料(如果想打开整个文件夹,可以选择open directory);b)在“Search Term”一栏键入要检索的词项,如go;c)在“Search Window Size”一栏设置每一共现行出现的词数;d)点击,开始检索。

检索结果如图1.1所示:图1.1单项检索结果(2)多项检索●设置多项检索除了检索单个词项以外,AntConc还具有检索多个词项的功能,检索方法为在检索项间键入“|”符号。

例:要检索动词go的各种时态形式,可在“Search Term”中输入go|went|gone|goes ●设置语境词检索为了限制语境共现的检索,可以设定一个语境词在检索项周边一定的语境范围内出现。

例:如要研究 a … of 这一类词组,可通过AntConc提取所有的词项,检索方法如下:a)在“Search Term”一栏键入a;b)点击“Search Term”旁的,进入“Advanced Search”界面,如图1.2所示。

点击“Use context words and horizons”,然后在“Context Words”一栏键入of,点击。

如要重新设置语境词,可先点击清除原来语境词,后重复以上操作。

另外,还需设定语境词距离检索项的位置,如本研究中,of在a的右二位置,所以1此说明书由华南师范大学外文学院2007研究生张杏娟编写,导师何安平订正和补充。

其中限定范围的检索方法由香港城市大学D.Lee博士提供,仅此致谢。

“Content Horizon ”确定为,最后点击;c)回到语境共现的界面后,点击,开始检索。

结果可提取a lot of, a bit of 等词块。

●设置多字语检索在研究中,如需检索多个词项,除了使用“|”以外,也可使用以下方法,尤其适合检索项数目较多的情况。

语料检索的速成教程:AntConc生鲜入门

语料检索的速成教程:AntConc生鲜入门

《语料检索的速成教程:AntConc生鲜入门》作者:李亮(广东外语外贸大学 词典学中心)2012年8月27日 Email: 492130980@【步骤1】AntConc这款免费软件,诞生于2002年4月16日(当时是1.0版),到2012年8月就刚好10年4个月了,适合处理不超过200MB的英语语料,因为当你处理200MB 的txt文件的时候,要占用1GB的物理内存呢,而100万英语单词的“中国英语学习者语料库”(CLEC库)才6.6MB,足够处理30个“CLEC库”了,也就是3千万单词的英语语料库;作者是长年居住在日本早稻田大学的英国俊男(1970年出生),本科是物理专业,硕博士阶段就转向语言学了,读博期间开发了针对博士论文的AntConc;【步骤2】AntConc有七大功能,你一看(下面截图的7个菜单项目)就眩晕的话,不妨听我打一些比方;整体上说,一个所谓的语料库检索软件,就是来计算“3大关系”:(1)一大堆的文章到底有多少单词?(2)这些单词的两侧经常有哪些单词?(3)同一个词在这一大堆文章中的出现频率,是否跟在另一大堆文章中的出现频率有显著差异?【步骤3】无论你是学英语或是教英语的人士,你都是一个社会普通成员,必然有自己的人际交往圈子,也必然有擦肩而过的身边人,擦肩而过的人也许跟你认识就打个招呼,也许跟你不认识,所以就算你打招呼,对方也只能难堪地笑笑或盯着你;一个人,其实跟书本上的单词,跟生活中的单词挺相似的境遇,都是接触面挺宽,亲密人并不多;【步骤4】AntConc就像一个私家侦探,你随时可以抓来一大堆英语文章,把这些文章中的熟悉单词和陌生单词都做个“清单”和“谱系图”和“交际分析”;【步骤5】AntConc的7大菜单,其实相当于在回答这7大问题:●●●●经常擦肩的身边人有哪些?(Clusters)●固定交往的身边人有哪些?(Collocates)●●多处兼职的身边人有哪些?(Keyword List)【步骤6】诚然,打比方只是一种“切入”,到底有多么确切,也见仁见智;下图是在阿富汗与巴基斯坦边境地区被小培养为恐怖分子的三个小男孩,他们怀抱的是“AK47”(诞生于1947年,是苏联人研制的稳定耐用的优秀的自动步枪);而“AK47”在整体上虽然你应该把它看作一个单词,但是,AntConc的默认状态却是只认“AK”呢!【步骤7】我们当前所处的时代是“2010s”,根据维基百科,它意味着2010年1月1日到2019年12月31日之间的整整10年,我是“70后(70s)”,你也是“70s”或者“60s”或“80s”啦,“We are 70s”这三个词,AntConc会告诉你“它”只看到“We are s”这三个词,它这么抬高“s”这个后缀字母的地位,你也许极为不赞成,但这就是AntConc 的默认状态!【步骤8】"2012"是一部关于全球毁灭的灾难电影,讲述在2012年世界末日到来时,主人公以及世界各国人民挣扎求生的经历,当你用AntConc来计算“2012 is a good film”这个句子有多少个单词,AntConc会告诉你“只有4个单词”,因为它在默认状态下会对“独立连续的数字串或依附于其他英语字母的连续数字串”视而不见!这也就解释了上面的“AK”与“47”发生脱离的问题;【步骤9】英语中有挺多的系动词或助动词或情态动词所构成的否定表达的缩略形式,例如is not变成了isn't呀,are not变成了aren't呀,was not变wasn't呀,has not变hasn't呀,will not变won't呀,would not变wouldn't呀,shall not变shan't呀,do not 变don't呀,did not变didn't呀,ought not变oughtn't呀;反正,单引号都代表着“被省略的字母o”;这些“中间有单引号兼省略号的否定合成词”你让AntConc来计算“单词个数”,它会默认把它们进行“强拆”,把“单引号”当作空格呢,所以“didn't”就变成了“didn”和“t”,而“isn't”变成了“isn”和“t”,而“don't”变成了“don”和“t”,天啦,“don”可也是一个独立的单词呢,意思是“校长”或“黑帮老大”!【步骤10】英语中也有“Ph.d.”或“a.m.”或“o'clock”或“etc.”这类单词,其他中间或单词尾部带“省略符号”的词也频频露面;AntConc也都把“省略符号”当作“词与词的国境线”而把它们强拆开;【步骤11】上面这些“AntConc的默认状态的异常现象”的根源,并非AntConc的“缺陷”,而是英语实在是太复杂了,“一条规则”总是夹杂着“多条意外规则”,到底是“漏过居多”抑或是“误抓居多”也跟个人的具体需求有很大关系,你瞧AntConc的默认的对单词的识别规则是“纯粹字母的连续体”呢!……一旦遇到一个并非字母的符号就被当作“前一个单词与后一个单词的分界线”了【步骤12】上面都是在回答“生活独立的成年人有多少?”,这是“单词”与“成年人”之间的比喻;这个问题影响深远,你在使用不同的语料检索软件的时候,它们的单词计算结果不一致,搭配词计数不一致,统计检验值不一致,语块生成列表不一致,应该就是从“什么是独立且完整的单词”而缘起的!【步骤13】像你我这样的普通成年人,每天在生活中遇到的人分为3大类:视而不见类,点头之交类,促膝谈心类。

antconc平均句长

antconc平均句长

antconc平均句长随着语言学习与研究的不断发展,各类辅助工具应运而生。

其中,AntConc是一款备受瞩目的语料库分析软件,广泛应用于英语学习、教学和研究领域。

本文将详细介绍AntConc的平均句长分析功能,并探讨其在提高写作技巧和语言表达能力方面的实用价值。

首先,让我们了解一下AntConc的背景及功能。

AntConc由日本学者桥本尚久开发,适用于Windows和Mac操作系统。

这款软件的核心功能是处理和分析大型文本语料库,为语言学习者和研究者提供便利。

其中,平均句长分析是AntConc的一项重要功能,可以帮助用户了解文本的句子结构及表达能力。

接下来,我们来介绍一下如何安装和使用AntConc软件。

首先,从官方网站或其他可靠来源下载适用于您操作系统的AntConc安装包。

下载完成后,按照安装向导的提示完成安装过程。

安装完成后,打开AntConc,导入您需要分析的文本文件。

在软件界面中,您可以找到“平均句长”选项,点击后即可查看分析结果。

那么,AntConc的平均句长分析功能如何帮助我们提高写作技巧和语言表达能力呢?让我们深入了解这一功能。

在平均句长分析结果中,您将看到以下几个指标:1.总字数:文本中包含的总字数。

2.总句数:文本中的句子总数。

3.平均句长:文本中所有句子的平均字数。

4.最长句子:文本中最长的一句话。

5.最短句子:文本中最短的一句话。

通过分析这些指标,您可以更好地了解自己的文本特点,进而调整写作策略。

例如,如果您发现平均句长较长,可以尝试使用简练的表达方式,提高文章的阅读速度。

反之,如果平均句长较短,可以尝试加入一些长句,使文章更具深度。

同时,关注最长和最短句子,确保文章的句子结构多样,避免单调。

总之,AntConc的平均句长分析功能为语言学习者和创作者提供了一个实用的工具。

通过了解和运用这一功能,我们可以更好地掌握文本的句子结构和表达能力,进而提高写作水平。

【推荐】语料库语言学各种常用软件下载

【推荐】语料库语言学各种常用软件下载

【推荐】语料库语言学各种常用软件下载资料来源:博主按:以下文字和软件等版权属原作者,使用请注意版权。

部分网址可能失效,但是可以按图索骥。

博主对原文和原软件作者深表谢意!作者:张义出自:张义的语言学博客浏览/评论:3,577/5日期:2005年10月20日18:011.concapp04(concapp03的修订版,可支持超大字符集)软件下载地址;(concapp03版)2.Wconcord--语料库分析软件软件介绍:A slow but very stable concordancer that can create concordances,collocation tables,and frequency lists.Unfortunately,the output is limited to 16,000 lines.下载地址3.WordSmith Tools 4--语料库分析软件介绍Michael Scott's brilliant software.下载地址中科院计算所汉语词法分析系统ICTCLAS软件介绍:词是最小的能够独立活动的有意义的语言成分。

但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。

为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。

分词正确率高达97%以上,未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。

ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。

语料库AntConc软件的应用对《葡萄牙人十四行诗集》的分析研究

语料库AntConc软件的应用对《葡萄牙人十四行诗集》的分析研究

语料库AntConc软件的应用对《葡萄牙人十四行诗集》的分析研究作者:邓宇萍来源:《智富时代》2016年第03期【摘要】语料库语言学兴起于20世纪80年代,是一门新兴学科。

它主要以文本的检索,分析及统计数据为主。

常见的语料库软件如:Word Smith, AntConc等都可处理文本,为文学文本提供客观、理性的依据。

本文通过语料库语言学的方法,主要运用AntConc软件中的 Word List, Concordance, Concordance Plot, Keyword List 等工具来分析白朗宁夫人的《葡萄牙人十四行诗集》的文本内容,主题,语言特点等方面。

【关键词】AntConc软件;《葡萄牙人十四行诗集》;白朗宁夫人一、引言随着科技的日星月异,计算机科学应用在语言类人文学科的研究,也越来越呈现出新的视角和上升之势。

语料库语言学作为一个新兴发展的学科,但又位处边缘,其很好地结合了自然科学与文学。

然纵观近年发展态势,语料库语言学凭借自身的明显优势,发展迅猛。

对于一篇文本,无论其长或短,语料库工具都可以做出理性分析、得出客观数据。

所以,对于一个文学文本,如果可以系统地主观分析再加上客观理性的数据,则可以最大程度剖析文本本身和文本外传达的信息。

实现两者完美的结合,语料库工具提供的是客观的文本数据分析,所以建立在客观数据分析的主观研究则可以得到最有利的论证。

此外,语料库语言学就其自身特点——系统加工、分析和统计——客观地分析文本主题、角色特征、情节发展等。

在最短的时间内可清楚文本的核心内容。

甚至可以发掘一些潜藏的隐秘规律。

本文通过利用语料库软件AntConc对目标文本进行系统地分析。

比如:通过Word List工具,进行词频排序整理,得出高频词和低频词;通过类比型符type/token 工具,可得出词汇量的丰富程度,类比型符比值高说明词汇量丰富,反之,则低;其次,通过检索功能concordance工具,可以实现准确判断该检索词在具体文本出现的情境,提高了结论的精确性;File View 工具可以展示整个文本的细节;Cluster/N-Grams工具可用于提取搭配短语;Collocates工具可以提取搭配词表。

AntConc软件基本操作

AntConc软件基本操作

主讲人:李广伟010302AntConc 软件介绍AntConc 功能介绍AntConc 功能演示AntConc基本操作AntConc是由日本早稻田大学(WasedaUniversity)教授Laurence Anthony开发的一款免费的语料库检索工具,主要用于语料库语言学、翻译学、外语教学等领域。

AntConc软件介绍 功能介绍图1 AntConc打开主界面如上图所示,AntConc包含“concordance”索引工具、“Concordance Plot”索引定位、“File View”文件查看、“Clusters/ N-Gram”词丛/N元模式、“Collocates”搭配、 “Word List”词表、“Keyword List”关键词表等菜单。

◆ 该软件具有提取语境共现、提取搭配词表、提取词频表等功能,以下《黄帝内经·素问》为例进行逐一说明:◆ 运用concordance工具进行提取语境共现,首先,单击File菜单,选择Open Files, 选择要打开的语料(如果想打开整个文件夹,可以选择open directory),然后,在下方Search Term下的输入框里输入“Huangdi”。

功能介绍AntConc功能演示提取语境共现图2“Huangdi”语境共现界面如2所示,“Huangdi”一词被用蓝色进行了凸显,《黄帝内经·素问》英译本里共出现“Huangdi”644次。

◆ 单击“start”,检索结果呈现在KWIC里显示,如下图所示:AntConc还具有检索多个词项的功能,检索方法为在检索项间键入“|”符号,如在“Search Term”里输入“do|does|did|doing|done”(如图3),还可以单击“Advanced”,勾选“Use search term(s) from list below”。

在检索下面框手动输入(也可以直接加载一个txt词表用来检索),注意每个单词独立成行,设置完成后单击“Apply,然后回到语境共现界面。

语料库及其检索工具在英语教学中的应用

语料库及其检索工具在英语教学中的应用

语料库及其检索工具在英语教学中的应用刘晓阳(安徽农业大学外国语学院,安徽合肥230036)摘要:随着电子语料库的发展,它在英语教学中的应用也逐渐引起研究者们的重视。

本文重点分析了语料库及其检索工具所提供的词频表和惯用搭配在英语教学中的应用。

关键词:语料库;检索工具;词频表;惯用搭配中图分类号:H319文献标识码:A文章编号:1009-2463(2006)01-0140-05TheUseofCorporaandConcordancersinEnglishLanguageTeachingLIUXiao-yang(DepartmentofForeignLanguage,AAD,Heifei,230036,Anhui)Abstract:Withthedevelopmentofcomputerizedcorpora,researchersshowconsiderableinterestintheirapplicationinEnglishLanguageTeaching.ThispaperfocusesontheuseoffrequencylistsandcollocationsprovidedbycorporaandthecorrespondingconcordancersinEnglishlanguageteaching.Keywords:corpus;concordancer;frequencylist;collocation语料库是大型的书面语和口语的自然语言材料的集合。

随着计算机的发展和应用,我们目前所使用的语料库基本上都是通过计算机以文本形式来存储大量语言材料的电子语料库。

20世纪90年代以来,伴随着大规模﹑多品种语料库的建设,"语料库语言学"(CorpusLinguistics)这一名词频繁出现在应用语言学的研究领域。

对于这一术语,我们可以从两个角度来理解:一是语料库语言学是利用语料库对一些自然语言现象进行分析,从这个意义上讲,它是一种新的研究语言的手段;二是针对语料库所反映的语言现象从一种新的角度对语言学理论进行研究,从这个意义上讲,它一门新兴的学科。

语料库检索及处理分析软件HyConc功能与特点

语料库检索及处理分析软件HyConc功能与特点

Oc t . 2 0 1 3
E X D I : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 1 — 4 3 7 3 . 2 0 1 3 . 0 5 . 0 2 4
语 料 库 检 索及 处 理 分 析 软 件 H y C o n c功 能与 特 点
刘 克 强
( 云南红河学院 外国语学院 , 云南 蒙 自 6 6 1 1 0 0 )
功能如下 :
前 者 。Hy C o n c 是 由中国传 媒大 学博 士生程 南 昌开发 的 , 此 软件是一 款 免 费 共 享 绿 色 软 件 , 最初问世于 2 0 0 6年 , 在 Wi n d o ws 系 统 下运 行 , 当时命 名 为 语料 库 处 理 软 件 V1 . 0 HC 2 O o 7 Ⅵ L , 并取得 了国家计算 机软件 著作 权证 书 , 是作 者硕士论文 的成果 。该 软件 基于 D e l p h i 环 境开 发 的 , 当 时 主要是处理汉语 、 英语 及 小语 种的单语 语 料。功 能涉及 字 、 词频率及词形 、 词类频 率 的统计 、 排序 、 汉语 特 征语 言( 重叠
1 .单语语料分析处理功能 Hy C o n c 在问世之初 , 即名 为 HC 2 0 0 7 Y L C L时 , 主要 是 检索和分析汉语语料 的 , 因而在 汉语处 理方 面 比较 强大 , 而
且有显著的特色 , 是 目前 市面上许 多商 用软 件所不 具备 的 ,
Hy C o n c 后来逐渐增加了别 的语 种 的处理 , 目前 这款软 件ቤተ መጻሕፍቲ ባይዱ
8 )强大的文本辅 助处理功能 , 如批量编辑 文本 、 分割文 本、 文本 替换 等等 。

基于语料库工具AntConc对《祝福》的研究

基于语料库工具AntConc对《祝福》的研究

基于语料库工具AntConc对《祝福》的研究作者:李萌萌来源:《美与时代·下》2020年第01期摘要:《祝福》是鲁迅小说集《彷徨》中的一篇。

人们对《祝福》的解读十分丰富,但大多是通过文本的直接感知方法解读的。

语料库工具AntConc是一款语料库检索软件,具有索引、词表生成、主题词计算、搭配和词族提取等功能,方便分析文本中的词汇主题。

现基于语料库工具AntConc对《祝福》进行考察,采用较为新颖的角度,更加客观的方法再看这篇经典作品,推测主人公并且进一步分析其写作艺术。

关键词:祝福;语料库工具;写作艺术《祝福》出自小说集《彷徨》,是鲁迅先生的小说代表作之一。

作品讲述了“我”离开故乡多年,在农历年底回到故乡到四叔家准备过春节。

后偶遇祥林嫂,与其进行了交谈。

不久突然得知她去世,身为知识分子的“我”见证了这一沉痛的命运悲剧。

对于《祝福》一文的分析研究很多,运用知网搜索关键字“祝福鲁迅”检索出173条结果。

作为教科书中的课文,在课堂上,《祝福》更是被进行了细致的解读。

现采用新的视角,运用语料库工具AntConc对《祝福》进行研究。

一、运用词表“Word List”推测主人公语料库工具AntConc内的词表“Word List”功能可用来统计词语出现的频次,借以推测文本主题词。

现对《祝福》文本中出现频次高的词语以及一些重要词语进行统计,绘制表1如下:根据上表,“了”出现了210次,是排第二位的词。

而“了”的作用通常表示事情的完结,推测《祝福》可能描述的是过去发生的事情,无论是说过的话还是发生的事情都是已经完结了的。

其次,人称代词“她”在文本中出现了159次,我们可以推测《祝福》故事的主人公可能是一位女性。

“她”就是小说叙述的核心人物。

另外人称代词“我”出现的次数也很多,有113次,推测“我”也是小说《祝福》中的一个重要人物,或者小说是以第一视角进行的叙事,“我”是小说的线索人物。

此外,“说”这个动词出现的次数也排在了前10名,可见文章中出现了大量的人物对话,用以推动故事情节的发展。

语料库的三大功能

语料库的三大功能

我想有些亲可能并不是学英语的,需要处理中文的语料库,所以我就把Anthony的AntConc 的使用手册翻译了一下,没有全部,只是某些功能的使用步骤,版本是AntConc3.2.1w(windows)20071.索引工具(concordance)使用步骤1)从file菜单的open file 或open dir选择一个或多个要处理的文件,选出来的文件按顺序在主窗户的左边框里显示出来。

2)在左边search term下的输入框里输入一个搜索词3)使用右边"Search Window Size"的按钮条的增加和减少按钮来选择在搜索词两边显示的字符数。

4)按“Start”键开始产生索引行的检索结果。

检索过程中可按“stop"键随时停止检索。

5)使用Kwic Sort下的按钮条选择一个目标词来重排索引行,0是搜索词,1L,2L是搜索词左边的第一,第二个单词,1R,2R是搜索词右边第一,第二个单词。

注意,三级分类均可,软件刚启动时,二三级未选择。

6)按“Sort”键开始分类处理。

7)将指针移到其中一个索引行的突出的搜索词之上,系统默认为蓝色,与前一项分类得出的目标词不一致,是最开始的搜索词。

指针会转变成一个手形的图标。

点击突出的搜索词,可以使用户看到搜索词在原文中出现的情况。

见“File View"工具。

今天让我们来了解一下什么是语料库。

同样,为了让大家容易理解,我先不准备用专业术语。

可以这样理解,语料就是语言材料的集合。

学外语的同行通常少不了要给人翻译东西,有时候我们可能会碰到我们从来没有遇到过的东西,比如,广告或者说明书。

这时候,我们真希望有类似的用目的语写成的广告或者说明书在手头,我们可以参考,起码我们知道这种广告或者说明书该如何措辞,还有这种广告或者说明书的文本结构方面的特征。

我们可以把收集到的这些文本集合看做是简单的语料库。

所以,语料库本质上就是一文本集合。

语料库辅助EFL自主学习的多维探索第3章

语料库辅助EFL自主学习的多维探索第3章


AntConc http://www.antlab.sci.waseda.ac.jp/antconc_in dex.html Wordsmith Tools /wordsmith/index.html Wordsmith Tools 中文使用说明: /view/195a3704cc175 527072208a3.html Range /lals/staff/paulnation/nation.aspx




AntConc官方使用指南、视频演示教程: http://www.antlab.sci.waseda.ac.jp/software/READ ME_AntConc3.2.4.pdf AntConc中文版官方使用指南(熊庆安译): /antconc-user-manual/ AntConc详细使用说明书(张杏娟编写,何安平订 正和补充): /view/f3860043336c1eb9 1a375df2.html

案例:7:如何查询文本中情态动词的使用情 况?

案例8:如何查询swelter在文中的词汇搭配 情况?

案例9:如何查询介词in在文中的用法有几 种?

案例10:在I Have a Dream一文中,哪些实 义词出现的频率较高?这说明了什么?

案例11:I Have a Dream 这篇演讲中哪些单 词含有抽象名词后缀-ity?

案例2:I Have a Dream中dream一词主要出 现在文中的什么位置?我们从中可以观察 到什么信息?

案例3:如何利用正则表达式检索sign的各 种形式?

案例4:如何利用通配符查询文本中含明喻 这种修辞手法的句子?

案例5:如何查询文本中的“名词 + of…” 结构?

antconc单词长度

antconc单词长度

antconc单词长度
AntConc是一个用于文本分析的软件,它可以帮助用户分析语料库中的词汇使用情况。

在AntConc中,用户可以通过各种功能来分析文本中单词的长度。

这包括查看单词的字符数、词长分布、词长范围等。

通过AntConc,用户可以轻松地对文本中单词的长度进行统计和分析。

用户可以选择特定的文本文件或语料库,然后使用AntConc的词频统计功能来查看单词的长度分布情况。

这可以帮助用户了解文本中单词长度的分布情况,从而更好地理解文本的特点和特征。

另外,AntConc还提供了词长分布图表的功能,用户可以通过这些图表直观地了解文本中单词长度的分布情况。

这些图表可以帮助用户快速把握文本中单词长度的特点,为进一步的分析和研究提供便利。

总之,AntConc可以帮助用户对文本中单词长度进行全面的分析,从而更好地理解文本的特点和特征。

通过AntConc的功能,用
户可以深入研究文本中单词长度的分布情况,为语言学和文本分析研究提供有力的支持。

平行语料库检索软件SDAU-ParaConc设计与实现

平行语料库检索软件SDAU-ParaConc设计与实现

收稿日期:2019-01-03基金项目:山东农业大学研究生教育教学改革研究项目(JYYB2018027)作者简介:葛晓帅(1989-),男,硕士,山东农业大学外国语学院讲师,研究方向为词典学、语料库语言学;翟红华(1967-),女,山东农业大学外国语学院教授、硕士生导师,研究方向为语音学及音系学、语篇分析。

本文通讯作者:翟红华。

0引言语料库是当代语言研究与教学[1]的一项重要参考,不论是翻译研究、词典编纂抑或是教材编写都离不开语料库支持[2]。

语料库指在一定原则下收集的批量口头或笔头语篇素材,以电子版本的形式存储在电脑中,用于语言的调查和质性分析[3]。

当代语料库指电子语料库,语料库的快速发展主要是依赖电子计算机的快速发展与普及。

语料库的规模从第一代电子语料库的百万词次级别发展到现在上亿词次级别[4],如此大规模的文本是不可能依靠人工去读取分析的,因此语料库检索软件在语料库研究中十分重要。

平行语料库由源语文本及平行对应的译语文本构成双语语料库[5]。

平行语料库与单语语料库相比有其自身特点:①平行语料库包含两种以上语言;②语料之间按照特定层次平行对齐。

这些特点决定了平行语料库的检索无平行语料库检索软件SDAU-ParaConc设计与实现葛晓帅,翟红华(山东农业大学外国语学院,山东泰安271000)摘要:当代语言研究离不开语料库,对语料库的检索需要计算机软件支持,但平行语料库检索软件数量极少,且存在不符合中国国情的情况。

因此,有必要开发一款符合中国国情、适应大数据检索需求、减少语言研究中重复劳动的平行语料库检索软件。

在考察现有4款平行语料库检索软件,对比分析它们各自的优势及不足后,结合中国国情及语言研究实践经验,提出了新的平行语料库检索软件SDAU-ParaConc 设计理念。

介绍了SDAU-ParaConc 的实现方式与特点。

与之前的软件对比结果表明,SDAU-ParaConc 操作步骤平均简化了60%,检索效率平均提升了9.5%。

concor方法

concor方法

concor方法
Concor方法,全称为Concordancer,是一种文本分析和语言学
研究工具,广泛应用于文本分析和语言学研究领域。

那么,具体来说,Concor方法是如何工作的呢?
步骤一:确定语料库
首先,需要选择一个包含目标文本的语料库,并存储它们在计算
机上。

这个语料库必须经过预处理,以使其中的文本格式符合Concor
方法的要求。

比如,语料库的文本格式需要以简单的文本文件为主,
同时数据也需要从Html等格式中提取出来。

步骤二:打开Concor软件
在完成语料库的准备之后,需要打开并安装Concor软件。

Concor是一款带有图形用户界面的软件,容易使用,并且可以跨平台
运行。

步骤三:指定关键词
接着,输入需要搜索的关键词,同时指定语料库的路径。

Concor
软件将根据用户提供的关键词和语料库进行搜索和匹配。

步骤四:运行Concor方法
由于输出文本的数量可能非常大,因此需要通过Concor方法中
的过滤器进行进一步的筛选和分类。

这是可以通过指定输出文本的关
键信息和特定文本的限制条件来完成的。

Concor方法还可以输出各种
格式的结果,包括文本文件,图形文件和CSV格式的数据文件。

总结:
因此,Concor方法是一种强大的文本分析和语言学研究工具,可以在广泛的应用中发挥作用。

但是,Concor方法在工作过程中需要一定的计算机技术支持,因此,用户需要有一定的计算机技能才能使用它。

总之,Concor方法是一种高效的文本分析和语言学研究工具,可
以在各种环境和情况下发挥重要的作用。

考研英语------Concapp使用

考研英语------Concapp使用

1.建立一个TXT文件;
2.双击打开Concapp;
3.点击File菜单,然后选择下拉菜单的Open,然后选择目标文件(TXT格式);
4.点击Statistics,然后选择Unique Words,然后选择Open Files,即可对整个文
件不重复单词进行统计,在弹出的窗口中,可以选择Alphabetic Sort(按照字母顺序排列),也可选择Frequency Sort(按照频率排序),点击Save可对统计结果进行储存。

5.点击Concordance,选择Search,可以查询特定的词汇,如要查询is,在查询
弹出窗口中输入is,点击ok,然后点击Concordance,选择sort菜单,如选择right collocates,则按照右边第一个词汇字母顺序进行排列,则选择1(默认值),点击ok,则得出Is查询结果(按右边第一个单词字母顺序进行排列)。

然后点击主菜单File,在下拉菜单中点击Save as,则对查找结果进行储存。

同理,可以选择left collocates,则按照左边单词进行排序。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例如,输入检索词efficiency。单击OK
弹出对话框
从中可以选择文件。可以选择一个或几个txt文档,或者单击最下面的Select all matching files,从而选中该文件夹中的全部txt文档。
弹出窗口
可以看到,此例中,五篇txt文档共检索出5处含efficiency的地方。
在颜色显示为红色的文字处单击右键
Wikipedia:语料库一词在语言学上意指大量的文本,通存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。
Concapp由香港理工大学虚拟语言学习中心发布,是一款针对语料库的检索软件,主要支持英语语料的处理,汉语和日语语料的处理不够理想。
例如,输入关键词robot,输入一个相关词fish。进行检索。
弹出检索结果窗口
即弹出此句话的出处文档,并在该文档中标示检索词
3.concapp还可以检索同时存在多个检索词的语句。
单击菜单栏concordance选项,单击concgram search。
或直接单击菜单栏下的图标(图中标黑框)。
弹出对话框,与简单检索一样,击OK。
弹出对话框,可以输入一个关键词和三个相关词,其他与简单检索一样。
或直接单击菜单栏下的图标(图中标黑框)。
弹出对话框
其中Unicode是使用双字节对字符进行编码的统一码。一般选择ANSI,单击OK。
弹出对话框
对话框中,在Search string栏输入检索词。
File栏:Open是对打开的文件进行检索,Directory则是对目标文件夹中的文件进行检索。
Search Option栏:Word/phrase:搜索单词和短语,Prefix:搜索前缀,Suffix:搜索后缀,Any string:搜索出现在任何位置
Concapp在英文科技论文写作中,可以帮助我们了解其他文献(尤其是native speaker的论文)中一些词的用法。
使用:
1.concapp只能处理txt格式的文档,首先应将所用文献由pdf转为txt。
2.Concapp无需安装,直接双击exe文件(小于1M)即可运行。
3.单击菜单栏concordance选项,单击concordance search(F5)。
相关文档
最新文档