语料检索使用
语料库检索之正则表达式
语料库检索之正则表达式 之一
时态语态 一般现在时 be动词的一般现在时 \w{1,}_VB(M|Z|R) \w{1,}_[^V][^VD][^NG] 上面这个搜出的例子少。 下面这个搜出的例子多。实际应用时,尽量使用下面这个表达式。 \w{1,}_VB(M|Z|R) \w{1,}_[^V]* 实义动词的一般现在时 \w{1,}_VV(Z|I|0) 这两个正则表达式尽可能别采用并列的方式合并,那样检索出的结果没有分别采用这两个不同的表达式检索出来的结果多。 合并之后的表达式 \w{1,}_VV(Z|I|0) |\w{1,}_VB(M|Z|R) \w{1,}_[^V]* \w{1,}_VV[ZI0] |\w{1,}_VB[MZR] \w{1,}_[^V]* \w{1,}_VV[ZI0] |\w{1,}_VB[MZR] \w{1,}_[^V]\w+ 上面三个表达式效果类似。
ห้องสมุดไป่ตู้
语料库检索使用说明
本语料库由泰山学院文学与传媒学院秦存钢开发。目的是方便大家建立自己的语料库。
本语料库的特点是:
一、必须复制到硬盘运行,在光盘上不能保存检索结果。
二、以文件夹为单位检索,效率高,速度快。如果检索单篇文章,可以建立一个新文件夹(文件夹名任意),把单篇文章复制到该文件夹。
三、可以自由添Leabharlann 删除文献。在添加文件时,必须是TXT格式。大家可以从网上自由下载有关文档扩充您的语料库,欢迎把您整理的文档上传至现代汉语汉语教学论坛()供大家自由下载使用。
四、支持编码齐全。目前TXT格式的文件分为ANSI格式、UNICODE格式、UNICODEbig endian格式、 UTF-8格式四种,本程序完全支持。生成的检索文件为UNICODE格式的TXT文本。
五、检索的结果统一放在“语料库检索系统.exe”所在盘符的“检索结果”文件夹,以您的检索词作为文件名。
联系方式:
sdqcg@
CCL语料库与检索系统方案
一关于CCL语料库及其检索系统(如果时间紧张,可直接跳到最后的举例部分!)1.1 CCL语料库及其检索系统为纯学术非盈利性的。
不得将本系统及其产生的检索结果用于任何商业目的。
CCL不承担由此产生的一切后果。
1.2 本语料库仅供语言研究参考之用。
语料本身的正确性需要您自己加以核实。
1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。
比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式1.4 语料库中的中文文本未经分词处理。
1.5 检索系统以汉字为基本单位。
1.6 主要功能特色:∙支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);∙支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句);∙支持在“结果集”中继续检索;∙用户可定制查询结果的显示方式(如左右长度,排序等);∙用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。
2.1 特殊符号查询表达式中可以使用的特殊符号包括8个:| $ # + - ~ !:这些符号分为四组:Operator1: |Operator2: $ # + - ~Operaotr3: !Delimiter: :符号的含义如下:(一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)(1) | 相当于逻辑中的“或”关系。
(二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)(2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。
两个“简单项”之间相隔字数小于或等于Number(3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。
语料库的分类、创建和检索简述
语料库的分类
语料库的分类
根据不同的标准,语料库可以分为多种类型。常见的语料库类型包括: 1、通用语料库:包含来自不同领域、不同语言的语料,适用于广泛的研究和 应用领域。
语料库的分类
2、专业语料库:针对特定领域或专业构建的语料库,例如医学、法律、金融 等。
3、口语语料库:包含口头语言 材料,如录音、口语表达等。
二、图像分类技术
另外,降维技术也可以用于图像分类。降维技术可以将高维的图像特征降维 到低维的空间,从而使得分类更加简单和高效。常用的降维技术有PCA、t-SNE和 autoencoder等。
三、图像语义检索与分类技术的 研究现状
三、图像语义检索与分类技术的研究现状
近年来,图像语义检索和分类技术的研究取得了显著的进展。在图像语义检 索方面,研究者们提出了多种基于内容、语义相似度和向量空间模型等方法。在 图像分类方面,SVM、神经网络和降维技术等算法的应用取得了重要突破。
一、图像语义检索技术
图像语义检索是指通过自然语言描述或者用户提交的查询关键词,从图像库 中检索出与查询相关的图像。近年来,研究者们提出了多种图像语义检索的方法。
一、图像语义检索技术
基于内容的图像语义检索是通过分析图像的内容,提取出图像的特征,然后 根据这些特征进行检索。例如,可以通过提取图像的颜色、纹理、形状等特征进 行检索。另外,还可以利用深度学习技术,如卷积神经网络(CNN)来提取图像 的特征,提高检索的准确性。
语料库的创建
此外,为了便于语料库的管理和检索,需要构建语料库的索引和词典。索引 可以记录每个单词在语料库中出现的位置和频率,而词典则包含了单词的语义信 息和语法信息等。最后,语料库的创建还需要注意保证数据的安全性和隐私保护。
语料库检索分析在高级英语语篇教学中的应用_语料库检索
语料库检索分析在高级英语语篇教学中的应用_语料库检索语料库检索分析在高级英语语篇教学中的应用_语料库检索摘要语料库语言学通过对自然文本的检索、统计,实现文本的语篇结构、文体风格、语言特征等的量化分析。
语料库软件工具如Wordsmith、Concordancer软件等为语篇教学提供了量化分析手段。
本文依据语料库语言学的研究方法,主要运用Wordsmith、Antconc软件,以课文"Blackmail"为小型教学语料库,探索高级英语语篇教学的新途径。
关键词语料库检索分析;高级英语;语篇教学1.引言高级英语是英语专业高年级阶段的一门主干课程,其教学目标是"通过阅读和分析内容广泛的材料,扩大学生知识面,加深学生对社会和人生的理解,培养学生对名篇的分析和欣赏能力、逻辑思维与独立思考的能力,巩固和提高学生英语语言技能"1。
鉴于此,围绕高级英语课程的教学研究与改革长期以来备受专家、学者和广大师生的关注,如朱传枝2、杨志亭3、刘采敏和楚向群4、李洁平5、黄文英6等。
十多年来,随着语言教学理论研究的深入以及计算机网络和多媒体技术的快速发展,高级英语课程改革成绩斐然,教学效果显著提高。
然而,在语篇教学中不难发现,由于缺乏科学的文本分析手段和工具,学生对语篇的分析和欣赏"多来自教师在反复阅读全文的基础上根据某种理论框架或自身独特的理解能力及审美取向所做的解释"7,或者依赖于教学参考书籍上的注解,学习效果大打折扣,成为了困扰教师的一大教学瓶颈。
语料库语言学的出现为高级英语语篇教学提供了有力的理论和技术支持,对于解决教学中存在的难题有着重大的启示和意义。
2.语料库与语料库检索分析软件的应用20世纪90年代以来,语料库语言学的迅速发展"给语言研究以及语言应用研究带来了一场革命性的变化"8,而"基于语料库的研究方法已经逐渐扩展到语言教学、话语分析、翻译研究、词典编纂和自然语言处理等多个领域"9。
中日对译语料库使用方法
中日对译语料库使用方法1.引言概述部分可以对中日对译语料库的使用方法进行简要介绍,包括介绍中日对译语料库的定义、特点和使用场景等。
概述部分内容如下:1.1 概述中日对译语料库是一个用于中日互译的语料库资源,它包含了大量的中文和日文文本对照数据。
这些数据可以帮助翻译人员准确理解中日两种语言之间的差异,提高翻译品质和效率。
中日对译语料库的特点有以下几个方面:首先,中日对译语料库的数据来源广泛,涵盖了各个领域的文本,包括新闻报道、学术论文、文学作品等。
这使得翻译人员可以在不同领域中寻找对应的文本进行研究和学习。
其次,中日对译语料库具有真实的语言应用情境,这些数据是从真实的语言环境中采集而来,保留了原始文本的真实特点。
有了这些真实的语料库数据,翻译人员可以更好地理解中日两种语言之间的差异和表达方式。
此外,中日对译语料库还包含了大量的双语对照句子和句子片段,这些对照数据对于翻译人员而言是非常宝贵的资源。
通过对比两种语言的表达方式和句子结构,翻译人员可以更准确地选择合适的翻译策略和词汇选择。
最后,中日对译语料库的使用场景非常广泛。
无论是在翻译工作中,还是在中日语言学习和教育中,都可以借助中日对译语料库来提高翻译质量和学习效果。
同时,中日对译语料库也为机器翻译等自然语言处理技术的发展提供了宝贵的资源支持。
综上所述,中日对译语料库具备广泛的数据来源、真实的语言应用情境、双语对照数据和多样的使用场景等特点,对于翻译人员和语言学习者而言,它是一项重要的资源工具,能够提供丰富的语言知识和实用的翻译参考。
在接下来的文章中,我们将详细介绍中日对译语料库的构建方法和使用技巧。
1.2 文章结构本篇文章主要包含引言、正文和结论三个部分。
引言部分将通过概述、文章结构和目的三个小节来介绍本文的整体框架和目标。
在概述部分,将简要阐述中日对译语料库的重要性和应用领域,以引发读者的兴趣。
在文章结构部分,将提供整篇文章的目录并简要介绍各个部分的内容安排。
多语种在线语料库检索平台使用简明手册
)
大学
教授创建的 系列语料库检索界面(
)。类似的
在线语料库检索系统还有
、、
、
等。而当前主
流的语料库工具属于第三代,其中以
、
和
等为代表。
第四代语料库工具,将语料库与分析工具合二为一,越来越受到普通用户的青睐。在线
语料库工具通常将语料库文本按特定格式建成索引( ),存储在服务器上。用户检索响
应速度要远高于三代软件在本地电脑上的检索速度。其操作也较三代语料库软件简便得多。
之间的距离)
出现次数
检索词、中心词、节点词
查询结果每页显示的行数
查询、检索
限定条件查询
直译:在 个不同文本中返回
个匹
配项
意译:在 个文本中查到
例子
查询结果按中心词排序
简单查询(不区分大小写)
词语相关查询
附录 :复杂检索举例(查询时,选择
)
单词检索:
、
、
词码混合检索:
、
、
、
、
近义词批量检索:
、
北外语料库语言学团队网站:
表 :查询结果后续操作分项功能表
新查询,返回语料库检索首页
查询结果随询结果排序设定
搭配计算
下载保存查询结果
键,即可
(随机取样),比如,可从 万行结果中,随机抽取 行。
(频数分解)表示在进行复杂查询时,对命中的不同词项分别计
算频数。比如,查询
时,会按这 个词
结果;
( )计算特定词语在语料库中的典型搭配(
);
( )计算语料库中的核心关键词(
),等。
1
、
使用实例
标准查询模式
在简单查询模式(
语料库检索程序concapp使用简介
弹出对话框
从中可以选择文件。可以选择一个或几个txt文档,或者单击最下面的Select all matching files,从而选中该文件夹中的全部txt文档。
弹出窗口
可以看到,此例中,五篇txt文档共检索出5处含efficiency的地方。
在颜色显示为红色的文字处单击右键
Wikipedia:语料库一词在语言学上意指大量的文本,通存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。
Concapp由香港理工大学虚拟语言学习中心发布,是一款针对语料库的检索软件,主要支持英语语料的处理,汉语和日语语料的处理不够理想。
例如,输入关键词robot,输入一个相关词fish。进行检索。
弹出检索结果窗口
即弹出此句话的出处文档,并在该文档中标示检索词
3.concapp还可以检索同时存在多个检索词的语句。
单击菜单栏concordance选项,单击concgram search。
或直接单击菜单栏下的图标(图中标黑框)。
弹出对话框,与简单检索一样,击OK。
弹出对话框,可以输入一个关键词和三个相关词,其他与简单检索一样。
或直接单击菜单栏下的图标(图中标黑框)。
弹出对话框
其中Unicode是使用双字节对字符进行编码的统一码。一般选择ANSI,单击OK。
弹出对话框
对话框中,在Search string栏输入检索词。
File栏:Open是对打开的文件进行检索,Directory则是对目标文件夹中的文件进行检索。
Search Option栏:Word/phrase:搜索单词和短语,Prefix:搜索前缀,Suffix:搜索后缀,Any string:搜索出现在任何位置
CCL使用说明书
一关于CCL语料库及其检索系统1.1 CCL语料库及其检索系统为纯学术非盈利性的。
不得将本系统及其产生的检索结果用于任何商业目的。
CCL不承担由此产生一切后果。
1.2 本语料库仅供语言研究参考之用。
语料本身的正确性需要您自己加以核实。
1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。
比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式1.4 语料库中的中文文本未经分词处理。
1.5 检索系统以汉字为基本单位。
1.6 主要功能特色:∙支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);∙支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句);∙支持在“结果集”中继续检索;∙用户可定制查询结果的显示方式(如左右长度,排序等);∙用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。
2.1 特殊符号查询表达式中可以使用的特殊符号包括8个:| $ # + -~ ! :这些符号分为四组:Operator1: |Operator2: $ # + - ~Operaotr3: !Delimiter: :符号的含义如下:(一)Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)(1)| 相当于逻辑中的“或”关系。
(二)Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)(2)$ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。
两个“简单项”之间相隔字数小于或等于Number(3)# 表示它两边的“简单项”出现于同一句中,不考虑前后次序。
语料库检索使用指南
Homework for Introduction parthttp://211.69.132.28/ 检索的库为:introduction 子语料库语料库使用练习目标一:熟悉语步与词汇的对应关系;目标二:学习以扩展意义单位为基础的新语义观(核心词、搭配、类联接、语义倾向、语义韵);目标三:掌握有语言问题后如何查找相应答案的技能。
提交的作业文件名为:姓名+introduction提交的内容: 1. 在三个introductions,标注:1)M1, M2, M3;2)每个move的内容要点(用汉语);3)每个语步的经典句型划线,4)红颜色标注:语步1中的评价性形容词、语步2的转折连词(引出现有研究的问题),语步3中代表弥补现有研究不足的表达(如研究目的等)2. 回答表格中基于语料库检索的8个问题。
提交时间:周二上课的班级提交时间为周一晚9:30:提交给刘琴同学的QQ邮箱周三上课的班级提交时间为周二晚9:30 ,提交到周颖同学的QQ邮箱Direction :1.Download 3 introduction parts from 3 journal articles in your own professional fields. Identify the 3 moves of the introduction part and mark them respectively by M1, M2, M3.and point out the main point of each move inChinese in barckets. Mark evaluative adj.in M1(评价性形容词), disjunctive conj.(转折连词)in M2, and the expressions implying filling gaps, such as research purpose in M3 in red.Move1 : statements about the subjects. (M1), (main points :problems, background information, definition, importance ,etc) , Move2 : review of relevant studies(M2) (description & comments , point out the weakness of existing researches)Move3: introduction of the present study(M3)(purposes to fill the gaps, research focuses, questions, hypothesis,etc.)2.Underline the representative sentence patterns in each move and summarize it in the bracket such as [importance]3.Answer the questions in the right column of the form based on the corpus data.(注意:如果你不会调节表格,请把答案写在表格外)Sample :The separation of mixtures of alkanes is an important activity in the petroleum and petrochemical industries. For example, the products from a catalytic催化isomerization reactor consist of a mixture of linear, mono-methyl and di-methyl alkanes. Of these, the di-branched molecules are the most desired ingredients in petrol because they have the highest octane number. It is therefore required to separate the di-methyl alkanes and recycle the linear and mono-methyl alkanes back to the isomerization reactor. In the detergent industry, the linear alkanes are the desired components and need to be separated from the alkanes mixture[M1: 通过现实需要突出研究的重要性与意义].Selective sorption on zeolites is often used for separation of alkanes mixture(1-7文献被省略). The choice of the zeolite depends on the specific separation task in hand. For example, small-pore Zeolite A are used for separation of linear alkanes using the molecular sieving principle. However, the branched molecules cannot enter the zeolite structure[M2:指出现有研究方法及方法中存在的问题]. This study aims to overcome this limitation. Both linear and branched molecules are allowed inside the medium-pore MFI matrix and the sorption hierarchy in MFI will be dictated both by the alkanes chain length and degree of branching.[M3:本研究目的和采用新方法的优势]Introduction的写作方法:说明论文特定主题与较为广泛的研究领域之间的关系,同时提供足够的背景资料。
北京语料库检索使用说明
北京语料库检索使用说明首页一关于CCL语料库及其检索系统二关于查询表达式2.1 特殊符号2.2 基本项2.3 简单项2.4 复杂项2.5 过滤项2.6 子旬2.7 查询表达式三关于查询结果四在结果中查找五举例一关于CCL语料库及其检索系统(1)CCL语料库及其检索系统为纯学术非盈利性的。
不得将本系统及其产生的检索结果用于任何商业目的。
CC口承担由此产生的一切后果。
(1)本语料库仅供语言研究参考之用。
语料本身的正确性需要您自己加以核实(1)语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。
比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式(1)语料库中的中文文本未经分词处理。
(1)检索系统以汉字为基本单位。
(1)主要功能特色:支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);支持对标点符号的查询(比如查询”可以检索语料库中所有疑问句);支持在“结果集”中继续检索;用户可定制查询结果的显示方式(如左右长度,排序等);用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。
特殊符号查询表达式中可以使用的特殊符号包括7个:|$#+-~!这些符号分为三组:Operator1:|Operator2:$#+-~Operaotr3:!符号的含义如下:(一)Operator1:Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)|相当于逻辑中的“或”关系。
(二)Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)$表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。
多语种在线语料库检索平台 BFSU CQPweb 使用简明手册
多语种在线语料库检索平台BFSU CQPweb使用简明手册许家金中国外语教育研究中心1、访问及登录访问124.193.83.252/cqp/(用户名:test和密码:test),可点击使用相应的语料库。
目前BFSU CQPweb平台上已安装英语、汉语、德语、日语、俄语、阿拉伯语、冰岛语等7个语种35个语料库。
图1:BFSU CQPweb主界面2、CQPweb功能概要按McEnery & Hardie(2012)对语料库分析工具的时代划分,CQPweb属于第四代语料库工具,即在线语料库分析工具。
四代工具的突出代表是美国杨百翰(Brigham Young)大学Mark Davies教授创建的BYU系列语料库检索界面(/)。
类似的在线语料库检索系统还有SketchEngine、CWB、BNCweb、Phrase in English等。
而当前主流的语料库工具属于第三代,其中以WordSmith、AntConc和PowerConc等为代表。
第四代语料库工具,将语料库与分析工具合二为一,越来越受到普通用户的青睐。
在线语料库工具通常将语料库文本按特定格式建成索引(index),存储在服务器上。
用户检索响应速度要远高于三代软件在本地电脑上的检索速度。
其操作也较三代语料库软件简便得多。
四代语料库工具可完成三代语料库几乎所有的功能,其中又以CQPweb所能实现的功能最多最全。
更重的是,CQPweb是开源软件。
概括说来,CQPweb可以实现以下功能。
(1)在线生成语料库的词频表(frequency list);(2)查询(query)字词、语言结构等,以获取大量语言实例或相应结构的出现频次(frequency),并可以按语体、年代、章节、学生语言水平级别、写作题材等分别呈现查询结果;(3)计算特定词语在语料库中的典型搭配(collocation);(4)计算语料库中的核心关键词(keywords),等。
3、CQPweb使用实例3.1 标准查询模式在简单查询模式(Simple query mode)下,可输入单词、短语等进行检索。
语料库检索在英语教学中的应用
一
、
d 定研 究所需语 料库。本研究的数据来 自于两 个语 料 : e ie,ho g ,u y,e ln v c sr t u htf r fei g, oie。
库 ,分别是 中国学习者C E 语料库 和本族语 L B l 根据 《 LC O语 牛津高阶英汉双解 词典 》 提供 的解释 , 料库。 最后对语料库进行检索, 收集研究数据, 在语料 fo t l nr ' c o作动词使用 主要有三个义项 : aep w ro t h v o e r o
在L l 流 法 一 基 语 库 词 搭 研 OB 方 之 , 于 料 的 语 配 究I 语料库 中此种类连接很不常用 ,仅仅 出现 了5 H
对英语词汇教学的重要性 日 益凸现。本文 I , 配 词分 别 是"ea l t,a ,o l, ol。这 说 搭 次 b be ocn cud s u h d
j 现频率为零 , 明学习者的这种搭配模式是和中国的 说 l 计划生育 国情以及环保宣传密切相关 的 , 是明显的中 f 国式搭配 。虽然在这一类连接 中 ,ot l 面的名 cnr 对后 o
: 词没有太大的限制 ,但是从本族语 者的使用情况看 , } 名词 的选 择显然是有偏 向性 的。本族 语者使用 动词 nr 的名 lo t l 词 搭 配词 多为 抽 象 名 词 , 中表 示 人 的情 c o 其 ! 心 智 方 面 的 名 词 居 多 , 比 如 ds efr, e n , 感 ei , yf l g ru ei
语料检索的速成教程:已经词性赋码语料的检索
《语料检索的速成教程:已经词性赋码语料的检索》 作者:李亮(广东外语外贸大学 词典学中心)2012年8月16日 Email: 492130980@AntConc的下载地址http://www.antlab.sci.waseda.ac.jp/software.html【步骤1】准备两个txt文件,和AntConc软件;【步骤2】其中一个txt文件是“干净语料”;【步骤3】而另一个txt文件是“下划线型”的词性标注(POS,parts of speech),adj表示形容词,vt表示及物动词,period表示句号;【步骤4】运行AntConc,从菜单“File”上选择“Open File(s)”;【步骤5】在“文件选择对话框”中找到即将处理的文件,“打开”它;【步骤6】它就被加载到AntConc的左侧上方的“待处理的文件列表”了,虽然看到是因为中文文件名而乱码却不影响我们后续的操作;【步骤7】假设我们需要检索“形容词+名词”这样的搭配,就输入“*/adj */noun”,这里是“星号+斜线+词性标签”的哈;注意adj后面有1个空格;【步骤8】近距离看看吧,“Windows放大镜”真是帮助了“近视眼”!【步骤9】“Words”这个选项的前面的小勾勾,可以勾上,可以不够上都不太影响检索结果的;星号是“通配符”,表示一个或多个字符;例如“b*e”就表示bee或bake或battle;再例如“*ful”就表示artful或helpful或skillful之类的【步骤10】点“Start”按钮之后就看到检索结果了,关键部分的单词们都变成了天蓝色,被染色的也包括了“词性标签”呢【步骤11】近看一下吧,好美哟【步骤12】如果不是检索搭配模式,而只是检索某个词性(词类)的话,就直接来个“星号加斜线加词性标签”;注意哈,“/”这是斜线,而“\”这是反斜线哟,上面偏左或是偏右决定了“正反”,嘻嘻“左倾是反,右倾是正”【步骤13】近观一下结果吧,蓝蓝的是“被命中的对象们”【步骤14】如果你不需要看到检索结果有“词类标签”,那么就要进行“Global Settings”的小小设置哈【步骤15】“显示,彻底隐藏,隐藏而可被检索”这三项要选择第3个,同时,一定要把“Hide embedded tags”的默认的“_”改为“/”,因为我们是“斜线型标注”【步骤16】设置完,不要忘记点右下角的“Apply”按钮哟,否则你就等于放弃了这些设置了!【步骤17】设置完,我们再次确认,是“*/adj”,就是要检索所有的“形容词adjective”,好,点“Start”【步骤18】出来了!蓝蓝的形容词们啊,可苦了我的一番心血【步骤19】到上面为止你已经掌握了“斜线型词类标注”的检索,但是,“XML型标注”正在崛起,越来越多呢,我们继续学“XML型词类标注”的检索技巧吧……【步骤20】假设我们仅仅是对fat进行了标注,“<adj>”这是XML标注的“起始标签”,“</adj>”这是XML标注的“结尾标签”,前后呼应,真是壮观而科学呀!瞧,下面我输入的“东东”【步骤21】输好了,就点“Start”按钮【步骤22】哇,再次呈现漂亮的检索画面:带XML标签的fat呢【步骤23】好,上面就是XML型标注的检索的技能,下面是“下划线型词性标注”的检索讲解,瞧,下面的“东东”【步骤24】假设我们只是对fat进行了“下划线型标注”,我们同样是输入“*_adj”这么一个符合当前需求的“特殊字符串”来搜索……星号表示一个或多个字符所组成的“某个单词”【步骤25】瞧,关键词+下划线+语料标签都变成了“蓝精灵”【步骤26】学到这里,但你也许照着做却发现完全不能出来上面的任何结果呢,为什么?原因极大可能就是“文字编码”不是AntConc所默认所喜欢的“ANSI”!所以,跟我来,把你的txt文件变一变吧,经过一个小操作你就成功了!【步骤27】如上图,双击打开你的txt文件,然后点“另存为”【步骤28】瞧上图的下部的“编码”,你当前是“UTF-8”这种文字编码呢,怎么会这样呢,别管了,你直接把它变成ANSI吧就能检索了,听我的没错!【步骤29】你鼠标选择“编码”这个下拉菜单中的第一项“ANSI”,然后点“保存”,稍等一两秒,就算做好了!【步骤30】那么,汉语语料用上述方法是否也能搞掂呢?答案是“否”【步骤31】上图的汉语语料已经被典型的标注为“斜线型词性标注”了,用“*/adj”检索下,看看效果如何?【步骤32】天!全乱了,虽然其中的“/adj”与“/noun”等标签依然是“依稀可见”【步骤33】别急,小意思,设置一下“文字编码”即可“破镜重圆”的【步骤34】点“Global Settings”的“Language Encodings”,然后点“Edit”这个按钮,它弹出一个下拉菜单来……你就如下图的选一下啦【步骤35】点了“Apply”按钮,确认且退出之后,就在主界面点“Start”按钮……哇,奇迹出现了,不仅不乱码,连左侧的文件名列表也完全是正常的汉字了!【步骤36】日语的语料检索却跟英语和汉语都不一样呢,下面我展示一下【步骤37】上图是一句日语,第二行是对应的汉语句子;下图是用斜线标注,标注用的汉语标签;【步骤38】日语检索的特殊性在于你必须提供“UTF-8”的文字编码的txt文件,所以我们双击打开语料文件之后,点菜单“另存为”;【步骤39】把默认的“ANSI”的编码,重新选择为“UTF-8”,点保存,然后退出;【步骤40】启动AntConc,还需要设置一下“Language Encoding”,有点熟练了,对不对?毕竟做了好几遍了【步骤41】如下图,你选择“uft8”,它是Unicode编码的8位形式,也属于Unicode,而16位甚至32位的Unicode是未来的大趋势!【步骤42】如下图,输入我们要检索“名词”……【步骤43】如下图,日文显示完全正常,以上做法是我的推荐,也许还有其他可行的做法,欢迎你找找看……。
语料检索的速成教程:AntConc生鲜入门
《语料检索的速成教程:AntConc生鲜入门》作者:李亮(广东外语外贸大学 词典学中心)2012年8月27日 Email: 492130980@【步骤1】AntConc这款免费软件,诞生于2002年4月16日(当时是1.0版),到2012年8月就刚好10年4个月了,适合处理不超过200MB的英语语料,因为当你处理200MB 的txt文件的时候,要占用1GB的物理内存呢,而100万英语单词的“中国英语学习者语料库”(CLEC库)才6.6MB,足够处理30个“CLEC库”了,也就是3千万单词的英语语料库;作者是长年居住在日本早稻田大学的英国俊男(1970年出生),本科是物理专业,硕博士阶段就转向语言学了,读博期间开发了针对博士论文的AntConc;【步骤2】AntConc有七大功能,你一看(下面截图的7个菜单项目)就眩晕的话,不妨听我打一些比方;整体上说,一个所谓的语料库检索软件,就是来计算“3大关系”:(1)一大堆的文章到底有多少单词?(2)这些单词的两侧经常有哪些单词?(3)同一个词在这一大堆文章中的出现频率,是否跟在另一大堆文章中的出现频率有显著差异?【步骤3】无论你是学英语或是教英语的人士,你都是一个社会普通成员,必然有自己的人际交往圈子,也必然有擦肩而过的身边人,擦肩而过的人也许跟你认识就打个招呼,也许跟你不认识,所以就算你打招呼,对方也只能难堪地笑笑或盯着你;一个人,其实跟书本上的单词,跟生活中的单词挺相似的境遇,都是接触面挺宽,亲密人并不多;【步骤4】AntConc就像一个私家侦探,你随时可以抓来一大堆英语文章,把这些文章中的熟悉单词和陌生单词都做个“清单”和“谱系图”和“交际分析”;【步骤5】AntConc的7大菜单,其实相当于在回答这7大问题:●●●●经常擦肩的身边人有哪些?(Clusters)●固定交往的身边人有哪些?(Collocates)●●多处兼职的身边人有哪些?(Keyword List)【步骤6】诚然,打比方只是一种“切入”,到底有多么确切,也见仁见智;下图是在阿富汗与巴基斯坦边境地区被小培养为恐怖分子的三个小男孩,他们怀抱的是“AK47”(诞生于1947年,是苏联人研制的稳定耐用的优秀的自动步枪);而“AK47”在整体上虽然你应该把它看作一个单词,但是,AntConc的默认状态却是只认“AK”呢!【步骤7】我们当前所处的时代是“2010s”,根据维基百科,它意味着2010年1月1日到2019年12月31日之间的整整10年,我是“70后(70s)”,你也是“70s”或者“60s”或“80s”啦,“We are 70s”这三个词,AntConc会告诉你“它”只看到“We are s”这三个词,它这么抬高“s”这个后缀字母的地位,你也许极为不赞成,但这就是AntConc 的默认状态!【步骤8】"2012"是一部关于全球毁灭的灾难电影,讲述在2012年世界末日到来时,主人公以及世界各国人民挣扎求生的经历,当你用AntConc来计算“2012 is a good film”这个句子有多少个单词,AntConc会告诉你“只有4个单词”,因为它在默认状态下会对“独立连续的数字串或依附于其他英语字母的连续数字串”视而不见!这也就解释了上面的“AK”与“47”发生脱离的问题;【步骤9】英语中有挺多的系动词或助动词或情态动词所构成的否定表达的缩略形式,例如is not变成了isn't呀,are not变成了aren't呀,was not变wasn't呀,has not变hasn't呀,will not变won't呀,would not变wouldn't呀,shall not变shan't呀,do not 变don't呀,did not变didn't呀,ought not变oughtn't呀;反正,单引号都代表着“被省略的字母o”;这些“中间有单引号兼省略号的否定合成词”你让AntConc来计算“单词个数”,它会默认把它们进行“强拆”,把“单引号”当作空格呢,所以“didn't”就变成了“didn”和“t”,而“isn't”变成了“isn”和“t”,而“don't”变成了“don”和“t”,天啦,“don”可也是一个独立的单词呢,意思是“校长”或“黑帮老大”!【步骤10】英语中也有“Ph.d.”或“a.m.”或“o'clock”或“etc.”这类单词,其他中间或单词尾部带“省略符号”的词也频频露面;AntConc也都把“省略符号”当作“词与词的国境线”而把它们强拆开;【步骤11】上面这些“AntConc的默认状态的异常现象”的根源,并非AntConc的“缺陷”,而是英语实在是太复杂了,“一条规则”总是夹杂着“多条意外规则”,到底是“漏过居多”抑或是“误抓居多”也跟个人的具体需求有很大关系,你瞧AntConc的默认的对单词的识别规则是“纯粹字母的连续体”呢!……一旦遇到一个并非字母的符号就被当作“前一个单词与后一个单词的分界线”了【步骤12】上面都是在回答“生活独立的成年人有多少?”,这是“单词”与“成年人”之间的比喻;这个问题影响深远,你在使用不同的语料检索软件的时候,它们的单词计算结果不一致,搭配词计数不一致,统计检验值不一致,语块生成列表不一致,应该就是从“什么是独立且完整的单词”而缘起的!【步骤13】像你我这样的普通成年人,每天在生活中遇到的人分为3大类:视而不见类,点头之交类,促膝谈心类。
ccl语料库词用法
ccl语料库词用法
CCL语料库是一种非常重要的工具,它可以帮助我们更好地了解汉语的用法。
这个语料库包含了大量的中文文本,可以用来研究词汇用法、句子结构和语言变化等方面。
本文将重点介绍CCL语料库中的词用法。
首先,CCL语料库可以帮助我们分析一个词在不同句子中的使用情况。
通过检索一个词在CCL语料库中的出现次数,我们可以了解它在不同语境中的用法和意义。
例如,我们可以搜索“喜欢”这个词,发现它可以用来表示喜爱、爱慕、喜好等多种意义。
这些不同的用法都可以反映出汉语中一个词的多义性和灵活性。
其次,CCL语料库还可以帮助我们研究一个词的搭配和语用。
一个词的搭配是指它通常和哪些其他词一起出现,这些搭配通常反映出这个词的语义特征和用法。
通过检索一个词在CCL语料库中的搭配情况,我们可以了解它常常和哪些词一起使用。
例如,搜索“好吃”,我们可以发现它常常和“好看”、“好玩”等形容词一起出现,这反映了“好吃”这个词的评价性质。
最后,CCL语料库还可以帮助我们研究一个词在不同时间和地点的使用情况。
通过检索一个词在CCL语料库中的出现时间和地点,我们可以了解它在汉语的历史和地理上的语言变化和演化。
例如,我们可以搜索“大哥”,发现它在普通话中已经逐渐被“哥哥”所替代,这反映了汉语中的语言变化和演化。
总之,CCL语料库是一个非常有用的工具,它可以帮助我们更好
地了解汉语的用法和变化。
通过分析一个词在不同句子中的使用情况、它的搭配和语用、以及在不同时间和地点的使用情况,我们可以更好地掌握汉语的词汇用法,提高自己的语言能力。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料检索使用
一、简介
语料检索是指在大量的语料库中,通过关键词、短语或其他搜索条件,快速准确地找到所需的信息。
它是自然语言处理领域中的一个重要应用,广泛应用于信息检索、机器翻译、文本分类等方面。
二、语料库
1. 什么是语料库?
语料库是指大量的自然语言文本集合,包括书籍、新闻文章、电影剧
本等。
这些文本被数字化并存储在计算机中,可以被用于各种自然语
言处理任务。
2. 语料库的分类
根据不同的分类标准,可以将语料库分为不同的类型。
按照来源可以
分为网络语料库和实验室制作的语料库;按照文体可以分为新闻、小说、科技等不同类型的文本;按照规模可以分为小型和大型语料库等。
3. 常见的语料库
常见的英文语料库包括Brown Corpus、Penn Treebank等;中文则有人民日报数据集、SIGHAN Bakeoff数据集等。
三、检索技术
1. 关键词检索
关键词检索是最常见也是最简单的一种检索方式。
用户输入一个或多个关键词,系统返回与这些关键词相关的文本。
这种方式适用于短文本或者用户已经明确知道自己需要什么样的信息。
2. 短语检索
短语检索是指用户输入一个或多个短语,系统返回包含这些短语的文本。
与关键词检索相比,短语检索更加精准,但也更加局限。
3. 布尔检索
布尔检索是指通过逻辑运算符(AND、OR、NOT)将多个关键词或短语组合起来进行检索。
这种方式可以实现更加复杂的查询需求,但需要用户具备一定的逻辑思维能力。
4. 自然语言查询
自然语言查询是指用户直接使用自然语言进行查询。
这种方式最为直观和易用,但也需要系统具备较高的自然语言理解能力。
四、应用场景
1. 信息检索
信息检索是最常见的应用场景之一。
例如,在搜索引擎中输入关键词进行搜索时,就是一种基于语料库的信息检索。
2. 机器翻译
机器翻译需要大量的平行句对作为训练数据,而这些数据往往来自于大规模的双语语料库。
因此,在机器翻译中使用语料库进行检索是非常重要的。
3. 文本分类
文本分类是指将大量的文本按照一定的标准进行分类。
例如,在新闻网站中,将不同主题的新闻分别归类到不同的栏目中,就需要使用语
料库进行分类。
五、总结
语料检索是自然语言处理领域中一个重要的应用,它可以帮助我们快速准确地找到所需的信息。
在实际应用中,我们需要选择适合自己需求的语料库,并选择合适的检索技术。
同时,我们也需要注意语料库的质量和版权问题,避免侵犯他人权益。