北京语料库检索使用说明

合集下载

语料库检索使用说明

语料库检索使用说明
本语料库是试用版,欢迎大家提出使用意见,以便将来改进。
本语料库由泰山学院文学与传媒学院秦存钢开发。目的是方便大家建立自己的语料库。
本语料库的特点是:
一、必须复制到硬盘运行,在光盘上不能保存检索结果。
二、以文件夹为单位检索,效率高,速度快。如果检索单篇文章,可以建立一个新文件夹(文件夹名任意),把单篇文章复制到该文件夹。
三、可以自由添Leabharlann 删除文献。在添加文件时,必须是TXT格式。大家可以从网上自由下载有关文档扩充您的语料库,欢迎把您整理的文档上传至现代汉语汉语教学论坛()供大家自由下载使用。
四、支持编码齐全。目前TXT格式的文件分为ANSI格式、UNICODE格式、UNICODEbig endian格式、 UTF-8格式四种,本程序完全支持。生成的检索文件为UNICODE格式的TXT文本。
五、检索的结果统一放在“语料库检索系统.exe”所在盘符的“检索结果”文件夹,以您的检索词作为文件名。
联系方式:
sdqcg@

CCL语料库与检索系统方案

CCL语料库与检索系统方案

一关于CCL语料库及其检索系统(如果时间紧张,可直接跳到最后的举例部分!)1.1 CCL语料库及其检索系统为纯学术非盈利性的。

不得将本系统及其产生的检索结果用于任何商业目的。

CCL不承担由此产生的一切后果。

1.2 本语料库仅供语言研究参考之用。

语料本身的正确性需要您自己加以核实。

1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。

比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式1.4 语料库中的中文文本未经分词处理。

1.5 检索系统以汉字为基本单位。

1.6 主要功能特色:∙支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);∙支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句);∙支持在“结果集”中继续检索;∙用户可定制查询结果的显示方式(如左右长度,排序等);∙用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。

2.1 特殊符号查询表达式中可以使用的特殊符号包括8个:| $ # + - ~ !:这些符号分为四组:Operator1: |Operator2: $ # + - ~Operaotr3: !Delimiter: :符号的含义如下:(一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)(1) | 相当于逻辑中的“或”关系。

(二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)(2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。

两个“简单项”之间相隔字数小于或等于Number(3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。

语料库的分类、创建和检索简述

语料库的分类、创建和检索简述

语料库的分类
语料库的分类
根据不同的标准,语料库可以分为多种类型。常见的语料库类型包括: 1、通用语料库:包含来自不同领域、不同语言的语料,适用于广泛的研究和 应用领域。
语料库的分类
2、专业语料库:针对特定领域或专业构建的语料库,例如医学、法律、金融 等。
3、口语语料库:包含口头语言 材料,如录音、口语表达等。
二、图像分类技术
另外,降维技术也可以用于图像分类。降维技术可以将高维的图像特征降维 到低维的空间,从而使得分类更加简单和高效。常用的降维技术有PCA、t-SNE和 autoencoder等。
三、图像语义检索与分类技术的 研究现状
三、图像语义检索与分类技术的研究现状
近年来,图像语义检索和分类技术的研究取得了显著的进展。在图像语义检 索方面,研究者们提出了多种基于内容、语义相似度和向量空间模型等方法。在 图像分类方面,SVM、神经网络和降维技术等算法的应用取得了重要突破。
一、图像语义检索技术
图像语义检索是指通过自然语言描述或者用户提交的查询关键词,从图像库 中检索出与查询相关的图像。近年来,研究者们提出了多种图像语义检索的方法。
一、图像语义检索技术
基于内容的图像语义检索是通过分析图像的内容,提取出图像的特征,然后 根据这些特征进行检索。例如,可以通过提取图像的颜色、纹理、形状等特征进 行检索。另外,还可以利用深度学习技术,如卷积神经网络(CNN)来提取图像 的特征,提高检索的准确性。
语料库的创建
此外,为了便于语料库的管理和检索,需要构建语料库的索引和词典。索引 可以记录每个单词在语料库中出现的位置和频率,而词典则包含了单词的语义信 息和语法信息等。最后,语料库的创建还需要注意保证数据的安全性和隐私保护。

多语种在线语料库检索平台使用简明手册

多语种在线语料库检索平台使用简明手册


大学
教授创建的 系列语料库检索界面(
)。类似的
在线语料库检索系统还有
、、

等。而当前主
流的语料库工具属于第三代,其中以


等为代表。
第四代语料库工具,将语料库与分析工具合二为一,越来越受到普通用户的青睐。在线
语料库工具通常将语料库文本按特定格式建成索引( ),存储在服务器上。用户检索响
应速度要远高于三代软件在本地电脑上的检索速度。其操作也较三代语料库软件简便得多。
之间的距离)
出现次数
检索词、中心词、节点词
查询结果每页显示的行数
查询、检索
限定条件查询
直译:在 个不同文本中返回
个匹
配项
意译:在 个文本中查到
例子
查询结果按中心词排序
简单查询(不区分大小写)
词语相关查询
附录 :复杂检索举例(查询时,选择

单词检索:


词码混合检索:




近义词批量检索:

北外语料库语言学团队网站:
表 :查询结果后续操作分项功能表
新查询,返回语料库检索首页
查询结果随询结果排序设定
搭配计算
下载保存查询结果
键,即可
(随机取样),比如,可从 万行结果中,随机抽取 行。
(频数分解)表示在进行复杂查询时,对命中的不同词项分别计
算频数。比如,查询
时,会按这 个词
结果;
( )计算特定词语在语料库中的典型搭配(
);
( )计算语料库中的核心关键词(
),等。
1

使用实例
标准查询模式
在简单查询模式(

国家语言资源监测语料库介绍

国家语言资源监测语料库介绍

国家语言资源监测语料库介绍何婷婷杨尔弘侯敏华中师范大学计算机科学系国家语言资源监测与研究中心网络媒体语言分中心北京语言文化大学国家语言资源监测与研究中心平面媒体语言分中心中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心2005年,教育部语言文字信息管理司开始和国内若干高校陆续联合建设语言资源监测中心,其中包括与北京语言文化大学共建的平面媒体语言分中心、与中国传媒大学共建的有声媒体语言分中心、与华中师范大学共建的平面媒体语言分中心。

这三个分中心分别建设了平面媒体动态流通语料库、有声媒体监测语料库、网络媒体监测语料库,它们共同构成国家语言资源监测语料库。

语料库包括网页、纯文本,并采用中科院自动化所的自动分词工具做了自动分词。

欢迎各界同仁共同开发、建设使用该语料库。

1、语料库现状1.1 平面媒体动态流通语料库(DCC)平面媒体语言分中心自2001年以来,每年根据“发行量、发行地域、发行周期、媒体价值、阅读率”等因素,选择15种网络版报纸的内容,作为平面媒体动态流通语料库的语料采集内容,目前,已经形成了近30亿字的语料库。

语料进行了元数据的标注、自动分词标注,语料库提供了生语料、分词标注语料的检索功能,并能够历时地查询词语使用的情况。

网址/。

根据网页栏目的分类体系,所有语料进行了分类。

类别包括15类:娱乐,游戏,文艺,体育,时政新闻_社会,时政新闻_军事,时政新闻_国内,时政新闻_国际,生活男女,汽车,旅游,科技,经济,教育,房产。

为实现语料库中的文本分类,建立了60万个文本的训练语料,语料规模约6亿字次。

1.2有声媒体监测语料库有声媒体语言分中心自2001年开始语料库的建设。

到目前为止,已建起一个多功能的、跨媒体的汉语传媒有声语言语料库。

每年以收视率为基本条件,综合考虑了“传播媒介(广播、电视)、媒体级别(中央、地方)、播出时间(黄金时间、非黄金时间)、节目样态(独白、对话、综合)、文本现存(是否有转写好的文本)”五个因素,采集了电台、电视台播出的有声节目的录音或录像及由其转写成的文本语料。

国家语委语料库使用方法

国家语委语料库使用方法
吃+<10+(!大+<>)亏
表示 查询 任意 词类 的 “吃” 与 任意 词类 的 “亏” 共现 的 例句,且 两 词 之间 距离 小于 10 个 词,同时 “亏” 前 任意距离 内 不 出现 任意 词类 的 “大”;
就+<>+吃+<10+(!大+<>)亏
表示 查询 任意 词类 的 “就” 与 任意 词类 的 “吃” 及 任意 词类 的 “亏” 共现 的 例句,且 “就” “吃” 两 词 之间 距离 为 任意距离,“吃” “亏”
动词 词类 的 “吃” 要 在 检索 出 的 例句 中 出现 , 同时 “吃” 前 3 个 词 之 内 有 副词 词类 的 “不” 的 例句 不 包括 在 检索 出 的 例句 中。
c.共现项(距离限制项+!共现项);吃/v(<3+!不/d)
d.(!共现项+距离限制项)共现项(距离限制项+!共现项); (!不/d+<3)吃/v(<3+!不/d)
2. 查询表达式 的组成
注意: ?表达式 中 没有 空格; ?表达式 结束 处 没有 回车; ?表达式 中 所有 的 非 汉字 符号 都 是 英文 半角 符号; ?请 不要 在 表达式 中 随意 插入空格 或者 换行符 或 使 用 全角 英文 符号 ;
注意: 共现词 之间 必须 有 距离限制项,至少 是 “<>”(表示 不 限制 距离),如果 不 写 距离限制项(如:“吃+亏”) 将 导致 表达式 书写 错误,无法查询。
2. 查询表达式 的组成
(4)简单表达式 : 由 共现项 和 不共现项 组成 a.共现项; b.(!共现项+距离限制项)共现项; c.共现项(距离限制项+!共现项); d.(!共现项+距离限制项)共现项(距离限制项+!共现项);

语料库使用方法

语料库使用方法

语料库使用方法
一、语料库的使用方法
1.登录语料库
首先在网站上登录语料库,根据自己的需要进行搜索,找到自己需要的语料库,然后将语料库添加到自己的收藏夹中。

2.访问语料库
然后可以通过在网站上进行搜索的方式来访问语料库,例如可以通过关键字来定位资源,还可以根据文档格式进行筛选,以及根据语料库的主题类型来进行选择。

3.下载语料库
在访问到语料库之后,可以将其下载到本地,根据语料库的下载格式可以进行转换,以更方便使用。

4.分析语料库
最后,在下载完的语料库中,可以进行文本分析,例如可以进行词频统计,情感分析,句法分析等,以更好地挖掘语料库的宝贵信息。

常用在线语料库使用简介

常用在线语料库使用简介

COCA
6.1.1 检索某一词形
在显示方式区选择KWIC 并再次点击search, 可得含有“feature”的词语 索引(图6.1.1-4)
图6.1.1-4
COCA
6.1.2 检索某一词性的单词
输入“feature.[v*]”,可得到“feature”做动词时的使 用情况 (图6.1.2-1)
Ⅰ 显示及查询条件界定区,包括:显示方式区, 字串查询区,语料库分类区,查询结果排列方 式区。
Ⅱ 查询结果数据显示区
Ⅲ 例句显示区
COCA
5. COCA界面简介(图5-1)
/coca/ 显示方式区
图5-1
COCA
5. COCA界面简介(图5-1)
或者“制度,观点”的词搭配
图6.2-2
COCA
6.2 检索搭配词
点击conditions可进一步观察prevail的语境 (图6.2-3)
通过观察例句,我们发现与prevail共现的conditions常 有消极意义的词修饰,例如harsh, precarious, daunting, severe, colder and drier, dangerous等
——以BNC、COCA和Sketch Engine 为例
One-word Introduction
英国国家语料库(British National Corpus/BNC): 库 容1亿词的现代英式英语样本集合,文本来源广泛,其 中书面语占90%,口语占10%。
美国当代英语语料库((Corpus of Contemporary American English/COCA): 库容为4.5亿词的大型平 衡语料库,含有多个字库,具有多种检索功能,可免 费在线使用。

语料库检索使用指南

语料库检索使用指南

Homework for Introduction parthttp://211.69.132.28/ 检索的库为:introduction 子语料库语料库使用练习目标一:熟悉语步与词汇的对应关系;目标二:学习以扩展意义单位为基础的新语义观(核心词、搭配、类联接、语义倾向、语义韵);目标三:掌握有语言问题后如何查找相应答案的技能。

提交的作业文件名为:姓名+introduction提交的内容: 1. 在三个introductions,标注:1)M1, M2, M3;2)每个move的内容要点(用汉语);3)每个语步的经典句型划线,4)红颜色标注:语步1中的评价性形容词、语步2的转折连词(引出现有研究的问题),语步3中代表弥补现有研究不足的表达(如研究目的等)2. 回答表格中基于语料库检索的8个问题。

提交时间:周二上课的班级提交时间为周一晚9:30:提交给刘琴同学的QQ邮箱周三上课的班级提交时间为周二晚9:30 ,提交到周颖同学的QQ邮箱Direction :1.Download 3 introduction parts from 3 journal articles in your own professional fields. Identify the 3 moves of the introduction part and mark them respectively by M1, M2, M3.and point out the main point of each move inChinese in barckets. Mark evaluative adj.in M1(评价性形容词), disjunctive conj.(转折连词)in M2, and the expressions implying filling gaps, such as research purpose in M3 in red.Move1 : statements about the subjects. (M1), (main points :problems, background information, definition, importance ,etc) , Move2 : review of relevant studies(M2) (description & comments , point out the weakness of existing researches)Move3: introduction of the present study(M3)(purposes to fill the gaps, research focuses, questions, hypothesis,etc.)2.Underline the representative sentence patterns in each move and summarize it in the bracket such as [importance]3.Answer the questions in the right column of the form based on the corpus data.(注意:如果你不会调节表格,请把答案写在表格外)Sample :The separation of mixtures of alkanes is an important activity in the petroleum and petrochemical industries. For example, the products from a catalytic催化isomerization reactor consist of a mixture of linear, mono-methyl and di-methyl alkanes. Of these, the di-branched molecules are the most desired ingredients in petrol because they have the highest octane number. It is therefore required to separate the di-methyl alkanes and recycle the linear and mono-methyl alkanes back to the isomerization reactor. In the detergent industry, the linear alkanes are the desired components and need to be separated from the alkanes mixture[M1: 通过现实需要突出研究的重要性与意义].Selective sorption on zeolites is often used for separation of alkanes mixture(1-7文献被省略). The choice of the zeolite depends on the specific separation task in hand. For example, small-pore Zeolite A are used for separation of linear alkanes using the molecular sieving principle. However, the branched molecules cannot enter the zeolite structure[M2:指出现有研究方法及方法中存在的问题]. This study aims to overcome this limitation. Both linear and branched molecules are allowed inside the medium-pore MFI matrix and the sorption hierarchy in MFI will be dictated both by the alkanes chain length and degree of branching.[M3:本研究目的和采用新方法的优势]Introduction的写作方法:说明论文特定主题与较为广泛的研究领域之间的关系,同时提供足够的背景资料。

北京语料库检索使用说明

北京语料库检索使用说明

北京语料库检索使用说明首页一关于CCL语料库及其检索系统二关于查询表达式2.1 特殊符号2.2 基本项2.3 简单项2.4 复杂项2.5 过滤项2.6 子旬2.7 查询表达式三关于查询结果四在结果中查找五举例一关于CCL语料库及其检索系统(1)CCL语料库及其检索系统为纯学术非盈利性的。

不得将本系统及其产生的检索结果用于任何商业目的。

CC口承担由此产生的一切后果。

(1)本语料库仅供语言研究参考之用。

语料本身的正确性需要您自己加以核实(1)语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。

比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式(1)语料库中的中文文本未经分词处理。

(1)检索系统以汉字为基本单位。

(1)主要功能特色:支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);支持对标点符号的查询(比如查询”可以检索语料库中所有疑问句);支持在“结果集”中继续检索;用户可定制查询结果的显示方式(如左右长度,排序等);用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。

特殊符号查询表达式中可以使用的特殊符号包括7个:|$#+-~!这些符号分为三组:Operator1:|Operator2:$#+-~Operaotr3:!符号的含义如下:(一)Operator1:Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)|相当于逻辑中的“或”关系。

(二)Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)$表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。

多语种在线语料库检索平台 BFSU CQPweb 使用简明手册

多语种在线语料库检索平台 BFSU CQPweb 使用简明手册

多语种在线语料库检索平台BFSU CQPweb使用简明手册许家金中国外语教育研究中心1、访问及登录访问124.193.83.252/cqp/(用户名:test和密码:test),可点击使用相应的语料库。

目前BFSU CQPweb平台上已安装英语、汉语、德语、日语、俄语、阿拉伯语、冰岛语等7个语种35个语料库。

图1:BFSU CQPweb主界面2、CQPweb功能概要按McEnery & Hardie(2012)对语料库分析工具的时代划分,CQPweb属于第四代语料库工具,即在线语料库分析工具。

四代工具的突出代表是美国杨百翰(Brigham Young)大学Mark Davies教授创建的BYU系列语料库检索界面(/)。

类似的在线语料库检索系统还有SketchEngine、CWB、BNCweb、Phrase in English等。

而当前主流的语料库工具属于第三代,其中以WordSmith、AntConc和PowerConc等为代表。

第四代语料库工具,将语料库与分析工具合二为一,越来越受到普通用户的青睐。

在线语料库工具通常将语料库文本按特定格式建成索引(index),存储在服务器上。

用户检索响应速度要远高于三代软件在本地电脑上的检索速度。

其操作也较三代语料库软件简便得多。

四代语料库工具可完成三代语料库几乎所有的功能,其中又以CQPweb所能实现的功能最多最全。

更重的是,CQPweb是开源软件。

概括说来,CQPweb可以实现以下功能。

(1)在线生成语料库的词频表(frequency list);(2)查询(query)字词、语言结构等,以获取大量语言实例或相应结构的出现频次(frequency),并可以按语体、年代、章节、学生语言水平级别、写作题材等分别呈现查询结果;(3)计算特定词语在语料库中的典型搭配(collocation);(4)计算语料库中的核心关键词(keywords),等。

3、CQPweb使用实例3.1 标准查询模式在简单查询模式(Simple query mode)下,可输入单词、短语等进行检索。

语言技术计划公共实例语料库查看器基本使用手册说明书

语言技术计划公共实例语料库查看器基本使用手册说明书

BASIC MANUAL OF USE OF THE PUBLIC INSTANCE OF CORPUS VIEWER PLAN FOR THE ADVANCEMENT OF LANGUAGE TECHNOLOGYJuly/2019INDEXDOCUMENT PURPOSE 3 AVAILABLE DOCUMENTARY CORPUS 3 ACCESS TO CORPUS VIEWER 4 NAVIGATION BY CORPUS VIEWER TOOLS 5 A BRIEF INTRODUCTION TO THE MODELING OF TOPICS 5 VISUALIZING THE TOPICS THAT CHARACTERIZE A DOCUMENTARY CORPUS 6 TÓPICOS: GENERAL VISION TAB 6 TÓPICOS: TOPICS TAB 8 TÓPICOS: DOC-TÓPICOS TAB 10 TÓPICOS: CORRELACIÓN TAB 11 STUDY OF RELATIONS BETWEEN DOCUMENTS BASED ON THEIR TOPICS 12 CORRELACIÓN: DOCUMENTS TAB 12 CORRELACIÓN: ALARMAS TAB 13 DOCUMENTS SIMILAR TO AN ARBITRARY TEXT 15 SEARCH TOOL 161.DOCUMENT PURPOSEThis document provides a basic user guide of the Corpus Viewer platform for analyzing documentary collections, developed within the Language Technology Plan. It allows, through the use of natural language technologies and other artificial intelligence techniques, to analyze large volumes of unstructured textual information and infer relationships between these texts.This application serves as support for those responsible for public policies, both for the design and monitoring of policies, as well as for the management of projects calls exploiting the large collections of unstructured data available.Corpus Viewer is a tool that is in production in different entities of the Public Sector in Spain (SEAD, SEUIDI, FECYT), and users usually receive training several hours prior to their access to the tool. For access to the instance (online demonstrator)It is not practical to propose such training, and the tool itself is not designed to be self-explanatory in all its functionality, which suggests that users have a minimum of documentation to better interpret the information provided by the tool. This guide has been written for that purpose.2.AVAILABLE DOCUMENTARY CORPUSWe understand by corpus, a collection of documents whose content is expressed in natural language.As of January 18, 2020 the following documentary corpus are available in the public instance of Corpus Viewer:●ACL: It is a corpus of scientific publications in the field of computational linguistics(Association of Computational Linguistics).●CORDIS720: Research Projects funded by the European Union within the SeventhFramework and Horizon 2020 Program.●CORDIS720_AI: Contains a selection of previous corpus projects in which ArtificialIntelligence is present, either because the project develops Artificial Intelligence techniques, or because they are used in some scope of application. The selection of the projects included in the subcorpus has been carried out automatically using machine learning techniques. Theuse of these techniques makes it possible to address the labeling of a large number of projects, avoiding the high cost in time that manual labeling would entail, but inevitably implies the introduction of a certain margin of error regarding the selected projects.The following documentary corpus will soon be published on the platform:●Aid from the National Science Foundation (NSF)●American aid in the field of health sciences (NiH)● A corpus of larger scientific publications (based on Semantic Scholar)The publication of these and other corpus will be notified to active users, unless they have expressed their desire not to receive any communication.3.ACCESS TO CORPUS VIEWERAccess to the online demonstrator must be requested by sending an email to ********************************* with subject “Corpus Viewer Access”.Once your application has been processed, you will receive an email with your username and password, allowing access to the demonstrator through the following web address:https://cvdemo.plantl.gob.es/CorpusViewer/#/loginAfter identifying yourself In the system it is convenient that you change the access password initially provided, for which you must access the “Editar Perfil” option located in the drop-down menu in the upper right part of the window.Figure 1: User Profile Edition.To log out of Corpus Viewer, access this menu again, to the option "Cerrar Sesión".4.NAVIGATION BY CORPUS VIEWER TOOLSTo use the tool itself, you must access the "Menu" option in the upper tab. Once you have selected any of the available options, the following information appears on that top tab:● A list of available tabs, each of which provides a different view of the selected documentarycorpus.● A drop-down menu in which you can select the corpus with which you want to work.● A drop-down menu that allows you to select a model from those associated with theselected corpus.Figure 2: Navigation through the General Menu. Display selection based on topics.5.A BRIEF INTRODUCTION TO THE MODELING OF TOPICSThe construction of topic models is based on a machine learning technique called Latent Dirichlet Allocation (LDA). There are multiple sources on the Internet that provide information about this technique, some merely intuitive, and others addressing in greater mathematical detail the generation of topics and documents. This Quora entry contains several explanations with different levels of complexity. For reasons of academic recognition we also want to include the original paper by David Blei in which the original algorithm is proposed.For the purposes at hand, it is possibly enough to explain the following two basic concepts in a very simplistic way:●In LDA a topic can be characterized as a set of words that usually appear together in manydocuments. For example: the words gene, cellular, membrane usually co-occur frequently.LDA is able to locate these co-occurrences on the complete collection of documents, and define the topics from them. You could say that each set of words represents a possible thematic area that is what we call a topic.●In LDA a document can be characterized by a single topic, although often it is really a mixtureof topics. Again, LDA provides a vector for each document that indicates the extent to which the document belongs to each of the identified topics.The tools used in Corpus Viewer are based on Latent Dirichlet Allocation, but include some modifications made within the various contracts executed in the Language Technology Plan. The interested reader can refer to the plan's website for more information on some of these developments (currently information is only published in Spanish):https://www.plantl.gob.es/inteligencia-competitiva/resultados/desarrollos-SW/Paginas/desarrollos.apx6.VISUALIZING THE TOPICS THAT CHARACTERIZE A DOCUMENTARYCORPUSSelecting "Menú -> Tópicos estáticos: Tópicos", we have access to the following tabs:●Visión General: Allows you to study the main themes of the corpus.●Tópicos: It allows studying the main themes of the corpus.●Doc-Tópicos: It allows analyzing the themes of specific documents.●Correlación: It allows studying the relationships between themes.6.1TÓPICOS:GENERAL VISION TABThe first of the available visualizations takes us to a window in which we are shown general information about the selected documentary corpus, and about each of the topics identified for saidcorpus. It also includes an interactive graphic display of the model. As the cursor passes through the sets, a label is shown with the words that characterize each topic. If you click on one you will access the detail of that topic. Clicking again returns to the overview.In the list “Tópicos del modelo”, the following information is offered for each of the topics:●Relative profile size (estimated by the LDA model; it is related to the importance of the topicin the corpus, but a direct relationship cannot be inferred with the number of documents associated with the topic, since we have seen that the documents can belong to several topics to a different extent).● A title proposed by an expert annotator of the SEAD (bold text)●The list of words identified as most relevant to each topic (below the title of each topic).The list of topics is of the sliding type, so we must move with the cursor over it to visualize all the topics.Figure 3: General View of Corpus Viewer Topics.If we click on any of the topics (both in the graphic display and in the list of topics), the view changes to emphasize the selected topic and also shows:● A graphic display of the most relevant words of the topic (both on the interactive ballchart, as in the histogram version)● A list of the documents that best represent the selected profile. By clicking on theavailable link, we can access the text associated with the document.By clicking on the ball chart again we can move to another profile, or return to the general model display.Figure 4: Detailed visualization of topic including its description based on words, and the most characteristicdocuments of the selected topic.6.2TÓPICOS:TOPICS TABThis second tab allows a visualization of the model similar to that described in the previous case, although the selection of topics is done through a drop-down menu in which the title of the topics and their relative importance in the corpus are shown.Figure 5: Display of topics in the "tópicos" tab.Again, for the selected topic, the most representative documents are shown, and the list of the most relevant words, both in histogram and word bag format.This window also offers the possibility of emphasizing the most discriminative words of the topic (keywords) by selecting the option “Con penalización por TF/IDF”.The use of TF-IDF is common in the representation of documents using bags of words. In this case, we use an extension of this concept to represent the value of the words in each topic. Being:●TF: Term Frequency: Measures the probability of a word in a given topic.●IDF: Inverse Document Frequency: In this context, it is an inverse factor to the importanceof the term in the set of topics of the model.In this way, if we activate the option “Con penalización por TF/IDF”, the system will reweigh the weight assigned to each word within the topic, and weight will be subtracted from those words that are common to a larger number of topics (common words with little semantic relevance). In other words, we will emphasize the most discriminative words, in the sense that words that are mostly present just in the selected topic are emphasized.Finally, it is worth mentioning that the tab offers information on the standardized entropy of the topic, which gives an idea of the mainstreaming of the topic throughout the collection of documents.However, the calculation of standardized entropies currently implemented offers a low dynamic range, and the SEAD technical team is developing new indicators to better characterize horizontal and vertical topics.6.3TÓPICOS:DOC-TÓPICOS TABThe "Doc-Tópicos" tab allows you to search for documents by keywords. This search engine has the ability to "autocomplete", so that by entering some words, suggestions of documents containing them will be provided.Once the document to be analyzed has been selected, a graphic visualization of its thematic content is offered. Remember that in Latent Dirichlet Allocation each document is characterized by its level of belonging to the topics of the model.Figure 6: Detailed analysis of documents based on the most relevant topics that characterize it.As an example, the included figure shows that the document:“206298 - Deep learning and Bayesian inference for medical imaging”belongs in 56% to the topic characterized by the words “method, datum, simulation,…” (Algorithms and Modeling), in a 38% to the topic characterized by the words "patient, cancer, treatment, ..." (Cancer and Biomedical Applications), and to a lesser extent to other profiles.The graphic is interactive, which allows to expand to visualize the topics of minor importance for the document by clicking on them. To return to the more general previous view, just click on the center of the circular crown.6.4TÓPICOS:CORRELACIÓN TABLastly, the tool allows you to measure the level of correlation between topics. For this, it is estimated that the relationship between two topics is greater when these topics tend to occur together in the same documents.Navigating on the graph on the left we can select each of the topics of the model, and the links with other topics show their level of concurrence with other topics of the model. Since the figure does not have enough space to show the full title of the profiles, this information is included in textual format on the right side of the tab. When positioning in the figure on the name of a subject, the complete title will be shown in the textual information on the right side of the page. Selecting a topic on the figure shows only the relationships with it, hiding the rest of the flows.Figure 7: Visualization of the correlation between model topics. For each topic other topics that frequentlyco-occur are highlighted.Additionally, you can select the option “Con penalización por TF/IDF” that has already been explained in the previous section, as well as, choose a higher or lower threshold for correlation, so that only those relationships that exceed the threshold will be displayed.7.STUDY OF RELATIONS BETWEEN DOCUMENTS BASED ON THEIR TOPICSAs already mentioned, the topic modeling algorithm used allows each document to be represented based on its level of belonging to the different topics. This representation allows to measure “semantic distances” between documents. According to this distance, two documents are more similar to each other if their topic vectors are similar as well, that is, if they belong to the same topics to similar extents.Corpus Viewer incorporates tools that allow to exploit this semantic relationship between documents. Selecting the option "Menú -> Tópicos estáticos: Correlación" we access two tabs that exploit this information:●Documentos: Document search tool by semantic similarity.●Alarmas: Search tool for pairs of documents with very high semantic similarity.7.1CORRELACIÓN:DOCUMENTS TABThe first of the available tabs offers a document search engine that allows you to select a specific document. Once selected, a list of up to 20 documents that have a high semantic relationship with the selected document is offered.For each of the documents listed, by clicking on the different icons that appear on your right, we can:●Check their metadata, including the title and the full text of each document.●export the complete list of documents to excel.Figure 8: List of documents semantically similar to the document selected by the user.Finally, it is worth mentioning that the list allows iterative document browsing: if we click on the title of the documents in the list of similar documents, we will select that document and the tool will update the list of similar documents with those corresponding to the new document selected.To return to the complete list, just click on the "Listado inicial" button.7.2CORRELACIÓN:ALARMAS TABThis tool allows you to search for pairs of documents with very high semantic similarity. This similarity can be used to search for duplicates, or documents that have been submitted multiple times for evaluation.It should be stressed that the tool provided is not based on a search for textual similarity (as turnitin tools, etc.), but semantic similarity. Two documents can be very similar to each other as long as they combine the same topics in similar proportions. For this reason, this search tool is very robust against the presence of synonyms, rewrites of texts, etc., because the representation of the document in the topic model remains relatively stable when the text goes through revision or minor changes.Figure 9: Options for searching for “Alarms” based on semantic similarity between documents.The tool allows to determine the level of similarity required for the detection of alarms (lower and upper percentile), or to require that one of the two selected documents belong to a specific year (field “centered on year”)1. Once we have established the desired settings, we have to press the “cargar” button and the tool will load the pairs of similar documents in the drop-down menu “Alarmas encontradas”.As an example, if we select the CORDIS-IA corpus and use the default parameters, the first alarm found (with a similarity of 94%) provides the view of the following figure. We can verify that these are two projects requested in years 2009 and 2013, and that they are basically a continuation of each other.Figure 10: “Alarms” found by the application, and parallel view of two documents identified as(semantically) very similar.1 Sometimes it is interesting to decrease the upper percentile to a value less than 100% or to focus the analysis on a specific year. This can be important especially in those cases in which the documents have been subject to an OCR process (this is the case of the ACL corpus), since in certain cases there may be thematically identical documents because they are associated with the presence of noisy characters that come from a malfunction of character recognition.If we click on the “comparar paneles” option, we can see how the textual similarity of both projects is relatively low, although a high semantic similarity has been detected. Regarding textual similarity, the sentences marked in red (green) appear only in the text of the document in the left (right) panel, while the white text is the one that appears simultaneously in both documents. This example clearly illustrates the difference between this tool based on semantic similarity versus other tools based on textual similarity.Figure 11: Textual comparison panel between pairs of documents with large semantic similarity.8.DOCUMENTS SIMILAR TO AN ARBITRARY TEXTAll the functionalities described in the previous section allow to exploit semantic similarities, but their use is restricted to those documents that belong to the collections of documents already loaded in Corpus Viewer. Sometimes it can be interesting to look for similarities with other new texts provided by the user. This is possible by selecting the option "Menú -> Tópicos estáticos: Inferencia" in the main menu of Corpus Viewer.Figure 12: Tab for thematic inference about free text provided by the user, and search for documents with asimilar theme indexed in Corpus Viewer.The Inference tool is based on the following steps:1.The text provided is preprocessed using the same tools that were used for preprocessingthe documents of the active corpus.2.The text provided is “projected” on the topic model associated with the active corpus. Inthis way, we obtain a representation based on topics similar to that available for all the corpus documents loaded in Corpus Viewer.3.The semantic similarity between the text provided and each of the documents of theselected corpus is calculated, and the most similar documents are shown to the user.It is worth mentioning that this tool requires the execution of certain calculations on Corpus Viewer servers, so the response time may be a few seconds (larger when the number of documents in the selected corpus is also very large).It is also necessary to highlight that the semantic representation of the text will have better quality the longer the length of the text provided. Therefore we can expect higher quality results the longer the query text.9.SEARCH TOOLselecting "Menú -> Buscador" you can access the last of the options currently active in Corpus Viewer, which consists of a tool based on Solr and Banana. This tool offers the functionality of a BI type tool, although it integrates the available metadata with the document-based representation of topics.Currently, the search engine is in the development phase, so all the information that will be available in the final version is not incorporated, and changes in the panels that are finally incorporated in each corpus are expected.Although the development is not finished, it has been decided to leave this tab active in the open instance of Corpus Viewer, so that users can get a first impression of the type of functionality that will be provided once the development is completed.You can check the demo version with data from CORDIS for Artificial Intelligence developed on Javascript (takes a while to load).The operation of the search engine that will be incorporated into Corpus Viewer will be similar to that of the demonstrator provided, and will include all the search and grouping power provided by Solr indexing technology.。

语料库的三大功能

语料库的三大功能

我想有些亲可能并不是学英语的,需要处理中文的语料库,所以我就把Anthony的AntConc 的使用手册翻译了一下,没有全部,只是某些功能的使用步骤,版本是AntConc3.2.1w(windows)20071.索引工具(concordance)使用步骤1)从file菜单的open file 或open dir选择一个或多个要处理的文件,选出来的文件按顺序在主窗户的左边框里显示出来。

2)在左边search term下的输入框里输入一个搜索词3)使用右边"Search Window Size"的按钮条的增加和减少按钮来选择在搜索词两边显示的字符数。

4)按“Start”键开始产生索引行的检索结果。

检索过程中可按“stop"键随时停止检索。

5)使用Kwic Sort下的按钮条选择一个目标词来重排索引行,0是搜索词,1L,2L是搜索词左边的第一,第二个单词,1R,2R是搜索词右边第一,第二个单词。

注意,三级分类均可,软件刚启动时,二三级未选择。

6)按“Sort”键开始分类处理。

7)将指针移到其中一个索引行的突出的搜索词之上,系统默认为蓝色,与前一项分类得出的目标词不一致,是最开始的搜索词。

指针会转变成一个手形的图标。

点击突出的搜索词,可以使用户看到搜索词在原文中出现的情况。

见“File View"工具。

今天让我们来了解一下什么是语料库。

同样,为了让大家容易理解,我先不准备用专业术语。

可以这样理解,语料就是语言材料的集合。

学外语的同行通常少不了要给人翻译东西,有时候我们可能会碰到我们从来没有遇到过的东西,比如,广告或者说明书。

这时候,我们真希望有类似的用目的语写成的广告或者说明书在手头,我们可以参考,起码我们知道这种广告或者说明书该如何措辞,还有这种广告或者说明书的文本结构方面的特征。

我们可以把收集到的这些文本集合看做是简单的语料库。

所以,语料库本质上就是一文本集合。

北京大学CCL语料库的研制

北京大学CCL语料库的研制
关键词:北大 CCL 语料库、汉英双语对齐语料、语料检索、语料索引
1. 引言
在语言本体研究及语言应用领域(如语言教学、教材编写、词典编纂等方 面),语料库都发挥着非常重要的作用。另外,在自然语言处理领域,数据驱动的 方式亦是当前主流。国际上的 BNC 语料库、COCA 语料库、美国宾州大学 LDC 收 集的多语种语言资源;国内的国家语委语料库、北京语言大学的 BCC 语料库(荀 恩东等 2016),以及本文要介绍的北京大学 CCL 语料库等,均被广泛应用于语言 学研究、教学领域以及自然语言处理中。可以说,经过半个多世纪的发展,语料 库已经成为现代语言学相关领域必不可少的基础资源和研究工具 1。
71
北京大学 CCL 语料库的研制
个定位和具体的任务要求,CCL 研究人员联合北京大学计算语言学研究所,研发 了 CCL 语料库,于 2004 年底在 CCL 网站上发布了首个版本。此后分别在 2006 年、 2009 年、2014 年历经多次语料扩容和检索系统功能升级,系统运行至今已有近 十五年,而且仍在根据研究工作需要和用户反馈持续更新。CCL 语料库在海内外 汉语研究和教学领域得到了广泛应用,产生了较大的影响。本文将详细介绍 CCL 语料库的研制情况和使用方法。
在北大 CCL 语料库系统设计之初,研究人员一方面受到上述语料库语言学 “两种路线之争”的大背景影响;另一方面,也更主要的是,中文文本语料的自动 分词、词性标注技术在当时的技术条件下还不够成熟,如果要进行词汇级的标注 处理,需要较多的人工干预,成本较高,因此选择了基本保持自然文本状态,仅 做文本的篇章分类和少量信息标注的路线。把语料库建设的工作集中在两个方面: 一是完成基本的电子文本的文字校对;二是开发功能丰富的、支持语言学研究的 例句检索系统。这样可以大大缩短语料库的开发周期。

语料库 !!!

语料库 !!!

如果你也搞语言,你会用到的语料库~~中央研究院现代汉语标记语料库(现代汉语平衡语料库):.tw/SinicaCorpus/这是首页。

进入中文版,就是这个:.tw/ftms-bin/kiwi1/mkiwi.sh中央研究院近代汉语标记语料库:.tw/Early_Mandarin/或.tw/cgi-bin/kiwi/pkiwi/pkiwi.sh中央研究院汉籍电子文献(瀚典全文检索系统).tw/ftms-bin/ftmsw3国家现代汉语语料库:http://124.207.106.21:8080/(不知道是不是网络的原因我没打开)国家语委现代汉语语料库:/retrieval/index.html(同上,也没打开~~~~(>_<)~~~~ 不知道这俩一样不)树图数据库:.tw/北京大学中国语言学研究中心,简称CCL语料库检索系统(包括:现代汉语语料库、古代汉语语料库、汉英双语语料库)/Yuliao_Contents.Asp北京大学《人民日报》标注语料库:北京语言大学的语料库:/kych/H.htm清华大学的汉语均衡语料库TH-ACorpus:/ainlp/source.htm山西大学语料库/homepage/cslab/sxuc1.htm台湾南岛语典藏:.tw/Formosan/闽南语典藏:.tw/香港城市大学的LIVAC共时语料库:.hk/livac/或浙江师范大学的历史文献语料库: /xueke/hyywzx/xkjj.htm中国科学院计算所的双语语料库:/corpus/query_process.php 中文语言资源联盟:/xyzy.htm红楼梦汉英平行语料库:.sg/hlm/index.htm#SKETCHENGINE多语言语料库:每个邮箱可以注册一次,免费期是一个月,免费期过了就再注册一个邮箱,再注册一次。

其中汉语语料库是没有加工的生语料库,使用价值不大。

关键是其中的英语语料库实际上是原来要付费才能使用的BNC,可以好好利用。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

北京语料库检索使用说明首页一关于CCL语料库及其检索系统二关于查询表达式2.1 特殊符号2.2 基本项2.3 简单项2.4 复杂项2.5 过滤项2.6 子句2.7 查询表达式三关于查询结果四在结果中查找五举例一关于CCL语料库及其检索系统1.1 CCL语料库及其检索系统为纯学术非盈利性的。

不得将本系统及其产生的检索结果用于任何商业目的。

CCL不承担由此产生的一切后果。

1.2 本语料库仅供语言研究参考之用。

语料本身的正确性需要您自己加以核实。

1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。

比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式1.4 语料库中的中文文本未经分词处理。

1.5 检索系统以汉字为基本单位。

1.6 主要功能特色:∙支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);∙支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句);∙支持在“结果集”中继续检索;∙用户可定制查询结果的显示方式(如左右长度,排序等);∙用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。

2.1 特殊符号查询表达式中可以使用的特殊符号包括7个:| $ # + - ~ !这些符号分为三组:Operator1: |Operator2: $ # + - ~Operaotr3: !符号的含义如下:(一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)(1) | 相当于逻辑中的“或”关系。

(二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)(2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。

两个“简单项”之间相隔字数小于或等于Number(3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。

两个“简单项”之间相隔字数小于或等于Number(4) + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。

两个“简单项”之间相隔字数刚好等于Number(5) - 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number 个字的范围内,-号右边的“简单项”不出现。

(6) ~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number 个字的范围内,~号右边的“简单项”不出现。

(三)Operator3:Operator3是一元操作符。

(7) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。

注意: Operator2后面的Number是必须的,不能省略。

Number=0表示相邻,Number=1表示间隔1个单位,其余依此类推。

2.2 基本项指不包含特殊符号和空格的连续字符串2.3 简单项简单项可以由以下三种形式的序列组成(1)基本项(2)基本项1 Operator1 基本项2 Operator1 ...(3) (基本项1 Operator1 基本项2 Operator1 ...)注意:在实际表达式中,Operator1 前后不能有空格2.4 复杂项复杂项可以由以下三种形式的序列组成(1)简单项(2)简单项1 Operator2 Number 简单项2(3)简单项1 Operator2 Number Operator3 简单项2其中第二种形式,等价于 Operator3 简单项1 Operator2 Number 简单项2,换句话说,如果以第一个简单项作为查询结果的显示中心,!可以省略。

注意:Number为0和正整数。

Operator2,Operator3前后均不能有空格2.5 过滤项过滤项可以包含以下表达式:(1)author:简单项(2)name:简单项(3)path:简单项(4)type:简单项(5)pattern:简单项(“author:简单项”的含义是指“author:”后面跟的表达式是上面2.3“简单项”所定义的字符串,其余类推)注意:通过指定过滤项中author(作者),name(篇名),path(文件路径),type (文章类型),用户可以缩小查询语料的范围。

其中过滤项pattern专门用于查询汉语中的各种模式,比如“AABB”这样的重叠形式,“AB不AB”这样的反复问形式,等等。

比如:想查询“老舍”的语料,在查询表达式中输入“author:老舍”即可;想查询唐代语料,在查询表达式中输入“path:08唐”即可(唐代语料均放在包含“08唐”目录下)。

想查询唐代语料中“给”的使用情况,可以在查询表达式中输入“path:唐给”。

(“path:唐”跟关键字“给”之间需有空格隔开)想查询“老舍”先生的文章中“A来A去”的用法,在查询表达式中输入“author:老舍 pattern:A来A去”即可。

各过滤项的具体取值,用户可以在“高级搜索”页面中查到(参见上文1.2)。

下面是古代汉语语料一级目录列表:01周02春秋03战国04西汉05东汉06六朝07隋08唐09五代10北宋11南宋12元13明14清15民国全元曲全唐诗全宋词大藏經诸子百家2.6 子句子句可以是以下两类表达式:(1)复杂项(2)过滤项2.7 查询表达式查询表达式可以是以下形式的序列:(1)子句(2)子句1 子句2 ...(子句和子句之间需要以空格隔开,表示逻辑“AND”关系)三关于查询结果1 每次查询,网页上最多列出5000条结果(分页列出,每页50条)。

2 用户可以将查询所得结果保存到自己本地计算机的磁盘上。

在查询结果显示网页上,用户可以根据需要指定下载结果的条数(缺省为500条),点击“下载”按钮,查询结果即以txt文件形式保存到本地磁盘上。

每句之后在【】内注明了该句的出处、作者、路径等信息。

(如果条数较多,文件会比较大,下载速度缓慢,请耐心等待,不要重复提交下载请求)。

3 查询结果以“句”为单位输出显示,用户可以指定查询结果的显示长度(左右n个字范围)。

小提示:如果想显示查询关键字所在的整句,可以通过指定足够大的显示长度(比如1000)来实现。

当用户指定的显示长度超过句长时,以句长为限显示结果。

4 关于查询结果的“标亮”和“定位”显示标亮词:在句子中以红颜色标出的词,可以有多个;中心词:是一个特殊的标亮词,显示查询结果的每个句子时,以“中心词”为网页中心位置对齐。

小提示:(1)查询表达式中的“复杂项”和“过滤项”中的pattern项目都可以作为“标亮词”。

这里“标亮词”是指跟“标亮词”匹配的句子片断。

(2)默认的中心词是第一个“标亮词”,即在用户没有用Operator2指定“中心词”的情况下,系统自动把第一个“标亮词”当作“中心词”。

如果用户用Operator2指定了“中心词”,那么该词为用户指定的“中心词”。

5 关于查询结果的“排序”用户可以指定按照“中心词”左边字符串排序,或按照“中心词”右边字符串排序。

排序方式为字符内码(GB码)降序。

四在结果中查找对于复杂的查询要求,可以尝试通过多次查询完成,即利用“在结果中查找”功能,逐次逼近检索目标。

比如:您想查找“宁可……也”的例句,同时不希望“也”后面出现“不”这样的否定词。

您可以先输入查询表达式“宁可$10也”,返回的结果是包含“宁可”和“也”,且二者相隔10字以内的句子,然后您再输入查询表达式“也-4不”,这样就可以把“也”后面4字范围内有“不”的句子剔除掉了。

五举例查询式例子 1:计算机硬件意思是: 查出所有包含“计算机硬件”的句子。

查询式例子 2:把被意思是: 查出所有包含“把”,同时也包含“被”的句子,即两个关键字之间无次序限制,无距离限制,只需要在一句范围内。

查询式例子 3:把|被意思是: 查出含有“把”或“被”的句子,两个关键字只需有一个在句中出现,就作为查询结果输出。

查询式例子 4:把-4不意思是: 查出含有“把”,但在“把”右边4个字范围内不含“不”的句子。

注意:- 号属于opertaor2,其后必须有数字,且不能有空格。

查询式例子 5:给~4把意思是: 查出含有“给”,但在“给”左边4个字范围内不含“把”的句子。

注意:~ 号属于operator2,其后必须有数字,且不能有空格。

查询式例子 6:与其$10不如意思是: 查出同时含有“与其”和“不如”的句子,并且“与其”在先,“不如”在后出现,间隔10字以内。

查询式例子 7:能力#3大意思是: 查出同时含有“能力”和“大”的句子,且“能力”和“大”之间的间隔在3个字之内,二者的先后次序不受限制。

查询式例子 8:吃+3亏意思是: 查出同时含有“吃”和“亏”的句子,并且“吃”在先,“亏”在后出现,二者之间刚好间隔3个字。

查询式例子 9:被$10!给意思是: 查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。

显示查询结果时,以“给”为“中心词”,即“给”居中对齐。

查询式例子 10:(把|被)$10给意思是: 查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔10个字以内。

或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。

查询式例子 11:(把|被)$10!给意思是: 查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔10个字以内。

或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。

显示查询结果时,以“给”为“中心词”,即“给”居中对齐。

查询式例子 12:了$0(。

|?|,|!)意思是:查出“了”与标点符号“。

?,!”等紧邻出现的句子。

这实际上就部分地达到了查询“句尾了”(汉语学界一般所说的“了2”)的目的。

查询式例子 13:所以 path:13明|14清意思是:在古代汉语语料中查“明代”和“清代”文献中“所以”的用例。

2006.01。

相关文档
最新文档