北京语料库检索使用说明

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

北京语料库检索使用说明

首页

一关于CCL语料库及其检索系统

二关于查询表达式

2.1 特殊符号

2.2 基本项

2.3 简单项

2.4 复杂项

2.5 过滤项

2.6 子句

2.7 查询表达式

三关于查询结果

四在结果中查找

五举例

一关于CCL语料库及其检索系统

1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。

1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。

1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如:

“作者列表”:列出语料库中所包含的文件的作者

“篇名列表”:列出语料库中所包含的篇目名

“类型列表”:列出语料库中文章的分类信息

“路径列表”:列出语料库中各文件在计算机中存放的目录

“模式列表”:列出语料库中可以查询的模式

1.4 语料库中的中文文本未经分词处理。

1.5 检索系统以汉字为基本单位。

1.6 主要功能特色:

∙支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);

∙支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句);

∙支持在“结果集”中继续检索;

∙用户可定制查询结果的显示方式(如左右长度,排序等);

∙用户可从网页上下载查询结果(text文件);

二关于查询表达式

本节对CCL语料库检索系统目前支持的查询表达式加以说明。

2.1 特殊符号

查询表达式中可以使用的特殊符号包括7个:

| $ # + - ~ !

这些符号分为三组:

Operator1: |

Operator2: $ # + - ~

Operaotr3: !

符号的含义如下:

(一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)

(1) | 相当于逻辑中的“或”关系。

(二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)

(2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number

(3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number

(4) + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number

(5) - 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number 个字的范围内,-号右边的“简单项”不出现。

(6) ~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number 个字的范围内,~号右边的“简单项”不出现。

(三)Operator3:Operator3是一元操作符。

(7) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。

注意: Operator2后面的Number是必须的,不能省略。Number=0表示相

邻,Number=1表示间隔1个单位,其余依此类推。

2.2 基本项

指不包含特殊符号和空格的连续字符串

2.3 简单项

简单项可以由以下三种形式的序列组成

(1)基本项

(2)基本项1 Operator1 基本项2 Operator1 ...

(3) (基本项1 Operator1 基本项2 Operator1 ...)

注意:在实际表达式中,Operator1 前后不能有空格

2.4 复杂项

复杂项可以由以下三种形式的序列组成

(1)简单项

(2)简单项1 Operator2 Number 简单项2

(3)简单项1 Operator2 Number Operator3 简单项2

其中第二种形式,等价于 Operator3 简单项1 Operator2 Number 简单项2,换句话说,如果以第一个简单项作为查询结果的显示中心,!可以省略。

注意:Number为0和正整数。Operator2,Operator3前后均不能有空格

2.5 过滤项

过滤项可以包含以下表达式:

(1)author:简单项

(2)name:简单项

(3)path:简单项

(4)type:简单项

(5)pattern:简单项

(“author:简单项”的含义是指“author:”后面跟的表达式是上面2.3“简

单项”所定义的字符串,其余类推)

注意:

通过指定过滤项中author(作者),name(篇名),path(文件路径),type (文章类型),用户可以缩小查询语料的范围。

其中过滤项pattern专门用于查询汉语中的各种模式,比如“AABB”这样的重叠形式,“AB不AB”这样的反复问形式,等等。

比如:

想查询“老舍”的语料,在查询表达式中输入“author:老舍”即可;

想查询唐代语料,在查询表达式中输入“path:08唐”即可(唐代语料均放在包含“08唐”目录下)。

想查询唐代语料中“给”的使用情况,可以在查询表达式中输入“path:唐给”。(“path:唐”跟关键字“给”之间需有空格隔开)

想查询“老舍”先生的文章中“A来A去”的用法,在查询表达式中输入“author:老舍 pattern:A来A去”即可。

各过滤项的具体取值,用户可以在“高级搜索”页面中查到(参见上文1.2)。

下面是古代汉语语料一级目录列表:

01周

02春秋

03战国

04西汉

05东汉

06六朝

相关文档
最新文档