北京大学情报学考研真题汇总
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
情报检索与分析
一.名词解释
1.叙词法:是建立在叙词语言及其性质的基础上的一种新的处理文献的方法。其基本原理是通过概念组配(分析与综合)来表达主题,以提高标引的专指性和检索的灵活性。
2.加权检索: 加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔检索、截词检索等一样,也是文献检索的一个基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。加权检索的基本方法是:在每个提问词后面给定一个数值表示其重要程度,这个数值称为权,在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和达到或超过预先给定的阈值,该记录即为命中记录。
运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围提高检准率的有效方法。但并不是所有系统都能提供加权检索这种检索技术,而能提供加权检索的系统,对权的定义、加权方式、权值计算和检索结果的判定等方面,又有不同的技术规范。
3.联机
4.search engine :搜索引擎就是互联网上提供的具有信息发现、组织、检索、导航及其他相关服务功能的各种软件系统或工具的总称。
5.metedata :提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估,选择等功能。
6.指南数据库:是存储有关某些客体(如机构、人物14.引文索引法:利用手头已经掌握的一篇重要的较早发飙的相关著作作为检索的起点,利用引文索引查出所有引用过这篇著作的人及其文章的出处,再查来源索引,就可以查得一些与课题相关的文献
等)的一般指示性描述的一类参考数据库。
7.HTML :超文本置标语言,是为网页创建和其它可在网页浏览器中看到的信息设计的一种置标语言。HTML被用来结构化信息——例如标题、段落和列表等等,也可用来在一定程度上描述文档的外观和语义。
8.on-going project:进行中的项目
9.逆波兰表达式:又称福岛方法,这种方法主要的处理思想是先将检索式(一般为中缀表达式形式)转换为等价的逆波兰式(即后缀表达式形式),然后将逆波兰式翻译成一组检索指令。
10.专利:这个概念的基本涵义是指专利权,其派生义是指获得专利权的技术发明,或指发明人申请专利时提交并由专利局出版的有关某发明的技术说明书(即专利说明书)
11.检索策略:概括的说,就是指为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导。
12.先组式索引语言:指在实施检索前,索引词已被(标引者)预先组配好了的一种索引语言。检索时,检索人员只能直接利用预先给定的索引词去检索文献。
13.叙词:指的是来自文献和用户并经过严格的多方面控制、用以表达文献主题或信息需求
的单义词或代码。
14.引文索引法:利用手头已经掌握的一篇重要的较早发飙的相关著作作为检索的起点,利用引文索引查出所有引用过这篇著作的人及其文章的出处,再查来源索引,就可以查得一些与课题相关的文献。
15.报道性文摘:用来概括原文的内容要点(尤其是创新点),向读者提供原文中的定量信息(如距离、最大值、最小值、平均值、中值、公式、可靠度等)和定性信息(如发现、结果、新方法、新设备、结论等)的一种文摘。
16.源数据库:能直接提供原始资料或具体数据的自足性数据库,用户不必再查阅其他信息源。包括数值数据库、文本-数值数据库、全文数据库、术语数据库、图像数据库、音频数据库等。
17.回溯检索:对检索系统已存储的全部情报,或其中一定时间范围的情报,按照特定主题范围(用户课题)进行文献普查。回溯情报检索,不仅要查找最新情报,而且要追溯查找过去年代已存储的所有情报。通常所说的文献检索,即指这类检索。例如,申请专利为查证新颖性而进行的文献普查,科研人员从事新的课题研究之前为了了解国内外已有成果而进行的文献普查,都是回溯情报检索。回溯情报检索可以采用脱机(成批)处理,也可采用联机处理,但前者只是早期的计算机情报检索采用,现在的回溯情报检索几乎均采用联机处理方式,因此联机检索和回溯检索具有同样的含义。
16.源数据库:能直接提供原始资料或具体数据的自足性数据库,用户不必再查阅其他信息源。包括数值数据库、文本-数值数据库、全文数据库、术语数据库、图像数据库、音频数据库等。
17.回溯检索:对检索系统已存储的全部情报,或其中一定时间范围的情报,按照特定主题范围(用户课题)进行文献普查。回溯情报检索,不仅要查找最新情报,而且要追溯查找过去年代已存储的所有情报。通常所说的文献检索,即指这类检索。例如,申请专利为查证新颖性而进行的文献普查,科研人员从事新的课题研究之前为了了解国内外已有成果而进行的文献普查,都是回溯情报检索。回溯情报检索可以采用脱机(成批)处理,也可采用联机处理,但前者只是早期的计算机情报检索采用,现在的回溯情报检索几乎均采用联机处理方式,因此联机检索和回溯检索具有同样的含义。
18.网罗度:又称标引深度,指的是每篇文献所含主题(要素)在标引过程中被确认和转换成索引词或索引款目的数量。标引深度也是衡量索引质量的主要指标之一。
网罗度是指用作统计分析的文献在整个已出版文献中所占的份量。一般来说,对文献的统计越充分,网罗度也就越高,分析出来的核心出版社也就越准确、越有权威性。网罗度的高低,决定了核心表(核心出版社的列表)信息密度的大小。所以,从某个意义上来讲,网罗度的高低,实际上就是信息量的大小。
19.参照:是索引参照系统的主要部分。从本质上讲,参照是反映标目之间语义关系的一种指示物,也是链接相关款目的一种媒介物。它把读者从现在查的地方
指引到应该去查的地方,以便查出相关的全部标目和款目。
20.功能分类
21.原文检索:“原文”是指数据库中的原始记录,原文检索即以原始记录中的检索词与检索词间特定位置关系为对象的运算。原文检索可以说是一种不依赖叙词表而直接使用自由词的检索方法。
原文检索的运算方式,不同的检索系统有不同的规定,其差别是:规定的运算符不同;运算符的职能和使用范围不同。原文检索的运算符可以通称为位置运算符。从RECON、ORBIT 和STAIRS三大软件对原文检索的规定,可以看出其运算符主要是以下4个级别:
(1)记录级检索,要求检索词出现在同一记录中;
(2)字段级检索,要求检索词出现在同一字段中;
(3)子字段或自然句级检索,要求检索词出现在同一子字段或同一自然句中;
(4)词位置检索,要求检索词之间的相互位置满足某些条件。
原文检索可以弥补布尔逻辑检索、截词方法检索的一些不足。运用原文检索方法,可以增强选词的灵活性,部分地解决布尔检索不能解决的问题,从而提高文献检索的水平和筛选能力。但是,原文检索的能力是有限的。从逻辑形式上看,它仅是更高级的布尔系统,因此存在着布尔逻辑本身的缺陷。
22.准波兰变换法:针对逆波兰变换对系统内存空间要求过高而提出的一种改进方法。它通过对逆波兰表达式的改写,得到一个检索时所需内存工作区个数最少的后缀表达式,这样的后缀表达式被称为准波兰式。
23.囊括值:指与某一提问相关的文献在指定文献集合中的分布密度。通常,分布密度越大越容易检出。其表达式为G=给定集合中与某一提问相关的文献量/给定集合中的文献总量。
24.引文珠形增长:从已知的关于检索问题的少数几个专指词开始检索,以便至少检出一篇命中文献或一条相关信息,然后审阅这批文献或信息条目,从中选出一些新的相关检索词,补充到检索式中去。这些词。
加入到检索式之后,就能查出其他新的命中结果。不断重复上述过程,直到找不到其他适合包含于检索式的附加词为止,或者已经得到了数量适宜的命中结果。
25.元搜索引擎:又称集合型搜索引擎,将多个单一搜索引擎集成在一起,提供统一的检索界面,将用户的检索提问同时提交给多个独立的搜索引擎,同时检索多个数据库;并根据多个独立搜索引擎的检索结果进行二次加工,如对检索结果去重、排序等;输出给用户。
26.标引深度:同网络度18。
27.互逆相关:英国Cleverdon等人由试验得到的查全率—查准率经验曲线表现,查全率与查准率是互逆的,即对于一个查找要求,如果要设法提高查全率,则查准率会降低,反之亦然。这也可以看作是文献信息检索的一个基本特征。
28.ontology :是共享概念模型的明确的形式化规范说明。这包含4 层含义[4 ] :概念模(con ceptualization) 、明确(explicit) 、形式化(formal) 和共享(share) 。“概念模型”指通过抽象出客观世界中一些现象(Phenomenon) 的相关概念而得到的模型。概念模型所表现的含义独立于具体的环境状态。“明确”指所使用的概念及使用这些概念的约束都有明确的定义。“形式