信息检索考试重点

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息检索的概念

广义的信息检索是指将信息按一定的方式组织和存储起来,并根据用户的

需要找到有关信息的过程和技术;

狭义的信息检索是指从信息集合中找到所需信息的过程。

第一章计算机信息检索的

1.1 学科基础-信息学概述

信息概述

信息需要和检索

1.2 技术基础-信息技术概述

信息技术概述

信息检索的关键技术-P14

★具有广泛影响的定义:

信息:是指应用文字、数据或信号等形式通过一定的传输和处理,来表达各种相互联系的客观事物在运动总所具有的特征性内容的总称。

知识(Knowledge)

词典解释:知识是人类在改造世界的社会实践中获得的对事物本质认识的

成果和结晶。

知识是人类对自然界、人类社会中各种现象、规律进行思维分析、加工

提炼形成的系统化、理论化结果。也就是通过大脑思维重新组合的系统化的信息集合。

因此,系统化、理论化的正确信息就是知识

(1)按信息的表达形式划分

•文献信息

•声像信息

•电子信息

文献(document)

是指记录有知识(或信息)的一切载体。

也就是说用文字、图形、符号、声频、视频等手段记录下来的人类知识都可以称之为文献。

三个要素:ϕ内容-被记录的知识(信息)

κ载体

λ记录知识信息的手段

一个特点:记录

(2)按信息加工的层次划分-P5

零次信息

指尚未以公开形式进入社会流通使用的信息。如:实验记录、会议记录、内部档案、论文草稿、设计草稿等。

一次信息

指以信息编制者的研究成果为依据而创作(撰写)的并公开发表或出版的信息。如:图书、学术论文、专利说明书、科技报告等,是信息检索的主要对象和最终目标。

二次信息

指对一次信息进行加工整理,使之简化(如著录信息特征,摘录信息内容要点等),或分类编辑之后所得的产物,或为了便于检索和利用一次信息而编辑出版的产物。如目录、索引、文摘、书目型数据库等。

二次文献是对一次文献的浓缩和有序化,主要作用:是存贮和报道一次文献线索、提供查找的途径,是检索的主要学习对象。

三次信息

指根据某种需要和目的,利用二次信息作为手段,将某方面的大量一次信息加以全面系统的再度选择、分析和综合,编写成具有专指性内容和使用目的更为明确、效果更为直接的三次信息。如:专题评述、综述、百科全书、参考工具书等。顺序文档

(Sequential file)

以文献记录作为信息存储单元,按文献记录入藏的存取号从小到大顺序排列而形成的目录式文档,由于它存储有关于每篇文献的最完整信息,所以通常又把它称为主文档(Master File),相当于印刷型检索工具的正文部分。

倒排文档

(Inverted file)

就是把记录中一切可检字段或属性值抽出,按某种顺序重新加以组织后所得到的一种文档.倒排档从主文档中派生出来,所以,又叫做辅助文档.

顺序文档

# 001专家系统在情报检索中的应用# 002一种新的倒排档溢出处理算法#003情报检索专家系统的特点与发展#004提问式中的位置算符#005提问式准波兰变换算法的研究#006智能检索系统的设计与开发

倒排文档

倒排档002

提问逻辑式004,005

位置算符004

溢出处理002

智能检索系统001,003,006

专家系统001,003

准波兰变换005

记录(Record)是构成数据库的信息单元,每条记录都描述了一原始信息的外表和内容特征。

字段(Field)是记录的下级数据单位,用来描述实体的某一属性。

常见字段-P17

第二章计算机信息检索

(1)脱机检索20世纪50~60年代

是六十年代发展起来的批次检索,用户不与检索系统发生直接联系,只需

把检索要求送往检索中心,由检索人员利用计算机进行文献检索的一种方式。

优点:价格便宜,无网络通讯费,检索费用由用户平摊,随机存储。

缺点:检索结果延误,委托性检索。

(2)联机检索20世纪60~80年代

联机检索是用户利用终端设备,通过通信网络或通信线路与检索系统联

机,进行―人机对话‖,从检索中心的数据库查找所需要的文献信息过程。

优点:检索的速度快,检索质量高。

缺点:检索费用高。

(3)光盘检索20世纪80年代

优点:价格较低,使用不受时间限制。

(4)网络检索20世纪90年代初—

2.4 计算机信息检索语言-P40

语言是一种人们用以交流沟通的重要工具。人与计算机对话,需要有计算机语言,人与检索系统对话来实施检索,则需要有检索语言。

检索语言(retrieval language)

是检索信息所使用的人工语言。是从自然语言中精选出来并加以规范化的一套词汇符号,用以对信息内容进行概括其内容或外在特征的概念及其相互关系的概念标识体系。

是信息检索系统存储和检索信息时共同使用的一种约定性语言,以达到信息存储和检索的一致性,提高检索效率。又称标引语言、索引语言、概念标识系统等。

2.4.3 检索语言的类型(图表)

1. 分类语言

是建立在科学分类的基础上,运用概念划分与概括的方法,进行层层划分,

每次划分,就产生若干类目。逐级划分,就产生了不同级别的类目,这些类目层层隶属,形成一个严格有序的等级体系。

常用分类号或分类词表示。

优势:

类目体系展开比较系统,便于从学科门类出发,进行族性检索。

将概念逐级划分,具有等级结构,便于扩大和缩小检索范围。

以分类号作为检索标识,不存在文种限制。

标记简明,适用于分类排架,也可用于组织分类检索工具。

相关文档
最新文档