信息检索原理与技术资料整理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息检索原理与技术

资料整理

华中师范大学

信息检索原理与技术

第一章信息检索概论

1.1信息检索基础简述

1.信息:事物发出的信号所包含的内容。

2.知识:知识是人类的主观世界对客观世界的概括和反映,是大量有组织的信息,是关于

事实和思想的有组织的陈述,提供某种思考的判断和某种实验的结果。

3.知识的分类:

①“知事”(know-what):指关于事实方面的知识,也可理解为know-when、know-

where,即在什么样的时间(know-when)、什么样的地点或条件下(know-where)

能解决什么样的问题。

②“知因”(know-why):指自然原理和规律方面的科学理论,知识的产生是在专门研

究机构如实验室和大学完成的。

③“知道怎样做的知识”(know-how):指做某些事情的技艺和能力,被称为技术情报

和商业秘密,其典型是企业开发和保存于其内部的技术诀窍或专有技术。

④“谁以及是怎样创造知识的”(know-who):侧重对创造思想、方法、手段、过程及

特点等的了解。

4.文献:文献是记录有知识的一切载体,即知识信息必须通过文献载体进行存储和传递。

构成三要素:①构成文献内核的知识信息

②负载知识信息的物质载体

③记录知识信息的符号和技术

特点:知识性(本质)、传递性、动态性。

分类标准:

内容加工程度划分:

①一次文献信息:指作者以自己的研究成果为基础创作和撰写的、未经过加工的原始

文献。

②二次文献信息:指对一次信息加工整理而成的文献,如目录、文摘、索引等各种书

目信息,它具有汇集性。

③三次文献信息:是对一次、二次信息综合、分析等深加工的产物,如评论、进展报

告、评述、百科全书、年鉴、指南、期刊书目等。

载体形式划分:书写型、印刷型、缩微型、声像型、机读型五大类。

5.文献信息链:文献作为人类文化信息的承载物,从其产生、替代、反复被利用、再创造,

直至产生新知识,是一个不断演进的运动过程。

6.信息、知识和文献三者之间的关系(重点):信息>知识>文献

信息、知识和文献的联系在于:信息作为物质的一种普遍属性,是生物以及具有自动控制系统的机器通过感觉器官和相应的设备与外界进行交换的一切内容。它是有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制的;

知识作为信息的一部分,是一种特定的人类信息,也是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映。它是无形的、与行动和决策相关、经过处理能改变思维、精神产品、环境改变含义、经过学习才能转让、无法复制的;

文献是知识的一部分,是进入人类社会交流系统的运动着的知识。

具体来说,三者之间的关系为:信息>知识>文献。

7.文献信息流(重点和难点)

一次文献信息流发展壮大后,难以被掌握和利用,于是文献信息服务机构对一次文献进行书目控制和重新组织,使得其进入到有序化阶段。这一阶段由三个环节组成。

①替代:描述文献特征,对一次文献信息进行不同程度的提炼或压缩,形成目录、文

摘、索引等二次文献信息。

②改组:从一次文献信息中提取数据、事实和结论,重新组合,形成手册、名录、辞

典等类型的文献信息。

③综合:利用二次文献对一次文献所包含的知识加以综合并融入到现有的知识体系中,

成整个知识体系的有机组成部分。如专著、教科书、综述等。

文献信息流的继续演变是对二次文献信息流的书目控制和改组,即进入“二次替代”

过程,其结果是“书目之书目”、“文献指南”之类的工具。

文献信息流是一个以研究活动为起点,按顺时针的线性顺序移动,是一次、二次、三次文献信息的演变过程。

1.2信息检索概念和原理

1.信息检索:是从信息集合中识别和获取信息的过程,本质是用户的信息需求和一定的信

息集合的匹配。

广义:信息的存储和检索。

狭义:信息的检索。

信息的存储:主要包括在某一专业或领域范围内的信息选择的基础上对信息的内外特征进行描述、加工并使其有序化,形成信息集合。

信息的检索:是指借助一定的设备和工具,采用一系列的方法与策略从信息集合中查询所需的信息。

2.信息检索类型:

手工检索:简称“手检”,主要使用印刷型信息检索工具,其检索过程就是大脑分析、思考和手工操作的配合过程。

计算机检索:简称“机检”,主要使用计算机信息检索系统(包括各种数据库、应用软件、通信设施等),检索过程就是人的设计操作和计算机自动化处理相结合的过程。

3.信息检索系统:信息检索系统是指为了满足用户的信息需求而建立的存储,经过加工了

的信息集合,拥有一定的输入、匹配、输出的技术装备,提供一定的检索服务功能的一种相对独立的实体。

4.信息检索入口:信息检索入口又称检索点或检索标识,是指用以标识信息的外部特征和

内部特征的属性值的集合。

5.信息检索的一般原理:包括信息的存储与检索两个过程。

建立文本数据库=》建立文本索引(通常采用倒排档)=》用户明确自己的信息需求=》产生检索提问=》构造检索提问表达式=》产生检索结果=》不满意则修改表达式=》产生满意结果

1.3检索系统与检索工具

1.检索系统的构成:检索系统的构成包括物理构成和逻辑构成。

2.从物理构成的角度来考察,检索系统一般包括硬件、软件和数据库三个组成部分。

①硬件:是计算机检索系统采用的各种硬件设备的总称。

②软件:包括与计算机检索相关的各种系统软件及相关应用软件。

③数据库:至少由一种文档组成,并能满足某一特定目的或某一数据处理系统需要的

一种数据集合。

3.数据库分为以下类型:

①参考型数据库:它是指引用户到另一信息源以获得原文或其他细节的一类数据库,

包括书目数据库和指南数据库。书目数据库就是指存储某个领域的二次文献的一类

数据库。指南数据库是指存储某些对象的简要描述,指引用户从其他源获取更详细

信息的一类数据库。

②源数据库:它是指提供原始资料或具体数据的自足性数据库,它包含数值数据库、

文本-数值数据库、全文数据库、术语数据库、图像数据库以及音视频数据库。(2014

和2015名词解释)

③混合型数据库:它是指能存储多种不同类型数据的数据库。

4.不管检索系统的物理构成如何,它们的逻辑构成都是相同的或基本相同的,一般由以下

六个子系统构成。

①文献与数据的选择与抽取子系统

该子系统的功能是从外部信息源输入,输入时按照系统既定方针和用户需求进行选择。选择标准包括专业覆盖面、文献信息类型、摘储率、文种、时间跨度等。

1)专业覆盖面:就检索系统的数据库对文献和知识的学科专业的覆盖面来说,

有综合性检索系统、多学科检索系统、专业检索系统。

2)摘储率:对于某一专业领域,抽取的信息占该领域所有信息的比率。

②词表子系统

数据库中所收录的知识与文献,需要依靠使用一定的检索语言来加以表征和组织;另外,检索者的检索提问也需借助检索语言来表达。这样才能使存储与检索得

到有效的沟通和控制,保证检索系统达到令人满意的查准率与查全率,减少漏检与

误检。采用词表控制的检索系统称为控制词汇的检索系统。

随着计算机为主体的现代信息技术在信息处理领域的广泛应用,关键词、自由词等一些无词表控制的检索语言的应用逐步推广,因而出现了一些非控制词汇的情

报检索系统。它又可分为完全的自然语言检索系统和后控制的自然语言检索系统。

后控制的自然语言检索系统在系统内设有只供检索用的后控制词表,这种词表没有预先编定的形式,而是通过检索者的使用,将检索式中用“或“逻辑相连的检索

词,由机器提取并逐步累积起来的一组一组的词表。在检索时,由系统自动纳入检

索式,进行扩检。但对检索者来说,后控制的自然语言检索系统使用的是自然语言。

“后控制“的过程对检索用户来说是透明的。【2015名词解释】

③标引子系统

按照一定的词表,对文献赋予标引词,以表征文献的特征,形成文献的标识,这一过程就是标引。依据这个子系统,情报检索系统可分为人工标引的检索系统和

机器标引的检索系统。对于完全自然语言的检索系统来说,可能根本就不进行标引,

这种情况成为无标引或全标引。

相关文档
最新文档