信息检索重点复习资料

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章信息检索概述

信息检索(IR):将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。

信息素养:人们在解答问题时利用信息的技术和技能。

信息检索与文献检索的主要区别:文献检索是以获取文献信息为目的的检索,信息检索是收集,组织,存储一定范畴的信息,并根据用户需求查询文献中的信息或知识单元,比文献检索更深入。

信息检索的分类:1、根据检索手段不同可分为1)手工检索2)光盘检索3)联机检索4)网络检索 2根据检索对象形式不同可分为文本检索、数值检索、音频与视频检索。

信息检索的原理:通过对大量的分散无序的文献信息进行收集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储和检索这两个过程所采用的特征标识达到一致,以便有效的获得和利用信息源。存储是检索的基础,检索是存储的目的。

信息检索语言是人们在加工、存储和检索信息时用来描述信息内容喝信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。

信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。其物理结构:是信息检索所用的硬件资源、系统软件以及信息资源集合(数据库)的总和。

信息检索语言的主要目的:把存储和检索联系起来,把标引人员和用户联系起来,以便取得共同理解,实现交流。

信息检索的历史:最早的信息检索主要依靠信息分类。

1手工检索 2机械信息检索。 3脱机批处理检索是计算机初期使用的一种检索系统 4联机检索 5光盘检索 6 网络信息检索后四者统称为计算机信息检索

信息检索的三个经典模型:1布尔模型 2向量空间模型 3概率模型

1浏览型模型:扁平式模型、结构导向模型、超文本模型 2检索型模型:结构化模型、基于内容的检索型模型。

信息检索模型是信息检索的核心。

信息检索系统:是具有信息存储和信息查询功能的一类服务设施。

信息检索系统按功能划分5种类型:文献检索系统DRS、数据库管理系统DBMS、自动问答系统QAS、管理信息系统MIS、决策支持系统DSS.

信息检索物理结构1计算机硬件2软件3数据库

信息检索的逻辑结构是指系统所包括的功能模块或子系统及其相互关系。

数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合,由字段、记录和文档构成。

数据库的载体分:联机数据库,光盘数据库,网络数据库。按内容与功能划分:指南数据库,交易数据库,全书数据库,书目数据库,字典数据库,数值数据库,图像数据库。书目和全文使用频率最高。

信息检索系统评价的核心的检索性能评价。

信息检索评价指标:1覆盖范围2查全率3查准率4响应时间5用户负担6检索结果输出格式。

检索效果指标主要有:1查全率2查准率3漏检率4误检率5新颖率6检索速度等。最主要指标是查全率和查准率。

查准率P:是指检出文献中合乎需要的文献数量占检出文献全部数量的比

例。

查全率R:是指检出的文献数量占数据库中全部相关文献数量的比例。

提高检索效果的措施:选择质量较高的检索系统、提高检索着的检索水平。

第二章

网络信息检索的基本方法:1布尔逻辑检索它是一种比较成熟、较为流行的检索技术,逻辑检索的基础是逻辑运算,它的运算符有逻辑“与”AND * 查准,逻辑“或”OR 、+、| 查全,逻辑“非”NOT 、-。 lycos;Google的默认运算符是布尔逻辑与

2邻近检索又被称为位置限制检索,是用一些特定的算符来表达检索词与检索词之间的顺序和词间距的检索。Dialog系统常用的位置算符1)(W)表示此算符两侧的检索词必须按此前后的顺序排列2)(nW)表示在此算符两侧检索词间可插入n个实词或虚词3)(N)检索项在记录中出现的顺序可以调换4)(nN)表示位置可以调换,两个词间插入词最多数目是n个 4)(F)表示在此运算符两侧的检索词必须同时出现在文献记录的同一字段内6)(S)表示在此运算符两侧的检索词只要出现在文献记录的同一字段内,此文献即被命中7)(L)运算符表示两侧的检索词在同一个叙词单元,且它们之间有一定的从属关系8)(NOT)它与邻近运算符W,N,S,F,L等组合使用,而产生相反的含义

3短语检索短语用“”表示,检索出与“”内形式完全相同的短语,以提高检索的精度和准确度,因而也称为“精确检索”

4截词检索所谓截词检索,是指在检索标识中保留相同的部分,用相应的截词

符代替可变化部分 .根据截词符在检索词中的位置,可分为前截词,中间截词

和后截词。“?”代表0到1个字符;“*”代表0到多个字符。

5字段限制检索为了提高查全率或查准率,需要将检索范围限制在特定的字段中,

6括号检索 7自然语言检索 8多语种检索 9模糊检索 10区分大小写检索

信息检索的主要技术:1全文检索技术全文检索技术必须具备一个全文数据库,全文数据库是将一个完整的信息源全部内容转化为计算机可以识别,处理的信息单元而形成的数据集合。全文数据库的特点:a信息量大 b信息检索的灵活性和适应性c检索语言的自然性d数据相对稳定等不足:查准率较低2多媒体信息检索技术音频检索分三种:a语音检索b音乐检索c音频检索 3超文本超媒体检索技术超文本检索是信息的组织方法与手段超文本超媒体的缺陷:信息以超文本方式链接,用户检索的主动性变为被动性,导致检索过程中含有极大的盲目性和偶然性;在链接的过程中,容易偏离检索目标,导致检索“迷航”其发展趋势:由超文本向超媒体发展,由超媒体向智能超媒体发展,由超媒体向开放超媒体发展。 4智能信息检索技术采用人工智能进行检索的技术,与传统信息检索相比,它最大的特点是检索过程中引入了资源对象的语义处理。智能化是网络信息检索未来发展的主要方向。 5可视化信

息检索技术基础是计算机图形学和认知心理学。 6跨语言信息检索技术跨语言信

息检索技术的核心问题是“翻译”。 7文本聚类技术常用的聚类方法有:层次聚类法,平面划分法,网格聚类法,模型聚类法等。

检索策略:是为实现目标而实行的全盘计划,在操作上主要指数据库的选择和

检索式的编制。

相关文档
最新文档