计算机信息检索02139自考资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章信息检索概述
1.信息检索:指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
2.根据检索手段的不同,信息检索可以分为手工检索、光盘检索、联机检索和网络检索。
3.信息检索的基本原理
通过对大量的、分散无序的文献信息是进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。
4.信息检索语言
信息检索语言是人们在加工、存储和检索信息时用来描述信息内容和信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。
5.五个信息检索阶段:手工检索、机械信息检索、脱机批处理检索、联机检索、网络信息检索,后三
者统称为计算机信息检索。
6.与手工检索相比,计算机信息检索的特点表现在:
(1)速度快、效率高,仅几分钟就可以从成千上万条记录中找到所需信息;
(2)检索范围广,可以迅速而方便地浏览相关学科或主题的所有数据库中的记录,在
网络中,几乎每一台个人计算机都可以成为信息源;
(3)检索不受时空的限制,只要拥有相应的软件和硬件设备,就可以在任何地方借助
光盘和通信网络查询所需信息。
7.信息检索的模型:就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和
抽象,表述为某种数学公式,再经过演绎、推断、解释和实际校验,反过来指导信息检索实践。
信息检索的三个经典模型是:布尔模型、向量空间模型和概率模型。
8.信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。
9.信息检索系统是信息检索所用的硬件资源、系统软件以及信息资源集合的总和。
10.数据库由字段、记录和文档构成。
11.根据载体的不同,数据库可分为:联机数据库、光盘数据库和网络数据库三种。
12.信息检索系统评价的核心是检索性能评价。
13.检索性能评价:根据一定的评价指标对实施信息检索活动所取得的成果进行客观科学评价,以进一
步完善检索工作的过程。
评价检索效果的最主要的指标:查全率和查准率。
14.查全率
查全率是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。
15.查准率
查准率是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。
第二章网络信息检索的方法与技术
1.布尔逻辑检索的主要运算符
布尔逻辑检索的主要运算符有:逻辑与(“AND”)、逻辑或(“OR”)、逻辑非(“NOT”)。
它们分别代表的含义是:(1)逻辑“与”。表示检索结果中必须包含所有的检索词;(2)逻辑“或”。表示检索结果中只要包含任何一个检索词即可;(3)逻辑非。表示检索结果中一定不能出现“NOT”后面的检索词。
2.邻近检索
邻近检索是用一些特定的算符来表达检索词与检索词之间的顺序和词间距的检索。
3.短语检索:短语用“”表示,检索出与“”内形式完全相同的短语,以提高检索的精度和准确度,
因而也有人称之为“精确检索”
4.截词检索
是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中,计算机会将所有含有相同部分标识的记录全部检索出来。截词符一般用“?”或“*”表示,但不同的数据库中有所差别。
常用的截词检索方法有前截词、中间截词和后截词。
5.在信息检索过程中,为了提高查全率或查准率,需要将检索范围限制在特定的字段中,即字段限制
检索。
6.模糊检索:模糊检索是指使用某一检索词进行检索时,能同时对该词的同义词、近义词、上位词、
下位词进行检索,以达到扩大检索范围、避免漏检的目的。
7.信息检索的主要技术有:
(1)全文检索技术;(2)多媒体信息检索技术;(3)超文本及超媒体检索技术;(4)智能信息检索技术;(5)可视化信息检索技术;(6)跨语言信息检索技术;(7)文本聚类技术。
(8)智能信息检索的最大特点是在检索过程中引入了资源对象的语义处理。
8.检索策略
检索策略是为实现检索目标而制订的全盘计划或方案,是就一个问题检索一个或多个数据库所输入的全部检索式的集合。
9.信息检索的一般步骤(主要流程):
(1)分析信息需求。即要确切了解所要查询的目的和要求,确定检索问题的关键词、涉及学科、信息类型、查询方式、查询范围、查询时间等。
(2)选择合适的检索工具。选择合适的检索工具主要从检索工具的类型、收录范围、检索问题的类型、检索具体要求等方面综合考虑。
(3)确定检索点与关键词。应尽量选专指词、特定概念或专业术语,避免冷僻词汇和太泛的词。
(4)正确构造检索式。利用搜索工具支持的检索运算、允许使用的检索标识和各种限定,正确构建检索式。
(5)及时调整检索策略。当检索结果为零或检索结果太少,需要扩大检索范围;检索时如果得到太多的检索结果,或检索结果不相关,需要缩小检索范围。
(6)检索结果的输出。
第三章搜索引擎
1.搜索引擎是一种基于Web上应用的软件系统,它以一定的策略在Web上搜索和发现信息,在对信
息进行处理和组织后,为用户提供web信息查询服务。
搜索引擎有三个功能模块:网页搜集;预处理;查询服务。
2.搜索引擎的工作原理:
搜索引擎的三个功能模块形成了搜索引擎工作的三个阶段。
(1)网页搜集。系统在一定时间内定向向网站派出“蜘蛛”程序,扫描网站的所有网页并将相关信息存入数据库。
(2)预处理。主要包括关键词的提取;重复网页或转载网页的消除;链接分析;网页重要程度的计算。
(3)查询服务。搜索引擎接受用户提交的查询请求后,按照用户的要求检索索引数据库,找到用户所需要的资源,并返回给用户,列表显示摘要结果。
3.按信息内容的组织方式,搜索引擎可划分为目录式搜索引擎和机器人搜索引擎。
(1)目录式搜索引擎。是以人工方式或半自动方式搜集信息,由搜索引擎的编辑员查看信息之后,依据一定的标准对网络资源进行选择、评价、人工形成信息摘要,并将信息置于事先确定的分类框架中而形成的主题目录。
(2)机器人搜索引擎。是由一个被称作“蜘蛛”的计算机程序依据一定的网络协议以某种策略自动在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。
4.Yahoo是目前最流行的目录式搜索引擎,提供主题目录检索。
5.按专业范畴划分,可将搜索引擎划分为综合性搜索引擎和专业性搜索引擎。综合性搜索引擎内容涵
盖各个学科和生产生活的各个领域,可检索图片、音频、视频等多种资源类型,适用对象广泛。
6.常用的综合性搜索引擎包括哪些,专业性搜索引擎包括哪些
7.按检索功能划分,可将搜索引擎划分为独立搜索引擎和元搜索引擎。元搜索引擎是多个独立搜索引
擎的集合,通过一个统一的用户界面,可同时对多个搜索引擎进行检索操作。
8.调查显示,截止2009年6月底,中国网民人数已达3.38亿。其中约2.35亿网民使用过搜索引擎,
中国网民用得最多的搜索引擎是百度。在全球范围内,2009年7月,搜索引擎用户已达1137亿次,其中Google市场份额最高。
9.综合性搜索引擎的评价指标主要有:
(1)收录范围。即搜索引擎收录的范围是否完备充分。(2)分类。即搜索引擎的分类是否科学合理,分类的广度与深度是否合适。(3)检索功能与效果。检索手段是否完善,检索效果是否好。(4)对检索结果的处理。结果的排序方式是否多样、是否有去重功能、能否按照用户反馈动态调整和显示检索结果。(5)页面组织。页面组织是否清晰、类目设置是否合理、界面是否友好。(6)其他功能与服务。能否满足用户多方面的信息需求。