计算机信息检索

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一．名词解释
1.信息检索：广义来说，指将信息按照一定的方式组织和存储起来，并能根据信息用户的
需要找出其中相关信息的过程，包括“存”和“取”两个基本环节；狭义理解，一般只涉及“取”，信息检索也可称为“信息查询”或“信息查找”。

2.联机信息检索：指用户利用检索系统网络的终端设备，通过通信线路，运用一些特定的
指令和检索策略与世界上的信息检索系统，进行质检的人机对话，从检索系统的数据库中查找出用户所需要的特定信息，并将检索结果与过程下载，显示和打印出来的过程。

3.CBR：基于内容的检索，指根据多媒体对象的听、视觉特征及其中蕴含的内容和语义特
征进行检索，并希望能够借助于模式识别、语音识别、图像理解等相关领域的研究成果，对多媒体数据的听、视觉特征和语义特征进行自动（半自动）的分析、表达和组织。

4.网络信息源：指所有以电子数据的形式把文字、图像、声音、动画等多种形式的信息存
贮在光、磁等非纸质介质的载体中，并通过网络通信、计算机或终端等方式再现出来的资源。

5.搜索引擎：搜索引擎有广义与狭义之分。

广义的搜索引擎泛指网络上提供信息检索服务
的攻击或系统。

狭义的搜索引擎主要是指利用网络自动搜索软件对INTERNET（主要是WEB）网络资源进行收集、组织并提供检索服务的一类信息服务系统。

6.URL：统一资源定位符（Uniform Resource Locator，缩写为URL）是对可以从互联网上得到的
资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。

互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

7. 顺排/倒排文档：文档的概念是指数据库内容的组织形式。

一般地说，一个数据库至少
包括一个顺排文档和一个倒排文档。

（1）顺排档，也称为主文档、引文文档，它是按记录存取号的大小顺序排列记录而成的文档。

文档越是新，记录存入文档的时间越是晚，记录的存取号就越大。

（2）倒排挡，是指把数据库中记录的一切可检字段或属性值（称检索标识，如著者，主题词等，不包括存取号）抽出，按某种顺序（字母或数字顺序）重新加以组织后得到的特征标识文档。

8 .检索语言:是应文献信息的加工、存储和检索的共同需要而编制的专门语言，是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。

检索语言是用来描述信息源特征和进行检索的人工语言，可分为规范化语言（体系分类语言、主题词语言）和非规范化语言（自然语言）两类。

9.自然语言：索引词汇直接来自系统所处理的文献或提问本身，使用前未经过优选和规范化处理的一类检索语言。

10.超文本：是一个非线性的网状结构，它以结点为单位组织信息，在结点与结点间通过链接加以连接，构成表达特定内容的信息网络。

二．简答
1.简述一下因特网信息检索的特点
（1）检索范围大
（2）检索效率高
（3）检索工具强大
（4）信息冗余
2.搜索引擎的基本工作原理
搜索引擎的基本模式是：运行特定的网络搜索程序，定期地搜索Internet的各个站点，送回收集到的文献信息（包括Web页面和新闻组文章等），并利用索引软件对这些文献进行自动标引，加入集中管理的索引数据库；同时，在Internet上设立提供检索界面的Web站点，由用户输入提问检索式，通过特定的检索软件，查找其索引数据库，给出与
检索式相匹配的查询结果，供用户浏览
3.请描述检索系统的“提问处理/检索匹配”子系统的主要作业流程
（1）接受用户提问
（2）提问校验，包括对提问式进行语法格式用词等方面的检查，主要由程序自动完成。

（3）提问加工，指对源提问式进行解释性或编译性的加工，生成便于机器处理的目标提问式。

（4）检索匹配，即将目标提问式与数据库索引文档的记录进行匹配，把满足要求的数据库记录输出到结果文档中，或直接显示在检索屏幕上。

具体的匹配策略可
以是精确匹配，也可以是局部匹配。

精确匹配是指要求结果记录（标识）中包
含的需求模式必须与提问式所表达的模式完全匹配，才能作为命中结果输出。

局部匹配则是指只要求结果记录（标识）中包含的需求模式与提问式所表达的
模式部分匹配，即为命中。

4.网络信息检索工具的评价
(1)收录范围
(2)查全率
(3)查准率
(4)响应时间
(5)用户负担
(6)输出方式
(7)新颖程度，更新速率
5.因特网搜索引擎的划分类型【书P188】
按信息内容的组织方式划分：1）目录式搜索引擎（directory，catalog）Directory提供
由网页作者所呈送的因特网的链接集合，同时对这些资源作出评价并组织成主题目录。

2）机器人搜索引擎
机器人搜索引擎不是靠人工发现和甄别信息，而是由一个被称作“蜘蛛”的计算机程序在网中爬行，依据一定的网络协议在因特网中发现、加工、整理信息，并为用户提供检索服务。

机器人搜索引擎由3部分组成：a、搜索软件b、索引软件c、检索软件。

重要的机器人搜索引擎有：Alta Vista, Excite, Hotbot, Infoseek, Lycos, WebCrawler; 中文的天网，悠游、北极星等
3）混合式搜索引擎
按专业范畴划分：1）综合性搜索引擎：主要以网页和新闻组为搜索对象，信息覆盖范围广，适用用户广泛，如yahoo！Alta Vista，Excite等。

2）专业性搜索引擎
如：社会科学信息资源的搜索引擎social science information gateway
医学世界检索medical world search, 法律检索系统WESTLAW
按检索功能划分：1）独立搜索引擎：又称为单一搜索引擎或常规搜索引擎，它有自己的数据库，搜索时通常只检索自己的数据库，并根据数据库的内容反馈出相应的查询信息或链接站点。

如，yahoo！,Infoseek, Alta Vista等，都属于这一类。

2）多元搜索引擎：又称为元搜索引擎(meta search engine)或集成式搜索引擎(multi search engine), 它是多个独立搜索引擎的集合。

元搜索引擎是通过一个统一的用户界面，帮助用户在多个搜索引擎中选择和利用合适的（甚至是同时利用若干个）搜索引擎来实现检索操作，是对分布于网络的多种检索工具的全局控制机制。

用户只需输入一次检索式，多元搜索引擎便同时将其转给不同的搜索引擎帮助检索，有的SE还可以将检索结果中的重复部分删去。

6.简述常用的计算机信息检索策略
检索策略是在分析信息需求u实质的基础上，确定检索途径与检索用词，并明确各词之间的逻辑关系与查找步骤的科学安排，主要包括选择检索词和编制检索提问式两步。

•（1）、“最专指面优先”策略：指检索时首先查找所有概念组面中最专指的一个概念组面。

然后，再依据用户需求以及初步检索结果，决定是否需要加入其他的概念组面，以及怎样加入其他的概念组面。

•（2）、“最低登录量的面优先”策略：指检索时首先查找所有概念组面中登录数最小一个概念组面。

然后，再依据用户需求以及初步检索结果，决定是否需要加入其他的概念组面，以及怎样加入其他的概念组面。

•（3）、“积木式”策略：指检索时首先逐个查找各个概念组面，然后再把各个组面组配起来，得到最终的检索结果。

•（4）、“引文珠形增长”策略：首先以一个较为核心的概念组面进行试检，并仔细浏览初步的检索结果，尤其是特别符合用户需要的文献记录，从中选择更多、更合适的检索词补充到检索式中，然后，再浏览命中的文献记录，再从中选择检索词补充到检索式中。

如此反复操作，直至得到理想的最终检索结果。

•（5）、“逐次分馏”策略（“连续分割”策略）：指检索时首先建立较大的初始文献集（也称为临时子文档，即临时建立起来的子数据库），然后利用各种检索的限制或限定措施，逐步缩小检索范围，直至符合用户需要为止。

7.布尔逻辑检索；运算符包括；各有哪些含义
布尔检索是通过标准的布尔逻辑关系词来表达检索词与检索词间逻辑关系的检索方法。

•（1）. AND 关系：运算符为：“and” (“AND”)或“*”，用来组配不同检
索概念。

其含义是检出的记录必须同时含有所有的检索词，即，检索词必须同时出现在结果中才满足检索条件。

•在实际检索中，不同概念组面之间及同一组面内的不同含义的词之间通常使用AND算符。

•其中“and”主要是用于外文的检索；“*”多用于中文的检索。

•（2）. OR 关系
•运算符为：“or” (“OR”) 或“+”，是用来组配具有同义或同族概念的词，如同义词、相关词等。

•其含义是检出的记录中至少含有两个检索词中的一个，即，OR表示它所连接的检索词中任意一个出现在结果中就满足检索条件;
•在实际检索中，同一组面中含有相同的词，相互之间都使用OR运算符。

其中“or”主要是用于外文的检索；“+”多用于中文的检索。

另外，在使用截词方法检索具有相同词干的检索词时，这些词之间也自动隐含了逻辑“或”的关系。

•例如检索式economics or agriculture就要检索结果中可以只有economics、或只有agriculture、或同时包含economics 和agriculture。

•（3）.NOT 关系
•运算符为：“not”(“NOT”)或“-”，表示它所连接的检索词中应从前面的概念中排除后面的概念，即，表示要查找含有前面的检索词而不包含有后面的检索词的文献集合。

例如检索式agriculture not robot 就要求检索结果中包含agriculture但不能包含robot。

•运算符为：“not”(“NOT”)或“-”，两个检索词之间以“not”或“-”相连，其中“not”
主要是用于外文的检索；“-”多用于中文的检索。

8.网络信息检索工具的基本工作原理；（与搜索引擎的基本工作原理的比较）
信息检索包含信息存贮和信息查找两个过程。

信息检索的基本原理抽象概括为一句话，即对信息集合与需求集合的匹配与选择。