信息检索复习题(综合最终)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、信息存储与检索:广义地说是“信息存储与检索”(Information Storage and Retrieval),它是指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程。从本质上讲信息检索是一种有目的和组织化的信息存取活动,其中包括了“存”和“取”两个基本环节。对于“存”来说,主要指面向来自各种渠道的大量或海量信息而进行的高度组织化的存储;对于“取”来说,则要求面向随机出现的各种用户信息需求所进行的高度选择性的查找。
2、文本检索:指以各种自然语言符号系统所表示的信息作为主要检索对象的信息检索活动。
3、数值(据)检索:主要是针对数值型数据的查询而发展起来的一类较有特色的信息检索。
4、音\视频检索:主要针对各种数字化音频与视频信息而进行查询的一类新兴的信息检索操作。
5、电子信息源:指以数字化形式(即二进制码)将文字、图像、声音、动画等存储在光、磁等存储介质(如CD-ROM、磁盘)上,并能通过计算机、通信设备再现出来的信息资源。
6、书目数据库:一种专门存储二次文献信息的数据集合,亦称二次文献数据库,通常收录有关主题领域的各种书目信息,包括文摘、题录、目录等,以向用户提供文献信息,指引用户查找、使用原始文献。
7、文献索引数据库:主要是简要地通报有关领域某一时期发表的文献,供人们查阅与检索。它提供确切的文献来源信息,即能准确鉴别相对应的原始文献
8、全文数据库:一种源数据库,主要存储文献全文或其中的主要部分,可以将包括题名、著者、摘要、关键词、正文、参考文献和著作日期在内的数据全部收入数据库,供用户查询利用。
9、网络信息资源:指以电子数据的形式将文本、图像、声音、动画等多种形式的信息存放在光磁等非印刷型载体的介质中,并通过网络通信、计算机或终端等方式再现出来的电子信息源。
10、集中式系统:是资源有空间上集中配置的系统,单机检索系统是典型的集中式系统,它将软件、数据和主要外部设备集中在一套计算机系统之中。
11、分布式检索系统:是指通过计算机网络把分布在不同地点的计算机硬件、软件、数据库等设备和资源联系在一起,以服务于一个共同的系统目标而是实现的相互通信、相互操作和资源共享的系统。
12、用户界面:是用户与计算机之间的通信媒体或手段,是人机双向信息交换的软件和硬件。
13、搜索引擎:广义的搜索引擎泛指网络(尤其是万维网)上提供信息检索服务的工具或系统。狭义的搜索引擎主要指利用网络自动搜索软件或人工方式,对万维网信息资源进行采集分析与标引,并将索引信息组织成数据库,以网站形式为网络用户提供检索服务的一类信息服务系统。
14、收录范围:是指检索系统的数据库所覆盖的学科面、所收录的文献类型和数量,它现在已经演化成网站或搜索引擎的规模。
15、响应时间:是指从提问接收到检索结果提供所消耗的时间。
16、用户负担:是指用户在检索过程中花费的精力的总和。
17、输出形式:是检索系统提供的检索结果的形式,可能是书目信息,也可能是全文信息等。
18、相关性(评价核心):主要是指检索系统针对用户的信息需求从文档集合中检出的文档与用户需求之间的一种匹配关系。
问答题目:
1、什么是信息检索?它有哪些主要类型?
所谓“信息检索”,广义地说是“信息存储与检索”,它是指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程。从本质上讲信息检索是一种有目的和组织化的信息存取活动,其中包括了“存”和“取”两个基本环节。对于“存”来说,主要指面向来自各种渠道的大量或海量信息而进行的高度组织化的存储;对于“取”来说,则要求面向随机出现的各种用户信息需求所进行的高度选择性的查找。狭义理解是主要关注如何从存储的信息集合中快速获取各种需要的信息。
信息检索的主要类型
早期分类方法:文献检索、事实检索、数据检索三种类型
文献检索是指以文献(包括文摘、题录或全文)为检索对象的一类信息查询活动。
事实检索主要针对从文献中提取出来的各种事实(或知识项)所进行的检索活动。
数据检索主要以经过选择、整理、鉴定的各种数据信息,例如人口、国民生产总值、建筑材料的各种性能参数等作为检索对象的一类检索操作。
新分类方法:文本检索、数值检索以及音/视频检索
文本检索:是指以各种自然语言符号系统所表示的信息作为主要检索对象的信息检索活动。
数值检索:主要是针对数值型数据的查询而发展起来的一类较有特色的信息检索。
音/视频检索:是主要针对各种数字化音频与视频信息而进行查询的一类新兴的信息检索操作。
2、试分析阐述信息检索的基本原理。
信息检索的基本原理抽象概括为一句话,即对信息集合与需求集合的匹配与选择。
●信息集合是指有关某一领域的,经采集、加工的信息集合体。信息集合是一种公共知识结构,有可能弥补某个
特定用户的知识结构缺陷,即可以向用户提供所需要的知识或信息,或是获取知识的线索,或是提供某种信息去激活人脑中存储的知识。
●用户的信息需求是在社会实践活动中产生的。众多用户不同形态的信息需求的汇集,就形成了需求集合的存在,
信息需求的产生与满足,是实施信息检索行为的前提与基础,也是实施信息检索行为的目的所在。
●信息检索提供一种“匹配”机制,主要功能在于能够把需求集合与信息集合依据某种相似性标准进行比较与判
断,进而选择出符合用户需要的信息。要求匹配机制至少包裹两个要素:第一是匹配标准,即相似性标准;第二是执行匹配的动因。
3、如何鉴别高质量期刊?
国内外公认的鉴别方式有二:核心期刊和同行评审期刊。
●核心期刊是指刊载某一学科或专业有关的信息较多,且学术水平较高,能够反映该学科最新成果和前沿动态,
受到该专业读者特别关注并成为检索与阅读首选的那些期刊。核心期刊的确定一般运用文献计量学的方法,通过对期刊和刊载论文的一些计量指标的统计和分析来确定。
●同行评审期刊是国外高水平期刊对来稿评审普遍采取的方式。具体做法是:作者将文稿寄交编辑部并经初审合
格后,为了审查论文的学术质量需将论文稿送交有关专家(即同行)进行审阅。所选专家来自不同的机构,他们一般对该刊物比较了解,而且有相当高的专业背景和造诣,大多都有投稿的经历或本身就是高产作者。同行评审的主要目的是对稿件的质量进行控制,确保提交的论文是可读的、可信的和有意义的。因此,人们普遍认为同行评审期刊的学术水平高于一般期刊。
4、我国出版的专利文献有哪些?
目前我国出版的专利文献主要包括专利说明书、专利公报以及专利索引等,既有一次文献,也有二次文献。它们是:(1)《发明专利公报》、《实用新型专利公报》和《外观设计专利公报》;
(2)《发明专利申请公开说明书》、《发明专利说明书》、《实用新型专利说明书》;
(3)专利年度索引
5、书目数据库的特征。
(1)书目数据库中的数据来源于期刊论文、会议论文、研究报告、专利文献、学位论文、图书、政府出版物等各种不同的一次文献,是经过加工、提炼过的数据,因此其信息密度高,文献报道范围广,数据量大,连续性和积累性强。
(2)书目数据库的数据结构比较简单,记录格式较为固定。
(3)书目数据库的生产者多为学术机构、政府机构、图书馆信息服务机构等非赢利性组织,书目数据库的开放性比较好,使用上没有太多限制。
(4)相对于手工检索工具来说,书目数据库还具有检索途径多、速度快的特点。但相对于网络信息资源而言,书目数据库的更新周期比较长。
6、全文数据库的特点?
与其他数据库或信息源(尤其是书目数据库)相经,全文数据库有许多优点,主要表现在以下几方面:
(1)可直接利用。用户检索全文数据库得到的结果是原始文献的全文信息,而不像书目数据库那样得到的是文摘或书目之类的二次文献,从而省去了通过二次文献去查找一次文献的环节。因而,全文数据库又称为自足性数据库。(2)简化数据标引和建库工作。绝大多数全文数据库采取自然语言的计算机自动标引技术,节省了大量的人力、物力和财力。此外,全文库的建立还可以省去许多用户并不产心的著录项目,比如出版介质、出版单位、印刷单位、价格等等,这些信息对用户的检索意义不大,但是却在书目数据库的创建中占用了信息加工人员的大量精力。(3)避免了文献二次加工中人为的差错。由于全文数据库包括了二次文献和参考文献在内的几乎所有数据,而这些数据均出自原文,从而避免了文献二次加工可能出现的差错。