山西大学《信息检索》考研复习重点题库
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
考试复习重点资料(最新版)
资料见第二页
封
面
复习题一
一、名词:
1.①信息检索:是指将信息按一定的方式和存储起来,并根据信息用户的需要找出有
关信息的过程。
广义的信息检索包括信息的存储和检索。
2.①文献标引:是对文献的内容特征进行分析、描述、并按照所采用的分类法和主题
法给该文献一标识符号的工作。
3.①检全率与漏检率:检索工具检索效率的评价指标。
检全率=检出的相关文献/相
关文献总量。
漏检率=未检出的相关文献/相关文献总量。
4.①检准率与误检率:检索工具检索效率的评价指标。
检准率=检出的相关文献/检
出文献总量。
误检率=检出的无关文献/检出文献总量。
5.①检索策略:是在分析情报需求实质,明确检索提问的基础上,选择检索工具,检
索途径和检索用词,并明确各词之间的逻辑关系与查找步骤的科学安排。
6.①书目之书目:或称检索工具的检索工具,是检索工具的目录,是将目录、题录、
文摘等检索工具,按照类型或取材的学科范围,或按文种等方式排列起来,并附上
简介,指出所收录检索工具的内容、特点和使用方法。
7.①文献著录:按照一定的条例或标准,将一件文献区别与其他文献的外表特征、物
质特征乃至文献摘要一一加以描述并记载下来的工作称为文献著录。
8.①文献指南:它的内容主要是介绍某一学科的期刊和其他类型的一次文献。
有关这
些文献的各种检索工具和重要的参考书,信息检索的方法,以及利用图书馆的一般
方法。
9.①引得深度:是衡量检索工具编制过程中分析文献内容所达到的深度的具体质量指
标。
是指一篇文献所标引的索引词数目,即指定给每篇文献的“文献标识”数目。
10.①报道时差:是指从被摘文献发表道收录尽检索工具时所经历的时间间隔,检索工
具只有尽可能的缩短报道时差,才能适应科学技术的发展和科技文献增长的需要,
使科研工作者尽快获得最新的文献资料,促进科研工作的开展;否则,报道时差过
长,检索工具本身就失去了现实意义。
11.②主题词:主题词是主题词表中表达一定概念的最小词汇单元,是自然语言中优选
出的规范化词汇,这种词汇不仅反映着一定事物的概念,而且作为事物概念的表达
形式而存在。
12.②倒排档系统:比号法和比孔法有一个共同的特点,就是这种系统是按照每类一卡、
或每词一卡的原理操作的,因此被称为“词款目录系统“或“资料从属于词之下系
统”,即作为资料的文献是编到词卡上的。
这样,作为存在于标引员工作单中标引
词于文献之间的关系,在索引文档组织中已被倒排,因此这种系统又被称为倒排档
系统。
13.②ASI:查阅主题索引时,必须将索引标题和修饰语联系起来,按修饰语所带介词
的句法规则,以及学科内容的内在联系来理解,才能得到一个准确的完整的文献主
题。
具体的方法是,把索引标题和用逗号分开的各部分修饰语,按照学科内容的内
在联系和修饰语所带介词的句法规则,一个个挂接起来,从而得到一个准确完整的
文献主题的自然语序,因此这种索引又称为挂接主题索引(ASI)。
14.②概念组配:
15.②概念组配索引
16.②词族索引:也称为族系索引或词族表,它是把字顺主题词表和附表中的具有属种
关系、整体与部分关系和包含关系等主题词,按其学科本质属性展开全显示的一种
词族系统。
17.②范畴索引:也称为范畴表,它是将字顺主题词表和附表中的全部主题词,按照主
题词的学科属性和词义范畴,划分为若干个大小类目,以便从分类途径查词和查字顺主题词表的一种手段。
18.②主题词的参照系统:主题词的语义性是指主题词之间存在的含义上的相互关系。
这种关系主要有同义关系、属分关系和相关关系。
在词表中通过这种语义关系的表达,即对主题词进行控制和规范化,又对主题词的含义进行科学的具体限定,使其形成一种暗含的网络结构,从而达到扩大检索途径和满足族性检索的要求。
主题词的这种语义关系,称为参照系统。
19.②文献-词矩阵:从概念上说,索引(书目数据库)可以看作是一个文献-词矩阵,
在这个矩阵中,数字1-10表示该数据库标引的文献,字母A-H表示文献标引词的一个词表,第I行第H列的元素按照第H列文献是否包括第I行索引词分别定义为1和0。
这样,纵行就是文献的描述,即它指明了该文献用那几个索引词来标引;而横行则是文献标识的描述,即在该标识下标引了哪几篇文献。
20.②索引语言:文献存储时,文献标识按照一定的语言加以描述,而进行检索时,信
息提问也按照,相应的语言予以表达,规范化这种把标识于检索联系起来,对概念进行处理,使检索得以有效进行的语言就是索引语言。
21.②KWIC:题内关键词索引(KWIC).题内关键词索引又称为上下文关键词索引,
其形式是:关键词居中,上下文排其两侧,关键词后的词排不下时,可往前栏的空白处排;关键词前的词排不下时,可往中排的空白处排,后栏未文献号。
22.②D-KWIC:双重上下文关键词索引(D-KWIC)。
双重上下文关键词索引,该索
引在编排形式上,结合了KWIC和KWOC的特点,即先抽出文中的一个关键词提按行。
作为索引标目,然后将剩余部分,按其它关键词轮排,在轮排条目中,在轮排中第一关键词用*代替。
23.⑤布尔逻辑检索:所谓布尔逻辑检索是通过标准的布尔逻辑关系词来表达检索词与
检索词间的逻辑关系的检索方法。
主要的布尔逻辑关系词有:AND,OR,NOT. 24.⑤加权检索:是每一个检索词给定一个数值表示其重要程度,称为权值。
对在检索
中,先查找这些检索词在在数据库中是否存在。
对存在的检索词计算他们的权值总和。
只有当数据库记录的权值之和达到或超过预先给定的值时,该记录才算命中。
25.⑤截词检索:是指在检索式中用专门的符号(截词符号)表示检索词的某一部分允
许有一定的词形变化,因此,检索词的不便部分加上由截词符号所代表的任何变化形式所构成的词汇都是合法的检索词,结果中只要包含其中任何一个就满足检索要求。
26.⑤SDI:定题服务。
这是针对相对固定的用户课题提问要求,对新到的数据库文档
进行检索,并定期向用户提供所需信息资料的服务。
27.⑤检索表达式:是计算机检索中用来表达用户检索提问的逻辑表达式,由检索词和
各种布尔逻辑算符、位置算符以及系统规定的其他组配连接符号组成。
28.⑥RS:追溯检索。
这种检索不仅能够查找最新的信息资料,而且可以追溯查找数
据库存储年限范围内的某一段时间之内的有关文献资料。
29.⑦URL:中文直译为“统一资源定位器”。
URL一般包括协议部分、主机部分、目
录部分、文件部分,通过URL,就可以在因特网茫茫的信息海洋中定位出具体的某个资源。
URL等于通常所说的网址。
30.⑦远程登录:远程登陆是提供较早的一种服务,它引用了UNIX多用户系统的用户
帐号概念。
用户帐号规定了用户对系统的使用权,用户登陆后就可以访问系统的全
部或部分资源。
二、简答:
1.①图示信息存贮与检索的基本流程
2.①简述检索工具的组成
(1)封面封面上通常载明刊名、文摘条目起止序号、年卷期号、编辑出版单位等。
(2)版权页按照国家出版局的规定处理,一般位于封面的下方,包括刊名、年卷期号等。
(3)目次实际上是内容编排类表的主要大类,供读者据以按类翻页和查找。
(4)使用说明和凡例包括刊物的沿革、编辑方针、报道内容与其他刊物或分册的关系,读者对象,使用说明方法以及文摘条目各项的说明等。
(5)正文是某一短时间内积累起来的,按分类或按主题组织在一起的文摘条目,作用是报道新文献,提供文献线索或概要。
(6)辅助索引它是检索工具的组成要素,作用是为迅速查找出有关的文献线索,提供多种必要的检索途径和回溯检索的功能。
(7)分类表或主题词表是编排和组织文献条目的依据,在检索工具中,文摘条目是按照分类或主题编排。
(8)收录文献来源及其他附录材料
3.②什么是词款目系统和资料款目系统?二者区别何在?
比号法和比孔卡是按照每类一卡或每词一卡的原理操作的,即为“词款目系统”,即作为资料的文献是编到词卡上的。
边缘开口卡的系统是按照每篇文献资料一张卡片操作的,即为“文献资料款目系统”。
二者区别:资料款目系统对系统中每篇文献进行判断是否满足检索要求,属于连续检索或顺序检索方式,因此没有必要使文献资料保持任何逻辑次序,即没有必要排卡,新的资料
可以简单地加在文档的末尾;而词款目系统则只须检查选出的卡片,因此这意味着词款目文档必须保持某种逻辑次序进行排卡。
4.②什么是索引语言?索引词表的规范化内容包括哪些方面?
文献存储时,文献标识按照一定的语言加以描述,而进行检索时,信息提问也按照相应得语言加以表达,这种把标引于检索联系起来,对概念进行规范化处理,使检索得以有效进行的语言就是索引语言。
(索引词表的规范化内容参考主题词规范化内容。
5.③简述专利的概念与含义
所谓专利就是用法律保护发明人(或设计人)在一定时间内对其发明创造享有独占制造、使用和销售的权利。
有三层含义:
(1)专利权。
从法律角度讲,专利就是专利权。
专利权是专利局依照专利法授予发明人对其成果享有独占权。
(2)专利技术。
从技术角度理解,专利是被保护的技术发明即专利技术。
(3)专利文献。
从文献角度讲,专利就是专利文献。
6.④什么是同族专利?包括什么?
包括:(1)、基本专利(2)、相同专利(3)、相关专利。
7.④图示CA文摘、索引、附表之间的关系(见最后)
8.④从使用角度CA索引分哪几类?各包括什么?
从使用角度CA索引分成成四种类型:主体索引、补充索引、辅助索引、工具索引。
主体索引包括:关键词索引、普通主题词索引、化学物质索引。
补充索引包括:分子式索引、环系索引、CAS登记号索引。
辅助索引包括:著者索引、专利号索引、专利对照索引、专利索引。
工具索引包括:索引指南、CAS来源索引。
9.④简述从主题途径检索CA的步骤
1分析研究课题,选择主题词2使用索引指南,校核主题词3查阅主题索引4根据有关文摘号,查阅文摘5根据文献线索,获取原始文献。
10.④图示SCI的检索途径、检索方法与检索步骤。
(见最后)
11.④什么是专利优先案?包括哪些项目?
优先案索引是独立于WPIG以外的索引,有周刊和季刊、年度、累计本,单独发行。
是指某专利在国际上最早提出的申请案,国际专利互惠条约规定,先后在若干国家申请的专利,时间相距不超过12个月,其专利权从最初申请国家的最早申请日期算起。
专利优先项包括专利的优先申请日期、优先申请国家和优先申请号、优先项也即优先案它是鉴别同族专利的依据。
12. ⑥简述建立数据库对知识进行组织的三个层次。
对知识进行第1个层次的组织,是单篇文献。
在单篇文献中,知识项、以及记载知识得以取得的环境、条件和方法都有机地结合在一起,并以逻辑次序加以组织。
对知识进行第2个层次的组织,是百科全书、大全、年鉴、手册、表之类的3次文献。
这类文献对于知识的组织更有条理,所包含的知识项更多,可检性更强。
对知识进行第3个层次的组织,是书目、索引、文摘之类的2次文献。
它所包含的领域更宽,能使成千上万的文献通过题录、简介、摘要置于检索者的控制之下。
13.⑤计算机检索技术主要包括哪些?
(1)、布尔检索,是通过标准的布尔逻辑关系词来表达检索词与检索词间逻辑关系得检索方法。
(2)、截词检索,是指在检索式中用专门的符号标示检索词的某一部分允许有一定的词形变化。
(3)、邻近检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置。
(4)、加权检索,判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。
(5)、自然语言检索,是指用户在检索时可输入自然语言表达的检索要求,然后由系统剔除没有实质意义的词汇,并将余下的词汇作为关键词进行检索。
(6)、模糊检索,允许被检索信息和检索提问之间存在一定的差异。
(7)、概念检索,是指当用户输入一个检索词后,检索工具不仅能够检索出包含这个具体词汇的结果,还能检索出包含那些与词汇属于一类概念的词汇的结果。
14.⑤论述计算机检索系统的逻辑构成。
计算机检索系统的逻辑构成主要是指它所包括的功能模块或子系统及其相互关系。
通常必备以下四个模块:
(1)、信息采集子系统。
本模块的任务是根据系统的经营方针和服务对象的需要,以快速、经济的手段,广泛地、连续不断地采集各种信息源,为系统提供充足而适用的数据来源。
(2)、标引子系统。
其作用是为信息存储与检索这两联环节之间提供某种连接物,为特定的问题提供快速准确的检索途径。
(3)、建库子系统。
实质是将采集子系统所采集的无序信息进行有序化组织的过程。
(4)、用户接口子系统。
是面向系统用户的一种人—机接口,承担用户与系统之间的通信功能。
15.⑥简述DIALOG系统的常用指令及其简写、中文含义。
1、开库指令。
B。
来选择数据库。
可以是DIALOG文档的编号、文档类名或文档缩略名。
2、括词指令。
E。
是联机查询数据库字典索引,以便正确选择检索项。
3、基本查找指令。
S。
用于对文档中的基本索引或辅助索引进行检索。
4、分步骤查找指令。
SS。
与SELECT指令基本相同,只是对每一步查找均赋予一个极
好,以供用户修改检索策略时调用。
5、联机或脱机打印指令。
6、选文档指令。
SF。
仅在DIALINDEX中使用,用于多个文档的检索。
7、去除重复记忆记录指令。
RD。
在对多文档的一次检索中通过精确的测量比较记录的
来源部分,将文档间重复的记录去除,将唯一的记录保留在BEGIN指令中排序在前的文档中,并产生一个新的集号。
8、逻辑组配指令。
C。
用布尔逻辑算符AND,OR,NOT连接提问集号,用于逻辑组配。
9、回溯检索步骤指令。
DS。
用于回顾自BEGIN命令以来的检索步骤。
10、保存检索策略指令。
SA VE指令免费保存7天,过后自动清除。
11、执行存储检索策略指令。
12、排序指令。
SORT。
用于一个集号内的记录按指定字段,按升序或降序排序。
13、暂时关机指令。
LOGOFF HOLD。
帮助用户在检索过程中遇到有些问题需要脱机
后进行研究,然后再开机继续检索,此时可以用暂时关机指令。
14、关机指令。
LOGGFF。
检索结束时可以使用。
、
15、解释指令 EXPLAN,在系统提示符后面键入此命令,系统立即显示一张正确的解
释指令表,用户可以从中选择希望了解的内容。
16.⑥简述联机检索的主要服务范围
1、追溯范围。
不仅能够查找最新信息资料,而且可以追溯查找数据库存储年限范围某
一段时间之内的有关文献资料。
2、定题服务。
这是针对相对固定的用户课题提问要求,对新到的数据库文档进行检索,
并定期向用户提供所需信息资料的服务。
3、联机订购原始文献。
主要是针对二次文献的索取,即用户可以通过联机终端向联机
服务系统订购文献原文,系统根据订购要求自动回复输送。
4、光盘检索服务。
它除了可以提供追溯检索、定题服务外,还可以套录文献用于“自
建库”、培训用户和联机检索前预处理。
5、电子邮件服务。
允许用户发送电子信息到联机检索系统各部门和同一系统中的各个
用户。
17.⑤简述构造联机检索策略的步骤。
1、填写检索提问表。
填写检索提问表,列出待检课题的学科专业范围、主题内容及检
索目标。
2、选择相关数据库,并确定检索途径。
选择相关数据库,并确定在待检数据库中的检
索途径,以便编制适合所选数据库的检索策略。
3、对信息检索提问进行概念分析。
选择能代表各概念组面的检索词,从而把提问的主
题概念转换为适合系统的检索词,完成用户需求从概念表达到计算机系统所能接受的检索表达的转换。
4、拟定检索表达式。
检索表达式是计算机检索中用来表达用户检索提问的逻辑表达式
有检索词和各种布尔逻辑运算符、位置运算符以及系统所规定的其他组配连接符号组成。
18.⑦简述网络信息资源的种类
按照网络信息的内容划分:1、网络数据库。
2、联机馆藏目录库。
3、电子出版物。
4、政府机构信息。
5、休闲娱乐信息。
按照所采用网络信息的协议不同划分。
1、基于超文本传输协议(HTTP)的信息资源。
2、基于文件传输协议(FTP)的信息资源。
3、基于远程登录(Telent)的信息资源。
还有Gopher资源、WAIS资源和网络新闻资源。
19.⑦简述网络检索工具的划分与类型。
网络检索工具划分为三个部分:
(1)、数据采集标引子系统。
一般分两种:人工采集和自动采集方式。
(2)、数据组织子系统。
主要是利用强有力的数据库管理系统来组织所采集标引的网页信息,形成索引数据库。
(3)、用户检索子系统。
当用户提出检索要求时,由用户检索子系统代理用户在数据库中进行检索。
包括四部分:检索界面子系统、检索策略子系统、检索执行子系统、检索结果组织子系统。
网络检索工具类型:
按检索机制划分:检索型检索工具、目录型检索工具、混合型检索工具。
按检索内容划分:综合型检索工具、专题性检索工具、特殊性检索工具。
按包含的检索工具数量划分:单独型检索工具、集合型检索工具。
按检索资源种类划分:万维网检索工具主要检索万维网站点资源,常被称为搜索引擎;非万维网检索工具主要检索特殊类型的信息资源。
20.⑦什么是Z39.50?其主要内容是什么?
Z39.50是美国信息信息检索方面的国家标准,即信息检索——开放系统互联的应用服务定义与协议说明。
该标准定义了两个系统家以数据库查询和信息检索为目的而进行的通信、交流的规则和程序。
Z39.50协议规范分为两部分:由客户机实现的协议过程和由服务器实现的协议过程。
在Z39.50中,客户机被称为“源”系统,它发出检索指令、指定检索点和检索值,输送到目标系统进行检索;而服务器部分被称为“目标”系统,它是指远程系统中的数据库界面,并能对由源系统发出的信息做出反应,并进行实际检索并提供对应检索提问、符合检索要求的检索结果集。
三、论述:
1.①论述信息检索的研究内容
信息检索主要研究如何有效地表示文献和以何种方式描述用户的检索要求,才能有效地检索到相关文献的问题。
传统的信息检索模型有布尔检索模型、代数检索模型等。
目前,人们对布尔、代数、概率检索模型进行研究后,构建了一种新的信息检索模型,使文献与查询的相关性得到了量化。
同时,人们对信息检索的过程也进行了研究,从而得到了信息检索主题在检索过程中的认知模型。
信息检索日益形成一种多学科联合作战的局面。
信息检索作为一个学科或研究领域,是属于信息学的一个重要分支,它是在文献工作、图书馆学、目录学等领域的交叉点上发展起来的、比较年轻的学科。
它的研究对象大致可以归纳为以下四个方面:
1、有关检索语言的研究。
检索语言既用来描述文献的内容特征,又用来表达情报
检索的提问。
2、有关检索系统的研究。
检索系统是根据一定的目标,将有关文献或数据按照一
定的检索语言进行标引,记录在一定的载体上,按照一定的结构次序组织起来,
从而能够提供一定检索手段的系统。
3、有关检索策略的研究。
检索策略,实在分析情报需求实质,明确检索提问的基
础上,选择检索工具、检索途径与检索相同。
4、有关检索服务的研究。
包括对检索用户需求的调查研究、各种服务方式、服务
经验及服务效果的分析与评价。
2.①论述检索工具的质量评价标准。
五个方面:
1、收录范围尽可能广泛全面。
为读者提供丰富的文献线索,开拓宽广的信息来源。
“摘贮率”是衡量检索工具收录范围的具体质量指标,摘贮率越高,它所能提供的信息就越丰富,也就能取得人们对他的信赖。
2、对文献信息特征的著录要详细、准确,结构严密。
“文献描述的信息量”是衡量检索工具著录文献特征的具体质量指标,各种检索工具对文献信息特征的著录,其粗细详略程度是不一样的。
题录,只著录文献的外表特征。
文摘,则摘录文献的主要内容。
解题,介乎二者之间,主要是对文献题目的解释和对内容的简要军介绍。
“文摘”所提供的信息含量最大,文摘性检索工具是主要的检索工具,是检索工具的主题。
3、编制完备的检索系统,提供尽可能多的检索途径。
“引得深度”是衡量检索工具编制过程中分析文献内容所达到的深度的具体质量指标。
所谓引得深度是指在一篇文献所标引的索引词数目,即指定给每篇文献的“文献标示”数目。
如果一篇文献所标引得索引次数目,即指定给每篇文献的“文献标示”数目。
引得深度越高,意味着文献被检索到比率的提高。
检索工具编制年度和多年度积累索引,可便于回溯检索。
4、编制迅速,报道及时。
“报道时差”是衡量检索工具报道文献是否及时地具体质量指标。
所谓报道时差是指从被摘文献发表到收录尽检索工具时所经过的时间间隔,检索工具只有尽可能缩短报道时差,才能适应科学技术的发展和科技文献增长的需要,使科研工作者尽快获得最新的文献资料,促进科研工作的开展。
5、备有完善的索引词表,以保证检索的准确性。
索引词表的网络度和专指度是衡量索引词表完备性的具体质量指标。
所谓索引词表的网罗度是指包罗索引词的数量规模,专指度是指对索引词的概念细分程度。
索引词表的网罗度越大,专指度越高,就越能保证索引词对文献内容的切题程度,检索出来的文献就越能符合需要者的口径。
专指度低,就以雄检索工。