《信息检索》复习大纲共10页word资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1章信息资源概论
1、信息资源的涵义
信息的涵义:信息是生物以及具有自动控制系统的机器通过感觉器官或者细胞组织,或者具有类似功能的设备部件与外界进行交流的一切内容。
资源的涵义:资源是一切可被人类开发和利用的客观存在。
我们的观点:信息资源是经过人类主观或客观处理了的,并且能够被传播或传输的文字、声音、图像、数据。
2、信息资源的类型及各自的特点
我们将信息资源区分为纸质文献型信息资源和电子型信息资源(包括电子出版物、网络信息资源)两大类型。
纸质文献资源的特点:
✧携带、书写、保存方便
✧直观性
✧以纸质为载体的艺术作品的不可替代性
✧纸质文献作为收藏品的不可替代性
电子信息资源的特点:
✧存储形式多样化
✧资源数字化
✧可交流程度高
✧方便利用
✧内容丰富
✧载体容量大
第2章信息存储与检索基础
1、信息存储与检索的基本原理
信息检索的基本原理:为了促进信息资源的充分交流和有效利用,使用户在信息集合中快速、精确、全面地获得特定需要的信息资源,必须要对广泛、大量、分散、无序的信息进行搜集、记录、组织、存储,以建成各种信息存取系统。用户则根据检索需要,将需求转变为系统所能识别的检索式,再与存取系统中表征信息资源特征的标识进行逐一的相符性匹配与比较,两者完全一致或部分一致时,即为命中信息,可按用户要求从存取系统中输出。
2、信息存储与检索的历程
信息存储与检索走过了文献检索、情报检索的历程,并且正在向着知识检索的领域迈进:
文献检索就是一个从文献集合中查找出特定文献的活动、方法与程序,并指明“文献集合”即为经过加工的“众多文献”。
情报检索是一种时间性通信形式,是“发生在当代人之间或当代人与前人和后人之间思想、文化和科学信息的交流,它是实现情报传递的重要环节,它本身就意味着人类的通信。
信息是人类社会和自然界所有物质的一种普遍属性,其概念外延十分宽广。知识是通过大脑思维重新组合和系统化的信息。一般认为,“情报”是传递中的知识,文献则是指记录在一定物质载体上的知识。
3、信息检索通常包括的四种类型
●从信息需求与查询结果看,信息检索通常包括四种类型:
✧关于文献的检索
✧关于某事实或事项的知识检索
✧关于数值或数据的情报检索
✧关于图像信息的信息检索
4、索引的概念
索引(Index)是存取信息资源“地址”或“出处”的标识系统,是信息存储与检索的基本形式。索引的基本功能是指示知识点在正文或文献款目中的位置。传统的文本式检索工具通常由两部分组成,即文摘正文部分和辅助索引部分。
5、索引的款目结构中,例如
①②③分别代表什么
①索引标题词(题名)②文献作者③地址参照项(所在页码)
6、引文索引的概念
引文索引是近30年来出现的一种新型的索引形式。其特点是,把一系列具有引用与被引用关系的科学文献以多向线性的方式联系起来,提供一个以引证关系为依据来检索文献的新途径。
引文索引的主要职能是,回答某作者的论文曾经被哪些人的文章所引证,这些文章何时发表在何种刊物上。
第3/4章信息存取途径与检索策略
1、布尔逻辑算符
用户利用逻辑算符构造检索式,可将一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索需求。系统中采用的逻辑组配算符是布尔代数中的逻辑运算符AND、OR、NOT,故简称为布尔逻辑组配算符。这三种算符表示不同的逻辑关系,在构建提问检索式时必须正确选择使用。
✧逻辑“与”——AND或*
✧逻辑“或”——OR或+
✧逻辑“非”—NOT或-
✧布尔逻辑算符的优先执行顺序为NOT、AND、OR。
✧由布尔逻辑算符连接而成的检索式称为逻辑检索。
2、位置逻辑算符
由于布尔逻辑算符不能限定检索词在检索记录中的位置关系,因此其检索结果常常不能满足精确检索的需要。为了弥补逻辑算符准确表达提问要求的缺陷,提高检索效率避免误检,特规定了一些位置算符。也就是当使用文献记录中的自由词作为检索词进行检索时,词与词之间的逻辑关系则用位置算符组配。位置算符主要用于全文数据库查询。
位置算符不仅可用来组配带有前缀或后缀的检索词,也可用来组配带有逻辑算符的检索式。常用的位置算符有下列几种
①(W)或()—with
②(nw)表示在此算符两侧的检索词之间允许插入n个实词或虚词,两个检索词的词序不允许颠倒。
③(N)—“Near”由(N)连接的检索词在记录中出现的顺序可以调换,但必须彼此相邻。
④(nN)表示算符两侧的检索词(或称检索项)之间允许插入n个词,且两检索项的位置可以调换。
⑤(F)—Field表示算符两侧的检索词,必须同时出现在文献记录的同一字段中,如同一文摘或同一标题字段,同一题名字段等,此文便为命中,算符两侧检索词词序不变,夹在其间的其它词数量也不限。
⑥(S)—Sub field表示算符两侧的检索词必须同时出现在文献记录的相同子字段内,其检索词的顺序不限、夹在其间的词汇数量也不限,子字段通常由数据库确定。
⑦(L)—Link(L)算符通常用来表示算符两侧的检索词是从属关系,前者为上位概念,后者为下位概念;或算符左侧为主叙词,右侧为副叙词。
⑧(C)—CITATION表示算符两侧的检索词可以不分字段、不按顺序,只要同时出现在一篇文献记录中即为命中,其作用和效果与逻辑算符“and”相同。
⑨(X)和(nX)(X)算符表示两个相邻且又词形相同的检索词作为词组进行检索,其间只能是“—”号而不得有其它的字母或词,
✧(nX)表示两个词形相同的检索词,其间夹有n-1个其它词时,可作为词组进
行检索。
⑩在位置算符的前面加上NOT即可构成位置算符的逻辑(非)
3、信息检索一般方法
信息检索的方式是指根据检索课题的需要与检索系统的现状灵活选定的。一般的查询方法可划分为以下几种:
1.工具法:又称一般查找法,即利用各类存取系统(工具)包括书本式与电子
文本式,直接检索信息的方法,主要包括顺查法、逆查法、抽查法。
2.追溯法:利用文献后所附参考文献,逐一追查被引用文献,然后,再从被引
用文献所附参考文献目录逐一扩大检索范围,依据文献引用与被引用之间的关系获得内容相关的诸多文献,这是一种扩大信息来源最简捷的方法。
3.综合法:亦称循环法或分段法,它是指分期分段交替使用上述各种检索法以
达到优势互补、获得理想结果的一种检索法。
4、信息检索步骤