信息检索期末复习材料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索
第一章信息检索基础
1、信息的含义:
广义的信息指自然界和一切人类活动所传达出来的信号和消息,是事物表现得一种普遍形式。
狭义的信息指经过搜集、记录、处理和存储的可供检索的文献、数据和事实
2、一次文献:指作者以本人的研究成果为基本素材而创作或撰写的文献。
(著作、报纸、期刊、会议资料、
研究报告、政府出版物、专利说明书、产品样本、标准文献、学位论文等)二次文献:指对一次文献进行加工、提炼和压缩后所得到的报道性产物。
检索工具书和网上引擎是典型的二次文献。
(目录、题录、索引、文摘)
三次文献:是指对有关的一次文献和二次文献进行广泛深入的分析研究综合概括而成的具体知识、数据。
如综述、百科全书、辞典等。
3、信息检索的含义:从大量的信息集合中找出所需信息的过程与方法。
广义:包含信息储存和检索两部分狭义:信息检索
4、信息检索的原理:将特定的信息需求与存储在检索系统中的信息标识进行异同的比较与匹配
5、信息检索的意义:
①信息检索是有效利用信息资源、实现其最大价值的科学方法
②信息检索是再学习的工具、是获取知识的有效途径
③信息检索能有效地提高科研工作的效率、节省人力物力及时间
6、信息检索的历程:手工检索、计算机检索
7、信息检索的方法:直接浏览法、常用法(顺查法、倒查法、抽查法)、追溯法、综合法
查全率和查准率的关系、局限性
1)查全率=[检出的相关文献信息量/检索系统中相关文献信息总量]×100%=[a/(a+c)]×100%
2)查准率=[检出的相关文献信息量/检出文献信息总量]×100%=[a/(a+b)]×100%
3)查全率与查准率的局限性:
①对文献相关性的判断不可避免的带有主观性和模糊性
②全部相关文献的总量很难确定
③“相关文献”总是被同等对待,实际上其相关程度是有区别的
9、影响检索效果的因素:
①标引上网质量②检索语言的性能
③检索途径的数量④检索策略的优劣⑤检索人员的素质
第二章检索语言
1、检索语言的定义:
广义的检索语言泛指信息检索过程中涉及的人工语言和自然语言。
狭义的检索语言仅指根据信息检索的需要,按照一定的规则对自然语言进行规范,并专门用于信息标引和用户检索的人工语言
2、检索语言的特点:①简单专指②一一对应③组合概念④便于排列⑤便于比较
3、检索语言的功能:①表达文献的特征②集中相同或相关文献③系统化和组织化④相符性比较
4、检索语言的分类:
①按描述文献的特征,可分为描述文献外表特征的检索语言和描述文献内容特征的检索语言
②按结构或原理,可分为分类语言、主题语言、代码语言和引文语言
③按信息的组合使用方法,可分为先组式语言、后组式语言河散组式语言
④按语言的规范程度,可分为人工语言和自然语言
⑤按构成原理分类,分类检索语言、主题检索语言、代码检索语言、引证关系追溯法
5、分类检索语言的特点:①是一部类目的汇编②是一个类目的体系
③是一部类目的词典④是一部类目的排列表
6、分类检索语言的作用:
①进行分类标引和组织分类检索工具的典范②昨晚分类排架的依据
③是检索者从分类途径文献资料的指南④是文献工作人员工作中的常用参考手册
7、体系分类法的局限性:
①难以克服的矛盾——集中于分散
②列举法的列类方法
③严格的逻辑体系给增加、删减类目造成困难
8、主题检索语言的含义:
又称主题法,采用词语直接作为文献主要标识,按字顺排列主题标识,提供各种检索词语的途径。
9、主题检索语言的类型:标题词语言、单元词语言、序词语言、关键词语言
10、主题检索语言的特点:
词语标识几乎是事物的名词,关于同一个事物的文献全部被集中标引在同一词语标识下,所以要在主题检索系统中查全同一事物的档案就比较容易
11、叙词法德原理:
①按主题集中文献
②用规范化的、可以通过组配来表达复杂概念的词语直接标引文献主题
③用参照系统、分类索引、等级索引、轮排索引和主题词关系图等多种方式来显示主题概念之间的相
互关系
④用字顺序列直接提供主题检索途径
⑤用于标识单元方式时,具有标引深度大、能够实现多途径检索,扩大、缩小或改变检索范围灵活
12、主题词组配:字面组配和概念组配
1)字面组配:实质是词的分拆与组合(即拆词)2)概念组配:概念(即词义)的分析与综合
2)主题词组配的作用:①控制词汇量②多途径检索③可自由改变检索范围④及时反映新事物13、分类一体化检索语言的理论依据
两者在生成原理上的共同之处:
①从本质上讲,两者都使用了分类的方法
②从二者的结构上讲,实质是相同的
③二者使用的标识都能揭示文献的主题内容以及文献主题之间的相互关系
第三章计算机信息、光盘检索概述
1、计算机信息检索的特点:
①速度快、效率高②检索范围广③检索不受时空限制
④数据更新快、可以及时获得最新信息⑤检索辅助功能完善、使用方便
2、计算机检索策略的制定的含义:是在分析情报需求的基础上,明确检索范围,选择检索途径,确
定检索词和逻辑组配方法,通过试验或反馈进行调整,使整个检索计划体现用户的目标。
3、检索词的选择:检索式由检索词和连接组配符号组成;检索词分为两类:受控词和非受控词;受控
词是事先规范化的检索语言,取自主题词表、叙词表、分类表等,如果数据库对数据采用了受控标引,并用机读式或印本式主题词表时,应优先选用其中的受控词;非受控词是指非规范化的自然语言词汇
又称自由词
4、检索表达式:(P168-P172)布尔逻辑算符、截词检索表达式、限制检索表达式、位置检索表达式
5、编写检索式的策略:
①要仔细斟酌检索词,使之能准确地反映提问的主题内容
②要了解所查数据库的索引体系和检索用词规则
③要符合检索系统的功能及限制条件的规定
6、传统联机检索的优缺点和方向
1)优点:①传统联机检索基本上是集中式管理,有专人负责维护整个系统,定期更新信息。
②传统联机检索系统是个成熟的系统,信息质量较高、附加值高,可靠性好,来源可靠
③集中管理的最主要的优点是安全性有了一定的保障
④传统联机检索的准确率较网络检索高
2)缺点:集中式管理的主要缺点是主机负担重,一旦出现故障,整个网络都将处于瘫痪状态;联机网络的扩展性较差,由于采用的技术标准原则上是不公开的,因而相关技术缺乏发展的动力,灵活性较差3)发展方向:联入Internet,改善用户界面、调整收费制度
7、光盘检索的优点:
①检索配置简单②检索费用低③系统操作和检索步骤比较简单、便于一般用户使用
④提高资源共享的程度
8、光盘检索的局限性:①更新速度慢②数据容量小③专业范围窄④检索时需要不断换盘
第四章网络信息检索
1、网络信息检索的特点:
①信息量大、内容广泛②形式多样、内容活泼
③检索快捷、整合方便④时效性强、动态性高⑤信息质量良萎不齐
2、搜索引擎的概念:
①广义:泛指网络上提供信息检索服务的工具和系统,是网络工具的统称
②狭义:指利用自动搜索技术软件,对互联网资源进行搜索、组织并提供检索的信息服务系统
3、搜索引擎的工作原理(P269)
4、搜索引擎的分类(典型例子)
①目录式搜索引擎(雅虎)②全文搜索引擎(百度,google)③综合搜索引擎(搜狐、网易)
④元搜索引擎(万维搜索、propusion、mamma、metacrawler)
5、检索程序:分析问题、选择检索工具、确定检索入口、获取原文
6、多媒体信息检索的局限性:
①检索效果不明显②用户查询接口单一
③图像特征信息表示与检索不完善④信息的自动加工与人工标引方面存在困难
7、多媒体信息检索发展的方向:
①人机结合②高层语义和底层特征之间的差距③面向万维网
④多模式融合分析⑤性能评价和测试集
题型:
不定项选择20分判断15分名词解释15分
编写检索式20分论述题30分
注:仅供参考,如有雷同,不胜荣幸!
请尽量多的看书本和照片。
——桃乡有鱼。