信息检索原理期末重点背诵知识点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索
1、信息检索概念:P1
2、信息检索的原理一整节内容要自己理解:P3-P4
图1-1要掌握
文献替代和文献整序的概念要掌握
3、信息检索在历史上的不同表现:联机检索、光盘检索、网络检索的区别和特征:P6-P9
4、信息检索的模型概念:P9
5、布尔模型、向量空间模型、经典概率模型要理解并掌握各自的优缺点:P11-P12
6、信息检索系统的概念:P12
7、检索效果的评价指标:P15-P16
4个指标:查全率、查准率、漏检率、误检率掌握它们的含义并懂得计算
8、网络检索的表达式:布尔逻辑检索、邻近检索、短语检索、截词检索的特点、区别和联系:P17-P21
9、信息检索的技巧要理解尤其是要掌握及时调整检索策略:P33-P36
10、搜索引擎的概念:P37
11、数据库知识,实验内容,特点
12、引文的概念
13、搜索引擎的分类:P40-41
搜索引擎划分的类别以及元搜索引擎的概念要掌握
12、CBR概念P113
12、多媒体信息检索的原理和方法:P110-P114
其中要重点理解基于内容的多媒体信息检索的检索形式(可以结合课件)
13、专利的概念:P125
14、专利的类型:P126(理解一下各类型的区别)
15、专利文献的概念:P127
16、专利文献的类型:P127(理解一下各类型的区别)
17、灰色文献的概念:P147
18、会议文献的概念:P158
19、科技报告的概念:P163
20、查新的概念:P200
21、科技查新的作用:P201(每一个小标题后面要自己展开一段)
关于上课讲的那几个数据库大家自己看一下PPT,掌握一下。
以上纯属个人观点
题型:
名词解释:5*4=20
简答题:4*10=40
论述题:2*20=40
考试时间:1月8日上午:9:00—11:00
1.信息检索的概念(P1)
信息检索有广义和狭义两重含义。广义上说,信息检索是指将信息按照一定的方式组织和存储起来,并根据信息用户的需求查找相关信息的过程。它包含信息存储和信息查找两个过程。信息检索是对信息项进行表示、存储、组织和存取。狭义的讲,信息检索仅仅指信息查找的过程,即从信息集合中找出所需信息的过程,相当于“信息查询”或“信息查找”。
文献替代(著录):即将表示文献资源特征的元数据替代它指代的资源,文献替代过程实际上是对原始文献的外表特征(包括题名、著者、出处等)和内容特征(包括分类号、主题词、摘要等)进行描述的过程,这项工作通常称为著录,著录的结果是将原始文献制成它的替代文献)——二次文献。
文献整序:指的是对替代文献进行标引,给出文献标识(如分类号、主题词等),将所有替代文献按其标识进行有规律的组织排列,形成可检索的信息资源集合。
信息检索系统:信息存储与信息查询功能的一类信息服务设施(或工具)。
信息检索的模型:就是运用数学的语言和工具,对信息检索系统中的信息及其处理的过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推理、解释和实际校验,反过来指导信息检索实践。
搜索引擎:是一种Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,对信息处理组织后,为用户提供Web信息查询服务。
元搜索引擎:又称多元搜索引擎或集成式搜索引擎,是多个独立搜索引擎的集合,无独立的数据库,通过一个统一的用户界面,可以同时对多个搜索引擎进行检索操作,即用户只需一次输入检索式,便可检索一个或多个独立搜索引擎。严格来说,元搜索引擎只能算是一种用户代理,而不是真正的搜索引擎。
CBR:基于内容的多媒体信息检索,主要利用计算机自动收集、量化和存储信息内容自身的特征(如颜色、纹理、形状),表示成向量空间,建立基于内容特征的多媒体索引库,用户在查询过程中,系统会自动将用户提问转化成向量,并与已有信息的向量空间进行相似度匹配计算,具有较强的客观性。
专利:即专利权的简称。是由专利机构依据发明申请所颁发的一种文件。这种文件叙述发明的内容,并且产生一种法律状态,即该获得专利的发明在一般情况下只有得到专利所有人的许可才能利用(包括制造、使用、销售和进口等),专利的保护有时间和地域的限制。我国专利法将专利分为三种,即发明、实用新型和外观设计。(专利权、专利技术、专利说明书)专利文献:主要是指是实行专利制度的国家及国际专利组织在受理、审批、注册专利过程中产生的官方文件及其出版物的总称。就广义而论,专利文献是指实行专利制度的国家及国际性专利组织,在审批专利过程中产生的官方事件及其出版物的总称,主要包括申请说明书、专利说明书等各类有关文件,以及专利公报、检索工具和专利分类表等出版物;就狭义而言,专利文献通常单指专利说明书。
灰色文献:通常指不经营利性出版商控制,而由各级政府、科研院所、学术机构、工商业界等所发布的各类印刷版与电子版文献资料。
会议文献:就是在各种会议上宣读和交流的论文、报告、产生的记录及发言、论述、总结等各种形式的文献资料,是国际学术交流的重要组成部分。按其出版方式可分为会前文献、会中文献和会后文献。(新颖性、专业针对性、及时性、连续性)
查全率:是指检出文献中合乎需要的文献数量占数据库存在的合乎该需要的所有文献的比例,用来表示信息系统能满足用户需求的完备程度。
查准率:是指检出文献中合乎需要的文献数量占检出文献全部数量的比例,是衡量信息系统拒绝非相关信息的能力的量度。
科技报告:是围绕某个课题的科技活动所取得的阶段性进展或最终性成果的记录与书面报告,是科研生产活动的第一手资料。有时又被称为研究报告,它是科技人员交流其研究活动的重要手段,是研究单位向为其提供经费的部门反映研究情况的正式技术文件,以积累、传播和交流为目的,由科技人员按照有关规定和格式撰写,真实而完整地反映科研人员所从事科技活动的内容和经验。
查新:是科技查新的简称,是指查新机构根据查新委托人提供的需要查证其新颖性的科学技术内容,按照本规范操作,并作出结论。
一、信息存储与检索原理
1、原理:信息检索的实质就是将用户的检索提问标识与存储在信息检索系统中的信息特征标识进行比较、匹配,两者一致或者信息特征标识包含了检索提问标识,则具有该标识的信息就从检索系统中输出,输出的信息就是检索命中的信息。(通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。其中,存储是检索的基础,检索是存储的目的。)
信息存储与检索的一般过程
2、文献替代(著录)
即用表示文献资源特征的元数据替代所指代的资源。
特征包括外表特征和内容特征。
著录的结果是将原始文献制成二次文献。
3、文献整序(标引)
对文献进行标引,给出检索标识(如分类号、主题词等),将所有替代文献按照其标识进行有规律的组织排列,形成可检索的信息资源集合
文献特征标识与检索提问标识的匹配