信息检索原理与技术考试大纲重点整理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《信息检索原理与技术》
第1章信息检索概论
(1)一次文献信息:是指作者以自己的研究成果为基础创作或撰写的、未经过加工的原始文献,如期刊论文、研究报告、学位论文等。
(2)二次文献信息:是指对一次信息加工整理而成的文献,如目录、文摘、索引等各种书目信息,具有汇集性、工具性、综合性、系统性的特点。
(3)三次文献信息:是对一、二次信息综合、分析等深加工的产物,如评论、进展报告、百科全书、期刊书目等。(4)文献:记录有知识的一切载体,即知识信息必须通过文献载体进行存储和传递。
(5)构成文献的要素:构成文献内核的知识信息、负载知识信息的物质载体、记录知识信息的符号和技术。
(6)文献的特征:知识性(文献的本质,离开知识信息,文献信息便不复存在);传递性(帮助人们克服时间与空间上的障碍,在时空中传递人类已有的知识,使人类的知识得以流传和发展);动态性(其所蕴含的知识随着人类社会和科技的发展在不断地、有规律地运动着)
(7)信息、知识和文献的联系:信息作为物质的一种普遍属性,是生物以及具有自动控制系统的机器通过感觉器官和相应的设备与外界进行交换的一切内容,它是有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制的;知识作为信息的一部分,是一种特定的人类信息,也是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映,它是无形的、与行动和决策相关、经过处理能改变思维、精神产品、环境改变含义、经过学习才能转让、无法复制的;文献是知识的一部分,是进入人类社会交流系统的活动着的知识。(8)文献信息流有序化阶段的三个环节:
①替代。描述文献特征,对一次文献信息进行不同程度的提炼或压缩,形成目录、文摘、索引等二次文献信息。从文献信息流的运动角度看,“替代”是文献信息流的流量、流向得到测度并合理调节。
②改组。从一次文献信息中提取数据、事实和有关结论,按照易于查阅的提醒重新组合,其改组的结果,产生了手册、名录、辞典、目录等类型的文献信息。其目的是使一次文献信息更容易被理解和使用。
③综合。利用二次文献对一次文献所包含的知识加以综合并融入到现有知识体系中去,成为整个知识体系的有机组成部分,产生的主要成果是不断再版的百科全书、专著、教科书及综述、评论性文章。
文献信息流失一个以研究活动为起点。按顺时针的线性顺序移动,是一次、二次、三次文献信息的演变过程。对于“文献信息链”的研究,有利于从整体的角度了解文献信息的有序化、动态性特征,从而探索文献信息的产生、演变规律及其结构形态。
(9)信息检索:广义理解分为信息的存储与检索。信息的存储主要包括在某一专业领域范围内的信息选择的基础上对信息的内外特征进行描述、加工并使其有序化,形成信息集合。信息的检索是指借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息。狭义的信息检索仅指该过程的后一部分。存储是检索的基础、检索是存储的反过程。信息检索的本质是用户的信息需求和一定的信息集合的匹配。
(10)信息检索系统:指为了满足用户的信息需求而建立的存储,经过加工了的信息集合,拥有一定的输入、匹配、输出的技术设备,提供一定的检索服务功能的一种相对独立的实体。
(11)信息检索入口:又称检索点或检索知识,是指用以标识信息的外部特征和内容特征的属性值的集合。检索知识包括主题词、分类号、著者、标题、机构、代码等。
(12)信息检索的一般原理:P7
(13)检索系统由物理构成(硬件、软件和数据库)和逻辑构成(文献与数据的选择与抽取子系统、词表子系统、标引子系统、查询子系统、用户与系统交互子系统、匹配子系统)
(14)检索工具的构成:编辑说明与凡例、分类表与主题表、正文、辅助索引、资料来源目录与附录。
(15)检索系统的功能:报道功能、存储功能、检索功能。
(16)信息检索理论:标引理论、检索模型、检索结果的可视化。
(17)现代信息检索技术与方法:全文检索、多媒体检索、超文本及超媒体检索、联机检索、网络信息检索、智能检索、跨语言检索、跨平台检索。
第2章信息检索模型
(1)最初的信息检索模型是以数学知识为基础的原因:第一,数学是个有几千年历史的学科,被大家所熟知,并且通俗易懂。第二,人们的信息有很大的模糊性,甚至用文字不能表达,而文字具有很大程度的抽象性和概括性,这样就很容易表达出人们信息检索的需求,能够很方便快捷地组建信息检索模型。
(2)信息检索模型的类型:P18
(3)布尔检索模型:采用布尔代数和集合论的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻
辑运算来检索文献。
(4)布尔逻辑运算符:逻辑与(AND)、逻辑或(OR)、逻辑非(NOT)
(5)布尔运算的运算次序:P24
(6)传统布尔检索模型的优缺点:
优点:1)逻辑运算符较少,便于用户学习。2)模式较易构造,可以通过简单的关系来体现检索项的联系。
3)可以将复杂的检索过程以简单的检索式表达出来。4)检索提问式较灵活,方便修改。
缺点:1)布尔检索中的关键词没有权重区别。2)检索结果分输出没有重要性是排序。3)查全率很难控制。
4)布尔检索要求用户具有很高的素质和语义提取能力。
(7)向量空间模型:一种基于统计学方法的数学模型。
(8)向量空间模型的工作原理:P27
(9)向量空间模型的优缺点
优点:1)采用自动标引技术与文献提供标引词。
2)采用部分匹配策略,使得在算法层面上的基于多值相关性的判断处理得以实现。
3)改变了布尔检索只有两种情况0和1的简单判断,标引词和文献的相关程度可在0和1之间取值,使标引者和检索者都可以比较灵活地定义标引词与文献的关系深度,改变了布尔检索模型的僵化的缺点。
4)由于其相似的程度作为检索的标准,可从量的角度判断命中与否,从而使检索结果更趋合理。
5)检索结果可以按照与提问的相关度排序输出,便于用户通过相关反馈技术修正提问,控制检索量。
6)布尔模型的逻辑关系依然可以使用,保留了直观性和方便些。
7)向量空间模型的灵活性使它有很好的可扩展性和可改进性,为以后的更加完善奠定了基础。
缺点:1)检索过程转化为向量的计算方法,不能反映出文献之间的复杂关系。
2)由于对于任何一个提问度需要计算全部文献库中的每一篇文献,因此,计算量大,算法复杂性较高。
3)由于标引加权和检索加权是分离的,因此,随意性较大,难以保证质量。
4)有很多是假定的,在实际工作中有时会不能解决。
(10)扩展布尔检索模型:P31
(11)扩展布尔检索模型的工作原理:P32
(12)扩展布尔检索模型的优缺点:
优点:拥有矢量处理的思想,体现了加权的特点;继续保留布尔检索的直观的操作符,具有很强的描述能力;对于输出结果可以很好的控制和排序;通过调整权重参数的取值,可以灵活选择并得到不同的检索结果;便于区分强制性短语和严格的同义解释与试探性短语和较不严格的同义关系;与传统倒排文档一致,更易接受。
缺点:扩展布尔模型由于是集成了两种经典模型的一种改进的“集成化模型”,所以它不可避免的存在着臃肿、不够自然简洁的缺点,而且不是很普及,目前在信息检索领域使用较少。
(13)概率模型:一种基于概率论原理的用以解决相对不确定性的信息检索的信息检索模型。
(14)贝叶斯定理:P37
(15)概率模型的优缺点:
优点:文档可以按照他们相关概率递减的顺序来计算秩,还可以通过反复反馈结果和用户需求,使结果得到很好的调整,相对合理得多。
缺点:索引词权值计算方法没有考虑到词频加权因素。沿用了索引词之间相互独立的基本假设。开始时需要猜想把文档分为相关和不相关的两个集合,过程比较烦琐。
(16)概率模型在处理实际问题时的困难:初始检索文件阀值比较大,由检索式检索的相关文件数量相对于精确估计的概率而言太小。
(17)古典逻辑模型的特点:1)逻辑模型不是一个经典模型。2)逻辑检索要借助外部信息进行评价。3)逻辑检索对关键词的语境更加重视。4)对信息的联想法控制。5)逻辑检索具有不确定性。6)对多词一义的把握。7)适应信息的不完全性。
(18)逻辑模型的优点:逻辑理论具有很强的推理能力,将检索过程逻辑化可以使人们能从新的角度认识检索,并在逻辑化的基础之上建立演绎信息检索系统。在演绎信息检索系统中,用户可以增减可用规则,可以扩充或者缩小知识库,可以憎加或减少检索目标项,从而实现扩检和缩检。同时,通过因入更多的谓词、丰富系统的知识库、允许查询目标语句中包含更多的谓词,演绎信息检索系统也容易被扩展为用途更广的专家系统,使得信息检索系统智能化程度更高,功能更强,换句话说,基于逻辑模型,我们可以建立智能化的、提供多种检索入口的、便于扩展的信息检索系统、