信息检索知识点
信息检索的基本知识
⑵信息检索系统的类型 〔续〕
④索引型检索系统: 索引是根据一定的需要,把特定范围内的
某些重要文献中的有关款目或知识单元,书 名、刊名、人名、地名、语词等,按照一 定的方法编排,并指明出处,为读者提供 文献线索的一种检索系统。
索引不仅广泛存在于各种书刊等文献 中,而且更多见于作为辅助检索系统而附 在不同类型的检索工具之后,为检索工具 提供了更多的检索途径。
信息的存储过程就是按照主题词表或 分类表及使用原那么对原始信息资源
一、信息检索原理〔续〕
2、信息检索系统〔续〕
一、信息检索原理〔续〕
⑵信息检索系统的类型
按信息处理手段划分有 ①手工检索系统。又称传统检索系统 是使用人工来查找信息的检索系统。 其主要类型有各种书本式的目录、题 录、文摘和各种参考工具书等。优点: 方便、灵活、 断准确。缺点:检索速 度太慢
2、信息检索系统〔续〕
按著录和标引方式划分 ④文摘型检索系统是以简练的文字将文献
资料的主要内容准确、扼要地摘录下来, 并按照一定的著录规那么和编排方式系统 地组织起来的检索 工具。 主要包括:报道性文摘
指示性文摘 如:美国的?化学文摘?英国的?科学文摘〉
中国的〈中国数学文摘〉〈海洋文摘〉
2、信息检索系统〔续〕
按著录和标引方式划分
⑤全文型检索系统 全文检索是指在文献资料的标题、目录、作
者、内容中检索 指定的字符串。 全文检索系统是指将文章 中所有的文字处理序列 都作为检索对象进行索引,并根据需要找出包含 有欲检索词的文献的系统。
作用:它能提供快捷的数据管理工具和数据 查询手段,帮助人们进行了大量文献数据的整理 和管理工作,使人们能够快速、方便地查到想要 的任何信息。
第二章 信息检索的根本知识
信息检索知识点
信息检索知识点信息检索是指从大规模的信息资源中,通过利用各种信息检索工具和技术,准确和高效地找到用户所需要的信息的过程。
信息检索技术在现代社会中扮演着重要的角色,它不仅广泛应用于互联网搜索引擎,还在图书馆、数据库、企业信息管理等领域发挥着重要作用。
本文将介绍信息检索的定义、关键概念和一些常用技术。
一、信息检索的定义和目标信息检索是指通过计算机等工具从大规模的信息资源中,按照用户的需求进行检索,提供相关性高、准确性好的信息结果。
它的目标是帮助用户快速地找到所需的信息,提升信息搜索效率和准确性。
二、关键概念1. 查询:用户提交的检索请求,通常由一系列关键词组成。
2. 检索词:查询中使用的关键字或关键词短语。
3. 检索结果:根据查询返回的与之相关的文档或信息。
4. 相关性:衡量检索结果与查询之间相关程度的指标,通常使用相关性排序算法进行排序。
5. 文档:信息资源的基本单位,可以是网页、文章、图片、音频等形式。
三、信息检索的主要技术1. 分词技术:将文本数据按照一定规则分割成有意义的词语,是信息检索的基础步骤。
2. 索引技术:将文档中的关键词与其所在位置进行索引,以提高检索效率和准确性。
3. 倒排索引:根据关键词构建索引表,记录关键词与文档之间的对应关系,常用于搜索引擎等场景。
4. 相似度计算:根据查询和文档的相似性,为检索结果进行排序。
5. 结果评估:通过评估检索结果的质量,改进检索算法和模型。
四、常用的信息检索模型1. 布尔模型:将查询和文档转化为布尔表达式,按照布尔运算进行检索。
2. 向量空间模型:用向量表示文档和查询,通过计算向量之间的相似度进行检索。
3. 概率检索模型:基于统计方法,利用概率模型进行信息检索。
五、信息检索的挑战和发展方向1. 大规模数据处理和存储:随着互联网的快速发展,信息资源呈指数级增长,如何高效地处理和存储大规模的数据成为了一个挑战。
2. 多语言检索:不同语言的信息检索在跨语言信息检索中面临很大的难度和挑战。
信息检索基础知识考点整理
信息检索基础知识考点整理●2.1 信息检索的概念与原理●2.1.1 信息检索的概念(重要)●2.1.2 信息检索的原理●信息检索原理就是将特定的信息需求与存储在检索系统中的信息标识进行异同的比较与匹配,选取两者相符或部分相符的信息予以输出●信息检索的类型●1.文献检索●2.数据检索●3.事实检索●2.1.3 信息检索的意义/作用(重要)●1.信息检索是有效利用信息资源,实现其最大价值的科学方法●2.信息检索是再学习的工具,是获取知识的有效途径●3.信息检索能有效地提高科研工作的效率,节省人力、物力及时间●2.1.4 信息检索的历程●1.手工检索●2.计算机检索●2.2 信息检索系统(重要)●2.2.1 信息检索系统的概念●1.信息检索系统的含义●2.信息检索系统的工作原理●2.2.2 信息检索系统的构成●1.信息选择子系统●2.信息索引子系统●3.词表管理子系统●4.用户接口子系统●5.匹配子系统●2.2.3 信息检索系统的分类●1.手工检索系统●1.书本式的手工检索系统●2.卡片式的手工检索系统●2.计算机检索系统●1.硬件●2.软件●3.数据库●1.参考数据库●1.书目数据库●2.指南数据库●2.源数据库●1.数值数据库●2.文本—数值数据库●3.全文数据库●4.术语数据库●5.图像数据库●6.多媒体数据库●2.3 信息检索方法(重要)●1.直接浏览法●直接查找法●2.常用法●顺查●倒查●抽查●3.追溯法●4.综合法(分段查找法、循环法、交替法)●2.4 信息检索效果(重要)●2.4.1 信息检索效果评价●信息检索效果的概念●1.检索结果有效性评价●2.检索系统实用性的评价●3.检索费用—效率评价●信息检索效果评价对于信息检索系统的建设和发展的意义●信息检索效果评价的核心问题是建立一套切实可行的评价指标●1.查全率和查准率●2.误检率和漏检率●3.响应时间●其他与检索效果相关的指标●2.4.2影响信息检索效果的因素●1.标引的质量●2.检索途径的数量●3.检索策略的优劣●4.检索人员的素质。
信息检索初步知识点总结
信息检索初步知识点总结信息检索是指利用计算机系统来检索和获取文档或者信息资源的技术和方法。
在当今信息爆炸的时代,信息检索具有非常重要的意义。
信息检索系统可以帮助人们快速准确地获取所需要的信息资源,不仅可以提高工作和学习效率,还可以帮助人们更好地利用信息资源。
在信息检索中,有一些基本的知识点是非常重要的,下面我将对这些知识点进行总结。
1. 信息检索的概念和发展历史信息检索是指从信息库中按照一定的要求来搜索、检索信息的过程。
它主要是利用计算机技术来实现信息的存储、检索和利用。
信息检索的发展可以追溯到20世纪50年代,随着计算机技术的发展,信息检索技术也得到了很大的发展。
现代信息检索系统不仅能够实现文档的存储和检索,还可以实现自然语言处理、信息抽取、信息过滤等功能。
2. 信息检索的基本过程信息检索的基本过程包括信息需求分析、文档表示和查询处理、检索模型和算法、评价和反馈等几个方面。
其中,信息需求分析是整个信息检索过程的第一步,它包括对用户的信息需求进行分析和建模,确定用户的检索目标和检索词,为后续的检索准备工作做好准备。
文档表示和查询处理是指对文档和查询进行适当的表示和处理,以便计算机系统能够理解和利用。
检索模型和算法是指根据文档和查询的表示,计算出相关度得分,以确定文档的相关性。
最后,评价和反馈是指对检索结果进行评价和反馈,以优化检索系统的性能。
3. 信息检索的技术手段信息检索的技术手段主要包括文本索引技术、全文搜索技术、信息抽取技术、信息推荐技术等几个方面。
其中,文本索引技术是指将文档中的关键词进行索引,以便计算机系统能够快速地定位到相关的文档。
全文搜索技术是指利用全文索引进行搜索,可以实现对文档中所有内容的搜索。
信息抽取技术是指从文档中抽取出有用的信息,以便为用户提供更精确的搜索结果。
信息推荐技术是指根据用户的行为和偏好,为用户推荐相关的信息资源。
4. 信息检索的评价指标信息检索的评价指标主要包括召回率、准确率、F值、MAP值等几个方面。
信息检索考试大一下知识点
信息检索考试大一下知识点信息检索是指从大量的信息中快速找到满足特定需求的信息过程。
在大一下学期的信息检索考试中,通常会涉及以下几个知识点:一、信息检索基础概念1. 信息检索的定义和目的信息检索是指通过使用计算机技术,在海量信息中寻找到与用户需求相匹配的信息。
其目的是快速、准确地获取到用户所需的信息。
2. 检索模型和流程信息检索基于检索模型,常见的模型包括布尔模型、向量空间模型和概率模型。
检索流程一般包括问题建模、索引构建、查询处理和结果排序等步骤。
二、关键词检索1. 关键词的选择与组合在进行信息检索时,关键词的选择和组合非常重要。
关键词应该准确描述用户需求,并且能够尽可能覆盖相关领域的信息。
2. 布尔查询与逻辑运算符布尔查询是一种基础的检索方式,通过使用逻辑运算符(AND、OR、NOT)对关键词进行组合,从而获得符合用户需求的信息。
三、索引构建与检索技术1. 逆向索引逆向索引是一种常用的索引结构,它通过将文档中的每个单词与包含该单词的文档进行关联,实现了关键词到文档的快速定位。
2. 向量空间模型向量空间模型将文档和查询都表示为向量,在向量空间中进行计算,通过计算文档与查询之间的相似度来判断文档的相关性。
3. 布尔模型的实现与优化布尔模型的实现与优化涉及到倒排索引的构建与压缩、布尔运算的优化算法等方面的技术。
四、评价与改进1. 检索结果的评价对于检索系统的性能评价,一般使用准确率、召回率、F值等指标来衡量检索的有效性和完整性。
2. 改进方法与技术为了提升检索系统的性能,可以采用词干提取、查询扩展、排名算法优化等方式进行改进。
五、实际应用与发展趋势1. 商业搜索引擎与个性化推荐商业搜索引擎通过不断改进和优化信息检索技术,提供高效准确的搜索服务。
个性化推荐则基于用户的兴趣和行为,向用户推荐符合其需求的信息。
2. 大数据与信息检索随着大数据时代的到来,信息检索面临着处理海量数据的挑战。
如何有效地利用大数据技术来进行信息检索是当前的研究热点之一。
信息检索复习资料
信息检索复习资料一、名词解释1.信息资源——是指经过人类的选取、组织、序化等整理与开发后的信息的集合。
2.白色文献——是指公开出版发行的、通过正常渠道可以得到的常规文献。
3.数据挖掘——就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
4.检索策略——就是在分析课题内容实质的基础上,确定检索系统、检索途径和检索词,并科学安排各词之间的位置关系、逻辑联系和查找步骤等。
5.截词检索——是指在检索式中用专门的符号(截词符号)表示检索词某一部分允许有一定词形变化。
6.参考数据库——有时又称为书目数据库,是指包含各种数据、信息或知识原始来源和属性的数据库。
7.特种文献——是指出版发行和获取途径都比较特殊的科技文献,一般包括专利文献、会议文献、科技报告、学位论文、标准文献、政府出版物等文献类型。
8.学位论文——是高等院校或研究机构的学生为获得学位资格而提交并通过答辩委员会认可的学术性研究论文,它是随着学位制度的实施而产生的。
9.科技报告——是关于某科研项目或活动的正式报告或记录,多是研究、设计单位或个人以书面形式向提供经费和资助的部门或组织汇报其研究设计和开发项目的成果进展情况的报告。
10.电子图书——是指以电子文件形式存储在各种磁性或电子介质中,以磁盘、光盘、网络等电子媒体形式出版发行,通过计算机或便携式阅读终端进行阅读的一种新型数字化书籍。
11.电子报纸—多媒体技术、网络技术和通信技术的产物,是指在排、印、投递等方面基本上实现了电子化的报纸。
12.参考工具书——是指根据人们的需要,把某一范围的知识或资料加以分析、综合或浓缩,并按一定的排检方法编排,以备查阅、参考,用以解决有关事实和数据方面的疑难问题的图书。
13.年鉴——是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料,提供详尽的事实、数据和统计数字,反映近期政治、经济发展的动向及科学文化进步的年度出版物。
信息检索知识点
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进展相符性比较,但凡信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,那么具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体.检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进展标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进展标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进展比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法〔1〕顺查法〔2〕倒查法〔3〕抽查法〔4〕追溯法〔5〕循环法5.信息检索的途径〔1〕部特征途径a)分类途径b)主题途径〔2〕外部特征途径a)题名途径b)著者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:〔1〕简单,形式简洁,易于理解;〔2〕可操作性强,应用广泛;〔3〕构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常准确的语义概念;〔4〕能处理构造化提问。
缺点:〔1〕表达用户复杂需求效果欠佳〔2〕准确匹配无法提供定量比较〔3〕匹配标准不尽合理〔4〕检索结果不易控制7.概率排序原那么:如果一个检索系统对用户的每个检索提问的反响是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
8.什么是计算机信息检索.所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那局部信息的过程。
信息检索基础知识
第一章信息检索基础知识一.概述1.信息与文献信息知识的分类:已掌握的知识和需查询的知识。
信息的定义:信息是事物运动的状态与方式,是物质的一种属性,并且借助于一定的物质载体传输和储存。
这里有几个词组需说明:事物:泛指一切可能研究的对象(包括物质的和精神的)。
运动:泛指一切意义上的变化(机械运动、化学运动、思维运动和社会运动)运动方式:在时间上所呈现的过程和规律:运动状态:在空间上所展示的形状和态势。
信息已成为与物质、能量同样重要的三大资源之一。
信息是一种原料,人类接受外界大量信息后,经过实践活动和大脑的思维机制加工提炼后变成有用的知识(知识的认识程度)。
文献:将知识记录并保持在一定的载体上,就形成了文献。
文献信息是文献所表达的内载信息,以文字、符号、声像信息为编码的人类精神信息,也是经过人们筛选、归纳和整理后记录下来的信息。
科技文献是科学技术研究成果的记录,积累了许多有用的事实、数据、理论、方法和科学假设,反映了科学技术研究的进展和水平,是科学信息的主要来源。
2.信息的特点(1)普遍性;信息是无处不在,无时不在的,c从宏观的宇宙天体到微观粒子,从自然界到人类社会,万事万物都是信息的母体;(2)时效性:信息的获得和传送需要时间,信息反映的总是特定时刻事物的运动状态和方式,当人们获得信息后,它反映的是某段时间的事物,是一种历史纪录,如果传递很慢,信息就会失去应有的价值;(3)传递性:指信息的空间和时间效应,信息可以从一个地方传到另一个地方,从一个时期传到另一个时期;信息的传递决定了信息的可扩散性,信息是通过各种渠道、媒介传播和扩散;(4)共享性:信息在传播和使用的过程中,载体本身的信息并不因此而减少,信息资源的共享将极大地推进人类文明的发展;(5)可转换性:信息的物质载体形态是可以相互转移变换的;信息在一定条件下可以转化为物质、能量、时间、金钱、效益、质量等;(6)可伪性:在人们得到信息后,必须进行分析判断和筛选,以便正确享用信息。
大一信息检索与利用考试知识点
大一信息检索与利用考试知识点信息检索与利用是信息科学与技术专业的一门重要课程,旨在培养学生对信息资源进行系统化检索和有效利用的能力。
本文将介绍大一信息检索与利用考试的相关知识点,帮助同学们更好地复习和备考。
一、信息检索基础知识1. 信息检索的定义和基本原理信息检索是指从大量信息中查找和获取所需信息的过程。
其基本原理包括信息需求分析、信息储存与组织、信息检索模型、检索评价等。
2. 关键词的选择和搜索策略在信息检索过程中,关键词的选择和搜索策略起着至关重要的作用。
学生需了解如何选择合适的关键词,并掌握常用的搜索策略,如布尔逻辑检索、通配符检索和短语检索等。
二、信息资源与检索1. 图书馆资源的检索与利用学生需熟悉图书馆资源的分类和编目规则,掌握常用图书馆资源的检索方法,如OPAC检索和图书馆数据库检索等。
2. 学术搜索引擎的使用学生需要了解学术搜索引擎的特点和使用方法,如Google学术、谷歌学术和百度学术等。
掌握高效的检索技巧,如使用引号搜索、高级搜索和文献引用等。
三、文献检索与阅读1. 文献检索的方法和工具学生需了解文献检索的常用方法和工具,如在线数据库检索、文献溯源和文献导航等。
可以根据具体需求选择合适的检索途径。
2. 文献综述的撰写和细节要求学生需要了解文献综述的撰写规范和细节要求,包括引言、方法、结果和讨论等部分的写作技巧和注意事项。
四、信息利用与知识管理1. 信息评估和筛选学生需要学会评估信息质量,判断信息的可信度和适用性,并掌握信息筛选和整理的方法,提高信息利用的效果。
2. 知识管理的基本理论和方法学生需了解知识管理的基本理论和方法,掌握知识管理工具的使用。
熟悉知识流程的各个环节,并学会运用相应的工具进行知识管理。
五、信息检索与利用的伦理问题1. 信息隐私和数据保护学生需了解信息检索与利用过程中产生的隐私问题和数据保护的重要性。
遵守信息伦理规范,保护用户隐私和信息安全。
2. 信息获取和版权保护学生需要了解信息获取的合法途径和版权保护的相关法律法规,学习在信息检索与利用过程中正确引用他人作品的方法和原则。
信息检索基础必备知识点
1、信息检索的定义:是指将信息按一定的方式组织和存储起来,并根据信息用户的需求找出相关的信息的过程和技术。
信息检索的作用:a:节省查找文献的时间。
b:有利于文献专题查找。
c:克服语言障碍。
2、信息:所有事物的存在方式和运动状态以及关于所有事物的存在方式和运动状态的陈述。
信息的特征:普遍性、客观性、抽象性、依附性、可加工性、传递性、共享性。
信息的作用:(1)信息是人类社会生存的条件,信息是人类社会发展的资源(2)信息是主客体的中介,信息是思维的材料(3)信息是组织的保证,信息的管理的基础(4)信息是决策的依据,信息是控制灵魂文献的特点:(1)数量急剧增长(2)内容交叉重复(3)专业文献出版分散(4)文献老化加快(5)文献语种繁多(6)文献载体形态增加文献类型:(一)按照载体的形式不同,文献可分为:1、印刷型2、缩微型3、声像型4、电子型(二)按照内容、性质和加工深度的不同,文献可分为:1、一次文献2、二次文献3、三次文献4、零次文献(三)根据性质、特点和出版形式的不同,文献可分为:1、科技图书2、科技期刊3、科技报告4、政府出版物5、会议文献6、专利文献7、学位论文8、标准文献9、科技档案10、产品样本a、主题语言主题检索语言是用语词来表达文献主题概念,它不管各语词之间相互关系如何,一律按字顺排列成主题词表,故称主题检索语言。
分为标题词语言、关键词语言和叙词型语言三种。
○2关键词语言:由于关键词语言能适应使用计算机的需要,因而大大加速了文献标引过程,缩短了检索工具出版的时间,便于用来检索最新文献,大大增加了检索点,使用灵活方便。
查准率和查全率较低。
○3叙词型语言:用途较广,既适合于手工检索,又适合计算机检索语言。
6、信息检索的途径:书名途径,著者途径,序号途径,分类途径,主题途径。
7、信息检索方法:(一)常用法所谓常用法,顾名思义是检索中最为常用的方法,指利用成套的检索工具检索文献信息的方法,也称之为工具法。
信息检索重点
一、信息检索四要素1、信息检索的前题:信息意识2、信息检索的基础:信息源3、信息检索的核心:信息获取能力4、信息检索的关键:信息利用二、信息基本特征:普遍性、客观性、扩散和传递性、增值性(创新)、可存贮性和可压缩性、可知性(信息能力)和共享性知识属性:意识性、信息性、实践性、继承性、渗透性情报属性:针对性、知识性、时间性、传递性、效用性信息、知识、情报的关系:信息经过人脑思维加工,即认识飞跃产生知识,情报属于知识的范畴。
广义的情报是信息的传递,因此,情报具有信息和知识两种性质。
三、按载体不同分为:口头信息源、实物信息源、文献信息源四、文献信息源:1、按出版形式不同可分为十种类型:图书、期刊、科技报告、会议文献、政府出版物、专利文献、标准、产品资料、学位论文、技术档案2、按记录信息的材料可分为三种类型:纸印本文献、缩微型文献、机读型文献3、按加工深度不同可划分为四种:零次文献、一次文献、二次文献、三次文献四者之间的关系:从零次文献到三次文献,是一个从分散的原始文献加工整理系统化的过程。
零次文献是一次文献的素材,一次文献是基础,是检索的对象;二次文献是检索一次文献的工具;三次文献是一次文献的浓缩,是情报信息的重要来源。
五、信息检索系统类型:⑴根据检索目标和检出文献信息形式的不同:文献检索、数据检索、事实检索⑵根据具体检索手段不同:手工检索、机械检索六、检索步骤:分析研究课题确定检索范围和检索标识选定检索工具确定检索途径查找和获取原始文献七、信息检索的方法:⒈常用法:是利用检索工具查找文献的方法.⑴顺查法⑵倒查法⑶抽查法⒉追溯法:从已知的现有文献后所列参考文献入手,逐一追查原文,从这些原文后所列参考文献再逐一追查,不断扩检的查找方法⒊循环法:指追溯法常用法混合使用的方法。
八、信息检索的途径:⒈根据外表特征划分著者途径;书名、篇名、刊名途径;序号途径⒉根据内容特征划分分类途径(SA、Ei);主题途径(SA、Ei);分子式途径(CA)九、文献检索的一般步骤:1、分析研究课题2、确定检索范围与检索标示3、选择检索工具4、确定检索途径5、查找和获取原始文献检索途径与方式:初级检索:默认的检索方式高级检索:两种检索方式组合使用,如“篇名”和“著者”。
信息检索原理期末重点背诵知识点
信息检索原理期末重点背诵知识点信息检索1、信息检索概念:P12、信息检索的原理⼀整节内容要⾃⼰理解:P3-P4图1-1要掌握⽂献替代和⽂献整序的概念要掌握3、信息检索在历史上的不同表现:联机检索、光盘检索、⽹络检索的区别和特征:P6-P94、信息检索的模型概念:P95、布尔模型、向量空间模型、经典概率模型要理解并掌握各⾃的优缺点:P11-P126、信息检索系统的概念:P127、检索效果的评价指标:P15-P164个指标:查全率、查准率、漏检率、误检率掌握它们的含义并懂得计算8、⽹络检索的表达式:布尔逻辑检索、邻近检索、短语检索、截词检索的特点、区别和联系:P17-P219、信息检索的技巧要理解尤其是要掌握及时调整检索策略:P33-P3610、搜索引擎的概念:P3711、数据库知识,实验内容,特点12、引⽂的概念13、搜索引擎的分类:P40-41搜索引擎划分的类别以及元搜索引擎的概念要掌握12、CBR概念 P11312、多媒体信息检索的原理和⽅法:P110-P114其中要重点理解基于内容的多媒体信息检索的检索形式(可以结合课件)13、专利的概念:P12514、专利的类型:P126(理解⼀下各类型的区别)15、专利⽂献的概念:P12716、专利⽂献的类型:P127(理解⼀下各类型的区别)17、灰⾊⽂献的概念:P14718、会议⽂献的概念:P15819、科技报告的概念:P16320、查新的概念:P20021、科技查新的作⽤:P201(每⼀个⼩标题后⾯要⾃⼰展开⼀段)关于上课讲的那⼏个数据库⼤家⾃⼰看⼀下PPT,掌握⼀下。
以上纯属个⼈观点题型:名词解释:5*4=20简答题: 4*10=40论述题: 2*20=40考试时间:1⽉8⽇上午:9:00—11:001.信息检索的概念 (P1)信息检索有⼴义和狭义两重含义。
⼴义上说,信息检索是指将信息按照⼀定的⽅式组织和存储起来,并根据信息⽤户的需求查找相关信息的过程。
大一信息检索知识点总结
大一信息检索知识点总结信息检索是指通过计算机技术和各种检索方法,从大规模文献资源中快速、准确地获取用户所需信息的过程。
在大一学习信息管理与信息系统专业的过程中,我们需要了解一些关键的信息检索知识点。
本文将对大一信息检索的相关知识进行总结,帮助同学们更好地理解和掌握这一领域的基础知识。
一、信息检索的基本概念与原理(1)信息检索的定义:信息检索是指根据用户的需求,在文献、数据库和其他信息资源中寻找与之相符合的信息的过程。
(2)信息检索的基本原理:包括索引构建和检索处理两个阶段。
索引构建阶段将信息资源进行结构化整理,并建立相应的索引表;检索处理阶段通过用户提供的检索词,结合索引表,通过匹配算法找到与之相关的信息资源。
二、信息检索的关键技术(1)词项选择与权重计算:根据用户需求,选择合适的检索词,并使用权重计算方法为词项赋予合适的权重,提高检索效果。
(2)检索模型:包括布尔模型、向量空间模型和概率模型等不同的模型,用于描述检索系统中信息资源与用户需求之间的匹配关系。
(3)评价指标:用于评价检索系统的性能,常见的指标包括召回率、准确率以及F值等。
(4)查询扩展:通过对用户查询词进行扩展,提高检索系统的召回率和准确率。
三、信息检索的常用工具和技术(1)搜索引擎:如百度、谷歌等,通过互联网收集、分析并索引网页信息,为用户提供搜索服务。
(2)数据挖掘:通过对大规模数据进行模式识别和深入分析,挖掘其中有价值的信息,为决策提供支持。
(3)文献管理工具:如EndNote、NoteExpress等,用于管理、组织和检索学术文献。
(4)信息可视化技术:通过可视化手段,将海量的信息以直观的方式展示给用户,提高信息的理解和使用效率。
四、信息检索的应用领域(1)图书馆信息服务:包括文献检索、馆藏资源管理、读者咨询等。
(2)企业信息管理:包括企业知识管理、产品信息检索、竞争情报等。
(3)科学研究与学术交流:通过信息检索工具,快速获取相关领域的最新研究进展和学术成果。
信息检索知识点范文
信息检索知识点范文信息检索是指从大量的信息中找到与用户需求相关的信息的过程。
以下是信息检索的一些重要知识点:一、信息需求分析:1.了解用户需求:包括明确用户的信息需求,了解用户的背景和需求的具体要求。
2.制定信息策略:确定的关键词、限定范围、排除冗余和无关信息的策略。
二、信息源:1.内部信息源:组织内部的数据库、档案等。
2.外部信息源:包括互联网上的网页、文档、图片等。
三、信息检索模型:1.自动索引:使用关键词或主题对文档进行描述和索引,并建立索引词表,方便用户检索。
2.布尔模型:将检索式表示为逻辑表达式,利用逻辑运算符对检索词进行组合,实现精确的文档检索。
3.向量空间模型:通过计算文档和查询的向量空间相似度,将文档按相关性排序。
4.概率检索模型:通过统计分析文档和查询的概率模型,计算文档的相关性概率。
5.链接分析模型:根据页面之间的链接关系和链接的权重等信息来评估页面的相关性。
四、检索评价:1.检索精度:通过计算检索结果的相关文档和非相关文档的比例,来评估信息检索系统的精确性。
2.检索效率:评估信息检索系统执行查询的速度和资源消耗程度。
3.检索一致性:评估系统在连续多次查询时的稳定性和一致性。
五、信息检索技术:1.关键词:通过输入关键词进行检索,系统会返回与关键词相关的文档。
2.高级:包括利用限定符进行、布尔逻辑、通配符等。
3.相关性反馈:根据用户的反馈信息,调整检索结果的排序,提高检索的准确性。
4.语义分析:通过对查询语句和文档的语义进行分析,找到语义上的相关性。
5.分布式检索:将索引和查询分发到多个节点上进行检索,提高速度和可靠性。
六、信息检索系统的应用:1. 网络引擎:例如Google、百度等,为用户提供互联网上的信息服务。
2. 文献检索系统:用于科研人员查找相关文献,例如PubMed、IEEE Xplore等。
3.图像检索系统:通过图像的内容特征进行检索,例如相似图片、人脸识别等。
4.音乐、视频检索系统:通过音乐或视频的特征进行检索,例如识别歌曲、相似视频等。
信息检索知识点
计算机检索1.信息素养信息素质、信息能力:作为具有ILinformation literacy能力的人;必须能够充分地认识到何时需要信息;并有能力去有效地发现、检索、评价和利用所需要的信息;从而具有终身学习的能力;总能够为任何任务和决策找到所需信息..2.信息检索广义:指将信息按照一定的方式组织和存储起来;并根据信息用户的需要找出有关信息的过程和技术..包括存储和检索两个过程..狭义:从信息集合中找出所需信息的过程..信息查找Information Search;Information Seeking2.1信息现状分析1信息爆炸导致文献量急剧增加;内容相互渗透;语种增多;文献分布异常分散;文献寿命愈来愈段;2由于条件限制;人们吸收和利用信息的能力并未得到相应的提高.. 3.检索的作用1促进智力资源的开发;2协助管理者做出正确的决策;3帮助科研人员借鉴前人的研究成果;避免重复劳动;4信息检索是知识更新的手段..4.数据库类型1:作为图书馆数字资源的数据库特指为科学、教学、学习所需各种参考资料的集合;以数据库的形式管理和利用..自建数据库:馆藏目录OPAC;本校学位论文数据库..商业性数据库:数据库商、出版商和其他机构以商业化方式提供的各种电子资源;图书馆需要支付一定的费用购买数据库的使用权再提供给一定的读者群..免费数据库:开放获取资源、机构典藏和其他免费的网络资源..5.数据库类型2从收录文献的内容分;有综合性数据库和专业性数据库之分;从收录文献的类型分;有图书数据库、期刊数据库、学位论文数据库、报纸数据库、会议文献数据库、专利文献数据库、标准数据库等;从提供文献的形式分;有全文数据库、文摘数据库、引文数据库;各数据库举例:专业数据库:Petroleum AbstractPA、EnCSciFinder SchoiarCA综合性数据库:读秀、Scopus、EI、SCI特定文献类型;如图书、期刊、学位论文等:超星、EIsevier ScienceDirect、PQDT全文数据库:CNKI、维普、SPE摘要性数据库:EI、PA引文数据库:Web of Science、CSSCI中文社会科学引文索引6.Science Citation Index ExpandedSCI-E是个什么样的数据库它是ISI检索平台中Web of Science核心合集中的一个子库它是一个摘要型数据库它是一个引文数据库它是一个期刊数据库它收录的学科范围包括科学、技术的各学科7.查文献应该如何选择数据库学科专业:有专业型数据库时;首选专业型数据库;数据量:选择数据量大的;文献类型:根据研究的需要..如果仅需要某种文献;最好选择该类型的子库;检索功能:准确性高、易用、检索结果的处理能力;分析功能第三章信息资源的分类8.信息存贮载体:印刷型、缩微型、声像型、机读型9.根据加工程度划分零次文献:口头信息、未公开发表的文字资料手稿、书信、笔记等;时效性强;大量而无序;一次文献:期刊论文、专利文献、科技报告、会议录等;研究人员最终索取的文献;二次文献:检索工具:如SCI、EI、CA、PubMed/Medline三次文献:选用大量有关的文章;经过综合、分析、研究而编写出来的文献;如:综述、评论、评述、进展、动态等;研究人员最终需要的文献..科研人员与科学信息的获取和利用:研究人员的文献平台可以由二次文献作为入口;满足整体的需求;然后;通过这个入口来获取有用的高质量的全文期刊一、三次文献来满足纵深对的研究需要..10.根据文献编辑出版的特征和范围划分11科技图书BooksMonograph;Anthology;Textbook;Reference book:内容系统成熟可靠;新颖性较差;学习;教育之用..2科技期刊 Periodical Journal;magazine;serial:数量大;覆盖面广;内容新颖;及时;交流;影响广泛;信息价值高..3报纸Newspaper:出版周期更短;获取实事性、政策性信息..4政府出版物Government Publications:源自官方、权威、可靠、价廉;可获取政策性、法规性及科技信息..5科技报告Sci/Tech Report:反映前沿科技、内容新颖、有密级控制..如:美国政府四大科技报告:PB;AD;NASA;DOE报告..6专利文献Patent Document;Patentspecification/bulletin/aids:类型有:专利说明书、专利公报、专利分类表、专利文摘等检索工具..反映新的技术发明;是重要的技术、经济信息源..7会议文献Conference paper;Proceedings:会议论文集;回忆录;会议资料等;反映最新成果;最新动向;高水平;前沿发展动态..8学位论文Dissertations\Thesis;内容专深;非卖品;有较高学术参考价值..9标准文献Standards:反映成熟技术;掌握技术政策;技术水平;可供研究新产品;改造老产品;改进工艺和操作水平是借鉴..10产品资料:形象、直观、新颖、可了解工业水平、产品发展、市场动态等..11广告Advertisement:可及时把握竞争对手最新推出的产品品种;市场卖点..准确掌握个地区市场的广告竞争态势..12技术档案和图纸:技术性;适用性;保密性..11.检索语言:根据检索需求而编制的检索系统存储与检索共同使用的人工约定语言..分类:体系分类语言、标题词语言、关键词语言、叙词语言.. 12.检索途径:又称检索点;指利用信息的各种内外特征;作为检索出发点;从不同角度来检索信息..有:分类Classified:所属学科分类主题Subject:所属主题内容、关键词着者Author:团体着者Corporate Author名称;题目Title代码Code13.基本运算符1逻辑算符“与”:and 或例:telecommut and productiv逻辑算符“或”:or 或 +例:computer or microcomputer逻辑算符“非”:not 或—例:aspartame not beverage14.基本运算符2:截词符用于解决一些词干相同、词义相近、但词尾或词头不一致的派生词如有同一词根派生出的名词、动名词、动词、形容词、副词等;或名词的单、复数形式;或痛一次的英美不同拼写形式等词的一次输入..PQD平台的截词符用、和$表示..截词符 Nurse —nursed/nurses ad—added/adult/adopt用于替换某个字词中间或结尾的任何一个字符;不能代表没有字符..截词符 control—control/controlled/controlling 代替0-10个字符截词符$ $5beat—Upbeat/offbeat/heartbeat 限定截词符用$n表示;代替0-n个字符..15.基本运算符3:位置算符P/n、N/n用于限定词与词之间的位置关系;以提高查准率..当检索词为词组形式时;或两个检索词之间可能被禁用词或标点符号隔开时;均应使用位置算符..P/0 两个单词中间有一个空格或一个字符;在文献中出现的前后位置不能互换..Polar P/0 embedded可检索到:polar-embedded或polar embedded P/1 两个单词中间可能有0-1个单词;在文献中出现的前后位置不能互换..位置算符P/n与位置算符N/n的用法近似;区别在于前后单词是可以互换的..16.PQD检索词自动匹配在PQD中检索时;系统会自动匹配单词的单复数;英美拼写变体;形容词比较级最高级等形式..17.短语检索:“”双引号检索短语在PQD中可把短语放在引号内进行精确短语检索;但这种检索方式不能自动匹配..在PQD中;空格默认为逻辑算符and..18.字段检索格式:字段名检索词或检索式AUsmithand TIfood:检索标题含有food;作者含有smith的文章..多个字段检索时;字段与字段之间用逗号隔开AB;TIfood:检索标题含有food或者摘要含有food的文档..PQD中;检索式常用限制字段为TI;AB;SU;IF..PQD中的主题词SU字段是系统标引的独立字段..19.检索策略:指为实现检索目标而制定的检索计划和方案..检索式是检索策略的具体体现;是指计算机检索中用来表达用户检索提问的逻辑表达式;通常由检索词和各种逻辑算符、截词符、位置算符以及系统规定的其他连接符号等构成..20.检索的基本步骤1分析检索课题;明确检索要求;确定检索的主题内容、范围等2确定检索概念3选择表达概念的检索词选择所有不同的能够表达检索概念的词使用截词检索各种词尾变化的词使用位置算符指定词组或词间的相对位置关系4)使用逻辑算符组配检索概念;拟定检索表达式5)选择恰当的数据库6)上机检索21.获取全文的方法全文链接按钮、全文数据库、馆际互借、图书馆文献传递、免费全文网站、提供免费全文的期刊;作者E-mail联系或作者主页..22.检索策略的优化方法1扩大命中文献量的方法1选择其他同义词、相关词、上位词2去掉一个不太重要的检索信息3将限制严谨的位置算符改为较宽松的位置算符;或通过and算符代替位置算符4取消某些限制过严的后缀符、限制符等5增加检索途径;将主题途径与非主题途径结合起来使用 6利用截词技术;检索所有相同词干的词7用E指令扩词以核实拼写8选择其他数据库进行检索23.检索策略的优化方法2缩小命中文献量的方法1提高检索式的专指度;增加或换用下位词和专指度较强的词2增加一个检索概念3将检索式中的and算符改为位置算符;或将较宽松的位置算符改为更严谨的位置算符4使用后缀限制;将检索词限制在基本索引的“重要”字段中;如规范词字段或题目字段5用辅助索引的某些字段与主题索引组结合限制检索范围6截词使用不当24.三大检索系统概况SCIScience Citation IndexSCI-EScience Citation Index Expanded科学引文索引SSCISocial Science Citation Index社会科学引文索引A & HCIArts & Humanities Citation Index艺术与人文引文索引CPCIConference Proceedings Citation IndexCPCI-SConference Proceedings Citation Index-Science科学会议CPCI-SSHConference Proceedings Citation Index-Social Science Citation Index社会科学与人文艺术会议EIThe Engineering Index工程索引25.三大检索系统收录质量区别SCI最能反映基础学科研究水平和论文质量检索系统收录的科技期刊比较全面集中各学科高质量优秀论文的精粹成为世界科技密切注视的中心和焦点CPCI、EI这两个检索系统评定科技论文和科技期刊的质量标准相对要宽松CPCI是一种综合性的科技会议文献检索刊物;该检索工具收录包括自然科学、技术科学以及历史与哲学等;覆盖的学科范围广;收录会议文献齐全;而且检索途径多;出版速度快..易成为了检索全世界正式出版的会议文献的主要的和权威的工具..26.临近算符NEAR/x :NEAR代表所链接的两个词之间的词语数量小于等于N;默认的使用Near的缺省值是15..SAME:要求两个检索词是在一个检索字段中..Yale SAME hosp27.利用WOS强大的分析功能Web of Science数据库中可以对检索结果按照以下方式进行研究:按照作者分析:了解某个研究的核心研究人员是谁;按照国际和地区分析:了解核心研究国是哪里;按照文件类型分析:了解该研究通常以什么途径发表;按照机构名称分析:了解有哪些机构在从事这项研究;按照语种分析:了解该研究是以什么语种发表的;按照出版年分析:了解该研究的发展趋势;按照期刊标题分析:了解该研究通常发表在哪些期刊上;按照学科分类分析:了解该研究设计了哪些研究领域..28.检索方式选择EI Compendex Web的主要检索方式有三种:快速检索Quick Search——系统默认界面专家检索Expert Search词表检索Thesaurus Search此外;还有浏览检索Browse Indexes等其它辅助检索工具..29.检索表达式的构造逻辑运算符AND;OR;NOT:逻辑运算符的运算优先级别相同;自左向右..字段限制符wn 字段码:window wn TI AND sapphire wn TI短语检索“检索短语”或者 {检索短语}截词运算符词根检索$:$management 可查 manage;managed;manager; Managers;managing等..30.浏览索引浏览索引可帮助用户选择合适的检索词;在快速检索和专家检索中都提供浏览索引功能;在快速检索中有作者、作者单位、刊名、出版社和Ei受控次的浏览索引;在专家检索中还增加了论文类型、文献类型和语言的浏览索引..由于Ei Compendex 以不同的格式引用作者的姓名;所以特别建议用户在检索时使用作者浏览索引..31.结果浏览可以在结果浏览中浏览命中记录的文摘信息Abstract—系统默认格式和详细信息Detailed Record可以改变记录的排列顺序可以获取记录的全文和链接图书馆馆藏可以进行组合检索可以回顾检索历史、保存检索策略、保存检索结果、通过E-mail发送最新文献的点子通告等32.小结Ei Conpendex使用的平台是Engineering Village;uong检索收录或文献时;注意选库..Ei用于检索工程领域的二次文献..检索方法有快速检索、专家检索和词表检索;建议初学者采用快速检索的方法..注意采用该数据库特有的浏览器索引功能;可使检索结果更准、更全..33.专利类型发明专利:是指对产品、方法或其改进所提出的新的技术方案..实用新型专利:是指对产品的形状、构造或其结合多提出的适于使用的新技术方案..外观设计专利:是指对产品的形状、团或者其结合以及色彩与形状、图案的结合所做出的富有美感并适于工业应用的新设计..34.专利的特点专有性:是指专利权人对其发明创造所享有的独占的制造、使用、销售和进口的权利..地域性:一个人/国家依照其本国专利法授予的专利;在该国法律管辖的范围内有效;对其他国家没有任何约束力;外国对其专利权不承担保护义务..时效性:对于专利的保护期限;各国的规定不尽相同..我国专利法规定:发明专利、实用新型专利以及外观设计专利的保护期限自申请日起分别为20年、10年、10年..。
信息检索复习要点
复习要点1.什么是原文出处?获取文献全文的途径有哪些?搜索引擎,本馆资源,全国范围内的纸本馆藏,申请图书馆的文献传递2.检索词的选择对查全率的影响(切分、删除、扩展)。
切分是对课题的语句以词为单位进行拆分,转换为检索的最小单元。
删除是对课题中不具有实质性检索意义的:虚词(如介词、连词、副词等)选择性删除:使用频率较低的词、专指性太高、过分宽泛的词、过分具体的限定词扩展:找到意思相同或相近的词汇;立足规范词,兼顾自由词;注意词的全称、简称及缩写字母;必要时应向上下位类词扩检;外来词的译写变化3.检索字段对查全率、查准率的影响。
可分为基本检索字段和辅助检索字段。
基本检索字段是指反应文献内容特征的字段。
如题名、文摘、主题词等。
辅助字段是指反应文献外部特征的字段,如作者机构、来源出版物、出版年等。
限制范围大小:题名<关键词≈摘要<(主题)<全文截词检索是防止漏检,提高查全率的一种常用检索技术,主要用于英文电子资源的检索。
用*或?表示。
不同检索系统使用的截词符种类和功能不同。
截词是在检索词的适当位置进行截断,节省输入的字符,达到较高的查全率。
根据截词符在检索词中的位置,可分为前截词、中截词和后截词。
常用的词位检索有:邻位检索和字段检索4.每个数据库的检索技术以和所使用到得符号,以及这些检索技术对查全查准率的影响。
概念交叉或概念限定关系:数据库中使用符号“* ”或“AND ”搜索引擎中使用“空格”表示,增强了专指度,提高了查准率。
具有概念并列关系的组配:数据库中使用符号“+ ”或“OR ”搜索引擎中可在关键词之间使用“OR”连接符,对于百度是用的“| ”连接符,注意连接符与搜索词之间必须要有空格。
扩大检索范围,提高了查全率。
具有概念排除关系的组配。
数据库中使用“- ”或“NOT ”搜索引擎中使用“- ”,注意前一个关键词和减号之间必须有空格,减号和后一个关键词之间,有无空格均可。
提高查准率,影响查全率检索技术:1.布尔逻辑2.同义词、同名作者检索3限制检索检索方式:传统检索,基本检索,高级检索,期刊导航5.什么是ISSN号。
信息检索知识点
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)著者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
8.什么是计算机信息检索?所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。
信息检索的基本知识
信息检索的基本知识
信息检索是一种重要的技术,它用于从大量的数据中提取所需信息。
以下是一些信息检索的基本知识:
•索引:信息检索的首要步骤是构建索引。
索引是一个按关键字组织的数据结构,用于快速定位和访问文档。
•关键字:关键字是进行信息检索的基本单位。
它们可以是单个词或短语,根据检索目的和搜索引擎的功能来确定。
•搜索引擎:搜索引擎是信息检索的核心工具。
它利用索引和算法来找到与用户查询相关的文档,并按相关性排序。
•查询:用户通过查询向搜索引擎提供信息需求。
查询可以是简单的关键字、短语,也可以是复杂的语句。
•相关性:搜索引擎根据文档与查询的匹配程度计算相关性。
相关性分数用于确定排名,从而决定返回给用户的搜索结果顺序。
除了以上基本知识,信息检索还涉及更多高级技术:
•倒排索引:倒排索引是一种常用的索引结构,它将关键字映射到包含这些关键字的文档列表中,以支持快速的搜索。
•词频和权重:搜索引擎通常根据关键字在文档中出现的频率和位置,以及其他因素来计算关键字的权重。
•自然语言处理:信息检索利用自然语言处理技术来理解用户查询和文档内容,以提高搜索效果。
•评估和优化:为了提供更好的搜索结果,搜索引擎需要不断评估和优化算法,以适应不断变化的用户需求和文档集合。
总结起来,信息检索是一门复杂而关键的技术,它在数字化时代具有重要意义。
了解信息检索的基本知识对于学习和使用搜索引擎、开发相关应用都非常有帮助。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)著者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
8.什么是计算机信息检索?所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。
实质上计算机信息系检索是利用计算机信息检索系统存储和查找信息的技术,是计算机硬件资源、系统软件、检索软件和数据库的综合。
9.计算机信息检索的类型:(1)根据检索系统的工作方式,可分为:a).脱机信息检索脱机信息检索是利用单台计算机的输入装置进行检索的系统,用磁带作为存储介质,并且为连续的顺序检索方式,适合大批量的定题信息检索。
b).联机信息检索联机信息检索是利用计算机终端设备,通过通信线路或网络,与世界上的信息检索系统相连,从信息检索系统的数据库中进行检索并获取信息的过程。
联机检索模式是主从式,即为所有的工作都在主机上进行,主机负担重,一旦主机瘫痪,整个系统都将处于瘫痪状态,因此对主机的性能要求极高。
c).光盘信息检索d).网络信息检索(2)根据信息的服务方式,可分为:a).定题检索定题检索是用户根据课题的要求,事先编写出逻辑检索提问式,并将存储在计算机的存储器中,每次系统加入新的信息,系统便会按检索要求,找出用户所需的资料,并把结果分给用户,用户能及时得到最新的文献信息。
具有定期性、新颖性和批处理性的特点。
b).回溯检索回溯检索是追溯查找过去的信息,让用户一次检索一段时间内与某一课题有关的信息。
也可以查找最新的信息,可以适应多数用户的查询需要。
c).日常检索10.计算机信息检索技术初级检索6个1)布尔逻辑检索2)位置限制检索3)短语检索4)截词检索5)字段限制检索6)区分大小写检索11.计算机信息检索技术高级检索6个1)加权检索2)自然语言检索3)相关信息反馈(相似检索)4)概念检索5)模糊检索6)聚类检索布尔逻辑检索(1)逻辑与用AND或*表示检索式写作A AND B或A *B(2)逻辑或用“OR”或“+”表示(3)逻辑非用NOT 或—表示 A NOT B (A当中除去B所剩下的)字段名称及缩写AB abstract TI title AU author JN journal nameLA language PY publication year SP source publication分类和聚类的异同相同点:基于“类”的思想进行检索。
不同点:(1)分类基于分类法,其类目体系主要是先组式,有系统性的。
类目与文献之间具有相对独立性。
而聚类则先有文献后聚类,类的性质及整体类目体系完全由系统中的文献决定。
(2)从类目形成过程看,分类是总到分,聚类由分到总。
会构建检索式(主要是积木型)12.计算机信息检索策略含义狭义的计算机信息检索策略是指检索提问式的构建,即运用系统特定的检索技术,确定检索词之间的逻辑关系,形成表达用户信息需求的检索提问式。
广义的计算机信息检索策略是指在分析检索课题的实质内容和明确检索目标的基础上,选择检索工具,确定检索途径与检索用词,以及检索词之间逻辑关系与查找步骤最佳方案的一系列科学安排。
13.计算机信息检索策略类型(即联机检索五原则)(1)最专指面优先:从最专指的概念入手(2)最低登录量面优先(3)积木型(重点掌握,会构建此检索式)(4)引文珠型增长(5)逐次分馏14.网络信息资源的评价方法:(1) 定性评价法:是指按照一定的评价标准从主观角度对网络信息资源所做的优选和评估,主要有指标体系法和调查表法。
(2) 定量评价法:国内外比较典型的定量评价方法有信息计量法、层次分析法和对应分析法等三种。
(3) 综合评价法:是定性评价和定量评价相结合的一种方法,有包括分析法、模糊综合评价法等。
(4) 分类方法:分为第三方评价法、用户评价法和网络计量法。
15.搜索引擎的类型:(1) 按检索机制划分:检索型、目录型和混合型检索工具(2) 按检索内容划分:综合型、专题型和特殊型检索工具(3) 按包含检索工具数量划分:单独型和集合型检索工具(4) 按检索资料类型分:万维网检索工具和非万维网检索工具16.元搜索引擎的含义所谓元搜索引擎,是对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作。
17.元搜索引擎的特点:(1) 虚拟索引数据库(2) 查全率高(3) 用户界面友好(4) 适宜二次加工(5) 扩展性好18.元搜索引擎的工作原理19.实现跨语言信息检索的方法:(1)提问式翻译方法(2)文献翻译方法(唯一结果是源语言描述)(3)提问式—文献翻译方法(将查询语言提问式翻译成目标语言提问式,与目标语言描述的信息库进行匹配,检索相关信息,然后再把检索结果的全部或部分内容翻译成查询语言描述的信息。
检索结果一般选择部分翻译,这样工作量较小,容易提高翻译的效率和质量,部分翻译一般是对结果文本的前两行、文摘或文本中重要的词进行翻译,在重要词的翻译中,如何确定重要词是决定这种方法效果的关键。
(4)中间语种翻译方法(5)非翻译方法20.语义网的应用(1)Web服务(2)智能信息检索(3)基于语义的网页搜索引擎(4)企业数据管理21.Ei收录论文的两个层次(1)Compendex数据。
数据的内容全面,主要包括:论文标题;作者;作者单位;英文文摘;论文所在期刊名称;卷,期;论文页码;分类码;主题词等等。
其中:分类码;主题词需要专业人员单独给出。
(2)Page One数据:数据内容主要包括:论文标题;作者;作者单位;论文所在期刊名称;卷,期;论文页码;少数数据带有英文文摘。
不需要任何专业人员再做工作。
pendex数据和Page One数据的主要区别在于:数据中是否有分类码和主题词;有这两项内容的数据是Compendex数据,反之是Page One数据。
有没有主题词和分类号是判断论文是否被Compendex数据正式收录的唯一标志。
23.主题指南按字母顺序列出与分类表中类目名称相关的主题词,并注明相关的分类号,实际上是分类表的主题索引,是从分类途径检索文献的指南。
便于不能确定分类号的读者实现从主题查到分类号,再由分类号查到文献所在页码。
24.SCI(科学引文索引)的编制结构及检索方法(1)引文索引(2)来源索引(3)机构索引(4)轮排主题索引25.如何决定收录期刊的数量和种类?(1)“加菲尔德文献集中定律”——确定适宜的期刊数量该定律认为:在几万种科技期刊中,最重要的期刊(即核心期刊)不过一千种,甚至可能还不足500。
因而,把收录期刊的范围定在3000种以内,足以把重要的科技文献包括在内。
(2)“费用—效果原则”——用来选择每一种期刊,具体方法是“引用频率统计法”先计算一种期刊在一年内被引用的总次数,再计算其中每篇论文的平均引文章,其他因素对引文章的影响通过加某些修正系数来解决,引用频率越高,说明该刊质量越高。
通过上述两个指标决定了收录期刊的数量和种类26.什么是专利?这种受法律保护的发明就称专利。
含义:专利权——法律受专利法保护的发明创造——专利技术专利说明书等专利文献——文献这三层含义的核心是受专利法保护的发明,而专利权和专利文献是专利的具体表现。
27.什么是同族专利?同族专利指同一个发明为了在不同国家得到保护,而在这些国家分别申请的一系列内容相同或基本相同的专利。
由于同族专利或相同专利都具有相同的优先权项,所以通过优先权项可以方便、快捷地检索出有关同一发明的全部相同专利或同族专利。
28.专利的类型(1)发明专利(2)实用新型专利(3)外观设计专利(4)植物性专利(5)防卫性专利知识产权:工业产权和著作产权29.学位论文的文献价值:(1)较高价值的一次文献:写作不受篇幅限制,论述详尽:从研究背景、技术线路、实验方法到数据获取、分析结论论述翔实。
(2)珍贵的信息资源价值:能集中反映所在单位的科研领域、学术活动、研究进展和最新成果,论文的使用者可以跟踪名校导师的科研进程。
(3)综述性二次文献:对相应研究领域有系统深入的讨论和综述,拥有详尽的参考文献,可得到课题研究现状综述。
(4)写作技巧的启发蓝本:通过对学位论文的阅读,可大致梳理出作者的写作思路和研究方法,学习学位论文的写作方法。
30.信息检索评价方法(1)测试文档集合法(2)人机交互(3)用户体验日志分析法(4)自然观察法31.召回率:R=(检索出的相关文献量/ 数据库中的全部相关文献)x100%准确率:P=(检索出的相关文献量/ 检出的文献总量)x100%32.平均准确率(并会计算)平均准确率是一个通过所有相关文献测定系统绩效的单值指标。
如果检索系统能快速返回所需的相关文献,并对被检文献进行等级排序,则该系统的性能较好。
平均准确率是求各个相关文献准确率的平均值。
因此平均准确率的计算只考虑相关文献的数量,而与检出文献的总量无关。