信息检索复习
信息检索复习资料

信息检索复习资料A卷⼀、名词解释:1.信息资源 2.信息检索3.著录法4.关键词标引5.知识发现⼆、填空1.按组织⽅式分,信息检索有()、()、超媒体检索。
2.信息检索策略有两种⽅式即()和()。
3.表⽰主体的检索词有标题词、()、()关键词。
4.常⽤的逻辑运算符有:()、OR或+、()。
5.信息检索⼯具常⽤的排检⽅法有字序法、()。
6.中国特有的⼯具书是()、()。
三、问答1. 信息检索的研究内容有哪些?2. 数据库有哪些类型?3. 搜索引擎的类型有哪些?四、论述1、试例说明传统检索型⼯具书和参考型⼯具书的使⽤。
2、如何利⽤检索⼯具查找历史类⽂献?参考答案:⼀、名词解释(30%)1.信息资源。
是⼈类存储在载体(包括⼤脑)上的已知或未知的可利⽤的资源。
信息中的载体信息和主题信息资源的最基本的组成部分。
2.信息检索。
是从⼤量相关信息中利⽤⼈—机系统等各种⽅法加以有序识别与组织以便及时找出⽤户所需部分信息的过程。
3.著录法。
是对信息与⽂献的形式特征和内容特征进⾏分析、选择和记录的⽅法。
4.关键词标引。
使⽤⾮规范化的⾃然语⾔——关键词来表达⽂献或信息资源主题内容的过程。
5.知识发现。
是从数据中发现有⽤知识的整个过程,使多个步骤相互连接,反复进⾏⼈机交互的过程。
⼆、填空(20%)1.按组织⽅式分,信息检索有全⽂检索、超⽂本检索、超媒体检索。
2.信息检索策略有两种⽅式即⼿⼯检索策略和计算机检索策略。
3.表⽰主体的检索词有标题词、单元词、叙次、关键词。
4.常⽤的逻辑运算符有:AND或*, OR或+, NOT或-。
5.信息检索⼯具常⽤的排检⽅法有字序法、类序法。
6.中国特有的⼯具书是类书,政书。
三、问答(24%)1.信息检索的研究内容有哪些?检索理论研究、检索语⾔研究、数据库研究、著录法研究、检索系统研究、检索策略研究、检索服务研究。
2.数据库有哪些类型?传统数据库(情报数据库、图形数据库等);专门应⽤领域的数据库(统计数据库、⼯程数据库、空间数据库;新⼀代数据库(分布式数据库、多媒体数据库、⾯象对象数据库、实时数据库等)。
信息检索复习题

一、填空题1、信号只是信息的____载体(表现形式)__,信息是信号所载荷的内容。
2、信息检索根据检索的目的和对象的不同,可分为_______数据信息检索_____、_____事实信息检索___、__文献信息检索__三种。
3、目前信息检索工具中经常使用的检索语言主要有____分类语言____、___主题语言___、名称语言、代号语言和引文语言。
4、计算机检索系统一般可分为______光盘检索系统_______、___联机检索系统________和网络检索系统等。
5、中国期刊全文数据库提供了______初级检索方式______________、_________高级检索方式___________、专业检索和二次检索等4种检索途径。
6、根据检索的信息形式,信息检索分为______文本检索____检索和_____多媒体_____检索。
7、主要的布尔逻辑检索关系有三种:____与______、______或____、____非______(请用中文表述)。
8、信息检索工具按著录形式的不同可分为____目录型______检索工具、____题录型______检索工具、索引型检索工具、文摘型检索工具和全文型检索工具。
9、万方数据资源由_________科技信息子系统___________、_____________数字化期刊子系统_______、商务信息子系统、学位论文全文子系统和学术会议全文子系统等五个子系统构成。
10、数据是___记录___19__信息的一种形式,是进行统计、计算、科学研究或技术设计所依据的数值。
11、信息意识是人们对_____信息捕捉_____________和_________需求的意识_________,是人们利用信息系统获取所需信息的______内在动因____________。
表现为对信息的、敏感性、选择能力、消化吸收能力。
12、信息标引是对___大量无序的信息特征_____________25__进行著录、标引和组织,使之__有序化_______________。
信息检索复习资料(有答案版)

1.请说明一次文献、二次文献和三次文献的特点和功用。
(1)一次文献(Primary Document):通常是指原始制作,即作者以本人的研究成果为基本素材而创作(或撰写)的文献。
如期刊论文、科技报告、会议论文、专利说明书(2)二次文献(Secondary Document):是指文献情报工作者对一次文献进行加工整理后所得到的产物,也是为了便于管理和利用一次文献,由文献情报工作人员编辑、出版和积累起来的工具性的文献。
二次文献的重要性在于可以帮助人们查找一次文献。
如目录、题录、文摘、索引、各种书目数据库(3)三次文献(Tertiary Document):是指利用二次文献,选用一次文献内容,经综合,分析和评述后形成的指南性文献。
包括综述研究和参考工具两类。
如综述、述评、词典、百科全书、年鉴、指南数据库、书目之书目2.请说明题录目录文摘的特点以及区别(1)题录是揭示和报导单篇文献外表特征的工具。
特点:以单篇文献为著录对象(2)目录是系统积累和提供图书、期刊和其它单行本的名称、收藏单位和索取号等外表特征的揭示和报导的工具。
特点:以单位出版物为著录对象,反映馆藏情况,主要揭示文献外部特征(3)文摘是以精练的语言把文献信息的重要内容、学术观点、数据及结构准确地摘录下来,并按一定的著录规则与排列方式编排起来,供读者查阅使用的一种检索工具。
特点:带摘要的题录3. 布拉德伏特文献文献分散定律和期刊影响因子的概念(1)布拉德福文献分散定律:本专业文献的1/3刊登在本专业核心期刊上,另外的2/3则分散在其他的相关期刊和边缘期刊上。
如果将科技期刊按其刊载某专业论文数量多寡,以递减顺序排列,则可分出一个核心区和相继的几个领域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量成1:n:n2......的关系。
(2)期刊影响因子的概念是:某一种期刊在第三年得到的前两年的引文数与该刊前两年的总论文数之比。
4. 请阐述信息、知识、情报的概念,并分析它们三者之间的关系。
信息检索复习题

信息检索复习题信息检索复习题信息检索是一门研究如何有效地从大量信息中找到所需信息的学科。
在现代社会,信息爆炸的时代,我们每天都要面对大量的信息,如何高效地检索到我们需要的信息成为了一个重要的技能。
下面是一些关于信息检索的复习题,希望能够帮助大家回顾和巩固相关知识。
一、选择题1. 下面哪个不属于信息检索的基本环节?A. 信息需求分析B. 信息获取C. 信息存储D. 信息销毁2. 在信息检索中,下面哪个不是常见的信息检索模型?A. 布尔模型B. 向量空间模型C. PageRank模型D. 概率模型3. 下面哪个不是信息检索中常见的评价指标?A. 准确率B. 召回率C. F1值D. 置信度4. 在信息检索中,下面哪个不是常见的查询扩展方法?A. 同义词扩展B. 相关词扩展C. 反义词扩展D. 词干扩展5. 下面哪个不是信息检索中常见的搜索引擎?A. 谷歌B. 百度C. 必应D. 微信二、填空题1. 信息检索的目标是根据用户的信息需求,从大量的____________中找出与之相关的信息。
2. 在布尔模型中,使用____________运算符来表示查询中的关键词之间的逻辑关系。
3. 在向量空间模型中,使用____________来表示文档和查询之间的相似度。
4. 在信息检索中,____________是指检索到的与用户信息需求相关的文档。
5. 在信息检索中,____________是指用户实际需要的与信息需求相关的文档。
三、简答题1. 请简要介绍信息检索的基本过程。
信息检索的基本过程包括信息需求分析、信息获取、信息处理和信息呈现。
首先,需要对用户的信息需求进行分析,明确需要检索的内容和目标。
然后,通过各种途径获取相关的信息,如使用搜索引擎、访问数据库等。
获取到信息后,需要对信息进行处理,包括对文本进行分词、索引构建等。
最后,将处理后的信息呈现给用户,如搜索结果列表、文本摘要等。
2. 请简要介绍布尔模型和向量空间模型。
信息检索 复习资料

第一部分:基本常识1.文献按照出版形式可分为哪几种类型?举例。
图书、期刊、报纸、特种文献。
图书:专著、文集、教科书、普及读物、百科全书、年鉴、手册、词典等期刊:化学学报、煤炭学报、电工技术学报、高等教育研究、建筑工程与科学在CNKI 期刊全文数据库中检到共209条记录:国际城市规划、建筑结构学报、交通运输工程学报、建筑经济、土木工程学报、岩土工程学报、岩土力学、空间结构、地震工程与工程振动、中国给水排水、工程力学世界建筑工业建筑工程勘察中外建筑工程建设等。
报纸:人民日报特种文献:科技报告、会议文献、专利文献、学位论文、政府出版物、标准文献、产品资料、科技档案美国政府的四大报告1、国防部的AD报告2、商业部的PB报告3、国家航空及宇航局的NASA报告4、能源部的DOE报告。
2现代科技文献具有的特点哪些?答:(1)数量多、增长快, (2)出版形式多、文种多,(3)文献异常分散, (4)文献失效加快, (5)报道内容重复交叉, (6)文献总体质量下降3什么是核心文献、相关文献和边缘文献?答:核心文献通常是指与本学科发展水平、发展动向密切相关的一些文献。
如核心期刊等。
相关文献和边缘文献是指内容与学科的关系相对疏远一些的文献。
相关文献和边缘文献是本学科和其它学科相互渗透、互相结合的结果。
4 什么是文献?构成文献的有哪四个要素?答:文献的定义是记录有知识的一切载体称为文献。
构成文献的四要素是:知识内容,信息符号,载体材料,记录方式。
5 电子文献的主要类型和文件格式是什么?答:(1)按照载体的形态,电子文献可以有软磁盘(FD)、只读光盘(CD-ROM)、可擦写光盘(CD-RW )等之分;(2)按照文献的电子格式,电子文献有文本格式的txt文件、doc文件、pdf文件,图像格式的 gif文件、jpg文件以及标记文件格式的 html文件和xml文件之分;(3)按照出版周期和内容特点,电子文献可以有电子期刊,电子图书,电子报纸以及数据库等之分;(4)按照内容的性质和时效性,电子文献可以有论文文献和动态消息之分;(5)按照版权状况,电子文献又可分为有版权电子文献和无版权电子文献两类;(6)从文献信息利用的角度来看,可分为有版权的电子期刊、电子图书、报告的学术价值相对较高,而单篇论文和动态性的电子文献有时虽然没有注明版权,也有相当的参考价值。
信息检索复习要点

信息检索复习要点复习要点:1.如何查找纸本原⽂,必备信息是什么,刊名等同于什么刊名等同于ISSN号,必备的信息是,⽂章题⽬、期刊名称或是ISSN号,年/卷/期。
先查找有⽆电⼦全⽂。
⾕歌搜索、SFX全⽂搜索系统、先查本馆纸本期刊⽬录,获取论⽂全⽂中的查询本馆纸本期刊⽬录,联合⽬录。
2.哪些数据库有⾃动截词功能?EI3.中⽂科技期刊数据库、SCI和EI数据库的精确检索是如何实现的中⽂:可选择限定检索学科领域可选择逻辑算符可选择跨库检索的其他检索⽅式可选择匹配度⼆次检索其他限制条件EI:精炼检索结果位置:检索结果显⽰页左侧Refine Search的⼯具栏添加⼀个检索词的⼆次检索(Add a term )优化和调整检索结果(限定(Limit to)按钮或排除(Exclude)按钮:作者、作者机构、规范词、分类类名、国家、⽂献类型、语种、出版年、刊名、出版者等限定字段4.数据库检索结果的排序⽅式CNKI:主题发表时间被引下载EI:相关度和时间系统提供5种排序⽅式(按相关度、出版年代、作者字顺、刊名字顺和出版者字顺)5.主要的全⽂数据库CNKI、维普、万⽅:中⽂期刊全⽂数据库。
EBSCO、ScinceDirect、SpringerLinker:外⽂全⽂数据库。
6.Web ofScience数据库中包含有哪些数据库?SCIE/SSCI/A&HCL/CPCI-S(ISTP)/ CPCI-SSH7.查全查准率如何实现?提⾼查全率(扩⼤检索结果)的⽅法选择较⼤字段:如摘要、主题、全⽂、任意字段等尽量多⽤同义词、近义词、反义词、缩写词、上下位类词(增加逻辑或关系)减少逻辑与关系(限制条件)采⽤模糊匹配功能扩⼤检索年限使⽤截词符(*?$)提⾼查准率(缩⼩检索结果)的⽅法选择较⼩字段:如篇名(题名)、题名或关键词字段尽量增加核⼼检索词:从内容中挖掘核⼼词使⽤词位检索采⽤精确匹配/精确短语功能采⽤“AND”或“NOT”算符连接检索词或进⾏⼆次检索。
信息检索复习题

第一章1一、个体研究阶段(十九世纪初-十九世纪中叶)世界上最早出现的手工检索工具:◆1821年瑞士出版的《物理科学进展年报》◆1830年德国创办的文摘杂志《药学总览》2 二、社会化阶段(十九世纪末-二十世纪初)研制大型检索工具:◆美国1884年创办了《工程索引》(EI)◆美国1907年创办了《化学文摘》(CA)◆美国1926年创办了《生物学文摘》(BA)◆英国1896年创办了《科学文摘》(SA)3 三、自动化阶段(二战后-八十年代末)产生新的检索理论:◆1951年Taube,M 提出:单元词组配法◆1958年Citron,J 提出:轮排索引◆1958年Luhn,H 提出:定题服务(SDI)二战期间…案例: 曼哈顿工程- 阿波罗计划4 第三节情报检索研究对象、内容及相关学科(了解)一、研究对象情报检索是以文献信息源、情报交流、传递过程,以及利用的理论和方法、情报检索系统为研究对象。
二、研究内容1. 有关检索语言研究2. 有关数据库的建立、存贮与维护研究3. 情报检索系统研究4. 情报检索策略研究5. 情报检索服务研究三、相关学科1. 情报科学领域:情报学、目录学、分类学。
2. 计算机科学领域:硬件和软件。
硬件涉及到计算机系统的构成,专用设备与网络等;软件涉及到程序设计、汇编语言、数据结构编译技术、操作系统和数据库管理系统等。
3. 数学领域:离散数学(包括布尔代数、集合论、图论、组合分析);概率论;模糊数学中的模糊集合论;效用论的线性代数;另外,检索算法和检索提问逻辑,为评价检索效果提供了数学方法。
4. 电信科学方面的信息论,语言学方面的数理语言学(计算语言学)等都是情报检索广泛利用的学科。
5. 系统科学领域:系统分析、系统设计等都是建立检索系统必须掌握与遵循的方法。
5 科技文献概念记录在载体上的科技知识,包括科技事实、数据、理论方法、构思和假设等。
6 文献信息源1. 按文献载体形式划分:印刷型文献,缩微型文献,机读型文献,声像型文献。
信息检索复习(名词解释)

1、同句检索是要求参加检索运算的两个词必须在同一自然句中出现,其先后顺序不受限制。
2、查全率:是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度,可用下面的公式表示:查全率=(检出相关文献量/系统中相关文献总量)*100%3、查准率:是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度,可用以下公式表示:查准率=(检出相关文献量/检出文献总量)*100%4、漏检率:是指漏检相关文献量与在检索系统中相关文献总量的比率,是衡量信息检索系统漏检文献的尺度,可用下面的公式表示:漏检率=(漏检相关文献量/系统中相关文献总量)*100%5、跨库检索:可同时检索多个平台上的多种资源,输入一个检索式,便可以看到多个数据库的查询结果。
6、单库检索:在选定的单一数据库中进行检索。
7、经典论文优先:被引用数比较多,或者文章发表在档次比较高的杂志上等经典的、有价值的文献优先排在前面。
8、相关度优先:和查询的条件内容最相关的文献优先排在前面。
9、最新论文优先:发表时间比较新的文献优先排在前面。
10、精确匹配:检索结果中包含与检索词完全相同的词语11、模糊匹配:检索结果包含检索词或检索词中的词素12、顺查法是根据有关课题的起始年代利用选定的检索工具由远及近的进行逐年查找。
13、倒查法从最新时间查找起,直到满足检索要求为止。
14、抽查法是针对有关学科的发展特点,抽查某些特定时期的文献信息。
15、二次检索是指在前一次检索结果的范围内,继续进行检索。
16、定题检索 SDI (selecti ve dissemi nation of informa tion)查找有关特定主题最新信息的检索。
17、回溯检索 RS (retrosp ective search)查找一段时期内有关特定主题信息的检索。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
什么是信息检索?
信息检索就是从非结构化的信息集合中 找出与用户需求相关的信息。相应的,信 息检索系统就是用来实现信息检索功能的 计算机软件系统。
• 检索系统的目标就在于检出相关文档而排 除不相关文档
13
评价IR系统的困难
• 相关性不是二值评价,而是一个连续的量 • 即使进行二值评价,很多时候也很难 • 从人的立场上看,相关性是:
– 主观的,依赖于特定用户的判断 – 情景相关的,依赖于用户的需求 – 认知的,依赖于人的认知和行为能力 – 时变的,随着时间而变化
信息检索的评价
• 针对一个检索系统,可以从功能和性能两 个方面对其进行分析评价
• 功能评价
– 可通过测试系统来判定是否支持某项功能,因 此相对来说较容易
• 性能评价
– 对于检索系统的性能来说,除了系统的时间和 空间因素之外,要求检索结果能够按照相关度 进行排序
12
相关性
• 相关性理论假定:对于一个给定的文档集 合和一个用户查询,存在并且只存在一个 与该查询相关的文档集合
1. d123 2. d84 3. d56 4. d6 5. d8
(66%,20%)
6. d9 11. d38
7. d511
12. d48
8. d129 13. d250
9. d187 14. d113
10. d25 15. d3
(50%,30%) (40%,40%)
(33%,50%)
21
平均准确率
19
相关 不相关
准确率和召回率的关系
返回了大多数相关文档 但是包含很多垃圾
1
理
但是漏掉了很多
相关文本
20
举例
• Example Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}
• 通过某一个检索算法得到的排序结果:
(100%,10%) (precision, recall)
•信息抽取 •文本分类与聚类 •自动文摘 •链接分析 •分布式信息检索 •Web信息检索
信息检索中的应用研究
•话题检测与跟踪 •信息过滤、垃圾邮件过滤 •对抗式信息检索(adversarial IR) •企业搜索 •数字图书馆 •跨语言检索、多语言检索、为检索服务的 机器翻译 •基于内容的多媒体检索 •基因信息检索
• 处理对象 非结构化信息 现实世界中存在着大量的非结构化信息,除 文本外,还有图像、图形、语音、视频等多 媒体信息。
信息检索的基本流程
与信息检索相关的学科
•自然语言处理 •分布式计算 •数据库 •数据挖掘 •情报学 •社会学
信息检索面临的问题
•处理海量数据量 •评价检索 •处理多源信息
信息检索中的关键技术
互联网信息检索
复习参考
网络信息检索
随着网络技术的飞速发展,信息检索工 作已经由传统的手工文献检索发展到智能 检索。认清网络信息检索的发展趋势,掌 握先进的网络信息检索技术,从浩如烟海 的信息中找到所需的信息,已成为当前重 要而实用的职业技能。
什么是网络信息检索
网络信息检索是由网络站点、网页浏览器和 搜索引擎以及网络支撑组成的检索系统。
搜索引擎
• 搜索引擎是网络信息的检索工具,它可以帮助 用户快速搜索所需信息及其相关资料。
• 搜索引擎是因特网上的一种特殊类型的站点, 通过用户输入所需信息的关键词,经由检索服 务器处理内部数据库,匹配相关资料并整理后 输出,通过网络传给用户使用。
网络信息检索技术的发展现状
信息检索开始于20世纪90年代初。 1991年思维机等公司、明尼苏达大学、欧洲
其中的核心部分,不是众多站点,而是网络浏 览器和具有收集、检索功能的搜索引擎。
众多站点、网页上的信息是网络信息的基本 组成部分。
浏览器
• 在网络发展初期,浏览器和简单的搜索引擎即 可帮助人们检索所需的文献信息。
• 浏览器相当于提供了一个信息总目,提供用户 对各个网站进行直接点击、浏览,通过超文本 链接,选择自己所需的信息。
• 对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。该 集合可由人工方式构造
• 一组评价指标。这些指标反映系统的检索性能。通过比较 系统实际检出的结果文档集和标准的相关文档集,对它们 的相似性进行量化,得到这些指标值
16
相关性判断
• 在早期的检索实验集合中, 相关性判断是全 方位的,就是说, 由专家事先对集合中每一篇 文献与每一个主题的相关性做出判断。
• 由检索评价专家进行人工判断,最终评判出每一 文档的相关性
18
准确率和召回率(查全率和查准率)
全部文本集合
相关文本
检索出的 文本
检出且 不相关
检出且 相关
检出
未检出且 不相关
未检出且 相关
未检出
召回率(Recall)= 检出的相关文档数/相关文档数 准确率(Precision)= 检出的相关文档数/检出文档数 假设:文本集中所有文献已进行 了检查
• 由于TREC 的文献集合如此庞大, 全方位的判 断是不可行的。因此TREC相关性判断基于 检索问题所来自的测试文档集合,并采用 一种“pooling”的技术来完成。
17
“pooling”方法
• 两个假设
– 假设绝大多数的相关文档都收录在这个文档池中 – 没有进行判断的文档即未被认为是不相关的
• “pooling”技术的具体操作方法是:针对某一检 索问题,所有参与其检索试验的系统分别给出各 自检索结果中的前K个文档(例如K=100),将这 些结果文档汇集起来,得到一个可能相关的文档 池“pool”
14
检索的评价
• 检索性能的评价
– 检索结果的准确度
• 检索任务
– 批处理查询 – 交互式查询
• 实验室环境下主要是批处理查询,具 有良好的可重复性和可扩展性
15
在评价和比较检索系统的检索性能需要以下 条件:
• 一个文档集合C。系统将从该集合中按照查询要求检出相 关文档
• 一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了用 户的信息需求