信息检索导论王斌译第一章课后习题答案
信息检索题库+参考答案(终极版)

四川师范大学信息检索课后作业1.(第1章?单选)联合国教科文组织分别于2003年和2005年召开了以(A)为主题的世界性大会,并发布了《布拉格宣言》和《亚历山大宣言》。
A、信息素养B、信息安全C、信息检索D、信息评价2.(第1章?多选)信息素养的基本构成具体包括(ABCD)A、信息知识B、信息意识C、信息能力D、信息伦理3.(第1章?多选)信息意识具体包括(ABCD)。
A、充分认识到信息在学习、工作和生活中的重要作用,遇到问题时首先应该想到通过信息的获取4.(第1A、信B、信C、D、信5.(第1A、信6.(第1)。
A、具7.(第1A、信8.(第1A、信息知识B、信息能力C、信息意识D、信息伦理9.(第1章?单选)(C)是指人类对信息需求的自我意识,是人类在信息活动中产生的认识、观念和需求的总和。
A、信息知识B、信息能力C、信息意识D、信息伦理10.(第1章?判断)以“走向具有信息素养的社会”为主题的《布拉格宣言》认为,作为一种适应社会的基本能力和参与社会的先决条件,信息素养能够确定、检索、评估、组织和有效地生产、使用和交流信息,并解决所遇到的问题,是终身学习的一种基本人权。
√11.(第1章?判断)作为信息素养的基本构成,信息知识、信息意识、信息能力和信息伦理四个要素相辅相成、不可分割。
其中,信息意识是先导,信息知识是基础,信息能力是核心,信息伦理是保障,四个要素共同构成了一个统一的整体。
√12.(第1章?判断)2005年北京高教学会图书馆工作研究会提出了《北京地区高校信息素质能力指标体系》。
这个指标体系从信息意识、信息知识、信息能力、信息伦理四个方面提出了高校学生应具有的信息素养要求,具体由7个一级指标,19个二级指标,61个三级指标组成。
√13.(第1章?判断)以“信息社会在行动:信息素养与终身学习”为主题的《亚历山大宣言》指出,信息素养和终身学习是信息社会的灯塔,照亮了通向发展、繁荣和自由的道路。
2020智慧树知道网课《信息检索》课后章节测试满分答案

第一章测试1【判断题】(4分)在大多数情况下,检索的目的是为了找到相关文献,而不是答案。
A.错B.对2【单选题】(4分)关于信息的概念,下面不同定义中不正确的说法是()A.信息是用以消除随机不定性的东西B.信息是指对消息接受者来说预先不知道的报道C.信息是那些只能由计算机进行处理的数据资料D.在计算机技术中,信息是经过组合后具有一定意义,能表明客观属性的数据集合3【单选题】(4分)信息论的创始人是()A.巴达拉科B.维纳C.香农D.野中郁次郎4【单选题】(4分)文献是记录有知识的()A.载体B.纸张C.磁盘D.光盘5【判断题】(4分)文献是记录知识的一切载体,即用文字、图像、符号等手段记录人类知识的各种载体()A.对B.错6【单选题】(4分)文献虽然是信息、知识、记录符号和物质载体的统一体,它的内涵是()A.知识B.专利C.图书D.期刊7【判断题】(4分)知识是人们通过信息对自然办、人类社会以及思维活动规律的认识与掌握,是人的大脑通过思维重新组合的信息集合。
A.错B.对8【单选题】(4分)广义的信息检索包含两个过程()A.存储与利用B.检索与报道C.检索与利用D.存储与检索9【单选题】(4分)小刘计划今天与好友到郊外野营,他从报纸上获得了天气情况良好,于是他们出发了。
不料,中午时分狂风暴雨大作,于是他们埋怨天气预报不准确。
当他回到家里再拿出报纸核实,原来那是几天前的报纸。
经分析,由于小刘对信息的()特征没有做出慎重判断,以致野营不能顺利进行。
A.信息的价值性B.信息的时效性C.信息的来源D.信息的共享性10【单选题】(4分)逻辑运算符包括()A.逻辑非B.A,B和CC.逻辑或D.逻辑与11【单选题】(4分)使用分类语言对信息进行描述和标引,主要是可以把()的信息集中在一起A.A+B+CB.同一主题C.同一作者D.同一学科12【单选题】(4分)根据检索对象不同,信息检索可分为()A.分类检索、主题检索B.数据检索、事实检索、文献检索C.计算机检索、手工检索D.二次检索、高级检索13【单选题】(4分)通过追溯检索获得的相关文献与原文献相比在发表时间上()A.不确定B.晚C.相同D.早14【判断题】(4分)分类检索语言又称分类法,是用分类号和类名来表达信息的主题概念,并且按照知识门类的逻辑次序将信息系统地组织和划分的语言。
信息检索题目(含答案)

A.分类语言
B.叙词语言
C.关键词语言
D.标题词语言
19.下列哪种属于二次文献(D)
A.专利文献
B.学位论文
C.会议文献
D.目录
20.下列哪种属于三次文献(A)
正确答案:C
A.标准文献
B.学位论文
C.综述
D.目录
21.CJFD是(D)。
A.中国重要报纸全文数据库
B.中国优秀博硕士学位论文全文数据库
63.“中文社会科学引文索引”(CSSCI)是由南京大学研制而成的。(对)
正确
64.张大千资源数据库是内江师范学院图书馆自建的。(对)
正确
65.我校图书馆旧馆(山顶球场图书馆)流通01周末开放。(错)
正确
66.我校图书馆的电子阅览室免费对全校师生开放。(对)
正确答案:错
67.我校图书馆2000年以前的图书主要存放在山顶球场图书馆。(对)
正确
79.机构指南,又叫机构名录,可通过它了解机构的基本信息。(对)
正确
80.《大清会典》是十通的一部分。(错)
正确
81.年表是换算不同历法的年、月、日的工具书。(对)
正确答案:错
82.地图集属于图录中的一种。(对)
正确
83.我校图书馆购买的有万方公司的中国学位论文全文数据库。(对)
正确
84.万方公司的中国学位论文全文数据库可通过学科分类导航和检索词检索的方式查找论文。(错)
26.在万方数据资源使用学位论文检索功能,检索苑光耀的硕士学位论文篇名是(A)。
正确答案:C
A.主动式集群网络服务器调度机制的研究
B.自调度集群网络服务的研究与实现
C.基于制造特征的数控加工在线检测技术研究
信息检索参考答案

名词解释信息是事物运动的状态与方式,是物质的一种属性。
,“信息即事物运动的状态与方式”这个定义具有最大的普遍性,不仅能涵盖所有其它的信息定义,还可以通过引入约束条件转换为所有其它的信息定义。
《四库全书总目》为我国古代最巨大的官修图书目录。
四库全书的馆臣们,对誊录入库的3400余种图书(称“著录书”)和抄存卷目的6700余种图书(称“存目书”)全部写出提要,这就是《四库全书总目提要》,或简称《四库总目》。
URL是Uniform Resource Location的缩写,译为“统一资源定位符”。
通俗地说,URL是Internet上用来描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上,特别是著名的Mosaic。
采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。
中国知网是全球领先的数字出版平台,是一家致力于为海内外各行各业提供知识与情报服务的专业网站。
目前中国知网服务的读者超过4000万,中心网站及镜像站点年文献下量突破30亿次,是全球倍受推崇的知识服务品牌。
综述是指就某一时间内,作者针对某一专题,对大量原始研究论文中的数据、资料和主要观点进行归纳整理、分析提炼而写成的论文。
综述属三次文献,专题性强,涉及范围较小,具有一定的深度和时间性,能反映出这一专题的历史背景、研究现状和发展趋势,具有较高的情报学价值。
阅读综述,可在较短时间内了解该专题的最新研究动态,可以了解若干篇有关该专题的原始研究论文计算机检索指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出需要的信息,继而再有终端设备显示或打印的过程。
《辞海》是中国最大的综合性辞典。
《辞海》是以字带词,兼有字典、语文词典和百科词典功能的大型综合性辞典。
简答信息素养的构成要素之间的关系是什么?布尔逻辑运算符的含义(书本276)什么是数字资源数字资源是文献信息的表现形式之一,是将计算机技术、通信技术及多媒体技术相互融合而形成的以数字形式发布、存取、利用的信息资源总和。
信息检索概论思考题答案

第一章信息检索概论思考题:1.什么是信息?简述信息的特点和分类?我们认为,信息是事物或事物之间不确定性的量度,即负熵。
掌握的信息越多,所需认识的事情的确定性就会越少。
信息由信源,信宿和信道(载体)构成。
信息的特点:(1)客观真实性:客观、真实是信息的最重要的本质特性(2)普遍性:信息是物质的普遍属性,物质是具有普遍性,所以信息也拥有该特性(3)针对性:信息的作用和价值可以随着接受者的不同而不同(4)传递性:过程:信息源(信息的发出者)——>编码—>信道(载体)—>译码—>信宿(信息的接收者)信息源:是信息的发出者信宿:是信息的接收者信息的传播是双向的,多维的。
信息源和信宿是相对的,也是可以相互转换的。
信道:就是在传播过程中,编码经过的物理通道(5)时效性:指信息发出、接收到利用的时间间隔及效率,也包括信息的本身更新速度。
客观物质不断的变化,反映事务的运动状态和运动方式的信息也会发展变化一般而言,随着时间的推移,信息的价值会逐渐减少也有反例:如考古信息(恐龙、古钱币),年代越久,使用价值越大衡量信息的时效性参数不只是时间参数,还有地理环境(6)可转换性:信息可以从一种形态转换成另一种形态(7)可处理性(可识别性):可以通过人们的感觉器官所感知,也可以通过仪表、器械来检测进而予以识别。
(8)可共享性:指同一内容的信息可以在同一时间里被若干个用户使用,此时信息载体本身的信息量不会被磨损、消失信息的类型:(1)按信息表现形式划分,可分为文字信息,图象信息,数值数据信息,语音信息。
▪文字信息:文字是人们为了实现信息交流、通信联系所创造的一种约定的形象符号。
▪图象信息:图象(形)是一种视角信息,它比文本信息直接,易于理解。
如,一幅画、一部电影。
▪数值数据信息:数值数据是“信息的数字形式”或“数字化的信息形式”。
▪语音信息:人讲话实际是大脑的某种编码形式的信息转换成的语言信息的输出,是一种最普遍的信息表现形式。
信息检索答案

7.你对知识产权和专利文献的认识
一知识产权的概念 知识产权是基于人们的创造性脑力劳动成果而依法产生的权利。它是一种无形财产权。 二 知识产权的法律特征 1.知识产权的专有性 知识产权的专有性,也称垄断陛,主要是指知识产权只能由专人享有,非经权利人许可或 法律的特别规定,其他任何人不得行使。 2.知识产权的地域性 知识产权的地域性,也称区域性,主要是指由于具体的各项知识产权都是由各国国内法确 认的,所以知识产权的法律保护是有一定地域限制的,超出确认国法律的管辖范围,知识产权 可能不会当然地受到法律保护。 3.知识产权的时间性 知识产权的时间性,也称期限性,主要是指法律对知识产权专有权的保护是有一定期限 的,超过法律规定的保护时间,某项智力成果上的知识产权就不存在了。
信息能力
也可以说是信息技能,包括确定信息需求的时机;选择信息源高效获取信息、处理评估信息、有效利用信息的能力。
信息道德
指人们在信息活动中应遵循的道德规范,如保护知识产权、尊重个人隐私、抵制不良信息等
终身学习的能力
获得终身学习的能力是信息素质教育的目标。信息素质概念应该把焦点放在用户身上,即受教育者或者被培训者身上,而不是放在指导者或者教员身上,让用户学会学习,获得终身学习的能力。
选定题目后,则要围绕题目进行搜集与文题有关的文献。关于搜集文献的有关方法,如看专著、年鉴法、浏览法、滚雪球法、检索法等等,搜集文献要求越全越好,因而最常用的方法是用检索法。
6.进行信息检索时。你的思路清晰吗?(信息检索类型、效率、步骤)
数据检索类型分为(一)按存储与检索对象划分,信息检索可以分为: 文献检索 数据检索 事实检索 。(二)按存储的载体和实现查找的技术手段为标准划分: 手工检索 机械检索 计算机检索 。(三)按检索途径划分: 直接检索 间接检索
lecture10xmlretrieval信息检索导论王斌

▪ 实体标记文本: give me articles about sightseeing tours of the Vatican and the Coliseum
12
现代信息检索
结构化检索(Structured retrieval)
基本配置: 结构化或非结构化查询+结构化文档
结构化检索的应用场景
数字图书馆、专利数据库、博客、包含已标注命名实体 (如人名、地名)的文本
例子
▪ 数字图书馆: give me a full-length article on fast fourier transforms
13
R列三个主要问题 ❶ 无序的DB系统可能返回大量文章,这些文章提到 Vatican、the
Coliseum和sightseeing tours,但是并没有按照它们和查询的相关 度排序 ❷ 大部分用户都很难精确描述结构化的限制条件。比如,用户可 能并不知道搜索系统支持对哪些结构化元素的查询 tours AND (COUNTRY: Vatican OR LANDMARK: Coliseum)? tours AND (STATE: Vatican OR BUILDING: Coliseum)? ❸ 用户可能对结构化搜索和高级搜索很不熟悉,或者他们压根就 不想用这些搜索功能。
不相关的 ▪ 搜索引擎根据标记结果计算得到信息需求的一个新查询
表示。当然我们希望该表示好于初始的查询表示 ▪ 搜索引擎对新查询进行处理,返回新结果 ▪ 新结果可望(理想上说)有更高的召回率
信息检索课后答案

作业习题《信息检索》思考题及参考答案(根据新编教学大纲内容选答)第一讲信息检索基础知识1.简述大学图书馆的地位和作用。
大学图书馆是大学的文献信息中心,是为教学和科研服务的学术性机构,是学校信息化和社会信息化的重要基地。
高等学校图书馆的工作是学校教学和科学研究工作的重要组成部分。
现代化的大学图书馆与学校高水平的教师队伍、先进的教学实验设备,共称为现代化大学的三大支柱。
大学图书馆既是是学校的文献信息中心又是学习资源中心,是培养人才的重要基地,是自学深造的场所,是学生构建合理知识结构的第二课堂。
2.简述信息、知识、文献的概念及相互关系。
答:信息的概念:一般来说,信息是指与客观事物相联系,反映客观事物的运动状态,通过一定的物质载体被发出、传递和感受,对接受对象的思维产生影响并用来指导接受对象的行为的一种描述。
从本质上说,信息是反映现实世界的运动、发展和变化状态及规律的信号与消息。
知识的概念:知识是人类通过信息对自然界、人类社会以及思维方式与运动规律的认识和掌握,是人的大脑通过思维重新组合的系统化的信息的集合。
知识是人类在改造客观世界的实际中所获得的认识和经验的总和,是信息的一部分,是一种特定的人类信息。
文献的概念:文献是记录有知识的一切物质载体。
具体地说是用文字、图形、符号、声频、视频等技术手段记录人类知识的一切物质载体。
信息、知识和文献之间的关系是:信息是事物发出的消息,信息经过人脑加工形成知识。
只有将自然现象和社会现象的信息经过加工,上升为对自然和社会发展客观规律的认识,这种再生信息才构成知识。
知识信息被记录在载体上就形成文献。
3.何谓信息资源?网络信息资源有何特点?所谓信息资源,就是信息的来源。
各种客观存在的、可供人们直接或间接开发与利用的信息的集合总称为信息资源。
网络信息资源具有数量大、类型多、多媒体、非规范、跨时间、跨地域、跨行业、多语种等特点。
正式出版物和非正式信息交流交织在一起,使传统的人类信息交流链的格局被打破,各方在网络上既可以是信息的生产者、发布者,也可以是传播者和使用者,对学术交流环境和信息利用产生了深刻的影响。
(完整word版)《信息检索导论》课后习题答案

《信息组织与检索》作业答案第一章布尔检索习题1-2考虑如下几篇文档:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵;b. 画出该文档集的倒排索引(参考图1-3中的例子)。
Term-Documentmatrix:1 2 3 4approach 0 0 1 0breakthrough 1 0 0 0drug 1 1 0 0for 1 0 1 1hopes 0 0 0 1new 0 1 1 1of 0 0 1 0patients 0 0 0 1schizophrenia 1 1 1 1treatment 0 0 1 0Inverted Index:approach -> 3breakthrough ->1drug ->1->2for ->1->3->4hopes ->4new ->2->3->4of ->3patients ->4schizophrenia ->1->2->3->4treatment >3注意:倒排索引中的词表(dictionary)和每个词项的倒排列表(posting list)需要排序,便于查找。
这里我们暂不考虑词的正规化处理(如hopes->hope)。
补充习题1写出AND查询的伪代码面向过程风格的伪代码:给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId查询结果存放在answer列表里。
这里应用了“化归”思想(将新问题转化归为旧问题来解决)。
文献检索 第一章课后自测 答案

成绩10.00/满分10.00 (100%)未标记标记题目信息文本一、选择题(共8题,每小题2分,共16分)题目1《中国图书馆分类法》将学科划分为五个基本部类、多少个基本大类?()选择一项:A. 22B. 20C. 15D. 25正确答案是:22题目2下列哪种运算符号的使用可以扩大检索范围?()选择一项:A. “AND”运算符B. 字段限定符C. 位置算符D. 截词算符正确答案是:截词算符题目3下列哪项不属于文献检索系统质量的评价要素?()选择一项:A. 索引体系的完善程度B. 被用户使用的数量C. 信息标引深度D. 查全率、查准率正确答案是:被用户使用的数量题目4下列哪项属于文献的内容特征?()选择一项:A. 来源B. 类目名C. 作者单位D. 标题正确答案是:类目名题目5下列哪项是MeSH主题词的特性?()选择一项:A. 动态性B. 一个概念可以对应多个主题词C. 固定性D. 一个主题词可以表示多个含义正确答案是:动态性题目6下列哪项是属于事实与数值数据库?()选择一项:A. 核酸序列数据库GenBankB. Web of ScienceC. 中国生物医学文献数据库D. Ovid电子图书正确答案是:核酸序列数据库GenBank题目7下面哪项属于后组式规范检索语言?()选择一项:A. 分类语言B. 叙词语言C. 关键词语言D. 标题词语言正确答案是:叙词语言题目8下面对查全率和查准率描述正确的是哪项?()选择一项:A. 查全率和查准率都为100%时,检索工具的质量最高B. 查准率为检出的相关信息量占检索工具中相关信息总量的百分比C. 若某检索工具的查全率较高,则查准率相对较低D. 全率为检出的相关文献量占检出文献总量的百分比正确答案是:若某检索工具的查全率较高,则查准率相对较低题目9会议记录属于几次文献?()选择一项:A. 一次文献B. 二次文献C. 三次文献D. 零次文献正确答案是:零次文献题目10列哪种检索式的调整方法可以使检索结果变少?()选择一项:A. 使用位置算符B. 使用截词算符C. 取消字段限定符D. 使用“OR”运算符正确答案是:使用位置算符题目11计算机文献检索系统的内容结构包括以下哪项?()选择一项:A. 主文档、倒排文档、帮助导航B. 编辑使用说明、正文、索引C. 编辑使用说明、目次表、索引D. 目次表、索引、附表正确答案是:主文档、倒排文档、帮助导航题目12计算机检索中,如果检索结果太多,且查准率较低时,检索式可做哪项调整?()选择一项:A. 增加同义词或同类相关词B. 提高检索词的专指度C. 进行扩展检索D. 可从词表或检出文献中选择上位词或泛指词补充到检索式中正确答案是:提高检索词的专指度二、判断题(共7题,每小题2分,共14分)题目13MeSH中的主题词可以一词多义。
信息检索题库+答案(终极版)

四川师范大学信息检索课后作业1.(第1章•单选)联合国教科文组织分别于2003年和2005年召开了以(A)为主题的世界性大会,并发布了《布拉格宣言》和《亚历山大宣言》。
A、信息素养B、信息安全C、信息检索D、信息评价2.(第1章•多选)信息素养的基本构成具体包括(ABCD)A、信息知识B、信息意识C、信息能力D、信息伦理3.(第1章•多选)信息意识具体包括(ABCD)。
A、充分认识到信息在学习、工作和生活中的重要作用,遇到问题时首先应该想到通过信息的获取和利用来解决所遇到的问题;B、对信息具有敏锐的感知力和洞察力,能高效、快速识别有价值的信息,善于从所获取的信息中找出解决问题的思路、线索或方案;C、对信息具有积极的内在需求,善于根据社会需要主动发现自身的信息需求;D、具有通过获取信息强化自身学习能力的想法和观念,遇到不懂的东西能积极主动的通过获取信息找寻答案。
4.(第1章•多选)关于信息素养教育,下列说法正确的是(ABCD)。
A、信息素养教育的第一个层次是拓展视野,使人们知道这个世界上原来还有这么多信息资源。
B、信息素养教育的第二个层次是训练信息获取能力,使人们知道如何获取所需要的信息。
C、信息素养教育的第三个层次是培养信息利用能力,使人们具有敏锐的信息意识和利用信息解决问题的能力。
D、信息素养教育的目标是培养终身学习能力,而信息素养教育自身也是一个终身学习的过程,信息素养教育与终身学习能力是一个相互促进、螺旋提升的关系。
5.(第1章•多选)信息素养是指:基于(ABC),通过确定、检索、获取、评价、管理、应用信息解决所遇到的问题并以此重构自身知识体系的综合能力和基本素质。
A、信息意识B、信息知识C、信息伦理D、信息评价6.(第1章•多选)2000年1月18日,美国大学与研究图书馆协会(ACRL)标准委员会审议通过了《高等教育信息素养能力标准》,其中包含5项标准和22项具体指标。
下列属于5项标准的是(ABCD)。
信息检索习题与答案

注意:1、通读教材,根据页码提示完成下列题目。
2、最后一次上机课在线测试,围不超出如下题目。
第一章一、单选1、报道围主要为能源方面的科技报告为( D )。
A、AD B、PBC、NASAD、DOE 第7 页}2、(C )是出版周期最短的定期连续出版物。
A、图书B、期刊C、报纸D、学位论文{第6页}3、(A)是高校或科研机构的毕业生为获取学位而撰写的。
A、学位论文B、科技报告C、会议文献D、档案文献{第6页}4、了解各个国家政治、经济、科技发展政策的重要信息源是(B)A、科技报告B、政府出版物C、标准文献D、档案文献{第8页}5、年鉴属于下列哪一类别(D)A、零次信息B、一次信息C、二次信息D、三次信息{第7页}(一次信息:图书、期刊论文、科技报告、会议论文、专利说明书及科技日记、杂记、实践记录)6、下列哪种文献属于一次文献(A )。
A、图书B、百科全书C、综述D、文摘{第4页}7、下列文献中属于一次信息的是(A)A、专利说明书B、百科全书C 、目录D 、综述{第 4 页}8、以下各项属于二次信息的是(A)A 、索引B 、期刊C 、学位论文D 、百科全书{第 4 页}(二次信息;目录、题录、文摘、索引、书目对一次信息有指引和报道作用)二、多选9、二次信息主要包括()等。
A、手册B、年鉴C目录D、题录{第4 页}10、信息的属性包括()A、客观性B、时效性C、传递性D、共享性{第 3 页}11、信息素质的涵主要包括()。
A、信息意识素质B、信息能力素质C 、信息道德素质D 、信息职业素质{第9 页}12、以下类型的信息属于三次信息的是()。
A、目录B、词典C、百科全书D、科技报告{第4页}附加:I)信息道德规信息行为,主要包括()。
A、不制作、传播、消费不良信息B、不侵犯他人的知识产权、商业秘密、隐私权C恰当使用与合理开发信息技术D、私下交易个人信息(第10页)II)根据信息的载体和表达方式的不同,信息源可分为()。
信息检索导论-王斌 第一次课后练习(1-4)

信息检索导论第一次课后练习(第1讲-第4讲)1.习题1-3 [*]对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?a. schizophrenia AND drugb. for AND NOT (drug OR approach)解答:习题1-2的文档集如下:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patients词项文档对应如下:词项docID 词项docId breakthrough 1 approach 3drug 1 breakthrough 1for 1 drug 1 schizophrenia 1 drug 2new 2 for 1 schizophrenia 2 for 3drug 2 for 4new 3 hopes 4 approach 3 => new 2for 3 new 3 treatment 3 new 4of 3 of 3 schizophrenia 3 patients 4new 4 schizophrenia 1 hopes 4 schizophrenia 2for 4 schizophrenia 3 schizophrenia 4 schizophrenia 4 patients 4 treatment 3它对应的倒排索引表如下:词项文档频率倒排记录表approach 1 → 3breakthrough 1 → 1drug 2 →1→2for 3 →1→3→4hopes 1 → 4new 3 →2→3→4of 1 → 3patients 1 → 4schizophrenia 4 →1→2→3→4treatment 1 → 3a.schizophrenia AND drugschizophrenia →1→2→3→4AND drug →1→2得出交集=> 1→2结果为文档1和2b. for AND NOT (drug OR approach)先求drug OR approachdrug →1→2OR approach → 3得出并集→1→2→3则NOT (drug OR approach)→ 4AND for →1→3→4得出交集→ 4所以结果为文档42. 习题1-7请推荐如下查询的处理次序。
信息检索题目答案

4、信息检索在发展过程中经历了那些阶段?20世纪中期以前,手工式阶段20世纪中期,机械式阶段3、试分析布尔模型的优缺点•缺点–开始时需要猜想把文档分为相关和不相关的两个集合,一般来说很难–实际上这种模型没有考虑关键词在文档中的频率(因为所有的权重都是二值的)–假设关键词之间相互独立第03章文本索引和搜索1、什么是索引?建立索引的目的是什么?常用的索引技术有哪些?–索引是一种数据结构,它在关键词与包含关键词的文档之间建立了一种映射关系,从而加快检索的速度。
•建立索引的目的–加快检索速度•常用的索引技术–倒排索引–后缀数组–签名文件2、什么是倒排索引•倒排索引–也称倒排文档,是从关键词快速查询到文档的索引结构。
文档正常表示为关键词的集合,建立倒排索引是把每个关键词表示为其所在文档的集合,这个过程称为inversion,即倒排。
3、倒排索引的记录表中可以存放哪些内容?•位置信息–形式上:序号或指针–内容上:文档、段落、句子、词•附加信息–特殊位置信息:所在单元(标题、小标题)–权重信息4、倒排索引的建立方法有哪些?各方法具体如何实现?•基于排序的倒排文档建立方法•步骤–在文档中抽取关键词,并在其后附上其文档编号。
即表示成<单词,文档编号>的形式–对抽出的关键词进行排序,使之便于归并相同关键词–对相同关键词进行归并,把合并后的关键词放入倒排文档的词汇表。
统计每一关键词的文档频率作为目长,把每一关键词后的记录号顺序放在记录表中•基于合并的倒排文档建立方法算法–①逐个读取文档,在内存中使用动态数据存储结构(如动态数组、链表等)保存索引,直到占用的内存大小超过一定的阈值为止–②将生成的临时索引结构转存到磁盘,并清空内存–③如果所有文档处理完毕,则转到④;否则,转到①记录表中一般用16位或32位整数表示文档和单词位置的绝对编号,16位容易溢出而32位浪费空间。
解决该问题的方法1、定长整数描述变化:用比较少的字节(如16位)表示编号的相对变化,仅记录相邻位置之间的差异。
《信息检索技术》书中答案

《信息检索技术》书后习题及参考答案(部分)第1章绪论【综合练习】一、填空题1.文献是信息的主要载体,根据对信息的加工层次可将文献分为_________文献、__________文献、___________文献和___________文献。
2.追溯法是指利用已经掌握的文献末尾所列的__________,进行逐一地追溯查找_________的一种最简便的扩大情报来源的方法。
3.用规范化词语来表达文献信息__________的词汇叫主题词。
主题途径是按照文献信息的主题内容进行检索的途径,利用能代表文献内容的主题词、关键词、叙词、并按字顺序列实现检索。
4.计算机信息检索过程实际上是将___________与____________进行对比匹配的过程。
5.无论是手工检索还是计算机检索,都是一个经过仔细地思考并通过实践逐步完善查找方法的过程。
检索过程通常包含以下几个步骤_________、__________、__________、__________、_________。
6.检索工具按信息加工的手段可以分文__________、____________、___________。
7.《中国图书馆图书分类法》共分___________个基本部类,下分________个大类。
8.索引包括4个基本要素:索引源、___________、___________、和出处指引系统。
答案1.零次,一次,二次,三次2.参考文献,引文3.内容特征4.检索提问词,文献记录标引词5.分析课题,选择检索工具,确定检索途径及检索式,进行检索,获取原文6.手工检索工具,机械检索工具,计算机检索工具7.五,228.索引款目,编排方法二、判断题1.在检索信息时,使用逻辑符“AND”可以缩小收缩范围。
()2.逆查法是由近及远地查找,顺着时间的顺序利用检索工具进行文献信息检索的方法。
()3.按编制方法划分,信息检索工具可以分为:手工检索工具、机械检索工具、计算机检索工具。