《信息检索导论》课后习题答案
信息检索技术习题答案(2012版)

答案******************************* 一 ********************************************填空1.数值型文字型(字符)语音型图像型2.原料成品3.信息4.自然人为5.数据文本声音图像6.语义差异传递载体7.外表整体内容8.收集传输加工储存(存储)9.信息形式信息内容10.内在的信息需要外在刺激11.标题词单元词叙词关键词12.线性结构非线性结构树形结构网状结构13.数据预处理索引生成查询处理检索14.信息需求信息集合15.出发点依据16.人工赋予自动生成名词解释1.数据:是指记载下来的事实,是客观实体属性的值,它是由原始事实组成的。
2.信息加工:是指对获取的信息进行判别、筛选、分类、排序、分析、计算和研究等一系列过程,使收集到的信息成为对我们有用的信息资源。
3.信息组织:即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。
4.检索标识:就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。
5.信息检索:可以从广义和狭义两个角度理解。
广义的信息检索是指将信息按一定方式组织和存储起来,并根据用户的需要找出相关信息的过程,其中包括存与取两个方面。
狭义的信息检索仅指信息查找过程。
6.信息检索系统:是指按某种方式、方法建立起来的用于检索信息的一种有层次的体系,是表征有序的信息特征的集合体。
7.检索效果:是指利用检索系统(或工具)开展检索服务时所产生的有效结果。
简答题1.简述了解用户信息需求的作用答:用户信息需求是信息系统发展的动力,也是制定信息政策的出发点和依据。
了解用户需求的特点、心理规律、查询行为及需求方式,有助于系统制订合理的信息搜集方针和信息资源的合理布局,从而提高服务效益和质量。
2020智慧树知道网课《信息检索》课后章节测试满分答案

第一章测试1【判断题】(4分)在大多数情况下,检索的目的是为了找到相关文献,而不是答案。
A.错B.对2【单选题】(4分)关于信息的概念,下面不同定义中不正确的说法是()A.信息是用以消除随机不定性的东西B.信息是指对消息接受者来说预先不知道的报道C.信息是那些只能由计算机进行处理的数据资料D.在计算机技术中,信息是经过组合后具有一定意义,能表明客观属性的数据集合3【单选题】(4分)信息论的创始人是()A.巴达拉科B.维纳C.香农D.野中郁次郎4【单选题】(4分)文献是记录有知识的()A.载体B.纸张C.磁盘D.光盘5【判断题】(4分)文献是记录知识的一切载体,即用文字、图像、符号等手段记录人类知识的各种载体()A.对B.错6【单选题】(4分)文献虽然是信息、知识、记录符号和物质载体的统一体,它的内涵是()A.知识B.专利C.图书D.期刊7【判断题】(4分)知识是人们通过信息对自然办、人类社会以及思维活动规律的认识与掌握,是人的大脑通过思维重新组合的信息集合。
A.错B.对8【单选题】(4分)广义的信息检索包含两个过程()A.存储与利用B.检索与报道C.检索与利用D.存储与检索9【单选题】(4分)小刘计划今天与好友到郊外野营,他从报纸上获得了天气情况良好,于是他们出发了。
不料,中午时分狂风暴雨大作,于是他们埋怨天气预报不准确。
当他回到家里再拿出报纸核实,原来那是几天前的报纸。
经分析,由于小刘对信息的()特征没有做出慎重判断,以致野营不能顺利进行。
A.信息的价值性B.信息的时效性C.信息的来源D.信息的共享性10【单选题】(4分)逻辑运算符包括()A.逻辑非B.A,B和CC.逻辑或D.逻辑与11【单选题】(4分)使用分类语言对信息进行描述和标引,主要是可以把()的信息集中在一起A.A+B+CB.同一主题C.同一作者D.同一学科12【单选题】(4分)根据检索对象不同,信息检索可分为()A.分类检索、主题检索B.数据检索、事实检索、文献检索C.计算机检索、手工检索D.二次检索、高级检索13【单选题】(4分)通过追溯检索获得的相关文献与原文献相比在发表时间上()A.不确定B.晚C.相同D.早14【判断题】(4分)分类检索语言又称分类法,是用分类号和类名来表达信息的主题概念,并且按照知识门类的逻辑次序将信息系统地组织和划分的语言。
信息检索课考题及答案

信息检索上机考试试卷学生姓名:学号:一、作文题:信息检索课主要内容综述。
(将老师课堂讲解的主要内容用自己的话作概述性的总结,以下方式所写论文都以零分计入成绩:①写成日记、②把书本内容抄一部分、③在网上摘一篇信息检索内容小结(与老师讲解内容完全不符)、④同学之间抄袭。
要求字数1000-1200字)(10分)信息检索课主要内容综述在我们迈入21世纪时,在这个信息化、数字化、全球化的知识经济时代,信息已经成为最重要的发展资源之一。
随着现代科学技术尤其是计算机技术和网络技术的迅猛发展,社会信息量速度爆增,信息呈现出爆炸式的增长趋势。
在信息的汪洋之中,存在着大量虚假信息和无用信息,海量规模的文献资源给广大读者带来了新的困惑,从找不到资源转变为不知如何最方便快捷地找到所需资源。
因此,信息检索能力已成为新时代人才的一项必备技能。
而作为新时代的大学生,信息检索能力的培养显得尤为重要。
这一学期,我们有幸学习了《电子文献检索教程》这门课程,使我初步懂得了一些信息检索的基本原理和基本技能,也将会为我往后的学习、工作生活打下坚实的基础。
信息检索是一门关于信息资源的存储、整理和查找的理论及方法的学问。
学习这门课主要是让我们明白信息检索的原理和方法及中外常用的检索工具,及最主要的电子资源文献检索方法和技巧。
在信息检索当中,检索系统也是至关重要的。
检索系统主要由计算机、通信网络、检索终端设备和数据库组成,检索有网络检索、联机检索、光盘检索等类型,检索技术主要有位置检索、字段限定检索、截词检索、布尔检索、自然语言检索等。
一般在不同的数据库里或查找不同的资源中会运用到不同的检索技术。
那么,如何在不同的数据库寻中查找不同的信息资源就至关重要了。
数据库主要有超星数字图书馆、CNKI中国知网、万方数据库、维普咨询中心网站、百链、中国期刊网、EBSCO以及其他外文数据库,其中不同的数据库有不同的数据资源,也有着不同的检索方法。
我们在实验课也着重练习了在不同的数据库、在同一数据库用不同的检索方法寻找信息资源。
信息检索答案

一、名词解释(5x4=20分)1.截词检索:是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。
检索中,计算机会将所有含有相同部分标识的记录全部检索出来。
截词符一般用“?”或“*”表示,但不同的数据库中有所差别。
2.信息检索:信息检索(Information Retrieval)是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
3.查准率:是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。
4.查全率:是指检出的文献数量占数据库中全部相关文献数量的比例。
5.引文索引:是一种将科技期刊、专刊、专题丛书等文献资料所发表的论文后所附的参考文献的作者、题目、出处等项目,按照引证与被引证的关系进行排列而编制的索引。
二、简答(5x6=30分)1.查找国内外学位与会议论文分别有哪些数据库?每类中分别举2个英文数据库(包括全称、简称与中译)和1个中文数据库。
(1)国内外的学位论文数据库包括索引与摘要数据库和全文数据库,如CALIS的《学位论文库》,万方数据资源系统《中国学位论文数据库》,CNKI的《优秀硕博士论文数据库》,美国博硕士论文库PQDD(ProQuest Digital Dissertations),美国学位论文网络数字图书馆NDLTD (Networked Digital Library of Thesis and Dissertations)等。
(2)会议论文数据库包括:会议论文索引与摘要,如CALIS会议论文数据库,万方数据资源系统《中国学术会议论文数据库》,OCLC会议数据库——《在会议上提交的文章索引》(Papers First),《会议出版物索引》(Proceedings),Web of Knowledge的会议录引文索引CPCI(Conference Proceedings Citation Index)。
2.布尔逻辑检索的主要运算符有哪些?它们各代表什么含义?请分别举一例说明。
信息检索答案

1、信息素养或素质的具体内容有那些?答:信息素质是指用户在利用以计算机及其网络技术为代表的现代科学技术进行知识学习、成长的过程中,逐步形成的制动参与信息活动、自觉应用信息技术的意识、态度、理念及具备的获取、识别、加工、处理、传递、创造信息的能力和利用信息去解决实践问题的能力。
它包括强烈的信息意识、系统化的信息理念、综合信息能力等内容。
2、信息、知识、情报、文献的概念?文献的组成要素?答:信息的概念:1、信息是人们根据一定目的和需要,把从自然现象和社会现象中搜集的原始材料进行加工、处理,找出其中关系而形成的对象实体。
2、信息是有一定含义的、经过加工处理的、对决策有价值的的数据,即信息=数据+处理3、信息是人们对数据进行系统组织、整理和分析,使其产生相关性,但没有与特定用户行动相关性的实体对象,信息可以被数字化。
知识的概念:知识是指人们在认识世界、改造世界中所获得的认知,包括通过阅读、学习等方式的认知和通过自己或他人的历练所积累的一切经验的总结。
情报的概念:是被人们所利用的信息、被人们感受并可交流的信息。
文献的概念:是记录有知识的一切载体。
文献的组成要素:不但包括现代图书馆的全部馆藏,同时也包括了档案馆、博物馆、声像馆和情报中心收藏的全部馆藏。
3、信息、信息资源包括那些类型?答:1)信息的类型:从产生信息的客体的性质来分,可分为自然信息(瞬时发生的声、光、热、电、形形色色的天气变化、缓慢的地壳运动、天体演化……)、生物信息(生物为繁衍生存而表现出来的各种形态和行为,如遗传信息、生物体内信息交流、动物种群内的信息交流)、机器信息(自动控制系统)和(人类)社会信息。
以信息所依附的载体为依据,可分为文献信息、口头信息、电子信息、生物信息等2)信息资源类型:根据存储媒介不同,信息资源可以划分为印刷型信息资源、电子信息资源、数字信息资源和多媒体信息资源。
4、文献有那些类型?将文献划分成这些类型的依据是什么?答:1)根据载体材料、存储技术、和传递方式划分可划分为:印刷型、缩微型、试听型和机读型文献信息源2)根据加工程度的不同划分可分为:一次文献信息源、二次文献信息源、和三次文献信息源3)根据文献信息源的内容划分可以分为:图书、期刊、报纸、科技报告、政府出版物、会议文献、专利文献、学位论文、标准文献、档案文献、产品样本5、信息(文献)检索的方法与途径,详细论述检索步骤?答:1、分析研究课题,明确检索要求:分析课题的主要内容、确定课题的文献类型、确定检索时间范围、分析用户的检索评价要求2、选择检索工具:根据检索课题的要求,选择最能满足检索要求的检索工具书,不同的资料类型就应该选用不同的数据库3、确定检索策略:确定检索途径、制定检索策略4、调整检索方案:确定了具体的检索方法之后,就要利用所用数据库,在一定的年代范围内具体查找,以获得文献线索。
信息检索参考答案

名词解释信息是事物运动的状态与方式,是物质的一种属性。
,“信息即事物运动的状态与方式”这个定义具有最大的普遍性,不仅能涵盖所有其它的信息定义,还可以通过引入约束条件转换为所有其它的信息定义。
《四库全书总目》为我国古代最巨大的官修图书目录。
四库全书的馆臣们,对誊录入库的3400余种图书(称“著录书”)和抄存卷目的6700余种图书(称“存目书”)全部写出提要,这就是《四库全书总目提要》,或简称《四库总目》。
URL是Uniform Resource Location的缩写,译为“统一资源定位符”。
通俗地说,URL是Internet上用来描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上,特别是著名的Mosaic。
采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。
中国知网是全球领先的数字出版平台,是一家致力于为海内外各行各业提供知识与情报服务的专业网站。
目前中国知网服务的读者超过4000万,中心网站及镜像站点年文献下量突破30亿次,是全球倍受推崇的知识服务品牌。
综述是指就某一时间内,作者针对某一专题,对大量原始研究论文中的数据、资料和主要观点进行归纳整理、分析提炼而写成的论文。
综述属三次文献,专题性强,涉及范围较小,具有一定的深度和时间性,能反映出这一专题的历史背景、研究现状和发展趋势,具有较高的情报学价值。
阅读综述,可在较短时间内了解该专题的最新研究动态,可以了解若干篇有关该专题的原始研究论文计算机检索指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出需要的信息,继而再有终端设备显示或打印的过程。
《辞海》是中国最大的综合性辞典。
《辞海》是以字带词,兼有字典、语文词典和百科词典功能的大型综合性辞典。
简答信息素养的构成要素之间的关系是什么?布尔逻辑运算符的含义(书本276)什么是数字资源数字资源是文献信息的表现形式之一,是将计算机技术、通信技术及多媒体技术相互融合而形成的以数字形式发布、存取、利用的信息资源总和。
信息检索概论思考题答案

第一章信息检索概论思考题:1.什么是信息?简述信息的特点和分类?我们认为,信息是事物或事物之间不确定性的量度,即负熵。
掌握的信息越多,所需认识的事情的确定性就会越少。
信息由信源,信宿和信道(载体)构成。
信息的特点:(1)客观真实性:客观、真实是信息的最重要的本质特性(2)普遍性:信息是物质的普遍属性,物质是具有普遍性,所以信息也拥有该特性(3)针对性:信息的作用和价值可以随着接受者的不同而不同(4)传递性:过程:信息源(信息的发出者)——>编码—>信道(载体)—>译码—>信宿(信息的接收者)信息源:是信息的发出者信宿:是信息的接收者信息的传播是双向的,多维的。
信息源和信宿是相对的,也是可以相互转换的。
信道:就是在传播过程中,编码经过的物理通道(5)时效性:指信息发出、接收到利用的时间间隔及效率,也包括信息的本身更新速度。
客观物质不断的变化,反映事务的运动状态和运动方式的信息也会发展变化一般而言,随着时间的推移,信息的价值会逐渐减少也有反例:如考古信息(恐龙、古钱币),年代越久,使用价值越大衡量信息的时效性参数不只是时间参数,还有地理环境(6)可转换性:信息可以从一种形态转换成另一种形态(7)可处理性(可识别性):可以通过人们的感觉器官所感知,也可以通过仪表、器械来检测进而予以识别。
(8)可共享性:指同一内容的信息可以在同一时间里被若干个用户使用,此时信息载体本身的信息量不会被磨损、消失信息的类型:(1)按信息表现形式划分,可分为文字信息,图象信息,数值数据信息,语音信息。
▪文字信息:文字是人们为了实现信息交流、通信联系所创造的一种约定的形象符号。
▪图象信息:图象(形)是一种视角信息,它比文本信息直接,易于理解。
如,一幅画、一部电影。
▪数值数据信息:数值数据是“信息的数字形式”或“数字化的信息形式”。
▪语音信息:人讲话实际是大脑的某种编码形式的信息转换成的语言信息的输出,是一种最普遍的信息表现形式。
信息检索概论思考题答案

信息检索概论思考题答案第⼀章信息检索概论思考题:1.什么是信息?简述信息的特点和分类?我们认为,信息是事物或事物之间不确定性的量度,即负熵。
掌握的信息越多,所需认识的事情的确定性就会越少。
信息由信源,信宿和信道(载体)构成。
信息的特点:(1)客观真实性:客观、真实是信息的最重要的本质特性(2)普遍性:信息是物质的普遍属性,物质是具有普遍性,所以信息也拥有该特性(3)针对性:信息的作⽤和价值可以随着接受者的不同⽽不同(4)传递性:过程:信息源(信息的发出者)——>编码—>信道(载体)—>译码—>信宿(信息的接收者)信息源:是信息的发出者信宿:是信息的接收者信息的传播是双向的,多维的。
信息源和信宿是相对的,也是可以相互转换的。
信道:就是在传播过程中,编码经过的物理通道(5)时效性:指信息发出、接收到利⽤的时间间隔及效率,也包括信息的本⾝更新速度。
客观物质不断的变化,反映事务的运动状态和运动⽅式的信息也会发展变化⼀般⽽⾔,随着时间的推移,信息的价值会逐渐减少也有反例:如考古信息(恐龙、古钱币),年代越久,使⽤价值越⼤衡量信息的时效性参数不只是时间参数,还有地理环境(6)可转换性:信息可以从⼀种形态转换成另⼀种形态(7)可处理性(可识别性):可以通过⼈们的感觉器官所感知,也可以通过仪表、器械来检测进⽽予以识别。
(8)可共享性:指同⼀内容的信息可以在同⼀时间⾥被若⼲个⽤户使⽤,此时信息载体本⾝的信息量不会被磨损、消失信息的类型:(1)按信息表现形式划分,可分为⽂字信息,图象信息,数值数据信息,语⾳信息。
⽂字信息:⽂字是⼈们为了实现信息交流、通信联系所创造的⼀种约定的形象符号。
图象信息:图象(形)是⼀种视⾓信息,它⽐⽂本信息直接,易于理解。
如,⼀幅画、⼀部电影。
数值数据信息:数值数据是“信息的数字形式”或“数字化的信息形式”。
语⾳信息:⼈讲话实际是⼤脑的某种编码形式的信息转换成的语⾔信息的输出,是⼀种最普遍的信息表现形式。
(完整word版)《信息检索导论》课后习题答案

《信息组织与检索》作业答案第一章布尔检索习题1-2考虑如下几篇文档:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵;b. 画出该文档集的倒排索引(参考图1-3中的例子)。
Term-Documentmatrix:1 2 3 4approach 0 0 1 0breakthrough 1 0 0 0drug 1 1 0 0for 1 0 1 1hopes 0 0 0 1new 0 1 1 1of 0 0 1 0patients 0 0 0 1schizophrenia 1 1 1 1treatment 0 0 1 0Inverted Index:approach -> 3breakthrough ->1drug ->1->2for ->1->3->4hopes ->4new ->2->3->4of ->3patients ->4schizophrenia ->1->2->3->4treatment >3注意:倒排索引中的词表(dictionary)和每个词项的倒排列表(posting list)需要排序,便于查找。
这里我们暂不考虑词的正规化处理(如hopes->hope)。
补充习题1写出AND查询的伪代码面向过程风格的伪代码:给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId查询结果存放在answer列表里。
这里应用了“化归”思想(将新问题转化归为旧问题来解决)。
信息检索习题以及答案

《大学生信息检索概论》模拟试题一、填空题1、文献的级次分为零次文献、一次文献、二次文献、三次文献2、《中图法》有五个基本部类,分别就是马克思主义、列宁主义、毛泽东思想_、哲学;社会科学;自然科学与综合性图书,在此基础上又划分为_22_个大类。
3、按内容可将计算机检索系统的数据库类型分为: 文献书目型数据库、事实型数据库、数值型数据库与全文型数据库。
4、我国标准可分为国家标准、部标准与企业标准三大类。
5、在实际检索中,文献的检索方法主要有: 直查法、追溯法、工具法与综合法。
6、国际标准化组织简称:ISO 、本标准每5 年修订一次二、选择题1、如果需要检索某位作者的文献被引用的情况,应该使用( C )检索。
A.分类索引B.作者索引C.引文索引D.主题索引2、利用图书馆的据库检索期刊论文时,可供选择的中文数据库就是( D )。
A.超星数字图书馆B.万方学位论文C.国研网D.维普科技期刊 E、高校财经库3、如果检索有关多媒体网络传播方面的文献,检索式为(A D)。
A.多媒体and 网络传播B.多媒体+网络传播C.多媒体or 网络传播D.多媒体*网络传播4、如果对某个课题进行主题检索时,可选择的检索字段有( A D E )。
A.关键词B.作者C.刊名D.题名E.文摘5、二次文献又称检索工具,包括:( A C D )。
A.书目B.百科C.索引D.文摘E.统计数据一、单项选择题 (请将正确答案的序号填在括号内,每题1、5分,共30分)1、文献就是记录有知识的( A )A 载体B 纸张C 光盘D 磁盘2、下列哪种文献属于一次文献( A )A 期刊论文B 百科全书C 综述D 文摘3、下列哪种文献属于二次文献( D )A 专利文献B 学位论文C 会议文献D 目录4、下列哪种文献属于三次文献( C )A 标准文献B 学位论文C 综述D 文摘5、下列选项中属于连续出版物类型的选项有( C )A 图书B 学位论文C 科技期刊D 会议文献6、下列选项中属于特种文献类型的有( D )A 报纸B 图书C 科技期刊D 标准文献7、纸质信息源的载体就是( D )A 光盘B 缩微平片C 感光材料D 纸张8、以刊载新闻与评论为主的文献就是 ( B )A 图书B 报纸C 期刊D 会议文献9、使用分类语言对信息进行描述与标引,主要就是可以把( B )的信息集中在一起。
信息检索参考答案

一、选择题1、字段代码JN、DE、TI分别代表(A )50页A·刊名字段、主题字段、标题字段B·文摘号、文献类型、文摘字段C·分类号、机构来源、公司2、在信息检索技术中,算符AND、OR、NOT指的是哪一中信息检索技术方法(C )A、截词检索B、位置检索C、布尔检索3、在主题语言中,不能再分解的、最小的并经过规范化处理的词语是( D )A 关键词语言B标题语言C 叙词语言 D单元词语言3、查找“中国计算机学会”的有关资料使用下列那种工具书?(A )A、《学术世界》B、《世界知识年鉴》C、《世界地名录》4、在主题语言中,不能再分解的、最小的并经过规范化处理的是(D)A、关键词语言B、标题语言C、叙词语言D、单元词语言5、中国高等教育文献保障体系的英文简称是( C )A. OCLCB. CALISC. CERNET6、全文搜索引擎以( B )检索为主。
A网站B网页C网页全文6、布尔逻辑算符构造的检索提问式“A-B”的检索结果是( A )A 只含有A 的文献B 不含B的文献C 同时含有A和B的文献D 含有A而不含B的文献7、自然语言检索标识包括下列那一组选项( C )A、类号、类名B标题词、叙词C、著者姓名、题名8、三次文献是在合理利用二次文献的基础上,对一次文献内容进行归纳综合撰写的专著。
下列属于三次文献的是( C )A报纸、教材、期刊目录B图书、专利、产品资料C手册、述评、进展报告9、根据检索的目的和要求,信息检索常用的方法可分为( B )三种:A合取法、交替法、限定法B直接法、追溯法、综合法C排除法、跟踪法、引文法10、就书目而言,下列何种书目为推荐书目( C )A全国总书目全国新书目B馆藏目录专题目录C每周新书目中外名著目录11、字段代码AU、AB、 PY所代表的字段是(B)A标题、注释、文摘类型B著者、文摘、出版年C叙词、分类、语言12、手册的别称很多,下列正确的一组是(A)A指南、须知、便览B大全、提要、综录C题记入门、必备手册的别称很多有指南、便览、大全、必备、须知、入门等。
信息检索答案

第一章(共58題)1.下列哪项工具书不是资料性工具书()。
DA.类书 B.百科全书 C.年鉴 D.索引2.下列哪项工具书是资料性工具书()。
CA.字典 B.书目 C.年鉴 D.索引3.检索工具的特点是()。
CA.完整性、分散性、查考性 B.综合性、参考性、易检性C.完整性、易检性、查考性 D.易检性、综合性、分散性4.下列哪项不是印刷版工具书的排检方法()。
BA.部首法 B.检索词 C.拼音法 D.笔画笔形法5.高级检索不包括的检索技术是()。
CA.截词检索 B.布尔逻辑检索 C.嵌入检索 D.位置检索6.布尔逻辑运算符中表示逻辑“与”的符号是()。
CA.+ B.- C. * D./7. 布尔逻辑运算符中表示逻辑“或”的符号是()。
AA.+ B.- C. * D./8. 布尔逻辑运算符中表示逻辑“非”的符号是()。
BA.+ B.- C. * D./9.高级检索的检索特点是()。
DA.组配检索、清晰检索、限定检索 B.清晰检索、限定检索、模糊检索C.组配检索、清晰检索、模糊检索 D.组配检索、模糊检索、限定检索10.“中国???大学”这个检索词中,中间共嵌入了几个检索词()。
AA.3个 B.6个 C.9个 D.不确定11.WWW检索工具,主要检索WWW站点上的资源,通常称为搜索引擎,常用的搜索引擎有很多,下列哪个不是搜索引擎的网址()。
DA. B.C. D.12. 信息检索中的检索词可分为四类,下列哪一项不属于检索词的分类()。
DA.表示主题的检索词 B.表示作者的检索词C.表示分类的检索词 D.表示数据的检索词13.手册的基本特点是()。
DA.侧重揭示文献内部特征B.内容新颖,连续出版C.著录内容标明出处D.所收资料侧重基础知识,注重实用性14书目数据库主要提供的是()BA.一次文献B.二次文献C.三次文献D.零次文献15.索引数据库主要提供的是()BA.一次文献B.二次文献C.三次文献D.零次文献16.被称为“检索性文献”的文献是()BA.一次文献B.二次文献C.三次文献D.零次文献17.被称为“线索性文献”的文献是()BA.一次文献B.二次文献C.三次文献D.零次文献18.综述主要提供的是()CA.一次文献B.二次文献C.三次文献D.零次文献19.述评主要提供的是()CA.一次文献B.二次文献C.三次文献D.零次文献20.一次文献具有的特点是()AA.原创性 B.检索性 C.综合性 D.参考性21.二次文献具有的特点是()BA.原创性 B.检索性 C.综合性 D.参考性22.三次文献具有的特点是()DA.原创性 B.检索性 C.分散性 D.参考性23.被称为“参考性文献”的文献是()CA.一次文献B.二次文献C.三次文献D.零次文献24.被称为“研究文献的文献”的是()CA.一次文献B.二次文献C.三次文献D.零次文献25.被称为“原始文献”的文献是()AA.一次文献B.二次文献C.三次文献D.零次文献26.被称为“第一手资料”的文献是()AA.一次文献B.二次文献C.三次文献D.零次文献27.下列哪项是年鉴的基本特征:()BA.揭示文献内容出处B.连续出版C.以编年形式D.提供形象化资料28.供寻检、征引、辑佚历史文献之用的资料工具书称为()。
信息检索导论课后答案

信息检索导论课后答案【篇一:信息检索导论王斌译第一章课后习题答案】casts 1 1home 4 1 2 3 4in2 2 3increase 1 3july3 2 3 4new2 1 4rise2 2 4sales4 1 2 3 4top1 1把所有文档中的词抽取,按顺序排序。
倒排记录也要按顺序排列,文档频率(几个文档中出现该词)要写习题 1-2a题1234approach 0 0 1 0breakthrough1 0 0 0drug 1 1 0 0for 1 0 1 1hope 0 0 0 1new 0 1 1 1of0 0 1 0patient 0 0 0 1schizophrenia1 1 1 1treatment0 0 1 0矩阵行是词,按顺序排列;列方向是文档编号。
某文档出现某词,相应位置填 1,否则填 0 b 题approach 1 3breakthrough 1 1drug 2 1 2for3 1 3 4hope 1 4new3 2 3 4of1 3patient 1 4schizophrenia 4 1 2 3 4treatment 1 3习题 1-71. kaleidoscope or eyes87009+2133122. marmalade or skies 107913+2716583. tangerine or trees46653+316812按估计的记录个数,从小到大的顺序124113145173174p2 31 54 101q11 2 4 11 31 45 54 101 173 174相等把文档编号添加到结果集,两个一起往后移;不相等小的往后移习题 1-10answer -while p1!=nil or p2!=nildo if docid(p1)=docid(p2)then add(answer,docid(p1))p1-next(p1)p2-next(p2)else if docid(p1)docid(p2)add(answer,docid(p1))p1-next(p1)elseadd(answer,docid(p2))p2-next(p2) return answer【篇二:信息检索导论-王斌第三次课后作业 (13-21) 】xt>1 、习题 13-2答: (i) 贝努利模型:三个文档具有相同的模型表示(ii) 多项式模型:文档 1 和文档 2 相同,文档 3 与它们都不同。
信息检索参考答案

一、选择题1、字段代码JN、DE、TI分别代表(A )50页A·刊名字段、主题字段、标题字段B·文摘号、文献类型、文摘字段C·分类号、机构来源、公司2、在信息检索技术中,算符AND、OR、NOT指的是哪一中信息检索技术方法(C )A、截词检索B、位置检索C、布尔检索3、在主题语言中,不能再分解的、最小的并经过规范化处理的词语是( D )A 关键词语言B标题语言C 叙词语言 D单元词语言3、查找“中国计算机学会”的有关资料使用下列那种工具书?(A )A、《学术世界》B、《世界知识年鉴》C、《世界地名录》4、在主题语言中,不能再分解的、最小的并经过规范化处理的是(D)A、关键词语言B、标题语言C、叙词语言D、单元词语言5、中国高等教育文献保障体系的英文简称是( C )A. OCLCB. CALISC. CERNET6、全文搜索引擎以( B )检索为主。
A网站B网页C网页全文6、布尔逻辑算符构造的检索提问式“A-B”的检索结果是( A )A 只含有A 的文献B 不含B的文献C 同时含有A和B的文献D 含有A而不含B的文献7、自然语言检索标识包括下列那一组选项( C )A、类号、类名B标题词、叙词C、著者姓名、题名8、三次文献是在合理利用二次文献的基础上,对一次文献内容进行归纳综合撰写的专著。
下列属于三次文献的是( C )A报纸、教材、期刊目录B图书、专利、产品资料C手册、述评、进展报告9、根据检索的目的和要求,信息检索常用的方法可分为( B )三种:A合取法、交替法、限定法B直接法、追溯法、综合法C排除法、跟踪法、引文法10、就书目而言,下列何种书目为推荐书目( C )A全国总书目全国新书目B馆藏目录专题目录C每周新书目中外名著目录11、字段代码AU、AB、 PY所代表的字段是(B)A标题、注释、文摘类型B著者、文摘、出版年C叙词、分类、语言12、手册的别称很多,下列正确的一组是(A)A指南、须知、便览B大全、提要、综录C题记入门、必备手册的别称很多有指南、便览、大全、必备、须知、入门等。
信息检索课后答案

作业习题《信息检索》思考题及参考答案(根据新编教学大纲内容选答)第一讲信息检索基础知识1.简述大学图书馆的地位和作用。
大学图书馆是大学的文献信息中心,是为教学和科研服务的学术性机构,是学校信息化和社会信息化的重要基地。
高等学校图书馆的工作是学校教学和科学研究工作的重要组成部分。
现代化的大学图书馆与学校高水平的教师队伍、先进的教学实验设备,共称为现代化大学的三大支柱。
大学图书馆既是是学校的文献信息中心又是学习资源中心,是培养人才的重要基地,是自学深造的场所,是学生构建合理知识结构的第二课堂。
2.简述信息、知识、文献的概念及相互关系。
答:信息的概念:一般来说,信息是指与客观事物相联系,反映客观事物的运动状态,通过一定的物质载体被发出、传递和感受,对接受对象的思维产生影响并用来指导接受对象的行为的一种描述。
从本质上说,信息是反映现实世界的运动、发展和变化状态及规律的信号与消息。
知识的概念:知识是人类通过信息对自然界、人类社会以及思维方式与运动规律的认识和掌握,是人的大脑通过思维重新组合的系统化的信息的集合。
知识是人类在改造客观世界的实际中所获得的认识和经验的总和,是信息的一部分,是一种特定的人类信息。
文献的概念:文献是记录有知识的一切物质载体。
具体地说是用文字、图形、符号、声频、视频等技术手段记录人类知识的一切物质载体。
信息、知识和文献之间的关系是:信息是事物发出的消息,信息经过人脑加工形成知识。
只有将自然现象和社会现象的信息经过加工,上升为对自然和社会发展客观规律的认识,这种再生信息才构成知识。
知识信息被记录在载体上就形成文献。
3.何谓信息资源?网络信息资源有何特点?所谓信息资源,就是信息的来源。
各种客观存在的、可供人们直接或间接开发与利用的信息的集合总称为信息资源。
网络信息资源具有数量大、类型多、多媒体、非规范、跨时间、跨地域、跨行业、多语种等特点。
正式出版物和非正式信息交流交织在一起,使传统的人类信息交流链的格局被打破,各方在网络上既可以是信息的生产者、发布者,也可以是传播者和使用者,对学术交流环境和信息利用产生了深刻的影响。
《信息检索导论》课后习题答案

《信息组织与检索》作业答案第一章布尔检索习题1-2考虑如下几篇文档:文档1 breakt hrough drug for schizo phren ia文档2 new schizo phren ia drug文档3 new approa ch for treatm ent of schizo phren ia文档4 new hopesfor schizo phren ia patien tsa. 画出文档集对应的词项—文档矩阵;b. 画出该文档集的倒排索引(参考图1-3中的例子)。
Term-Docume ntmat rix:1 2 3 4approa ch 0 0 1 0breakthroug h 1 0 0 0drug 1 1 0 0for 1 0 1 1hopes0 0 0 1new 0 1 1 1of 0 0 1 0patien ts 0 0 0 1schizophren ia 1 1 1 1treatm ent 0 0 1 0Invert ed Index:approa ch -> 3breakt hroug h ->1drug ->1->2for ->1->3->4hopes->4new ->2->3->4of ->3patien ts ->4schizo phren ia ->1->2->3->4treatm ent >3注意:倒排索引中的词表(dictio nary)和每个词项的倒排列表(p ostin g list)需要排序,便于查找。
这里我们暂不考虑词的正规化处理(如hopes->hope)。
补充习题1写出AND查询的伪代码●面向过程风格的伪代码:给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId查询结果存放在ans wer列表里。
信息检索题目答案

4、信息检索在发展过程中经历了那些阶段?20世纪中期以前,手工式阶段20世纪中期,机械式阶段3、试分析布尔模型的优缺点•缺点–开始时需要猜想把文档分为相关和不相关的两个集合,一般来说很难–实际上这种模型没有考虑关键词在文档中的频率(因为所有的权重都是二值的)–假设关键词之间相互独立第03章文本索引和搜索1、什么是索引?建立索引的目的是什么?常用的索引技术有哪些?–索引是一种数据结构,它在关键词与包含关键词的文档之间建立了一种映射关系,从而加快检索的速度。
•建立索引的目的–加快检索速度•常用的索引技术–倒排索引–后缀数组–签名文件2、什么是倒排索引•倒排索引–也称倒排文档,是从关键词快速查询到文档的索引结构。
文档正常表示为关键词的集合,建立倒排索引是把每个关键词表示为其所在文档的集合,这个过程称为inversion,即倒排。
3、倒排索引的记录表中可以存放哪些内容?•位置信息–形式上:序号或指针–内容上:文档、段落、句子、词•附加信息–特殊位置信息:所在单元(标题、小标题)–权重信息4、倒排索引的建立方法有哪些?各方法具体如何实现?•基于排序的倒排文档建立方法•步骤–在文档中抽取关键词,并在其后附上其文档编号。
即表示成<单词,文档编号>的形式–对抽出的关键词进行排序,使之便于归并相同关键词–对相同关键词进行归并,把合并后的关键词放入倒排文档的词汇表。
统计每一关键词的文档频率作为目长,把每一关键词后的记录号顺序放在记录表中•基于合并的倒排文档建立方法算法–①逐个读取文档,在内存中使用动态数据存储结构(如动态数组、链表等)保存索引,直到占用的内存大小超过一定的阈值为止–②将生成的临时索引结构转存到磁盘,并清空内存–③如果所有文档处理完毕,则转到④;否则,转到①记录表中一般用16位或32位整数表示文档和单词位置的绝对编号,16位容易溢出而32位浪费空间。
解决该问题的方法1、定长整数描述变化:用比较少的字节(如16位)表示编号的相对变化,仅记录相邻位置之间的差异。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《信息组织与检索》作业答案第一章布尔检索习题1-2考虑如下几篇文档:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵;b. 画出该文档集的倒排索引(参考图1-3中的例子)。
Term-Documentmatrix:1234approach0010breakthrough1000drug1100for1011hopes0001new0111of0010patients0001schizophrenia1111treatment0010Inverted Index:approach -> 3breakthrough ->1drug ->1->2for ->1->3->4hopes ->4new ->2->3->4of ->3patients ->4schizophrenia ->1->2->3->4treatment >3注意:倒排索引中的词表(dictionary)和每个词项的倒排列表(posting list)需要排序,便于查找。
这里我们暂不考虑词的正规化处理(如hopes->hope)。
补充习题1写出AND查询的伪代码●面向过程风格的伪代码:给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId查询结果存放在answer列表里。
这里应用了“化归”思想(将新问题转化归为旧问题来解决)。
这里,比较两排序列表的首元素,排除较小的docId(不可能有匹配)后,我们构造出新的剩余列表,再次进行两列表的首元素的比较。
While p1 != null AND p2 != nullIf p1->docId==p2->docId //对两(剩余)列表的首元素进行比较insert(answer, p1);p1=p1->next;//构造新的剩余列表,迭代执行p2=p2->next;//Else if p1->docId < p2->docIdp1=p1->next;//p1->docId不可能有匹配;构造新的剩余列表Elsep2=p2->next;//p2->docId不可能有匹配;构造新的剩余列表End●面向对象风格的伪代码:注:为一个数据结构(对象)定义方法,通过方法操作自己的内部数据(List对象里隐含包含了一个成员变量,它是真正的链表或变长数组)。
While list1.currentItem() != null AND list2.currentItem() != nullIf list1.currentItem().getDocId() == list2.currentItem().getDocId()answer.insert(list1.currentItem());list1.moveToNext();list2.moveToNext();Else if list1.currentItem().getDocId() < list2.currentItem().getDocId()list1.moveToNext();Elselist2.moveToNext();End习题1-10写出OR查询的伪代码●面向过程风格的伪代码:给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId;查询结果存放在answer列表里。
While p1 != null AND p2 != nullIf p1->docId == p2->docIdinsert(answer, p1);p1=p1->next;p2=p2->next;//构造新的剩余列表,迭代执行Else if p1->docId < p2->docIdinsert(answer, p1);p1=p1->next;//构造新的剩余列表,迭代执行Elseinsert(answer, p2);p2=p2->next;//构造新的剩余列表,迭代执行EndWhile p1 != null//条件为真时,加入list1的剩余元素(此时list2已遍历到结尾)insert(answer, p1);p1=p1->next;ENDWhile p2 != null//条件为真时,加入list2的剩余元素(此时list1已遍历到结尾)insert(answer, p2);p2=p1->next;END●面向对象风格的伪代码:While list1.currentItem() != null AND list2.currentItem() != nullIf list1.currentItem().getDocId() == list2.currentItem().getDocId()answer.insert(list1.currentItem());list1.moveToNext();list2.moveToNext();Else if list1.currentItem().getDocId() < list2.currentItem().getDocId()answer.insert(list1.currentItem());list1.moveToNext();Elseanswer.insert(list2.currentItem());list2.moveToNext();EndWhile list1.currentItem() != nullanswer.insert(list1.currentItem());list1.moveToNext();ENDWhile list2.currentItem() != nullanswer.insert(list2.currentItem());list2.moveToNext();END补充习题2若一个文集有1000篇文档,有40篇是关于信管专业建设的。
我的信息需求是了解信管专业的专业建设情况,用某搜索引擎在这个文集上搜索,查询词为“信管”,搜出100篇包含“信管”的文档,这其中有20篇是信管专业建设方面的,其它80篇是关于信管的其它情况。
请问该查询的正确率和召回率是多少正确率=20/100=0.2召回率=20/40=0.5第二章词项词典及倒排记录表习题2-1a.在布尔检索系统中,进行词干还原从不降低正确率。
错;相当于扩充出同一个词干表示的多个词,会降低正确率。
b.在布尔检索系统中,进行词干还原从不降低召回率。
对。
c. 词干还原会增加词项词典的大小。
错。
d. 词干还原应该在构建索引时调用,而不应在查询处理时调用。
错;应同时做才能保证索引中和查询词的匹配。
习题2-2请给出如下单词的归一化形式(归一化形式也可以是词本身)。
a. ’Cos -> cosb. Shi’ite -> shiite('是隔音号)c. cont’d ->contd(contd. 可表示contained 包括;continued 继续)d. Hawai’i ->hawaiie. O’Rourke ->orourke习题2-3如下词经过Porter词干还原工具处理后会输出同样的结果,你认为哪对(几对)词不应该输出同样的结果?为什么?a. abandon/abandonmentb. absorbency/absorbentc. marketing/marketsd. university/universee. volume/volumes按Porter词干还原算法,这几组词都可以被还原为相应的词干。
但是这里问的是哪些组做词干还原不合适,原因是某组的两个词虽然来源于同一个词干,但是它们的意思不同,如果做词干还原处理会降低正确率。
c组不做词干还原。
marketing表示营销,market表示市场。
d组不做词干还原。
university表示大学,universe表示宇宙。
习题2-6对于两个词组成的查询,其中一个词(项)的倒排记录表包含下面16个文档ID:[4,6,10,12,14,16,18,20,22,32,47,81,120,122,157,180]而另一个词(项)对应的倒排记录表仅仅包含一个文档ID:[47]请分别采用如下两种策略进行倒排记录表合并并计算所需要的比较次数,同时简要地说明计算的正确性。
a.使用标准的倒排记录表。
比较:(4,47), (6,47), (10,47), (12,47), (14,47), (16,47), (18,47), (20,47), (22,47), (32,47), (47,47)。
共比较11次。
b.使用倒排记录表+跳表的方式,跳表指针设在P1/2处(P是列表长度)。
P=16。
也就说第一个列表的跳表指针往后跳4个元素。
下图蓝色表示安装了跳表指针的元素,其中120跳到180上。
[4,6,10,12,14,16,18,20,22,32,47,81,120,122,157,180]比较:(4,47), (14,47), (22,47), (120,47), (32,47), (47,47)。
共比较6次。
习题2-9下面给出的是一个位置索引的一部分,格式为:词项: 文档1: (位置1, 位置2, …); 文档2: (位置1, 位置2, …);angels: 2: (36,174,252,651); 4: (12,22,102,432); 7: (17);fools:2: (1,17,74,222); 4: (8,78,108,458); 7: (3,13,23,193);fear:2: (87,704,722,901); 4: (13,43,113,433); 7: (18,328,528);in:2:(3,37,76,444,851); 4: (10,20,110,470,500); 7: (5,15,25,195);rush:2:(2,66,194,321,702); 4: (9,69,149,429,569); 7: (4,14,404);to:2:(47,86,234,999); 4: (14,24,774,944); 7: (199,319,599,709);tread:2: (57,94,333); 4: (15,35,155); 7: (20,320);where:2: (67,124,393,1001); 4: (11,41,101,421,431); 7: (16,36,736);那么哪些文档和以下的查询匹配?其中引号内的每个表达式都是一个短语查询。