信息检索导论-王斌 第一次课后练习(1-4)

合集下载

信息检索题库答案

信息检索题库答案

四川师范大学信息检索课后作业1.(第1章•单选)联合国教科文组织分别于2003年和2005年召开了以(A)为主题的世界性大会,并发布了《布拉格宣言》和《亚历山大宣言》。

A、信息素养B、信息安全C、信息检索D、信息评价2.(第1章•多选)信息素养的基本构成具体包括()A、信息知识B、信息意识C、信息能力D、信息伦理3.(第1章•多选)信息意识具体包括()。

A、充分认识到信息在学习、工作和生活中的重要作用,遇到问题时首先应该想到通过信息的获取和利用来解决所遇到的问题;B、对信息具有敏锐的感知力和洞察力,能高效、快速识别有价值的信息,善于从所获取的信息中找出解决问题的思路、线索或方案;C、对信息具有积极的内在需求,善于根据社会需要主动发现自身的信息需求;D、具有通过获取信息强化自身学习能力的想法和观念,遇到不懂的东西能积极主动的通过获取信息找寻答案。

4.(第1章•多选)关于信息素养教育,下列说法正确的是()。

A、信息素养教育的第一个层次是拓展视野,使人们知道这个世界上原来还有这么多信息资源。

B、信息素养教育的第二个层次是训练信息获取能力,使人们知道如何获取所需要的信息。

C、信息素养教育的第三个层次是培养信息利用能力,使人们具有敏锐的信息意识和利用信息解决问题的能力。

D、信息素养教育的目标是培养终身学习能力,而信息素养教育自身也是一个终身学习的过程,信息素养教育与终身学习能力是一个相互促进、螺旋提升的关系。

5.(第1章•多选)信息素养是指:基于(),通过确定、检索、获取、评价、管理、应用信息解决所遇到的问题并以此重构自身知识体系的综合能力和基本素质。

A、信息意识B、信息知识C、信息伦理D、信息评价6.(第1章•多选)2000年1月18日,美国大学与研究图书馆协会()标准委员会审议通过了《高等教育信息素养能力标准》,其中包含5项标准和22项具体指标。

下列属于5项标准的是()。

A、具有信息素养的学生能够确定所需信息的性质和范围B、具有信息素养的学生能够有效和高效地获取所需信息C、具有信息素养的学生能评价信息及其来源并将选取的信息整合入其知识基础和价值体系中D、具有信息素养的学生,不论是个人或作为小组成员,都能够有效地利用信息达到特定的目的7.(第1章•单选)" "一般翻译为(B)。

2020智慧树知道网课《信息检索》课后章节测试满分答案

2020智慧树知道网课《信息检索》课后章节测试满分答案

第一章测试1【判断题】(4分)在大多数情况下,检索的目的是为了找到相关文献,而不是答案。

A.错B.对2【单选题】(4分)关于信息的概念,下面不同定义中不正确的说法是()A.信息是用以消除随机不定性的东西B.信息是指对消息接受者来说预先不知道的报道C.信息是那些只能由计算机进行处理的数据资料D.在计算机技术中,信息是经过组合后具有一定意义,能表明客观属性的数据集合3【单选题】(4分)信息论的创始人是()A.巴达拉科B.维纳C.香农D.野中郁次郎4【单选题】(4分)文献是记录有知识的()A.载体B.纸张C.磁盘D.光盘5【判断题】(4分)文献是记录知识的一切载体,即用文字、图像、符号等手段记录人类知识的各种载体()A.对B.错6【单选题】(4分)文献虽然是信息、知识、记录符号和物质载体的统一体,它的内涵是()A.知识B.专利C.图书D.期刊7【判断题】(4分)知识是人们通过信息对自然办、人类社会以及思维活动规律的认识与掌握,是人的大脑通过思维重新组合的信息集合。

A.错B.对8【单选题】(4分)广义的信息检索包含两个过程()A.存储与利用B.检索与报道C.检索与利用D.存储与检索9【单选题】(4分)小刘计划今天与好友到郊外野营,他从报纸上获得了天气情况良好,于是他们出发了。

不料,中午时分狂风暴雨大作,于是他们埋怨天气预报不准确。

当他回到家里再拿出报纸核实,原来那是几天前的报纸。

经分析,由于小刘对信息的()特征没有做出慎重判断,以致野营不能顺利进行。

A.信息的价值性B.信息的时效性C.信息的来源D.信息的共享性10【单选题】(4分)逻辑运算符包括()A.逻辑非B.A,B和CC.逻辑或D.逻辑与11【单选题】(4分)使用分类语言对信息进行描述和标引,主要是可以把()的信息集中在一起A.A+B+CB.同一主题C.同一作者D.同一学科12【单选题】(4分)根据检索对象不同,信息检索可分为()A.分类检索、主题检索B.数据检索、事实检索、文献检索C.计算机检索、手工检索D.二次检索、高级检索13【单选题】(4分)通过追溯检索获得的相关文献与原文献相比在发表时间上()A.不确定B.晚C.相同D.早14【判断题】(4分)分类检索语言又称分类法,是用分类号和类名来表达信息的主题概念,并且按照知识门类的逻辑次序将信息系统地组织和划分的语言。

信息检索导论-王斌 第二次课后作业(6-12)

信息检索导论-王斌 第二次课后作业(6-12)

1、习题6-10tf-idf = tf * idfcar的tf-idf值在三篇文档中分别为:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc:24*1.65=39.6;auto的tf-idf值在三篇文档中分别为:Doc1:3*2.08=6.24;Doc2:33*2.08=68.64;Doc:0*2.08=0;insurance的tf-idf值在三篇文档中分别为:Doc1:0*1.62=0;Doc2:33*1.62=53.46;Doc:29*1.62=46.98;best的tf-idf值在三篇文档中分别为:Doc1:14*1.5=21.0;Doc2:0*1.5=0;Doc:17*1.5=25.5;2、习题6-19所用公式:wf = 1+logtf t,d, tf t,d>00, ot erwiseidf=log Ndf归一化:12+12+1.3012=1.9221/1.922 = 0.521301/1.922 = 0.677最后的相似度结果为:1.56+1.558=3.1183、习题7-2胜者表是提出的一种更快获取得分较高文档的一种方法,基本思路是考虑r篇的tf值。

但在实际应用中,还应考虑到文档长度以及用户对搜索结果的关注程度等因素,并希望只关注那些不仅相关度高并且权威度也大的文档。

如果只根据tf值来选取最后的结果文档,很可能导致的情况是,搜索结果和查询虽然相关,但会有文档长度过长且不是用户想得到的结果的问题。

因此在考虑到全局的情况下,引入了g(d)和tf-idf来对胜者表进一步扩展和精确。

这样高分文档更可能在倒排索引的前期出现。

4、习题7-85、习题8-8b. 系统1的返回结果中相关文档比较集中,靠前两个,靠后两个。

系统2的返回结果中相关文档比较分散。

系统1比系统2获得较高的MAP值。

排名靠前的相关文档对MAP值影响较大,相关文档位置越靠前,系统能获得越高的MAP值。

《信息检索技术》书中答案

《信息检索技术》书中答案

《信息检索技术》书后习题及参考答案(部分)第1章绪论【综合练习】一、填空题1.文献是信息的主要载体,根据对信息的加工层次可将文献分为_________文献、__________文献、___________文献和___________文献。

2.追溯法是指利用已经掌握的文献末尾所列的__________,进行逐一地追溯查找_________的一种最简便的扩大情报来源的方法。

3.用规范化词语来表达文献信息__________的词汇叫主题词。

主题途径是按照文献信息的主题内容进行检索的途径,利用能代表文献内容的主题词、关键词、叙词、并按字顺序列实现检索。

4.计算机信息检索过程实际上是将___________与____________进行对比匹配的过程。

5.无论是手工检索还是计算机检索,都是一个经过仔细地思考并通过实践逐步完善查找方法的过程。

检索过程通常包含以下几个步骤_________、__________、__________、__________、_________。

6.检索工具按信息加工的手段可以分文__________、____________、___________。

7.《中国图书馆图书分类法》共分___________个基本部类,下分________个大类。

8.索引包括4个基本要素:索引源、___________、___________、和出处指引系统。

答案1.零次,一次,二次,三次2.参考文献,引文3.内容特征4.检索提问词,文献记录标引词5.分析课题,选择检索工具,确定检索途径及检索式,进行检索,获取原文6.手工检索工具,机械检索工具,计算机检索工具7.五,228.索引款目,编排方法二、判断题1.在检索信息时,使用逻辑符“AND”可以缩小收缩范围。

()2.逆查法是由近及远地查找,顺着时间的顺序利用检索工具进行文献信息检索的方法。

()3.按编制方法划分,信息检索工具可以分为:手工检索工具、机械检索工具、计算机检索工具。

lecture4-indexconstruction 信息检索导论 王斌 PPT 课件 第4章

lecture4-indexconstruction 信息检索导论 王斌 PPT 课件 第4章

19
现代信息检索
Reuters RCV1语料库的统计信息
N L M 文档数目 每篇文档的词条数目 词项数目(= 词类数目) 每个词条的字节数 (含空格和标点) 每个词条的字节数 (不含空格和标点) 每个词项的字节数 无位置信息索引中的倒排记录数目 800,000 200 400,000 6 4.5 7.5 100,000,000
6
现代信息检索
基于B-树的词典查找
7
现代信息检索
基于轮排索引的通配查询处理
查询: 对 X, 查找 X$ 对X*, 查找 X*$ 对*X, 查找 X$* 对*X*, 查找 X* 对 X*Y, 查找 Y$X*
8
现代信息检索
基于k-gram索引的通配查询处理
比轮排索引空间开销要小 枚举一个词项中所有连读的k个字符构成的k-gram 。 2-gram称为二元组(bigram) 例子: from April is the cruelest month we get the bigrams: $a ap pr ri il l$ $i is s$ $t th he e$ $c cr ru ue el le es st t$ $m mo on nt h$ 同前面一样,$ 是一个特殊字符 构建一个倒排索引,此时词典部分是所有的2-gram,倒 排记录表部分是包含某个2-gram的所有词项 相当于对词项再构建一个倒排索引(二级索引)
将输入的文档集分片(split) (对应于BSBI/SPIMI算法中的块) 每个数据片都是一个文档子集
39
现代信息检索
分析器(Parser)

主节点将一个数据片分配给一台空闲的分析器 分析器一次读一篇文档然后输出 (term,docID)-对 分析器将这些对又分成j 个词项分区 每个分区按照词项首字母进行划分

信息检索第一次作业答案

信息检索第一次作业答案

一、第一题:吴姓起源有一下几种说法:1、以吴国号为姓,出自姬姓,是黄帝轩辕氏的直系后裔。

商朝时,黄帝的12世孙古公亶父(周太王)建立了周部落。

太王有三子,其中小儿子季历颇有才干,生子姬昌(周文王),姬昌出世时,有圣瑞出现,所以太王就属意姬昌接位。

太王的大儿子泰伯和二儿子仲雍知道了父王的意思是先传位给季历,再传位给姬昌,就决定自动让贤,便一起南下荆蛮(周人敌视楚国的称呼)。

太伯和仲雍给当时比较落后的江南带去了中原先进的文化,被当地土著推举为君长,号称句吴。

泰伯死后,由仲雍继位。

周武王(姬昌为文王,其子姬发为武王)灭商后,仲雍的3世孙周章为诸侯,国号改称吴,并追封太伯为吴伯。

至仲雍的第19世孙寿梦称王,建都今江苏苏州。

寿梦的第四子季札本该继承王位,但他避而不受,逃到延陵以耕田为生。

此后吴王寿梦的后裔分为两支:一支在政治上发展,出现了吴王阖闾,吴王夫差等著名国君;另一支则是季札及其后裔独立发展,人丁繁衍众多,构成了当今吴姓的绝大部分。

吴国被越国所灭后,其子孙便以国为姓,称吴姓。

2、上古时已有吴姓。

一是舜的后代有封在虞的,因“虞”与“吴”音相近,故舜后有吴姓。

一是颛顼帝时有吴权,其后亦有吴氏。

一是少康帝时有神箭手吴贺,其后有吴姓。

3、出自古帝颛顼时期吴权之后裔。

据有关资料所载,相传为上古颛顼帝(高阳氏)时吴权的后代。

4、夏代国王少康时有吴贺,其后为吴氏。

5、少数民族与汉族融合,产生吴姓。

锡伯族、柯尔克孜族、朝鲜族、赫哲族等均有为吴姓者。

同姓历史名人:吴襄,清代大臣,著作家,安徽青阳人,字七云,号悬水,1661年生。

康熙52年(1713年)中进士,由编修官至礼部尚书。

对诗文尤其喜爱,无书不读。

晚年因患有眼疾,目难久视,常常令后人或者侍人为他朗诵。

他曾任《明.史》.《八.旗通志》等书的编修总裁,并著有《锡老堂诗抄》15卷(安徽省图书馆藏通志馆抄本),《锡老堂文集》5卷,《畿辅河渠考略》2卷,1735年去.世。

《信息素养》作业1-4-答案

《信息素养》作业1-4-答案

单项选择题第1题第一次信息革命是:()A、语言的使用B、文字的创造C、印刷的发明和新载体纸张的创造D、电报、电话、广播和电视的发明和普及应用答案:A第2题下列属于应用软件的是:()A、WindowsB、UnixC、LinuxD、Office答案:D第3题复制的快捷键是:()A、Ctrl+CB、Ctrl+VC、Ctrl+XD、Ctrl+A答案:A第4题下列叙述正确的是:()A、世界上第一台电子计算机ENIAC首次实现了“存储程序”方案B、按照计算机的规模,人们把计算机的发展过程分为四个时代C、微型计算机最早出现于第三代计算机中D、冯·诺依曼提出的计算机体系结构奠定了现代计算机的结构理论基础答案:D第5题下列设备中,属于输出设备的是:()A、扫描仪B、显示器C、触摸屏D、光笔答案:B第6题第五次信息革命的标志:()A、印刷的发明和新载体纸张的创造B、电报、电话、广播和电视的发明和普及应用C、电子计算机的普及应用及计算机与现代通信技术的有机结合D、互联网的出现和普及答案:C第7题下列不属于可执行文件的是:()A、Game.txtB、C、WT.exeD、Auto.bat答案:A第8题世界上第一台电子数字计算机采用的主要逻辑部件是:()A、电子管B、晶体管C、继电器D、光电管答案:A第9题 CPU不能直接访问的存储器是:()A、ROMB、RAMC、CacheD、CD-ROM答案:D第10题下列设备中,属于输人设备的是:()A、声音合成器B、激光打印机C、光笔D、显示器答案:C多项选择题第11题下面关于信息化社会基本特征的描述,正确的有:()A、信息、知识、智力日益成为社会发展的决定力量B、信息技术、信息产业、信息经济日益成为科技、经济、社会发展的主导因素C、信息劳动者、脑力劳动者、知识分子的作用日益增大D、信息网络成为社会发展的基础设施答案:A|B|C|D第12题信息的特性包括:()A、普遍性B、中介性C、时效性D、独有性答案:A|B|C第13题关于世界上第一台电子计算机,哪几个说法是正确的:()A、世界上第一台电子计算机诞生于1946年B、世界上第一台电子计算机是由德国研制的C、世界上第一台电子计算机使用的是晶体管逻辑部件D、世界上第一台电子计算机的名字叫埃尼阿克(ENIA|C)答案:A|D第14题计算机的特点是:()A、具有人类思维B、具有记忆和逻辑判断能力C、能自动运行、支持人机交互D、有高速运算的能力答案:B|C|D第15题非正式信息交流的特点:()A、交流速度快,从信息产生到传播给用户所需时间最短B、具有高度的选择性与针对性C、反馈迅速,交流双方立刻就可以对交流中存在的问题提出质疑D、可获得非语言信息答案:A|B|C|D判断题第16题《图书馆学百科全书》认为:广义的情报检索包括情报的检索与存储,而狭义的情报检索仅指后者。

《信息检索与利用》习题

《信息检索与利用》习题

《信息检索与利用》习题(客观题)一、判断题(每题1分):1.在构建关键词时,我们尽量不要用自然语言,而要从自然语言中提炼关键词。

(√)2.在信息检索时查询词表述准确是获得良好搜索结果的必要前提。

(√)3.目前的搜索引擎能很好的处理自然语言。

(╳)4.用户可以通过Google图书搜索在线阅读任何一本搜索到的图书。

(╳)5.二次检索是指在第一次检索结果不符合要求时,重新选择检索条件再次进行检索。

(╳)6.解决读者需求的无限性和馆藏的有限性的矛盾,唯一有效的方法就是在图书馆间建立合作机制,实现资源共享。

(√)7.关键词语言的最大优点是能用计算机进行自动抽词标引,它适合于计算机自动编制各种类型的词索引。

(√)8.信息素养由信息意识、信息能力、信息道德三个方面内容构成,其中,信息道德是前提,信息能力是保证,信息意识是准则。

(╳)9.搜索引擎与普通网站不同的是提供一个包含搜索框的页面,它不是一个WWW网站。

(╳)10.用搜索引擎google检索专利和期刊的全文比用中国国家知识产权局专利数据库、《维普中文科技期刊数据库》等数据库的查全率和查准率都要高。

(╳)11.GB/T 16159-1996,汉语拼音正词法基本规则[S].北京:中国标准出版社,1996.该文献类型为标准文献。

(√)12.在搜索引擎中输入“项目管理”和输入““项目管理””检索结果是不一样的。

(√)13.在搜索引擎中常用的截词符是星号“*”,通常使用右截断。

如输入comput*,将检索出computer、computing、computerized等词汇。

(√)14.通用搜索引擎,如google、baidu、bing、yahoo,并不能囊括所有的网页。

(√)15.不同类型的搜索引擎对同一个主题进行搜索会得到不同的结果。

(√)16.一次文献是指原始创作,即作者以本人的研究成果为基本材料而创作(或撰写)的文献,主要包括期刊论文、专利说明书、会议论文、科技报告和学位论文等。

信息检索练习题及答案(五篇范文)

信息检索练习题及答案(五篇范文)

信息检索练习题及答案(五篇范文)第一篇:信息检索练习题及答案《信息检索》练习题第一章练习一、名词解释1.信息——是世界上一切事物的状态和特征的反映,是用文字、数据或信号等形式,通过一定的传递和处理,来表现各种相互联系客观事物在运动变化中所具有特征内容的总称。

2.信息资源——是指经过人类的选取、组织、序化等整理与开发后的信息的集合。

3.白色文献——是指公开出版发行的、通过正常渠道可以得到的常规文献。

二、填空题1.信号只是信息的(),信息是信号所载荷的()。

载体、内容2.现实的信息资源依据传递信息的载体和表述方式的不同,可以划分为(),(),(),(),()。

口语信息资源、体语信息资源、文献信息资源、实物信息资源、网络信息资源3.口语信息资源、体语信息资源和实物信息资源,通过计算机技术的转化,成为(),如果有长期开发的价值,往往会转化成()。

网络信息资源、文献信息资源4.()是记录有信息和知识的一切有形载体,是将知识用文字、符号、图像、音频、视频等方式记录在一定的固态物质载体的结合体。

文献5.期刊按内容和性质划分,可以分为(),(),()。

学术性期刊、检索性期刊、其他类型期刊6.()是指未经出版发行的或未以公开形式进入社会交流的最原始的文献。

零次文献三、判断题1.情报只是一类专门的信息,是信息的一个子集。

()2.网络信息资源也称虚拟信息资源,是指以数字化形式记录的,以多媒体形式表达的,存储在网络计算机磁介质、光介质以及各类通讯介质上的。

()3.机读型文献是以磁性材料为存储介质,采用计算机技术、磁性存储技术、激光技术,以键盘输入、文件拷贝、刻录或光学扫描等方法作为记录手段,通过计算机处理而产生的一种新的文献。

()4.缩微型文献是以印刷型文献为母本,以感光材料为载体,采用光学缩微技术将文字或图像记录存储在感光材料上而形成的文献。

()5.声像型文献是一种以磁性和光学材料为载体,将声音和图像记录存储在磁性或光学材料上的非文字形式的文献。

文献信息检索第4章 习题与答案

文献信息检索第4章 习题与答案

第4章网络信息资源检索1.搜索引擎的类型有哪些?常用的中文搜索引擎是什么?答:1)搜索引擎的类型:按信息覆盖范围及用户群可分为通用搜索引擎(综合搜索引擎)和垂直搜索引擎(专业搜索引擎);按搜索范围搜索引擎可以分为独立搜索引擎和元搜索引擎;按其工作方式(索引方式)分为目录式搜索引擎、全文搜索引擎和语义搜索引擎。

2)常用的中文搜索引擎:Google(谷歌)、百度搜索引擎、搜狗搜索引擎、必应搜索引擎、360搜索引擎等。

2. 简述搜索引擎的工作原理和常用搜索引擎提供的检索方式。

答:1)搜索引擎的工作原理可以归纳为三步:抓取网页——处理页面(建立索引数据库)——建立检索页面。

2)常用搜索引擎提供的检索方式主要是分类目录检索和关键词检索。

(1)分类目录检索:分类目录检索索引数据库通常称为目录(Catalog),该目录是由人工进行分类建立的,类似于图书馆的目录,适合于主题较宽或要求较为简单的查询。

(2)关键词检索:关键词检索主要是指利用搜索索引查找网页的方法,适合于主题较为专指、细小或狭窄的查询。

3. 如何在百度中快速地查找到“西藏”地图,如何使用检索技巧快速检索出文件类型(扩展名)为PPT的“有机化学”信息和中国教育网上有关“周济”的信息。

答:1)查找“西藏”地图步骤:(1)打开百度();(2)点击右上角的“地图”,在搜索框内输入“西藏”,点击回车即可。

2)检索有关“有机化学”、文件类型为PPT的信息方法有二:方法一步骤:(1)打开百度();(2)点击右上角的“设置”----“高级搜索”,指定文件格式为PPT(.ppt),在搜索框内输入“有机化学”,点击高级搜索即可。

方法二步骤:(1)打开百度(),利用高级检索语法filetype:直接输入检索式;(2)利用高级检索语法filetype:直接在主页搜索框中输入“有机化学filetype:ppt”,点【百度一下】或回车即可。

3)检索中国教育网上有关“周济”的信息:(1)打开百度();(2)直接利用百度高级语法site:,在主页搜索框输入直接输入“周济site:”,点【百度一下】或回车即可将检索结果限定在 中。

信息检索题目(含答案)

信息检索题目(含答案)

信息检索题目(含答案)2013年(秋)《信息检索》练习单选题(每题1分,共45题,45分)1.计算机中使用的0与1的二进制代码是(C)A.自然信息B.生物信息C.机器信息D.人类信息2.以下(B)不是信息的基本要素。

A.载体B.数据库C.信源D.信宿3.国际标准书号中地区号为7,代表其是(B)出版社出版的图书。

A.美国B.中国大陆C.俄语系国家D.法语系4.以下(D)不是信息的特征。

A.共享性B.价值型C.时效性D.不可扩充性5.(A)使用的是http协议。

网络资源信息资源信息资源D.用户服务组资源6.(B)使用的是ftp协议。

信息资源信息资源D.用户服务组资源7.分类法用(A)作为文献内容标识和检索标识。

A.分类号B.词语C.阿拉伯数字D.英文字母8.主题法用(A)做描述文献主题的标识和检索标识。

正确答案:BA.分类号B.词语C.阿拉伯数字D.英文字母9.关键词语言属于(B)正确答案:AA.自然语言B.标题词语言C.叙词语言D.分类语言10.以下族性检索功能最强的是(A)A.分类途径B.文献名途径C.着者途径D.主题途径11.(D)是从参考文献着手来查找文献的方法。

A.顺查法B.倒查法C.抽查法12.一个截词符代表多个字符指的是(D)正确答案:CA.后截词B.中截词C.无限截词D.有限截词13.在布尔逻辑检索技术中,用(B)表示在检索结果中只需包含A或者B即可。

正确答案:DA. A not BB. A and BC. A - BD. A or B14.(B)之前,必须输入一个空格。

正确答案:CA.与运算B.或运算D.异或运算中最后一个数字代表(C)。

正确答案:DA.地区码B.出版社代码C.书序号D.校验码16.(B)属于文献的外表特征。

正确答案:AA.题名B.主题词C.关键词D.分类号17.广义的信息检索的全过程包括文献信息的(B)两个过程。

正确答案:AA.存储和检索B.存储和编排C.标引和编排D.存储和标引18.下列哪种语言不属于规范化语言(B)。

信息检索题库+答案(终极版)

信息检索题库+答案(终极版)

四川师范大学信息检索课后作业1.(第1章•单选)联合国教科文组织分别于2003年和2005年召开了以(A)为主题的世界性大会,并发布了《布拉格宣言》和《亚历山大宣言》。

A、信息素养B、信息安全C、信息检索D、信息评价2.(第1章•多选)信息素养的基本构成具体包括(ABCD)A、信息知识B、信息意识C、信息能力D、信息伦理3.(第1章•多选)信息意识具体包括(ABCD)。

A、充分认识到信息在学习、工作和生活中的重要作用,遇到问题时首先应该想到通过信息的获取和利用来解决所遇到的问题;B、对信息具有敏锐的感知力和洞察力,能高效、快速识别有价值的信息,善于从所获取的信息中找出解决问题的思路、线索或方案;C、对信息具有积极的内在需求,善于根据社会需要主动发现自身的信息需求;D、具有通过获取信息强化自身学习能力的想法和观念,遇到不懂的东西能积极主动的通过获取信息找寻答案。

4.(第1章•多选)关于信息素养教育,下列说法正确的是(ABCD)。

A、信息素养教育的第一个层次是拓展视野,使人们知道这个世界上原来还有这么多信息资源。

B、信息素养教育的第二个层次是训练信息获取能力,使人们知道如何获取所需要的信息。

C、信息素养教育的第三个层次是培养信息利用能力,使人们具有敏锐的信息意识和利用信息解决问题的能力。

D、信息素养教育的目标是培养终身学习能力,而信息素养教育自身也是一个终身学习的过程,信息素养教育与终身学习能力是一个相互促进、螺旋提升的关系。

5.(第1章•多选)信息素养是指:基于(ABC),通过确定、检索、获取、评价、管理、应用信息解决所遇到的问题并以此重构自身知识体系的综合能力和基本素质。

A、信息意识B、信息知识C、信息伦理D、信息评价6.(第1章•多选)2000年1月18日,美国大学与研究图书馆协会(ACRL)标准委员会审议通过了《高等教育信息素养能力标准》,其中包含5项标准和22项具体指标。

下列属于5项标准的是(ABCD)。

(完整版)信息检索试题(有答案)

(完整版)信息检索试题(有答案)

(完整版)信息检索试题(有答案)1.检索系统:由大量的数据库集合生成的数据库。

2.自然语言:未经加工和规范化处理的非受控于言。

3.二次文献:对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征如题名、作者、出处等进行著录,或将其内容压缩成简介、提要或文摘,并按照一定的学科或专业加以有序化而形成的文献形式,如目录、文摘杂志(包括简介式检索刊物)等4. 主题词:是用于表述、存储、查找文献主题的受控词汇,是主题表中能表达一定意义的最基本的词汇单元。

5. 科技报告:科技报告是研究单位向主管机构和资助单位提交的关于某项科技成果的正式报告或其进展阶段的实际记录。

一般依托于国家的军事和高科技科研项目,是科研工作成果的体现,需要经过专家评审鉴定,技术上可靠性较高。

6. 体系分类语言:体系语言是以科学分类为基础,运用概念的划分与概括的逻辑方法,形成一个概念等级体系,按知识门类的逻辑次序,按照从总到分,从一般到具体,从低级到高级,从简单到复杂的原则进行概念的综分,层层划分,累累隶属,逐步展开而形成的一个等级体系。

1.当关键词具有多个含义的时容易造成误检,使得查准率较低。

2. 信息素质的内涵包括信息意识、信息能力和信息道德。

3.主题词的体现形式是叙词表。

4. 文献按其加工深度不同可分为零次文献,一次文献,二次文献和三次文献。

5.中国图书馆图书分类法简称为:中图法。

6. 连续出版物的主要类型有期刊、报纸、年底出版物。

7.标准文献的主体是技术标准。

8.当计算机访问范围受到限制时,可通过代理服务器访问外部网络。

9. 构成文献的三要素是载体、知识和记录手段。

10. 布尔逻辑运算符包括: 逻辑“或”、逻辑“与”和逻辑“非”三种。

11. 专利有三层含义:专利权、专利技术和专利文献。

12.文献的内容特征用于找出相关文献,外部特征用于获得特定文献。

13. 信息检索常用的方法有:工具法、引文法和循环法。

14. CNKI的中文全称是China National Knowledge Infrastructure。

《文献信息检索》习题答案文献信息检索(答案)

《文献信息检索》习题答案文献信息检索(答案)

《文献信息检索》习题答案文献信息检索(答案)《文献信息检索》习题答案一、单选题1、文献是记录有知识的(A)A.载体 B.纸张 C.光盘 D.磁盘2、如果需要检索某位作者的文献被引用的情况,应该使用(C)检索。

A.分类索引 B.作者索引 C.引文索引 D.主题索引3、下列哪种文献属于二次文献( D.)A.专利文献B.学位论文C.会议文献D.目录4、纸质信息源的载体是(D)A.光盘B.缩微平片C.感光材料D.纸张5、《中国图书馆分类法》(简称《中图法》)将图书分成( A.)A.5大部分22个大类B.5大部分26个大类C.6大部分22个大类D.6大部分26个大类6、利用文献末尾所附参考文献进行检索的方法是(C)A.倒查法B.顺查法C.引文追溯法D.抽查法7、广义的信息检索包含两个过程(B)A.检索与利用B.存储与检索C.存储与利用D.检索与报道8、中国国家标准的代码是(A)A.GB. B.CB.C.ZGD.CG9、( D )是报道文献出版或收藏信息为主要功能的工具。

A.题录B.索引C.文摘D.目录10、逻辑运算符包括(D)A.逻辑与B.逻辑或C.逻辑非D.A,B和C11、记录是对某一实体的全部属性进行描述的结果,在全文数据库中一条记录相当于(C),在书目数据库中,一条记录相当于()A.一条文摘,一篇完整的文献B.一条文摘,一条题录C.一篇完整的文献,一条题录或文摘D.一条题录,一条文摘12、《中国学术期刊全文数据库》提供的文献内容特征检索途径有(B)A.机构B.篇名/关键词/摘要C.中文刊名D.作者13、根据反映新内容的程度从大到小,下列文献类型的排序正确的是:(A)A.会议论文,科技期刊,科技报告,科技图书B.科技图书,科技期刊,科技报告,会议论文C.科技报告,会议论文,科技图书,科技期刊D.以上都不对14、《中国科研机构数据库》、《中国科技名人数据库》属于:(B)A.书目数据库B.指南数据库C.全文数据库D.数值数据库15、下列检索工具中,主要收录化学与化工类文献的是:(D)A.SCIB.OCLCC.EID.CA16、国内的专利可以通过哪个数据库检索?(B)A.超星数字图书馆B.万方数据C.学术期刊网D.EI17、提供检索式/命令行检索的好处在于:(C)A.容易记忆,容易编写B.文本形式,容易理解C.可以保存成功的检索,以便再次检索D.以上都不对18、逻辑“与”算符是用来组配( D.)。

信息检索题库答案终极版

信息检索题库答案终极版

四川师范大学信息检索课后作业1.(第1章?单选)联合国教科文组织分别于2003年和2005年召开了以(A)为主题的世界性大会,并发布了《布拉格宣言》和《亚历山大宣言》。

A、信息素养B、信息安全C、信息检索D、信息评价2.(第1章?多选)信息素养的基本构成具体包括(ABCD)A、信息知识B、信息意识C、信息能力D、信息伦理3.(第1章?多选)信息意识具体包括(ABCD)。

A、充分认识到信息在学习、工作和生活中的重要作用,遇到问题时首先应该想到通过信息的获取和利用来解决所遇到的问题;B、对信息具有敏锐的感知力和洞察力,能高效、快速识别有价值的信息,善于从所获取的信息中找出解决问题的思路、线索或方案;C、对信息具有积极的内在需求,善于根据社会需要主动发现自身的信息需求;D、具有通过获取信息强化自身学习能力的想法和观念,遇到不懂的东西能积极主动的通过获取信息找寻答案。

4.(第1章?多选)关于信息素养教育,下列说法正确的是(ABCD)。

A、信息素养教育的第一个层次是拓展视野,使人们知道这个世界上原来还有这么多信息资源。

B、信息素养教育的第二个层次是训练信息获取能力,使人们知道如何获取所需要的信息。

C、信息素养教育的第三个层次是培养信息利用能力,使人们具有敏锐的信息意识和利用信息解决问题的能力。

D、信息素养教育的目标是培养终身学习能力,而信息素养教育自身也是一个终身学习的过程,信息素养教育与终身学习能力是一个相互促进、螺旋提升的关系。

5.(第1章?多选)信息素养是指:基于(ABC),通过确定、检索、获取、评价、管理、应用信息解决所遇到的问题并以此重构自身知识体系的综合能力和基本素质。

A、信息意识B、信息知识C、信息伦理D、信息评价6.(第1章?多选)2000年1月18日,美国大学与研究图书馆协会(ACRL)标准委员会审议通过了《高等教育信息素养能力标准》,其中包含5项标准和22项具体指标。

下列属于5项标准的是(ABCD)。

信息检索导论-王斌 第一次课后练习(1-4)

信息检索导论-王斌 第一次课后练习(1-4)

信息检索导论第一次课后练习(第1讲-第4讲)1.习题1-3 [*]对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?a. schizophrenia AND drugb. for AND NOT (drug OR approach)解答:习题1-2的文档集如下:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patients词项文档对应如下:词项docID 词项docId breakthrough 1 approach 3drug 1 breakthrough 1for 1 drug 1 schizophrenia 1 drug 2new 2 for 1 schizophrenia 2 for 3drug 2 for 4new 3 hopes 4 approach 3 => new 2for 3 new 3 treatment 3 new 4of 3 of 3 schizophrenia 3 patients 4new 4 schizophrenia 1 hopes 4 schizophrenia 2for 4 schizophrenia 3 schizophrenia 4 schizophrenia 4 patients 4 treatment 3它对应的倒排索引表如下:词项文档频率倒排记录表approach 1 → 3breakthrough 1 → 1drug 2 →1→2for 3 →1→3→4hopes 1 → 4new 3 →2→3→4of 1 → 3patients 1 → 4schizophrenia 4 →1→2→3→4treatment 1 → 3a.schizophrenia AND drugschizophrenia →1→2→3→4AND drug →1→2得出交集=> 1→2结果为文档1和2b. for AND NOT (drug OR approach)先求drug OR approachdrug →1→2OR approach → 3得出并集→1→2→3则NOT (drug OR approach)→ 4AND for →1→3→4得出交集→ 4所以结果为文档42. 习题1-7请推荐如下查询的处理次序。

《信息检索导论》课后习题答案

《信息检索导论》课后习题答案

《信息组织与‎检索》作业答案第一章布尔检索习题1-2考虑如下几‎篇文档:文档1 break‎t hrou‎gh drug for schiz‎o phre‎n ia文档2 new schiz‎o phre‎n ia drug文档3 new appro‎a ch for treat‎m ent of schiz‎o phre‎n ia文档4 new hopes‎for schiz‎o phre‎n ia patie‎n tsa. 画出文档集‎对应的词项‎—文档矩阵;b. 画出该文档‎集的倒排索‎引(参考图1-3中的例子‎)。

Term-Docum‎e ntma‎t rix:1 2 3 4appro‎a ch 0 0 1 0break‎throu‎g h 1 0 0 0drug 1 1 0 0for 1 0 1 1hopes‎0 0 0 1new 0 1 1 1of 0 0 1 0patie‎n ts 0 0 0 1schiz‎ophre‎n ia 1 1 1 1treat‎m ent 0 0 1 0Inver‎t ed Index‎:appro‎a ch -> 3break‎t hrou‎g h ->1drug ->1->2for ->1->3->4hopes‎->4new ->2->3->4of ->3patie‎n ts ->4schiz‎o phre‎n ia ->1->2->3->4treat‎m ent >3注意:倒排索引中‎的词表(dicti‎o nary‎)和每个词项‎的倒排列表‎(p osti‎n g list)需要排序,便于查找。

这里我们暂‎不考虑词的‎正规化处理‎(如hope‎s->hope)。

补充习题1‎写出AND‎查询的伪代‎码●面向过程风‎格的伪代码‎:给定两个指‎针p1和p‎2,分别指向两‎倒排列表l‎ist1和‎list2‎(链表实现)的首元素;令docI‎d(p1)表示p1所‎指向的元素‎的docI‎d查询结果‎存放在an‎s wer列‎表里。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息检索导论第一次课后练习(第1讲-第4讲)1.习题1-3 [*]对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?a. schizophrenia AND drugb. for AND NOT (drug OR approach)解答:习题1-2的文档集如下:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patients词项文档对应如下:词项docID 词项docId breakthrough 1 approach 3drug 1 breakthrough 1for 1 drug 1 schizophrenia 1 drug 2new 2 for 1 schizophrenia 2 for 3drug 2 for 4new 3 hopes 4 approach 3 => new 2for 3 new 3 treatment 3 new 4of 3 of 3 schizophrenia 3 patients 4new 4 schizophrenia 1 hopes 4 schizophrenia 2for 4 schizophrenia 3 schizophrenia 4 schizophrenia 4 patients 4 treatment 3它对应的倒排索引表如下:词项文档频率倒排记录表approach 1 → 3breakthrough 1 → 1drug 2 →1→2for 3 →1→3→4hopes 1 → 4new 3 →2→3→4of 1 → 3patients 1 → 4schizophrenia 4 →1→2→3→4treatment 1 → 3a.schizophrenia AND drugschizophrenia →1→2→3→4AND drug →1→2得出交集=> 1→2结果为文档1和2b. for AND NOT (drug OR approach)先求drug OR approachdrug →1→2OR approach → 3得出并集→1→2→3则NOT (drug OR approach)→ 4AND for →1→3→4得出交集→ 4所以结果为文档42. 习题1-7请推荐如下查询的处理次序。

d. (tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes)其中,每个词项对应的倒排记录表的长度分别如下:词项倒排记录表长度eyes 213312kaleidoscope 87009marmalade 107913skies 271658tangerine 46653trees 316812解答:先将词项倒排记录表按从小到大排序:词项倒排索引表tangerine 46653kaleidoscope 87009marmalade 107913eyes 213312skies 271658trees 316812每个OR查询后的保守估计的索引表大小从小到大排序:kaleidoscope OR eyes 300321tangerine OR trees 363465marmalade OR skies 379571所以该查询的处理次序为:kaleidoscope OR eyes→tangerine OR trees→marmalade OR skies→(tangerine OR trees) AND (kaleidoscope OR eyes)→(tangerine OR trees) AND (kaleidoscope OR eyes)AND (marmalade OR skies)3. 习题2-1请判断如下说法是否正确。

a. 在布尔检索系统中,进行词干还原从不降低正确率。

b. 在布尔检索系统中,进行词干还原从不降低召回率。

c. 词干还原会增加词项词典的大小。

d. 词干还原应该在构建索引时调用,而不应在查询处理时调用。

解答:A错,因为词干还原相当于扩充出同一个词干表示的多个词,会降低正确率。

B对C错,词干还原的目的是为了减少屈折变化的形式,并且有时会将派生词转化为基本形式,会减少词项词典的大小。

D错,应该同时做才能保证索引中和查询词的匹配。

4. 习题2-3如下词经过Porter词干还原工具处理后会输出同样的结果,你认为哪对(几对)词不应该输出同样的结果?为什么?a. abandon/abandonmentb. absorbency/absorbentc. marketing/marketsd. university/universee. volume/volumes解答:c中marketing的意思为营销,market的意思为市场,这两个词虽然词干相同,但意思不同,不应该输出同样的结果。

D同理,university是大学,而universe是宇宙。

5. 习题2-6 【注:每一对数字之间只比较1次,而不是图2-10算法中的可能多次比较】对于两个词组成的查询,其中一个词(项)的倒排记录表包含下面16 个文档ID:[4,6,10,12,14,16,18,20,22,32,47,81,120,122,157,180]而另一个词(项)对应的倒排记录表仅仅包含一个文档ID:[47]请分别采用如下两种策略进行倒排记录表合并并计算所需要的比较次数,同时简要地说明计算的正确性。

a. 使用标准的倒排记录表。

b. 使用倒排记录表+解答:A.4,6,10,12,14,16,18,20,22,32,47都分别和47比较了一次,共比较了11次B处,即列表一的调表指针往后跳四个元素,将列表整理如下:[4,6,10,12,14,16,18,20,22,32,47,81,120,122,157,180]红色是有调表指针的索引,120是跳到180其中4,14,22,120,32,47分别和47比较了一次,总共比较了6次6. 习题3-2写出由词项mama 生成的轮排索引词汇表中的条目。

解答:mama$ ama$m ma$ma a$mam7. 习题3-8计算 paris 和 alice 之间的编辑距离,给出类似于图 3-5 中的算法结果,其中的 5 × 5 矩包含每个前缀子串之间的计算结果。

解答:0112233445511223344556121223344552122334455623122334455332233445563423233445544333244556453434233445544443344556454534344a l i c ep a r i s8. 习题3-11考虑四词查询 catched in the rye ,假定根据独立的词项拼写校正方法,每个词选的正确拼写形式。

那么, 如果不对空间进行缩减的话, 需要考虑多少可能的短语拼写形式 (提示:同时要考虑原始查询本身,也就是每个词项有 6种变化可能)? 解答:6*6*6*6=12969. 习题4-1如果需要Tlog2T 次比较(T 是词项ID —文档ID 对的数目),每次比较都有两次磁盘寻道过程。

假定使用磁盘而不是内存进行存储,并且不采用优化的排序算法(也就是说不使用前面提到的外部排序算法),那么对于Reuters-RCV1构建索引需要多长时间?计算时假定采用表 4-1中的系统参数。

解答:对于Reuters-RCV1,T=108根据4-1中的系统参数,比较时间为0.01ms=10−8s ,平均寻道时间为:5ms = 5×10−3s 所以构建索引的时间为:2*(108*log 2108)*5*10-3s = 26575424s=7382h=308day10. 习题4-3对于 n = 15个数据片,r = 10个分区文件,j = 3 个词项分区,假定使用的集群的机器的参数如表4-1所示,那么在MapReduce 构架下对Reuters-RCV1语料进行分布式索引需要多长时间?解答:MapReduce分为Map和Reduce两个子任务过程。

·首先是map,将输入的数据片映射成键-值对,每个分析器将输出结果存在本地的中间文件。

(1) 基于表4-2,Reuters RCV1共有8*105篇文档,每篇200词条,每个词条占6B,因此整个语料库的大小为:8*105 *200*6=9.6*108 B分成15份:9.6*108 /15 B每一份读入机器的时间为:9.6*108 /15*2*10-8 =1.28s(2) 词条化:每一份语料在机器上进行词条化处理,得到词项ID-文档ID对个数为:8*105 *200=1.6*108 共占字节数:1.6*108 *8=1.28*109(3) 写入分区文件:每一份语料得到的词项ID-文档ID (Key-Value)存储到分区所花的时间为:(1.28*109 /15)*2*10-8 =1.71s (4)MAP阶段时间:10台机器对15份语料进行MAP操作,整个MAP过程所需时间为(1.28+1.71)*2=6.0s ·REDUCE阶段,读入分区文件,排序,写入倒排索引(1) 读入分区文件每台索引器上需要读入的倒排记录表数据为1.28*109 /3字节每台索引器读数据的时间为1.28*109 /3*2*10-8 =8.5s(2) 排序:每台索引器排序所花的时间为1.6*108 /3*log2(1.6*108 /3)*10-8 =13.7s(3) 写入倒排索引文件:需要写入磁盘的索引大小为:4*105 /3*4+108 /3*4=4/3*108 字节索引写入磁盘的时间为:4/3*108 *2*10-8 =2.7s(4) REDUCE阶段时间为:8.5+13.7+2.7=24.9·因此,整个分布式索引的时间约为6.0+8.5+13.7+2.7=30.9s。

相关文档
最新文档