国科大 信息检索试题
中国科学院大学计算机领域信息检索期末考试答案
域信息检索与利用实用技巧任课老师:李玲试题专用纸1、简答题:您在学习和研究过程中遇到下列问题时,常用哪些方法来解决?(10题,3分/小题,共30分)(1)查找期刊时,您常用的方法?答: 中文期刊一般用:中国知网、万方数据库、维普数据库等;外文期刊一般用:ACM、IEEE、Elsevier ScienceDirect、SpringerLink、ScienceOnline 、Taylor & Francis Online Journals 、Cambridge Journal等;可通过国科大图书馆进入上述网站首页,输入所需检索的期刊信息,如期刊名称、作者、发表年份等信息进行查询。
(2)查找中国科学院学位论文时,您常用的方法?答: 进入“中国科学院大学”首页→点击右下方“图书馆”→点击进入“中科院学位论文数据库”→进入检索界面,输入所需检索的论文信息,如:论文名称、作者、指导老师等。
(3)查找各国专利以及专利的被引用情况时, 您常用的方法?答:进入国家知识产权局官网“”,输入所需检索专利的发明名称、申请号、申请人(三者至少必填其一)进行检索,查看专利被引用情况。
(4)查找SCI期刊的影响因子,您常用的方法?答:通过国科大图书馆点击“ISI-SCIE”进入web of science平台查询界面,输入期刊的关键词、作者等信息,可通过“AND”进行多个关键词组合以缩小查询范围。
(5)查找标准文献时,有哪些注意事项?答:合理选择标准数据库(如中文期刊会议类检索工具选用CNKI、维普、万方等,查询专利选用国家知识产权局等数据库);注意文献的发表时间(如利用CNKI科技类期刊数据库查询只能查询1994年之后发表的文献,维普中文科技期刊库可查询1984年之后发表的文献)使用多个精确的关键字组合,以减小检索范围。
(6)文献管理时,您常用的方法?答:使用EndNote文献管理工具,进行分类管理方便后期查询。
域信息检索与利用实用技巧任课老师:李玲试题专用纸(7)获取无法直接下载的文献全文时,您常用的方法?答:可通过文献传递,向有权限的人求助;或通过查询Researchgate,付费网站获取;也可以邮件联系文献作者求助。
信息检索试题及答案
信息检索试题及答案一、选择题1. 下列哪项是信息检索系统的核心功能?A. 数据收集B. 信息处理C. 用户查询D. 结果展示答案:C. 用户查询2. 在信息检索中,对文本进行分词处理的目的是什么?A. 提高检索效率B. 进行语义分析C. 增加检索准确性D. 实现文本分类答案:A. 提高检索效率3. 下列哪种检索模型适用于由用户输入的关键词检索相关文档?A. 向量空间模型B. 布尔模型C. 概率模型D. 信息过滤模型答案:A. 向量空间模型4. 在信息检索中,下列哪项是用于评价检索系统性能的指标?A. 查准率B. 召回率C. F值D. 所有选项都是答案:D. 所有选项都是5. 下列哪种检索算法用于在大规模数据集中快速检索目标文档?A. 布尔检索算法B. TF-IDF算法C. 倒排索引算法D. PageRank算法答案:C. 倒排索引算法二、判断题1. 布尔模型是一种基于向量空间模型的检索方法。
答案:错误2. 信息检索的目标是使用户得到尽可能多的相关信息。
答案:错误3. 在信息检索中,查准率越高,召回率越低,表示结果越准确。
答案:正确4. TF-IDF算法用于评估一个词在文档中的重要性。
答案:正确5. PageRank算法是用于计算网页排序的算法,不能用于文本检索。
答案:错误三、简答题1. 请简要介绍一下倒排索引的原理和作用。
答:倒排索引是一种基于关键词的索引方法。
它通过将文档中所有出现的关键词作为索引的项,然后将每个关键词所在的文档列表记录下来,以便实现快速的文档检索。
倒排索引的作用是在用户查询时,根据关键词快速定位到相关的文档。
2. 请解释一下查准率和召回率的概念,并说明它们之间的关系。
答:查准率是指检索结果中相关文档的比例,召回率是指检索到的相关文档占所有相关文档的比例。
它们之间的关系是,查准率越高,表示检索结果中的文档更准确,但可能漏掉了一些相关文档而召回率较低;召回率越高,表示检索到的相关文档更全面,但可能会出现一些不相关的文档而查准率较低。
(完整版)信息检索试题
一、单项选择题(从下列各题四个备选答案中选出一个正确答案,并将其代号写在答题纸相应位置处。
每题2分,共30分)2、(C)是出版周期最短的定期连续出版物。
A、图书B、期刊C、报纸D、学位论文{第6页}4、了解各个国家政治、经济、科技发展政策的重要信息源是(B )A、科技报告B、政府出版物C、标准文献D、档案文献{第8页}5、年鉴属于下列哪一类别(D)A、零次信息B、一次信息C、二次信息D、三次信息{第7页}(一次信息:图书、期刊论文、科技报告、会议论文、专利说明书及科技日记、杂记、实践记录)6、下列哪种文献属于一次文献(A )。
A、图书B、百科全书C、综述D、文摘{第4页}7、下列文献中属于一次信息的是(A )A、专利说明书B、百科全书C、目录D、综述{第4页}8、以下各项属于二次信息的是(A)A、索引B、期刊C、学位论文D、百科全书{第4页}(二次信息;目录、题录、文摘、索引、书目对一次信息有指引和报道作用)3. 世界上第一大联机检索系统是_A_。
A.DIALOG系统B.OBRIT系统C.OCLC系统D.STN 系统4. 利用baidu搜索信息时,要将检索范围限制在网页标题中,应该使用的语法是___B_______。
A.site:B.intitle:C. inurl::6.信息检索根据检索对象不同,一般分为___C___________。
A. 二次检索、高级检索B.分类检索、主题检索C.数据检索、事实检索、文献检索D.计算机检索、手工检索7. 国际上评价期刊最有影响力的一个指标是 ___A_____。
A. 影响因子B.读者统计数据C.引文量D.价格8. 二次检索指的是:___C__________。
A.第二次检索 B.检索了一次之后,结果不满意,再检索一次C.在检索结果中运用“与、或、非”进行再限制检索 D.以上都不是9.国际连续出版物编号___A__________。
A.ISSNB.OCLCC.ISBND. CSSCI12.通过追溯检索获得的相关文献与原文献相比在发表时间上__B__。
信息检索试题及答案
信息检索试题及答案一、选择题(每题2分,共10分)1. 信息检索的英文缩写是()。
A. IRB. ITC. ISD. AI答案:A2. 以下哪个不是信息检索的类型?A. 文本检索B. 图像检索C. 声音检索D. 视频检索答案:D3. 以下哪个是全文检索系统?A. Google ScholarB. PubMedC. IEEE XploreD. All of the above答案:D4. 布尔逻辑中,“与”操作的符号是()。
A. ANDB. ORC. NOTD. XOR答案:A5. 以下哪个不是信息检索的评估指标?A. 查准率B. 查全率C. 准确率D. 召回率答案:C二、填空题(每题2分,共10分)1. 信息检索的目的是帮助用户从大量信息中找到______的信息。
答案:相关2. 信息检索系统通常包括______、索引和检索接口三个主要部分。
答案:数据库3. 在信息检索中,______是一种将用户查询与文档内容进行匹配的方法。
答案:关键词4. 信息检索的效率可以通过______和查全率两个指标来衡量。
答案:查准率5. 信息检索的发展历程可以分为手工检索、______和网络检索三个阶段。
答案:自动化检索三、简答题(每题5分,共20分)1. 简述信息检索的基本过程。
答案:信息检索的基本过程包括信息需求分析、选择检索工具、制定检索策略、执行检索操作、评估检索结果和调整检索策略。
2. 什么是信息检索中的查准率和查全率?答案:查准率是指检索出的相关文档占检索出的所有文档的比例,查全率是指检索出的相关文档占所有相关文档的比例。
3. 列举三种常见的信息检索技术。
答案:常见的信息检索技术包括全文检索、关键词检索和分类检索。
4. 信息检索在日常生活中有哪些应用?答案:信息检索在日常生活中的应用包括学术研究、市场调查、新闻报道、个人兴趣探索等。
四、论述题(每题10分,共20分)1. 论述信息检索在学术研究中的重要性。
《信息检索》试题与答案
《信息检索》试题与答案一、选择题1. 以下哪个不是信息检索的基本过程?A. 需求分析B. 检索策略制定C. 检索结果评价D. 信息编码答案:D2. 信息检索的核心技术是?A. 检索算法B. 检索系统C. 信息组织D. 用户界面答案:A3. 以下哪个不是信息检索的评价指标?A. 检索速度B. 检索结果的相关性C. 检索系统的稳定性D. 检索结果的数量答案:D4. 以下哪个不是信息检索的分类?A. 文本检索B. 图像检索C. 音频检索D. 数据库检索答案:D二、填空题5. 信息检索的目的是为了满足用户对信息的______。
答案:需求6. 信息检索的三个基本过程是______、______和______。
答案:需求分析、检索策略制定、检索结果评价7. 信息检索的评价指标包括______、______和______等。
答案:检索速度、检索结果的相关性、检索系统的稳定性8. 信息检索可以分为______检索、______检索、______检索等。
答案:文本检索、图像检索、音频检索三、判断题9. 信息检索的目的是为了获取用户感兴趣的信息。
()答案:正确10. 信息检索的评价指标只包括检索结果的相关性。
()答案:错误11. 信息检索的过程中,需求分析是非常重要的环节。
()答案:正确12. 信息检索的分类只包括文本检索和图像检索。
()答案:错误四、简答题13. 简述信息检索的基本过程。
答案:信息检索的基本过程包括以下三个环节:(1)需求分析:分析用户的信息需求,明确检索目标。
(2)检索策略制定:根据需求分析的结果,制定相应的检索策略,包括检索词、检索范围、检索方式等。
(3)检索结果评价:对检索结果进行评价,判断是否满足用户需求,并对检索策略进行优化。
14. 简述信息检索的评价指标。
答案:信息检索的评价指标包括以下三个方面:(1)检索速度:指检索系统在给定的时间内返回检索结果的能力。
(2)检索结果的相关性:指检索结果与用户需求的相关程度。
信息检索练习题及参考答案
《信息检索》练习题第一章练习一、名词解释1.信息——是世界上一切事物的状态和特征的反映,是用文字、数据或信号等形式,通过一定的传递和处理,来表现各种相互联系客观事物在运动变化中所具有特征内容的总称。
2.信息资源——是指经过人类的选取、组织、序化等整理与开发后的信息的集合。
3.白色文献——是指公开出版发行的、通过正常渠道可以得到的常规文献。
二、填空题1.信号只是信息的(),信息是信号所载荷的()。
载体、内容2.现实的信息资源依据传递信息的载体和表述方式的不同,可以划分为(),(),(),(),()。
口语信息资源、体语信息资源、文献信息资源、实物信息资源、网络信息资源3.口语信息资源、体语信息资源和实物信息资源,通过计算机技术的转化,成为(),如果有长期开发的价值,往往会转化成()。
网络信息资源、文献信息资源^4.()是记录有信息和知识的一切有形载体,是将知识用文字、符号、图像、音频、视频等方式记录在一定的固态物质载体的结合体。
文献5.期刊按内容和性质划分,可以分为(),(),()。
学术性期刊、检索性期刊、其他类型期刊6.()是指未经出版发行的或未以公开形式进入社会交流的最原始的文献。
零次文献三、判断题1.情报只是一类专门的信息,是信息的一个子集。
()2.网络信息资源也称虚拟信息资源,是指以数字化形式记录的,以多媒体形式表达的,存储在网络计算机磁介质、光介质以及各类通讯介质上的。
()3.机读型文献是以磁性材料为存储介质,采用计算机技术、磁性存储技术、激光技术,以键盘输入、文件拷贝、刻录或光学扫描等方法作为记录手段,通过计算机处理而产生的一种新的文献。
()4.缩微型文献是以印刷型文献为母本,以感光材料为载体,采用光学缩微技术将文字或图像记录存储在感光材料上而形成的文献。
()5.声像型文献是一种以磁性和光学材料为载体,将声音和图像记录存储在磁性或光学材料上的非文字形式的文献。
()#6.书写型文献是指印刷术发明以前的古代文献和当今尚未正式付印的文献,主要以手写和刻划的方式,将知识信息记录在各种自然材料和布帛,纸张等载体上的文献。
(完整版)信息检索期末复习题及答案
《信息检索》期末复习题及答案(仅供参考)一、判断题1.综述和百科全书属于二次文献。
(× )2.从文献检索的角度来看,一次文献是检索对象,二次文献是检索手段。
(× )3.题录、目录属于一次文献;期刊论文属于二次文献。
(× )4.主题词规范化的目的是扩大检索范围。
(√)5.在众多的信息源中,期刊是最重要的信息源。
(√ )6.核心期刊是指经常使用的期刊。
(× )7.关键词和主题词都是表征文献实质性内容的词汇,前者是经过词表规范的,后者是未经词表规范的自由词。
(×)8.《中国图书分类法》(简称《中图法》)是由分类号(代码)和类名来揭示信息的主题概念。
(×)9.题录型的检索工具,其著录项目包括题目、作者、文献出处、文摘。
()10.一项发明创造要获得专利权必须具备新颖性、创造性和实用性。
()二、选择题1、广义的信息检索包含两个过程( B )A、检索与利用B、存储与检索C、存储与利用D、检索与报道2、文献是记录有知识的()。
A、载体B、纸张C、光盘D、磁盘3、下列哪种文献属于一次文献( A )。
A、期刊论文B、百科全书C、综述D、文摘4、下列哪种文献属于二次文献( D )。
A、专利文献B、学位论文C、会议文献D、目录5、下列哪种文献属于三次文献( C )。
A、标准文献B、学位论文C、综述D、文摘6、下列选项中属于连续出版物类型的选项有(C )。
A、人民日报B、学位论文C、科技期刊D、会议文献7、下列选项中属于特种文献类型的有( D )。
A、学位论文B、图书C、科技期刊D、标准文献8、纸质信息源的载体是()A、光盘B、缩微平片C、感光材料D、纸张9、《中国图书分类法》(简称《中图法》)将图书分成( A )A、5大部分22个大类B、5大部分26个大类C、6大部分22个大类D、6大部分26个大类10、《中国图书分类法》(简称《中图法》)是我国常用的分类法,要检索农业方面的图书,需要在( A )类目下查找。
信息检索复习题附答案绝对正确!!
《信息检索》课理论考试复习题一、选择题:A1、从对文献的生产加工与组织层次来看,文献可以分成一次文献、二次文献和三次文献。
一次文献主要有(A)A、专著、报纸、期刊B、书目、索引、文摘C、百科全书、年鉴、手册2、《中图法》共分为五个基本部类,(B)个大类。
A二十五B、二十二C、二十八3、按照《中图法》的分类原则,文学类和哲学、宗教类分别用汉语拼音字母(C)表示。
A GHB、E、DC、I、B4、根据主题词表所规定的以反映文献内容的主题词为标志,从主题的角度检索文献资料的途径是(C)A、著者途径B、文献名途径C、主题途径5、著录一批相关的图书或报刊文献的基本特征,按照一定次序编排而成的揭示和报道文献的工具书是(B)A文摘B、书目C索引6、按照文献的知识内容及所属学科性质而分类和检索文献信息的途径是(A)A、分类途径B、主题途径C、著者途径7、信息检索中,以课题起始年代为起点,按时间顺序由远而近逐期查找文献的方法是(C)A、倒查法B、追溯法C、顺查法8、在各种大型电子全文图书系统中,国内影响较大的主要有(B)A、人大复印资料数据库B、超星数字图书馆C、学位论文数据库9、美国《科学引文索引》是最具权威的国际性检索系统之一,简称是(A)A SCIB、SSCIC、EI10、目前世界上最大的连续动态更新的中国期全文数据库是(B)A维普中文期刊数据库B、CNKI中国学术期刊数据库C万方数字化期刊数据库11、集各种类型工具书之大成,被称为“工具书之王”的工具书是(C)A、类书B、年鉴C、百科全书12、汇集某一学科或多学科的文献信息资料,按照特定的体例和排检方法编排,专供人们查阅、征引或解决疑难问题的一种专门文献是(A)A、工具书B、标准文献C、专利文献13、联机检索分为(B)联机检索和检索结果与反馈3个阶段。
A、简单检索B、检索准备C、高级检索14、内容比较成熟、资料比较系统、有完整定型的装帧形式的出版物是(C)A、技术报告B、政府出版物C、图书15、按信息检索的手段划分的信息检索类型是(C)A、数据检索B、计算机信息检索C、事实检索B1、美国《科学引文索引》是最具权威的国际性检索系统之一,简称是:(C)A.SSCIB.CSSCIC.SCI通2、本馆电子图书系统有(B)。
大学信息检索考试题及答案详解
大学信息检索考试题及答案详解一、选择题(每题2分,共20分)1. 信息检索中,布尔逻辑运算符包括哪些?A. 与、或、非B. 只、和、但C. 加、减、乘D. 是、否、也许答案:A2. 下列哪个数据库属于全文数据库?A. CNKIB. Web of ScienceC. PubMedD. Google Scholar答案:A3. 在进行信息检索时,哪个步骤是不必要的?A. 确定检索词B. 选择检索工具C. 随意选择关键词D. 评估检索结果答案:C4. 以下哪个不是信息检索的基本原则?A. 准确性B. 完整性C. 经济性D. 随意性答案:D5. 搜索引擎中,使用“+”号的作用是什么?A. 表示搜索结果必须包含“+”后面的词B. 表示搜索结果可以不包含“+”后面的词C. 表示搜索结果必须不包含“+”后面的词D. 表示搜索结果与“+”后面的词无关答案:A6. 以下哪个不是信息检索的类型?A. 回溯检索B. 定题检索C. 定性检索D. 定性检索答案:C7. 在信息检索中,“查准率”是指什么?A. 检索出的相关信息量与检索出的信息总量的比率B. 检索出的相关信息量与实际相关信息总量的比率C. 检索出的信息总量与实际相关信息总量的比率D. 检索出的相关信息量与检索出的非相关信息总量的比率答案:B8. 以下哪个方法不能用于提高检索的查全率?A. 使用同义词B. 使用上位词C. 使用下位词D. 使用专有名词答案:D9. 在信息检索中,“查全率”是指什么?A. 检索出的相关信息量与检索出的信息总量的比率B. 检索出的相关信息量与实际相关信息总量的比率C. 检索出的信息总量与实际相关信息总量的比率D. 检索出的非相关信息量与检索出的信息总量的比率答案:B10. 下列哪个不是信息检索的步骤?A. 需求分析B. 选择检索词C. 随意浏览D. 检索结果评估答案:C二、填空题(每题2分,共20分)11. 在信息检索中,使用截词符可以扩大检索范围,常见的截词符包括________和“?”。
国科大信息检索作业
国科大2013年秋季《现代信息检索》第一次作业(第一章到第五章)以下每题10分,共计100分。
1、习题1-4a.时间复杂度O(x+y)。
因为倒排记录表记录的文档号是按照从小到大排列的,在扫描Brutus对应的倒排表的时指针指向文档号为x,扫描Caesar对应的倒排记录表的指针对应的文档号为y,如果x<y那么x在结果集中,brutus指针后移,如果x=y,x不在结果集中,两个指针都后移,如果x>y,caesar指针后移。
b.时间复杂度是O(N),N是全部的文档数。
因为结果集的大小取决于文档数N,而不是倒排记录表的长度。
2、习题1-7对于原始的查询,按照倒排记录表的长度从小到大查询会节省查询复杂度(tangerine OR trees) = O(46653+316812)=O(363465)(marmalade OR skies) = O(107913+271658) = O(379571)(kaleidoscope OR eyes) = O(46653+87009) = O(300321)即顺序为:(kaleidoscope OR eyes) AND (tangerine OR trees)AND(marmalade OR skies)3、习题1-10UNION(p1,p2)answer ←{ }while p1!=NIL and p2!=NILdo if docID(p1)=docID(p2)then ADD(answer,docID(p1))p1<- next(p1)p2<-next(p2)else if docID(p1)<docID(p2)then ADD(answer,docID(p1))p1<- next(p1)else ADD(answer,docID(p2))p2<-next(p2)while p1!=NILdo ADD(answer,docID(p1))p1<- next(p1)while p2!=NILdo ADD(answer,docID(p2))p2<- next(p2)return(answer)4、习题2-7a.由24跳到75这一次跳转b.比较为(3,3) (5,5) (9,89) (15,89) (24,89) (75,89)(75,89) (92,89) (75,89)(92,89) (81,89) (84,89) (89,89) (92,95) (115,95)(96,95) (96,97) (97,97) (100,99) (100,100) (115,101)总共21次比较c.比较为(3,3) (5,5) (9,89) (15,89) (24,89) (39,89) (60,89) (68,89) (75,89) (81,89) (84,89) (89,89) (92,95) (96,95) (96,97)(97,97) (100,99) (100,101) (115,101) 总共19次比较56、习题3-116*6*6*6=12967、习题4-1倒排索引的构建需要两步:1.扫描文档,建立词项文档对。
中国科学院大学现代信息检索2013年试题
信息检索13年试题汇总一、判断题(2分*15题)1、查询和信息需求是完全等价的。
()2、不论对于什么语言来说,词干还原基本上都不会较大规模提高信息检索的效果。
()3、基于跳表的倒排记录表合并不一定比普通倒排表合并要快。
()4、轮排索引通常采用B树来存储。
()5、编辑距离的计算路径有且仅有一条。
()6、索引压缩的唯一目的就是为了节省硬盘空间。
()7、向量空间模型中查询和文档都映射到同一空间。
()8、文档的静态质量得分与查询和文档都相关。
()9、在信息检索的评价当中,宏平均更关注相关结果很多的“大”查询。
()10、BIM概率检索模型当中需要估计2M个参数,其中M是词汇表的大小。
()11、朴素贝叶斯方法青雀预测了文档属于某个类别的概率。
()12、SVM中的核函数就是从原始空间到新空间的映射函数。
()13、HAC层次聚类算法的结果均具有确定性。
()14、PageRank计算是否收敛与初始值设置有关。
()15、原始HITS算法是查询相关的。
()二、选择题(单选或则多选,2分*8题)1、关于词项和词条,以下叙述正确的是()A)词项可以不是词条B)词项的数目一般小于词条C)词项不能是停用词D)词条不能使用单词的复数形式2、关于倒排索引,以下叙述正确的是()A)词典部分只能采用二叉树来组织B)倒排记录表不一定按我呢当ID排序C)词典所占空间往往地狱倒排记录表空间D)构建过程一定全部可以在内存中完成3、关于查询似然模型QLM,一下叙述正确的是:A)模型计算中只有一种平滑方法B)经过JM平滑后所有概率参数都大于零C)计算的是文档的一元模型D)文档中词项出现次数越多最后的概率参数(看不清)4、关于信息检索的评价,以下叙述正确的是()A)正确率和召回率可以同时提高B)MAP一定代表了用户真实的满意程度C)NDGG不能基于二值相关度计算D)任何情况下正确率和召回率都无法精确计算5、关于特征选择,以下叙述正确的是()A)只能提高分类效率,不能提高分类效果B)可以同时提高分类效率和效果C)效用函数定义了特征对分类的贡献D)最优的特征数目与具体应用无关6、关于朴素贝叶斯分类器,以下叙述正确的是()A)朴素贝叶斯中只有一个条件独立性假设B)实现时可以采用多项式模型或贝努利模型C)训练时间是线性的(相对于训练集大小)D)分类时间复杂度是线性的(相对于测试集大小)7、关于SVM分类器,以下叙述正确的是()A)该分类器不需要训练B)该分类器通常分类效果不错C)分类时只和支持向量有关D)无法处理非线性情况8、关于HAC聚类算法,以下叙述正确的是()A)聚类结果取决于簇向量相似度定义B)单连接算法会受离群点影响C)全连接方法会导致链式问题D)质心聚类会产生相似度颠倒现象三、计算题(6分*5题)1、面对两个正确答案集合分别是R q1={d1, d2, d3, d4}及R q2={d2, d4, d6, d7, d8}的查询q1,q2,某个系统A返回的检索结果如表1所示,试计算出该系统对每一查询的P、R、F、P@10、AP等指标,并计算整个系统的MAP指标。
信息检索试题及答案
信息检索试题及答案### 信息检索试题及答案#### 一、选择题1. 信息检索系统的主要功能是什么?- A. 存储信息- B. 检索信息- C. 分析信息- D. 创造信息答案:B2. 以下哪项不是全文检索的特点?- A. 快速- B. 准确- C. 只包含关键词- D. 包含完整的文本内容答案:C3. 在信息检索中,布尔逻辑运算符不包括以下哪一项? - A. AND- B. OR- C. NOT- D. XOR答案:D#### 二、填空题4. 信息检索的目的是_________。
答案:快速、准确地找到所需的信息5. 信息检索的两种基本类型是_________和_________。
答案:系统检索;手工检索6. 信息检索中,倒排索引是一种_________结构。
答案:反向#### 三、简答题7. 简述信息检索的基本原则。
答案:信息检索的基本原则包括:- 相关性原则:检索结果应与用户需求高度相关。
- 准确性原则:检索结果应准确反映信息内容。
- 效率原则:检索过程应快速高效。
- 可扩展性原则:检索系统应能适应信息量的增长。
8. 描述信息检索过程中的“关键词”概念。
答案:关键词是信息检索过程中用来标识文档主题或内容的词或短语。
它们是检索查询的核心,帮助用户快速定位到包含这些关键词的文档。
#### 四、论述题9. 论述信息检索技术在现代图书馆服务中的应用。
答案:信息检索技术在现代图书馆服务中的应用主要体现在以下几个方面:- 提供在线目录查询服务,方便读者快速找到所需图书。
- 支持电子资源的检索,包括电子书、期刊文章、多媒体资料等。
- 实现个性化推荐服务,根据读者的阅读历史和偏好推荐相关资源。
- 辅助图书馆进行资源管理,如自动化编目、馆藏资源的盘点等。
- 支持远程访问服务,使读者能够通过网络访问图书馆资源。
#### 五、案例分析题10. 某公司需要检索关于“人工智能”的最新研究论文,分析如何有效进行信息检索。
中国科学院大学现代信息检索2012年秋季期末试题及答案
中国科学院研究生院课程编号:71258-Z-2试题专用纸课程名称:现代信息检索任课教师:王斌———————————————————————————————————————————————姓名学号成绩一、判断题(正确打√,错误打X。
每题2分,共30分)1、建立倒排索引时,只能以文件作为索引单位。
(X)2、词项集合和词条集合有时可以完全不同,甚至交集为空集。
(√ )3、轮排索引和k-gram索引都可以支持通配查询的处理。
(√ )4、倒排索引的构建与所处的硬件环境息息相关。
(√ )5、γ的编码序列唯一,但解码序列不唯一。
(X)6、向量空间模型的计算当中,采用余弦相似度和欧氏距离得到的相似度是一致的,即两个向量的余弦相似度大,则欧氏距离一定小,而当余弦相似度小时欧氏距离大。
(X)7、信息检索系统中只存在一种索引结构。
(X)8、隐式相关反馈中对用户的行为进行分析,因此一定会提高检索的效果。
(X)9、在BM25检索模型中,考虑了文档长度对检索带来的影响。
(√)10、在朴素贝叶斯分类器,基于多项式模型和基于贝努利模型的实现中采用了完全相同的假设。
(X)条件独立假设+ 位置独立假设+只考虑出现位置独立假设+ 考虑不出现11、特征选择函数MI(Expected Mutual Information)考虑了词项不存在对分类带来的影响。
(√ )12、SVM分类的速度与支持向量的个数无关。
(X)13、K-均值聚类算法的结果依赖于初始种子质心的选择。
(√)14、GAAC层次聚类算法的结果具有确定性。
(√)15、隐性语义索引LSI本质上是将原始的向量空间线性变换到另一个高维向量空间。
(X)二、选择题(单项或多项选择。
每题2分,共16分)1、关于倒排索引的压缩,以下叙述正确的是(A B )。
A)压缩能提高空间的利用率B)压缩能提高硬盘到内存的传输速度C)词典压缩作用不大D)可变字节编码压缩是一种有损压缩方法2.关于向量空间模型,以下叙述正确的是(A B D )。
信息检索考试题目及答案
信息检索考试题目及答案一、单项选择题(每题2分,共20分)1. 信息检索中,布尔逻辑运算符包括AND、OR和NOT,其中AND表示什么含义?A. 逻辑与B. 逻辑或C. 逻辑非D. 逻辑异或答案:A2. 在信息检索中,以下哪个不是信息检索的基本步骤?A. 需求分析B. 选择检索工具C. 制定检索策略D. 评估检索结果答案:D3. 以下哪个数据库不是全文数据库?A. PubMedB. Web of ScienceC. Google ScholarD. Scopus答案:B4. 信息检索中,哪个术语表示对检索结果进行排序,以便找到最相关的信息?A. 排序B. 过滤C. 聚类D. 去重答案:A5. 在信息检索中,以下哪个不是评估检索效果的指标?A. 查全率B. 查准率C. 响应时间D. 相关性答案:D6. 以下哪个不是信息检索中的检索技术?A. 关键词检索B. 布尔检索C. 模糊检索D. 精确匹配检索答案:D7. 在信息检索中,以下哪个不是信息过滤的方法?A. 基于内容的过滤B. 基于用户的过滤C. 基于时间的过滤D. 基于地点的过滤答案:D8. 以下哪个不是信息检索中常用的检索策略?A. 扩展检索B. 缩减检索C. 替换同义词D. 增加无关词答案:D9. 在信息检索中,以下哪个不是信息源的类型?A. 书籍B. 期刊C. 会议论文D. 社交媒体答案:D10. 以下哪个不是信息检索中的用户需求分析的内容?A. 用户的检索目的B. 用户的检索背景C. 用户的检索习惯D. 用户的检索时间答案:D二、多项选择题(每题3分,共15分)11. 信息检索中,以下哪些因素会影响检索结果的相关性?A. 检索词的选择B. 检索策略的制定C. 检索工具的选择D. 用户的检索习惯答案:A, B, C12. 在信息检索中,以下哪些是提高检索效率的方法?A. 使用高级检索B. 限定检索字段C. 增加无关词D. 使用同义词替换答案:A, B, D13. 以下哪些是信息检索中常用的评估指标?A. 查全率B. 查准率C. 响应时间D. 相关性答案:A, B14. 在信息检索中,以下哪些是信息源的特点?A. 多样性B. 动态性C. 有限性D. 无限性答案:A, B, C15. 以下哪些是信息检索中常见的问题?A. 信息过载B. 信息缺失C. 信息不准确D. 信息不相关答案:A, B, C, D三、简答题(每题10分,共30分)16. 简述信息检索的目的是什么?17. 描述信息检索过程中的步骤。
《信息检索》期末考试试题(含答案)
装 订 线 装 订 线 装 订 线 装 订 线 学号: 姓名: 专业 : 年级: 学院:
封 线 密 封 线 密 封 线 密 封 线 密 题号 一 二 三 四 五 六 成绩 复核 得分
阅卷
受到专利法保护的专利类型有 、 和 。
方法有 等。
有 、 等。
传统文献信息媒体按文献信息载体形式划分,可分为印刷型、 、 、 4计算机检索的方式大致可以归纳为 、 、 、指令检索、分类检索、二次检索等几种方式。
,截词的含义是 ,的含义是 。
作者的原始创作是 次文献, 次文献仅仅是对文献的有序化加工,专利属于 次文献,综述属于 次文献,学位论文属于 次文献所学数据库中,能够检索会议文献的数据库有 、 等;能够检索学位论文的数据库有 、 。
”的含义是 。
分类检索语言的定义为 ,我国常用的分类法是 , 是国外的一种分类体系。
我校订购的中文数据库有 、 、 外文数据库有 、 、 等。
的中文全称是 ,的中文全称是 ,是 ,的英文全称是 。
请根据下图回答:①该检索界面是来自于 数据库;②该文献的题目是 ;称是 ;④该文献的第一作者是 ;否可以直接查看该文献的全文 。
装 订 线 装 订 线 装 订 线 装 订 线 学号: 姓名: 专业 : 年级: 学院:
封 线 密 封 线 密 封 线 密 封 线 密
装 订 线 装 订 线 装 订 线 装 订 线 学号: 姓名: 专业 : 年级: 学院:
封 线 密 封 线 密 封 线 密 封 线 密 引 ;。
(完整版)信息检索试题(有答案)
(完整版)信息检索试题(有答案)1.检索系统:由大量的数据库集合生成的数据库。
2.自然语言:未经加工和规范化处理的非受控于言。
3.二次文献:对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征如题名、作者、出处等进行著录,或将其内容压缩成简介、提要或文摘,并按照一定的学科或专业加以有序化而形成的文献形式,如目录、文摘杂志(包括简介式检索刊物)等4. 主题词:是用于表述、存储、查找文献主题的受控词汇,是主题表中能表达一定意义的最基本的词汇单元。
5. 科技报告:科技报告是研究单位向主管机构和资助单位提交的关于某项科技成果的正式报告或其进展阶段的实际记录。
一般依托于国家的军事和高科技科研项目,是科研工作成果的体现,需要经过专家评审鉴定,技术上可靠性较高。
6. 体系分类语言:体系语言是以科学分类为基础,运用概念的划分与概括的逻辑方法,形成一个概念等级体系,按知识门类的逻辑次序,按照从总到分,从一般到具体,从低级到高级,从简单到复杂的原则进行概念的综分,层层划分,累累隶属,逐步展开而形成的一个等级体系。
1.当关键词具有多个含义的时容易造成误检,使得查准率较低。
2. 信息素质的内涵包括信息意识、信息能力和信息道德。
3.主题词的体现形式是叙词表。
4. 文献按其加工深度不同可分为零次文献,一次文献,二次文献和三次文献。
5.中国图书馆图书分类法简称为:中图法。
6. 连续出版物的主要类型有期刊、报纸、年底出版物。
7.标准文献的主体是技术标准。
8.当计算机访问范围受到限制时,可通过代理服务器访问外部网络。
9. 构成文献的三要素是载体、知识和记录手段。
10. 布尔逻辑运算符包括: 逻辑“或”、逻辑“与”和逻辑“非”三种。
11. 专利有三层含义:专利权、专利技术和专利文献。
12.文献的内容特征用于找出相关文献,外部特征用于获得特定文献。
13. 信息检索常用的方法有:工具法、引文法和循环法。
14. CNKI的中文全称是China National Knowledge Infrastructure。
国科大现代信息检索第二次作业
国科大2013年秋季《现代信息检索》第二次作业(第六章到第十五章)以下1—16每题6分,第17题3分,共计100分。
1. 习题 6—10 考虑图6—9中的3篇文档Doc1、Doc2、Doc3中几个词项的tf 情况,采用图6—8中的idf 值来计算所有词项图6-9 习题 6—10中所使用的tf 值car 在三篇文档中的tf —idf 值分别:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc3:24*1.65=39。
6 auto 在三篇文档中的tf -idf 值分别为:Doc1:3*2.08=6。
24;33*2。
08=68。
64;0*2。
08=0 insurance 在三篇文档中的tf —idf 值分别为:Doc1:0*1。
62=0;33*1.62=53。
46;29*1.62=46。
98best 在三篇文档中的tf —idf 值分别为:Doc1:14*1。
5=21;0*1。
5=0;17*1.5=25。
52. 习题 6—15 回到习题6—10中的tf—idf 权重计算,试计算采用欧氏归一化方式处理后的文档向量,其中每个向量有4维,每维对应一个词项。
Doc1=(44.55,6.24,0,21), Len(Doc1)=49。
6451对其长度归一化得到Doc1=(0。
897,0。
126,0,0.423) Doc2=(6。
6,68。
64,53.46,0),Len (Doc2)=87。
2524对其长度归一化得到Doc2=(0.076,0.787,0.613,0)Doc3=(39。
6,0,46。
98,25.5),Len (Doc3)=66。
5247对其长度归一化得到Doc3=(0.595,0,0。
706,0。
383) 3.习题 6-19 计算查询digital cameras 及文档digital cameras and video cameras 的向量空间相似度并将结果填入表6-1的空列中。
中国科学院大学现代信息检索课后习题答案
《信息检索导论》课后练习答案王斌最后更新日期2013/9/28第一章布尔检索习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。
文档1 new home sales top forecasts文档2 home sales rise in july文档3 increase in home sales in july文档4 july new home sales rise1 2 322 3121 2 3习题1-2 [*] 考虑如下几篇文档:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵;解答:文档1文档2文档3文档4drug1100for1011hopes0001new0111of0010patients0001schizophrenia1111treatment0010b. 画出该文档集的倒排索引(参考图1-3中的例子)。
解答:参考a。
习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?a.schizophrenia AND drug解答:{文档1,文档2}b.for AND NOT (drug OR approach)解答:{文档4}习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次内完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。
如果不能的话,那么我们能达到的时间复杂度是多少?a.Brutus AND NOT Caesarb.Brutus OR NOT Caesar解答:a.可以在O(x+y)次内完成。
通过集合的减操作即可。
国科大 中科院 现代信息检索开卷考试用复习
这里面有详尽描述。
11.BM25 模型 BM25 模型是基于二重泊松推导的,用来考察词语在查询中的权值。BM25 模型融合了 三个计算因子, BIM 模型计算得分+查询词在文档 D 中的权值+查询词自身的权值。 通过计算 即可总结出与查询词最相关的文档。 BM25 不用高频词项。
优点:一定程度上的理论化模型,是基于二重泊松假设,适用于绝大多数文本语料上的 信息检索应用。实验证明是有效的。 缺点:待调参数多且参数敏感性高,必须去停用词。 计算时,qtf=1 无影响,所以前一个因子=1,w1 就是文档频率>n/2 时,文档不可用,所 以要去掉停用词。
TF k1 tf ld tf k1 1 b b avg _ l
文档归一:
意义是,当查询内容出现在长文档中,重要性减
小,出现在短文当中,重要性大。 11.1 统计语言模型, 基本假设, 和 BM25 假设区别?为什么要用平滑处理?统计量是如何在 公式中体现的? 区别:这种做法提供了一种新的文档排序的实现方法,和对文档 D 与查询 Q 相关的概 率 P 进行显示建模,而基本的统计建模方法则首先对每篇文档 D 建模得到文档的概率模型 MD,然后按照模型生成查询的概率 P(q|Md)的高低来对文档进行排序。 假设:基于多项随机试验,文档的模型符合某类概率模型的总体分布,文档和查询都是 该总体分布下的一个抽样样本实例,根据文档,估计文档的模型,即求出该总体分布及其参 数,之后计算该总体分布下抽样出查询的概率。BM25 是基于二重泊松假设的。 平滑能够进行重新分配概率,使得即使没有出现的事件也会赋予一个概率。 统计量体现:
7.1 三种模型对于文档长度的处理方式?解释三种模型对文档长度进行归一是如何体现的? 8.未插值的 AP AP:平均正确率,对不同召回率点上的正确率进行平均。 未插值的 AP: 某个查询有 6 个相关结果, 但是系统只返回了 5 篇, 位置分别是 1,2,5,10,20, 则 AP=(1/1+2/2+3/5+4/10+5/20+0)/6 插 值 的 AP : 在 召 回 率 分 别 为 0, 0.1, 0.2,…,1.0 的 十 个 点 上 的 正 确 率 求 平 均 。 Ap=(1/1+2/2+3+5+4+10+5+20)/5。它只对返回的相关文档算入分母。 9.缓冲池方法 Pooling 缓冲池方法是为了解决召回率难以计算的问题。 对于大规模的语料集合, 列举每个查询 的所有相关文档不实际,所以召回率就没有分母了,无法计算。就要用到缓冲池作为分母。 对多个检索系统的 Topk 个结果组成的集合进行人工标注,标注出的相关文档集合作为 整个相关文档集合。 Topk:从文档集的所有文档出找出 k 个离查询最近的文档,对每个文档进行余弦相似度 的评分,按照高低排序,选择前 k 个。 缓冲池效果和局限性:最常见的,如果只有部分的结果进行了 Pooling 操作,则计算结 果时的分子变小,从而正确率会变小;计算召回率时的分母和分子都变小,所以不确定。如 果所有的结果都进行了 Pooling,则此时计算的正确率分子分母都不变,正确率等于真实的 正确率,计算召回率时,分子不变,分母小于真实的相关文档总数,所以计算出的召回率大 于真实的召回率。 缓冲池的局限性:召回率不可考,所以在强调召回率准确度的系统中无法使用,缓冲池 只对一小部分文档进行评价, 当语料集变大时, 缓冲池所占比例越来越小, 则此时未插值 AP 不可靠,需要考虑其他指标。 10.评分指标 /s/blog_72995dcc01013oo9.html
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
/DIIDW_GeneralSearch_input.do?product=DIIDW &search_mode=GeneralSearch&SID=4Ai76Kdc3mPjKA9JEh9&preferencesS
试题专用纸
所属学期 课程编号 课程名称 任课老师:
CNKI 是全球信息量最大、最具价值的中文网站。据统计,CNKI 网站的内容数 量大于目前全世界所有中文网页内容的数量总和,可谓世界第一中文网。CNKI 的信 息 内 容 是 经 过 深 度 加 工 、编 辑 、整 合 、以 数 据 库 形 式 进 行 有 序 管 理 的 ,内 容 有 明 确 的 来 源 、出 处 ,内 容 可 信 可 靠 ,比 如 期 刊 杂 志 、报 纸 、博 士 硕 士 论 文 、会 议 论 文 、图 书 、 专利等等。因此,CNKI 的内容有极高的文献收藏价值和使用价值,可以作为学术研 究、科学决策的依据。
试题二
(1)答:二次信息源是某个特定范围内信息源的集合,按照一定的逻辑顺序和科 学体系加以编排存储,使之系统化,便于检索。
(2)答:逻辑与(逻辑乘) “AND” 或 * ,表示两者条件都满足
逻辑或(逻辑加)“OR” 或 “+”,表示两者满足任意一个就行
逻辑非(逻辑减) “NOT”或“—”,表示满足其中一个条件且不满足 另一个条件
(4)资源名称(中英文):GeoScienceWorld 地球科学世界出版社 登录网址:/ 资源特点:地球科学世界出版社(GSW)是由多家先进的地球科学组织共 同成立非营利性组织,旨在通过互联网更加方便和经济地进行 地球科学研究,并获取相关信息。GSW 是由 6 家顶尖的地球科 学社团和一家机构组成的拥有空前实力的组织。
(3)答:a、手工添加 b、在线检索录入 c、在数据库中检索的文章,再直接导 入到 endnote
(4)答:1、GEOLOGY 2、 JOURNAL OF METAMORPHIC GEOLOGY 3、 JOURNAL OF GEOLOGY 4、PERMAFROST AND PERIGLACIAL PROCESSES 5 、 JOURNAL OF SEDIMENTARY RESEARCH 6 、 SEDIMENTOLOGY7 、 ORE GEOLOGY REVIEWS8 、 INTERNATIONAL GEOLOGY REVIEW9、PALAIOS 10、Stratigraphy
试题专用纸
所属学期 课程编号 课程名称 任课老师:
试题一
(1)服务名称:文献传递 服务网址:/Reader/query.jsp 使用方法: 填写文献传递申请表,文献传递直接发到邮箱里
(2)服务名称:馆际互借 服务网址:/Reader/query_book.jsp 使用方法:通过图书馆网填写图书代借申请表,由馆际互借处代为读者借书, 书籍借到后,会 email 或电话通知读者前来馆际互借处取书。
其中 天然气水合物对深水钻采的潜在风险及对应性措施,白玉湖 李清平等, 2009,37(3)为经典文献
(四)答:
GeoRef 数据库是由美国地质协会(American Geological Institute)编辑的地学数据 库,1991 年开始由美国银盘公司(Silver Platter Information)与美国地质协会合作发行光 盘。它收录了 1785 年以来的北美地学文献和 1933 年以来的全世界地学文献,至 19994 年共计 170 万条,现年递增 8 万条文献。GeoRef 收录的文献范围很广,包括期刊、 会议录、图书、地形图和地质图、学位论文、报告、传记等,70%的文献来源于世界 各国出版的 4000 余种期刊,2%的文献来源于会议录,文献共涉及 44 种文字,英文 占 7%,其它主要为俄、法、德、日等语种,中文占 1.4%。收录的学科范围主要包 括 :地 质 学 、地 球 物 理 、古 生 物 、地 层 学 、工 程 地 质 、环 境 地 质 、水 文 地 质 、水 文 学 、 矿物岩石学、结晶学、地球化学、海洋学、海洋地质、石油地质,另外还包括行星科 学、天体物理学、天体化学、数学地质、遥感地质、电子学和计算机应用、分析化学 等。该库的更新速度快,从 1997 年起每两个月更新一次。
ISI Web of Science 是全球最大、覆盖学科最多的综合性学术信息资源,收录了自 然科学、工程技术、生物医学等各个研究领域最具影响力的超过 8700 多种核心学术 期刊。利用 Web of Science 丰富而强大的检索功能--普通检索、被引文献检索、化学 结 构 检 索 ,您 可 以 方 便 快 速 地 找 到 有 价 值 的 科 研 信 息 ,即 可 以 越 查 越 旧 ,也 可 以 越 查 越新,全面了解有关某一学科、某一课题的研究信息。
等等 (三)、检索内容以水合物固井,以 EI 为例
检索词:Gas hydrate Cementing 检索式:Gas hydrate and Cementing 可以得到如下要素表
检索课题名称:天然气水合物固井
试题专用纸
检索要素
检索要素 1
要素名称
水合物
主题词
Gas hydrate
输入上述检索Βιβλιοθήκη 可得到 447 篇文献(5)软件名称:endnote 下载网址:/endnote/endnote.jsp 主要功能:1、文献的管理 2、文献关联之间的一些分析学习 3、写作论 文中插入自动生成参考文献。
(6)服务名称:图书馆员或学科馆员 服务网址:/digiref/ 有何建议:回答的太深有时候自己很糊涂,再问也不好意思,建议馆员老师 由浅入深回答同学们的提问。
(2)需求类型:攻关型 (3)检索时间:最近二十年的相关文献 (4)需要解决的问题:天然气水合物固井的最优方法
(二)、选择信息源:
(1)综合类信息:CNKI、万方、ISI、Wiley、Proquest 博硕士论文、Elsevier、 (2)专业学科类:GeoRef、GeoBase on EV2 、GeoscienceWorld、
ProQuest Dissertations & Theses(简称 PQDT,原名 PQDD,ProQuest 数字化博硕 士论文文摘数据库)收录有欧美 1,000 余所大学文、理、工、农、医等领域的博士、 硕士学位论文,是学术研究中十分重要的信息资源,将 UMI 庞大的博硕士论文资源 展现在学术界面前。订购 PQDT 文摘数据库的用户可以方便地从互联网上检索从 1861 年至今的 200 多万篇博硕士论文文摘或索引。用户可以访问超过 90%的北美地区每年 获得通过的博硕士论文以及许多国际性的博硕士论文的文摘。
(7)服务名称:alert 工具 服务网址:/nams/svc/myaccount/save/alert?list_id=185
试题专用纸
所属学期 课程编号 课程名称 任课老师:
(8)学科馆员姓名: (青海盐湖所) 吕俊生 Email:lvjs@
这些都是此领域 JCR 中影响因子前十位的期刊
(5)答:一定时间内同一 IP 下载文章数目过多;建议分开时间段分批次下载。
试题三 (一)、(1)答:研究主题:天然气水合物开采的固井方法
产生阶段:海洋地下有着丰富的天然气水合物资源,有效的开采出来能缓解资源危 机
起始阶段:了解天然气水合物的分布以及近几年的开采现状 执行阶段:重点了解近几年的开采固井方法 总结阶段:掌握最新的固井方法 并能阐述自己的观点
所属学期 课程编号 课程名称 任课老师:
检索要素 2
固井方法
Cementing
以 Chehimi,Mohamed.M 和 Zhang,jingfu 作者精简出 10 篇文献
以万方数据库为例检索词为:水合物固井,得到 9 篇文献如下图
试题专用纸
所属学期 课程编号 课程名称 任课老师:
以工业技术精简得到 7 篇文献如下图