信息检索导论-王斌 第三次课后作业(13-21)

合集下载

信息检索导论-王斌-第三次课后作业(13-21)

信息检索导论-王斌-第三次课后作业(13-21)

信息检索导论第三次课后作业1、习题13-2答:(i)贝努利模型:三个文档具有相同的模型表示(ii)多项式模型:文档1和文档2相同,文档3与它们都不同。

文档1和文档2中“Lodon”都出现了两次,文档3中只出现了一次。

2、习题13-53、习题14-6在图14-14 中,3 个向量→a、→b及→c中哪一个满足:(i) 采用内积计算的情况下与→x最近?(ii) 采用余弦相似度计算的情况下与→x最近?(iii) 采用欧氏距离计算的情况下与→x最近?4、习题15-1一个数据集里支持向量的最小数目是多少(此时的数据集每个类别中都包含实例)?答:一个数据集里支持向量的最小数目是2个。

因为SVM分类模型希望得到在特征空间上间隔最大的分类器,即对于距离超平面最近的实例点,也希望能有足够的确信度将其分开,确定这样的超平面需要的支持向量最小数目是2个。

5、习题16-5 K-均值算法的两个停止条件为:(i) 文档的分配不再改变;(ii) 簇质心不再改变。

请问这两个条件是否等价?答:这两个停止条件是等价的。

当连续两次迭代之后,若文档的分配不再改变,则据此计算出的簇质心也不会再改变;当簇质心不再改变的时候,则K-均值算法计算出的文档的分配也就不再改变。

6、习题17-7 a. 考虑在一个两种语言组成的文档集上进行2-均值聚类,你预期的结果是什么?b. 当使用HAC 算法时,预期的结果是否仍然一样?答:a.预期的结果:文档根据语言的大致分成两类。

b.预期的结果不一样。

HAC是自底向上的聚类方法,最开始的时候每一篇文档都是一个簇,然后不断对簇进行两两合并,直到所有文档都聚为一簇。

层次聚类不需要实现确定簇的数据,如果要按照不同的语言将文档进行分类,则需要在层次结构中某处进行截断,在合适的位置截断也可以将文档大致分为两类。

7、习题18-11假定有一个文档集合,其中每篇文档可以是英文或者是西班牙文。

整个文档集如图18-4所示。

图18-5 给出了与图18-4 相关的英语和西班牙语的术语表。

现代信息检索导论作业讲评PPT课件

现代信息检索导论作业讲评PPT课件
第17页/共20页
第五次作业 第四题
• Query:
• banana slug
• Documents:
• (R) banana slug Ariolimax columbianus
• (R) Santa Cruz mountains banana slug
Ariolim banana Campus columbi Cruz Mascot mountai Santa
得Qm = (0.5, 2, -1, 0.5, -0.5, -1, 0.5, -0.5, 2) 负的weight变为0
Qm = (0.5, 2, 0, 0.5, 0, 0, 0.5, 0, 2)
第19页/共20页
感谢观看!
第20页/共20页
要求用C语言 首先分句 Highlight整个查询出现的地方,而不是查询中某个单词 程序应该生成一个HTML文件
第14页/共20页
第五次作业 第二题
• Give three reasons why relevance feedback has been little used in web search.
90
80
70
60
50
40
30
20
10
• C.在25%召回率0水平上的插值正确率: 100%
0.125
0.25
0.375
0.5
0.625
0.75
• D.在33%召回率水平上的插值正确率:36.4%
第10页/共20页
第四次作业 第二题
• RRNNN NNNRN RNNNR NNNNR • E.假定该系统所有返回结果的数目就是20,则MAP =
D1 = (1, 1, 0, 1, 0, 0, 0, 0, 1)

中国科学院大学现代信息检索课后习题答案

中国科学院大学现代信息检索课后习题答案

《信息检索导论》课后练习答案王斌最后更新日期 2013/9/28第一章布尔检索习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。

文档 1 new home sales top forecasts文档 2 home sales rise in july文档 3 increase in home sales in july文档 4 july new home sales rise习题1-2 [*] 考虑如下几篇文档:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵;解答:breakthrough 1 0 0 0drug 1 1 0 0for 1 0 1 1hopes 0 0 0 1new 0 1 1 1patients 0 0 0 1schizophrenia 1 1 1 1treatment 0 0 1 0b. 画出该文档集的倒排索引(参考图 1-3中的例子)。

解答:参考a。

习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?a.schizophrenia AND drug解答:{文档1,文档2}b.for AND NOT (drug OR approach)解答:{文档4}习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。

如果不能的话,那么我们能达到的时间复杂度是多少?a.Brutus AND NOT Caesarb.Brutus OR NOT Caesar解答:a.可以在O(x+y)次完成。

信息检索技术-习题答案

信息检索技术-习题答案

《信息检索技术》(第三版)书后习题及参考答案(部分)第1章绪论【综合练习】一、填空题1.文献是信息的主要载体,根据对信息的加工层次可将文献分为_________文献、__________文献、___________文献和___________文献。

2.追溯法是指利用已经掌握的文献末尾所列的__________,进行逐一地追溯查找_________的一种最简便的扩大情报来源的方法。

3.用规范化词语来表达文献信息__________的词汇叫主题词.主题途径是按照文献信息的主题内容进行检索的途径,利用能代表文献内容的主题词、关键词、叙词、并按字顺序列实现检索.4.计算机信息检索过程实际上是将___________与____________进行对比匹配的过程。

5.无论是手工检索还是计算机检索,都是一个经过仔细地思考并通过实践逐步完善查找方法的过程。

检索过程通常包含以下几个步骤_________、__________、__________、__________、_________。

6.检索工具按信息加工的手段可以分文__________、____________、___________.7。

《中国图书馆图书分类法》共分___________个基本部类,下分________个大类。

8.索引包括4个基本要素:索引源、___________、___________、和出处指引系统.答案1。

零次,一次,二次,三次2.参考文献,引文3.内容特征4。

检索提问词,文献记录标引词5。

分析课题,选择检索工具,确定检索途径及检索式,进行检索,获取原文6。

手工检索工具,机械检索工具,计算机检索工具7.五,228.索引款目,编排方法二、判断题1.在检索信息时,使用逻辑符“AND”可以缩小收缩范围。

()2.逆查法是由近及远地查找,顺着时间的顺序利用检索工具进行文献信息检索的方法。

( )3.按编制方法划分,信息检索工具可以分为:手工检索工具、机械检索工具、计算机检索工具。

信息检索与利用习题与答案Word版

信息检索与利用习题与答案Word版

医学信息检索习题单项选择题1. 关于信息的说法错误的是()A. 信息和物资、能量构成社会三大资源B. 信息的运动状态和方式是固定不变的C. 信息是客观事物的运动状态和特征的反映D. 信息的存储形式有多种多样2. 下列文献中属于一次文献的是()A. 期刊论文B. 年鉴C. 目录D. 文摘3. 下列文献中属于二次文献的是()A. 索引B. 述评C. 研究报告D. 专著4. 下列哪个途径是从文献的内部特征进行检索的?()A. 刊名途径B. 号码途径C. 作者途径D. 分类途径5. 非规范化检索语言是指哪一项?()A. 主题检索语言B. 关键词语言C. 标题词语言D. 叙词语言6. 计算机文献检索中,每一种文献特征对应于计算机数据库中的()A. 一条记录B. 一篇文献C. 一个字段D. 一个文档7. 在CBMdisc检索中,如果在一个检索式中同时包含多个运算符,那么它们的运算优先级次序正确的为()A. AND>OR>NOTB. ( )> OR >AND>C. AND NOT>OR>ANDD. ( )>AND NOT>AND>OR8. Medline光盘数据库的内容涵盖三种重要的纸本医学文献检索工具,它们是()A. IM、Index to Dental Literature、International Nursing IndexB. BA、IM、EMC. BA、EM、International Nursing IndexD. BA、Index to Dental Literature、International Nursing Index9. 下面哪个检索式的作用与短语检索"digiatal camera"等价:()A. digiatal (W) cameraB. digiatal (N) cameraC. digiatal AND cameraD. digiatal OR camera10. 检索工具的功能主要体现在()A. 使用说明B. 目次表格C. 索引部分D. 附录部分11. 在中国知网中,要求比较全面的检索有关“手术治疗近视”方面的文献,较好的检索策略为()(检索项:主题)A. 手术治疗近视B. 手术并且治疗并且近视C. 手术并且近视D. 术并且近视12. 在CBMdisc检索中,查找期刊《癌症》上的文献,其正确表达式为()A. 癌症 in SOB. SO=癌症C. 癌症 in TAD. TA=癌症13. 使用CBMdisc检索主题途径“卡介苗接种预防结核”的文献,检索表达式为()A. 卡介苗/治疗应用 and 结核/预防与控制B. 卡介苗预防 and 结核C. 卡介苗/预防 and 结核/治疗D. 卡介苗 and 预防 and 结核14. 在Pubmed检索中,查找林立发表的文献,检索表达式应该是()A. Lin-L in auB. Lin L [au]C. AU=Lin LD. Lin L = au15. 下列不是医学专业搜索引擎的是()A. Medical MatrixB. Cliniweb InternationalC. HONselectD. CALIS16. 在Pubmed中检索有关“感冒的药物治疗”的循证医学文献,最佳途径为()A. Search (Common Cold and drug therapy)B. Search (Common Cold and drug therapy) Limits: Systematic ReviewsC. Search (Common Cold /drug therapy) Limits: Systematic ReviewsD. Search (Common Cold and drug therapy and EBM)17. 以下各选项中,诸权利均属于知识产权范围的是()A. 著作权、商标权、专利权和物权B. 发现权、发明权、商号权和姓名权C. 商业秘密权、新植物品种权、原产地名称权和知情权D. 商业秘密权、文学产权、制止不正当竞争权和原产地标志权18. 知识产权是一类()A. 物权B. 无形财产权C. 人权D. 诉权19. 我国制定专利法的主要目的就是为了保护发明创造的()A. 著作权B. 发明权C. 发现权D. 专利权20.《中华人民共和国专利法》开始实施的时间是()A. 1984年3月12日B.1985年4月1号C. 1992年9月7日D. 1993年1月1日21.利用分类途径进行检索,其检索标识为()A. 主题词B. 关键词C. 分类号D. 分子式22. 以下哪个数据库提供同名作者检索功能()A. 万方数据库B. 清华同方数据库C. 复印报刊资料全文数据库D. 维普中文科技期刊数据库23. 一体化医学语言系统最重要的部分是()A. 超级叙词表B. 语义网络C. 情报源图谱D. 专家词典24. 已知名叫孙钱章的作者99 年出版了一本书,若想找到书名及其他信息,应在下列哪个数据库中查找()A. 维普中文科技期刊数据库B. 复印报刊资料全文数据库C. 超星数字图书馆D. 万方数据资源系统25. 美国国立医学图书馆网络系统()A. 可以查看中医文献B. 不可以查看中医文献C. 能查看中医文献D. 以上都对26. 应用PubMed的哪一栏目可查阅先前输入的检索策略()A. LimitsB. Preview/IndexC. HistoryD. Clipboard27. hypertensi*的意思是()A. 检索含字符hypertensi的文献B. 检索含字符hypertension的文献C. 检索含字符hypertensi*的文献D. 检索含字符hypertensi?的文献28. 下列哪条不属于MEDLINE收录的索引来源()A. Index MedicusB. preMEDLINEC. International Nursing IndexD. Index to dental Literature29. MeSH表的组成部分中不包括()A. 字顺表B. 树状结构表C. 主题词变更表D. 分类类目表30. 检索wom?n的意思是()A. 检索含字符wom?n的文献B. 检索含字women的文献C. 检索含字woman的文献D. 检索含字符womn的文献31. 应用PubMed的哪一栏目可以在显示检索结果之前预览检出结果的条数()A. LimitsB. Preview/IndexC. HistoryD. Clipboard32. 检索文献数据库时,下列哪种方法不能扩大检索范围()A. 主题词加权B. 用ORC. 用相关的主题D. 采用截词33. 能够查看PUBMED对输入的检索策略如何进行匹配的是()A. DetailsB. cubbyC. limitsD. linkout34. 衡量某一检索系统的信号噪声比的一种指标()A. 查全率B. 漏检率C. 查准率D. 检索效率35. 下面哪个是先组式规范检索语言 ( )A. 单元词语言B. 关键词语言C. 标题词语言D. 叙词语言36. 下列哪项属于文献的外表特征 ( )A. 著者B. 主题词C. 文摘D. 分类号37. 在我国检索时主要依据的分类体系为 ( )A. 杜威分类法B. 中图法C. 人大法D. 分类法38. MeSH字顺表中某主题词下的树状结构号为“12.358.399.450d+",其中“+”表示 ( )A. 该主题词的类别B. 文献的类型C. 该主题词还有下位概念D. 树状结构号不完整39. 下列哪项是查找会议文献的首选工具()A. 会议录B. 图书C. 期刊D. 报纸40. SCI与其他文献检索刊物不同之处在于( )A. 它具有团体索引B. 它具有引文索引C. 它可以了解某著者发表论文情况D. 它可以了解科研的最新动态41. 世界上第一个计算机信息检索系统诞生于 ( )A. 1946年B. 1950年C. 1954年D. 1963年42. 按照国际上通用的分类方法,下列哪个数据库属于源数据库? ( )A. 二次文献数据库B. 期刊全文数据库C. 机构名录数据库D. 图书馆书目信息数据库43. 当需要查找最新文献信息时,应尽可能采用( )进行检索。

lecture4-indexconstruction 信息检索导论 王斌 PPT 课件 第4章

lecture4-indexconstruction 信息检索导论 王斌 PPT 课件 第4章

19
现代信息检索
Reuters RCV1语料库的统计信息
N L M 文档数目 每篇文档的词条数目 词项数目(= 词类数目) 每个词条的字节数 (含空格和标点) 每个词条的字节数 (不含空格和标点) 每个词项的字节数 无位置信息索引中的倒排记录数目 800,000 200 400,000 6 4.5 7.5 100,000,000
6
现代信息检索
基于B-树的词典查找
7
现代信息检索
基于轮排索引的通配查询处理
查询: 对 X, 查找 X$ 对X*, 查找 X*$ 对*X, 查找 X$* 对*X*, 查找 X* 对 X*Y, 查找 Y$X*
8
现代信息检索
基于k-gram索引的通配查询处理
比轮排索引空间开销要小 枚举一个词项中所有连读的k个字符构成的k-gram 。 2-gram称为二元组(bigram) 例子: from April is the cruelest month we get the bigrams: $a ap pr ri il l$ $i is s$ $t th he e$ $c cr ru ue el le es st t$ $m mo on nt h$ 同前面一样,$ 是一个特殊字符 构建一个倒排索引,此时词典部分是所有的2-gram,倒 排记录表部分是包含某个2-gram的所有词项 相当于对词项再构建一个倒排索引(二级索引)
将输入的文档集分片(split) (对应于BSBI/SPIMI算法中的块) 每个数据片都是一个文档子集
39
现代信息检索
分析器(Parser)

主节点将一个数据片分配给一台空闲的分析器 分析器一次读一篇文档然后输出 (term,docID)-对 分析器将这些对又分成j 个词项分区 每个分区按照词项首字母进行划分

《文献信息检索》习题附标准答案文献信息检索(附标准答案)

《文献信息检索》习题附标准答案文献信息检索(附标准答案)

《文献信息检索》习题附标准答案文献信息检索(附标准答案)《文献信息检索》习题答案一、单选题1、文献是记录有知识的(A)A.载体 B.纸张 C.光盘 D.磁盘2、如果需要检索某位作者的文献被引用的情况,应该使用(C)检索。

A.分类索引 B.作者索引 C.引文索引 D.主题索引3、下列哪种文献属于二次文献( D.)A.专利文献B.学位论文C.会议文献D.目录4、纸质信息源的载体是(D)A.光盘B.缩微平片C.感光材料D.纸张5、《中国图书馆分类法》(简称《中图法》)将图书分成( A.)A.5大部分22个大类B.5大部分26个大类C.6大部分22个大类D.6大部分26个大类6、利用文献末尾所附参考文献进行检索的方法是(C)A.倒查法B.顺查法C.引文追溯法D.抽查法7、广义的信息检索包含两个过程(B)A.检索与利用B.存储与检索C.存储与利用D.检索与报道8、中国国家标准的代码是(A)A.GB.B.CB.C.ZGD.CG9、( D )是报道文献出版或收藏信息为主要功能的工具。

A.题录B.索引C.文摘D.目录10、逻辑运算符包括(D)A.逻辑与B.逻辑或C.逻辑非D.A,B和C11、记录是对某一实体的全部属性进行描述的结果,在全文数据库中一条记录相当于(C),在书目数据库中,一条记录相当于()矚慫润厲钐瘗睞枥庑赖。

A.一条文摘,一篇完整的文献B.一条文摘,一条题录C.一篇完整的文献,一条题录或文摘D.一条题录,一条文摘12、《中国学术期刊全文数据库》提供的文献内容特征检索途径有(B)A.机构B.篇名/关键词/摘要C.中文刊名D.作者13、根据反映新内容的程度从大到小,下列文献类型的排序正确的是:(A)A.会议论文,科技期刊,科技报告,科技图书B.科技图书,科技期刊,科技报告,会议论文C.科技报告,会议论文,科技图书,科技期刊D.以上都不对14、《中国科研机构数据库》、《中国科技名人数据库》属于:(B)A.书目数据库B.指南数据库C.全文数据库D.数值数据库15、下列检索工具中,主要收录化学与化工类文献的是:(D)A.SCIB.OCLCC.EID.CA16、国内的专利可以通过哪个数据库检索?(B)A.超星数字图书馆B.万方数据C.学术期刊网D.EI17、提供检索式/命令行检索的好处在于:(C)A.容易记忆,容易编写B.文本形式,容易理解C.可以保存成功的检索,以便再次检索D.以上都不对18、逻辑“与”算符是用来组配( D.)。

信息资源检索答案第二三次作业1.doc

信息资源检索答案第二三次作业1.doc

1111111111111111111111试题1 单项选择题(5.0分得分:5.0难度:基本题)不同的数据库系统的字段代码是有所不同的,其中题名的常见表述有正确答案0 TI□AU □KW □AB 学生答案□□□试题2判断题(5.0分得分:5.0难度:水平题)期刊是有固定名称,有一定的出版规律,标有刊期序号的一种论章成册的出版物。

止确答案学生答案□真□0假□试题3单项选择题(5.0分得分:5.0难度:基本题)在进行信息检索的过程中, 公式“(检索出的相关信息量/检索出的信息总量)X 100%”计算的是:正确答案学生答案0查准率□查全率□□漏检率□□误检率□试题4单项选择题(5.0分得分:5.0难度:基本题)信息侵权主要包括侵犯和侵犯个人隐私权等。

正确答案学生答案□社会隐私权□□著作权□0知识产权□人权□试题5 多项选择题(5.0分得分:5.0难度:难度题)下列哪些语句能被检索式“information N/2 retrieval”命中()正确答案学生答案[3 "information retrievaF,H "retrieval information^□0 "information computer aided retrievaF9□0 "retrieval of education in formation^□试题6单项选择题(5.0分得分:5.0难度:基本题)按照信息的载体类型,可将信息资源划分为:、缩微型、声像型、电子型和多媒体。

正确答案学生答案0印刷型□书本型□□视频型□□音频型□试题7多项选择题(5.0分得分:0.0难度:难度题)以下类型的文献属于三次文献的是()正确答案□目录0词典0百科全书□科技报告学生答案□□□试题8判断题(5.0分得分:5.0难度:水平题)信息可以记载在印刷纸本中,也可以存储在声、光、电、磁等介质中,如磁带、光盘、硬盘等。

lecture10xmlretrieval信息检索导论王斌

lecture10xmlretrieval信息检索导论王斌
▪ 专利: give me patens whose claims mention RSA public key encryption and that cite US patent 4,405,829
▪ 实体标记文本: give me articles about sightseeing tours of the Vatican and the Coliseum
12
现代信息检索
结构化检索(Structured retrieval)
基本配置: 结构化或非结构化查询+结构化文档
结构化检索的应用场景
数字图书馆、专利数据库、博客、包含已标注命名实体 (如人名、地名)的文本
例子
▪ 数字图书馆: give me a full-length article on fast fourier transforms
13
R列三个主要问题 ❶ 无序的DB系统可能返回大量文章,这些文章提到 Vatican、the
Coliseum和sightseeing tours,但是并没有按照它们和查询的相关 度排序 ❷ 大部分用户都很难精确描述结构化的限制条件。比如,用户可 能并不知道搜索系统支持对哪些结构化元素的查询 tours AND (COUNTRY: Vatican OR LANDMARK: Coliseum)? tours AND (STATE: Vatican OR BUILDING: Coliseum)? ❸ 用户可能对结构化搜索和高级搜索很不熟悉,或者他们压根就 不想用这些搜索功能。
不相关的 ▪ 搜索引擎根据标记结果计算得到信息需求的一个新查询
表示。当然我们希望该表示好于初始的查询表示 ▪ 搜索引擎对新查询进行处理,返回新结果 ▪ 新结果可望(理想上说)有更高的召回率

信息检索练习题及答案(五篇范文)

信息检索练习题及答案(五篇范文)

信息检索练习题及答案(五篇范文)第一篇:信息检索练习题及答案《信息检索》练习题第一章练习一、名词解释1.信息——是世界上一切事物的状态和特征的反映,是用文字、数据或信号等形式,通过一定的传递和处理,来表现各种相互联系客观事物在运动变化中所具有特征内容的总称。

2.信息资源——是指经过人类的选取、组织、序化等整理与开发后的信息的集合。

3.白色文献——是指公开出版发行的、通过正常渠道可以得到的常规文献。

二、填空题1.信号只是信息的(),信息是信号所载荷的()。

载体、内容2.现实的信息资源依据传递信息的载体和表述方式的不同,可以划分为(),(),(),(),()。

口语信息资源、体语信息资源、文献信息资源、实物信息资源、网络信息资源3.口语信息资源、体语信息资源和实物信息资源,通过计算机技术的转化,成为(),如果有长期开发的价值,往往会转化成()。

网络信息资源、文献信息资源4.()是记录有信息和知识的一切有形载体,是将知识用文字、符号、图像、音频、视频等方式记录在一定的固态物质载体的结合体。

文献5.期刊按内容和性质划分,可以分为(),(),()。

学术性期刊、检索性期刊、其他类型期刊6.()是指未经出版发行的或未以公开形式进入社会交流的最原始的文献。

零次文献三、判断题1.情报只是一类专门的信息,是信息的一个子集。

()2.网络信息资源也称虚拟信息资源,是指以数字化形式记录的,以多媒体形式表达的,存储在网络计算机磁介质、光介质以及各类通讯介质上的。

()3.机读型文献是以磁性材料为存储介质,采用计算机技术、磁性存储技术、激光技术,以键盘输入、文件拷贝、刻录或光学扫描等方法作为记录手段,通过计算机处理而产生的一种新的文献。

()4.缩微型文献是以印刷型文献为母本,以感光材料为载体,采用光学缩微技术将文字或图像记录存储在感光材料上而形成的文献。

()5.声像型文献是一种以磁性和光学材料为载体,将声音和图像记录存储在磁性或光学材料上的非文字形式的文献。

2024年秋季小学语文试卷五年级上册语文部编版课后作业第21课《古诗三首》(含答案)

2024年秋季小学语文试卷五年级上册语文部编版课后作业第21课《古诗三首》(含答案)

部编版五年级上册语文21.古诗三首课后作业一、选择题1.“随意春芳歇”中,“歇”字的意思是()A.休息B.睡C.尽2.下列朗读节奏划分不恰当的一项是()。

A.不敢/以/一得/自足B.少年雄于地球/则/国雄于地球C.江枫渔火/对/愁眠D.逢/老媪/方/磨铁杵3.下面属于词牌名的是()A.《山居秋瞑》B.《枫桥夜泊》C.《长相思》D.《长歌行》4.“聒碎乡心梦不成”中“聒”的意思是()A.聒噪B.声音大C.风雪声嘈杂5.下列解释完全正确的一项是()。

A.“暖风熏得游人醉”告诉我们“暖风”气味刺激人,因此才“游人醉”。

B.“奇珍异宝”说明了“珍”和“宝”价值不菲。

其中,“异”是“特别”的意思。

C.“九州生气恃风雷” 的“恃”与“无母何恃?”的“恃”意思一样。

D.“应酬”的“酬”指用财物报答。

6.和“和谐”“不可计数”“新鲜”“扫兴”意思最接近的一组词语是( ) A.和蔼数不胜数鲜艳高兴B.和气难以计数鲜活余兴C.和睦举不胜举清新败兴D.和平屈指可数鲜明灰心7.下列没有运用修辞手法的一项是()A.明月松间照,清泉石上流。

B.姑苏城外寒山寺,夜半钟声到客船。

C.九州生气恃风雷,万马齐喑究可哀。

D.竹喧归浣女,莲动下渔舟。

8.加点字的读音全部正确的是( )A.归浣.(huàn)女哀愁..(āi chóu)寺.庙(shì)B.那畔.(bàn)风一更.(gēng)榆.树(yú)C.聒噪..(guō zào)枫桥夜泊.(bó)湖畔.(pàn)D.乌啼.(dì) 榆.(yú)关聒噪.(guā zào)二、填空题9.《长相思》的作者是____代的_______,词中借描写天气表现了作者对故乡深深怀念和依恋之情的句子是______________,_____________,____________,______________。

(完整word版)《信息检索导论》课后习题答案

(完整word版)《信息检索导论》课后习题答案

《信息组织与检索》作业答案第一章布尔检索习题1-2考虑如下几篇文档:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵;b. 画出该文档集的倒排索引(参考图1-3中的例子)。

Term-Documentmatrix:1 2 3 4approach 0 0 1 0breakthrough 1 0 0 0drug 1 1 0 0for 1 0 1 1hopes 0 0 0 1new 0 1 1 1of 0 0 1 0patients 0 0 0 1schizophrenia 1 1 1 1treatment 0 0 1 0Inverted Index:approach -> 3breakthrough ->1drug ->1->2for ->1->3->4hopes ->4new ->2->3->4of ->3patients ->4schizophrenia ->1->2->3->4treatment >3注意:倒排索引中的词表(dictionary)和每个词项的倒排列表(posting list)需要排序,便于查找。

这里我们暂不考虑词的正规化处理(如hopes->hope)。

补充习题1写出AND查询的伪代码面向过程风格的伪代码:给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId查询结果存放在answer列表里。

这里应用了“化归”思想(将新问题转化归为旧问题来解决)。

【VIP专享】信息检索与利用2013秋第三套作业

【VIP专享】信息检索与利用2013秋第三套作业
标准答案:B 学员答案:B 说明:第五章第二节索引,参见 P157 本题得分:3.23
题号:2 题型:单选题(请在以下几个选项中选择唯一正确答案) 本题分数:3.23 内容: 索引款目的排列一般以( )为依据。 A、关键词 B、标目 C、题名 D、书目
标准答案:B 学员答案:B 说明:第五章第二节索引编制方法,参见 P162 本题得分:3.23
标准答案:C 学员答案:C 说明:第五章第四节政书,参见 P184 本题得分:3.23
题号:6 题型:单选题(请在以下几个选项中选择唯一正确答案) 本题分数:3.23 内容: 我国最早的字典是( ) A、《字林》 B、《史籀篇》 C、《说文解字》 D、《尔雅》
标准答案:B 学员答案:B 说明:第五章第四节字典和词典,参见 P175 本题得分:3.23
作业名称:信息检索与利用2013秋第三套作业 起止时间:2014-2-5 23:35:19 至 2014-2-6 0:21:35 学员姓名: 马斌 学员成绩:100 详细信息:
题号:1 题型:单选题(请在以下几个选项中选择唯一正确答案) 本题分数:3.23 内容: 揭示文献内容的是( ) A、书目 B、文摘 C、索引 D、题录
题号:4 题型:单选题(请在以下几个选项中选择唯一正确答案) 本题分数:3.23 内容: 揭示文献外表特征的是( ) A、书目 B、文摘 C、索引 D、题录
标准答案:A 学员答案:A 说明:第五章第二节索引,参见 P157 本题得分:3.23
题号:5 题型:单选题(请在以下几个选项中选择唯一正确答案) 本题分数:3.23 内容: 现存最早的专门记述一个朝代典章制度的断代政书是( ) A、《清朝通志》 B、《通典》 C、《唐会要》 D、《通志》
题号:3 题型:单选题(请在以下几个选项中选择唯一正确答案) 本题分数:3.23 内容: 揭示文献中资料单元的是( ) A、书目 B、文摘 C、索引 D、题录

信息检索作业答案

信息检索作业答案

信息检索作业答案篇一:信息检索作业及答案20xx-20xx学年第二学期《信息检索与利用》考核题姓名:学号:学院:年级:专业:任课老师:成绩:1、什么是信息、知识、情报、文献?用图表示四者之间的关系。

(10分)A.信息信息是一种十分广泛的概念,它在自然界、人类社会以及人类思维活动中普遍存在。

不同事物有着不同的特征。

这些特征通过一定的物质形式(如声波、电滋波、图像等)给人带来某种信息。

例如,人的大脑通过感觉器官所接收到的有关外界及其变化的消息,就是一种信息。

因此,信息可以定义为:生物以及具有自动控制功能的系统,通过感觉器官和相应的设备与外界进行交换的一切内容。

也可以定义为:人对客观事物属性以及运动状态的感知。

B.知识知识是人类社会实践经验和认识的总结,是人的主观世界对于客观世界的概括和如实反映。

知识是人类通过信息对自然界、人类社会以及思维方式与运动规律的认识,是人的大脑通过思维加工、重新组合的系统化信息的集合。

因此,人类不仅要通过信息感知世界,认识和改造世界,而且要将所获得的部分信息升华为知识。

也就是人们在认识和改造世界的过程中,对信息认知的那部分内容就是知识,可见知识是信息的一部分。

C.情报关于情报的定义,国内外学术界众说纷坛,至今还没有定论,但大家的基本共识为:情报是指传递着有特定效用的知识。

因此,情报的三个基本属性是:知识性、传递性和效用性。

1.情报的知识性人们在生产和生活活动中,通过各种媒介手段(书刊、广播、会议、参观等),随时都在接收、传递和利用大量的感性和理性知识。

这些知识中就包含着人们所需要的情报。

情报的本质必须是知识,没有一定的知识内容,就不能成为情报。

2.情报的传递性情报的传递性是说知识要变成情报,还必须经过运动。

人们的脑海中或任何文献上无论贮存或记载着多少丰富的知识,如果不进行传递交流,人们无法知道其是否存在,就不能成为情报。

情报的传递性表明情报必须借助一定的物质形式才能传递和利用。

信息检索作业答案

信息检索作业答案

一1.搜索引擎:百度结果:《MATLAB使用详解》著作者:董霖出版社:科学出版社总结方法:非纸质资源可通过搜索引擎(百度文档)和专业图书网站等来搜索,来查看相关图书的信息。

纸质资源可以通过OPAC系统来查询,找到相关图书,可以直接去图书馆借到并查看纸质资源。

二.检索工具:万方数字化期刊/Default.aspx检索词:数控加工技术整体叶轮多轴首关键词:数控加工技术结果:2238 条中选太多,结果纷杂,与期望值相去甚远。

应进一步增加关键字,以增加精准度。

次关键字:整体叶轮结果:13 条较精确,可以逐条查看终关键字:多轴结果: 2条所得为最终结果,极为精确,达到期望。

∙ 1 基于UG NX6.0的整体叶轮多轴加工技术∙[期刊论文] 《风机技术》 -2011年1期陈德存Chen Dechun∙本文详细介绍TUG NX6.0软件对叶轮加工的全过程以及加工过程中的注意事项,为同类产品的模型建立和多坐标数控编程提供了设计思路和方法.关键词:UG NX6.0 整体叶轮多轴加工∙ 2 基于UG NX6.0的整体叶轮的多轴加工技术∙[期刊论文] 《成组技术与生产现代化》 -2010年1期陈德存CHEN De-cun叶轮加工是当今多轴联动数控加工最常见的实例,也是数控加工的难点之一.本文从实际出发,使用UG/CAM五坐标编程系统对整体式叶轮进行数控编程,采用插值方式对刀轴矢量进行匀化处理,采用SWARF方法对叶片进行精加工,同时合...关键词:UG 整体叶轮多轴加工三.检索工具中国学术期刊网(CNKI)/grid2008/index/ZKCALD.htm 时间从2004-1-1到2004-12-31文献来源南京航空航天大学学报主题数控铣削文献类型学术论文四.1.Gong Huajun Design and implementation of gust alleviation control system forhelicopter 1990 报告2.Bir G S;Chopra I Gust response of hingeless ro-tors 1985 报告3.Azuma A;Saito S Study of rotor gust response by means of the local momentum theory[外文期刊] 1982(01) DOI:10.4050/JAHS.27.58 期刊文章4.Norman D C;Hynes R J;Gaangsas D An integr-ated maneuver enhancement and gustalleviation mode for the AFTI/F-111 MA W aircraft 1992 论文集5.Xiao Y elun;Jin Changjiang Flight principle in at-mospheric disturbances 1992 学位论文6.Woods-V edeler J A;Pototzky A S;Hoadley S T Rolling maneuver load alleviation usingactive control [外文期刊] 1995(01) DOI:10.2514/3.46685 期刊文章7.Sarathy S;Murthy U R An advanced rotorcraft flight simulation model: parallelimplementation and performance analysis 1993 期刊文章8.Y ang Yidong;Gao Lixin The development of the digital flight control system operationalsoftware using C language 1990(04) 专著9.Chen R T N;Lebacqz J V;Aiken E W He-licopter mathematical models and control lawdevelopment for handling qualities research 1988 报告10.Taylor R B;Zw icke P E;Gold P Analytical design and evaluation of active control systemfor helicopter vibration reduction and gust response alleviation 1980 期刊文章五.three dimensional538750 records in Compendex & Inspec for 1969-20113D374827 records in Compendex & Inspec for 1969-2011“three dimensional”473344 records in Compendex & Inspec for 1969-2011结果对比:搜索广度不同,第一个关键词结果显示最多,可选范围更广。

(完整版)信息检索试题(有答案)

(完整版)信息检索试题(有答案)

(完整版)信息检索试题(有答案)1.检索系统:由大量的数据库集合生成的数据库。

2.自然语言:未经加工和规范化处理的非受控于言。

3.二次文献:对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征如题名、作者、出处等进行著录,或将其内容压缩成简介、提要或文摘,并按照一定的学科或专业加以有序化而形成的文献形式,如目录、文摘杂志(包括简介式检索刊物)等4. 主题词:是用于表述、存储、查找文献主题的受控词汇,是主题表中能表达一定意义的最基本的词汇单元。

5. 科技报告:科技报告是研究单位向主管机构和资助单位提交的关于某项科技成果的正式报告或其进展阶段的实际记录。

一般依托于国家的军事和高科技科研项目,是科研工作成果的体现,需要经过专家评审鉴定,技术上可靠性较高。

6. 体系分类语言:体系语言是以科学分类为基础,运用概念的划分与概括的逻辑方法,形成一个概念等级体系,按知识门类的逻辑次序,按照从总到分,从一般到具体,从低级到高级,从简单到复杂的原则进行概念的综分,层层划分,累累隶属,逐步展开而形成的一个等级体系。

1.当关键词具有多个含义的时容易造成误检,使得查准率较低。

2. 信息素质的内涵包括信息意识、信息能力和信息道德。

3.主题词的体现形式是叙词表。

4. 文献按其加工深度不同可分为零次文献,一次文献,二次文献和三次文献。

5.中国图书馆图书分类法简称为:中图法。

6. 连续出版物的主要类型有期刊、报纸、年底出版物。

7.标准文献的主体是技术标准。

8.当计算机访问范围受到限制时,可通过代理服务器访问外部网络。

9. 构成文献的三要素是载体、知识和记录手段。

10. 布尔逻辑运算符包括: 逻辑“或”、逻辑“与”和逻辑“非”三种。

11. 专利有三层含义:专利权、专利技术和专利文献。

12.文献的内容特征用于找出相关文献,外部特征用于获得特定文献。

13. 信息检索常用的方法有:工具法、引文法和循环法。

14. CNKI的中文全称是China National Knowledge Infrastructure。

信息检索题目(含答案解析)

信息检索题目(含答案解析)

2013年(秋)《信息检索》练习单选题(每题1分,共45题,45分)1.计算机中使用的0与1的二进制代码是(C)A.自然信息B.生物信息C.机器信息D.人类信息2.以下(B)不是信息的基本要素。

A.载体B.数据库C.信源D.信宿3.国际标准书号中地区号为7,代表其是(B)出版社出版的图书。

A.美国B.中国大陆C.俄语系国家D.法语系4.以下(D)不是信息的特征。

A.共享性B.价值型C.时效性D.不可扩充性5.(A)使用的是http协议。

A.WWW网络资源B.FTP信息资源C.TELNET信息资源D.用户服务组资源6.(B)使用的是ftp协议。

A.WWW网络资源B.FTP信息资源C.TELNET信息资源D.用户服务组资源7.分类法用(A)作为文献内容标识和检索标识。

A.分类号B.词语C.阿拉伯数字D.英文字母8.主题法用(A)做描述文献主题的标识和检索标识。

正确答案:BA.分类号B.词语C.阿拉伯数字D.英文字母9.关键词语言属于(B)正确答案:AA.自然语言B.标题词语言C.叙词语言D.分类语言10.以下族性检索功能最强的是(A)A.分类途径B.文献名途径C.著者途径D.主题途径11.(D)是从参考文献着手来查找文献的方法。

A.顺查法C.抽查法D.追溯法12.一个截词符代表多个字符指的是(D)正确答案:CA.后截词B.中截词C.无限截词D.有限截词13.在布尔逻辑检索技术中,用(B)表示在检索结果中只需包含A或者B即可。

正确答案:DA. A not BB. A and BC. A - BD. A or B14.(B)之前,必须输入一个空格。

正确答案:CA.与运算B.或运算D.异或运算15.ISBN中最后一个数字代表(C)。

正确答案:DA.地区码B.出版社代码C.书序号D.校验码16.(B)属于文献的外表特征。

正确答案:AA.题名B.主题词C.关键词D.分类号17.广义的信息检索的全过程包括文献信息的(B)两个过程。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息检索导论第三次课后作业
1、习题13-2
答:(i)贝努利模型:三个文档具有相同的模型表示
(ii)多项式模型:文档1和文档2相同,文档3与它们都不同。

文档1和文档2中“Lodon”都出现了两次,文档3中只出现了一次。

2、习题13-5
3、习题14-6
在图14-14 中,3 个向量→a、→b及→c中哪一个满足:(i) 采用内积计算的情况下与→x最近?(ii) 采用余弦相似度计算的情况下与→x最近?(iii) 采用欧氏距离计算的情况下与→x最近?
4、习题15-1一个数据集里支持向量的最小数目是多少(此时的数据集每个类别中都包含实例)?
答:一个数据集里支持向量的最小数目是2个。

因为SVM分类模型希望得到在特征空间上间隔最大的分类器,即对于距离超平面最近的实例点,也希望能有足够的确信度将其分开,确定这样的超平面需要的支持向量最小数目是2个。

5、习题16-5 K-均值算法的两个停止条件为:(i) 文档的分配不再改变;(ii) 簇质心不再改变。

请问这两个条件是否等价?
答:这两个停止条件是等价的。

当连续两次迭代之后,若文档的分配不再改变,则据此计算出的簇质心也不会再改变;当簇质心不再改变的时候,则K-均
值算法计算出的文档的分配也就不再改变。

6、习题17-7 a. 考虑在一个两种语言组成的文档集上进行2-均值聚类,你预期的结果是什么?
b. 当使用HAC 算法时,预期的结果是否仍然一样?
答:a.预期的结果:文档根据语言的大致分成两类。

b.预期的结果不一样。

HAC是自底向上的聚类方法,最开始的时候每一篇文档都是一个簇,然后不断对簇进行两两合并,直到所有文档都聚为一簇。

层次聚类不需要实现确定簇的数据,如果要按照不同的语言将文档进行分类,则需要在层次结构中某处进行截断,在合适的位置截断也可以将文档大致分为两类。

7、习题18-11假定有一个文档集合,其中每篇文档可以是英文或者是西班牙文。

整个文档集如图18-4所示。

图18-5 给出了与图18-4 相关的英语和西班牙语的术语表。

当然,该术语表只用于帮助理解,对检索系统来说是不可见的。

答:(1)词项-文档矩阵:
d1 d2 d3 d4 d5 d6 hello 1 0 0 0 0 1 open 0 1 0 0 0 0 house 0 1 0 0 0 0 profess0 0 0 1 0 0 and 0 0 0 0 0 1 welcom0 0 0 0 0 1 mi 0 0 1 0 0 0 case 0 0 1 0 0 0 hola 0 0 0 1 1 0
y 0 0 0 0 1 0 bienven0 0 0 0 1 0
(2)经过SVD分解,得到:
U2 = 0.00000 0.70711
0.00000 0.00000
0.00000 0.00000
-0.27639 0.00000
0.00000 0.50000
0.00000 0.50000
0.00000 0.00000
0.00000 0.00000
-0.72361 0.00000
-0.44721 0.00000
-0.44721 0.00000
Σ'2= 1.90211 0
0 1.84776
V2 = -0.00000 0.38268 -0.00000 -0.00000 -0.00000 -0.92388 -0.00000 -0.00000 1.00000 -0.00000 -0.00000 -0.00000
2-秩逼近矩阵为:
C2 = 0.00000 0.00000 1.30656 0.00000 0.00000 0.00000
0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 -0.20119 0.00000 0.00000 0.00000 0.48571 0.00000 0.00000 0.92388 0.00000 0.00000 0.00000 0.00000 0.00000 0.92388 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 -0.52672 0.00000 0.00000 0.00000 1.27161 0.00000 -0.32553 0.00000 0.00000 0.00000 0.78590 0.00000 -0.32553 0.00000 0.00000 0.00000 0.78590 (3) C C T 的元素(i,j)代表了文档i 和文档j 的相似度。

(4) 22C C T
的元素(i,j)代表了在新的2维空间中文档i 和文档j 的相似度。

与22C C T
中的(i,j)元素不同,是因为在新的低秩表示空间中,将共现上相似的词
项合在一起,隐含地参照了英语与西班牙语的术语对照表。

8、习题19-5 Goto 方式根据报价的高低来对广告进行排序,出价最高的广告商获得最高的位置,出价第二高的次之,其余以此类推。

如果出价最高的广告商给出的广告与查询无关时会出现什么问题?为什么会出现这样的情况? 答:无关的广告永远不会被用户点击,由此生成的搜索引擎也就没有收入。

广告商可以推送这样的广告,在推广自己品牌的同时而没有任何花费。

9、习题20-1 在分布式采集系统中,为什么按照主机进行划分会比按照每个URL 进行划分要好?
答:有两个好处:其一,使得更容易跟踪同一主机的连续请求之间经过的时间;其二,主机的robots.txt 文件可以在爬行的节点处被缓存和重新利用。

10、习题21-3 对某个Web 网页x ,假设给定了指向它的所有锚文本短语组成的集合,请给出某种启发式方法来从这个集合中选出针对x 的最具描述性的词项或短语。

答:若要从锚文本短语组成的集合中选出针对x的最具描述性的词项或短语,需要进行特征选择。

特征选择即从训练集合出现的词项中选出一部分子集,特征选择的指标包括互信息,2χ统计量及词项频率。

以2χ统计量为例,检测锚文本短语与Web网页x之间的独立性,2χ值越大则意味着独立性假设不成立。

如果某词项或者短语更能描述x,则两者的存在是相互依赖的,表现为2χ值越大。

相关文档
最新文档