国科大现代信息检索第二次作业
2013年4月考试文献检索与应用第二次作业
2013年4月考试文献检索与应用第二次作业第一篇:2013年4月考试文献检索与应用第二次作业2013年4月考试文献检索与应用第二次作业一、单项选择题(本大题共80分,共 20 小题,每小题 4 分)1.关于情报、知识、信息的基本概念及其之间的关系,以下描述错误的是()。
A.知识是人类对信息本质的认识和掌握B.信息和知识的认识是同步的C.知识就是有用的信息D.情报是指由特定效用的传递着的知识2.专利包含的类型有:()A.发明专利B.实用新型专利C.外观设计专利D.以上全部3.以下哪项检索属于事实检索?A.检索关于铝合金的研究文献B.查喜泰山有多高C.检索关于网络技术的文献D.同学中身高低于平均身高的同学人数4.一个完整的IPC分类号为()级 A.三 B.四 C.五 D.六5.以下关于人工语言的四种描述,描述错误的是()?A.人工语言是根据信息检索的需要而由人工创制的B.人工语言将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制C.人工语言的检索效率不如自然语言D.人工语言可分为分类检索语言、主题检索语言、代码检索语言 6.关于搜索引擎的描述,错误的是()A.搜索引擎的类型有目录式搜索引擎,检索型搜索引擎,混合型搜索引擎,多元搜索引擎B.搜索引擎(search engines)是一种在互联网采取一定的策略搜集信息,并对信息进行提取、组织和处理,为用户提供检索服务的搜索工具C.多元搜索引擎自己拥有大量的信息,并将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排查、重新排序等处理后,作为自己的结果返回给用户D.常见中文搜索引擎有:Google中文搜索引擎、百度(baidu)中文搜索引擎、北大天网中英文搜索引擎和新浪搜索引擎等.7.以下哪类文献不属于文献的出版类型分类()? A.图书 B.期刊 C.手稿D.技术标准8.要查找“铸态组织模拟技术”课题的相关文献,以下哪个检索式是正确的()A.铸态组织 and 模拟技术 B.铸态组织模拟技术C.铸态组织 or 模拟技术D.铸态组织 not 模拟技术9.以下关于文献的四种描述,哪一个是错误的?A.文献的加工级别有零次文献、一次文献、二次文献和三次文献B.文献是指人类用来传递知识的各类印刷型书籍C.按照文献的载体形式,文献可分为手写型文献、印刷型文献、缩微型文献、视听型文献和电子型文献五种类型D.文献的基本要素有知识内容、信息符号和载体材料.10.关于电子图书的描述,错误的是()A.现有的电子图书数据库的缺点是,电子图书只能在线浏览,不能脱机阅读B.电子图书的出现降低了图书购买的成本C.电子图书的出现节省了存储空间,减小了管理强度D.电子图书,指以数字文件形式存储的图书,其中可以包含文本、图片、动画、声音等,人们可以把它下载到计算机、掌上电脑或专用的手持设备上进行阅读.11.图书的国际标准书号的缩写形式为()A.ISBN B.ISSN KI D.VIP 12.以下对专利的四种论述,哪一个是正确的?A.专利是指一个国家授予创造发明人在以后的时间内对该发明创造的独占实施权,包括专利产品的生产、使用和销售B.专利是指一个国家授予创造发明人在一定时间内对该发明创造的独占实施权,包括专利产品的生产、使用和销售C.专利是指一个国家授予创造发明人在一定时间内对该发明创造的独占实施权,包括专利产品的生产、使用和销售,一旦申请,受保护的范围为全球范围内D.只有新的、水平较高的,能在工业上制造的产品或使用方法,才可以申请专利13.客户端/服务器模式简称为()A.C/S模式B.B/S模式C.B/W/S模式D.N-Tier模式14.关于电子期刊,那种描述是错误的()A.电子期刊是数字形式存放的期刊B.核心期刊(Core Journal),指的是刊载与某一学科(或专业)有关的信息较多,且水平较高,能够反映该学科最新成果和前沿动态,受到该专业读者特别关注的那些期刊C.常用中文期刊数据库有:CNKI期刊数据库、万方期刊、维普期刊D.中国资讯行也属于期刊数据库15.下面哪一类文献属于二次文献?()A.演讲稿 B.期刊论文 C.学位论文D.PQDD学位论文数据库16.关于IP地址和域名的描述错误的是()A.IP地址由4节数字构成B.IP每节数字的取值范围从1到255C.域名是为了向一般用户提供一种直观明了的主机识别符,TCP/IP协议专门设计了一种字符型的主机命名机制,即是域名系统DNS 域名与地理位置无关 17.关于信息检索的描述,以下描述错误的是()。
中国科学技术大学--信息检索作业答案(电子版)
中国科学技术大学上海工程硕士第八期《信息检索》考试试题姓名:陶亮学号:SG15010018成绩:第一章息检索及其主要功用3、你通常利用什么样的文献传播渠道来获取有关文献信息?答:文献信息的传播渠道是多种多样的,归结起来有以下三种基本形式:(1)人际传播渠道:是通过人们之间的直接交流,如相互交谈、相互借还或传阅资料、交换意见、参加会议、听课、听讲座等。
(2)组织传播渠道:是通过一定的形式无偿或部分有偿地向社会公众提供文献资料的中介交流形式,如图书馆、档案馆、各类文献情报中心、学校、美术馆乃至教堂等。
(3)大众传播渠道:借助于各种传统及现代化手段来传播的一种方式。
如通过订阅杂志、购买图书、观看影视作品或网上浏览下载等形式。
以上三种形式各有所长,相互补充,长期共存,各自发挥着独特的功能。
在我的日常生活中,上述三种文献传播渠道都有,但人际传播和大众传播是最多的传播渠道。
4、对于信息检索的五大功用,你最有体会的是什么?最不了解的是什么?你认为这五大功用以外还可以总结出来有关信息检索的其他功用吗?(请简介)答:信息检索五大功用分别为:(1)开阔视野,正确决策:能够及时、系统地了解前人的工作经验与成果,掌握事物最新动态及发展趋势。
适时做出正确决策,使所开展的工作取得最快、最有效的进展。
(2)提高功效,事半功倍:能节省人们对有用信息进行搜集利用的时间及精力,提高工作效益,做到事半功倍。
同时还能培养人们的自学能力、科学研究及鉴赏能力。
(3)学习借鉴,推动创新:有利于及时把握各种信息,促进科技发明和发现不断涌现,同时对人们开展终身学习不断提升综合素质、创作出更多、更优秀的成果及文献也具有强大的支持和推动作用。
(4)规避风险,维护权益:可以避免重复劳动、少走弯路、免去低水平复制所带来的损失,使各种科研、经营、生产等活动实现投入少、收效高,还可使人们规避风险,利用知识产权保护法等法律规范,维护自身或单位(国家)的正当权益。
信息检索 第二次作业答案 南通大学
一、利用搜索引擎来查找以下资料,简要写出检索步骤(包括你选用的检索工具和检索 词) 1、请查出自己的姓氏起源分布并介绍一位同姓的历史名人。
“张”的姓氏起源: 张姓是中国最大的姓之一,得姓历史悠久,族大支繁。
1999 年我国在昆明举办“世 界园艺博览会” ,世博园内立了《源于河南的姓氏》碑。
其中,第三位便是“张姓源于 濮阳” 。
张姓曾有 43 个望族,为百家姓之首。
张姓,具有三个明显的特点,一是得姓较 早,源远流长;二是族大支繁,遍及全国,到处都有张氏族人;三是人才辈出,不可胜 数,从古至今,历代皆有张氏的杰出人物,像张衡、张仲景、张謇、张澜等人为中华民 族的繁荣昌盛贡献着力量。
关于张姓的始祖,历代史书中有如下记载: “黄帝第五子清阳之孙生挥,为弓正, 观弧星始制弓矢,主祀弧星,因姓张氏” (见《元和姓纂》“挥造弧矢,受封于张,后 ) 为弓氏。
张,望出濮阳。
” “张姓出于姬姓,至周而氏者祖于韩,其得望者十二,曰襄阳,洛阳,河东,始兴, 冯翊,吴郡,平原,青河,河间,中山,曰魏,曰蜀。
(见袁桷《张氏宗谱序》 ” ) 从以上记载看,张姓之源,可追溯到五千年前中华民族的共同始祖黄帝,是黄帝的 直系后裔。
黄帝第五子青阳,生子曰挥。
这位叫挥的黄帝之后,正是张姓的始祖。
所以 说张姓是黄帝的直系后裔,有一定道理。
这位名挥的黄帝后裔,非常聪明,他观看到天上的弧星,便仿其形状做了弓矢。
原 来,天上有星名“天弓” ,简称“弧” ,属井宿,共九星,在天狼星东南。
八星如弓形, 外一星像矢,在犬犬、南船两星座内。
《宋史·天文志》载: “弧矢九星在狼星东南, 天弓也” 。
挥看到“天弓” ,由“天弓”之形受到启发,最早发明了弓矢这个古代重要的 武器。
他也由此而被 “赐姓张氏” 。
不过,当初的“张”“非命姓氏之义也 ” , 。
因为弓矢发明之后,在使用之前,必须 先用力气将弓张开,不然,就无法使用。
挥是因为这个缘故而命为“张氏”的。
2019年春季 电大(国家开放大学) 信息检索与利用 形考任务2 答案
信息检索与利用形考2图书馆馆藏资源从文献的加工程度上来划分包括()选择一项或多项:A. 三次文献B. 一次文献C. 二次文献D. 零次文献反馈The correct answers are: 一次文献, 二次文献, 三次文献题目2正确获得3.00分中的3.00分标记题目题干()是国内第一个电子全文剪报产品,是科研人员课题查新、科研教学、企业决策和获取竞争信息的重要工具之一选择一项:A. 《中国重要会议论文全文数据库》B. 《外文科技期刊数据库》C. 《中国科技经济新闻数据库》D. 《中文科技期刊数据库》正确答案是:《中国科技经济新闻数据库》题目3正确获得3.00分中的3.00分标记题目题干目前,图书馆一般采用( )进行检索图书选择一项:A. ISBNB. GOOGLEC. ETCD. OPAC反馈正确答案是:OPAC题目4正确获得3.00分中的3.00分标记题目图书排列按索取号顺序排序,正确的是()选择一项:A. TM925/44; I247. 5/123; I247. 5/55; TP316/4;B. TP316/4; I247. 5/123; I247. 5/55; TM925/44C. I247. 5/55; I247. 5/123; TM925/44; TP316/4;D. I247. 5/123; I247. 5/55; TP316/4; TM925/44;反馈正确答案是:I247. 5/55; I247. 5/123; TM925/44; TP316/4; 题目5正确获得4.00分中的4.00分标记题目题干对检索式的制定应符合的要求为()选择一项或多项:A. 要满足所检数据库检索用词规范B. 要符合检索系统限制条件和组配原则C. 检索式应尽量简化D. 完整而准确地反映主题内容The correct answers are: 完整而准确地反映主题内容, 要满足所检数据库检索用词规范, 要符合检索系统限制条件和组配原则, 检索式应尽量简化题目6正确获得3.00分中的3.00分标记题目题干数字图书馆是对以数字化形式存在的信息进行收集、整理、保存、发布和利用的实体,其形式可以是具体的社会机构或组织,也可以是虚拟的网站或者任何数字信息资源集合。
文献检索与应用第二次作业题及答案.doc
第2次作业一、单项选择题(本大题共40分,共20小题,每小题2分)1.以下哪项检索屈于数据检索?A.历史成绩超过89分的学生人数B.查喜黄山有多高C.检索关于网络技术的文献D.某同类产品中,那种牌号的销量最大2.以卜•哪种文献不属于零次文献?A.实验记录B.手稿C.原始录甘D.专利索引3.国际标准连续性出版物编号的缩写形式为()A.TSBNB.ISSNKTD.VIP4.布尔逻辑检索包括()A.逻辑“与”和逻辑“异或”B.逻辑“与”和逻辑“或”C.逻辑“ + ”和逻辑“-”D.逻辑“与”、逻辑“或”和逻辑“非”5.以下哪个不属于文献的出版形式分类()A.图书B.期刊C.零次文献D.会议文献6 •下面哪一个属于二次文献?A.专题评述B.中经网数据库C.图书D.学位论文7.以卜•哪一个属于三次文献?A.演讲稿B.会议论文KI期刊数据库D.年鉴8.关于情报、知识、信息的基木概念及其之间的关系,以下描述错误的是()OA.知识是人类对信息木质的认识和掌握B.信息和知识的认识是同步的C.知识就是有用的信息D.情报是指由特定效用的传递着的知识9.关于信息检索,以下描述错误的是()A.信息检索的类型有文献检索、数据检索和事实检索B.“查看月球的年龄”的信息检索屈于数据检索C.“班上平均成绩超过80分的学生人数统计”屈于数据检索D.文献检索的目的是要检索出包含所需要信息的文献10.关于情报、知识、信息的概念及其之间的关系,以下描述错误的是().A.从吋间上来看,知识滞后于信息B.情报具有效用性C.知识就是情报D.情报具冇社会性11・关于检索方法的四种描述,其小描述错谋的是()。
A.检索方法分为常用法、追溯法和循环法B.循环法是上述追溯法和常用法的结合C.常用法,也叫工具法,就是利用文摘或题录等各种文献检索工具查找文献的方法D.常用法根据时间范围又分为顺查法和倒查法12.以下四项检索哪一项属于事实检索()?A.检索关于铝合金的研究文献B.检索泰山冇多高C.检索关于网络技术的文献D.同学中来自陕西的同学人数13.以下的数据库,哪一个不属于国外权威引文数据库?()A.SCIB.ETC.ISTPK114.要在SCI小查找重庆大学关于远程教育研究的文献,请问以下检索式正确的是()A.AD二Chongqing Univ* and TI二distance educationB.AD二Chongqing Univ and TI=distance educationC.AD=Chongqing Univ* and AU=distance educationD.AD=Chongqing Univ or TI=distance education15.从物理构成來讲,数字资源检索系统曲()几部分构成A.软件和数据库B.硕件、软件、数据库C.硕件系统和软件D.服务器和数据库16. IP地址由()节数字组成A.两B.四C.三D.五17.以下对专利的四种论述,哪一个是错谋的?A.专利是指一个国家授予创造发明人在一定的时间内对该发明创造的独占实施权,包扌舌专利产品的生产、使用和销售.B. 专利有三种类型C. 专利具冇独占•性D. 只冇新的、水平较高的,能在工业上制造的产品或使用方法,才可以申请专利. 18. 以下四种期刊数据库哪一个不是中文期刊数据库?A. CNKIB. VIPC. 万方期刊D. Elsevier ScicncA. 信息检索的类型有文献检索、数据检索和事实检索;B. “杭州六和塔建于何年”的信息检索属于事实检索;C. “班上平均成绩超过80分的学生人数统计”展于事实检索;D. 文献检索的目的是要检索岀包含所需要信息的文献二、判断题(本大题共6分,共6小题,每小题1分)1. “检索销量最大的产品型号”属于事实检索()。
科技文献检索作业及答案
科技文献检索1.使用《中文科技期刊数据库(维普)》同名作者功能,检索理工大学第一作者为明所发表的论文,请写出检索式,检中文献条数,并任选择其中的两篇以标准格式标注。
(5分)2.利用《中国学术期刊全文数据库(CNKI)》,检索一个你感兴趣的主题,在检索结果中以被引频次排序,在引用频次最高的前五名文献中任选其一,以标准格式标注出该篇文献及其二级参考文献,参考文献,共引文献,同被引文献,引证文献,二级引证文献,相似文献各一篇。
(10分)3.任选一个中文学位论文数据库,查找2007年至今,交通大学博士论文收录情况,写出检索数据库名称,检索式,检中文献条数,并任选两篇以标准格式标注。
(5分)4.使用BALIS馆际互借系统,借阅一本图书。
要求:写出该书所属图书馆及其索书号,并以标准格式标注出该书,BALIS馆际互借系统生成的订单号,并以无格式文本形式复制出“申请单撤销”界面所显示文字。
(5分)5.请写出检索中外文专利的主要资源,任选其中之一检索本学科专利。
写出检索的资源名称,检中文献条数,并以标准格式标注。
(5分)6.列出交通大学图书馆外文全文期刊数据库名称,并将本专业全文数据库列出。
(5分)7.利用本专业外文全文数据库检索本专业期刊论文,写出数据库名称、检索式,检中条数,并任选两条以标准格式标注。
(5分)8.利用PQDT数据库检索本专业学位论文,写出检索式,检中条数,并任选两条以标准格式标注。
(5分)9.利用Science direct(Elsevier)数据库,检索“ComputerScience(计算机科学)”领域 2011年全年25篇最热门的论文,将前两条以标准格式标注。
(5分)10.使用Engineering Village 查找2007年至今有关轨道交通(rail transit)方面,交通大学的作者(beijing jiaotong university或100044)以英文(English)发表的期刊论文(Journal article)。
国科大信息检索作业
国科大2013年秋季《现代信息检索》第一次作业(第一章到第五章)以下每题10分,共计100分。
1、习题1-4a.时间复杂度O(x+y)。
因为倒排记录表记录的文档号是按照从小到大排列的,在扫描Brutus对应的倒排表的时指针指向文档号为x,扫描Caesar对应的倒排记录表的指针对应的文档号为y,如果x<y那么x在结果集中,brutus指针后移,如果x=y,x不在结果集中,两个指针都后移,如果x>y,caesar指针后移。
b.时间复杂度是O(N),N是全部的文档数。
因为结果集的大小取决于文档数N,而不是倒排记录表的长度。
2、习题1-7对于原始的查询,按照倒排记录表的长度从小到大查询会节省查询复杂度(tangerine OR trees) = O(46653+316812)=O(363465)(marmalade OR skies) = O(107913+271658) = O(379571)(kaleidoscope OR eyes) = O(46653+87009) = O(300321)即顺序为:(kaleidoscope OR eyes) AND (tangerine OR trees)AND(marmalade OR skies)3、习题1-10UNION(p1,p2)answer ←{ }while p1!=NIL and p2!=NILdo if docID(p1)=docID(p2)then ADD(answer,docID(p1))p1<- next(p1)p2<-next(p2)else if docID(p1)<docID(p2)then ADD(answer,docID(p1))p1<- next(p1)else ADD(answer,docID(p2))p2<-next(p2)while p1!=NILdo ADD(answer,docID(p1))p1<- next(p1)while p2!=NILdo ADD(answer,docID(p2))p2<- next(p2)return(answer)4、习题2-7a.由24跳到75这一次跳转b.比较为(3,3) (5,5) (9,89) (15,89) (24,89) (75,89)(75,89) (92,89) (75,89)(92,89) (81,89) (84,89) (89,89) (92,95) (115,95)(96,95) (96,97) (97,97) (100,99) (100,100) (115,101)总共21次比较c.比较为(3,3) (5,5) (9,89) (15,89) (24,89) (39,89) (60,89) (68,89) (75,89) (81,89) (84,89) (89,89) (92,95) (96,95) (96,97)(97,97) (100,99) (100,101) (115,101) 总共19次比较56、习题3-116*6*6*6=12967、习题4-1倒排索引的构建需要两步:1.扫描文档,建立词项文档对。
信息检索习题及答案
注意:1、通读教材,根据页码提示完成下列题目。
2、最后一次上机课在线测试,范围不超出如下题目。
第一章一、单选1、报道范围主要为能源方面的科技报告为(D)。
A、ADB、PBC、NASAD、DOE{第7页}2、(C)是出版周期最短的定期连续出版物。
A、图书B、期刊C、报纸D、学位论文{第6页}3、(A)是高校或科研机构的毕业生为获取学位而撰写的。
A、学位论文B、科技报告C、会议文献D、档案文献{第6页}4、了解各个国家政治、经济、科技发展政策的重要信息源是(B )A、科技报告B、政府出版物C、标准文献D、档案文献{第8页}5、年鉴属于下列哪一类别(D)A、零次信息B、一次信息C、二次信息D、三次信息{第7页}(一次信息:图书、期刊论文、科技报告、会议论文、专利说明书及科技日记、杂记、实践记录)6、下列哪种文献属于一次文献(A )。
A、图书B、百科全书C、综述D、文摘{第4页}7、下列文献中属于一次信息的是(A )A、专利说明书B、百科全书C、目录D、综述{第4页}8、以下各项属于二次信息的是(A)A、索引B、期刊C、学位论文D、百科全书{第4页}(二次信息;目录、题录、文摘、索引、书目对一次信息有指引和报道作用)二、多选9、二次信息主要包括()等。
A、手册B、年鉴C、目录D、题录{第4页}10、信息的属性包括()A、客观性B、时效性C、传递性D、共享性{第3页}11、信息素质的内涵主要包括()。
A、信息意识素质B、信息能力素质C、信息道德素质D、信息职业素质{第9页}12、以下类型的信息属于三次信息的是()。
A、目录B、词典C、百科全书D、科技报告{第4页}附加:I)信息道德规范信息行为,主要包括()。
A、不制作、传播、消费不良信息B、不侵犯他人的知识产权、商业秘密、隐私权C、恰当使用与合理开发信息技术D、私下交易个人信息(第10页)II)根据信息的载体和表达方式的不同,信息源可分为()。
A、语言信息源B、二次信息C、实物信息源D、文献信息源(第4页)III)文献的基本要素有()。
信息检索第二次作业(1)
题号:8 题型:判断题 本题分数:5
内容:
PQDD是目前世界上最大和最广泛使用的学位论文数据库。
1、 错
2、 对
学员答案:2
本题得分:5
题号:9 题型:判断题 本题分数:5
内容:
《数学评论》还有个姐妹出版物为《数学文摘》。
1、 错
C、CM
D、IM
学员答案:C
本题得分:5
题号:14 题型:单选题(请在以下几个选项中选择唯一正确答案) 本题分数:5
内容:
INSPEC数据库于1983年增编D部分,为().
A、工程技术
B、信息技术
C、化工技术
D、生物技术
学员答案:B
本题得分:5
内容:
下面文献哪些是特种文献()。
A、期刊
B、学位论文
C、标准文献
D、专利文献
学员答案:BCD
本题得分:10
题号:17 题型:多选题(请在复选框中打勾,在以下几个选项中选择正确答案,答案可以是多个) 本题分数:10
内容:
我国专利有三种类型,即()。
A、实用新型专利
考生答题情况
--------------------------------------------------------------------------------
作业名称:信息检索第二次作业(1) 出 卷 人:SA
作业总分:100 通过分数:60
起止时间: 2010-5-24 15:40:07 至 2010-5-24 15:42:02
内容:
BA收录的文献类型主要为期刊。
信息检索 第二次作业答案 南通大学
一、利用搜索引擎来查找以下资料,简要写出检索步骤(包括你选用的检索工具和检索 词) 1、请查出自己的姓氏起源分布并介绍一位同姓的历史名人。
“张”的姓氏起源: 张姓是中国最大的姓之一,得姓历史悠久,族大支繁。
1999 年我国在昆明举办“世 界园艺博览会” ,世博园内立了《源于河南的姓氏》碑。
其中,第三位便是“张姓源于 濮阳” 。
张姓曾有 43 个望族,为百家姓之首。
张姓,具有三个明显的特点,一是得姓较 早,源远流长;二是族大支繁,遍及全国,到处都有张氏族人;三是人才辈出,不可胜 数,从古至今,历代皆有张氏的杰出人物,像张衡、张仲景、张謇、张澜等人为中华民 族的繁荣昌盛贡献着力量。
关于张姓的始祖,历代史书中有如下记载: “黄帝第五子清阳之孙生挥,为弓正, 观弧星始制弓矢,主祀弧星,因姓张氏” (见《元和姓纂》“挥造弧矢,受封于张,后 ) 为弓氏。
张,望出濮阳。
” “张姓出于姬姓,至周而氏者祖于韩,其得望者十二,曰襄阳,洛阳,河东,始兴, 冯翊,吴郡,平原,青河,河间,中山,曰魏,曰蜀。
(见袁桷《张氏宗谱序》 ” ) 从以上记载看,张姓之源,可追溯到五千年前中华民族的共同始祖黄帝,是黄帝的 直系后裔。
黄帝第五子青阳,生子曰挥。
这位叫挥的黄帝之后,正是张姓的始祖。
所以 说张姓是黄帝的直系后裔,有一定道理。
这位名挥的黄帝后裔,非常聪明,他观看到天上的弧星,便仿其形状做了弓矢。
原 来,天上有星名“天弓” ,简称“弧” ,属井宿,共九星,在天狼星东南。
八星如弓形, 外一星像矢,在犬犬、南船两星座内。
《宋史·天文志》载: “弧矢九星在狼星东南, 天弓也” 。
挥看到“天弓” ,由“天弓”之形受到启发,最早发明了弓矢这个古代重要的 武器。
他也由此而被 “赐姓张氏” 。
不过,当初的“张”“非命姓氏之义也 ” , 。
因为弓矢发明之后,在使用之前,必须 先用力气将弓张开,不然,就无法使用。
挥是因为这个缘故而命为“张氏”的。
中国科学院大学现代信息检索2012年秋季期末试题及答案
中国科学院研究生院课程编号:71258-Z-2试题专用纸课程名称:现代信息检索任课教师:王斌———————————————————————————————————————————————姓名学号成绩一、判断题(正确打√,错误打X。
每题2分,共30分)1、建立倒排索引时,只能以文件作为索引单位。
(X)2、词项集合和词条集合有时可以完全不同,甚至交集为空集。
(√ )3、轮排索引和k-gram索引都可以支持通配查询的处理。
(√ )4、倒排索引的构建与所处的硬件环境息息相关。
(√ )5、γ的编码序列唯一,但解码序列不唯一。
(X)6、向量空间模型的计算当中,采用余弦相似度和欧氏距离得到的相似度是一致的,即两个向量的余弦相似度大,则欧氏距离一定小,而当余弦相似度小时欧氏距离大。
(X)7、信息检索系统中只存在一种索引结构。
(X)8、隐式相关反馈中对用户的行为进行分析,因此一定会提高检索的效果。
(X)9、在BM25检索模型中,考虑了文档长度对检索带来的影响。
(√)10、在朴素贝叶斯分类器,基于多项式模型和基于贝努利模型的实现中采用了完全相同的假设。
(X)条件独立假设+ 位置独立假设+只考虑出现位置独立假设+ 考虑不出现11、特征选择函数MI(Expected Mutual Information)考虑了词项不存在对分类带来的影响。
(√ )12、SVM分类的速度与支持向量的个数无关。
(X)13、K-均值聚类算法的结果依赖于初始种子质心的选择。
(√)14、GAAC层次聚类算法的结果具有确定性。
(√)15、隐性语义索引LSI本质上是将原始的向量空间线性变换到另一个高维向量空间。
(X)二、选择题(单项或多项选择。
每题2分,共16分)1、关于倒排索引的压缩,以下叙述正确的是(A B )。
A)压缩能提高空间的利用率B)压缩能提高硬盘到内存的传输速度C)词典压缩作用不大D)可变字节编码压缩是一种有损压缩方法2.关于向量空间模型,以下叙述正确的是(A B D )。
《文献信息检索》第二次作业
《文献信息检索》第二次作业第一篇:《文献信息检索》第二次作业杏林会计专业作业二一、馆藏书目检索结合自己的专业背景查询南通大学图书馆书目检索系统,说明你的检索方法、检索结果,并列举密切相关的图书两本(包括书名、索书号、馆藏地)。
检索方法:通过“普通检索”,选择文献类型中文图书,选择检索字段主题词“会计”;检索结果:340项命中主题词会计;图书:《成本与管理会计》索书号:F234.3-43/1029=2 主校区社会科学书库《会计学概论》索书号:F230-43/1123主校区社会科学书库二、电子图书检索1、下载安装超星图书阅览器,可利用“图书馆网站-中文数字资源-超星电子图书”,或利用“图书馆网站-读者服务-软件下载”进行软件下载。
2、在超星数字图书馆中分别利用快速检索、高级检索以及分类浏览三种方式检索自己所学专业的电子图书,写出每种检索方式的步骤及检索结果,列举其中密切相关的图书一册,记录其名称、作者、出版信息等。
快速检索:检索步骤:在“图书检索”框内直接输入需要检索的“书名”、“作者”或“主题词”,点击“检索“按钮;检索结果:输入“会计学”,可共查到1526本图书,每页显示10条记录等。
高级检索:检索步骤:在检索项-书名”、“作者”或“主题词”等对应的框内输入需要检索的资料,点击“检索”按钮;检索结果:相应输入“会计学基础”、“郭徐咸”、“出版年代从1994年到2010年”,共查到 2 本图书;分类浏览:检索步骤:经济图书馆-经济计划与管理会计-各种会计和簿记;检索结果:共检索到1948本图书,每页显示10条记录等图书:名称:《会计学基础》,作者:郭徐咸,出版信息:出版日期::1994年08月第2版,主题词:会计高等学校教材3、打开该书的全文,利用文字识别功能将其中一段信息识别为文本格式,复制粘贴到作业文件中。
〔二)会计工作的内容经历了由对经济过程的广泛计其记录到对经济过程特定方面——价值运动计算记忌舶发展。
《信息检索(文献检索与利用)》课程第二次作业
《信息检索(文献检索与利用)》课程第二次作业姓名院系班级学号注:请于下课前将作业发至我的邮箱:librarypaper_jju@,逾期以未交作业处理。
邮件主题请注明你的班级、姓名及《信息检索(文献检索与利用)》课程第二次作业。
一、检索与你姓名(如:张三)相同或相似的一位作者(如张三丰)近五年来发表的期刊论文这道题目的要求,首先是期刊论文,所以你必须选择一个期刊数据库,CNKI 或者维普都可以。
其次是与你姓名相同或相似的作者写的论文,所以你的检索项应该选择责任者或者作者。
这道题目的关键是你的姓名一定能搜到检索结果吗?你可能要选择两个甚至更多的相似的姓名作为检索词来检索,那么这些检索词之间是什么关系呢?只要满足其中一个检索词的检索结果即为有效,因此,他们之间应该是逻辑或的关系,即“或者”。
还有一个限制条件是要求近五年来发表的论文,因此这个时间段应该为2007-2011。
下面我以CNKI数据库为例。
到此处,我们可以了解到题目、作者、机构、刊名、关键词等信息,但是参考文献没有找到,这个时候就必须通过查看这篇文章的内容来找了。
即下载这篇全文。
数据库名称:中国知识资源总库——CNKI 系列数据库检索年限:2007-2011检索词:张三,张三丰,张四,张桑逻辑检索表达式:作者=张三或者作者=张三丰或者作者=张四或者作者=张桑专辑:医药卫生检索出1196 条记录【题名】卡维地洛治疗高血压合并冠心病的临床分析【作者】张三小【机构】山西省大同同煤二医院内科【刊名】吉林医学【关键词】卡维地洛; 高血压; 冠心病;参考文献(列出2条):二、查找《当代法学》2000年第6期中与你学号后两位数字相同页码的那篇文章的篇名及作者,并复制正文的第一段。
首先要搞清楚这道题给出的信息:期刊名《当代法学》,刊期是2000年第6期。
要求是找到这一期的期刊全文中,与你学号后两位数字相同页码的那篇文章。
同样以CNKI为例。
首先要找到这本期刊《当代法学》。
国科大现代信息检索第二次作业
国科大2013年秋季《现代信息检索》第二次作业(第六章到第十五章)以下1—16每题6分,第17题3分,共计100分。
1. 习题 6—10 考虑图6—9中的3篇文档Doc1、Doc2、Doc3中几个词项的tf 情况,采用图6—8中的idf 值来计算所有词项图6-9 习题 6—10中所使用的tf 值car 在三篇文档中的tf —idf 值分别:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc3:24*1.65=39。
6 auto 在三篇文档中的tf -idf 值分别为:Doc1:3*2.08=6。
24;33*2。
08=68。
64;0*2。
08=0 insurance 在三篇文档中的tf —idf 值分别为:Doc1:0*1。
62=0;33*1.62=53。
46;29*1.62=46。
98best 在三篇文档中的tf —idf 值分别为:Doc1:14*1。
5=21;0*1。
5=0;17*1.5=25。
52. 习题 6—15 回到习题6—10中的tf—idf 权重计算,试计算采用欧氏归一化方式处理后的文档向量,其中每个向量有4维,每维对应一个词项。
Doc1=(44.55,6.24,0,21), Len(Doc1)=49。
6451对其长度归一化得到Doc1=(0。
897,0。
126,0,0.423) Doc2=(6。
6,68。
64,53.46,0),Len (Doc2)=87。
2524对其长度归一化得到Doc2=(0.076,0.787,0.613,0)Doc3=(39。
6,0,46。
98,25.5),Len (Doc3)=66。
5247对其长度归一化得到Doc3=(0.595,0,0。
706,0。
383) 3.习题 6-19 计算查询digital cameras 及文档digital cameras and video cameras 的向量空间相似度并将结果填入表6-1的空列中。
中国科学院大学现代信息检索课后习题答案
《信息检索导论》课后练习答案王斌最后更新日期2013/9/28第一章布尔检索习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。
文档1 new home sales top forecasts文档2 home sales rise in july文档3 increase in home sales in july文档4 july new home sales rise1 2 322 3121 2 3习题1-2 [*] 考虑如下几篇文档:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵;解答:文档1文档2文档3文档4drug1100for1011hopes0001new0111of0010patients0001schizophrenia1111treatment0010b. 画出该文档集的倒排索引(参考图1-3中的例子)。
解答:参考a。
习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?a.schizophrenia AND drug解答:{文档1,文档2}b.for AND NOT (drug OR approach)解答:{文档4}习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次内完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。
如果不能的话,那么我们能达到的时间复杂度是多少?a.Brutus AND NOT Caesarb.Brutus OR NOT Caesar解答:a.可以在O(x+y)次内完成。
通过集合的减操作即可。
信息检索复习提纲及答案
信息检索复习提纲及答案第一篇:信息检索复习提纲及答案“信息获取与利用”复习大纲1.什么是信息素养?简述评判是否具备信息素养的标准是什么?结合自己的实际工作,谈谈提高信息素养的途径。
答:指个人“能认识到何时需要信息,和有效地搜索、评估和使用所需信息的能力”。
标准:⑴能够独立决定所需信息种类和程度。
⑵能够高效地获取所需信息。
⑶能够根据现有的知识背景和评价标准对信息及其来源进行评价及遴选。
⑷能够有效地利用信息达到某一特定的目的。
⑸能够在信息利用过程中遵守相关的法律法规。
途径:⑴通过网络搜索⑵信息检索课⑶参加“图书馆利用系列讲座”等信息实践活动。
2.信息、知识、情报的概念?举例说明概念间的区别和联系文献?答:信息,由事物发出的消息、指令、数据等所包含的内容。
如花的生长方向。
知识,是人类社会实践的总结,是人的主观世界对于客观世界的概括和如实反映。
如每天吃一个苹果有利健康。
情报,是激活了、活化了的知识,是为特定目的服务的信息。
如搜索汽车替代燃料时,获得有关乙醇汽油的信息就是情报。
3.文献有那些类型?将文献划分成这些类型的依据是什么?答:纸张文献、缩微文献、电子文献、音像文献。
依据知识内容、记录载体、记录方式。
4.科技文献的作用是什么? 答:⑴科技进步的阶梯。
⑵传递科技信息或知识。
⑶加速科学技术的进步,促进了社会的发展。
5.比较图书和期刊,他们各自有哪些特征,其特点和用途是什么?答:图书特点,内容系统、全面、成熟、可靠,但时效性较差。
用途,对范围较广的问题获得一般知识、或对陌生的问题获得初步了解。
特征,书名、著者、出版社名称、出版地点、出版时间、图书总页数、ISBN。
期刊特点,品种多、数量大、出版周期短、报道速度快、内容新颖、及时反映当前科技水平。
用途,是科技人员吸取成果、掌握进展、了解动态、开阔思路的重要参考文献。
特征:论文题名、著者、期刊刊名、卷号、期号、起止页号、ISSN。
6.特种文献有哪几种类型,简述其中任意两种的特点。
2013年4月份考试文献检索与应用第二次作业
2013年4月份考试文献检索与应用第二次作业一、单项选择题(共20题、总分80分、得分16分)1. 关于情报、知识、信息的基本概念及其之间的关系,以下描述错误的是()。
(本题分数:4 分,本题得分:0 分。
)A、知识是人类对信息本质的认识和掌握B、信息和知识的认识是同步的C、知识就是有用的信息D、情报是指由特定效用的传递着的知识题目信息难度: 5正确答案: B解题方案:客观题2. 专利包含的类型有: () (本题分数:4 分,本题得分:4 分。
)A 、发明专利B 、实用新型专利C、外观设计专利D、以上全部题目信息难度: 5正确答案: D解题方案:客观题3. 以下哪项检索属于事实检索? (本题分数:4 分,本题得分:0 分。
)A、检索关于铝合金的研究文献B、查喜泰山有多高C、检索关于网络技术的文献D、同学中身高低于平均身高的同学人数题目信息难度: 5正确答案: D解题方案:客观题4. 一个完整的IPC分类号为()级 (本题分数:4 分,本题得分:0 分。
)A、三B、四C、五D、六题目信息难度: 5正确答案: C解题方案:客观题5. 以下关于人工语言的四种描述,描述错误的是()? (本题分数:4 分,本题得分:4 分。
)A、人工语言是根据信息检索的需要而由人工创制的B、人工语言将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制C、人工语言的检索效率不如自然语言D、人工语言可分为分类检索语言、主题检索语言、代码检索语言题目信息难度: 5正确答案: C解题方案:客观题6. 关于搜索引擎的描述,错误的是() (本题分数:4 分,本题得分:0 分。
)A、搜索引擎的类型有目录式搜索引擎,检索型搜索引擎,混合型搜索引擎,多元搜索引擎B、搜索引擎(search engines)是一种在互联网采取一定的策略搜集信息,并对信息进行提取、组织和处理,为用户提供检索服务的搜索工具C、多元搜索引擎自己拥有大量的信息,并将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排查、重新排序等处理后,作为自己的结果返回给用户D、常见中文搜索引擎有:Google中文搜索引擎、百度(baidu)中文搜索引擎、北大天网中英文搜索引擎和新浪搜索引擎等.题目信息难度: 5正确答案: C解题方案:客观题7. 以下哪类文献不属于文献的出版类型分类()? (本题分数:4 分,本题得分:0 分。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
将结果填入表 6-1 的空列中。假定 N=10000000,对查询及文档中的词项权重(wf 对应的列)采用对数方法 计算,查询的权重计算采用 idf,而文档归一化采用余弦相似度计算。将 and 看成是停用词。请在 tf 列中 给出词项的出现频率,并计算出最后的相似度结果。 表6-1 习题6-19中的余弦相似度计算
文档ID 1 2 3 4 文档文本 click go the shears boys click clickclick click click metal here metal shears click here
为该文档集建立一个查询似然模型。假定采用文档语言模型和文档集语言模型的混合模型,权重均为 0.5。 采用 MLE 来估计两个一元模型。计算在查询 click、shears 以及 click shears 下每篇文档模型对应的概率,并 利用这些概率来对返回的文档排序。将这些概率填在下表中。对于查询 click shears 来说,最后得到的文档 次序如何? 查询似然模型: click 1/2 模型1 模型2 模型3 模型4 文档集模型 1 0 1/4 7/16 go 1/8 0 0 0 1/16 the 1/8 0 0 0 1/16 shears 1/8 0 0 1/4 2/16 boys 1/8 0 0 0 1/16 metal 0 0 1/2 1/4 2/16 here 0 0 1/2 1/4 2/16
排名靠前),相关性判定的情况如下所示: 系统 1 系统 2 a.
计算两个系统的 MAP 值并比较大小。
MAP(系统 1)=(1/4)*(1+2/3+3/9+4/10)=0.6 MAP(系统 2)=(1/4)*(1/2+2/5+3/6+4/7)=0.493 由于只有一个查询,MAP=AP。系统 1 的 MAP 值更大 b. 上述结果直观上看有意义吗?能否从中得出启发如何才能获得高的 MAP 得分? 系统 1 返回的相关文档位置较分离,有的在前面有的在后面,系统 2 返回的相关文档较集中的中间位置。 系统 1 获得了较高的 MAP 值。 排名前面位置的相关文档数对 MAP 值的影响较大,相关文档排在靠前的位置可以获得较高的 MAP 得分。 c. 计算两个系统的 R 正确性值,并与 a 中按照 MAP 进行排序的结果进行对比。 R 正确率(系统 1)=2/4=0.5 R 正确率(系统 2)=1/4=0.25 虽然 R 正确率只度量了正确率-召回率曲线上的一个点, 但是经验上却证实它和 MAP 是高度相关的。 按照 R 正确率和 MAP 排序得到的结果一致。 8. 习题 9-3 假定用户的初始查询是 cheap CDs cheap DVDs extremelycheap CDs。用户查看了两篇文档 d1
值来计算所有词项 car、auto、insurance 及 best 的 tf-idf 值。
图 6-9
习题 6-10 中所使用的 tf 值
car 在三篇文档中的 tf-idf 值分别:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc3:24*1.65=39.6 auto 在三篇文档中的 tf-idf 值分别为:Doc1:3*2.08=6.24;33*2.08=68.64;0*2.08=0 insurance 在三篇文档中的 tf-idf 值分别为:Doc1:0*1.62=0;33*1.62=53.46;29*1.62=46.98 best 在三篇文档中的 tf-idf 值分别为:Doc1:14*1.5=21;0*1.5=0;17*1.5=25.5 2. 习题 6-15 回到习题 6-10 中的 tf-idf 权重计算,试计算采用欧氏归一化方式处理后的文档向量,其
国科大 2013 年秋季《现代信息检索》第二次作业(第六章到第十五章)
以下 1-16 每题 6 分,第 17 题 3 分,共计 100 分。
1.
习题 6-10
考虑图 6-9 中的 3 篇文档 Doc1、Doc2、Doc3 中几个词项的 tf 情况,采用图 6-8 中的 idf
Doc1 car auto insurance best 27 3 0 14 Doc2 4 33 33 0 Doc3 24 0 29 17
qi d i
1.56 0 1.558
相似度结果=1.56+1.558=3.118 4. 习题 7-1 图 7-2 中倒排记录表均按照静态得分 g(d)的降序排列,为什么不采用升序排列?
一篇文档 d 的最后得分定义为 g(d)和某个与查询相关的得分的某种组合,一些文档具有高的 g(d)值更有可 能具有较大的最后得分,降序排列有助于提高 top-k 检索的效率。在这种排序下,高分文档更可能在倒排记 录表遍历的前期出现。在实际受限的应用当中(比如,任意搜索需要在 50ms 内返回结果) ,上述方式可以 提前结束倒排记录表的遍历。 5. 习题 7-8 平面上的最近邻问题如下:在平面上给出 N 个数据中寻找与 Q 具有最短欧氏距离的点。很显然,如果我们希望能够避免计算 Q 和所 有平面上的点的距离时,簇剪枝就能够作为最近邻问题的一种处理方法。请给出一个简单的例子来说明: 如果只选择最近的两个先导者,那么簇剪枝方法可能会返回错误的结果(也就是说返回的不是离 Q 最近的 数据点) 。 如图所示,黄色圈代表查询,离查询最近的两个
中每个向量有 4 维,每维对应一个词项。 Doc1=(44.55,6.24,0,21),Len(Doc1)=49.6451 对其长度归一化得到 Doc1=(0.897,0.126,0,0.423) Doc2=(6.6,68.64,53.46,0) ,Len(Doc2)=87.2524 对其长度归一化得到 Doc2=(0.076,0.787,0.613,0) Doc3=(39.6,0,46.98,25.5) ,Len(Doc3)=66.5247 对其长度归一化得到 Doc3=(0.595,0,0.706,0.383) 3. 习题 6-19 计算查询 digital cameras 及文档 digital cameras and video cameras 的向量空间相似度并
������∈������ ������ ������ ������ ������ = 1 = ������������ (1 − ������������ )|������ |−������
∂P(D|R = 1) ������−1 ������ = s × ������������ (1 − ������������ )|������ |−������ − ������������ × ( ������ − ������)(1 − ������������ )|������ |−������−1 ∂������������ ∂ P(D|R=1) 令 = 0,得到������������ = ������/|������|
所有文档中有 s 篇文档包含词项 t, 即在这 s 篇文档中 Xt=1。 假定所观察到的数据就是这些 Xt 在文档中的分 布情况。请证明采用 MLE 估计方法对参数 pt ( X t 1| R 1, q ) 进行估计的结果,即使得观察数据概率最 大化的参数值为 pt= s/|R|。 设 D 是相关文档集,定义一个函数P D R = 1 =
b
对于表 13-2,为什么在绝大部分文本集中|||V| <||Lave 都成立?
b 0.5
假设大多数文档集的词条数都大于 100 万,根据 Heaps 定律,词汇表大小 V 是文档集规模 T 的一个函数, V=K*T ,典型的 K=44,b=0.49,V=K*T =44*(1000000) =44000 |D|Ld=文档集中的词条数=1000000,|C||V|=2*44000=88000 所以大多数文档集有|C||V|<|D|Ld 13. 习题 13-2[*] 表 13-5 中的文档中,对于如下的两种模型表示,哪些文档具有相同的模型表示?哪 些文档具有不同的模型表示?对于不同的表示进行描述。 (i) 贝努利模型。 (ii) 多项式模型。 表13-5 NB独立性假设存在问题的几个文档例子
和 d2,并对这两篇文档进行了判断:包含内容 CDs cheap software cheap CDs 的文档 d1 为相关文档,而内容 为 cheap thrills DVDs 的文档 d2 为不相关文档。假设直接使用词项的频率作为权重(不进行归一化也不加上 文档频率因子) ,也不对向量进行长度归一化。采用公式(9-3)进行 Rocchio 相关反馈,请问修改后的查询 向量是多少?其中 α = 1,β = 0.75,γ = 0.25。 ������������ = ������������0 + ������ 词项频率表格 词 CDs cheap DVDs extremely software thrills 1 |������������ | ������������ − ������
������ ������ ∈������������
1 |������������������ |
������������
������ ������ ∈������������������
原始查询 2 3 1 1 0 0
d1 2 2 0 0 1 0
d2 0 1 1 0 0 1
修改后的查询向量 q=(2.5,4.25,0.75,1,0.75,-0.25),如果向量中权重分量为负值,那么该分量权重设为 0。所 以最终 Rocchio 向量为(2.5,4.25,0.75,1,0.75,0) 9. 习题 11-3 [**] 令 Xt 表示词项 t 在文档中出现与否的随机变量。假定文档集中有 |R|篇相关文档,