国科大现代信息检索第二次作业
中国科学院大学计算机领域信息检索期末考试答案
域信息检索与利用实用技巧任课老师:李玲试题专用纸1、简答题:您在学习和研究过程中遇到下列问题时,常用哪些方法来解决?(10题,3分/小题,共30分)(1)查找期刊时,您常用的方法?答: 中文期刊一般用:中国知网、万方数据库、维普数据库等;外文期刊一般用:ACM、IEEE、Elsevier ScienceDirect、SpringerLink、ScienceOnline 、Taylor & Francis Online Journals 、Cambridge Journal等;可通过国科大图书馆进入上述网站首页,输入所需检索的期刊信息,如期刊名称、作者、发表年份等信息进行查询。
(2)查找中国科学院学位论文时,您常用的方法?答: 进入“中国科学院大学”首页→点击右下方“图书馆”→点击进入“中科院学位论文数据库”→进入检索界面,输入所需检索的论文信息,如:论文名称、作者、指导老师等。
(3)查找各国专利以及专利的被引用情况时, 您常用的方法?答:进入国家知识产权局官网“”,输入所需检索专利的发明名称、申请号、申请人(三者至少必填其一)进行检索,查看专利被引用情况。
(4)查找SCI期刊的影响因子,您常用的方法?答:通过国科大图书馆点击“ISI-SCIE”进入web of science平台查询界面,输入期刊的关键词、作者等信息,可通过“AND”进行多个关键词组合以缩小查询范围。
(5)查找标准文献时,有哪些注意事项?答:合理选择标准数据库(如中文期刊会议类检索工具选用CNKI、维普、万方等,查询专利选用国家知识产权局等数据库);注意文献的发表时间(如利用CNKI科技类期刊数据库查询只能查询1994年之后发表的文献,维普中文科技期刊库可查询1984年之后发表的文献)使用多个精确的关键字组合,以减小检索范围。
(6)文献管理时,您常用的方法?答:使用EndNote文献管理工具,进行分类管理方便后期查询。
域信息检索与利用实用技巧任课老师:李玲试题专用纸(7)获取无法直接下载的文献全文时,您常用的方法?答:可通过文献传递,向有权限的人求助;或通过查询Researchgate,付费网站获取;也可以邮件联系文献作者求助。
中国科学技术大学--信息检索作业答案(电子版)
中国科学技术大学上海工程硕士第八期《信息检索》考试试题姓名:陶亮学号:SG15010018成绩:第一章息检索及其主要功用3、你通常利用什么样的文献传播渠道来获取有关文献信息?答:文献信息的传播渠道是多种多样的,归结起来有以下三种基本形式:(1)人际传播渠道:是通过人们之间的直接交流,如相互交谈、相互借还或传阅资料、交换意见、参加会议、听课、听讲座等。
(2)组织传播渠道:是通过一定的形式无偿或部分有偿地向社会公众提供文献资料的中介交流形式,如图书馆、档案馆、各类文献情报中心、学校、美术馆乃至教堂等。
(3)大众传播渠道:借助于各种传统及现代化手段来传播的一种方式。
如通过订阅杂志、购买图书、观看影视作品或网上浏览下载等形式。
以上三种形式各有所长,相互补充,长期共存,各自发挥着独特的功能。
在我的日常生活中,上述三种文献传播渠道都有,但人际传播和大众传播是最多的传播渠道。
4、对于信息检索的五大功用,你最有体会的是什么?最不了解的是什么?你认为这五大功用以外还可以总结出来有关信息检索的其他功用吗?(请简介)答:信息检索五大功用分别为:(1)开阔视野,正确决策:能够及时、系统地了解前人的工作经验与成果,掌握事物最新动态及发展趋势。
适时做出正确决策,使所开展的工作取得最快、最有效的进展。
(2)提高功效,事半功倍:能节省人们对有用信息进行搜集利用的时间及精力,提高工作效益,做到事半功倍。
同时还能培养人们的自学能力、科学研究及鉴赏能力。
(3)学习借鉴,推动创新:有利于及时把握各种信息,促进科技发明和发现不断涌现,同时对人们开展终身学习不断提升综合素质、创作出更多、更优秀的成果及文献也具有强大的支持和推动作用。
(4)规避风险,维护权益:可以避免重复劳动、少走弯路、免去低水平复制所带来的损失,使各种科研、经营、生产等活动实现投入少、收效高,还可使人们规避风险,利用知识产权保护法等法律规范,维护自身或单位(国家)的正当权益。
2-1 信息检索与利用 第2次上机作业 试题
信息检索与利用第2次上机作业试题
1. 假设你现在准备申报“超细氮化钛的合成方法研究”的研究课题立项,请利用CNKI中国期刊全文数据库(旧平台)
(/kns50/Navigator.aspx?ID=1(多次刷新))的“高级检索”和“专业检索”进行文献检索,目的是判断该研究课题目前国内的研究现状。
1)写明整个搜索、检索过程,列出主要检索式;
2)各罗列与该课题密切相关的2条中文文献,写明文献的标题,作者,单位,来源刊,摘要等主要信息.
2.在国家知识产权局专利数据库(/zljs/)进行检索。
1)就“数字视频远程医疗会诊系统”的课题进行检索。
2)写明检索思路、步骤,主要检索式。
3)罗列与该课题密切相关的1个结果,并标明专利号(申请号)、发明名称、发明人、摘要等主要信息。
3. 悬赏:在512大地震之后不久,新语丝上出现了一篇帖子(译自美国《国家地理杂志》文章),指出早在1年前就有科学家在一篇科学论文中警告北川断裂带将有爆发强烈地震的危险(详情见链接
/bbs/viewthread.php?tid=7616506)。
为验证此消息的可靠性,请“不择手段”以多种思路尝试寻找文中所提及的那篇科学论文的原文(PDF 格式,给出链接地址即可)。
4. 请就信息检索课教学内容、方式等方面提出意见或建议。
文献检索与应用第二次作业题及答案.doc
第2次作业一、单项选择题(本大题共40分,共20小题,每小题2分)1.以下哪项检索屈于数据检索?A.历史成绩超过89分的学生人数B.查喜黄山有多高C.检索关于网络技术的文献D.某同类产品中,那种牌号的销量最大2.以卜•哪种文献不属于零次文献?A.实验记录B.手稿C.原始录甘D.专利索引3.国际标准连续性出版物编号的缩写形式为()A.TSBNB.ISSNKTD.VIP4.布尔逻辑检索包括()A.逻辑“与”和逻辑“异或”B.逻辑“与”和逻辑“或”C.逻辑“ + ”和逻辑“-”D.逻辑“与”、逻辑“或”和逻辑“非”5.以下哪个不属于文献的出版形式分类()A.图书B.期刊C.零次文献D.会议文献6 •下面哪一个属于二次文献?A.专题评述B.中经网数据库C.图书D.学位论文7.以卜•哪一个属于三次文献?A.演讲稿B.会议论文KI期刊数据库D.年鉴8.关于情报、知识、信息的基木概念及其之间的关系,以下描述错误的是()OA.知识是人类对信息木质的认识和掌握B.信息和知识的认识是同步的C.知识就是有用的信息D.情报是指由特定效用的传递着的知识9.关于信息检索,以下描述错误的是()A.信息检索的类型有文献检索、数据检索和事实检索B.“查看月球的年龄”的信息检索屈于数据检索C.“班上平均成绩超过80分的学生人数统计”屈于数据检索D.文献检索的目的是要检索出包含所需要信息的文献10.关于情报、知识、信息的概念及其之间的关系,以下描述错误的是().A.从吋间上来看,知识滞后于信息B.情报具有效用性C.知识就是情报D.情报具冇社会性11・关于检索方法的四种描述,其小描述错谋的是()。
A.检索方法分为常用法、追溯法和循环法B.循环法是上述追溯法和常用法的结合C.常用法,也叫工具法,就是利用文摘或题录等各种文献检索工具查找文献的方法D.常用法根据时间范围又分为顺查法和倒查法12.以下四项检索哪一项属于事实检索()?A.检索关于铝合金的研究文献B.检索泰山冇多高C.检索关于网络技术的文献D.同学中来自陕西的同学人数13.以下的数据库,哪一个不属于国外权威引文数据库?()A.SCIB.ETC.ISTPK114.要在SCI小查找重庆大学关于远程教育研究的文献,请问以下检索式正确的是()A.AD二Chongqing Univ* and TI二distance educationB.AD二Chongqing Univ and TI=distance educationC.AD=Chongqing Univ* and AU=distance educationD.AD=Chongqing Univ or TI=distance education15.从物理构成來讲,数字资源检索系统曲()几部分构成A.软件和数据库B.硕件、软件、数据库C.硕件系统和软件D.服务器和数据库16. IP地址由()节数字组成A.两B.四C.三D.五17.以下对专利的四种论述,哪一个是错谋的?A.专利是指一个国家授予创造发明人在一定的时间内对该发明创造的独占实施权,包扌舌专利产品的生产、使用和销售.B. 专利有三种类型C. 专利具冇独占•性D. 只冇新的、水平较高的,能在工业上制造的产品或使用方法,才可以申请专利. 18. 以下四种期刊数据库哪一个不是中文期刊数据库?A. CNKIB. VIPC. 万方期刊D. Elsevier ScicncA. 信息检索的类型有文献检索、数据检索和事实检索;B. “杭州六和塔建于何年”的信息检索属于事实检索;C. “班上平均成绩超过80分的学生人数统计”展于事实检索;D. 文献检索的目的是要检索岀包含所需要信息的文献二、判断题(本大题共6分,共6小题,每小题1分)1. “检索销量最大的产品型号”属于事实检索()。
国科大信息检索作业
国科大2013年秋季《现代信息检索》第一次作业(第一章到第五章)以下每题10分,共计100分。
1、习题1-4a.时间复杂度O(x+y)。
因为倒排记录表记录的文档号是按照从小到大排列的,在扫描Brutus对应的倒排表的时指针指向文档号为x,扫描Caesar对应的倒排记录表的指针对应的文档号为y,如果x<y那么x在结果集中,brutus指针后移,如果x=y,x不在结果集中,两个指针都后移,如果x>y,caesar指针后移。
b.时间复杂度是O(N),N是全部的文档数。
因为结果集的大小取决于文档数N,而不是倒排记录表的长度。
2、习题1-7对于原始的查询,按照倒排记录表的长度从小到大查询会节省查询复杂度(tangerine OR trees) = O(46653+316812)=O(363465)(marmalade OR skies) = O(107913+271658) = O(379571)(kaleidoscope OR eyes) = O(46653+87009) = O(300321)即顺序为:(kaleidoscope OR eyes) AND (tangerine OR trees)AND(marmalade OR skies)3、习题1-10UNION(p1,p2)answer ←{ }while p1!=NIL and p2!=NILdo if docID(p1)=docID(p2)then ADD(answer,docID(p1))p1<- next(p1)p2<-next(p2)else if docID(p1)<docID(p2)then ADD(answer,docID(p1))p1<- next(p1)else ADD(answer,docID(p2))p2<-next(p2)while p1!=NILdo ADD(answer,docID(p1))p1<- next(p1)while p2!=NILdo ADD(answer,docID(p2))p2<- next(p2)return(answer)4、习题2-7a.由24跳到75这一次跳转b.比较为(3,3) (5,5) (9,89) (15,89) (24,89) (75,89)(75,89) (92,89) (75,89)(92,89) (81,89) (84,89) (89,89) (92,95) (115,95)(96,95) (96,97) (97,97) (100,99) (100,100) (115,101)总共21次比较c.比较为(3,3) (5,5) (9,89) (15,89) (24,89) (39,89) (60,89) (68,89) (75,89) (81,89) (84,89) (89,89) (92,95) (96,95) (96,97)(97,97) (100,99) (100,101) (115,101) 总共19次比较56、习题3-116*6*6*6=12967、习题4-1倒排索引的构建需要两步:1.扫描文档,建立词项文档对。
现代信息检索作业Word版
运城学院《现代信息检索》系别:应用化学专业:化学班级:1101姓名:张丹学号:2011080145这个学期我学习了想《现代信息检索》这门课程,从中学到了很多关于信息检索的知识,以下就是我对这门课程的总结。
信息社会,人们把信息、物质与能量一起称为人类社会赖以生存发展的三大要素。
信息是促进社会经济、科学技术以及人类生活向前发展的重要因素。
一个国家的科技进步和社会发展起来越取决于对信息的开发与利用,谁能充分开发和有效地利用信息资源,谁就能抢占科学技术发展的制高点。
社会的信息化环境使社会对人才的要求更高,信息素质成为现代化人才必备的基本素质之一。
当今,信息呈爆炸式增长,不仅如此,信息载体也发生了巨大的变化,除传统纸介质信息外,每天都有大量的磁载体信息、电子版信息及各类网上信息涌现出来,这些浩如烟海的信息的多样性、离散性与无序性及其复杂的检索界面和使用方法,增加了信息利用的难度,极大地影响了人们获取信息的质量与效率。
信息检索方法是实现检索方案中的检索目标所采用的具体操作方法和手段的总称。
检索的方法很多,要检索过程中应根据检索系统的功能和检索者的实际需求,灵活运用各种检索方法,以达到满意的检索效果。
而检索方法大致有以下几种:1、顺查法,2、倒查法,3抽查法,4追溯法,5分段法,6浏览法。
顺查法:顺查法即根据课题所涉及的学科范围,从有关问题提出的最初年代入手,由远而近、逐年查找,直到查找的信息资料充足为止的方法。
这种方法适用于对某一课题的普查,能查找到相当长时期内国内外发表的全部相关文献资料,这种方法查得的信息资料比较全面,漏查的可能性小,查全率较高。
其不足之处是工作量大,费时费力。
倒查法:倒查法也称逆查法,即根据所查课题的时间范围,由近期向远期回溯查找文献资料的方法。
此法适用于一些新课题、新观点、创新理论、革新技术等信息资料的检索,重点查检近期的信息资料,检索是按时间顺序由近期的新内容往远期旧内容逐年查找。
课程科技信息检索作业二
课程:《科技信息检索》作业二学校年级:姓名学号:作业成绩:教师签名:第四章单一类型的科技文献检索一、填空一、图书的篇幅一般在______页以上,此刻正式出版的图书都有_________,如“ISBN7-118-02338-8/”,其中“7”是________,“118”是________,“02338”是________,“8”是________,而“”则是________。
二、“ISSN1002-1965”是____________,而“CN61-1167”是___________。
3、中国科技报告的主要检索工具是_____________,美国政府四大报告是________、________、________、________。
4、会议文献的出版形式通常有_________、_________、_________和_________ 。
国内会议文献的主要检索工具是__________,1999年后停出印刷版,改成__________。
五、专利一般分为通_________、_________和_________三种类型。
“中国专利公报”的年度积累本_________是检索中国专利的主要工具,英国德温特公司的_________是目前检索世界各主要国家专利的检索工具。
六、学位论文是高校毕业生为取得________而提交的论文。
____________是检索国内自然科学类学位论文的权威检索工具,1999年停刊后改成“中国学位论文数据库”。
7、中国标准可分为________、________、________三级,中国标准文献利用的分类法是_____________。
二、多项选择题一、查找国内已经出版的图书可用以下检索工具()。
A.全国总书目B.科技新书目C.社科新书目D.全国新书目二、科技报告的特殊性是指()。
A.非书非刊B.信息量大C.内容新颖D.有保密性E.控制流通范围F.产生于二战时期G.数量庞大3、会议文献按出版时间可分为会前、会间和会后文献,下列文献是属会后文献的是()A.议程和发言提要B.会议录C.会议论文集D.行政事物和情况报导文献E.讨论记录F.演讲词4、若是一份标准文献的标准号为Q/WG1-78,那么它可能是()A.国际标准B.区域性标准C.国家标准D.行业标准E.企业标准五、IEC是指()标准A.美国国家标准B.全欧标准C.国际标准化组织标准D.国际电子委员会标准三、简答题一、利用“全国报刊索引”和“中国报刊大全”,在检索结果上的最大区别是什么?二、简述会议文献的特点3、简述专利文献的特点4、简述科技报告文献的特点四、实习题1.就同一主题,进行两种以上单一文献类型的检索。
国家开放大学《科技文献检索》形考作业2参考答案
国家开放大学《科技文献检索》形考作业2参考答案1、纸质信息源的载体是()A. 感光材料B. 缩微平片C. 光盘D. 纸张2、图书馆所购买的下列数据库中可以检索期刊论文的是()A. 超星数字图书馆B. 书生之家数字图书馆C. 万方数据库资源系统D. 方正Apabi数字图书馆3、下面哪项工具是不属于书目检索范畴( )A. 《中文科技资料目录》B. 《中国期刊网全文专题数据库》C. 美国《医学索引》D. 《中国药学文摘》4、国际专利分类法等级分为()。
A. 5级B. 4级C. 6级D. 8级5、计算机文献信息检索发展的最高阶段是( )A. 国际联机检索B. 网络信息检索C. 光盘检索D. 脱机检索6、在机检中,当检索结果太少,查全率较低时,检索式可做如下调整()。
A. 减少同义词或同类相关词B. 进行扩展检索(族性检索),根据词表的分类结构体系扩展关键的检索词C. 增加限制概念,用逻辑"与"(and)将它们连接起来D. 使用适当的位置算符,排除误检,提高查准率7、下列说法中错误的是()。
A. 综述是对特定的问题利用有关的情报进行的综合性叙述;B. 综述是为了评述新知识。
C. 综述对某一特定问题从一定时间内的大量文献中摘取情报;D. 综述是研究所有问题的文章;8、根据全国科学技术名词委员会发布试用的新词的定名,Internet的规范称谓应该是()。
A. 因特网B. 互联网C. 网际网D. 万维网9、( ) 是一页书或一页文章展现在我们面前的样子,是经过检索或翻阅最后让我们仔细了解其中信息和知识的界面,是人与文献直接接触和面对以及交流的主要接口A. 文摘B. 文献C. 文本D. 索引10、美国《化学文摘》的主要特点不包括()A. 出版迅速B. 索引完备C. 摘录广泛D. 非核心期刊11、下列关于“核心期刊”叙述错误的是()A. 现在是指由《中国科技期刊引证报告》(中国科学技术信息研究所)、中国科学引文数据库、《中文核心期刊要目总览》(大学图书馆和高校图书馆期刊工作研究会)所界定的期刊。
信息检索第二次作业(1)
题号:8 题型:判断题 本题分数:5
内容:
PQDD是目前世界上最大和最广泛使用的学位论文数据库。
1、 错
2、 对
学员答案:2
本题得分:5
题号:9 题型:判断题 本题分数:5
内容:
《数学评论》还有个姐妹出版物为《数学文摘》。
1、 错
C、CM
D、IM
学员答案:C
本题得分:5
题号:14 题型:单选题(请在以下几个选项中选择唯一正确答案) 本题分数:5
内容:
INSPEC数据库于1983年增编D部分,为().
A、工程技术
B、信息技术
C、化工技术
D、生物技术
学员答案:B
本题得分:5
内容:
下面文献哪些是特种文献()。
A、期刊
B、学位论文
C、标准文献
D、专利文献
学员答案:BCD
本题得分:10
题号:17 题型:多选题(请在复选框中打勾,在以下几个选项中选择正确答案,答案可以是多个) 本题分数:10
内容:
我国专利有三种类型,即()。
A、实用新型专利
考生答题情况
--------------------------------------------------------------------------------
作业名称:信息检索第二次作业(1) 出 卷 人:SA
作业总分:100 通过分数:60
起止时间: 2010-5-24 15:40:07 至 2010-5-24 15:42:02
内容:
BA收录的文献类型主要为期刊。
2013年第二次信息检索课作业及答案
2013 年第二次信息检索课作业1.《中国学术期刊全文数据库》中,(C 使用的优先算符是合理的。
A.( 材料 *( 测试B.(材料 *( 测试 +测量C.材料 *( 测试 +测量D.材料 *( 测试 +(测量2.查找大连海洋大学师生2005 年发表论文被《中国学术期刊全文数据库》收录情况 ,可选择的检索策略是 (A 。
A.作者机构字段 :大连海洋大学并且作者字段:师生并且年份字段 :2005B.作者机构字段 :大连海洋大学并且年份字段:2005C.作者机构字段 :大连 +海洋大学并且年份字段 :20053.如果希望得到的文献是国内较高水平的研究成果,通过《中国学术期刊全文数据库》的 ( A 进行检索可能是较好的选择。
A.基金项目字段B.文摘字段C.篇名字段D.关键词字段4.《中国学术期刊全文数据库》中选择作者字段,输入“方志”,选择“模糊匹配”控制 ,系统给出的检索结果不可能包含有作者姓名为(B 的记录。
A.方志成B. 成方志 C 方志 D.方成志。
5.若想在《中国学术期刊全文数据库》中提高检索结果的查准率,可使用 ( A 。
A.在结果中检索B.优先算符C.或者D.位置检索7.在《中国学术期刊全文数据库》(CNKI 中查找作者为“邹瑾”、题名为“网络信息主题检索性能优化研究”的文章发表在何种期刊上以及发表的时间是什么?《情报科学》 2006-02-158.利用 CNKI 数据库 ,以关键词和篇名分别作为检索词,检索“网络安全”、发表时间为 2005 年的期刊论文 ,从两种检索途径各检出多少篇。
检索式 :关键词共有记录36,475 条检索式 :篇名共有记录 16,450 条9.利用《中国学术期刊全文数据库》(CNKI 查找与“移动电话”相关并发表在《通信技术》刊物上的相关文献。
(要求给出扩展概念且包含字段的检索策略。
移动电话 and 通信技术10.利用《中国学术期刊全文数据库》 (CNKI 查找大连海洋大学发表的有关“环境保护”方面的相关文献。
中国科学院大学现代信息检索2012年秋季期末试题及答案
中国科学院研究生院课程编号:71258-Z-2试题专用纸课程名称:现代信息检索任课教师:王斌———————————————————————————————————————————————姓名学号成绩一、判断题(正确打√,错误打X。
每题2分,共30分)1、建立倒排索引时,只能以文件作为索引单位。
(X)2、词项集合和词条集合有时可以完全不同,甚至交集为空集。
(√ )3、轮排索引和k-gram索引都可以支持通配查询的处理。
(√ )4、倒排索引的构建与所处的硬件环境息息相关。
(√ )5、γ的编码序列唯一,但解码序列不唯一。
(X)6、向量空间模型的计算当中,采用余弦相似度和欧氏距离得到的相似度是一致的,即两个向量的余弦相似度大,则欧氏距离一定小,而当余弦相似度小时欧氏距离大。
(X)7、信息检索系统中只存在一种索引结构。
(X)8、隐式相关反馈中对用户的行为进行分析,因此一定会提高检索的效果。
(X)9、在BM25检索模型中,考虑了文档长度对检索带来的影响。
(√)10、在朴素贝叶斯分类器,基于多项式模型和基于贝努利模型的实现中采用了完全相同的假设。
(X)条件独立假设+ 位置独立假设+只考虑出现位置独立假设+ 考虑不出现11、特征选择函数MI(Expected Mutual Information)考虑了词项不存在对分类带来的影响。
(√ )12、SVM分类的速度与支持向量的个数无关。
(X)13、K-均值聚类算法的结果依赖于初始种子质心的选择。
(√)14、GAAC层次聚类算法的结果具有确定性。
(√)15、隐性语义索引LSI本质上是将原始的向量空间线性变换到另一个高维向量空间。
(X)二、选择题(单项或多项选择。
每题2分,共16分)1、关于倒排索引的压缩,以下叙述正确的是(A B )。
A)压缩能提高空间的利用率B)压缩能提高硬盘到内存的传输速度C)词典压缩作用不大D)可变字节编码压缩是一种有损压缩方法2.关于向量空间模型,以下叙述正确的是(A B D )。
《文献信息检索》第二次作业
《文献信息检索》第二次作业第一篇:《文献信息检索》第二次作业杏林会计专业作业二一、馆藏书目检索结合自己的专业背景查询南通大学图书馆书目检索系统,说明你的检索方法、检索结果,并列举密切相关的图书两本(包括书名、索书号、馆藏地)。
检索方法:通过“普通检索”,选择文献类型中文图书,选择检索字段主题词“会计”;检索结果:340项命中主题词会计;图书:《成本与管理会计》索书号:F234.3-43/1029=2 主校区社会科学书库《会计学概论》索书号:F230-43/1123主校区社会科学书库二、电子图书检索1、下载安装超星图书阅览器,可利用“图书馆网站-中文数字资源-超星电子图书”,或利用“图书馆网站-读者服务-软件下载”进行软件下载。
2、在超星数字图书馆中分别利用快速检索、高级检索以及分类浏览三种方式检索自己所学专业的电子图书,写出每种检索方式的步骤及检索结果,列举其中密切相关的图书一册,记录其名称、作者、出版信息等。
快速检索:检索步骤:在“图书检索”框内直接输入需要检索的“书名”、“作者”或“主题词”,点击“检索“按钮;检索结果:输入“会计学”,可共查到1526本图书,每页显示10条记录等。
高级检索:检索步骤:在检索项-书名”、“作者”或“主题词”等对应的框内输入需要检索的资料,点击“检索”按钮;检索结果:相应输入“会计学基础”、“郭徐咸”、“出版年代从1994年到2010年”,共查到 2 本图书;分类浏览:检索步骤:经济图书馆-经济计划与管理会计-各种会计和簿记;检索结果:共检索到1948本图书,每页显示10条记录等图书:名称:《会计学基础》,作者:郭徐咸,出版信息:出版日期::1994年08月第2版,主题词:会计高等学校教材3、打开该书的全文,利用文字识别功能将其中一段信息识别为文本格式,复制粘贴到作业文件中。
〔二)会计工作的内容经历了由对经济过程的广泛计其记录到对经济过程特定方面——价值运动计算记忌舶发展。
国科大现代信息检索第二次作业
国科大2013年秋季《现代信息检索》第二次作业(第六章到第十五章)以下1—16每题6分,第17题3分,共计100分。
1. 习题 6—10 考虑图6—9中的3篇文档Doc1、Doc2、Doc3中几个词项的tf 情况,采用图6—8中的idf 值来计算所有词项图6-9 习题 6—10中所使用的tf 值car 在三篇文档中的tf —idf 值分别:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc3:24*1.65=39。
6 auto 在三篇文档中的tf -idf 值分别为:Doc1:3*2.08=6。
24;33*2。
08=68。
64;0*2。
08=0 insurance 在三篇文档中的tf —idf 值分别为:Doc1:0*1。
62=0;33*1.62=53。
46;29*1.62=46。
98best 在三篇文档中的tf —idf 值分别为:Doc1:14*1。
5=21;0*1。
5=0;17*1.5=25。
52. 习题 6—15 回到习题6—10中的tf—idf 权重计算,试计算采用欧氏归一化方式处理后的文档向量,其中每个向量有4维,每维对应一个词项。
Doc1=(44.55,6.24,0,21), Len(Doc1)=49。
6451对其长度归一化得到Doc1=(0。
897,0。
126,0,0.423) Doc2=(6。
6,68。
64,53.46,0),Len (Doc2)=87。
2524对其长度归一化得到Doc2=(0.076,0.787,0.613,0)Doc3=(39。
6,0,46。
98,25.5),Len (Doc3)=66。
5247对其长度归一化得到Doc3=(0.595,0,0。
706,0。
383) 3.习题 6-19 计算查询digital cameras 及文档digital cameras and video cameras 的向量空间相似度并将结果填入表6-1的空列中。
XIKE网络检索作业作业2
作业2
第一页,编辑于星期六:十三点 五十一分。
答题目录
一。填空题 1.信息资源的划分标准 2.信息资源按其载体形式划分
3.文献信息资源 4.信息资源
5.出版物“ID”号
6.信息检索或信息存储与检索
7.国际上最著名的科技报告 8. 网络信息资源划分 9.专利类型和三性
10.标准文献按审批机构的划分 11.主要信息资源形式
__ISBN____;期刊出版物所采用的是__International
Standard
Serial
Number__________,缩写为
__ISSN__________。
第八页,编辑于星期六:十三点 五十一分。
填空题
6.将信息按照一定的方式__加工、整理、组织__________和_储
存_____起来,并根据信息用户的需要_准确查找____有关信
第十页,编辑于星期六:十三点 五十一分。
填空题
8. 网络信息资源可划分为__五种____类型? 分别是按_网络信息资源服务方式 划分___________、_按网络信息资源传播范围划分___________、___按网络信息
资源组织形式划分_________、__按网络信息资源发布方式划分__________、_按网络
第二十一页,编辑于星期六:十三点 五十一分。
3.请以表格形式,详细列出我校购买的中、 外文数据库及电子图书数据库的所有资源。
第二十二页,编辑于星期六:十三点 五十一分。
外文数据库
第二十三页,编辑于星期六:十三点 五十一分。
电子图书
第二十四页,编辑于星期六:十三点 五十一分。
4.列举计算机检索技术中,提高查准率和查全率的方法 。(用表格形式)
中国科学院大学现代信息检索课后习题答案
《信息检索导论》课后练习答案王斌最后更新日期2013/9/28第一章布尔检索习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。
文档1 new home sales top forecasts文档2 home sales rise in july文档3 increase in home sales in july文档4 july new home sales rise1 2 322 3121 2 3习题1-2 [*] 考虑如下几篇文档:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵;解答:文档1文档2文档3文档4drug1100for1011hopes0001new0111of0010patients0001schizophrenia1111treatment0010b. 画出该文档集的倒排索引(参考图1-3中的例子)。
解答:参考a。
习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?a.schizophrenia AND drug解答:{文档1,文档2}b.for AND NOT (drug OR approach)解答:{文档4}习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次内完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。
如果不能的话,那么我们能达到的时间复杂度是多少?a.Brutus AND NOT Caesarb.Brutus OR NOT Caesar解答:a.可以在O(x+y)次内完成。
通过集合的减操作即可。
信息检索作业二
信息检索作业2
姓名专业:_学号:____
1.在万方数据库系统检索中输入要检索的内容,点击检索,找到相符的内容
2.
3.矿粉的添加量,对混凝土强度的影响以及添加比例
在标准配合比中一般是在34-36%之间,矿渣粉加入量大,会直接影响混凝土前期强度,不过后期会慢慢的涨上来。
粉煤灰强度更低,主要作用是在增强混凝土的和易性,一般不考虑它带来的强度值,产量为80最合适。
如果为了节约成本,可以考虑矿渣粉的大量使用,不过要给外加剂厂家提意见,调试外加剂的减水率,千万不要加大水量,混凝土的强度直接和水胶比挂钩。
4.《理论力学》
清华大学:
5./Show/Patentdb/frmCaituContent.aspx?id=44交通违法告知牌
6.。
2013年4月份考试文献检索与应用第二次作业
2013年4月份考试文献检索与应用第二次作业一、单项选择题(共20题、总分80分、得分16分)1. 关于情报、知识、信息的基本概念及其之间的关系,以下描述错误的是()。
(本题分数:4 分,本题得分:0 分。
)A、知识是人类对信息本质的认识和掌握B、信息和知识的认识是同步的C、知识就是有用的信息D、情报是指由特定效用的传递着的知识题目信息难度: 5正确答案: B解题方案:客观题2. 专利包含的类型有: () (本题分数:4 分,本题得分:4 分。
)A 、发明专利B 、实用新型专利C、外观设计专利D、以上全部题目信息难度: 5正确答案: D解题方案:客观题3. 以下哪项检索属于事实检索? (本题分数:4 分,本题得分:0 分。
)A、检索关于铝合金的研究文献B、查喜泰山有多高C、检索关于网络技术的文献D、同学中身高低于平均身高的同学人数题目信息难度: 5正确答案: D解题方案:客观题4. 一个完整的IPC分类号为()级 (本题分数:4 分,本题得分:0 分。
)A、三B、四C、五D、六题目信息难度: 5正确答案: C解题方案:客观题5. 以下关于人工语言的四种描述,描述错误的是()? (本题分数:4 分,本题得分:4 分。
)A、人工语言是根据信息检索的需要而由人工创制的B、人工语言将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制C、人工语言的检索效率不如自然语言D、人工语言可分为分类检索语言、主题检索语言、代码检索语言题目信息难度: 5正确答案: C解题方案:客观题6. 关于搜索引擎的描述,错误的是() (本题分数:4 分,本题得分:0 分。
)A、搜索引擎的类型有目录式搜索引擎,检索型搜索引擎,混合型搜索引擎,多元搜索引擎B、搜索引擎(search engines)是一种在互联网采取一定的策略搜集信息,并对信息进行提取、组织和处理,为用户提供检索服务的搜索工具C、多元搜索引擎自己拥有大量的信息,并将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排查、重新排序等处理后,作为自己的结果返回给用户D、常见中文搜索引擎有:Google中文搜索引擎、百度(baidu)中文搜索引擎、北大天网中英文搜索引擎和新浪搜索引擎等.题目信息难度: 5正确答案: C解题方案:客观题7. 以下哪类文献不属于文献的出版类型分类()? (本题分数:4 分,本题得分:0 分。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
国科大2013年秋季《现代信息检索》第二次作业(第六章到第十五章)以下1—16每题6分,第17题3分,共计100分。
1. 习题 6—10 考虑图6—9中的3篇文档Doc1、Doc2、Doc3中几个词项的tf 情况,采用图6—8中的idf 值来计算所有词项图6-9 习题 6—10中所使用的tf 值car 在三篇文档中的tf —idf 值分别:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc3:24*1.65=39。
6 auto 在三篇文档中的tf -idf 值分别为:Doc1:3*2.08=6。
24;33*2。
08=68。
64;0*2。
08=0 insurance 在三篇文档中的tf —idf 值分别为:Doc1:0*1。
62=0;33*1.62=53。
46;29*1.62=46。
98best 在三篇文档中的tf —idf 值分别为:Doc1:14*1。
5=21;0*1。
5=0;17*1.5=25。
52. 习题 6—15 回到习题6—10中的tf—idf 权重计算,试计算采用欧氏归一化方式处理后的文档向量,其中每个向量有4维,每维对应一个词项。
Doc1=(44.55,6.24,0,21), Len(Doc1)=49。
6451对其长度归一化得到Doc1=(0。
897,0。
126,0,0.423) Doc2=(6。
6,68。
64,53.46,0),Len (Doc2)=87。
2524对其长度归一化得到Doc2=(0.076,0.787,0.613,0)Doc3=(39。
6,0,46。
98,25.5),Len (Doc3)=66。
5247对其长度归一化得到Doc3=(0.595,0,0。
706,0。
383) 3.习题 6-19 计算查询digital cameras 及文档digital cameras and video cameras 的向量空间相似度并将结果填入表6-1的空列中。
假定N =10 000 000,对查询及文档中的词项权重(wf 对应的列)采用对数方法计算,查询的权重计算采用idf,而文档归一化采用余弦相似度计算。
将 and 看成是停用词。
请在tf 列中给出词项的出现频率,并计算出最后的相似度结果.相似度结果=1.56+1。
558=3.118 4.习题 7-1 图7—2中倒排记录表均按照静态得分g (d )的降序排列,为什么不采用升序排列? 一篇文档d 的最后得分定义为g(d)和某个与查询相关的得分的某种组合,一些文档具有高的g(d )值更有可能具有较大的最后得分,降序排列有助于提高top -k 检索的效率。
在这种排序下,高分文档更可能在倒排记录表遍历的前期出现.在实际受限的应用当中(比如,任意搜索需要在50ms 内返回结果),上述方式可以提前结束倒排记录表的遍历。
5.习题 7—8 平面上的最近邻问题如下:在平面上给出N 个数据点并将它们预处理成某种数据结构,给定查询点Q ,在N 个点中寻找与Q 具有最短欧氏距离的点。
很显然,如果我们希望能够避免计算Q 和所有平面上的点的距离时,簇剪枝就能够作为最近邻问题的一种处理方法。
请给出一个简单的例子来说明: 如果只选择最近的两个先导者,那么簇剪枝方法可能会返回错误的结果(也就是说返回的不是离Q 最近的数据点)。
如图所示,黄色圈代表查询,离查询最近的两个先导者为l1,l2,但是离查询最近的文档是红色圈代表的,不属于l1,l2,属于离查询较远的先导者l3,因此离查询最近的文档不会被返回。
6. 习题8-5 [**]正确率和召回率之间是否一定存在等值点?说明为什么一定存在或给出反例。
如果返回的相关文档数(RR)=0,正确率=召回率=0。
如果返回的不相关的文档(RN)=未返回的相关文档(NR),正确率也等于召回率。
如果一篇文档都不返回,正确率=1,召回率=0;如果返回全部的文档,正确率=相关文档数/总文档数,召回率=1。
假设返回的文档中排名靠前的都是相关文档,那么随着返回文档数的增加,RN由0变为N—相关文档数,且中间每一个值都能取到,NR由总共相关文档数变为0,同样能取到中间的每一个值。
RN从小变大,NR从大变小看,中间有一个相等的情况,这时候召回率=正确率.习题8—8 [*]考虑一个有4篇相关文档的信息需求,考察两个系统的前10个检索结果(左边的,相关性判定的情况如下所示:1 R N R N N N N N R R2 N R N N R R R N N N计算两个系统的MAP值并比较大小。
MAP(系统1)=(1/4)*(1+2/3+3/9+4/10)=0。
6MAP(系统2)=(1/4)*(1/2+2/5+3/6+4/7)=0.493由于只有一个查询,MAP=AP。
系统1的MAP值更大b.上述结果直观上看有意义吗?能否从中得出启发如何才能获得高的MAP得分?系统1返回的相关文档位置较分离,有的在前面有的在后面,系统2返回的相关文档较集中的中间位置.系统1获得了较高的MAP值.排名前面位置的相关文档数对MAP值的影响较大,相关文档排在靠前的位置可以获得较高的MAP得分。
c.计算两个系统的R正确性值,并与a中按照MAP进行排序的结果进行对比。
R正确率(系统1)=2/4=0。
5R正确率(系统2)=1/4=0。
25虽然R正确率只度量了正确率-召回率曲线上的一个点,但是经验上却证实它和MAP是高度相关的。
按照R 正确率和MAP排序得到的结果一致。
8. 习题9-3假定用户的初始查询是cheap CDs cheap DVDs extremely cheap CDs。
用户查看了两篇文档d1 和d2,并对这两篇文档进行了判断:包含内容CDs cheap software cheap CDs的文档d1为相关文档,而内容为cheap thrills DVDs 的文档d2为不相关文档。
假设直接使用词项的频率作为权重(不进行归一化也不加上文档频率因子),也不对向量进行长度归一化。
采用公式(9—3)进行Rocchio相关反馈,请问修改后的查询向量是多少?其中α = 1,β = 0。
75,γ = 0。
25。
q m⃗⃗⃗⃗⃗ =αq0⃗⃗⃗⃗ +β1|D r|∑d j⃗⃗⃗ −γ1|D nr|∑d j⃗⃗⃗修改后的查询向量q=(2.5,4。
25,0.75,1,0。
75,—0。
25),如果向量中权重分量为负值,那么该分量权重设为0.所以最终Rocchio向量为(2。
5,4。
25,0。
75,1,0。
75,0)9. 习题11—3 [**]令X t表示词项t在文档中出现与否的随机变量。
假定文档集中有|R|篇相关文档,所有文档中有s篇文档包含词项t,即在这s篇文档中X t=1。
假定所观察到的数据就是这些X t在文档中的分布情况。
请证明采用MLE 估计方法对参数(1|1,)t t p X R q ===进行估计的结果,即使得观察数据概率最大化的参数值为 p t = s/ |R |。
设D 是相关文档集,定义一个函数P (D |R =1)=∏P (d |R =1)=p t s t∈D (1−p t )|R|−s∂P(D|R =1)∂p t=s ×p t s−1(1−p t )|R|−s −p t s×(|R |−s)(1−p t )|R|−s−1令∂P(D|R=1)∂p t=0,得到p t =s/|R|10. 习题12—6 [*] 考虑从如下训练文本中构造LM : the martian has landed on the latin pop sensation ricky martin 请问:a. 在采用MLE 估计的一元概率模型中,P (the)和P (martian)分别是多少? P(the ) = 2/11 = 0.181818182 P (martian) = 1/11 = 0。
090909091b. 在采用MLE 估计的二元概率模型中,P (sensation |pop )和 P (pop|the)的概率是多少? P (sensation |pop) = 1 P(pop|the) = 011. 习题 12-7 [**] 假定某文档集由如下4篇文档组成:为该文档集建立一个查询似然模型。
假定采用文档语言模型和文档集语言模型的混合模型,权重均为0.5.采用MLE 来估计两个一元模型. 计算在查询click 、shears 以及click shears 下每篇文档模型对应的概率,并利用这些概率来对返回的文档排序.将这些概率填在下表中。
对于查询 click shears 来说,最后得到的文档次序如何?每篇文档模型对应的概率为:查询 click shears 的文档排序为:doc4,doc1,doc2,doc312. 习题 13—1 对于表13—2,为什么在绝大部分文本集中| ||V | < | |L ave 都成立?假设大多数文档集的词条数都大于100万,根据Heaps 定律,词汇表大小V 是文档集规模T 的一个函数,V=K *T b ,典型的K=44,b=0.49,V=K*T b =44*(1000000)0。
5=44000 |D |L d =文档集中的词条数=1000000,|C||V |=2*44000=88000 所以大多数文档集有|C||V |〈|D |L d13. 习题 13—2 [*] 表13—5中的文档中,对于如下的两种模型表示,哪些文档具有相同的模型表示?哪些文档具有不同的模型表示?对于不同的表示进行描述。
(i ) 贝努利模型。
(ii ) 多项式模型。
表13-5 NB 独立性假设存在问题的几个文档例子(1) He moved from London, Ontario , to London , England 。
(2) He moved from London , England, to London , Ontario. (3) He moved from England to London , Ontario.(i ) 贝努利模型:三个文档具有相同的模型表示。
(ii) 多项式模型:文档(1)(2)相同,与文档3不同.文档(1)(2)中’London’都出现了两次,文档(3)中’London’只出现了一次。
14. 习题 13—5 考虑coffee 中的出现频率。
根据(i) 2χ (ii) 互信息及 (iii) 频率的值,从上述4个词项中选出2个词项. (i )2χ对于brazil:E11=N *p(t )*p(c)=(51+1835)*(51+102)/100000=2.8856E00=N *(1-p(t))*(1—p (c ))=(98012+102)*(98012+1835)/100000=97963.8856 E01=N *(1-p(t ))*p (c )=(98012+102)*(51+102)/100000=150.1144 E10=N*p(t)*(1—p (c ))=(1835+51)*(98012+1835)/100000=1883.1144 X 2(D,t,c )=∑∑(N etec −E etec )2E e t e ce c ∈{0,1}e t ∈{0,1} =(98012-97963。