国科大信息检索作业

合集下载

中国科学院大学计算机领域信息检索期末考试答案

中国科学院大学计算机领域信息检索期末考试答案

域信息检索与利用实用技巧任课老师:李玲试题专用纸1、简答题:您在学习和研究过程中遇到下列问题时,常用哪些方法来解决?(10题,3分/小题,共30分)(1)查找期刊时,您常用的方法?答: 中文期刊一般用:中国知网、万方数据库、维普数据库等;外文期刊一般用:ACM、IEEE、Elsevier ScienceDirect、SpringerLink、ScienceOnline 、Taylor & Francis Online Journals 、Cambridge Journal等;可通过国科大图书馆进入上述网站首页,输入所需检索的期刊信息,如期刊名称、作者、发表年份等信息进行查询。

(2)查找中国科学院学位论文时,您常用的方法?答: 进入“中国科学院大学”首页→点击右下方“图书馆”→点击进入“中科院学位论文数据库”→进入检索界面,输入所需检索的论文信息,如:论文名称、作者、指导老师等。

(3)查找各国专利以及专利的被引用情况时, 您常用的方法?答:进入国家知识产权局官网“”,输入所需检索专利的发明名称、申请号、申请人(三者至少必填其一)进行检索,查看专利被引用情况。

(4)查找SCI期刊的影响因子,您常用的方法?答:通过国科大图书馆点击“ISI-SCIE”进入web of science平台查询界面,输入期刊的关键词、作者等信息,可通过“AND”进行多个关键词组合以缩小查询范围。

(5)查找标准文献时,有哪些注意事项?答:合理选择标准数据库(如中文期刊会议类检索工具选用CNKI、维普、万方等,查询专利选用国家知识产权局等数据库);注意文献的发表时间(如利用CNKI科技类期刊数据库查询只能查询1994年之后发表的文献,维普中文科技期刊库可查询1984年之后发表的文献)使用多个精确的关键字组合,以减小检索范围。

(6)文献管理时,您常用的方法?答:使用EndNote文献管理工具,进行分类管理方便后期查询。

域信息检索与利用实用技巧任课老师:李玲试题专用纸(7)获取无法直接下载的文献全文时,您常用的方法?答:可通过文献传递,向有权限的人求助;或通过查询Researchgate,付费网站获取;也可以邮件联系文献作者求助。

中国科学技术大学--信息检索作业答案(电子版)

中国科学技术大学--信息检索作业答案(电子版)

中国科学技术大学上海工程硕士第八期《信息检索》考试试题姓名:陶亮学号:SG15010018成绩:第一章息检索及其主要功用3、你通常利用什么样的文献传播渠道来获取有关文献信息?答:文献信息的传播渠道是多种多样的,归结起来有以下三种基本形式:(1)人际传播渠道:是通过人们之间的直接交流,如相互交谈、相互借还或传阅资料、交换意见、参加会议、听课、听讲座等。

(2)组织传播渠道:是通过一定的形式无偿或部分有偿地向社会公众提供文献资料的中介交流形式,如图书馆、档案馆、各类文献情报中心、学校、美术馆乃至教堂等。

(3)大众传播渠道:借助于各种传统及现代化手段来传播的一种方式。

如通过订阅杂志、购买图书、观看影视作品或网上浏览下载等形式。

以上三种形式各有所长,相互补充,长期共存,各自发挥着独特的功能。

在我的日常生活中,上述三种文献传播渠道都有,但人际传播和大众传播是最多的传播渠道。

4、对于信息检索的五大功用,你最有体会的是什么?最不了解的是什么?你认为这五大功用以外还可以总结出来有关信息检索的其他功用吗?(请简介)答:信息检索五大功用分别为:(1)开阔视野,正确决策:能够及时、系统地了解前人的工作经验与成果,掌握事物最新动态及发展趋势。

适时做出正确决策,使所开展的工作取得最快、最有效的进展。

(2)提高功效,事半功倍:能节省人们对有用信息进行搜集利用的时间及精力,提高工作效益,做到事半功倍。

同时还能培养人们的自学能力、科学研究及鉴赏能力。

(3)学习借鉴,推动创新:有利于及时把握各种信息,促进科技发明和发现不断涌现,同时对人们开展终身学习不断提升综合素质、创作出更多、更优秀的成果及文献也具有强大的支持和推动作用。

(4)规避风险,维护权益:可以避免重复劳动、少走弯路、免去低水平复制所带来的损失,使各种科研、经营、生产等活动实现投入少、收效高,还可使人们规避风险,利用知识产权保护法等法律规范,维护自身或单位(国家)的正当权益。

信息检索 综合作业

信息检索  综合作业

信息检索综合作业姓名:_________ 专业:__________ 学号:__________一、理论知识1、信息源的分类?2、科技文献信息服务机构有哪些?3、信息检索的基本流程4、信息检索的评价5、电子资源(比如全文数据库、参考数据库、电子图书等)推荐及其推荐原因(2-3个)二、模拟检索题目:根据自己专业情况或自己的喜好进行选择题目,形成综述(字数不限),同时完成下面问题1、分析过程100字左右字的问题分析过程,要体现检索词和分析的过程2、选取的检索系统要注明所有使用的检索系统3、结果要求对同一选题分别进行期刊、会议、学位和网络搜索进行检索,检索结果要求如下:(1)期刊论文:检索项:(选取的检索项目写出)检索词及检索表达式检索结果:(总数量要少于300,不能出现“零”结果,选取一个结果进行描述给出全部外部特征包括作者、作者单位、出处等)(2)会议论文(要求同上)(3)学位论文(要求同上)(4)搜索引擎利用搜索引擎的高级检索的项目及搜索的词,用两种或两种以上的组合方式进行搜索并将搜索的数量写出,同样不能出现“零”结果。

结果的记载要求是要将组合方式写出,搜索的结果数量写出。

三、思考题1.信息检索的核心问题是什么,简要说明理由?2.信息检索课的心得与建议注意:1、不可抄袭,如果两人或多人的作业内容相同视为抄袭,抄袭的作业视为无效,成绩取消。

2、作业上交邮箱xinxijiansuo1@(周三上课)xinxijiansuo6@(周六上课)3、回答说明问题即可,可不必局限字数4、时间期限:2011年5月7号之前5、联系方式:图书馆206 8887057最后,希望同学们会有所收获,欢迎多多提意见,希望我们可以一起成长!谢谢!。

信息检索作业

信息检索作业

【作业一】:1.因特网个人信息发布方式例举(三种):E-mail服务:sb.123@sian.co mBBS服务:沁水青山BBS http://bbs.w ust.e 网络聊天室:QQ http://www.qq.co m2.招生总人数:318;招生专业招生人数和考试项目:1、测试计量技术及仪器:13人①思想政治理论②英语或日语③数学④电路及数字电子技术或自动检测技术2、电子科学与技术:34人①思想政治理论②英语或日语③数学④电路及数字电子技术或信号系统与数字电路3、控制科学与工程:80人①思想政治理论②英语③数学④电路及数字电子技术4、计算机科学与技术:96人①思想政治理论②英语③数学④计算机学科专业基础综合5、电子与通信工程(专业学位):16人①思想政治理论②英语③数学④通信原理或信号系统与数字电路6、控制工程(专业学位):13人①思想政治理论②英语③数学④电路及数字电子技术3.玉神人:这件用青五琢成的圆雕立体人面像,部造型奇特,拱手直立、威严森然,是龙山文化时期被崇拜的神人形象,雕琢古拙简练,玉质晶莹,具有极高的艺术欣赏价值。

彩塑惜春作画像:彩塑惜春作画像,清,高36.5cm。

此彩色泥塑组像是我国著名的天津第一代"泥人张"张长林的作品。

《惜春作画》彩塑取材于清代小说《红楼梦》,以贾惜春在大观园暖香坞作画为内容。

惜春正在聚精会神地运笔作画,两旁少女二人一坐一立,正在会心地欣赏惜春的传神妙笔。

清代城市经济的发达促使泥塑木雕商品化,朴素大方,明朗健康。

耐人观赏的雕塑艺术品不仅可以点缀贵族官僚文人士大夫的高堂书房,而且也极适应城乡广大群众的需要。

"泥人张"的作品正是在这样的环境中发展起来的。

4.5. 2009年我国信息产业发展概况:2009年,国际、国内产业发展环境发生了跌宕起伏、难以预料的诸多变化,其对产业的短期发展带来不小的冲击和影响,也揭露出了产业发展长期以来积累起来的一些积弊;在警示产业发展模式调整的同时,也必将对产业的长期发展带来深远而深刻的影响。

信息检索平时作业

信息检索平时作业

工程硕士《信息检索》课程平时作业学生姓名:程琢学号: 154612227 专业:控制工程自拟一个课题,对此课题进行课题分析,确定该课题国内外核心期刊,并进行文献检索,获取相关期刊论文及专利文献。

10月12日最后一次课时以班为单位上交。

本平时作业占信息检索总考核成绩30%。

课题名称(中文)工业4.0:“互联网+”时代的智能制造(英文) Industrial 4.0: "Internet Plus" era of intelligent manufacturing一、课题分析本课题可以分为哪些概念?按概念对课题重要程度写下这些概念、概念的同义词及英文表达(根据课题差别,概念数可多可少)序号概念名称中文同义词(含下位词)英文表达(含下位词及同义词)1工业4.0 工业,物联网 Industrial,Internet of Things2互联网网络,因特网 Network,Internet3智能制造自动化,人工智能 Automation,artificial intelligence二、确立课题核心期刊(一)确定课题国内核心期刊1. 查找方法:进入网址中国科学文献服务系统点击进入ScienceChina 中国科学文献服务系统输入学科类型点击检索按钮。

2. 查到国内核心期刊:45 种3. 抄下1种期刊名称并补充查找相关信息期刊刊名:自动化学报出版频率:月刊ISSN:0254-4156出版者/主办单位:中国自动化学会,中国科学院自动化研究所联系方式(通讯地址□√或电话□或E-mail□): 100190 北京市海淀区中关村东路95号《自动化学报》编辑部。

(二)确立课题国外核心期刊1. 查找方法:进入中南大学图书馆选择外文数据库中的JCR点击Select Categories 选择AUTOMA TION & CONTROL SYSTEMS点击Submit2. 找到国外英文核心期刊: 58 种3. 抄下1种期刊名称并补充查找相关信息(1)期刊刊名全称: IEEE Transactions on Industrial Electronics 影响因子: 6.498 出版频率:月刊出版国家或地区:美国ISSN:0278-0046出版者/主办单位:Institute of Electrical and Electronics Engineers联系方式(打√选择,并填写具体内容)(通讯地址□√或电话□或E-mail□)3 Park Ave, 17th Fl, New York, NY 10016 美国.三、文献检索(一)查找课题的中文期刊论文1. 检索平台:中国知网2. 检索策略(包括检索方式、检索字段、检索提问词及其逻辑组配关系)检索方式:高级检索主题=工业4.0 or 主题=智能制造 or 题名=互联网+3. 检出期刊论文篇数: 821 篇4. 抄下一条切题期刊论文论文题名:工业4.0和智能制造第一作者:张曙来源(包括期刊刊名、年、卷(期)及起始页码):机械设计与制造工程,2014,08:1-5(二)查找课题的外文期刊论文1. 检索平台:EI2. 检索策略(包括检索方式、检索字段、检索提问词及其逻辑组配关系)检索方式:快速检索 ((Industrial4.0) WN KY)OR((Intelligent Manufacturing) WN KY)3. 检出期刊论文篇数: 345 篇4. 抄下一条切题期刊论文论文题名: Guest editorial introduction to the focused section on mechatronics for intelligent manufacturing 。

国科大科技文献与网络资源检索 ISI+Web+of+science课堂实习题

国科大科技文献与网络资源检索 ISI+Web+of+science课堂实习题

ISI Web of Science课堂练习题
请根据您所在学科领域或课题研究方向,利用ISI Web of Science平台完成以下问题:1利用WOS 查找饶子和院士发表的有关SARS的文章,并列出被引次数最多的一篇
2获取本技术领域的主要研究国家、核心期刊、高产出研究人员和机构等信息。

3定制Web of Science的跟踪服务,了解技术领域每月的最新进展。

4查询自己的论文(或某一重要论文)引用情况,并定制该论文的引文跟踪服务。

5获取本领域的Top10期刊信息。

6 查找本领域重要的前5种国际会议。

7 查找化合物名称是Deoxycholic acid ,作为反应物的其中的一个化学反应。

8检索2008年以来中科院植物研究所(北京)所有被Web of Science所收录的期刊论文。

9在Biosis Proview中检索所有中国单位参与发表的子宫内膜易位症(endometriosis)病因学(etiology)的相关文献,并尝试找出其中的相关研究进展,并下载其中一篇最新发表的文章全文。

10查找文献“Did climate drive ecosystem change and induce desertification in Otindag sandy land, China over the past 40 years?”在ISI Web of Science中的被引用情况,并列表显示。

信息检索与利用作业模板

信息检索与利用作业模板

信息检索与利用作业模板课程报告课程名称:系别:班级:指导教师:学生姓名:时间:____________________ 二〇一二年月日实验1:各种类型中外文文献检索(6学时)目的:1.学会电子图书检索。

2.学会中文学位论文检索。

3.学会中文会议论文检索。

4.学会中文期刊论文检索。

5.学会国内重要专业人士、重要研究机构、重要文献、重要期刊等信息检索。

6.学会标准文献检索。

7. 学会科技成果检索。

8. 学会外文期刊论文检索。

内容:1.自选检索课题。

2.分析检索课题,确定检索标识,编写提问式。

3.利用超星电子图书(免费阅览室) 、中国知网数字出版平台、国家科技图书文献中心等相关数据库。

4. 在相关检索提问框中输入提问式实施检索,筛选命中文献,选择检索结果输出格式并输出结果。

如有必要可反复修改检索提问式优化检索结果。

5.记录检索过程,完成检索报告并提交。

要求:1.电子图书选择超星电子图书(免费阅览室)或其他电子书全文数据库中的1种数据库进行电子图书检索:数据库名称____________________________检索策略(表达式)______________________命中文献数____________选取其中1条文献题录书名:作者姓名:出版时间:总页数:章(或节)数:参考文献数:2.中文学位论文选择中国知网数字出版平台——中国优秀硕士学位论文全文数据库、中国博士学位论文全文数据库、国家科技图书文献中心——中文学位论文等数据库中的1种数据库进行学位论文检索:数据库名称______________________________________ 检索年限_______________________________________ 检索策略(表达式)________________________________ 命中文献数____________ 选取其中1条文献题录论文题目:作者姓名:导师姓名:授予学位级别:作者专业名称:学位授予单位:授予学位时间:论文总页数:3.会议论文选择中国知网数字出版平台——中国重要会议论文全文数据库、国家科技图书文献中心——中文会议论文等数据库中的1种数据库进行会议论文检索:数据库名称______________________________________ 检索年限_______________________________________ 检索策略(表达式)________________________________ 命中文献数____________ 选取其中1条文献题录论文题目:作者姓名:第一作者单位:会议名称:会议地点:主办单位:出处(会议录名称、出版时间、论文在会议录中的页码范围):4.中文期刊论文选择中国知网数字出版平台——中国学术期刊网络出版总库、国家科技图书文献中心——中文期刊等数据库中的1种数据库进行中文电子期刊检索:数据库名称______________________________________ 检索年限_______________________________________ 检索策略(表达式)________________________________ 命中文献数____________ 选取其中1条文献题录论文题目:作者姓名:第一作者单位:出处(出版物名称、年、卷、期、页码范围):5.国内重要专业人士、重要研究机构、重要文献、重要期刊等信息。

21春国家开放大学《科技文献检索》形考作业1-4参考答案

21春国家开放大学《科技文献检索》形考作业1-4参考答案

21春国家开放大学《科技文献检索》形考作业1-4参考答案形考作业11.机检时,用以下哪种算符可使文献检出结果增加()。

A.C截词符B.位置算符C.布尔逻辑符D.字段限定符2.下列获取文献信息的途径中,哪种途径属于非正规获取途径?彩蛋A.阅读学位论文B.收集专利说明书C.查询文献数据库D.参加学术会议3.人的姓名用做检索标识,应该()。

A.A、B 都可以B.姓在前、名在后C.A、B 都不对D.名在前、姓在后4.按照传递媒介来划分,下列哪项不属于情报的类型?()A.战术情报B.声像情报C.实物情报D.文字情报5.根据全国科学技术名词委员会发布试用的新词的定名,Internet的规范称谓应该是()。

A.万维网B.网际网C.因特网D.互联网6.下列说法中正确的是彩蛋A.情报调研仅以信息为对象B.情报调研仅以文献为对象C.情报调研是以文献信息为对象D.情报调研以实物为对象7.美国《化学文摘》(CA)属于()A.三次文献B.一次文献C.四次文献D.二次文献8.我国外观设计专利权有效期为自申请之日起彩蛋A.15年B.5年C.20年D.10年9.现代化学化工文献的特点不包括()A.文献数量增加速度迅猛B.文献种类繁多C.文献交叉重复,发表分散D.文献永不失效10.专利授权条件,即专利三性,不包括()A.新颖性B.时效性C.实用性D.创造性11.下面不属于三次文献的是()A.专题述评B.学位论文C.百科全书D.数据手册12.美国《科学引文索引》在1979年改为()A.双月刊B.年刊C.月刊D.季刊13.下列哪种文献属于三次文献彩蛋A.学位论文B.综述C.标准文献D.文摘14.《科学引文索引》,是自然科学领域基础理论学科方面重要的期刊文摘索引数据库。

创建于1961年,创始人是美国科学情报研究所(ISI)所长Eugene Garfield。

利用SCI可以检索数学、物理学、化学、天文学、生物学、医学、农业科学以及计算机科学、材料科学等学科方面自1945年以来重要的学术成果信息;SCI还被国内外学术界当做制定学科发展规划和进行学术排名的重要依据。

科技文献检索期末作业

科技文献检索期末作业

科技文献检索期末作业学院:专业:班级:姓名:学号:授课老师:课题名称:嵌入式应用软件的开发一、分析研究课题本课题属于计算机科学技术与应用的研究领域。

嵌入式应用软件是针对特定应用领域,基于某一固定的硬件平台,用来达到用户预期目标的计算机软件。

由于用户任务可能有时间和精度上的要求,因此有些嵌入式应用软件需要特定嵌入式操作系统的支持。

嵌入式应用软件和普通应用软件有一定的区别,它不仅要求其准确性、安全性和稳定性等方面能够满足实际应用的需要,而且还要尽可能地进行优化,以减少对系统资源的消耗,降低硬件成本。

目前我国市场上已经出现了各式各样的嵌入式应用软件,包括浏览器、Email软件、文字处理软件、通讯软件、多媒体软件、个人信息处理软件、智能人机交互软件、各种行业应用软件等。

嵌入式系统中的应用软件是最活跃的力量,每种应用软件均有特定的应用背景,尽管规模较少,但专业性较强,所以嵌入式应用软件不象操作系统和支撑软件那样受制于国外产品垄断,是我国嵌入式软件的优势领域。

二、制定检索策略1、选取检索手段本课题的检索手段以计算机检索为主,同时将手工检索与计算机检索相结合。

2、选取检索工具欲查找“嵌入式应用软件的开发”方面的文献,必须选用恰当的检索工具。

根据课题要求以及检索工具收录文献源的情况,本课题选用综合性检索工具和数据库集。

具体选用下列检索工具和数据库。

(1)CNKI期刊全文数据库(2)万方数据资源系统(3)中国学术会议论文数据库(4)中国专利数据库(5)中文科技期刊全文数据库(6)中国学位论文数据库(7)SpringerLink数据库(8)Engineering Village 2(9)EBSCO数据库(10)IEEE美国电气电子工程师学会3、选择检索方法本课题主要为了获取近年来国内外的研究情况,检索方法选择顺查法和倒查法相结合。

4、选择检索途径本课题的查找可从分类和主题途径进行检索。

(1)分类途径从课题分析可知,本课题的学科分类属于计算机科学与应用领域。

信息检索作业与答案

信息检索作业与答案

维普资讯
提供中文的学术资源检索 和下载服务,包括期刊论 文、学位论文等。
0ห้องสมุดไป่ตู้ 信息检索应用
企业信息检索
商业情报收集
企业可以通过信息检索工具收集 竞争对手的商业情报,了解市场 动态和行业趋势。
品牌声誉监测
企业可以定期检索关于品牌的舆 情信息,及时发现和处理负面舆 情,维护品牌形象。
人才招聘与筛选
企业可以通过信息检索平台搜索 潜在候选人的简历和作品集,提 高招聘效率。
自然语言处理
总结词
自然语言处理技术是信息检索的重要组成部分,用于将自然语言文本转化为计算机可理解的结构化数 据。
详细描述
自然语言处理技术包括分词、词性标注、句法分析等,能够将文本分解为独立的词语或短语,并识别 其语法和语义关系。通过自然语言处理,信息检索系统能够更好地理解用户的查询意图,提高检索的 准确性和效率。
学术信息检索
01
论文选题与文献综 述
学者在进行论文选题时,可以通 过信息检索工具查找相关文献, 了解研究现状和进展。
02
学术不端检测
学术界可以使用信息检索工具对 论文进行学术不端检测,防范抄 袭和剽窃行为。
03
科研合作与资源共 享
学者可以通过信息检索平台寻找 合作伙伴和共享资源,促进学术 交流与合作。
信息过滤
总结词
信息过滤技术是根据用户的需求和兴趣 对大量信息进行筛选和过滤的过程,以 提高信息获取的效率和质量。
VS
详细描述
信息过滤技术包括内容过滤、协同过滤、 个性化推荐等,能够根据用户的兴趣和需 求对大量信息进行分类、排序和推荐。通 过信息过滤,信息检索系统能够为用户提 供更符合其需求和兴趣的信息,提高用户 的信息获取效率和满意度。

《科技信息检索》作业示例

《科技信息检索》作业示例

《科技信息检索课》检索实验报告上课时间:姓名:学号:班级:完成时间:一、请根据自己所选课题,在国内数据资源(CNKI、万方数据、重庆维普(选一个)、中国知识产权网(必选)等)进行检索。

所选课题为“认知无线电技术及应用”(1)CNKI中国知网期刊/学位论文库关键词:。

检索式:“无线电技术”+“无线电应用”检索年限:2000~2014在CNKI中,选择高级检索,在跨库选择中勾选全选,输入内容检索条件中填写全文“无线电技术”并含“无线电应用”精确检索,命中文献篇数为185篇。

【1】《软件无线电技术综述》【作者】陶玉柱;胡建旺;崔佩璋;【Author】 TAO Yu-zhu,HU Jian-wang,CUI Pei-zhang(Department of Optics and Electronic Engineering,Ordnance Engineering College,Shijiazhuang Hebei 050003,China)【机构】军械工程学院光学与电子工程系;【摘要】软件无线电是最近几年提出的一种实现无线电通信的体系结构,被认为是继模拟通信、数字通信之后的第三代无线电通信技术。

在无线电应用领域,软件无线电已经成为一个重要的研究课题。

特别是在信息成为主导市场竞争优胜劣汰、军事斗争成败等重大问题的关键因素后,软件无线电技术作为一种有利于技术体制改革创新、有利于提高信息处理能力的关键技术,已经得到了飞速的发展。

介绍了软件无线电的基本概念、功能结构、关键技术等问题,同时阐述了软件无线电的应用和发展前景。

【2】《基于软件无线电技术的数字集群系统研究》【作者】孙蓓雄;【作者基本信息】南京理工大学,通信与信息系统, 2006,硕士【摘要】软件无线电技术及数字集群通信是当今通信领域中发展最快、最有前途的技术,数字集群通信是现今专用无线通信系统的主体,它将动态信道分配多用户共享与充分利用有限的无线信道资源作为首要设计思想。

国家开放大学《科技文献检索》形考作业2参考答案

国家开放大学《科技文献检索》形考作业2参考答案

国家开放大学《科技文献检索》形考作业2参考答案1、纸质信息源的载体是()A. 感光材料B. 缩微平片C. 光盘D. 纸张2、图书馆所购买的下列数据库中可以检索期刊论文的是()A. 超星数字图书馆B. 书生之家数字图书馆C. 万方数据库资源系统D. 方正Apabi数字图书馆3、下面哪项工具是不属于书目检索范畴( )A. 《中文科技资料目录》B. 《中国期刊网全文专题数据库》C. 美国《医学索引》D. 《中国药学文摘》4、国际专利分类法等级分为()。

A. 5级B. 4级C. 6级D. 8级5、计算机文献信息检索发展的最高阶段是( )A. 国际联机检索B. 网络信息检索C. 光盘检索D. 脱机检索6、在机检中,当检索结果太少,查全率较低时,检索式可做如下调整()。

A. 减少同义词或同类相关词B. 进行扩展检索(族性检索),根据词表的分类结构体系扩展关键的检索词C. 增加限制概念,用逻辑"与"(and)将它们连接起来D. 使用适当的位置算符,排除误检,提高查准率7、下列说法中错误的是()。

A. 综述是对特定的问题利用有关的情报进行的综合性叙述;B. 综述是为了评述新知识。

C. 综述对某一特定问题从一定时间内的大量文献中摘取情报;D. 综述是研究所有问题的文章;8、根据全国科学技术名词委员会发布试用的新词的定名,Internet的规范称谓应该是()。

A. 因特网B. 互联网C. 网际网D. 万维网9、( ) 是一页书或一页文章展现在我们面前的样子,是经过检索或翻阅最后让我们仔细了解其中信息和知识的界面,是人与文献直接接触和面对以及交流的主要接口A. 文摘B. 文献C. 文本D. 索引10、美国《化学文摘》的主要特点不包括()A. 出版迅速B. 索引完备C. 摘录广泛D. 非核心期刊11、下列关于“核心期刊”叙述错误的是()A. 现在是指由《中国科技期刊引证报告》(中国科学技术信息研究所)、中国科学引文数据库、《中文核心期刊要目总览》(大学图书馆和高校图书馆期刊工作研究会)所界定的期刊。

《科技信息检索》作业

《科技信息检索》作业

《科技信息检索》考核题(2015年上学期)一、填空题(20分)1. 载体记录和(媒体传播)是信息的存在形式。

它们构成信息的基本属性2. 知识、载体和(记录)构成了文献的三要素3. 按信息的(加工层次),信息可分为一次信息,二次信息,三次信息和零次信息。

4. 以感光材料为载体,利用光学技术将文字、图形、影像等信息符号按比例缩小的文献形式是(缩微型)5. 图书按功用性质可以分为:阅读性图书和(工具书)两大类6.ISBN由(10)位数字分成4段组成,它是识别图书的唯一标识。

7. 期刊是指有固定名称、(版式)和连续的编号,定期或不定期长期出版的连续性出版物8. ISSN是(国际标准刊号),由8位数字分两段组成,如1000-01359. 目前全世界每年发表科技报告数量庞大,其中绝大多数产自发达国家,较著名的有美国政府的四大报告是( PB、AD、NASA、DOE)10. 美国国家技术信息服务处,简称(NTIS),是美国政府科技报告的出版机构。

11. 专利说明书是指专利申请者为了获得某项发明的(专利权),在申请专利时必须向专利局呈交的有关该发明的详细技术说明,专利说明书有固定的独特格式。

12. 按专利权的种类,专利可分为:发明专利、(实用新型专利)和外观设计。

13. 专利号由国别代码(2位字母)+顺序号(7位数字)+法律状态码(1位字母)组成。

SE是(瑞典)国家的国别代码。

14. 标准按使用范围划分:国际标准、区域标准、国家标准、行业标准及(企业标准)等15. 美国国家标准的国标代码是(ANSI )。

16. 检索文档:也就是我们通常说的(数据库),主要由"文档、记录和字段" 组成。

17. 目录(catalog)是对一批相关文献(外部特征)的揭示和报道,是有序的文献清单(list)。

目录通常以一个完整的出版物为著录的最小单位。

18. 索引是对一组信息集合的有系统的指引,一般只起指引特定信内容及其(存储地址)的作用。

信息检索选修课的作业

信息检索选修课的作业

信息检索上机作业学号:1班级:无材1201班:田1.先熟悉百度高级搜索功能,然后完成以下习题。

(1)请检索关于用马尔科夫链在市场预测应用方面的专业文档,并将你觉得有价值的论文的页面或者保存在作业中。

a..doc88./p-2.htmlb..doc88./p-63.htmlc.wenku.baidu./link?url=nO55i2OqsAVFubfcIg_9cRQ2lyMDlA0bULMD98PmYf-RSPP8b9PVSERAAC9G4KFtToglY8absu_iuq4yRWSnb2QBau500bO9YWZ-1Goz0cS(2)通过百度地图找到科技大学青山校区门口的“建一邮政储蓄ATM”的位置,并将图片记录在作业中。

2.请访问故宫博物院并下载以下图片(不能照搬下图),并对该文物进行说明。

a.白双系壶,新石器时代大汶口文化,高19cm,口径8.8cm,底径6cm。

壶口微撇,圆肩,腹以下收,平底。

胎较薄。

此件器物造型特别,主要是肩、腹部一侧压成扁平状,在腹部中间一侧置两个圆系,两个圆系中间又有一个小乳钉装饰。

据科学测试,大汶口文化的年代约为公元前4000~前2200年。

白出现于新石器时代晚期,距今约5000年。

所用原料系纯度较高的土,成型后,入窑经约1000℃窑温焙烧而成。

b .此图为“班婕妤辞辇”的一部分。

《女史箴图》卷(宋摹本),东晋,顾恺之绘,纸本,墨笔,纵600.5cm,横27.9cm。

《女史箴》是西晋广武侯华所写,文字容是关于女子的德行操守,以教化训诫为目的。

顾恺之将文中故事以图画的形式加以描绘,使之通俗易懂。

现存《女史箴图》最早的画本是唐代摹本,原为清宫旧藏,现藏于大英博物馆。

此卷为宋人摹本,全图有画11段,分别为“樊姬感庄”、“卫女矫桓”、“婕妤挡熊”、“班婕妤辞辇”、“防微虑远”、“知饰其性”、“出其言善”、“灵监无象”、“欢不可以渎”、“静恭自思”、“女史司箴”。

本卷为白描人物,笔法流利,线条细劲连绵,比高古游丝描又多了几份挺健,更接近公麟一派。

国科大现代信息检索第二次作业

国科大现代信息检索第二次作业

国科大2013年秋季《现代信息检索》第二次作业(第六章到第十五章)以下1—16每题6分,第17题3分,共计100分。

1. 习题 6—10 考虑图6—9中的3篇文档Doc1、Doc2、Doc3中几个词项的tf 情况,采用图6—8中的idf 值来计算所有词项图6-9 习题 6—10中所使用的tf 值car 在三篇文档中的tf —idf 值分别:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc3:24*1.65=39。

6 auto 在三篇文档中的tf -idf 值分别为:Doc1:3*2.08=6。

24;33*2。

08=68。

64;0*2。

08=0 insurance 在三篇文档中的tf —idf 值分别为:Doc1:0*1。

62=0;33*1.62=53。

46;29*1.62=46。

98best 在三篇文档中的tf —idf 值分别为:Doc1:14*1。

5=21;0*1。

5=0;17*1.5=25。

52. 习题 6—15 回到习题6—10中的tf—idf 权重计算,试计算采用欧氏归一化方式处理后的文档向量,其中每个向量有4维,每维对应一个词项。

Doc1=(44.55,6.24,0,21), Len(Doc1)=49。

6451对其长度归一化得到Doc1=(0。

897,0。

126,0,0.423) Doc2=(6。

6,68。

64,53.46,0),Len (Doc2)=87。

2524对其长度归一化得到Doc2=(0.076,0.787,0.613,0)Doc3=(39。

6,0,46。

98,25.5),Len (Doc3)=66。

5247对其长度归一化得到Doc3=(0.595,0,0。

706,0。

383) 3.习题 6-19 计算查询digital cameras 及文档digital cameras and video cameras 的向量空间相似度并将结果填入表6-1的空列中。

中国科学院大学现代信息检索课后习题答案

中国科学院大学现代信息检索课后习题答案

《信息检索导论》课后练习答案王斌最后更新日期2013/9/28第一章布尔检索习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。

文档1 new home sales top forecasts文档2 home sales rise in july文档3 increase in home sales in july文档4 july new home sales rise1 2 322 3121 2 3习题1-2 [*] 考虑如下几篇文档:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵;解答:文档1文档2文档3文档4drug1100for1011hopes0001new0111of0010patients0001schizophrenia1111treatment0010b. 画出该文档集的倒排索引(参考图1-3中的例子)。

解答:参考a。

习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?a.schizophrenia AND drug解答:{文档1,文档2}b.for AND NOT (drug OR approach)解答:{文档4}习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次内完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。

如果不能的话,那么我们能达到的时间复杂度是多少?a.Brutus AND NOT Caesarb.Brutus OR NOT Caesar解答:a.可以在O(x+y)次内完成。

通过集合的减操作即可。

国科大 中科院 现代信息检索开卷考试用复习

国科大 中科院 现代信息检索开卷考试用复习

这里面有详尽描述。
11.BM25 模型 BM25 模型是基于二重泊松推导的,用来考察词语在查询中的权值。BM25 模型融合了 三个计算因子, BIM 模型计算得分+查询词在文档 D 中的权值+查询词自身的权值。 通过计算 即可总结出与查询词最相关的文档。 BM25 不用高频词项。
优点:一定程度上的理论化模型,是基于二重泊松假设,适用于绝大多数文本语料上的 信息检索应用。实验证明是有效的。 缺点:待调参数多且参数敏感性高,必须去停用词。 计算时,qtf=1 无影响,所以前一个因子=1,w1 就是文档频率>n/2 时,文档不可用,所 以要去掉停用词。
TF k1 tf ld tf k1 1 b b avg _ l
文档归一:
意义是,当查询内容出现在长文档中,重要性减
小,出现在短文当中,重要性大。 11.1 统计语言模型, 基本假设, 和 BM25 假设区别?为什么要用平滑处理?统计量是如何在 公式中体现的? 区别:这种做法提供了一种新的文档排序的实现方法,和对文档 D 与查询 Q 相关的概 率 P 进行显示建模,而基本的统计建模方法则首先对每篇文档 D 建模得到文档的概率模型 MD,然后按照模型生成查询的概率 P(q|Md)的高低来对文档进行排序。 假设:基于多项随机试验,文档的模型符合某类概率模型的总体分布,文档和查询都是 该总体分布下的一个抽样样本实例,根据文档,估计文档的模型,即求出该总体分布及其参 数,之后计算该总体分布下抽样出查询的概率。BM25 是基于二重泊松假设的。 平滑能够进行重新分配概率,使得即使没有出现的事件也会赋予一个概率。 统计量体现:
7.1 三种模型对于文档长度的处理方式?解释三种模型对文档长度进行归一是如何体现的? 8.未插值的 AP AP:平均正确率,对不同召回率点上的正确率进行平均。 未插值的 AP: 某个查询有 6 个相关结果, 但是系统只返回了 5 篇, 位置分别是 1,2,5,10,20, 则 AP=(1/1+2/2+3/5+4/10+5/20+0)/6 插 值 的 AP : 在 召 回 率 分 别 为 0, 0.1, 0.2,…,1.0 的 十 个 点 上 的 正 确 率 求 平 均 。 Ap=(1/1+2/2+3+5+4+10+5+20)/5。它只对返回的相关文档算入分母。 9.缓冲池方法 Pooling 缓冲池方法是为了解决召回率难以计算的问题。 对于大规模的语料集合, 列举每个查询 的所有相关文档不实际,所以召回率就没有分母了,无法计算。就要用到缓冲池作为分母。 对多个检索系统的 Topk 个结果组成的集合进行人工标注,标注出的相关文档集合作为 整个相关文档集合。 Topk:从文档集的所有文档出找出 k 个离查询最近的文档,对每个文档进行余弦相似度 的评分,按照高低排序,选择前 k 个。 缓冲池效果和局限性:最常见的,如果只有部分的结果进行了 Pooling 操作,则计算结 果时的分子变小,从而正确率会变小;计算召回率时的分母和分子都变小,所以不确定。如 果所有的结果都进行了 Pooling,则此时计算的正确率分子分母都不变,正确率等于真实的 正确率,计算召回率时,分子不变,分母小于真实的相关文档总数,所以计算出的召回率大 于真实的召回率。 缓冲池的局限性:召回率不可考,所以在强调召回率准确度的系统中无法使用,缓冲池 只对一小部分文档进行评价, 当语料集变大时, 缓冲池所占比例越来越小, 则此时未插值 AP 不可靠,需要考虑其他指标。 10.评分指标 /s/blog_72995dcc01013oo9.html
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

国科大2013年秋季《现代信息检索》第一次作业(第一章到第五章)
以下每题10分,共计100分。

1、习题1-4
a.时间复杂度O(x+y)。

因为倒排记录表记录的文档号是按照从小到大排列的,在扫描Brutus对应的倒排表的时指针指向文档
号为x,扫描Caesar对应的倒排记录表的指针对应的文档号为y,如果x<y那么x在结果集中,brutus指针后移,如果x=y,x不在结果集中,两个指针都后移,如果x>y,caesar指针后移。

b.时间复杂度是O(N),N是全部的文档数。

因为结果集的大小取决于文档数N,而不是倒排记录表的长度。

2、习题1-7
对于原始的查询,按照倒排记录表的长度从小到大查询会节省查询复杂度
(tangerine OR trees) = O(46653+316812)=O(363465)
(marmalade OR skies) = O(107913+271658) = O(379571)
(kaleidoscope OR eyes) = O(46653+87009) = O(300321)
即顺序为:(kaleidoscope OR eyes) AND (tangerine OR trees)AND(marmalade OR skies)
3、习题1-10
UNION(p1,p2)
answer ←{ }
while p1!=NIL and p2!=NIL
do if docID(p1)=docID(p2)
then ADD(answer,docID(p1))
p1<- next(p1)
p2<-next(p2)
else if docID(p1)<docID(p2)
then ADD(answer,docID(p1))
p1<- next(p1)
else ADD(answer,docID(p2))
p2<-next(p2)
while p1!=NIL
do ADD(answer,docID(p1))
p1<- next(p1)
while p2!=NIL
do ADD(answer,docID(p2))
p2<- next(p2)
return(answer)
4、习题2-7
a.由24跳到75这一次跳转
b.比较为(3,3) (5,5) (9,89) (15,89) (24,89) (75,89)(75,89) (92,89) (75,89)(92,89) (81,89) (84,89) (89,89) (92,95) (115,95)
(96,95) (96,97) (97,97) (100,99) (100,100) (115,101)总共21次比较
c.比较为(3,3) (5,5) (9,89) (15,89) (24,89) (39,89) (60,89) (68,89) (75,89) (81,89) (84,89) (89,89) (92,95) (96,95) (96,97)
(97,97) (100,99) (100,101) (115,101) 总共19次比较
5
6、习题3-11
6*6*6*6=1296
7、习题4-1
倒排索引的构建需要两步:
1.扫描文档,建立词项文档对。

2.对词项文档对进行排序。

第一步时间复杂度为O(T),文档大小为800000*200*6=9.6*108B,所需时间为:读入时间+建立词项-文档对的时间
为9.6*108(2*10-8)=19.2s
第二步时间复杂度为O(T log2T),所有倒排记录数为108。

花费的时间为2*( T log2T)*(磁盘寻道时间+一个词项文档对的传输时间+比较时间)=2*(108*log2(108))*(5*10-3+2*10-8*8+10-8)=26575424.76s≈307.59天≈308天
总时间为308天
8、习题4-3 对于n = 15个数据片,r = 10个分区文件,j = 3个词项分区,假定使用的集群的机器的参数如表4-1所示,那么在
MapReduce构架下对Reuters-RCV1语料进行分布式索引需要多长时间?
解答【整个计算过程是近似的,数字不一定对,但是要了解过程】:
(一)、MAP阶段【读入语料(已经不带XML标记信息了,参考表5-6),词条化,写入分区文件】:
(1) 读入语料:
基于表4-2,Reuters RCV1共有8*105篇文档,每篇文档有200词条,每个词条(考虑标点和空格)占6B,因此整个语料库的大小为8*105*200*6=9.6*108B (近似1GB,注表4-2对应于表5-1第3行的数据,而那里的数据已经经过去数字处理,因此实际的原始文档集大小应该略高于0.96G,这里近似计算,但是不要认为没有处理就得到表5-1第3行的结果)
将整个语料库分成15份,则每份大小为9.6*108/15 B
每一份读入机器的时间为:9.6*108/15*2*10-8=1.28s
(2) 词条化:每一份语料在机器上进行词条化处理,得到8*105*200=1.6*108个词项ID-文档ID对(参考表4-2和图4-6,注意此
时重复的词项ID-文档ID对还没有处理),共占1.6*108*8=1.28*109个字节,词条化的时间暂时忽略不计【从题目无法得到词条化这一部分时间,从表5-1看词条化主要是做了去数字和大小写转换,当然也感觉这一部分的处理比较简单,可以忽略】。

(3) 写入分区文件:每一份语料得到的词项ID-文档ID (Key-Value)存储到分区所花的时间为:
(1.28*109/15)*2*10-8=1.71s
(4) MAP阶段时间:
由于分成15份,但只有10台机器进行MAP操作,所以上述MAP操作需要两步,因此,整个MAP过程所需时间为
(1.28+1.71)*2=6.0s
(二)、REDUCE阶段【读入分区文件,排序,写入倒排索引】:
(1) 读入分区文件【读入过程中已经实现所有Key-Value对中的Value按Key聚合,即变成Key, list(V1,V2..)。

聚合过程在内存中
实现,速度很快,该时间不计。

另外,网络传输时间这里也不计算】:
根据表4-2,所有倒排记录的数目为1.6*108,因此3台索引器上每台所分配的倒排记录数目为1.6*108/3,而每条记录由4字节词项ID和4字节文档ID组成,因此每台索引器上需要读入的倒排记录表数据为1.28*109/3字节。

于是,每台索引器读数据的时间为1.28*109/3*2*10-8=8.5s
(2) 排序:
每台索引器排序所花的时间为1.6*108/3*log2(1.6*108/3)*10-8=13.7s
(3) 写入倒排索引文件【此时倒排文件已经实现文档ID的去重,假定只存储词项ID和文档ID列表,并不存储其他信息(如词项的
DF及在每篇文档中的TF还有指针等等)】:
需要写入磁盘的索引大小为(据表4-2,词项总数为4*105个) 4*105/3*4+108/3*4=4/3*108字节
索引写入磁盘的时间为:4/3*108*2*10-8=2.7s
(4) REDUCE阶段时间为:8.5+13.7+2.7=24.9
(三) 因此,整个分布式索引的时间约为6.0+8.5+13.7+2.7=30.9s
9、习题5-2
k=8:每8个词项节省的空间3*8-(3+8)=13,节省空间(400000/8)*13=0.65MB,空间使用7.6-0.65=6.95MB
k=16: 每16个词项节省的空间3*16-(3+16)=29,节省空间(400000/16)*29=0.725MB,空间使用7.6-0.725=6.875MB 10、习题5-8
原始间距序列的二进制为1001,110,11,111011,111 。

值为9,6,3,59,7
倒排记录表为9 15 18 77 84。

相关文档
最新文档