信息检索复习要点
信息检索原理期末重点背诵知识点
信息检索1、信息检索概念:P12、信息检索的原理一整节内容要自己理解:P3-P4图1-1要掌握文献替代和文献整序的概念要掌握3、信息检索在历史上的不同表现:联机检索、光盘检索、网络检索的区别和特征:P6-P94、信息检索的模型概念:P95、布尔模型、向量空间模型、经典概率模型要理解并掌握各自的优缺点:P11-P126、信息检索系统的概念:P127、检索效果的评价指标:P15-P164个指标:查全率、查准率、漏检率、误检率掌握它们的含义并懂得计算8、网络检索的表达式:布尔逻辑检索、邻近检索、短语检索、截词检索的特点、区别和联系:P17-P219、信息检索的技巧要理解尤其是要掌握及时调整检索策略:P33-P3610、搜索引擎的概念:P3711、数据库知识,实验内容,特点12、引文的概念13、搜索引擎的分类:P40-41搜索引擎划分的类别以及元搜索引擎的概念要掌握12、CBR概念P11312、多媒体信息检索的原理和方法:P110-P114其中要重点理解基于内容的多媒体信息检索的检索形式(可以结合课件)13、专利的概念:P12514、专利的类型:P126(理解一下各类型的区别)15、专利文献的概念:P12716、专利文献的类型:P127(理解一下各类型的区别)17、灰色文献的概念:P14718、会议文献的概念:P15819、科技报告的概念:P16320、查新的概念:P20021、科技查新的作用:P201(每一个小标题后面要自己展开一段)关于上课讲的那几个数据库大家自己看一下PPT,掌握一下。
以上纯属个人观点题型:名词解释:5*4=20简答题:4*10=40论述题:2*20=40考试时间:1月8日上午:9:00—11:001.信息检索的概念(P1)信息检索有广义和狭义两重含义。
广义上说,信息检索是指将信息按照一定的方式组织和存储起来,并根据信息用户的需求查找相关信息的过程。
它包含信息存储和信息查找两个过程。
信息检索重点复习资料
信息检索重点复习资料第一章信息检索概述信息检索(IR):将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
信息素养:人们在解答问题时利用信息的技术和技能。
信息检索与文献检索的主要区别:文献检索是以获取文献信息为目的的检索,信息检索是收集,组织,存储一定范畴的信息,并根据用户需求查询文献中的信息或知识单元,比文献检索更深入。
信息检索的分类:1、根据检索手段不同可分为1)手工检索2)光盘检索3)联机检索4)网络检索2根据检索对象形式不同可分为文本检索、数值检索、音频与视频检索。
信息检索的原理:通过对大量的分散无序的文献信息进行收集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储和检索这两个过程所采用的特征标识达到一致,以便有效的获得和利用信息源。
存储是检索的基础,检索是存储的目的。
信息检索语言是人们在加工、存储和检索信息时用来描述信息内容喝信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。
信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。
其物理结构:是信息检索所用的硬件资源、系统软件以及信息资源集合(数据库)的总和。
信息检索语言的主要目的:把存储和检索联系起来,把标引人员和用户联系起来,以便取得共同理解,实现交流。
信息检索的历史:最早的信息检索主要依靠信息分类。
1手工检索2机械信息检索。
3脱机批处理检索是计算机初期使用的一种检索系统 4联机检索 5光盘检索 6 网络信息检索后四者统称为计算机信息检索信息检索的三个经典模型:1布尔模型 2向量空间模型 3概率模型 1浏览型模型:扁平式模型、结构导向模型、超文本模型2检索型模型:结构化模型、基于内容的检索型模型。
信息检索模型是信息检索的核心。
信息检索系统:是具有信息存储和信息查询功能的一类服务设施。
信息检索系统按功能划分5种类型:文献检索系统DRS、数据库管理系统DBMS、自动问答系统QAS、管理信息系统MIS、决策支持系统DSS. 信息检索物理结构1计算机硬件2软件3数据库信息检索的逻辑结构是指系统所包括的功能模块或子系统及其相互关系。
信息检索复习知识点
信息检索复习知识点1.信息(Information)信息是物质存在的一种方式、形态或运动状态,也是事物的一种普遍属性,一般指数据、消息中所包含的意义,可以使消息中所描述事件的不确定性减少。
* 信息的属性——客观存在性* 信息的作用——消除不确定性* 信息的形式——数据、消息等事实2.各种客观存在的、可供人们直接或间接开发与利用的信息的集合总称为信息资源3. 信息用户Information User信息的使用者即是信息用户。
使用的情况可以包括需要信息、接受信息和利用信息。
4. 信息需求Information Demand人们在社会实践活动中,为了解决各种实际问题,会产生对信息的需要,这种需要可表现为对信息的必要感和不满足感。
我们把意识到的信息需要定义为信息需求5. 信息检索Information Retrieval对信息用户而言,信息检索就是根据各自的目的和要求,选择恰当的信息资源,采用适当的检索手段、检索技术、检索方法,对所需要的信息进行查找、筛选和索取的过程或活动。
6. 信息素质:人们能够敏锐地察觉信息需求,并能进行相应的信息检索、评估以及有效利用所需信息的水平。
* 信息意识* 信息能力* 信息道德7. 信息社会是以知识和信息为基础从而促进社会高速发展的一种社会形态。
8. 经济领域的特征a.劳动力结构出现根本性的变化,从事信息职业的人数与其它部门职业的人数相比已占绝对优势;b.在国民经济总产值中,信息经济所创产值与其它经济部门所创产值相比已占绝对优势;c.能源消耗少,污染得以控制;d.知识成为社会发展的巨大资源。
9. 社会、文化、生活方面的特征10.社会观念上的特征11当代信息环境特征描述* 信息超载严重信息超载又称信息泛滥或信息爆炸。
它是指在信息时代,伴随着科学技术的迅速发展,出现的数据爆炸、信息平庸化以及噪音化趋势,人们无法根据自己的需要和当前的信息能力选择并消化自己所需要的信息。
* 信息失衡明显所谓信息失衡是对由于各国经济水平、科技水平和其它多种相关因素的影响,不同国家、不同地区以及不同阶层的人群在信息占有水平以及利用程度上存在极大差距的描述。
文献信息检索复习总结
第一章文献信息检索基础1.信息、文献、情报三者的内涵信息:信息源于世界一切事物及其运动,是物质和事物存在方式和运动规律的反映。
文献:记录有知识或信息的物质载体. (记录在载体上的知识或信息)情报:人们为一定目的而传递收集的有使用价值的知识或信息.科技文献:记录有科技知识的载体.2.文献外表特征包括:著者、书名、刊名、篇名、序号、国别、文种等内容特征包括:分类、主题、分子式、结构式3.文献的类型:按文献自身用途和编辑出版特点分类:(十大情报源)①图书:ISBN②期刊:ISSN③科技报告:四大报告:PB报告、AD报告、NASA报告、DOE报告④会议文献: CPCI(ISTP) 、万方数据库、CNKI会议库、SFS⑤政府出版物:⑥专利文献:发明专利实用新型外观设计⑦标准文献:国家标准行业标准地方标准⑧产品资料:⑨学位论文:学士论文硕士博士⑩技术档案:文献按出版发行特点:正式出版文献:图书期刊报纸非正式出版文献:又叫灰色文献,指不经过公开出版物流通渠道不大量发行按文献载体分:①印刷型:以纸张为载体,空间大.②缩微型:以感光材料为载体,空间小.借助缩微阅读机阅读,携带不便。
③机读型:存储在磁盘光盘上依赖计算机输出信息网络信息④实物型:出土文物甲骨文羊皮纸纸帛竹简象牙文字等按文献的加工程度分类:① 零次文献:指未经公开发表或未交流于社会的文献.如:私人笔记、实验记录、书信、内部档案、设计草图.② 一次文献:(原始文献) 凡是以著者本人的研究成果为依据而创作的原始文献,公开发表或交流后,称为一次文献. 如:学报期刊(Journal)、报告(Report)、会刊(Proceedings)、汇刊(Transactions)、译文、大部分档案等。
一次文献是文献的主体,是检索的最终目的.③ 二次文献(工具书):是在一次文献数量激增的情况下形成的。
是对一次文献进行加工整理的产物,是为便于管理利用一次文献而编辑出版的工具性文献。
信息检索 复习资料
第一部分:基本常识1.文献按照出版形式可分为哪几种类型?举例。
图书、期刊、报纸、特种文献。
图书:专著、文集、教科书、普及读物、百科全书、年鉴、手册、词典等期刊:化学学报、煤炭学报、电工技术学报、高等教育研究、建筑工程与科学在CNKI 期刊全文数据库中检到共209条记录:国际城市规划、建筑结构学报、交通运输工程学报、建筑经济、土木工程学报、岩土工程学报、岩土力学、空间结构、地震工程与工程振动、中国给水排水、工程力学世界建筑工业建筑工程勘察中外建筑工程建设等。
报纸:人民日报特种文献:科技报告、会议文献、专利文献、学位论文、政府出版物、标准文献、产品资料、科技档案美国政府的四大报告1、国防部的AD报告2、商业部的PB报告3、国家航空及宇航局的NASA报告4、能源部的DOE报告。
2现代科技文献具有的特点哪些?答:(1)数量多、增长快, (2)出版形式多、文种多,(3)文献异常分散, (4)文献失效加快, (5)报道内容重复交叉, (6)文献总体质量下降3什么是核心文献、相关文献和边缘文献?答:核心文献通常是指与本学科发展水平、发展动向密切相关的一些文献。
如核心期刊等。
相关文献和边缘文献是指内容与学科的关系相对疏远一些的文献。
相关文献和边缘文献是本学科和其它学科相互渗透、互相结合的结果。
4 什么是文献?构成文献的有哪四个要素?答:文献的定义是记录有知识的一切载体称为文献。
构成文献的四要素是:知识内容,信息符号,载体材料,记录方式。
5 电子文献的主要类型和文件格式是什么?答:(1)按照载体的形态,电子文献可以有软磁盘(FD)、只读光盘(CD-ROM)、可擦写光盘(CD-RW )等之分;(2)按照文献的电子格式,电子文献有文本格式的txt文件、doc文件、pdf文件,图像格式的 gif文件、jpg文件以及标记文件格式的 html文件和xml文件之分;(3)按照出版周期和内容特点,电子文献可以有电子期刊,电子图书,电子报纸以及数据库等之分;(4)按照内容的性质和时效性,电子文献可以有论文文献和动态消息之分;(5)按照版权状况,电子文献又可分为有版权电子文献和无版权电子文献两类;(6)从文献信息利用的角度来看,可分为有版权的电子期刊、电子图书、报告的学术价值相对较高,而单篇论文和动态性的电子文献有时虽然没有注明版权,也有相当的参考价值。
信息检索复习资料
信息检索复习资料一、名词解释1.信息资源——是指经过人类的选取、组织、序化等整理与开发后的信息的集合。
2.白色文献——是指公开出版发行的、通过正常渠道可以得到的常规文献。
3.数据挖掘——就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
4.检索策略——就是在分析课题内容实质的基础上,确定检索系统、检索途径和检索词,并科学安排各词之间的位置关系、逻辑联系和查找步骤等。
5.截词检索——是指在检索式中用专门的符号(截词符号)表示检索词某一部分允许有一定词形变化。
6.参考数据库——有时又称为书目数据库,是指包含各种数据、信息或知识原始来源和属性的数据库。
7.特种文献——是指出版发行和获取途径都比较特殊的科技文献,一般包括专利文献、会议文献、科技报告、学位论文、标准文献、政府出版物等文献类型。
8.学位论文——是高等院校或研究机构的学生为获得学位资格而提交并通过答辩委员会认可的学术性研究论文,它是随着学位制度的实施而产生的。
9.科技报告——是关于某科研项目或活动的正式报告或记录,多是研究、设计单位或个人以书面形式向提供经费和资助的部门或组织汇报其研究设计和开发项目的成果进展情况的报告。
10.电子图书——是指以电子文件形式存储在各种磁性或电子介质中,以磁盘、光盘、网络等电子媒体形式出版发行,通过计算机或便携式阅读终端进行阅读的一种新型数字化书籍。
11.电子报纸—多媒体技术、网络技术和通信技术的产物,是指在排、印、投递等方面基本上实现了电子化的报纸。
12.参考工具书——是指根据人们的需要,把某一范围的知识或资料加以分析、综合或浓缩,并按一定的排检方法编排,以备查阅、参考,用以解决有关事实和数据方面的疑难问题的图书。
13.年鉴——是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料,提供详尽的事实、数据和统计数字,反映近期政治、经济发展的动向及科学文化进步的年度出版物。
信息检索复习要点
信息检索复习要点复习要点:1.如何查找纸本原⽂,必备信息是什么,刊名等同于什么刊名等同于ISSN号,必备的信息是,⽂章题⽬、期刊名称或是ISSN号,年/卷/期。
先查找有⽆电⼦全⽂。
⾕歌搜索、SFX全⽂搜索系统、先查本馆纸本期刊⽬录,获取论⽂全⽂中的查询本馆纸本期刊⽬录,联合⽬录。
2.哪些数据库有⾃动截词功能?EI3.中⽂科技期刊数据库、SCI和EI数据库的精确检索是如何实现的中⽂:可选择限定检索学科领域可选择逻辑算符可选择跨库检索的其他检索⽅式可选择匹配度⼆次检索其他限制条件EI:精炼检索结果位置:检索结果显⽰页左侧Refine Search的⼯具栏添加⼀个检索词的⼆次检索(Add a term )优化和调整检索结果(限定(Limit to)按钮或排除(Exclude)按钮:作者、作者机构、规范词、分类类名、国家、⽂献类型、语种、出版年、刊名、出版者等限定字段4.数据库检索结果的排序⽅式CNKI:主题发表时间被引下载EI:相关度和时间系统提供5种排序⽅式(按相关度、出版年代、作者字顺、刊名字顺和出版者字顺)5.主要的全⽂数据库CNKI、维普、万⽅:中⽂期刊全⽂数据库。
EBSCO、ScinceDirect、SpringerLinker:外⽂全⽂数据库。
6.Web ofScience数据库中包含有哪些数据库?SCIE/SSCI/A&HCL/CPCI-S(ISTP)/ CPCI-SSH7.查全查准率如何实现?提⾼查全率(扩⼤检索结果)的⽅法选择较⼤字段:如摘要、主题、全⽂、任意字段等尽量多⽤同义词、近义词、反义词、缩写词、上下位类词(增加逻辑或关系)减少逻辑与关系(限制条件)采⽤模糊匹配功能扩⼤检索年限使⽤截词符(*?$)提⾼查准率(缩⼩检索结果)的⽅法选择较⼩字段:如篇名(题名)、题名或关键词字段尽量增加核⼼检索词:从内容中挖掘核⼼词使⽤词位检索采⽤精确匹配/精确短语功能采⽤“AND”或“NOT”算符连接检索词或进⾏⼆次检索。
信息检索复习题以及重点
信息检索复习题1、信息检索的步骤包括:界定问题、选择信息源、制定检索策略并实施检索、评价信息、分析利用信息五个步骤。
2、文献中ISBN、ISSN分别是指:国际标准书号、国际标准刊号。
3、文献按出版形式划分为哪几种?简述之。
答:按出版类型划分:图书、期刊、特种文献:(科技报告、会议文献、专利文献、标准文献、学位论文、政府出版物、产品资料、技术档案)4、给出“基于云计算的煤矿安全监测预警系统研究”一文的关键词。
煤矿监测预警云计算数据挖掘5、给出3种常用搜索引擎名称,什么情况下应该使用百度快照?答:百度、Google、360、搜狗搜索到的结果无法打开或打开速度很慢的情况下,可以使用百度快照。
6、利用百度搜索一份技术开发合同,应该在搜索框输入(技术开发合同 filetype:doc 或技术开发合同 filetype:ppt )。
(提示:技术开发合同的格式:doc或pdf)。
百度以“filetype:”来限制,后面是文档格式。
文档可以是pdf、doc、xls、ppt等。
首选gov(政府)、edu(教育)、org(非盈利性机构)、ac(学术类)网站;次选com(商业) net(网络)等7、CNKI中国知网主要收录哪些类型的全文学术文献?期刊文献,报纸,会议文献,国外学术文献,工具书,年鉴,专利,成果,标准文献,博士学位论文,硕士学位论文8、查找中文全文图书和期刊文献分别有哪几个数据库?中文全文数据库:CNKI中国知网.维普期刊资源整合服务平台.万方数据知识服务平台,读秀学术搜索9、学位论文有哪些特点?简述之。
4)学位论文(dissertation,thesis)指高等院校和科研机构的毕业生在获取相应学位时,必须提交的论文。
外部特征:著者、论文题名、颁发学位的机构名称、学位等级、授予年份等。
其主要辨识特征是学位名称,特征词:Ph,D,MS等。
从内容上看,学位论文具有以下四个特点:学术性,科学性,创造性,规范性10、依据GB/T7714-2005,分别给出图书、期刊和学位论文的著录格式,并各举一例。
信息检索重点
一、信息检索四要素1、信息检索的前题:信息意识2、信息检索的基础:信息源3、信息检索的核心:信息获取能力4、信息检索的关键:信息利用二、信息基本特征:普遍性、客观性、扩散和传递性、增值性(创新)、可存贮性和可压缩性、可知性(信息能力)和共享性知识属性:意识性、信息性、实践性、继承性、渗透性情报属性:针对性、知识性、时间性、传递性、效用性信息、知识、情报的关系:信息经过人脑思维加工,即认识飞跃产生知识,情报属于知识的范畴。
广义的情报是信息的传递,因此,情报具有信息和知识两种性质。
三、按载体不同分为:口头信息源、实物信息源、文献信息源四、文献信息源:1、按出版形式不同可分为十种类型:图书、期刊、科技报告、会议文献、政府出版物、专利文献、标准、产品资料、学位论文、技术档案2、按记录信息的材料可分为三种类型:纸印本文献、缩微型文献、机读型文献3、按加工深度不同可划分为四种:零次文献、一次文献、二次文献、三次文献四者之间的关系:从零次文献到三次文献,是一个从分散的原始文献加工整理系统化的过程。
零次文献是一次文献的素材,一次文献是基础,是检索的对象;二次文献是检索一次文献的工具;三次文献是一次文献的浓缩,是情报信息的重要来源。
五、信息检索系统类型:⑴根据检索目标和检出文献信息形式的不同:文献检索、数据检索、事实检索⑵根据具体检索手段不同:手工检索、机械检索六、检索步骤:分析研究课题确定检索范围和检索标识选定检索工具确定检索途径查找和获取原始文献七、信息检索的方法:⒈常用法:是利用检索工具查找文献的方法.⑴顺查法⑵倒查法⑶抽查法⒉追溯法:从已知的现有文献后所列参考文献入手,逐一追查原文,从这些原文后所列参考文献再逐一追查,不断扩检的查找方法⒊循环法:指追溯法常用法混合使用的方法。
八、信息检索的途径:⒈根据外表特征划分著者途径;书名、篇名、刊名途径;序号途径⒉根据内容特征划分分类途径(SA、Ei);主题途径(SA、Ei);分子式途径(CA)九、文献检索的一般步骤:1、分析研究课题2、确定检索范围与检索标示3、选择检索工具4、确定检索途径5、查找和获取原始文献检索途径与方式:初级检索:默认的检索方式高级检索:两种检索方式组合使用,如“篇名”和“著者”。
信息检索考试复习知识点汇总
超星:拥有海量图书、全球最大的中文在线图书库;在线阅读,无地域时间限制。
CNKI、维普、万方:中文期刊全文数据库。
EBSCO、ScinceDirect、SpringerLinker:外文全文数据库。
ACS:自然科学、工程技术类学科专题数据库。
OVID:生物医学类学科专题数据库。
SCI:引文索引数据库。
EI:工程索引数据库。
2. 读秀学术搜索收入中文图书全文200多万种,元数据1.9亿条(其中中文期刊5000多万条,中文报纸近3000万条)。
3. Apabi电子图书方正Apabi数字图书馆提供73,000余种中国出版的电子新书;常用外文期刊数据库(全文类)1. Elsevier SDOL(ScienceDirect Online)该数据库提供访问的电子期刊都是举世公认的高品质的学术期刊,其中SCI收录1410种,EI收录515种,很多期刊的影响因子都达到了2.0以上,在学术界有很大的影响力。
2. ACS PublicationsACS一直致力于为全球化学研究机构、企业及个人提供高品质、高影响力的文献资讯及服务。
目前,ACS包括38种期刊,每一种期刊都回溯到其创刊卷,最早的到1879年。
3. SpringerLink SpringerLink是Springer于1996年推出的一个电子出版物在线服务平台。
SpringerLink除包含2100多种全文学术期刊外,还包含丛书、图书、参考工具书以及回溯文档,全文文献超过440万篇。
4. IEEE/IET Electronic Library美国电子电气工程师协会(Institute of Electrical and Electronics Engineers,IEEE)创立于1963年,是航空系统、计算机科学、通信、生物医学工程、电力等领域最权威的学会。
5. Wiley Interscience 在化学、生命科学、医学以及工程技术等领域学术文献的出版方面颇具权威性。
信息检索考试复习内容
一、逻辑算符、检索式l布尔逻辑算符:and 、or、 not(含义)1.逻辑“与”(AND 或 *) 用于表达两个或两个以上检索词(关键词、主题词)之间的相交关系或限定关系运算。
逻辑与检索能增强检索的专指性,使检索范围缩小。
2.逻辑“或”(OR或 + )用于表达两个或两个以上检索词(关键词、主题词)之间的并列关系。
运算逻辑或检索扩大了检索范围,提高检索信息的查全率。
此算符适于连接有同义关系或相关关系的词。
3.逻辑“非”(NOT或-)用于表达两个或两个以上检索词(关键词、主题词)之间中排除不需要的检索词(关键词、主题词)运算,可以缩小检索范围,增强检索的准确性。
此运算适于排除那些含有某个指定检索词(关键词、主题词)的记录。
但如果使用不当,将会排除有用文献,从而导致漏检。
检索式举例:题目:第三方物流信息管理系统检索式:第三方*物流*信息*管理*系统(and)检索入口:题目或关键词l截词检索:是一种常用的检索技术,尤其是在西文文献的检索中,使用更为广泛。
截词检索方式可分为三种,即:后截断、前截断、中间截断。
按截断的字符的数量上看,又可分有限截断与无限截断两种。
通常用* 表示无限截词。
用?表示有限截词。
后截断:是最常用的一种检索技术,将截词放在一个字符串之后,以表示其后有限或无限个字符不影响之前的检索字符串的检索结果。
如biolog*,可检索biologcal biologist biology等词, physic ??,可检索 physical、physicst等词。
、前截词将截词符号置于一个字符串的前方以表示其之前有限或无限个字符不影响之后的检索字符串的检索结果如*physics,可检索 physics、astrophysics、biophysics、chemiphysics、geophysics 等词。
中截词又称“ 内嵌字符截断” 。
将检索字符置于一个检索词中间,而不影响前后字符串的检索结果。
如:organi?ation可检索 organization、organisation。
信息检索知识点范文
信息检索知识点范文信息检索是指从大量的信息中找到与用户需求相关的信息的过程。
以下是信息检索的一些重要知识点:一、信息需求分析:1.了解用户需求:包括明确用户的信息需求,了解用户的背景和需求的具体要求。
2.制定信息策略:确定的关键词、限定范围、排除冗余和无关信息的策略。
二、信息源:1.内部信息源:组织内部的数据库、档案等。
2.外部信息源:包括互联网上的网页、文档、图片等。
三、信息检索模型:1.自动索引:使用关键词或主题对文档进行描述和索引,并建立索引词表,方便用户检索。
2.布尔模型:将检索式表示为逻辑表达式,利用逻辑运算符对检索词进行组合,实现精确的文档检索。
3.向量空间模型:通过计算文档和查询的向量空间相似度,将文档按相关性排序。
4.概率检索模型:通过统计分析文档和查询的概率模型,计算文档的相关性概率。
5.链接分析模型:根据页面之间的链接关系和链接的权重等信息来评估页面的相关性。
四、检索评价:1.检索精度:通过计算检索结果的相关文档和非相关文档的比例,来评估信息检索系统的精确性。
2.检索效率:评估信息检索系统执行查询的速度和资源消耗程度。
3.检索一致性:评估系统在连续多次查询时的稳定性和一致性。
五、信息检索技术:1.关键词:通过输入关键词进行检索,系统会返回与关键词相关的文档。
2.高级:包括利用限定符进行、布尔逻辑、通配符等。
3.相关性反馈:根据用户的反馈信息,调整检索结果的排序,提高检索的准确性。
4.语义分析:通过对查询语句和文档的语义进行分析,找到语义上的相关性。
5.分布式检索:将索引和查询分发到多个节点上进行检索,提高速度和可靠性。
六、信息检索系统的应用:1. 网络引擎:例如Google、百度等,为用户提供互联网上的信息服务。
2. 文献检索系统:用于科研人员查找相关文献,例如PubMed、IEEE Xplore等。
3.图像检索系统:通过图像的内容特征进行检索,例如相似图片、人脸识别等。
4.音乐、视频检索系统:通过音乐或视频的特征进行检索,例如识别歌曲、相似视频等。
信息检索知识点
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进展相符性比较,但凡信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,那么具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体.检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进展标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进展标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进展比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法〔1〕顺查法〔2〕倒查法〔3〕抽查法〔4〕追溯法〔5〕循环法5.信息检索的途径〔1〕部特征途径a)分类途径b)主题途径〔2〕外部特征途径a)题名途径b)著者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:〔1〕简单,形式简洁,易于理解;〔2〕可操作性强,应用广泛;〔3〕构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常准确的语义概念;〔4〕能处理构造化提问。
缺点:〔1〕表达用户复杂需求效果欠佳〔2〕准确匹配无法提供定量比较〔3〕匹配标准不尽合理〔4〕检索结果不易控制7.概率排序原那么:如果一个检索系统对用户的每个检索提问的反响是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
8.什么是计算机信息检索.所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那局部信息的过程。
信息检索复习要点
复习要点1.什么是原文出处?获取文献全文的途径有哪些?搜索引擎,本馆资源,全国范围内的纸本馆藏,申请图书馆的文献传递2.检索词的选择对查全率的影响(切分、删除、扩展)。
切分是对课题的语句以词为单位进行拆分,转换为检索的最小单元。
删除是对课题中不具有实质性检索意义的:虚词(如介词、连词、副词等)选择性删除:使用频率较低的词、专指性太高、过分宽泛的词、过分具体的限定词扩展:找到意思相同或相近的词汇;立足规范词,兼顾自由词;注意词的全称、简称及缩写字母;必要时应向上下位类词扩检;外来词的译写变化3.检索字段对查全率、查准率的影响。
可分为基本检索字段和辅助检索字段。
基本检索字段是指反应文献内容特征的字段。
如题名、文摘、主题词等。
辅助字段是指反应文献外部特征的字段,如作者机构、来源出版物、出版年等。
限制范围大小:题名<关键词≈摘要<(主题)<全文截词检索是防止漏检,提高查全率的一种常用检索技术,主要用于英文电子资源的检索。
用*或?表示。
不同检索系统使用的截词符种类和功能不同。
截词是在检索词的适当位置进行截断,节省输入的字符,达到较高的查全率。
根据截词符在检索词中的位置,可分为前截词、中截词和后截词。
常用的词位检索有:邻位检索和字段检索4.每个数据库的检索技术以和所使用到得符号,以及这些检索技术对查全查准率的影响。
概念交叉或概念限定关系:数据库中使用符号“* ”或“AND ”搜索引擎中使用“空格”表示,增强了专指度,提高了查准率。
具有概念并列关系的组配:数据库中使用符号“+ ”或“OR ”搜索引擎中可在关键词之间使用“OR”连接符,对于百度是用的“| ”连接符,注意连接符与搜索词之间必须要有空格。
扩大检索范围,提高了查全率。
具有概念排除关系的组配。
数据库中使用“- ”或“NOT ”搜索引擎中使用“- ”,注意前一个关键词和减号之间必须有空格,减号和后一个关键词之间,有无空格均可。
提高查准率,影响查全率检索技术:1.布尔逻辑2.同义词、同名作者检索3限制检索检索方式:传统检索,基本检索,高级检索,期刊导航5.什么是ISSN号。
信息检索复习重要知识
一、名词解释(4题,20分)目录:以一个完整的出版单位或收藏单位作为著录的基本单位,将一批著录款目按照一定的次序编排而成的一种揭示及报道文献的工具。
索引:将某一信息集合中的相关信息按照某中可查顺序排列并系统地指引给读者的一种检索工具。
年鉴:一种按年度出版,概述或反映上一年度有关领域的重大事件、重大进展和重要成果,汇集重要文献、详尽数据很统计资料的连续出版物。
手册:是汇集某一范围内基础知识和基本数据资料,以便于人们在生产、科研、教学等具体工作过程中可以经常查证的实用便览型参考工具。
OPAC:由开放的公共查询目录演化而来,是20世纪70年代末由美国一些大学图书馆和公共图书馆共同开发的供读者查询馆藏数据的联机书目检索系统。
CALIS:是经国务院批准的我国高等教育公共服务体系之一,在教育部的领导下,把国家的投资、现代图书馆理念、先进的技术手段、高校丰富的文献资源和人力资源整合起来。
信息检索:广义上,信息检索是指信息存储与查找的过程,狭义上,指信息查找的过程,信息查找是指通过查询机制从各种检索系统中查找出用户所需要的特定信息的过程。
搜索引擎:泛指网络上以一定的策略搜集信息,对信息进行组织和处理,并为用户提供信息检索服务的工具和系统,是网络资源检索工具的总称。
百科全书:是指收录了各个知识门类的知识,或者系统而完备地概述了某一知识门类知识的大型参考性工具,是最完备的参考工具,有“工具书之王”的美誉。
学位论文:学位论文是伴随着学位制度的实施而产生的,是高等院校或科研机构的毕业生为获取学位资格而撰写的学术性研究论文。
特种文献:一种介于图书与期刊之间的文献类型,通常在出版发行或获取途径方面比较特殊,因此也被称为灰色文献。
电子图书:是指以数字形式加工,通过计算机网络进行传播,,并借助于计算机或类似设备来阅读的图书,是电子出版物中最常见的文献形式。
参考工具书:是根据一定的社会需要以特定的编排方式和检索方法汇编某学科或特定范围的知识和资料,其目的是为人们解决疑难和提供数据或事实信息,是作为工具使用的专供查考的特定类型的图书。
信息检索期末复习资料
信息检索一.名词解释1.索引(P150):索引是将书籍、期刊等文献所刊载的论文题目、作者,以及所讨论的或设计的学科主题、名词术语、所引用的参考文献等,根据一定的需要,经过分析分别摘录出来,注明其所在书刊的页码,按一定的原则和方法排列起来的一种检索工具。
2.回溯检查法:又称追溯法、引文法、引证法,是一种跟踪查找的方式。
即以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。
通过回溯法所获得的文献有助于对课题的主题背景和立论依据等内容有更深的理解。
该方法获得文献针对性强、数量较多,在没有检索工具或检索工具不齐备的情况下,利用此法能够获得一些所需要的文献资料。
3.可视化:将数据库中不可见的语义关系以图像的形式可视化显示,并表达用户检索过程。
一个可视化的环境为用户展示更丰富、更直观的信息,一个透明的检索过程使检索更容易、更有效。
它包括检索过程的可视化和检索结果的可视化。
可视化信息检索技术缩短了用户理解信息的时间,提供了感觉和思考之间的有效反馈机制,它代表着信息检索的未来,将会取代以布尔逻辑为基础的、传统的信息检索系统。
4.自动标引:是指直接通过计算机的操作处理,自动实现赋予检索标志的活动。
分为自动主题标引和自动分类标引,即根据计算机内信息(标题、摘要或全文),借助算法自动给出反应主题内容的标引词和自动分配分类号。
5.全文扫描:是以从文本文档中找出与查询表示的字符串完全一致的部分为目的,检索结果返回包含查询字符串的文本及其位置的检索技术。
6.查全率:查全率是指从检索系统检出的与某课题相关的文献信息数量与检索系统中实际与该课题相关的文献信息总量之比。
对于数据库检索系统,查全率为检索出的款目数与数据库中满足用户检索式需求的款目数之比;而对于互联网信息检索系统来说,文献总量是很难计算的,甚至连估算都困难。
在这里人为因素的影响比较大。
相对查全率=(专业人员检出文献的数量数/全部实际检出文献集合并集中文献数量) *100%7.图像信息抽取:是指从数字图像中抽取包括基于文本的特征(说明,注释等关键词)和视觉特征或底层特征(颜色,文理,形状等),作为图像的特征描述,支持信息检索。
《信息检索》知识要点
《信息检索》知识要点1、文献是记录有知识的一切载体。
2、信息与材料、能源一起成为人数社会发展的三大支柱。
3、查找奇特事物,我们可以采用百科全书,也可以利用综合性手册。
4、广义的信息检索包括信息的存储与检索两过程。
5、搜索引擎一般提供两种检索方式:分类检索和关键词检索。
6、文献的属性有:知识性、实体性、记录性、发展性。
7、按信息检索的内容划分,可以将信息检索划分为数据检索、事实检索、文献检索类型。
8、信息检索的发展,经历了以下哪些阶段手工信息检索阶段、计算机信息检索阶段、机械信息检索阶段。
9、网络信息检索时,用AND、OR、NOT算符构造检索表达式进行检索的方法是布尔逻辑检索。
10、信息检索的基本原理就是要将查找的信息转换为检索系统能够识别的检索提问标识,然后通过与检索系统中的信息存储标识进行匹配比对,凡是双方标识一致的,就将具有这些标识的信息按要求从检索系统中输出。
11、评价一个网站的信息质量主要应从以下哪几方面考虑权威性、准确性、客观性、适时性。
12、信息检索工具是指用以报道、存储、查找信息线索的工具。
13、我校图书馆OPAC查询系统的主要查询功能有:馆藏查询、分类查询和读者查询。
14、如要查找书、刊等出版物的收藏地点,应选择的检索系统类型为馆藏目录、联机公共目录(OPAC)、联合目录。
15、评价网站提供的信息质量,可以不考虑的因素是合不合自己的意愿。
16、二次检索指的是在上一次检索的结果集上进行的检索。
17、利用词的某些部分进行非精确匹配检索,如acid*,这种形式叫截词检索。
18、专利的特点包括专有性、时间性和地域性,其中我国专利法关于时间性的规定中,发明类专利的保护期限一般为20年。
19、文献检索工具是通过著录文献的特征,依据一定的规律组织排列,使文献由无序变为有序。
20、评价一本工具书,一般来说最主要的是易用性、适时性、客观性。
21、追溯法是利用原始文献所附的参考文献进行追溯查找文献信息的方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、文献:为了把人类知识传播开来和继承下去,人们用文字、图形、符号、声频、视频等手段将其记录下来,或写在纸上,或晒在蓝图上,或摄制在感光片上,或录在唱片上,或存储在磁盘上。
这种附着在各种载体上的记录统称为文献。
2、文献由四要素构成,即文献信息、文献载体、符号系统和记录方法。
3、信息、知识和文献三者之间的关系:由信息、知识和文献的概念可知,三者之间是密切相关的。
信息是物质存在的方式、形式和运动规律的表征。
人脑对事物属性的感知形成信息;人们对信息集合加工、整理形成系统化,表现形成人类社会实践的知识;知识被记录在载体上形成文献,文献被人类广泛传播、运用在理论和实践中又产生新的信息、知识和文献。
如此循环,不断创新,形成各种各样的新知识,从而推动人类社会前进。
由此可见,信息、知识、文献在社会系统中表现出一种不间断的延续性。
4、具有信息素质的人主要具有以下几个方面的能力:(1)运用信息工具;(2)获取信息;(3)处理信息;(4)生成信息;(5)创造信息;(6)信息增效;(7)信息协作;(8)信息免疫。
5、信息资源的构成可从不同的层次和角度来划分:一、按照信息的出版和加工划分:1 图书;2 报刊;3 会议文献;4 专利文献;5 科技报告;6 学位论文;7 技术档案;8 产品资料;9 标准文献;10 政府出版物。
二、按照信息加工层次划分:按信息加工程度可将信息分为一次文献、二次文献、三次文献。
(1)一次文献即以作者本人的生产与科研工作成果为依据而撰写并已公开发行进入社会流通使用的原始文献。
例如专著、学术论文、科技报告、会议论文、专利文献、学位论文等;(2)二次文献即将大量、分散、无序的一次文献收集起来。
按照一定的方法进行整理、浓缩和加工,使之系统化而形成各种目录、索引和文摘,即编制成具有多种检索途径的检索工具。
二次文献又称为检索性文献;(3)三次文献即根据一定的目的和需求,在大量利用一次、二次文献的基础上,对有关知识进行综合、分析、提炼、重组而再生的信息资源。
例如词典、手册、百科全书、年鉴、各种教科书及综述等。
三、按信息的表现形式划分:(1)文献型信息源;(2)非文献型信息源。
非文献型信息源包括电子信息源、数值型信息源、声像型信息源、多媒体信息源以及实例与口头信息源。
6、信息出版类型:是指记录有知识的文献出版类型。
7、信息检索:是指将信息按一定的方式进行加工、整理、组织并存储起来,再根据信息用户的需要找出有关信息的过程。
它的全过程又称为信息存储与检索。
8、信息检索的基本原理:对信息集合与需求集合的匹配与选择。
9、信息检索的基本方式可分为传统信息检索和现代信息检索。
传统信息检索,简称“手检”;现代信息检索,简称“机检”。
10、信息检索的研究范围包括一切与信息存储与检索有关的系统、过程、理论和方法。
11、计算机信息检索系统根据内容不同可划分为:联机检索系统、光盘检索系统和网络检索系统。
12、检索工具按用途可分为两大类:指示型检索工具(二次文献)和提供具体信息的参考型检索工具(三次文献)。
13、检索工具按编著方式可分为:(1)目录型检索工具。
目录主要报道实有的文献或收藏文献的情况,以一个完整的出版单位作为著录的基本单位。
此类检索工具对于查找、索取原始文献具有重要作用;(2)题录型检索工具。
题录是用来描述某一文献的外表特征并由一组著录项目构成的一条文献记录。
题录实质上是一种不含文摘正文的文摘款目,在揭示文献内容的深度方面,题录比目录做得深入一些,但又比文摘款目浅;(3)文摘型检索工具。
文摘是指对文献的内容简洁而又正确的摘录,供人们浏览和查用,使读者能以较少的时间和精力掌握有关文献的基本内容而进行系统查找。
文摘型检索工具是系统报道、积累和检索科技文献的主要工具;(4)索引型检索工具。
包括内容检索和篇章检索。
其主要特点是加工简单,报道量大。
以快和全占有一定的优势。
14、每种检索工具大体上都是由编辑说明与使用凡例部分、分类表和主题词表部分、正文部分、索引部分、附录部分组成的。
15、检索语言,又称标引语言、索引语言,信息检索语言等,是根据检索需要而编制的一种人工语言。
检索语言是信息检索与信息存储的一种约定语言。
16、检索语言是由词汇和语法组成的。
17、检索语言按其反应信息内外部特征的不同可分为:分类语言、主题语言、名称语言和代码语言四大类。
分类语言和主题语言是表示文献实质意义的内容特征标识;名称语言和代码语言是表示文献外表特征的标识。
18、《中图法》:全称《中国图书馆分类法》,是我国一部大型的综合性图书分类法,它的主体是它的类目表,包括简表、详表、辅助表和编制说明,此外还有索引。
《中图法》采用“五分法”形成五大部类。
《中图法》属于等级列举式分类法。
19、主题语言类主要有标题词语言、叙词语言、关键词语言和单元词语言等。
它们统称为主题法系统。
关键词语言是针对文献中的关键词选定或抽出,极少用作词汇控制,按字序排列,从而提供检索途径的一种检索语言。
20、检索语言的特点:检索语言不同于自然语言,它所表述的概念只是一种解释,不允许一词多义、多词一义而使概念的表述模糊不清。
21、检索语言的功能是通过检索语言标引文献的主题概念,不仅能简明地提示文献所包含的信息内容及其外表特征,而且还能将同一主题概念的文献集中在一起,使文献的存储集中化、系统化、组织化,以便于进行有规律的检索。
22、检索程序包括:(1)分析课题;(2)选择检索系统和数据库;(3)确定检索途径和检索词;(4)构建检索表达式;(5)检索并调整检索策略;(6)输出检索结果。
23、制定检索策略施应注意的问题:(1)先国内后国外;(2)检索时多选几个同义词、近义词;(3)巧妙地利用上下位词的关系;(4)尽量避免从字面出发选择检索词;(5)变换检索词的词序。
24、对检索结果的分析评价指标有:(1)查全率:查全率是对所需信息被检出程度的量度;(2)查准率:查准率是衡量检索系统拒绝非相关信息的能力;(3)相关性:是用户判断信息与信息需求之间关系的标准。
25、文档的基本组成单位是记录。
26、数据库的结构:(1)记录(record)例如文献的题名、作者、发表时间、语种、分类号、主题词等;(2)字段(field)例如文献号字段、题名字段、作者字段、出版字段、语种字段、文摘字段、主题词字段、分类号字段等;(3)文档(file)27、按数据库包括的信息内容可分为:(1)参看数据库。
参看数据库包括书目数据库和指南数据库;(2)源数据库;(3)混合数据库。
28、常用的布尔逻辑算符有:逻辑或“or”、逻辑与“and”、逻辑非“not”三种。
(1)逻辑或“or”:在检索表达式中通常用“+”表示。
使用逻辑或可使检索命中结果的范围扩大,达到了扩检的目的,从而提高查全率。
(2)逻辑与“and”:在检索表达式中常用“*”来表示。
通过对检索词之间的逻辑与运算,增强了查找的专指性,可提高查准率。
(3)逻辑非“not”:在检索表达式中通常用“—”来表示。
在实际检索中,往往在一个检索结果中使用逻辑非运算,用来排除指定的某类信息,以达到提高查准率的目的。
29、截词检索:主要是利用检索词的词干或不完整的词型进行检索,其方法是在词干后可能变化的字符处加上截词符号“?”。
30、截词方式有无限截词和有限截词两种。
31、位置检索是检索词在原始信息中相对位置的限定性检索。
位置检索由位置算符表达。
(1)(W)——“With”:表示两侧的检索词必须前后邻接,顺序不得颠倒,两词之间不能插入任何词,但允许空格或连字符号。
(2)(nW)——“n Word”:表示两侧的检索词之间最多允许插入n个词,但两个检索词的词序不允许颠倒。
(3)(N)——“near”:表示两侧的检索词必须前后紧相邻,中间不能插入其他字符。
但两词次序可颠倒。
(4)(nN)——“n Near”:表示两侧的检索词之间最多可拥有n个单词,且检索词的次序可颠倒。
(5)(S)——“Subfield”:要求参加运算的检索词必须出现在同一自然句中,两词词序不受限制,词之间可含任意数量的词。
32、DIALOG系统是目前世界上最大的国际性联机检索服务机构。
33、常用基本检索字段:(1)TI(题名字段):找出题名中含有world-wide-web的记录(用法举例:S world(w)wide(w)web/TI);(2)AB(文摘字段):找出文摘中含有Academic Library 记录(S Academic(w)Library/AB);(3)DE(主题词字段):找出主题词字段中含有Internet 的记录(S Internet/DE)。
34、常用辅助检索字段:文献类型(字段标识符:DT)(用法举例:S AU=johnson,r?);杂志名称(JN)(S JN=new york times);语种(LA)(S LA=french);出版日期(PD)(S PD=960412);出版年(PY)(S PY=1997);销售额(SA)(S SA=>5m);更新日期(UD)(S UD=9999)。
35、截词检索方法:(1)无限截词:找出所有以transport为词根的记录,transportation,transporting,transported,transportable等均可检出(样例:S transport?);(2)有限截词:找出以transport为词根或后面仅有三个字母的词,例如,transporting,transport(S transport???)。
36、中国知网共有“初级检索”、“高级检索”、“专业检索”及“期刊导航”四种检索方式。
37、《中国期刊全文数据库》提供的检索项有:篇名、主题、关键词、摘要、作者、第一作者、单位、刊名、参考文献、全文、年、期、基金、中图分类号、ISSN、统一刊号。
38、美国《工程索引》,简称EI。
EI是世界上著名的三大检索工具之一,也是国内外工程技术人员常使用的一种检索工具。
39、《工程索引》的出版形式:EI按照载体形式分为印刷版、光盘版和网络版三种形式。
40、专利:是指在建立了专利制度的国家,某一发明创造由发明人或设计人向专利主管部门提出申请,经审查批准,授予在一定年限内享有独占该发明创造的权利,并在法律上受到保护,任何人不得侵犯。
这种受法律保护、技术专有的权利,成为专利。
41、广义的专利具有三个方面的含义,即专利权、专利发明和专利文献。
42、专利类型:根据发明创造的性质,通常将专利分为发明专利、实用新型专利和外观设计专利三类。
43、授予专利权的条件:专利法规定,一项发明创造要想获得专利权,必须具备新颖性、创造性和实用性。
44、专利文献:是实行专利制度的国家及国际性专利组织在审批专利过程中产生的官方文件及其出版物的总称。