信息检索复习资料
信息检索_复习资料
信息检索_复习资料第1章文献信息概论 (1)1.1 信息时代与信息文化课 (1)1.2 文献信息的基本概念 (2)1.2.1.1信息的定义 (2)1.2.2 文献的级别和载体类型 (2)1.2.3 印刷型文献的出版类型 (3)1.4、国内文献信息系统包括: (6)1.4.4 文献信息的学科分布规律 (6)第2章信息检索原理 (6)2.1.1信息检索的定义和类型 (6)1.信息检索的定义 (6)1.2.3文献的内部特征和外部特征 (6)2.2.1信息检索的一般原理 (6)2.2.3 检索语言 (7)2.2. 信息检索系统 (8)2.2.1 书目检索系统的内容组成 (8) 2.2.2印刷型信息检索系统的类型 (8) 2.3文献信息检索的方法 (9)2.3.1文献信息检索方法的类型 (10) 2.5 信息检索语言 (10)2.5.2分类检索语言 (11)2.6 著者检索原理 (12)2.6.1 著者索引的排序方式 (12)第三章事实数据检索与参考工具概述 (13) 3.2事实与数据检索概述 (13)3.2参考工具书概述 (13)3.3综合性参考工具举要 (16)第四章图书报刊文献检索原理 (19)第一节书目及其作用和类型 (19)第二节查近现代图书和报刊的出版 (20)4.1 计算机情报检索概述 (25)4.1.2 计算机情报检索的必备条件 (25)4.1.3计算机情报检索与手工检索的比较 (25)4.2 文献信息数据库原理 (25)4.2.1 数据库的定义和类型 (26)4.2.2 数据库构成: (26)4.3.5 检索策略构成和调整方法 (27)第4章(国内外网络全文数据库) (29)4、2电子图书和书目数据库 (29)第1章文献信息概论1.1 信息时代与信息文化课文献课是知识时代培养学生终身所需的信息意识与获取文献信息能力的重要课程,是一门科学方法课。
在社会信息化的进程中,文献信息检索的意义日益变得重要:1、文献信息数量激增。
信息检索复习资料
一、名词解释:文献:是记录有一切知识的载体,是属于存贮型的固态的载体,如印刷件、缩微制品、磁盘和光盘等具有存贮型和传播型的信息载体。
检索:是根据特定的需求,运用某种检索工具,按照一定方法,去寻找资料或信息的工作过程。
这种方法利用的是有序化的信息系统和信息业提供感到服务来满足用户的信息需求的。
信息检索:是通过分析、综合等手段进行信息加工后,获取隐含在信息源中的知识的过程。
信息意识:简单的说就是人们利用信息系统获取信息的内在动因,具体表现为信息的敏感性、选择能力和消化吸收能力。
信息素质(信息素养):从各种信息源中检索、评价和使用信息的能力,是信息社会劳动者必须掌握的终身技能。
具有信息素养的日呢,也就具备了终身学习的能力。
文献信息、书目:是指一批相关文献的记录,其基本功能是其基本功能是反映某一地区、某一时期在某一领域中出版物的信息。
馆藏目录:是查找文献应该首先考虑的检索工具,是某个图书馆或者档案馆收藏文献、图书的总体目录(是题录性的检索工具)。
图书馆的目录种类繁多,职能各不相同。
索引:是揭示文献内容出处,提供文献查考线索的检索工具。
没有索引,各种海洋一样的文献资料就无法被利用,分篇目索引和内容索引两种。
文摘:是一种揭示文献外部特征、又通过摘录文献要点报道文献内容的工具,文摘是集树木、索引和一次文献三者与一体的检索工具。
年鉴:是以描述和统计的方式逐年提供某一年度、某一领域信息的工具书,或者说是相应年度内的信息的汇编。
手册:是汇集某一学科领域或业务部门专门知识的工具书,是真带当前时间中的需要,以简明扼要的方式提供的具体、使用的资料,工随时翻检查阅的一种小型工具书。
百科全书:是会萃一切门类或某一门类知识。
以概要方式提供有关信息的多功能工具书。
著者途径:即以著者姓名为检索点查找文献的途径,一般有著者姓名和文献号组成。
题名途径:根据已知的书名、刊名、篇名按字顺规则在工具书中查找所需要文献的途径。
序号途径:即指按号码顺序如报告号、专利号、标准号、入馆号查找文献的方法。
信息检索期末复习材料
信息检索第一章信息检索基础1、信息的含义:广义的信息指自然界和一切人类活动所传达出来的信号和消息,是事物表现得一种普遍形式。
狭义的信息指经过搜集、记录、处理和存储的可供检索的文献、数据和事实2、一次文献:指作者以本人的研究成果为基本素材而创作或撰写的文献。
(著作、报纸、期刊、会议资料、研究报告、政府出版物、专利说明书、产品样本、标准文献、学位论文等)二次文献:指对一次文献进行加工、提炼和压缩后所得到的报道性产物。
检索工具书和网上引擎是典型的二次文献。
(目录、题录、索引、文摘)三次文献:是指对有关的一次文献和二次文献进行广泛深入的分析研究综合概括而成的具体知识、数据。
如综述、百科全书、辞典等。
3、信息检索的含义:从大量的信息集合中找出所需信息的过程与方法。
广义:包含信息储存和检索两部分狭义:信息检索4、信息检索的原理:将特定的信息需求与存储在检索系统中的信息标识进行异同的比较与匹配5、信息检索的意义:①信息检索是有效利用信息资源、实现其最大价值的科学方法②信息检索是再学习的工具、是获取知识的有效途径③信息检索能有效地提高科研工作的效率、节省人力物力及时间6、信息检索的历程:手工检索、计算机检索7、信息检索的方法:直接浏览法、常用法(顺查法、倒查法、抽查法)、追溯法、综合法查全率和查准率的关系、局限性1)查全率=[检出的相关文献信息量/检索系统中相关文献信息总量]×100%=[a/(a+c)]×100%2)查准率=[检出的相关文献信息量/检出文献信息总量]×100%=[a/(a+b)]×100%3)查全率与查准率的局限性:①对文献相关性的判断不可避免的带有主观性和模糊性②全部相关文献的总量很难确定③“相关文献”总是被同等对待,实际上其相关程度是有区别的9、影响检索效果的因素:①标引上网质量②检索语言的性能③检索途径的数量④检索策略的优劣⑤检索人员的素质第二章检索语言1、检索语言的定义:广义的检索语言泛指信息检索过程中涉及的人工语言和自然语言。
信息检索重点复习资料
信息检索重点复习资料第一章信息检索概述信息检索(IR):将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
信息素养:人们在解答问题时利用信息的技术和技能。
信息检索与文献检索的主要区别:文献检索是以获取文献信息为目的的检索,信息检索是收集,组织,存储一定范畴的信息,并根据用户需求查询文献中的信息或知识单元,比文献检索更深入。
信息检索的分类:1、根据检索手段不同可分为1)手工检索2)光盘检索3)联机检索4)网络检索2根据检索对象形式不同可分为文本检索、数值检索、音频与视频检索。
信息检索的原理:通过对大量的分散无序的文献信息进行收集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储和检索这两个过程所采用的特征标识达到一致,以便有效的获得和利用信息源。
存储是检索的基础,检索是存储的目的。
信息检索语言是人们在加工、存储和检索信息时用来描述信息内容喝信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。
信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。
其物理结构:是信息检索所用的硬件资源、系统软件以及信息资源集合(数据库)的总和。
信息检索语言的主要目的:把存储和检索联系起来,把标引人员和用户联系起来,以便取得共同理解,实现交流。
信息检索的历史:最早的信息检索主要依靠信息分类。
1手工检索2机械信息检索。
3脱机批处理检索是计算机初期使用的一种检索系统 4联机检索 5光盘检索 6 网络信息检索后四者统称为计算机信息检索信息检索的三个经典模型:1布尔模型 2向量空间模型 3概率模型 1浏览型模型:扁平式模型、结构导向模型、超文本模型2检索型模型:结构化模型、基于内容的检索型模型。
信息检索模型是信息检索的核心。
信息检索系统:是具有信息存储和信息查询功能的一类服务设施。
信息检索系统按功能划分5种类型:文献检索系统DRS、数据库管理系统DBMS、自动问答系统QAS、管理信息系统MIS、决策支持系统DSS. 信息检索物理结构1计算机硬件2软件3数据库信息检索的逻辑结构是指系统所包括的功能模块或子系统及其相互关系。
信息检索复习资料(有答案版)
1.请说明一次文献、二次文献和三次文献的特点和功用。
(1)一次文献(Primary Document):通常是指原始制作,即作者以本人的研究成果为基本素材而创作(或撰写)的文献。
如期刊论文、科技报告、会议论文、专利说明书(2)二次文献(Secondary Document):是指文献情报工作者对一次文献进行加工整理后所得到的产物,也是为了便于管理和利用一次文献,由文献情报工作人员编辑、出版和积累起来的工具性的文献。
二次文献的重要性在于可以帮助人们查找一次文献。
如目录、题录、文摘、索引、各种书目数据库(3)三次文献(Tertiary Document):是指利用二次文献,选用一次文献内容,经综合,分析和评述后形成的指南性文献。
包括综述研究和参考工具两类。
如综述、述评、词典、百科全书、年鉴、指南数据库、书目之书目2.请说明题录目录文摘的特点以及区别(1)题录是揭示和报导单篇文献外表特征的工具。
特点:以单篇文献为著录对象(2)目录是系统积累和提供图书、期刊和其它单行本的名称、收藏单位和索取号等外表特征的揭示和报导的工具。
特点:以单位出版物为著录对象,反映馆藏情况,主要揭示文献外部特征(3)文摘是以精练的语言把文献信息的重要内容、学术观点、数据及结构准确地摘录下来,并按一定的著录规则与排列方式编排起来,供读者查阅使用的一种检索工具。
特点:带摘要的题录3. 布拉德伏特文献文献分散定律和期刊影响因子的概念(1)布拉德福文献分散定律:本专业文献的1/3刊登在本专业核心期刊上,另外的2/3则分散在其他的相关期刊和边缘期刊上。
如果将科技期刊按其刊载某专业论文数量多寡,以递减顺序排列,则可分出一个核心区和相继的几个领域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量成1:n:n2......的关系。
(2)期刊影响因子的概念是:某一种期刊在第三年得到的前两年的引文数与该刊前两年的总论文数之比。
4. 请阐述信息、知识、情报的概念,并分析它们三者之间的关系。
信息检索复习知识点
信息检索复习知识点1.信息(Information)信息是物质存在的一种方式、形态或运动状态,也是事物的一种普遍属性,一般指数据、消息中所包含的意义,可以使消息中所描述事件的不确定性减少。
* 信息的属性——客观存在性* 信息的作用——消除不确定性* 信息的形式——数据、消息等事实2.各种客观存在的、可供人们直接或间接开发与利用的信息的集合总称为信息资源3. 信息用户Information User信息的使用者即是信息用户。
使用的情况可以包括需要信息、接受信息和利用信息。
4. 信息需求Information Demand人们在社会实践活动中,为了解决各种实际问题,会产生对信息的需要,这种需要可表现为对信息的必要感和不满足感。
我们把意识到的信息需要定义为信息需求5. 信息检索Information Retrieval对信息用户而言,信息检索就是根据各自的目的和要求,选择恰当的信息资源,采用适当的检索手段、检索技术、检索方法,对所需要的信息进行查找、筛选和索取的过程或活动。
6. 信息素质:人们能够敏锐地察觉信息需求,并能进行相应的信息检索、评估以及有效利用所需信息的水平。
* 信息意识* 信息能力* 信息道德7. 信息社会是以知识和信息为基础从而促进社会高速发展的一种社会形态。
8. 经济领域的特征a.劳动力结构出现根本性的变化,从事信息职业的人数与其它部门职业的人数相比已占绝对优势;b.在国民经济总产值中,信息经济所创产值与其它经济部门所创产值相比已占绝对优势;c.能源消耗少,污染得以控制;d.知识成为社会发展的巨大资源。
9. 社会、文化、生活方面的特征10.社会观念上的特征11当代信息环境特征描述* 信息超载严重信息超载又称信息泛滥或信息爆炸。
它是指在信息时代,伴随着科学技术的迅速发展,出现的数据爆炸、信息平庸化以及噪音化趋势,人们无法根据自己的需要和当前的信息能力选择并消化自己所需要的信息。
* 信息失衡明显所谓信息失衡是对由于各国经济水平、科技水平和其它多种相关因素的影响,不同国家、不同地区以及不同阶层的人群在信息占有水平以及利用程度上存在极大差距的描述。
信息检索 复习资料
第一部分:基本常识1.文献按照出版形式可分为哪几种类型?举例。
图书、期刊、报纸、特种文献。
图书:专著、文集、教科书、普及读物、百科全书、年鉴、手册、词典等期刊:化学学报、煤炭学报、电工技术学报、高等教育研究、建筑工程与科学在CNKI 期刊全文数据库中检到共209条记录:国际城市规划、建筑结构学报、交通运输工程学报、建筑经济、土木工程学报、岩土工程学报、岩土力学、空间结构、地震工程与工程振动、中国给水排水、工程力学世界建筑工业建筑工程勘察中外建筑工程建设等。
报纸:人民日报特种文献:科技报告、会议文献、专利文献、学位论文、政府出版物、标准文献、产品资料、科技档案美国政府的四大报告1、国防部的AD报告2、商业部的PB报告3、国家航空及宇航局的NASA报告4、能源部的DOE报告。
2现代科技文献具有的特点哪些?答:(1)数量多、增长快, (2)出版形式多、文种多,(3)文献异常分散, (4)文献失效加快, (5)报道内容重复交叉, (6)文献总体质量下降3什么是核心文献、相关文献和边缘文献?答:核心文献通常是指与本学科发展水平、发展动向密切相关的一些文献。
如核心期刊等。
相关文献和边缘文献是指内容与学科的关系相对疏远一些的文献。
相关文献和边缘文献是本学科和其它学科相互渗透、互相结合的结果。
4 什么是文献?构成文献的有哪四个要素?答:文献的定义是记录有知识的一切载体称为文献。
构成文献的四要素是:知识内容,信息符号,载体材料,记录方式。
5 电子文献的主要类型和文件格式是什么?答:(1)按照载体的形态,电子文献可以有软磁盘(FD)、只读光盘(CD-ROM)、可擦写光盘(CD-RW )等之分;(2)按照文献的电子格式,电子文献有文本格式的txt文件、doc文件、pdf文件,图像格式的 gif文件、jpg文件以及标记文件格式的 html文件和xml文件之分;(3)按照出版周期和内容特点,电子文献可以有电子期刊,电子图书,电子报纸以及数据库等之分;(4)按照内容的性质和时效性,电子文献可以有论文文献和动态消息之分;(5)按照版权状况,电子文献又可分为有版权电子文献和无版权电子文献两类;(6)从文献信息利用的角度来看,可分为有版权的电子期刊、电子图书、报告的学术价值相对较高,而单篇论文和动态性的电子文献有时虽然没有注明版权,也有相当的参考价值。
信息检索复习资料
信息检索复习资料一、名词解释1.信息资源——是指经过人类的选取、组织、序化等整理与开发后的信息的集合。
2.白色文献——是指公开出版发行的、通过正常渠道可以得到的常规文献。
3.数据挖掘——就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
4.检索策略——就是在分析课题内容实质的基础上,确定检索系统、检索途径和检索词,并科学安排各词之间的位置关系、逻辑联系和查找步骤等。
5.截词检索——是指在检索式中用专门的符号(截词符号)表示检索词某一部分允许有一定词形变化。
6.参考数据库——有时又称为书目数据库,是指包含各种数据、信息或知识原始来源和属性的数据库。
7.特种文献——是指出版发行和获取途径都比较特殊的科技文献,一般包括专利文献、会议文献、科技报告、学位论文、标准文献、政府出版物等文献类型。
8.学位论文——是高等院校或研究机构的学生为获得学位资格而提交并通过答辩委员会认可的学术性研究论文,它是随着学位制度的实施而产生的。
9.科技报告——是关于某科研项目或活动的正式报告或记录,多是研究、设计单位或个人以书面形式向提供经费和资助的部门或组织汇报其研究设计和开发项目的成果进展情况的报告。
10.电子图书——是指以电子文件形式存储在各种磁性或电子介质中,以磁盘、光盘、网络等电子媒体形式出版发行,通过计算机或便携式阅读终端进行阅读的一种新型数字化书籍。
11.电子报纸—多媒体技术、网络技术和通信技术的产物,是指在排、印、投递等方面基本上实现了电子化的报纸。
12.参考工具书——是指根据人们的需要,把某一范围的知识或资料加以分析、综合或浓缩,并按一定的排检方法编排,以备查阅、参考,用以解决有关事实和数据方面的疑难问题的图书。
13.年鉴——是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料,提供详尽的事实、数据和统计数字,反映近期政治、经济发展的动向及科学文化进步的年度出版物。
信息检索复习资料
信息检索复习资料科学信息检索与应用第一章绪论1.情报检索与科学研究关系2.个体研究阶段,世界上最早出现的手工检索工具:答:1821年瑞士出版的《物理科学进展年报》1830年德国创办的文摘杂志《药学总览》3.社会化阶段,研制大型检索工具:答:美国1884年创办了《工程索引》(EI)美国1907年创办了《化学文摘》(CA)美国1926年创办了《生物学文摘》(BA)英国1896年创办了《科学文摘》(SA)4.自动化阶段,产生新的检索理论:答:1951年 Taube,M 提出:单元词组配法1958年 Citron,J 提出:轮排索引1958年 Luhn,H 提出:定题服务(SDI)二战期间…案例: 曼哈顿工程 - 阿波罗计划5.科技文献概念答:记录在载体上的科技知识,包括科技事实、数据、理论方法、构思和假设等。
(文献/科技文献)6.文献信息源,按文献载体形式划分:答:印刷型文献:指印刷术发明之后,以纸张为存储载体,通过油印、铅印、胶印、静电复印等手段,将文字固化在纸张上所形成的文献。
缩微型文献:又称为缩微复制品文献,它是以感光材料为载体,以印刷型文献为母本,采用光学摄影技术,将文献的体积浓缩而固化到载体上。
机读型文献:机读型文献的全称为计算机阅读型,是以磁性材料为存储载体,以穿孔、打字或光学字符识别装置为记录手段而形成的文献。
声像型文献:又称为视听型文献,它是以磁性材料或感光材料为载体,借助特定的机械设备直接记录声音信息和图像信息所形成的文献。
7.文献信息源,按文献的出版形式划分:答:科技图书(Science and Technical Book)科学期刊(Science and Technical Journal)科技报告(Science and Technical Report)专利文献(Patent Document)会议文献(Conference Paper)学位论文(Degree Thesis)标准文献(Standard Literature)政府出版物(Government Document)产品样本(Product Stylebook )技术档案(T echnical Files)8.文献信息源,按文献的产生、加工、用途划分为:答:一次文献,又称原始文献。
信息检索期末复习资料.doc
信息检索一. 名词解释1.索引(P150):索引是将书籍、期刊等文献所刊载的论文题目、作者,以及所讨论的或设计的学科主题、名词术语、所引用的参考文献等,根据一定的需要,经过分析分别摘录出來,注明其所在书刊的页码,按一定的原则和方法排列起来的一种检索工具。
2.回溯检查法:又称追溯法、引文法、引证法,是一种跟踪杳找的方式。
即以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。
通过回溯法所获得的文献有助于对课题的主题背景和立论依据等内容有更深的理解。
该方法获得文献针对性强、数量较多,在没有检索工具或检索工具不齐备的情况F,利用此法能够获得一些所需要的文献资料。
3.可视化:将数据库中不可见的语义关系以图像的形式可视化显示,并表达用户检索过程。
一个可视化的环境为用户展示更丰富、更直观的信息,一个透明的检索过程使检索更容易、更有效。
它包括检索过程的可视化和检索结果的可视化。
可视化信息检索技术缩短了用户理解信息的时间,提供了感觉和思考Z间的有效反馈机制,它代表着信息检索的未来,将会取代以布尔逻辑为基础的、传统的信息检索系统。
4.自动标引:是指直接通过计算机的操作处理,自动实现赋予检索标志的活动。
分为自动主题标引和H动分类标引,即根据计算机内信息(标题、摘要或全文),借助算法自动给出反应主题内容的标引词和自动分配分类号。
5.全文扫描:是以从文本文档中找出与查询表示的字符串完全一致的部分为目的,检索结果返回包含查询字符串的文本及其位置的检索技术。
6.查全率:查全率是指从检索系统检出的与某课题相关的文献信息数最与检索系统屮实际与该课题相关的文献信息总量Z比。
对于数据库检索系统,杳全率为检索出的款目数与数据库屮满足用户检索式需求的款目数Z比;而对于互联网信息检索系统来说,文献总量是很难计算的,甚至连估算都困难。
在这里人为因素的影响比较大。
相对査全率二(专业人员检出文献的数量数/全部实际检出文献集合并集中文献数量)*100%7.图像信息抽取:是指从数字图像中抽取包括基于文本的特征(说明,注释等关键词)和视觉特征或底层特征(颜色,文理,形状等),作为图像的特征描述,支持信息检索。
信息检索复习资料
信息检索复习资料1.信息:信息是事物运动的状态与方式,是物质的一种属性。
2.知识:知识是人类对客观事物规律的认识,是人的主观世界对于客观世界的概括和如实反映。
3.情报:情报就是人们在一定的时间内为一定的目的而传递的有使用价值的知识或信息。
4.信息、知识、情报三者之间的关系:情报来源于知识,知识又来源于信息,用逻辑来表示:情报∈知识∈信息。
5.文献:文献,记录有知识的一切载体。
6.文献的三要素:知识(文献的内容),载体(文献的物质形式),记录(将内容固化在载体上的手段或方式)。
7.科技文献的特点:数量急剧增长;内容交叉重复;文献文版分散;文献失效加快;文献类型增多;文献语种增多。
8.科技文献的类型:1>按出版形式划分:科技图书;科技期刊;科技报告;会议文献;专利文献;学位论文;标准文献;产品资料;政府出版物;技术档案。
(主)2>按载体形态划分:印刷型文献;缩微型文献;声像型文献;机读型文献。
(主)3>按文献内容的加工深度划分:零次文献;一次文献;二次文献;三次文献。
4>按相对利用率划分:核心文献;相关文献;边缘文献。
*科技图书:一般分为阅读类图书和参考类图书。
前者包括教科书、专著和论文集等;后者包括各种参考工具书,如词典、百科全书、手册、年鉴、名录、表谱等。
9.信息检索:按检索对象的内容进行划分,信息检索分成了文献检索、数据检索、事实检索。
(作用、意义)文献检索是以文献为检索对象的一种检索,凡是查找某一年主题、某一学科、某一著者的有关文献均属于文献检索的范畴;文献检索是一种相关性检索,即检索系统不直接解答用户提出的技术问题本身,只提供与之相关的文献供用户参考;数据检索是以数据为检索对象,从已收藏的数据资料中查找出特定数据的过程。
数据检索是一种确定性检索,系统要直接回答用户提出的问题,提供用户所需要的确切的数据;事实检索即通过对信息集合中已有的基本事实或数据进行处理,然后得出新的(即未直接存入信息集合中的)事实的过程。
信息检索复习资料整理
信息检索复习资料第一章1、文献的定义:记录有知识的一切载体。
情报的属性:知识性、传递性、效用性。
文献的四个要素:知识内容、记录符号、物质载体、记录手段。
信息、知识、情报与文献的关系包含关系,转化关系,交叉关系信息的定义:信息是物质存在的一种方式、形态和运动状态,也是事物的一种普遍属性,一般指数据消息中包含的意义,可以是消息中所描述事件的不确定性减少。
知识的定义:P10知识是人类社会实践经验的总结,是人类智慧的结晶,是人的大脑通过思维对客观事物本质与规律性的认识和掌握。
情报的定义:人们为解决某一特定的问题而搜索、传递有特定效用的知识或信息。
文献信息分类——按物质载体及记录方式分类:手写型(古代手稿等)印刷型(图书、报纸等)缩微型(胶卷等介质类)声像型(唱片、录音带等)机读型(光盘、磁盘类)按加工程度分类:一次文献(个人期刊、科技报告、会议论文等等,首次公开发表的文献)特点:内容新颖、成熟、丰富,数量庞大。
二次文献(包括目录、索引、文摘等数据库,是数据库的搜索结果。
)特点:汇集性、检索性、报道性。
三次文献(图书是三次文献)特点:慨括性强、文字精炼、知识面广按出版形式分类:图书:ISBN(国际标准书号)表示汉语;209表示出版社号;03949表示书序号;X表示计算机校验码。
图书特点:成熟、可靠期刊:ISSN(国际标准刊号)期刊是最重要的信息源,从期刊中获得的信息量,占整个科技信息源的60%-70%以上。
期刊字段:题名、作者、刊名、卷期、机构期刊特点:速度快、能及时反应研究动态。
报纸:信息量大、通俗、传播面广、但资料庞杂零散。
科技报告:表述严谨、数据可靠,参考价值高。
学位论文:D是学位论文的缩写,有题名、作者、指导老师、学位授予单位等等字段。
会议文献:专业领域集中,针对性强。
包括题名、作者、会议名称等等字段。
专利文献:专利文献是世界上最大的信息技术源,具有新颖性、创造性、实用性等特点。
专利的类型:发明专利(延迟审查制;1)、实用新型专利(形式审查;2)、外观设计(形式审查;3)专利的特性:专有性、时间性、地域性CN 200910053606.0CN:中国;2009:年份;1:发明专利;0053606:申请专利的流水号;0:计算机校验码。
信息检索复习资料
信息检索的概念:(1)广义:将信息按一定的方式组织,存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索的两个过程。
(2)狭义:有序化信息的检索查找。
信息检索的原理:将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中就检索所需的信息。
为什么检索和存储是不可分割的?因为信息检索的全过程包括存储和检索两个过程,存储过程主要是利用检索语言对文献进行标引。
检索过程按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
其实,检索过程实际上是存储过程的逆过程。
信息检索的方法:顺查法,倒查法,抽查法,追朔法,循环法。
信息检索途径:(1)内部特征途径A.分类途径:按照文献资料所属学科类别进行检索的途径。
B.主题途经:通过文献资料的内容主题进行检索的途径。
(2)外部特征途径A.题名途径:根据文献题名来查找文献的途径。
B.著者途径:根据已知的文献著者来查找文献的途径。
C.文献编号途径:以文献的编号为特征编排和检索文件。
D.目录检索途径:利用目录来检索信息的方法。
E.机构检索法:F.引文检索途径:利用文献间的引证关系来检索文献的方法。
布尔模型的优缺点:优点:(1)简单,形式简洁,易于理解。
(2)可操作性强,应用广泛。
(3)构成的逻辑提问式可以表达与用户思维相一致的查询要求,提供非常精确的语义概念。
(4)能处理结构化提问。
缺点:(1)表达用户复杂需求的效果欠佳。
(2)准确匹配无法提供定量比较。
(3)匹配标准不尽合理。
(4)检索结果不易控制。
概率排序原则(1997,罗宾逊):如果一个检索系统对用户的每一个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
计算机信息检索:在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。
信息文献检索复习资料
一.名词解释1.文献:记录有知识的一切载体。
2.信息检索:广义:将信息按一定方式组织和储存起来,并根据信息用户的需要找出有关信息的过程。
狭义:从信息集合中找出所需要信息的过程。
3.信息检索语言:根据信息检索的需要而创造的人工语言。
一般又称为信息存储与检索语言、索引语言、标引语言、文献工作语言、标识系统。
4.分类检索语言:依据一定的意识形态观点,以科学属性为基础,结合信息内容特征的一种直接体现知识分类概念的检索语言。
5.专利文献:专立制度的产物,是实行专利制度的国家专利局及国际性专利组织在审批专利过程中产生的官方文件及其出版物的总称。
6.标准:对重复性事物和概念所作的同一规定,它以科学、技术和实践经验的综合成果基础,经有关方面协商一致,由主管机构批准,以特定形式发布,作为共同遵守的准则和依据。
7.标准文献:指与技术标准、生产组织标准和管理标准有关的文献。
8.搜索引擎:对万维网站点资源和其他网络资源进行标引和检索的一类检索系统机制的总称。
9,参考工具书:根据人们的需要,把某一范围的知识或资料加以分析、综合概括或浓缩,并按一定的方法排检,能够迅速并直接提供有关基本知识或数据、事实的参考答案的图书。
二.填空1.信息的特征客观性、依附性、可传递性、可塑性、时效性、共享性2.关于信息、文献、知识之间的范畴关系:信息圈包含知识圈,知识圈包含文献圈3.信息检索按存储和检索的对象分类:文献检索、数据检索、事实检索。
4.按信息组织的方式分为:目录检索(具体单位出版物)、题录检索(单位出版物里的所有文献)、文摘检索、全文检索、超文本检索、超媒体检索。
5.常见的信息检索语言有:分类检索语言、主题检索语言、代码检索语言。
6.《中图法》将图书划分为5大部类:马列主义、毛泽东思想、邓小平理论;哲学;社会科学;自然科学和综合性图书。
再分为22个基本大类。
7.主题检索语言根据选词方法的不同可分为:标题词语言(人工|书面语言)、关键词语言(自然语言)、序词语言(人工|书面语言)、单元词语言。
信息检索期末复习资料
信息检索一.名词解释1.索引(P150):索引是将书籍、期刊等文献所刊载的论文题目、作者,以及所讨论的或设计的学科主题、名词术语、所引用的参考文献等,根据一定的需要,经过分析分别摘录出来,注明其所在书刊的页码,按一定的原则和方法排列起来的一种检索工具。
2.回溯检查法:又称追溯法、引文法、引证法,是一种跟踪查找的方式。
即以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。
通过回溯法所获得的文献有助于对课题的主题背景和立论依据等内容有更深的理解。
该方法获得文献针对性强、数量较多,在没有检索工具或检索工具不齐备的情况下,利用此法能够获得一些所需要的文献资料。
3.可视化:将数据库中不可见的语义关系以图像的形式可视化显示,并表达用户检索过程。
一个可视化的环境为用户展示更丰富、更直观的信息,一个透明的检索过程使检索更容易、更有效。
它包括检索过程的可视化和检索结果的可视化。
可视化信息检索技术缩短了用户理解信息的时间,提供了感觉和思考之间的有效反馈机制,它代表着信息检索的未来,将会取代以布尔逻辑为基础的、传统的信息检索系统。
4.自动标引:是指直接通过计算机的操作处理,自动实现赋予检索标志的活动。
分为自动主题标引和自动分类标引,即根据计算机内信息(标题、摘要或全文),借助算法自动给出反应主题内容的标引词和自动分配分类号。
5.全文扫描:是以从文本文档中找出与查询表示的字符串完全一致的部分为目的,检索结果返回包含查询字符串的文本及其位置的检索技术。
6.查全率:查全率是指从检索系统检出的与某课题相关的文献信息数量与检索系统中实际与该课题相关的文献信息总量之比。
对于数据库检索系统,查全率为检索出的款目数与数据库中满足用户检索式需求的款目数之比;而对于互联网信息检索系统来说,文献总量是很难计算的,甚至连估算都困难。
在这里人为因素的影响比较大。
相对查全率=(专业人员检出文献的数量数/全部实际检出文献集合并集中文献数量) *100%7.图像信息抽取:是指从数字图像中抽取包括基于文本的特征(说明,注释等关键词)和视觉特征或底层特征(颜色,文理,形状等),作为图像的特征描述,支持信息检索。
信息检索复习
信息检索复习1.文献信息的类型和特点?划分文献类型的方法有哪些?文献信息资源是人类用文字、数据、图像、声频、视频等方式记录在一定载体上的信息资源。
特点:知识性:知识性是文献的本质,离开知识,文献便不存在。
传递性:文献能使人类的知识相互传播和发展。
动态性:文献所含的知识信息随着社会和科技的发展在不断地运动。
划分方法:按载体材料划分:印刷型、缩微型、声像型、电子型按撰写目的和文体划分:著作、学术论文、专利说明书、科技报告、技术标准按加工深度划分:零次文献、一次文献、二次文献、三次文献、高次文献2.一、二、三次文献信息的主要代表有哪些?它们各有何特点?一次:专著、学术论文、专利说明书、科技报告等。
具创造性的特点。
可直接借鉴和参考使用,是人们检索和利用的主要对象。
二次:各种目录、索引(题录)和文摘特点:汇集性和检索性。
其重要性在于:它提供了一次文献信息资源的线索,三次:参考工具书、百科全书、年鉴、手册、名录、评述或综述等。
具有综合性强、针对性强,系统性好的特点。
有较高的利用价值。
3.信息检索的类型有那几种?分别检索哪种数据? 各有何特点?书目信息检索:相关性检索,提供线索全文信息检索:直接查找原文数据信息检索:查找数值型信息事实信息检索:查找发生的事件4. 书目信息检索的对象是什么?标题、作者、来源出处、摘要及收藏地点5. 信息检索的技术有哪些?布尔检索、词位(近义)检索、截词检索、限制检索6. 如何正确使用各种逻辑符号编写提问式,正确表达研究课题对信息的需求?7 . 数据库的结构和类型及其特点?参考数据库:主要存储一系列描述性信息,指引用户到另一信息源以获得完整的原始信息的一类数据库.(书目,指南)源数据库:主要存储全文、数值、结构式等信息。
能直接提供原始文献信息或具体数据,用户不必再转查其它信息源的数据库8.在维普中文科技期刊数据库、中国期刊全文数据库中可采用系统提供的哪些功能来提高信息的查全率和查准率?同名词,模糊,同名作者。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索复习要点第一章一、情报和文献1.情报(P4 1.2.3)情报就是为了解决一个特定问题从一定文献资料中提取或经过传递获得的知识。
知识性、传递性、针对性是情报的3个基本属性。
2.文献(P5 1.2.5)记录有知识的一切载体叫文献。
知识内容、信息符号、载体材料、记录方式是文献的4个基本要素。
二、文献按载体划分(P5~6 1.3.1)1.印刷型2.微缩型3.视听型4.电子型三、文献级次划分(P6 1.3.2)1.零次文献:非正式出版物或非正式渠道交流的最原始的文献。
如手稿、演讲、听取经验交流,甚至包括口头言论。
2.一次文献:依据作者本人的研究或成果制作成果创作的文献,即通常所说的“原始文献”、“第一手资料”。
如图书、期刊论文、科技报告、学位论文、专利说明书等。
(原创性)3.二次文献:按一定的方法对一次文献进行加工,使之有序化而形成文献。
如目录、索引、文摘等。
(有序性)4.三次文献:一般是围绕某个专题或出于特定目的,根据二次文献提供的线索,选用大量一次文献的内容,经过筛选、分析、综合和浓缩等深度加工而形成的文献。
如各种评述、进展报告、教科书、词典、年检、百科全书等。
(综合性)四、ISBN和ISSN(P7~9 1.3.3)1.ISBN(国际标准书号)(1)它是由国际标准化组织1972年公布的一项国际通用的出版物统一编码。
它是由10位数字组成,共分4段【组号、出版社号、书序号、校验码(1位数,ISBN最后一位数值)】。
(2)校验方式:将ISBN 1~9位数字顺序乘以10、9、8、7、6、5、4、3、2这9个数字,将这些乘机之和再加上校验码,如果能被11整除,则这个ISBN号是正确的。
2.ISSN(国际标准连续出版物编号)(1)实现对全世界文献的管理。
由8位数字组成分2段,每段4位数字。
中间用“-”隔开前7位是刊名代号,最后一位是计算机检验位。
(2)检验方式:将ISSN 1~7位数字顺序乘以8、7、6、5、4、3、2这7个数字,将这些乘机之和再加上检验号,假如能被11整除,则这个ISSN号是正确的。
第二章一、信息检索(P12)从广义的角度讲,文献检索是指把文献按一定方式组织和存储起来,并针对用户的需求找出所需的文献过程,亦叫信息检索。
而人们一般所指的文献检索,是指狭义的文献检索,即最后一个过程——信息检索,文献的查找过程。
二、信息检索的类型(P13 2.1.2)1.按照检索的对象的不同,人们将信息检索分为文献检索、数据检索和事实检索。
2.按照检索的方式的不同,人们还常将它分为手工检索和计算机检索。
三、图书的四大常用检索点(P20 2.3.1)1.书名2.作者3.主题词4.分类号四、检索语言的基本种类(P19 2.3)检索语言是文献检索中用了描述文献特征和表达信息提问内容的一种专门化的人工语言,是信息组织和文献检索共同使用的语言。
检索语言大致分为分类语言(P19)和主题语言(P24)两种。
(1)最早的图书分类法(P20 2.3.1 2)我国西汉刘向、刘歆父子所著的《七略》。
它首创的“七分法”对后世我国的分类思想的形成和发展影响极大。
(2)四库全书(P21 小资料)纂修与清乾隆年间的《四库全书》,从收集编纂到成本,共用10年(1173-1782),集我国古代文献典籍之大成。
共著录图书3461种,79309卷,36000余册。
《四库》将各种书籍分为经部、史部、子部、集部。
各部下分若干类,类下细分为属。
(3)全球使用最广的分类法(P21 2.3.1 3)《杜威十进分类法》(DDC)是当今世界上影响最大、用户最多的图书馆分类法。
(4)、中图法(P23 2.3.1 4)《中国图书馆图书分类法》是我国建国后编制出版的一部具有代表性的大型综合性分类法,简称《中图法》。
它首先将知识门类分作哲学、社会科学、自然科学三大部类,同时根据马克思列宁主义、毛泽东思想的指导作用和文献分类本身的需要,增设马列主义、毛泽东思想和综合性图书两大部类,构成5大部类。
根据文献分类的需要,类表将马列主义、毛泽东思想,哲学和综合性图书3个基本部类直接设置为基本大类,同时将社会科学部类扩充为9个基本大类,自然科学部类扩充为10大类,这就构成了22个基本大类。
(分类表如下)《中图法》基本大类展开示意表马克思主义、列宁主义、毛泽东思想············A 马克思主义、列宁主义、毛泽东思想、邓小平理论哲学········································B 哲学社会科学····································C 社会科学总论D 政治、法律E 军事F 经济G 文化、科学、教育、体育H 语言、文字I 文学J 艺术K 历史、地理自然科学····································N 自然科学总论O 数理科学和化学P 天文学、地球科学Q 生物科学R 医药、卫生S 农业科学T 工业技术U 交通运输V 航天、航空X 环境科学、劳动保护科学综合性图书··································Z 综合性图书五、文献检索的方法(P27 2.4)1.常用法(也称工具法)(1)顺查法(2)倒查法(3)抽查法2.追溯法3.循环法(也称综合法)六、文献检索的程序(P30 2.4.3)(可能论述:从检索程序入手,就一个检索课题如何利用纸本文献、数据库、网络资源全面搜集资料)1.分析待查项目,明确主题概念2.选择检索工具3.确定检索途径和检索标识4.查找文献线索,索取原文七、查全率和查准率(P31 2.4.4)1.查全率亦称检全率、命中率、召回率等,指系统实验检索时检出的与某一检索提问相关的信息资源数与检索系统中与该提问相关的实有信息资源的总数之比。
查全率=检验出的相关信息资源量/系统相关信息资源总量* 100%查全率反映的是检索系统检出的相关信息资源的能力2.查准率亦称检准率、相关率、检索精度,指系统实施检索时检出的与某一检索提问相关的信息资源数与检出的信息资源总是之比。
查准率=检验出的相关信息资源量/检出的信息总量* 100%查准率反映的是检索系统排除与检索提问无关信息资源的能力第三章一、计算机检索的四个阶段(P34 3.1.2)1.脱机检索时代2.联机检索时代3.光盘检索时代4.网络检索时代二、学会提炼检索词三、布尔检索及逻辑组配(P39 3.2.1)规定检索词之间的逻辑关系的运算符,称为布尔逻辑运算符。
布尔逻辑运算符包括逻辑“或(OR)”、“与(AND)”和“非(NOT)”。
1.或(OR)运算符,也可用“+”代替,表示并列。
其含义是,检索的记录至少有两个检索词中的一个。
2.与(AND)运算符,也可用“*”代替,表示相交关系或限定关系。
其含义是,检出的记录中,必须同时含有所有的检索词。
3.非(NOT)运算符,也可用“-”代替,表示排除不需要的检索词。
用于缩小检索范围。
四、检索策略(P50 3.3)广义上的检索策略是为实现检索目标而制定的全盘计划或方案,指导整个检索过程狭义上的检索策略师指检索式。
它是用来表达用户提问的逻辑表达式,是对多个检索词之间的相互关系和检索顺序作出某种安排,是整个检索策略的综合体现。
1.扩检(P55 3.3.5)一般将设置的检索范围太小,命中文献不多,需要扩大检索范围的方法称之为扩检。
2.缩检(P55 3.3.5)一般将设置的检索范围太大,命中文献太多,需要缩小检索范围的方法称之为缩检第四章一、IP、DN、URL(P63 4.1.2 5)1.IP(Internet Protocol 互联网协议地址)为了使加入互联网的计算机在通信时能够相互识别,网际互联IP协议规定每台正式入网的计算机都要有一个唯一的网络IP地址。
一个IP地址由4个字节共32位的数字串组成,这4个数字串用小数点分隔。
每个字节的取值范围0~255,可用十进制或十六进制表示。
IP地址是互联网信息定位所必须的,每台上网的计算机都有一个唯一的IP地址,它的作用类似于上网计算机在信息高速公路上的门牌号码。
【如120.94.184.118(重师大学城雅风苑A栋某寝室端口IP)】2.DN(Domain Name 域名)由于IP地址是数字形式,不便记忆,互联网就采用了域名系统(DNS),依据通信地址给每台主机起一个名字,这个名字就被称为域名(DN)。
域名一般由2~5段字符组成,采用层次结构,每一层构成一个子域名(Sub-domain),各子域名之间以圆点分隔最右边的子域名是顶级域名(Top-level domain)。
【如重庆师范大学的域名表示这台主机是在中国(cn)这个顶级域名下,属于教育机构(edu)这个子域名,cqnu表示这个这是重庆师范大学内的一台主机,www 是它的主机名(说明他是一台Web服务器)】3.URL(Uniform Resources Locator 统一资源定位器)为了使连入互联网的计算机查询信息时,特别是通过Web浏览器查询信息时,有一个标准的资源地址访问方法,人们开发了一种标识方法,成为统一资源定位器(URL)。