第一章信息检索基础知识

合集下载

001-信息检索__第一章

001-信息检索__第一章

● 讨论信息检索系统
● 梳理信息检索方法 ● 阐释信息检索效果的评价
1
第1章 信息检索基础
1.1.1 信息的含义与特征 1.1 信息概述
1.1.1.1 信息的含义 信息的含义有广义和狭义之分: 广义的信息指自然界和一切人 类活动所传达出来的信号和消息, 是事物表现的一种普遍形式。 狭义的信息指经过搜集、记录、 处理和存储的可供检索的文献、数 据和事实。它是人类对客观事物的 认识,是实践经验的总结,是认识 的结果,是我们检索的对象。
8
第1章 信息检索基础
1.2 信息检索 的原理和概念
1.2.1 信息检索的概念
信息检索从广义的角度讲,包含 信息存储和信息获取两个过程。 信息存储指通过对大量无序信息 的选择和收集著录和标引等方法,建 成各种各样的信息检索工具或信息检 索系统,使之成为有序化信息集合的 过程。 信息获取是存储的逆过程,其实 质是根据特定的需求,运用已组织好 的检索系统,将特定的信息查找出来。
16
第1章 信息检索基础
1.4.1 直接浏览法
直接浏览法也称直接查找法,指检索者不依靠任何检 索工具或检索系统,从本专业最新核心期刊或其他文献中 直接阅读原文或浏览最新目次而获取文献的方法。这是一 种最常见的信息资源的获取方式。因为编制检索工具需要 时间,有的半年,甚至长达一年之久,直接浏览可以及时 获得最新文献。但利用这种方法查找的信息不全面、不系 统、且局限性较大,不能作为查找文献的主要方法。

文献信息检索基础知识

文献信息检索基础知识

9
可编辑ppt
第1节 文献信息检索的基本概念
世界上著名的科技报告有美国四大报告:
PB——美国商业部 AD——美国军事国防部 NASA——美国宇航局 DOE——美国能源部 这四大报告每年公开和解密部分约6万件。 科技人员对科技报告的需要量约占其全部文献量的 10%-20%,特别在是发展迅速、竞争激烈的高科技领域。
10
可编辑ppt
第1节 文献信息检索的基本概念
专利文献(patent document)
专利文献是一切与专利制度有关的专利文件的统称, 如专利申请书和专利说明书、专利公报。
专利说明书是公开的文献,但只能由各国专利局发行, 它反映了当前最新的技术成果。
学位论文(dissertation, thesis) 是作者为获得某种学位而撰写的科学论文。博士论文 具有较高的参考价值: 一般偏重于理论,附有大量的参考文献,借此可以看 出有关专题的发展过程和方向。 学位论文一般不出版发行,而是保存在授予学位单位 的图书馆里。
5
可编辑ppt
第1节 文献信息检索的基本概念
可具体分为 科技图书 Sci-Tech book,Monograph, Anthology, Textbook,Reference book 科技期刊 Sci-Tech Journal (magazine*, serial, periodical…) 科技报告 Sci-Tech Report 专利文献 Patent Document,Patent specification/bulletin 会议文献 Conference paper,Proceedings, compilation, collected paper, records,meeting,seminar, colloquium, symposium, conference 学位论文 Dissertation, Thesis 标准文献,产品资料, 技术档案,政府文献

信息检索基础知识

信息检索基础知识

第一章信息检索基础知识

一.概述

1.信息与文献信息

知识的分类:已掌握的知识和需查询的知识。

信息的定义:信息是事物运动的状态与方式,是物质的一种属性,并且借助于一定的物质载体传输和储存。

这里有几个词组需说明:

事物:泛指一切可能研究的对象(包括物质的和精神的)。

运动:泛指一切意义上的变化(机械运动、化学运动、思维运动和社会运动)

运动方式:在时间上所呈现的过程和规律:

运动状态:在空间上所展示的形状和态势。

信息已成为与物质、能量同样重要的三大资源之一。

信息是一种原料,人类接受外界大量信息后,经过实践活动和大脑的思维机制加工提炼后变成有用的知识(知识的认识程度)。

文献:将知识记录并保持在一定的载体上,就形成了文献。文献信息是文献所表达的内载信息,以文字、符号、声像信息为编码的人类精神信息,也是经过人们筛选、归纳和整理后记录下来的信息。科技文献是科学技术研究成果的记录,积累了许多有用的事实、数据、理论、方法和科学假设,反映了科学技术研究的进展和水平,是科学信息的主要来源。

2.信息的特点

(1)普遍性;信息是无处不在,无时不在的,c从宏观的宇宙天体到微观粒子,从自然界到人类社会,万事万物都是信息的母体;

(2)时效性:信息的获得和传送需要时间,信息反映的总是特定时刻事物的运动状态和方式,当人们获得信息后,它反映的是某段时间的事物,是一种历史纪录,如果传递很慢,信息就会失去应有的价值;

(3)传递性:指信息的空间和时间效应,信息可以从一个地方传到另一个地方,从一个时期传到另一个时期;信息的传递决定了信息的可扩散性,信息是通过各种渠道、媒介传播和扩散;

信息检索 第一章 基础知识

信息检索 第一章 基础知识

文献识别特征

图书:包括教科书、专著、论文集、手册等

ISBN、出版社、出版地、Press Inc. Publication Inc. Publishing Co. 等 ISSN、刊名(斜体)、年、卷、期、Vol.、No. 会议名称、届次、会议地点、主持单位、Proc. Conf. Proceedings Symposium Conference 等
期刊



期刊特征:ISSN、 CN、 年、卷、期 卷、期 Vol.2 No.4 V2 N4 2(4) 国际标准期刊号ISSN,由8位数组成 判 例: <<电脑爱好者>> 断 国 ISSN1005—0043 内 国内统一刊号 非 法 CN11― 3248 /TP 期 刊 地区号 顺序号 分类号
内部准印证

信息、情报、知识和文献的关系
信息是生产知识的原料,知识是被人类系统 化后的信息,文献是存储、传递知识信息的载体。
文 献
情 报
知 识
信 息
信息的传递渠道
●非正式过程
表现为个人的行为特征。对话、通信、演讲、授课
●正式过程 表现为文献流通。借助文献系统进行正式交流
信息检索

信息检索




是指将文献信息按一定的方式组织和储存起来,并能根据用户 的需要取出所需特定信息的整个过程。 数据检索 以文献中的数据为对象的一种检索。如某公式、某化学分子 式等。 事实检索 以文献中的事实为对象,检索某一事物发生的时间、地点或 过程。 文献检索 以文献为对象,查找某个课题的有关文献的一种检索。

信息检索基础知识

信息检索基础知识

授人以鱼
不如授人以渔
二、信息资源检索课要学习的内容有哪些?
第一章:信息检索基础知识 第二章:网络信息检索 第三章:图书信息检索 第四章:报刊信息检索 第五章:特种文献检索 第六章:中文数据库检索 第七章:科技论文写作
三、学习这门课对我们有什么用?
有利于减少重复劳动,提高科研成功率。 有利于节省科研时间,提高科研效率。 有利于为决策提供科学依据。 有利于培养复合型、开拓性人才。 有利于人们进行终身教育和终身学习。
四、信息资源共享
1、信息资源共享的概念 信息资源共享(Information Resource Sharing): 是指图书馆在自愿、平等、互惠的基础上,通过建立图书 馆与图书馆之间和图书馆与其他机构之间的各种合作、协 作、相互协调关系,利用各种技术、方法和途径,开展共 同提示、共同建设和共同利用信息资源,以最大限度地满 足用户信息资源需求的全部活动。
电子型:
定义: 采用高技术手段,将信息存储在磁盘、光盘等一
些媒体中,形成的多种类型的电子出版物。是计算 机对电子格式的信息进行的存取和处理。 优点:
信息量大、存储速度快、查找方便、易于编制二 次文献等。 缺点:
设备昂贵、使用费用高。
例如;光盘、U盘、硬盘等。
多媒体型:
定义: 采用超文本(Hypertext)或超媒体(Hypermedia)
文献加工困难,阅读不方便。

信息检索基本知识

信息检索基本知识

一.体系分类法和分类检索语言 二.主题法和主题检索语言 1 2 3 标题词语言 叙词语言 关键词语言
第四节 缩略语与音译
一、缩略语 科技文献中常有很多缩略语,如 单词缩写、期刊刊名缩写、学会和机 构名称及会议名称缩写,等等。在检 索工具中缩略语更是常见,目的是简 化书写和排印手续,节省篇幅,加快 出版速度。一般在检索工具中配有缩 略语表,从中可查到缩写的全称。
文献的载体形式: (1)印刷型 (2)缩微型 (3)视听型 (4)机读型
文献的级别: (1)一次文献 (2)二次文献 (3)三次文献
第二节 文献检索与信息检索 一、 定义 检索,是根据特定的需求,运用某种 检索工具,按照一定的方法,去寻找资 料或信息的工作过程,这种方法利用的 是序化的信息系统和信息业提供的服务 来满足自己的信息需求。 检索可分为文献检索(documents retrieval) 和信息检索(information retrieval)。
(2) 常用法 : 利用检索工具来查找
文献的方法。它又可分为倒查法和顺查法. 倒查,就是由近及远地逆时间查找.它的 倒查 重点是放在近期文献,只需查到基本满足要 求时间为止. 顺查, 顺查,就是由远及近地顺时间查找。例 如,已知某项发明的产生年代,现在需要了 解它发展的全过程,就可以运用顺查法从最 初的年代开始,逐步往近期查找。
查全率=—— x w 查准率=—— m

网络资源与信息检索(本科)讲课要点与考试重点

网络资源与信息检索(本科)讲课要点与考试重点

网络资源与信息检索(本科)讲课要点

第一章信息检索的基础知识

讲课要点:

一、信息

(一)基本概念(P1-2)

1、信息:物质存在方式和运动状态的反应,在发生源和吸收源之间,当发生源发出的信号被吸收源所理解,信号就成为信息。

2、文献:大凡人类的知识用文字、图形、符号、声频、视频的手段记录下来的东西,统统可称为文献。也可以称为固化在一定载体上的知识。

3、资料:固化在一定的实物或载体上的知识。

4、信息的传递渠道

(二)信息的类型及特点(P4-7)

从不同的角度信息可以分为不同的类型

1、加工层次(请注意这三者的不同与联系)

(1) 一次信息(原始文献)

(2) 二次信息(检索工具)

(3) 三次信息(参考工具)

2、出版形式——图书、期刊、特种文献,结合教材P24-25的内容

(请从基本概念、内容特点、著录特点三个方面着重掌握图书、期刊、会议、专利、标准、学位六种类型)

3、物理类型——印刷型、缩微型、机读型、声像型

4、按信息的性质划分P7

5、按信息所表征的服务对象划分P7

二、信息检索(P2-4)

(一)信息检索

就是从大量的文献中查寻与信息提问所指定的课题(对象)有关的文献,或者是包含用户所需事实与消息的文献的过程。

它包括三个方面:

数据检索、事实检索、文献检索

数据检索、事实检索、文献检索三者中以文献检索为主。数据和事实检索是检索出包含在文献中的具体情报;文献检索则是要检索出包含所需要情报的文献。

(二)文献检索及其类型

1、定义:

检索系统的建立及检索工具的组织和积累

文献的查寻,利用检索工具检出与课题相关的文献。

2、直接检索

信息检索学习笔记

信息检索学习笔记

信息检索

第一章信息检索的基础理论

第一节基础概念

一、信息概述

(一)信息的定义:信息指的是事物的存在方式和运动状态,是对客观世界中各种事物变化和特征的反映,是客观事物之间相互作用和联系的表征,是客观事物经过感知或认识后的再现。

世界三大基本要素:信息物质能量

(二)信息的特征

1.客观性

①信息来源于物质,又不是物质本身;它从物质的运动中产生出来,又可以脱离物质相对独立地存在。②信息业来源于精神世界,但又不限于精神的领域。

③信息是具体的,并且可以被人所感知、提取、识别,可以传递、存储、变换、显示、检索和利用。

2.普遍性3.可存储性4.可传递性5.扩散性6.共享性7.时效性

(三)信息的功能

1.经济功能

①运用信息可以使非资源转化为资源创造财富。②使用信息取代劳动力、资金、材料等资源创造财富,实现经济效益倍增。③直接让信息作为商品在市场流通中创造财富。④通过信息进行科学决策,减少失误,创造财富。

2.管理与协调功能

5M资源:人、财、物、设备、管理办法

信息的管理与协调功能在组织活动中的作用:

①传递整个组织的运行目的,有效管理5M资源。②调节和控制物质流和能源流的数量、方向和速度。③传递外界对系统的作用,保持组织的内部环境稳定。

3.选择和决策功能

4.研究与开发功能

二、知识

1.知识的概念:知识是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映,是人类对自然界、人类社会以及思维方式与运动规律的认识。

2.知识的类型

①显性知识和隐性知识。②实体知识和过程知识。③核心知识和非核心知识。

三、情报

1.情报的概念:情报是具有特定传递对象的特定知识货有价值的信息。

第一章 文献信息检索基础知识

第一章 文献信息检索基础知识
ISBN由10位数字分成4段组成,分别为:组号(国家、地区、语言
代码)---出版社代码---书序码---校验码。 国家、地区、语言代码:英、美、加、南非等英语区为0,其它英
语区为1;法语区为2(如法国及法属殖民地);德语区为3;日本
是4;俄语区为5;中国大陆为7;印度等为8;东南亚地区为9。 出版社代码(2-6位):一个出版社只有一个代码,如人民出版社 代码为01;清华大学出版社为302等。 书序码(1-7位):出版社给本社出版的书籍的一个专用号。 校验码(1位):根据ISO标准计算获得,如978-7-5064-6403-1。 例子: 7-302-02372-7 注意:2007年1月1日后,在原来10位数字前加上3位图书产品代码978
容易 。
(三)文献类型--按文献出版划分:
识别要素:题名、著者、会议名称、会议地址、会议时间、页码。 程新峰,张慜*. 超声波和脉冲真空处理对草莓渗透脱水动力学和水
分状态的影响. 中国食品科学技术学会, 南京,2013.10.29, p65-66.
Xiaohu Luo, Ren Wang, Zhengxing Chen*. Application of ozone in detoxification of aflatoxin B1 in corn and safety evaluation on toxicity in Kunming mice. The 1th International mycotoxin conference, Beijing, 2014.5.21-27, p128.

第一章 信息检索基础

第一章 信息检索基础

第一章信息检索基础

1.该章的基本要求与基本知识点

(1)信息与信息源概述

(2)信息检索的概念、类型和基本原理

(3)信息检索的目的和意义

(4)检索系统概述

2.教学重点、难点

不同类型信息源的特点、检索的基本原理、信息描述与标引、检索系统的构成原理

美国未来学家奈斯比特在《大趋势》一书中指出:“我们淹没在信息中,但是却渴求知识。”“在信息社会中,没有控制和没有组织的信息不再是一种资源,它倒反而成为信息工作者的敌人。”

随着社会的发展,一方面,信息量越来越大,信息技术越来越先进,人们在工作、学习与生活上越来越依赖信息;另一方面,人们面对巨量的信息资源,却又难于有效地获得自己所需要的信息,这就是信息社会的信息超载(information overload)给人们带来的困惑。

具有良好信息素养的人能够知道什么时候需要信息,能够有效地获取、评价和利用所需要的信息。作为信息用户,只有具备了很强的信息意识和信息能力,才可能合理分配与使用自己的注意力,更好地注意周围的信息并分析鉴别各类信息对自己的价值,并及时从中获得有用的信息,满足生活和工作的需要。

1974年,美国信息产业协会主席Paul Zurkowski在给美国图书馆与信息科学委员会的报告中首次提出;他认为:信息素养是利用大量的信息工具及主要信息源使问题得到解答的技能。

联合国UNESCO(United Nations Educational and Culture)2003年9月召开首次信息素养会议,发表了布拉格宣言:走向信息素养社会。会议宣布:

◆信息素养是终身学习的一种基本人权(Information Literacy is a basic human right

信息检索第一章

信息检索第一章
《信 息 检 索》
张倩

21世纪是一个高度信息化的社会, 信息 已成为现代社会赖以生存和发展的三大支 柱(信息、物质、能源)之一。信息就是 商品、信息就是财富、信息就是资源、信 息就是机会,因此,如何获取信息和利用 信息将成为人们终身学习的基本技能。

《信息检索》课的目的是培养学生的信 息意识、信息检索能力、信息吸收能力和 信息整合能力,最终提高学生的信息利用 能力和知识创新能力。
图书的特征: 除书名外,还有出版社、 出版地、图书的总页数(PP),有时还有 国际标准书号(ISBN). R.霍克著.Internet通用搜索引擎检索指 南.沈阳:辽宁科学技术出版.2003.2.ISBN 7-5381-3849-8
说明:2007年起ISBN分5段,依次是:前缀 、组号(代 表国家、地区或语种)、出版者号、书名号、校验位
• 例如查找有关“船舶螺旋桨的计算机辅助 设计与制造”的文献.
在网络中查资料、找信息?
存在的问题
• 学术性内容极少 • 知识链接是线性的 • 内容良莠不齐
除此以外,还有别 的好的办法吗?
用数据库查找
• ((( (主题=中英文扩展(计算机辅助设计) 或 者 主题=中英文扩展(CAD))) 或者 (主题=中 英文扩展(计算机辅助制造) 或者 主题=中英 文扩展(CAM))) 并且 (主题=中英文扩展(船 舶) 并且 主题=中英文扩展(螺旋桨)))(精确 匹配)

信息检索基本理论部分

信息检索基本理论部分

四、文献
1 文献的概念
文献是记录有信息的一切载体。具体来说, 文献是记录有信息的一切载体。具体来说, 文献就是将信息用文字、图形、代码、视频、 文献就是将信息用文字、图形、代码、视频、声 频等记录在一定物质载体上形成的结合体。 频等记录在一定物质载体上形成的结合体。 2 文献的构成 文献由文献信息( )、符号系统 文献由文献信息(文献的内容 )、符号系统 信息的携带者) 文献载体( (信息的携带者) 、文献载体(符号赖以依附的 寄主” 和记录方式( “寄主” )和记录方式(符号进入载体的方法和 过程)四个要素构成。 过程)四个要素构成。
季节
2 知识的分类
知识的一般分类: 知识的一般分类: 知事(know-what): know-what): 即关于事实的知识 知因(know-why): know-why): 关于科学原理和自然科学方面的知识 技能(know-how): know-how): 做事的技巧和能力 知人(know-who): know-who):
出版的手稿、书信、笔记、实验记录、谈话记录等。
一次文献: 一次文献:是指作者以本人的生产、科研、社会活动等为基本素
材而创作出来的文献,也称原始文献。大部分期刊论 文、会议论文、学位论文、科技报告、 专利文献、标 准文献等都是一次文献。
二次文献:是对一次文献进行整理、加工、浓缩、提炼的产物, 二次文献:

科技信息检索基础知识[1] 第一章

科技信息检索基础知识[1]  第一章
文献内容 主题分析 主题概念 文献描述 检索需要 主题分析 主题概念 文献描述
检索语言
检索标识 检索工具 结果 提问标识
二,信息检索的类型 1,信息检索根据检索(查找)对象的不同, 可以分为: 文献检索 事实或数据检索. 文献检索:是以文献为检索对象,从已 存储的文献库中查找到的是关于文献的 信息或文献全文. 事实或数据检索:是以事实或数据为检 索对象的检索.例如,查喜马拉雅山有 多高?世界上最长的桥有多长?某同类 产品中,哪种牌号的销量最大?
第一章 科技信息检索基础知 识
第三节 信息检索的概念与类型
一,信息检索的概念 1,广义的信息检索:是指将信息按一定 的方式组织和存贮起来,并根据信息用 户的需要找出有关信息的过程和技术. 它包括文献信息的存贮与检索两个过程. 2,狭义的信息检索:是指从信息集合中 找出所需要的信息的过程.
3,文献检索与存储的过程 存储过程 检索过程
三,分类检索语言与分类法 1,分类检索语言:是一种按学科范畴和体 系来划分事物的检索语言.或者依据概 念的分析与综合原理将概括事物的概念 组织起来的检索语言. 其具体表现形式是分类法. 分类法. 分类法 2,分类法分为:体系分类法 分面分类法
3,什么是体系分类法?
体系分类法又称等级分类法,列举式分类法.
是运用逻辑分类的原理,按照文献内容 所属的学科,专业性质及特征,对文献 信息进行层层划分,层层隶属,构成类 目等级体系的类分方法. 体系分类法是由主表,标记符号,复分 表,编制说明,类目注释,索引等5部分 组成.

信息检索与利用-第一讲1

信息检索与利用-第一讲1

3.二次文献
二次文献也称检索文献,是信息部门将那些分散的、 无组织的一次文献,用一定的方法经过加工整理、归纳、 简化,把文献的外表特征和内容特征著录下来,使之成为 有组织、有系统的检索工具,如书目、题录、文摘、索引 等。
4.三次文献
三次文献也称参考性文献,是在二次文献的基础上选 用一次文献的内容进行分析、概括、综合研究和评价而编 写出来的文献。它可以分为综述研究和参考工具两种类型。 前者如动态综述、学科总结、专题述评、进展报告等;后 者如年鉴、手册、大全、词典、百科全书等。
● 情报( Information )
情报与信息在英文中为同一个词 Information,但信息的外延 比情报广,信息包括情报。 “情报是在特定时间、特定状态下,对特定的人提供的有用 知识。” 情报是被传递的知识。 情报的三个属性: 知识性、传递性、效用性
● 文献 (literature)
文献是指以文字、图像、符号、声频、视频、代码的手段 将信息、知识记录或者描述在一定的物质载体上,并能起 到存储和传播信息情报和知识作用的一切载体。 《中华人民共和国国家标准 文献著录总则》: 文献是记录有知识的一切载体。
自然信息:由自然界的物质运动发出,通过声波、电磁波和 物质的作用表现出来。 社会信息:由人类社会活动发出,通过人的语言、文字、图 像、符号、手势以及记录有上述内容的各种载体等形式表现 出来。 信息的属性——客观存在性 信息的作用——消除不确定性 信息的形式——数据、消息等事实 梦断美人沉信息,目穿长路倚楼台;李中 《暮春怀故人》 塞外音书无信息,道傍车马起尘埃;杜牧 《寄远》

第一章信息检索理论基础

第一章信息检索理论基础

信息检索技术—信息检索常用技术 信息检索技术 信息检索常用技术
(5)加权检索技术:加权检索的侧重点并不是在于是否检索到某篇文 献,而是对检索出的文献与需求的相关度作评判。 (6)多媒体检索技术:基于内容的多媒体信息检索是指根据媒体和媒 体对象的内容及上下文联系在大规模多媒体数据库中进行检索。它的研究目 标是提供在没有人类参与的情况下能自动识别或理解声音、图像、视频重要 特征的算法。它包括基于内容的声频检索和基于内容的图像信息检索二类。 基于内容的多媒体检索技术的日益成熟不仅将创造出巨大的社会价值,而且 将改变人们的生活方式。 (7)超文本检索:超文本是一种信息的组织方法,它把不定长的基本 信息单元存放在结点上,这些基本信息单元可以是单个字、句子、章节、文 献,甚至是图像、音乐或录像,结点以链路方式链接,链路可以分为层次链、 交叉引用链、索引链等,构成网状层次结构。超文本的特点是以联想式的、 非线性的,链路的网状层次关系,允许用户在阅读过程中从其认为有意义的 地方入口,直接快速地检索到所需要的目标信息。
信息检索原理—信息检索模型 信息检索原理 信息检索模型
(6)相关反馈模型:用户在使用信息系统时,需要将自己的信息需求按 照系统所使用的概念和表达方式输入到系统中,由于用户表达问题的方式各有 不同,在将信息需求表达为提问式时会与原意有一定的出入,这样,就难以保 证检索到的文献能非常好地满足用户的需求。因此,一般的信息检索系统中都 需要有一种反馈装置,使用户可以通过反馈修改自己的提问式,从而达到较圆 满的检索目的。 (7)信息检索模型的发展趋势:20世纪70年代末,人们又重新着手对传 统的布尔模型进行研究,并对改进布尔检索做了大量的工作。如用截词检索以 改进提问式中对同义词列举不全造成的漏检现象,用概念加权检索以弥补传统 布尔检索中不能揭示概念与检索主题相关程度的缺陷。因此,在今后信息检索 的理论研究中,布尔检索的研究仍将占据十分显著的地位。目前,商用信息检 索系统主要以布尔模糊逻辑加向量空间模型为主,辅以部分自然语言处理。自 然语言处理,特别是自然语言理解在信息检索中应用,将大大提高信息检索的 精度和相关性。文本检索中常用布尔模型,向量空间、相关反馈模型常被用在 多媒体检索、搜索引擎、自动分类、智能检索、数据挖掘等技术中。

08信息检索复习纲要

08信息检索复习纲要

第一章信息检索基础知识

1.信息、文献、资料的概念及其包含关系,文献

2.信息定义:物质存在方式和运动状态的反应,在发生源和吸收源之间,当发生源发出的

信号被吸收源所理解,信号就成为信息

3.信息特征:预先性(如天气预报,必须是提前的,落后则失效) 实用性时效性可传递

4.信息的分类及特点

1)按载体的出版编辑特点:分有十二大文献类型(及各自特点)

图书:是对科研成果、生产技术和经验的总结性的概况论述

内容特点:系统性好、完整性好;出版周期较长,报道速度相对较慢

著录特征:著者、出版项(出版地、出版社名和出版年份)、国际标准图书号(ISBN)期刊:期刊一般是指名称固定、定期或不定期连续出版物。

特点:内容新颖报道速度快系统性差

著录特征:ISSN、 CN、年、卷、期(邮发代号内部准印证)会议文献:研究人员在各种学术会议上交流科研新成果、新进展、及发展趋势的讨论记录或论文(通称会议论文)

•特点:传递信息及时、针对性强、内容新颖

•一部分科研成果就是通过学术会议首次发表的

•会议文献特征:有会议召开的地点、届次、时间,以及会议录的出版社、出版地、出版时间等

专利文献:是一种用法律形式来保护的文献,专利文献主要由专利说明书构成。

专利说明书是公开的文献,但只能由各国专利局发行,它反映了当前最新的技术成果。专利说明书对于工程技术人员,特别是产品工艺设计人员来说,是一种重要情报源。

申请专利三个条件:新颖性、创造性和实用性

中国专利类型:发明专利、实用新型专利、外观设计专利

科技报告:是指国家政府部门或科研生产单位关于某项研究成果的总结报告,或是研究过程中的阶段进展报告。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
源自文库
直接检索:指直接从信息源和文献载体中获取信息, 它是信息用户常用的检索方法,用这种方法检索时可以 明确判断检索到的信息是否符合需要,但很难广、快、 精、准地查到所需的全部信息。 间接检索:它把信息资料加上多种检索标志,并按 照这些标志把信息有效的组织起来,在检索时利用这些 标记可以查到所需信息的线索或信息本身。所以我们学 习信息检索的方法和技巧,主要指间接检索方法,掌握 使用检索工具和检索系统的技巧以提高检索的效率。
三.按信息的不同出版类型
1 )图书:是对专门知识或某学科进行系统的论述或概括 的一种信息源。国际上通常将48页以上、不定期出版的 印刷品称为图书。其特征是内容比较全面、系统、成熟, 可靠性强若要获得某学科或某专题的较全面、系统的知 识,或对不熟悉的问题有一个基本的了解,图书是最佳 途径。 2)期刊:又称连续出版物,是一种定期或不定期的连续 出版物,它一般有统一的名称,按一定时间编定卷号, 每一卷又分若干期。期刊具有内容新颖、能及时反映国 内外最新研究成果和动态,出版量大、周期短、发行与 流通面广、便于获取等特点。按内容划分为综合性和专 业性的,按性质划分为学术性、技术性、消息性、通报 性和检索性的期刊。
例如
点击PDF原文下载
例如
三.检索功能
计算机检索过程中,为保证检索结果的全面 准确,仅靠一个检索词是难以满足的,有时需要 若干个检索词利用各检索系统提供的各种不同的 检索逻辑式来完成。
(1)布尔逻辑检索
利用布尔逻辑算符将一些具有简单的、表达 某一主题概念的检索单元组配成一个具有复杂概 念的检索式,以满足课题检索的要求。布尔逻辑 算符是布尔逻辑检索中表达概念之间关系的一类 运算符。基本的布尔逻辑算符有三种:逻辑“与” (AND或*)、逻辑“或”(OR或+)、逻辑 “非”(NOT或-)。
三.知识
知识:是人们对客观对象规律性的认识。知识来源 于实践,通过实践,客观事物反映到人的大脑中来,随 着反映的深入,认识也就深化,从现象到本质,从感性 到理性,从而掌握了事物的规律,这就产生了知识,知 识是人类在改造客观世界的实践中所获得认识与经验的 总结,是人类的主观世界对客观世界的如实概括和如实 反映,人类既要通过信息感知世界,认识世界和改造世 界,而且又要根据获得的信息组成知识,人类生活环境 中普遍存在的信息是知识的原料,这些原料经过人脑的 接收、选择处理,才能组成新的信息系统,这样就产生 了新的知识。
1)逻辑“与”:它用于两个或两个以上概念之间的相交 关系或限定关系运算,表示检索结果必须满足两个或两 个以上条件的单元集合。例如,查找“计算机控制啤洒 生产过程”课题的相关信息。则检索的文献记录中必须 同时含有 计算机、控制 、啤洒,才算命中,其检索式 为:计算机 与 控制 与 啤洒。或 计算机*控制*啤洒。
例如
点击篇名
文摘出现
3)指南、数值型数据库
指南数值型数据库:是记录关于一些机构、 公司、企业、名人、结构、主要产品及其产量、 价格等信息描述,通过这些数据库可以查到公司、 机构的地址、产品目录、研究项目等信息。如万 方数据公司的中国企业、公司及产品数据库。
例如
4)全文型数据库
全文型数据库:数据库存储文献内容全文或 其主要部分的数据库。如:中国学术期刊(全文 版)数据库。维普科技期刊数据库。
7)学位论文:是高等院校或研究机构的学生为获取某种 学位而撰写的学术论文。按学位不同可分为学士论文、 硕士论文和博士论文。学位论文的水平差异较大,但 探讨的问题比较专一,硕士和博士论文具有一定的学 术性、独创性、系统性和完整性,具有重要的参考价 值。 8)产品资料:一般是指产品样本说明书,是厂商或贸易 机构为宣传和推销其产品而印发的免费赠给消费者的 资料。 9)技术档案:是在生产或科研活动中形成的,是具体工 程和研究对象的技术文件的总称,包括任务书、协议 书、技术经济指标、研究计划、方案、试验设计、实 验记录、调查材料、总结报告等所有应入档的资料。 10 )政府出版物:指各国政府部门及其所属机构颁发出 版的文献。
2)检索工具
检索工具:是用来报道、存储和查找信息的工具。 存储,就是将无序的一次文献加工成为有序的二次文献 的过程。检索:指通过检索工具,按照一定的方法,查 找所需要的文献线索的过程。 检索工具必须具备以下四个条件: (1 )对所收录的信息资料的各种特征(包括外部特征和 内容特征)要有详细的描述 ( 2 )每条描述记录都要标明可供检索用的标识,以便按 某种方式将这些描述记录组织起来,为编制各种索引做 准备。 ( 3 )全部描述记录都要科学地组织成一个有机的整体, 使这些记录存放有序,方便存取。 (4 )具有多种必要的检索手段以满足用户从多种角度查 找信息的要求。
3)科技报告:是各学术团体、科研机构、高校的研究报 告及研究过程中的记录。科技报告一般每份单独成册, 篇幅长短不等, 4 )会议文献:在科技会议上科技工作者发表的论文,指 学术会议文献,包括会前、会中和会后文献。 5)专利文献是专利制度的产物,在实行专利制度的国家, 凡是本国或外国的个人和企业有了创造发明,都 可以 根据专利法的规定向本国或外国专利局提出申请,经审 查合格,批准授予在一定年限内享有创造发明成果的专 有权利。 6)技术标准和规范:主要指包括技术规范、技术标准、操 作规程、建议、准则、术语、专门名词等在内的各种技 术文件。在标准实践领域里,技术标准和规范在适用范 围方面是有区别的。
1.2信息检索
一.定义:指运用检索工具或数据库等情报集合, 从中查找所需信息的过程。广义的信息检索包括 两个方面:其一,将信息按一定的方式组织、存 储起来,其二,根据用户的需要找出有关信息。 狭义的信息检索,指从信息集合中找出所需要的 信息的过程,就是人们通常所说的信息查询。
1)直接检索与间接检索
二.文献
文献:所谓文献就是记录有知识和信息的一 切载体。由4个要素组成:1)所记录的知识和信 息,即文献的内容。2)记录知识和信息的符号, 可以是文字、图表、声音、图像。3)用于记录 知识和信息的物质载体,如竹简、纸张、胶卷、 胶片,它是文献的外在形式。4)记录的方式或 手段如铸刻、书写、印刷、复制、录音、录像等, 它们是知识、信息与载体的联系方式。
二.按信息的加工深度和结构等级
(1)零次文献:是指未经过任何加工的原始文献, 如实验记录、手稿等,零次文献是原始文献的保 存、原始数据的核对、原始构思的核定等方面有 着重要的作用。 (2)一次文献:是指作者以本人的研究成果为基 本素材而创作或撰写的文献如图书、期刊论文、 科技报告等。一次文献的论述一般都比较具体详 尽和系统。具有独创性 , 具有较高的理论和应用 价值。
4)文献类型
一.按信息存储载体的物质形态划分
( 1 )印刷型:它主要是指以纸张为载体,以印刷、手写 为记录手段,把信息内容固化在纸上的形式。 (2 )缩微型:以感光材料为载体,以缩微照象为记录手 段而产生的一种载体形式。 ( 3 )声像型:以磁性和感光材料为载体,借助特殊的机 械装置直接记录声音和图像信号的信息载体。 ( 4 )电子型:它是指釆用电子手段并以电子形式存在, 利用计算机及现代通讯方式提供信息的一种新兴载体, 其前身是机读型。
(2)截词技术
截词技术:在英语中常常有词语的单、 复数表示形式不同,英美拼写方式不同, 词根相同、含义相近而词尾形式不同等 情况,为使检索时不遗漏相关词,提高 检索效率,一般信息检索系统都发展了 截词技术,利用截词符来屏蔽未输入的 字符。截词符根据检索系统的不同而不 同。“?”为 DIALOG 联机检索系统的 截词符。
(3)二次文献:指将分散的、无组织的一次文献进行搜 集、提炼浓缩、加工、整理,并按一定的科学方法组织 编排、编辑出版的文献,是为了更有效地管理和利用一 次文献而编辑的工具性文献。如目录、题录、文摘、索 引。
(4)三次文献:是指对有关的一次文献和二次文献进行 广泛、深入的分析、研究、对比、综合、评述、概括而 撰写的文献,其特点是文字精炼,叙述简明扼要,具有 系统性综合性、知识性和工具性等特点。如字典、词典、 百科全书,年鉴、手册等。
2)逻辑“或”:它用于两个或两个以上概念之间的并列 关系运算,表示检索结果必须满足两个以上条件之一的 单元集合。例如,查找国外有关电视机的资料,则检索 式为television+TV(television OR TV),检得的文献记录 中只要有television或TV、或者二者兼有均符合检索条件。
1.3计算机检索系统
一.计算机检索系统的组成:由硬件、软件和数据 库组成。 数据库:由字段、记录和文档组成。 1)字段:书目数据库中基本的信息单位著录项目 在数据库中称作字段。它是文献 著录加工的最 基本单元,描述的是文献 外部特征和内容特征。
点击
例如
列出字段
2)记录
记录:在数据库中的一篇文献称为一个记录,它是 由若干个不同的著录单元(字段)组成的。在数 据库中一条记录都有一个记录号,惟一地标识这 条记录。
3)逻辑“非”它用于在某一检索范围中排除不 需要的概念运算,表示必须满足条件A但不满 足条件B的单元集合。例如,查找“除了蛋白 酶的各类酶制剂”的相关资料,则检索的文献 记录中必须含有A(酶)而不含有B(蛋白酶) 才算命中,其检索式为A-B(A NOT B) P30, 图中表示。利用布尔逻辑三种算符检索时,有 时会同时用上,计算机会按优先顺序自动完成 算符运算,其中NOT优先级最高,AND次之, OR最低,要改变优先级可在检索式中添加括 号。
第一章 信息检索基础知识
绪论:
1.1基本概念
一.信息
信息:信息现在已经成为哲学、自然 科学和社会科学各个领域中广泛运用的 概念之一。信息是事物的存在方式和运 动壮态的表征。信息对于任何人来说都 是不陌生的,尽管有些人对信息并没有 太多的认识和理解,但他们都在不知不 觉中利用各种信息,尤其是在当今社会生 活中的人,几乎每天每时每刻都在与信 息打交道。
11)报纸:报纸以及广播、电视等大众传播信息 快、信息量大,现实感强,传播面广,具有群众 性和通俗性,是重要的社会舆论工具和信息源, 对社会经济和政治生活有着广泛的影响。
四.按电子文献载体形式划分
1)磁性型文献:它是通过编码和程序设计把文献 变成计算机可识别的数字语言,储存在磁带、磁 盘等载体上。 2)光盘型文献:光盘是一种利用激光技术在特制 圆盘上记录和再现信息的载体。 3)网络型文献:通过网络的传播,并经过组织、 制作成有序的数字信息文档。
一个记录
3)文档
文档:由某一类型的若干条记录组成的信息集合称 之文档。它是数据库的基本形式,包括顺排文档 和倒排文档。 (1)顺排文档:指文档中的记录按序存放。记录 的存取按时间顺序进行。 (2)倒排文档:是将每篇文献记录中的标识抽取 出来 ,同时记录下该检索标识出现过的文献记 录号,再按先后顺序组织起来成为可以用作索引 的文档。
二.计算机检索系统的数据库 类型
1)题录型数据库:数据库存储某个领域文献的题 录,包括文献的题名、作者、出处、主题词等。 所谓题录,是单篇文献外表特征的提示和报道。 以一个内容上独立的文献单元为著录的基本单位。 著录项目包括:篇名、著者和来源出处。
例如
2)文摘型数据库
文摘型数据库:存储文献内容中主要部分的 数据库,包括文献的题名、作者、出处、关键 词、文摘,基本上每一种书本式的检索工具都 同时出版电子版,供用户在计算机系统上建立 数据库。
3)检索工具和检索系统的相同点
检索工具和检索系统的相同点:都是服务于信息检 索,都是传播信息的重要媒介和实现情报检索的主要手 段。检索工具属于传统的检索设施,而检索系统是在手 工检索工具的基础上发展起来的是信息检索机械化和自 动化的必然产物,在信息检索中逐渐起主导作用。占据 了支配地位。 不同点:主要表现在内部结构、信息表示方式和匹 配机制等方面。检索工具的结构较为简单,以纸介质为 记录材料和存贮设备,用自然语言描述信息特征,依靠 人的智力和知识来进行信息比较选择,功能也相对较弱。 检索系统的构造通常较复杂,包含有多个功能子系统和 多种设备。
相关文档
最新文档