第2章 信息检索
合集下载
信息检索原理
• 是以文献为检索对象的信息检索。也就是说文 献检索是以图书、期刊、资料、数据库中的篇章或 全书刊为检索对象的一种检索。 如:检索有关“花卉组织培养技术”的文献。 文献检索是一种相关性检索,检索结果不直接 回答用户提出的技术问题,只是提供与之相关的文 献信息供用户参考。
7
(2) 事实检索(Fact Retrieval) 是以事实为检索对象的一种检索,查找某一事物发生的时间、地点及过程。 如检索“日本松下电器公司近年来进行了那些新产品的开发研究”“IBM公司所在地、总裁是
2
1.信息检索的定义 狭义:是指根据特定课题的需要,运用科学的方法,在大量信息(文献)集合中查获所需信息( 文献)的过程。 是指从任何信息集合中查找所需信息的活动、过程与方法。 广义:是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程, 其全称是信息存储与检索。 广义的信息检索包括信息存贮和信息检索两个部分,两者又往往合并称为“信息存贮与检索 ”。
息 处
原 始
贮理 信
过人 息
程员
检用
检
索
索
过
课
程
题
户
信息分析、著录
和标引
存入
检
检索语言
索
(主题词/分类号)
工 具
检
检索 检出 索
课题分析
结
果
6
3.信息检索的类型
以检索内容区分:
根据检索对象不同,信息检索可分为文献检索、事实检索和数据检索三种类型。 (1) 文献检索(Document Retrieval)
3
第2章 信息检索原理
2. 信息检索的一般原理
信息检索包括存储和检索两个过程。
信息检索过程的实质是将检索提问标 识与存储在检索系统(检索工具)中的检索
7
(2) 事实检索(Fact Retrieval) 是以事实为检索对象的一种检索,查找某一事物发生的时间、地点及过程。 如检索“日本松下电器公司近年来进行了那些新产品的开发研究”“IBM公司所在地、总裁是
2
1.信息检索的定义 狭义:是指根据特定课题的需要,运用科学的方法,在大量信息(文献)集合中查获所需信息( 文献)的过程。 是指从任何信息集合中查找所需信息的活动、过程与方法。 广义:是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程, 其全称是信息存储与检索。 广义的信息检索包括信息存贮和信息检索两个部分,两者又往往合并称为“信息存贮与检索 ”。
息 处
原 始
贮理 信
过人 息
程员
检用
检
索
索
过
课
程
题
户
信息分析、著录
和标引
存入
检
检索语言
索
(主题词/分类号)
工 具
检
检索 检出 索
课题分析
结
果
6
3.信息检索的类型
以检索内容区分:
根据检索对象不同,信息检索可分为文献检索、事实检索和数据检索三种类型。 (1) 文献检索(Document Retrieval)
3
第2章 信息检索原理
2. 信息检索的一般原理
信息检索包括存储和检索两个过程。
信息检索过程的实质是将检索提问标 识与存储在检索系统(检索工具)中的检索
第二章 信息检索
2.检索技巧和提示
(1) 广泛浏览数据库 进入数据库前,需阅读数据库的说明,包括:出版、结构(权威性),出版类 型(期刊、会议、报告、专利…),文献类型(全文、文摘、题录…),收集年限,使 用权限,文献版本,服务方式(光盘、联机、专线、镜象、出国),连接方式,帐 号、密码,咨询联系等。现在许多数据库被组织到信息服务中心的web网页 上,并提供了有关介绍,应当充分地利用它们。
(1)积木型 积木型检索策略的含义是:把检索课题剖析成若干个概念面,先分别 对这几个概念面进行检索;在每个概念面中尽可能全和多地列举相关词 、同义词、近义词,并用布尔算符OR连接成子检索式,然后再用布尔算 符AND把所有概念面的子检索式连接起来,构成一个总检索式。 优点是:能够提供较明确的检索逻辑过程,以后容易检索和理解,还可 部分或全部地用作保留检索。一般地,“积木型”策略用于较复杂的检 索课题。 • 如“肺癌”与“吸烟”可以分成两个概念面,这两个概念面的各种形式 的检索词有: cancer smoker(s) • • carcinoma lung(s) cancer smoking cigar
(二)截词检索
截词检索:是指在检索时使用词的一个局部(某些 位置上的字符被截去)进行检索匹配,并认为凡满足这 个词局部中的所有字符要求的记录,都为命中结果。 截词检索需要使用专门符号(截词符),以指定截词 的具体位置与截断字符的数量。 • 按照截词位置的不同,截词检索分为: 右截词、左截词和中间截词三种。 例如:检索式 “wom?n”可检索到含有woman、women的结果。 截词检索实际上是一种隐含“逻辑或”的运算,能提 高查全率,扩大检索结果,是防止漏检的有力手段。
第二部分事实与数据检索工具
讨论事实、数据资源检索,其检索的对象是大量的、 常用的那些具体的科学技术数据和事实,如物理量、 物质特性、参数、规格等技术数据以及价格、产量、 公司名录、人名录等商业、经济等各种实用信息。 它们的检索工具包括:百科全书、年鉴、手册、词 典、机构指南和人名录、书目及书目指南等参考工 具。
第2章 文献信息检索的方法和途径
(3) 图像数据库(image database) 提供人们存储和检索图像及其文字说明资料的 一种源数据库。
(4)交易(执行)数据库(transactional database) 是指各种用于交易的数据库,如股票、房地产 交易数据库、中国科技成果交易数据库。
(5)专利、标准、会议录数据库 (6) 视频数据库 (提供视频信息的数据库。)
2.2.4 文献检索的类型
一、手工检索
用手直接翻检纸质检索工具(书目、索引、文摘 等查找文献资料的工作过程。)
优点:不需要附加设备,又符合人们传统的阅 读习惯,能长期保存,随手可用,免去了机检中经 常发生的数据丢失、乱码、不兼容等麻烦。
二、计算机检索
利用计算机存贮与查找文献资料的工作过程。 优点:节省人力和时间,大幅度提高工作效率; 检索点多,组配灵活:内容更新快;不受馆藏与地 域的限制;节省空间。
时期,(即文献高峰期),逐年进行查找的一种方法。
3.追溯法:又叫回溯法,是利用现有文献后面的参考文献由近→ 远进行追溯查找原文的方法。
4.综合法:是常用法和追溯法两种方法的综合。它可得到较高的 查全率和查准率。
文献检索的途径: 1.分类途径:利用分类目录和目次表检索文献。这一方法可把同
一学科的文献信息集中检索出来,但新兴学科、边缘学科的文献易造成 误检和漏检。必须掌握学科的分类体系。
2.2.5 文献检索的方法与途径
文献检索的方法: 1. 浏览法 定期浏览阅读本专业或本学科的核心信息,及时了解本 学科发展的动态和水平。 2. 常用法 直接利用检索工具来查找文献的方法。
① 顺查法:以检索课题的起始年代为起点,按时间顺序由远 →近地查找。 ② 倒查法:是一种逆时间由近→ 远查找文献的方法。 ③ 抽查法:是针对研究课题发展特点,抓住学科发展迅速、发表文献较多的一段
第二章 信息检索基本知识
(二)按出版形式划分:
原始文献
图书
特种文献
期刊
会 议 文 献
科 技 报 告
专 利 文 献
学 位 论 文
政 府 出 版 物
其 标 准
食品标准网
它
7-111-17892-0
《发票报文》GB/T 17303.2-1998 第二部分:国际贸易商业发票报 文
……
(三)按信息的加工程度来分: 1、一次文献信息 (原始文献):
一、检索工具的作用 1、报道作用 2、存储作用 3、检索作用
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。
2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类型
按著录信息的特征划分:
1、目录 2、题录 3、文摘 4、索引
检索途径-分类途径 分类途径的缺点是新兴学科、边缘学科在 分类时往往难于处理,查找不便。另外, 从分类途径检索必须了解学科体系,否 则在将概念变换为分类号的过程中常易 发生错误,造成漏检或误检。
检索途径-主题途径
• 主题途径是一种按照文献的主题内容查找文献 的途径。使用的语言是主题语言。使用的检索 工具有“主题索引”、“关键词索引”、“叙 词索引”等。 • 主题法打破了传统的学科分类的框框,把分散 于各个学科的有关文献集中于同一主题词之下, 以文字作检索标识,索引按照资料内容的主题 词或关键词的字顺排列,检索时就象查字典一 样,不必考虑学科体系。
更多……
• 按检索方式,可分为印刷型检索工具和机器检 索工具; • 按出版形式,可分为期刊式检索工具、书本式 检索工具、卡片式检索工具、缩微式检索工具、 机读式检索工具等; • 按收录范围,可分为综合性检索工具、专题性 检索工具; • 按语种,可分为中文检索工具和外文检索工具;
清华大学-信息检索-第2章
28
2.3 检索系统与检索方法
2.3.2 检索方法 1. 常用法
常用法是利用检索工具查找信息的一种方法, 因为这种方法是目前查找信息中最常使用的,故亦 称常用法。 (1) 顺查法 (2) 倒查法 (3) 抽查法
29
2.3 检索系统与检索方法
(1) 顺查法
是指按年代由远及近的顺序进行查找的方法, 如检索“电视文化”这一课题,首先要弄清起始时 间,即“电视文化”产生的时间是哪一年,然后从 这一年开始查起,一直查到当前“电视文化”方面 的相关信息为止和查准率都较高,但是检 索整个课题较费时费力。
1) 手工检索 手工检索简称“手检”,是指人们通过手工 的方式检索信息,其使用的检索工具主要是书本 型、卡片式的信息系统,即目录、索引、文摘和 各类工具书。检索过程是由人工以手工的方式完 成的。 2) 计算机检索 计算机检索简称“机捡”,是指人们利用数 据库、计算机软件技术、计算机网络及通信系统 进行的信息检索,其检索过程是在人机的协同作 用下完成的。
11
2.1 信息检索概念及类型
3) 数据型信息检索
数据型信息检索是一种确定性检索,是以 数值或图表形式表示的数据为检索对象的信息检 索,又称“数值检索”。检索系统中存储的是大 量的数据,这些数据既包括物质的各种参数、电 话号码、银行账号、观测数据、统计数据等数字 数据,也包括图表、图谱、市场行情、化学分子 式、物质的各种特性等非数字数据。
22
2.2 检索途径与检索语言
(2)主题语言 主题“是一组具有共性事物的总称,用以表达 文献所论述和研究的具体对象和问题”,即文献的 “中心内容”。每种文献都包含着若干主题,研究 或阐述一个或多个问题。主题词就是表达主题概念 的词汇。
23
第二章 信息检索的基本知识
应用举例:
利用《中图法》在《全国报刊索引》中查找 有关“建筑抗震设计”方面的相关文献。 第一步:分析课题,按学科属性属于“T工业技术” 中的“TU建筑科学”大类。 第二步:查《中图法》确定分类号为:T工业技 术—TU建筑科学—TU3建筑结构—TU352.11抗震结 构。 第三步:根据《全国报刊索引》(科技版)的分 类目录给出的TU3建筑结构的页次,得到相关文献。 第四步:根据的出处索取原始文献。
第二章 信息检索的基本知识
主要内容
1.信息检索概述 2.信息检索原理及检索语言 3.信息检索系统与检索工具 4.信息检索的一般程序
2.1 信息检索概述
2.1.1信息检索的含义
信息检索(Information Retrieval)是指 将信息按一定的方式组织和存储起来,并根据用 户的需要找出有关信息的过程,又叫信息储存与 检索(Information storage and Retrieval), 这是广义的信息检索,如图2-1所示。狭义的信息 检索则是仅指该过程的后半部分,即从信息集合 中找出所需信息的过程。
内容特征 标题词 主题语言 关键词 叙词 描述文献外表特征的检索语言,例如篇名、著者姓名、文 献号等作为文献标识与检索依据直接明了,使用时较为简单。 而文献内容特征的语言,也就是分类语言和主题语言的原理和 使用方法是下面主要介绍的内容。
一条中文书目记录:
题名: 信息检索 作者: 徐天秀 出版项:北京:科学出版社,2006 页码: 320页 价格: CNY23.00 主题: 情报检索 索取号: G252.7/101 内容提要:本书是一本工具型书籍,提供的信息检索学科 范围广,内容尽量以最新版本为主,是一本适用性强的学 习信息检索方法和技巧的专著,尤其是本书配制的多媒体 光盘,为本课程的学习提供了便捷。 分类: G252.7
文献检索,信息检索(2)第二章 信息检索原理
优点:可以检索到某学科或专业的所有文献,有较高 的查全率。
缺点:常常落后于当前研究现状,分类表相对呆板的 学科关系,使得确定前沿概念、跨学科概念或非常具 体概念的分类,较困难。用户差异性。
分类语言
中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法
基本部类 马列毛邓 哲学
(2)多概念课题
并列概念课题,如“新闻宣传研究”
“计算机在人文社会科学方面的应用” 上位类分类方法,如“灰色系统理论”
应用性课题,如“计算机在人口预测方面的应用”、
2.主题语言
是直接以代表信息内容特征和科学概念的概 念词作为检索标识,并按字顺组织的一种检索语 言。 是以表达文献主 是从文献的内容 是从文献的题目
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
将检索提问式转换成逻辑表达式,限定检索
词在记录中必须存在的条件或不能出现的条 件。凡符合布尔逻辑所规定的条件的文献, 既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“或” 2、逻辑“与” 3、逻辑“非”
2、逻辑“与”
————————————————
Chinese AND litera0,000 网络100,000,000) 用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B 其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。
4、记录级
检索词在数据库的同一记录中。
(C)—citation
表示两侧的检索词(或检索项)必须出现在同一记录中,词
序不限,中间词数量不限,其作用与布尔逻辑算符AND相同。
缺点:常常落后于当前研究现状,分类表相对呆板的 学科关系,使得确定前沿概念、跨学科概念或非常具 体概念的分类,较困难。用户差异性。
分类语言
中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法
基本部类 马列毛邓 哲学
(2)多概念课题
并列概念课题,如“新闻宣传研究”
“计算机在人文社会科学方面的应用” 上位类分类方法,如“灰色系统理论”
应用性课题,如“计算机在人口预测方面的应用”、
2.主题语言
是直接以代表信息内容特征和科学概念的概 念词作为检索标识,并按字顺组织的一种检索语 言。 是以表达文献主 是从文献的内容 是从文献的题目
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
将检索提问式转换成逻辑表达式,限定检索
词在记录中必须存在的条件或不能出现的条 件。凡符合布尔逻辑所规定的条件的文献, 既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“或” 2、逻辑“与” 3、逻辑“非”
2、逻辑“与”
————————————————
Chinese AND litera0,000 网络100,000,000) 用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B 其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。
4、记录级
检索词在数据库的同一记录中。
(C)—citation
表示两侧的检索词(或检索项)必须出现在同一记录中,词
序不限,中间词数量不限,其作用与布尔逻辑算符AND相同。
第二章 信息检索原理
22
2013-11-4
2、主题语言 主题语言是直接以代表信息内容特征和科 学概念的概念词作为检索标识,并按字顺 组织起来的一种检索语言。 分为:规范主题语言和非规范主题语言
2013-11-4
23
1)、规范主题语言 • 以自然语言为基础,经过标准化、规范化处理 的词语,具有概念性、规范性、组配性、语义 性和动态性。
信息源 用户
信息分析、 著录、标引
检索语言 数据库
用户需求分析
信息的表示
存储
检索
检索提问式
匹配过程
输出检索结果
2013-11-4 4
信息检索的实质是一个匹配(match)的过程:
也就是信息用户的需求和信息集合的比较与选择,用户 根据检索需求,对一定的信息集合采用一定的技术手段, 根据一定的线索与准则找出相关的信息。
2013-11-4 27
第三节 检索途径
• 一、信息检索方法
• 二、信息检索途径
2013-11-4
28
1.信息检索的方法
顺查法:从过去某一时间起往现在检索
倒查法:从现在往过去逐年逐月地检索 用户注重新信息,如:写论文
常规法:
信 息 检 索 的 方 法
抽查法就是抽查某一时段的信息.在事 物发展的关键、鼎盛时期,用户注意的 是某些重要的、关键性信息资源
计算机检索简称“机检”,是利用计算机和一定的通信 设备查找所需信息的检索方式.
特点:速度快、效率高、查全较高,成本高,费用大,
查准率通常不尽人意, 现代信息检索即计算机信息检索,是指利用计算机和网 络来处理和查找文献信息的检索方式。目前广泛使用的 计算机检索系统包括光盘系统、联机检索系统和网络检 索系统。
2013-11-4 9
2013-11-4
2、主题语言 主题语言是直接以代表信息内容特征和科 学概念的概念词作为检索标识,并按字顺 组织起来的一种检索语言。 分为:规范主题语言和非规范主题语言
2013-11-4
23
1)、规范主题语言 • 以自然语言为基础,经过标准化、规范化处理 的词语,具有概念性、规范性、组配性、语义 性和动态性。
信息源 用户
信息分析、 著录、标引
检索语言 数据库
用户需求分析
信息的表示
存储
检索
检索提问式
匹配过程
输出检索结果
2013-11-4 4
信息检索的实质是一个匹配(match)的过程:
也就是信息用户的需求和信息集合的比较与选择,用户 根据检索需求,对一定的信息集合采用一定的技术手段, 根据一定的线索与准则找出相关的信息。
2013-11-4 27
第三节 检索途径
• 一、信息检索方法
• 二、信息检索途径
2013-11-4
28
1.信息检索的方法
顺查法:从过去某一时间起往现在检索
倒查法:从现在往过去逐年逐月地检索 用户注重新信息,如:写论文
常规法:
信 息 检 索 的 方 法
抽查法就是抽查某一时段的信息.在事 物发展的关键、鼎盛时期,用户注意的 是某些重要的、关键性信息资源
计算机检索简称“机检”,是利用计算机和一定的通信 设备查找所需信息的检索方式.
特点:速度快、效率高、查全较高,成本高,费用大,
查准率通常不尽人意, 现代信息检索即计算机信息检索,是指利用计算机和网 络来处理和查找文献信息的检索方式。目前广泛使用的 计算机检索系统包括光盘系统、联机检索系统和网络检 索系统。
2013-11-4 9
第二章 信息检索基本方法与基本技术
2. 主题检索语言
• 标题词:经规范化处理的词或词组,先组式
语言
• 叙 词(单元词):经规范化处理的词或词
组,后组式语言,可自由灵活组配
• 关键词:未经规范化处理,直接从文献题名、
原文或文摘中选取的能反映原文主题内容的自 由词汇
二、检索工具
定义:检索工具是人们用来存储、报道和查找 文献的工具,它具有存储和检索的功能。
点击预约书刊可预约该书 预约图书:选定所需图书,输入证号、密码,执行预约 点击机读格式可查看该书的MARC信息
高级查询
• 在题名、著者、丛书名、主题词、出版社、 ISBN(书)、ISSN(刊)、索取号、起始年 代中填入自己确定的内容,其余的可以不填 写;选定语种(17种)和文献类型,然后进 行检索。 • 结果可检索到所需文献的题名、著者、出版 信息、索取号 • 查看选中图书的相关信息
图书馆信息查询系统
•书目查询 •读信者息 •新书通报:一个月内到馆的新书、馆藏 地,并可查看新书 •订购征询 •信息发布:预约到书列表、超期罚款、 超期催还、委托借阅到书列表
如何利用计算机进行检索
书刊查询
读者信息查询
图书馆主页的功能
信息发布功能:
图书馆最新服务动态、电子 资源试用等均及时在主页上发布。
一、信息检索原理
信息检索的原理(示意图)
存 储
特征化
表示
查 询
特征化
表示
信息 集合
选择与匹配
需求 集合
二、信息检索类型
手工检索 计算机检索 文献信息检索
• 信息检索(内容)
• 信息检索(工具手段)
数据信息检索
事实信息检索
第二节 信息检索语言与工具
一、信息检索语言
信息检索教程(第二章)
4
(b)按收录文献出版形式分
●图书目录 ●期刊目录 ●会议论文目录 ●标准目录等。
(c)按物质形式划分
●卡片目录 ●书本目录 ●机读目录 ●联机公共检索目录等。
5
(2)图书馆目录、OPAC和联合目录概述
①图书馆目录
定义:它主要提供馆藏资源的检索,又叫馆藏目录,它反映
了一个图书馆的文献收藏情况,是一种重要的检索工具。
26
常用法示例
27
追溯法示例
28
2.3.2检索途径
29
30
1.分类途径
图书期刊分类法
世界三大图书分类法
《杜威十进分类法》(DDC)(Dewey decimal Classification ) 《国际十进分类法》(UDC)(Universal Decimal Classification) 《国会图书馆图书分类法》(LCC)(Library congress classification)
定义:所谓文献检索的方法,即查找文献的方法。有以下三种: 常用法:直接利用文献检索工具或检索系统来查找文献的方法,是 一种常规的科学检索方法。又称工具法或直接法。分为顺查法 、倒查法和抽查法。 追溯法:是一种跟踪查找法。它不利用检索工具只是利用文献(尤其 是评述性论文或专著) 后面所附的参考文献进行逐一地追踪查 找原文。又称引文法。 综合法:是常用法和追溯法的综合。利用检索工具或检索系统进行 常规检索,再利用文献后所附参考文献进行追溯检索,分期分 段交替使用这两种方法,直到满足要求为止。可以查得较全面 较准确,尤其适用于那些过去年代内文献较少的课题。称循环 法、分段法或交替法。
22
2.2.2检索工具的鉴别与评价
1.信息收录范围与信息质量
第二章 图书信息检索
2. A or B
3.A not B
① 逻辑与(逻辑乘) 用关系词AND或“*”表示,表示它所连接的两 个检索词必须同时出现在结果中才满足检索条件。
逻辑与用来缩小文献检索范围,提高查准率,是具有 概念交叉和限定关系的一种组配。
② 逻辑或(逻辑加) 用关系词 OR 或“ +” 表示,表示它所连接的 两个检索词中任意一个出现在结果中就满足检索条件。
• Author(作者) • Publisher(出版者) • Artery(流通渠道) • Buyer(即购买者) • Internet(网络) 收录:相关专业教参书 年度:1973-2007年 完全数字化的出版。
矿业工程数字图书
• 中国煤炭工业协会科技 文献信息咨询专业委员 会 • 煤炭行业(中国矿大) • 超星数字图书馆合作 • 收录全面 收录年度:1949年至今
电子图书
• 发展历程:Electronic Book、E-Book、eBook 20世纪40年代,科幻小说; 1968年,松下电器开始了电子照片液体显影液的研究 电泳 液晶; 1971年,古腾堡工程: 迈克尔哈特(伊利诺伊大学) 扫描和光学文字识别 约翰内斯古腾堡,德国15世纪 印刷商 卡内基梅隆大学; 1997年Eink(电子墨水)公司 化学、电子和物理 麻省剑桥; 亚马逊Kindle、OPPO公司Enjoy、汉王公司 20世纪80年代 国内电子图书开始生产; 2000年10月,世界上第一台阅读不耗电电子图书在天津问世; 2009年,Barnes & Noble推出Nook:墨水电子屏+液晶触摸屏; 彩色显示问题 2010年开始,美国苹果公司IPad、IPad2.。。。。; 2011年Google iriver,外观和技术与Kindle相似。
信息检索教程 第2章 信息检索系统
连续 出版物
学位论文
传统文献信息媒体——按文献信息媒体的内容形式划分
类型 释 义 标准文献 是指对工农业产品、卫生教育、行政机关和工程建设的质量、规格、检验方法及 管理等所做的技术规定,是人们从事管理、设计、生产和检验的一个共同技术依 据。标准作为一种规章性的技术文献,具有一定的法律约束力。 会议文献 一般是指国内外各个科学技术学会、协会及有关主管部门召开的学术会议或专业 会议上提交、宣读或交流的论文或报告。因此会议文献代表着一门学科或专业的 最新研究成果,反映着当时的发展水平或动态。会议文献通常有会前预印本,会 后会议录、论文集、期刊等出版形式。 专利文献 主要指专利说明书,也包括各种专利检索工具、专利公报及专利法律文件等。专 利文献具有新颖性、创造性和实用性的特点,并具有垄断性、地域性、时间性、 公开性和法定性的特征,因此专利文献是一种集技术与法律于一体的实用性很强 的文献信息媒体,但重复出版率很高。
2.1 信息源与信息媒体
2.1.2 信息媒体
2. 电子文献信息媒体 电子文献信息媒体是指以数字编码的形式,把文字、 图像、动画、声音、视频等信息存储在磁光等介质 上,通过计算机和其他辅助设备阅读使用的一种新
型文献信息媒体,实质是一种机读型信息媒体。电
子文献信息媒体是信息技术发展的产物,它的产生、 发展和应用给人们展示了一个全新的虚拟世界。电 子文献信息媒体种类繁多、划分多样。
二次文献
三次文献
传统文献信息媒体——按文献信息媒体的内容形式划分
类型 图书 释 义 是用于全面而系统地阐述某一方面或学科的科学理论或发展,传授科学技术以及 查阅某些知识的文献形式。一般来说,图书的内容比较系统、全面、成熟、可靠, 缺点是出版周期长、新颖性欠佳。图书按使用功能可分为以下两类。 阅读型图书:教科书、专著、科普读物 查阅型图书:参考工具书、检索工具书 采用统一名称定期或不定期连续性发行的出版物,主要指报纸、期刊和年度出 版物。连续出版物一般有连续的卷期或年月日顺序号,出版周期短、报道文献 快、内容新颖、信息量大,特别是报纸、期刊现已成为广大民众和科研人员阅 读量最大的信息媒体。 这是高等学校或研究机构的毕业生作为评定各级学位而撰写的论文。目前多数国 家的学位分为学士、硕士和博士三级。学位论文质量参差不齐,但带有一定的独 创性和新颖性,特别是博士论文具有较高的专业水准、参考价值较大。
信息检索原理
2.1.1 信息检索旳定义 “检索”(Retrieval)一词是一种外来词,起源于英语 “Information Retrieval”(信息检索)
“检索就是查找”,这仅仅是一种狭义旳解释。从广义旳角度讲, 检索涉及“存贮”和“查找”两个过程。没有存贮就没有查找, 存贮是为了查找,但查找必须有存贮,两者缺一不可。
是以文件为检索对象旳信息检索。也就是说文
件检索是以图书、期刊、资料、数据库中旳篇章或
全书刊为检索对象旳一种检索。
如:检索有关“花卉组织培养技术”旳文件。
文件检索是一种有关性检索,检索成果不直接
回答顾客提出旳技术问题,只是提供与之有关旳文
件信息供顾客参照。
7
(2) 事实检索(Fact Retrieval)
5
信息检索原理示意图:
原始信息
信息处理人员
存贮过程
检索成果 检索 工具
信息分析、著录
和标引
存入
检索语言
(主题词/分类号)
检索
课题分析
检出
6
检索课题 用户
检索过程
3.信息检索旳类型
以检索内容区别:
根据检索对象不同,信息检索可分为文 件检索、事实检索和数据检索三种类型。
(1) 文件检索(Document Retrieval)
┆
O3 力学
O31
理论力学
19
第2章 信息检索原理
分类法途径旳特点: 它体现了学科旳系统性,便于从学
科或专业旳角度出发进行族性检索,但 缺乏进行多概念灵活组配旳能力。
20
索书号又称为排架号
反应了某种图书在整个图书组织 中旳排列顺序和在书库中旳详细位置 (架位)
构成:分类号+书次号
“检索就是查找”,这仅仅是一种狭义旳解释。从广义旳角度讲, 检索涉及“存贮”和“查找”两个过程。没有存贮就没有查找, 存贮是为了查找,但查找必须有存贮,两者缺一不可。
是以文件为检索对象旳信息检索。也就是说文
件检索是以图书、期刊、资料、数据库中旳篇章或
全书刊为检索对象旳一种检索。
如:检索有关“花卉组织培养技术”旳文件。
文件检索是一种有关性检索,检索成果不直接
回答顾客提出旳技术问题,只是提供与之有关旳文
件信息供顾客参照。
7
(2) 事实检索(Fact Retrieval)
5
信息检索原理示意图:
原始信息
信息处理人员
存贮过程
检索成果 检索 工具
信息分析、著录
和标引
存入
检索语言
(主题词/分类号)
检索
课题分析
检出
6
检索课题 用户
检索过程
3.信息检索旳类型
以检索内容区别:
根据检索对象不同,信息检索可分为文 件检索、事实检索和数据检索三种类型。
(1) 文件检索(Document Retrieval)
┆
O3 力学
O31
理论力学
19
第2章 信息检索原理
分类法途径旳特点: 它体现了学科旳系统性,便于从学
科或专业旳角度出发进行族性检索,但 缺乏进行多概念灵活组配旳能力。
20
索书号又称为排架号
反应了某种图书在整个图书组织 中旳排列顺序和在书库中旳详细位置 (架位)
构成:分类号+书次号
第三节课 第二章 文献检索原理与方法
思考题
1.《中国图书法》(简称《中图法》)将图书分为() A. 5大部类,22个大类 B. 5大部类,26个大类 C. 6大部类,22个大类 D. 6大部类,26个大类 2.《中国图书法》(简称《中图法》)是我国常用的分类法,要 检索农业方面的图书,需要在( )类目下查找。 A. S类目 B. Q类目 C. T类目 D. R类目
第一步,《全国新书目》的新书是安排在"新书视窗"专栏,在 2000年第3期《全国新书目》的目录中寻找到"新书视窗"专栏, 在第41~77页。 第二步,在第41~77页的"新书视窗"专栏里,我们可以看到, 该专栏是按照出版社的顺序排列的。高等教育出版社在第45页, 广东经济出版社第46页,教育科学出版社在第52页。 第三步,在第45、46、52页,你可以看到这几个出版社最 近所出版的新书目录。 如广东经济出版社的目录中有以下记载: 知识经济与改革创新 黄铁苗主编 2000 20cm 25.00元 本书围绕改革开放中的热点、难点问题进行探索,具体内容 包括:所有制问财政金融问题、农村经济问题、就业问题、地方 经济问题和其他问题。
2.检索工具-类型
目录 (bibliography,catalogue) 文摘(abstract) 索引(index)
2.1 目录
目录是一批相关文献信息的著录集合,是以报道文献 出版信息为主要功能的工具。 特点:以单位出版物为著录对象,反映馆藏情况,主 要揭示文献外部特征 目录的著录项目:出版名称、责任者、出版项和稽核 项 目录的类型:《全国总书目》《全国新书目》《全国 西文期刊联合目录》
主题词法与分类法的比较
主题词法 分类法
第二章 信息检索基础知识
全文检索
图像检索 超文本检索
文献检索
使用以二次文献为存储对象的信息系统,如目录
型、题录型、文摘型数据库,是一种相关性检索。特 点:检索结果不直接解答课题用户提出的技术问题, 只提供与之相关的线索。 例如:查找有关“食品安全与人类健康 ”方面的
国内外信息有哪些?
数据检索
以数值信息为检索对象,通过检索,用户可以获 得所需要的确切数据,是一种确定性检索。它一般以
的方式记录在相应的信息载体上,组织成系统
化的检索系统。
1. 数据库及其构成
数据库(database):至少由一种文档组
成,并能满足某一特定目的或某一特定数据处
理系统需要的一种数据集合。 通俗地说,数据
库就是在计算机存储设备上,按一定方式存储的 相互关联的数据集合,是信息检索的基础。
1. 数据库及其构成
一、信息检索的效果评价指标 二、影响检索效率的主要因素
一、信息检索的效果评价指标
以一个检索提问去检索任何一个数据库都会出现 4 个相关量:检出的相关信息量、未被检出的相关信 息量、检出的非相关信息量、未检出的非相关信息量。
一、信息检索的效果评价指标
1. 查全率 a 查全率(R )= —— ×100% a+c 查全率是对所需信息被检出程度的信息量指标。 2. 查准率 a 查准率(P )= ——×100% a+b 查准率是衡量拒绝非相关信息的指标。
中国图书馆分类法的体系结构:
S农业科学类目简表
(2)按事物的性质分类
按事物的性质分类 --- 热门主题 : 各种搜索引擎和网站 按事物的性质分类 --- 功能(使用方向)主题: 国际专
利分类法(IPC)
2.主题描述及信息检索语言
新第二章 信息检索基础知识
2.2 信息检索语言
三、主题语言
4.关键词语言
是指从文献标题、文摘、正文中抽离出来的,对表征文献主题 内容具有实质意义的语词,以关键词作为信息标识和检索依据的主 题语言。关键词没有固定的词表,因为对于同一个事物的概念,不 同作者甚至是同一个作者在不同的著作中用词都会不同,它是没有 经过规范化的自然语言词汇。 在检索中文医学文献中使用频率较高的《CMCC》数据库就是 采用关键词索引方法建立的。
2.5 计算机检索技术 四、词组检索
将固定词组或短语 看成单个词进行处理。
常用“ ”作为词组检索的运算符。
2.5 计算机检索技术 五、字段检索
对指定的一个或多个字段进行检索,从而提高查准率或查全率。
标题、作者、摘要、关键词、作者单位、文献来源、学位授予单位、 学位级别、会议信息、会址、会期、书名、出版地、出版年、专利号、报 告号、ISBN、ISSN等。
2.2 信息检索语言
一、信息检索语言的定义、作用和种类
4.分类:
篇名(题目) 著者名称 描述文献外表特征 文献序号 引用文献 等级体系分类语言 分类语言 组配分类语言 主题语言
检索语言
描述文献内容特征
代码语言
标题词语言 关键词语言 单元词语言 叙词语言 分子式索引 结构式索引 专利号索引等
2.2 信息检索语言
2.4 信息检索标识 一、检索标识的定义
检索标识即检索词,是指能表达检索课题主题概念和信息需 求的名词术语、分类号、名称、代码等的总称,包括主题词、 关键词、名称、分类号、分子式、专利号及各种号码。
2.4 信息检索标识 二、信息检索标识的类型
1.描述信息内容特征的检索标识: 分类、主题、代码(符号)。
2.5 计算机检索技术 一、布尔逻辑检索
第二章信息检索基础1
化学物质登记号(CAS registry number)检索
分子式(formula)检索 记录顺序号(accession number)检索 化合物结构图检索(structure search)检索 ……
不同检索途径常用字段名称
题名途径:题名、标题、篇名、题目、title 分类检索途径:分类号,中图分类号 主题途径:主题词、MeSH、MeSH terms、 Thesaurus、map term to subject headings 关键词途径:关键词、keywords、text words 著者途径:(第一)作者、著者、责任者、 author、first author
研、生产中的具体问题所需要的特定知识或信息。(微波炉
发明) (四)文献(Literature) 文献是记录有知识的一切载体,是知识的外在形式。
情报的基本属性
知识或信息 经过传递
经用户使用产生效益 情报的 基本属性
信息与知识、情报、文献的关系
知识源于信息,是信息的一部分 情报源于知识或信息,是激活了的知识或信息 文献是信息、知识、情报的主要载体形式
形成系统,便于检索的文献。
如:题录、书目、索引和文摘。
特征1 特征2 特征3 特征4 特征5
提取特 征
特征n
二次文献
二次文献
二次文献
2013-8-10
40
三次文献
三次文献是利用二次文献并在其指引下,对大 量的一次文献进行综合分析研究,加以浓缩和提 炼而成的文献。 包括综述、述评、进展、预测等,各类词典、 手册、年鉴、百科全书、指南等参考工具书也属 于三次文献的范畴。
一次文献、二次文献、三次文献
一次文献:
又称原始文献,是首次公开发表的文献,直 接记录了科研成果,报道了新发明、新技术、新 知识和新观点。 一次文献主要包括专著、期刊论文、科技报 告、会议文献、学位论文、专利文献等。
第二章信息检索基础知识
属后组式语言。
主题词
概念:通过文献所属学科的主题对文献进行检索, 是以主题词为检索标识,它是一种特性检索。 主题词是用来表达文献的主题概念的,经过规范化 主题词 处理的名词或词组。 如:出生缺陷-畸形 杵状指-骨关节病,继发肥大性
主题词表- 主题词表-单元词表
《WPI--规范化主题词表》
(WPI--LIST OF STANDARD THESAURUS TERMS)
是检索英国德温特公司专利文献的工具。按规范 词字顺排列。其著录格式见图
WPI-List of Standard Thesaurus Terms 1987 COBALT(3772)(1) COBALT@(3) CODON【87】(4) ELECTRIC(33892)(1) Electrical(2)
关键词 自然语言 单元词 标题词 叙词 语 言 言 语
分类语言
分类语言是运用概念划分的方 法,按文献内容所属学科、专 业性质的逻辑次序,以数字、 字母或数字与字母结合为基本 字符,以分类号为标识,用来 存储和检索文献的文献标识系 统。
分类语言的特点
主要特点就是按学科专业性质集中图书 区分不同性质的图书 集中性质相同的图书 相近的放在相近的位置 按照远近亲疏的关系把图书组成为一个 有条理的体系 提供从学科分类查找图书的途径
机械制造工艺系统学 / 张恩生,申铁固编著-上海交通 大学出版社 TH16/ Z31 机械设计学习指南 / 陶民华等编机械工业出版社 TH122-44/ T43 机械优化设计基础 / 张九明编著煤炭工业出版社 TH122/ Z32A 分类号+著者号TP393-62/J25
主题语言
主题语言是指以自然语言的字符为字符, 以名词性术语为基本词汇,用名词性术 语作为标识的一种信息标识系统。是主 题概念检索文献信息的检索语言。
科技信息检索-第2章
信息检索技术是指利用现代信息检 索系统,如联机数据库、光盘数据 库和网络数据库检索有关信息而采 用的相关技术,主要有布尔检索、 词位检索、截词检索和限制检索。
2.4.1 布尔检索
布尔检索技术使用的逻辑算符及含义 (1)逻辑与 (2)逻辑或 (3)逻辑非
逻辑与
1. 概念:逻辑与是一种具有概念交叉 或概念限定关系的组配。 2. 算符:“ * ” 或 “ AND ”或“并 且” 3. 特点:增强专指度,提高查准率。 4.举例: 液压机 AND 结构优化,表 示两个概念应同时包含在一条记录中
分类语言
主题语言
体系分类语言 组配分类语言 混合分类语言 标题词语言 关键词语言 叙词语言 单元词语言
关键词语言
关键词语言是一种主题语言,它是直 接从原文的标题、摘要、全文和检 索课题中抽选出来的具有实质意义 的、未经规范化处理的自然语言词 汇作为存储和检索依据的一种检索 语言。
示
例
课题:光纤传感器在测量中的应用 关键词:
2.2 信息检索原理
2.2.1 信息检索效率 2.2.2 信息检索系统 2.2.3 信息检索语言
2.2.1 信息检索效率
信息检索效率是评价一个检索系 统性能优劣的质量标准,它贯穿 于信息的存储和检索的全过程。 其评价指标主要是:
查全率 查准率
2.2.2 信息检索系统
信息检索系统是拥有一定的存储、 检索技术装备、存储有各种信息, 并能为用户检索所需信息的服务工 作系统。目前常用的是手工检索系 统和计算机检索系统。
2.4.3 截词检索
1.后截词 (2)无限后截词。 主要用于同根词。 如solubilit用solub*处理,可检索出含 有solubilize,solubilization,soluble等 同根词的记录, “*”为无限截词符号。
2.4.1 布尔检索
布尔检索技术使用的逻辑算符及含义 (1)逻辑与 (2)逻辑或 (3)逻辑非
逻辑与
1. 概念:逻辑与是一种具有概念交叉 或概念限定关系的组配。 2. 算符:“ * ” 或 “ AND ”或“并 且” 3. 特点:增强专指度,提高查准率。 4.举例: 液压机 AND 结构优化,表 示两个概念应同时包含在一条记录中
分类语言
主题语言
体系分类语言 组配分类语言 混合分类语言 标题词语言 关键词语言 叙词语言 单元词语言
关键词语言
关键词语言是一种主题语言,它是直 接从原文的标题、摘要、全文和检 索课题中抽选出来的具有实质意义 的、未经规范化处理的自然语言词 汇作为存储和检索依据的一种检索 语言。
示
例
课题:光纤传感器在测量中的应用 关键词:
2.2 信息检索原理
2.2.1 信息检索效率 2.2.2 信息检索系统 2.2.3 信息检索语言
2.2.1 信息检索效率
信息检索效率是评价一个检索系 统性能优劣的质量标准,它贯穿 于信息的存储和检索的全过程。 其评价指标主要是:
查全率 查准率
2.2.2 信息检索系统
信息检索系统是拥有一定的存储、 检索技术装备、存储有各种信息, 并能为用户检索所需信息的服务工 作系统。目前常用的是手工检索系 统和计算机检索系统。
2.4.3 截词检索
1.后截词 (2)无限后截词。 主要用于同根词。 如solubilit用solub*处理,可检索出含 有solubilize,solubilization,soluble等 同根词的记录, “*”为无限截词符号。
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四阶段:光盘检索阶段 (1981-1990) 。 20 世 纪80年代以来,一种新型的信息载体激光光盘 在信息检索系统中得到越来越广泛的应用。 第五阶段:网络化联机检索阶段 (1991-) 。 20 世纪 90 年代以来,以 Internet 为核心连接起 来的全球计算机网络为人们跨越时空、行业、 地域,快速、高效传递信息提供了国际化的知 识信息平台,极大地提高了获取信息的主动性。 传统的“提问 — 检索”模式已逐步被网络环境 中“浏览—查询”模式取代。
名目。 题录:只含著录事项而无摘要的文献款目。 如果含摘要,则一般称为文摘。 文摘:又称摘要。对文献的主要内容所做的 简略而确切的叙述,一般不加评论、补充或 解释。
(4)全文。全文系统的主体内容是文献的全文。 (5)索引。索引是对一组信息集合的系统化的 指引,通常依附于目录、题录、文摘、手册、 百科全书以及其他印刷型检索工具之后。 不同的标目系统构成不同的索引,其中分类索 引、主题索引、著者索引最为常用。
信息检索系统 信息检索系统(Information Retrieval System) 是指根据特定的信息需求而建立起来的一种 有关信息搜集、加工、存储和检索的程序化 系统,其主要目的是为人们提供信息服务。
2.1.3
1.印刷型信息检索系统的类型 以文献报道的内容层次区分,文献信息检索系统可以分为目 录、题录、文摘和全文四种类型。 (1)目录:又称书目。是一批相关文献的记录,其基本功能是反映某一
(二)数据库类型及组成
1、数据库类型(按收录信息内容) 参考数据库 指引用户到另一信息源以获得原文或其他细节的数据库。它 本身不直接提供用户所需情报,而是起着一种牵线搭桥的作 用。包括书目数据库和指南数据库(如人物传记数据库、机 构名录数据库、产品数据库等)。 源数据库 能直接提供具体数据或原始资料的数据库,用户不必再查阅 其他信息源。包括数值数据库、文本-数值数据库、全文数 据库、术语数据库、图像数1.5 文献信息的一般检索步骤
1.分析研究课题,明确检索要求
搞清楚本课题属于什么学科,所需情报 的文献类型及语种,查找文献的年代, 所需文献的最佳篇数,允许支配的检索 费用。
(1)若要查找的是某一特定的文献,或与某一主题、 学科内容相关的文献,即属于文献类,则选用文献 检索类工具书(二次文献);若要查找的是具体的 事实,如统计数据、人名、地址、机构概况、法律 条文等,即属于事实类,则选用三次文献类工具书 (2)分析 “已知” 和 “欲知” 信息。 (3)分析需求的主题内容,即所需信息的学科性质、 特点和水平层次。 (4)广泛利用文献类型。 (5)选择合适的文献检索时间范围。
信息检索系统的构成
1、广义的信息检索系统的构成 1)检索文档 2)技术设备 3)语言工具 4)作用于系统的人
2、狭义的信息检索系统的组成 从物理构成来说,包括计算机硬件、软件和数 据库、通讯线路和检索终端五部分 数据库的结构:文档--记录--字段 文档:数据库中一部分记录的有序集合 记录:数据库的信息单元,每条记录描述了 一个原始信息的外部特征和内部特征。 字段:比记录更小的单位,是组成记录的数 据项目。
三者的主要区别:数据检索与事实检索,都是 要检索出包含在文献中的信息本身,是确定 性的检索,检索结果是可以直接利用的;而 文献检索,则是要检出包含所需信息的文献, 是相关性检索,检索结构经过分析研究后才 能确定是否能用。
2、以检索方式区分 1)手工检索,是指用人工来处理和查找所需 信息的检索方式。特点是方便、灵活,可随 时修改检索策略。缺点是效率低,漏检比较 严重。 2)计算机检索,是利用计算机和一定的通信 设备查找所需信息的检索方式。 计算机检索的特点:方便快捷、功能强 大、获得的信息类型多、检索范围广泛。
3、按信息的组织技术及内容可分为: 超文本检索(Hypertext Retrieval),以超文本信息 资源为检索对象,使用户检索到的信息更加宽泛,这种检索 方式更符合人的习惯,使人与计算机的交流发挥得更加充分。 多媒体检索(Multimedia Retrieval),是以文字、图 像、声音等多媒体信息为检索内容的一种检索。检索界面有 声有色、交互友好,结果图文并茂。 超媒体检索(Hypermedia Retrieval),以超文本与多媒 体两种技术结合的信息检索。其存储对象融入了动态图像、 音频、视频等多种媒体信息。
2.1.4文献信息检索方法类型 1 、常规法:利用检索工具,以主题、分类、著 者等为检索入口检索所需文献的方法。顺查法、 逆查法、抽查法。 2 、追溯法:利用原始文献后面所附的参考文献 和有关论著引文注释进行追踪检索的一种方法。 3 、循环法:是常规法与追溯法的结合,交替使 用的检索方法,也叫综合法。
第三阶段:联机检索阶段(1965-1991) 。1965 年以后,第三代集成电路计算机进入实用化阶 段,存储介质发展为磁盘和磁盘机,存储容量 大幅增加,数据库管理和通信技术都有深入发 展,信息检索从脱机阶段进入联机信息检索时 期。1967年以后,许多联机系统相继出现。比 较有名的就是美国洛克希德公司的DIALOG系统 和系统发展公司的ORBIT系统。这一时期的信 息检索实现了远程实时检索。
(3)文摘(Abstracts),是一种既揭示文献外 部特征、又通过摘录文献要点、报道文献内 容的检索工具。 文摘的特点及作用: 1)通报最新的科学成果 2)节省阅读时间,避免重复劳动 3)引导检索原文 4)帮助逾越语言障碍,了解国际科研动 态
目录、题录、文摘三者的区别
目录:按次序编排以供查考的图书或篇章的
2.1.2信息检索的类型 1、以检索内容区分 1 )文献检索:凡以文献(包括文摘、题录或全文 等)为检索对象的检索称为文献检索。根据检索 内容的不同可分为书目检索和全文检索。文献检 索一般是一种相关性检索,不直接解答用户所提 出的技术问题,只提供与之相关的文献或文献线 索。检索工具一般利用书目、文摘、索引、题录 及全文数据库等。 2)数据检索:数据检索的对象是数值性数据。 3 )事实检索:是以从文献中抽取的事项做为检索 内容的信息检索。
2.1.1信息检索的概念
广义的信息检索有两方面的含义:一是将 信息按照一定的方式组织和存储起来;二是 根据用户的需要找出有关的信息资料的过程 和技术,称为“信息的存储与检索”又叫信 息的存取。 狭义的信息检索仅仅指从信息集合中找出 所需要的信息的全过程。
存储过程:标引人员对各种文献进行主题分析,即把它所包 含的信息内容分析出来,以形成若干能代表文献的主题概念, 并用信息检索语言的语词(标识)把这些概念标示出来,然 后输入检索工具活检索系统。 检索过程:检索人员对检索课题进行主题分析,即把它所涉 及的检索范围明确起来,使之形成若干能代表信息需求的概 念。谈话把这些概念转换成信息检索语言的语词(标识), 并与存储在信息检索系统中文献特征标识进行异同的比较。 将具有相同标识的文献从信息系统中检索出的部分就是命中 的结果。
信息检索原理图
存 储 过 程 原始文献 特征分析 文献主题 标引 概念 信 息 检 索 语 言 ( 各 种 词 表 ) 索引标识 输入 检 索 系 统 检索标识 检索 输 检 出 检 索 索 结 工 果 具
检 索 过 程
检索需要
需求分析 检索主题 标引 概 念
信息检索原理
信息检索原理就是将特定的信息需求与 存储在检索系统中的信息标识进行异同的比 较与匹配,选取两者相符或部分相符的信息 予以输出。
4、按用户对检索的要求区分: 强相关检索,强调检索的准确性,向用户提供 高度对口信息的检索,也称特性检索。注重查准, 只要检索得到的文献信息能够满足用户的需求即可, 通常对于检索结果的数量多少不作要求。 弱相关检索,强调检索的全面性,向用户提供 系统完整信息的检索,也成族性检索。注重查全, 要求检索出一段时间期限内有关特定主题的所有信 息,为避免漏检相关信息,一般对于检索的准确性 要求较低。
信息检索原理图
信息需求
标识
比较与匹配
评价与反馈
检索结果
1 、信息的外部特征:题名、责任者、出版机构、 ISBN、专利号、标准号、报告号等,将其按一 定的方法进行组织、排列。形成检索途径。 2 、信息的内容特征:按信息的学科属性或主题 按照一定的方法进行排列。形成检索途径。 3、存储过程 4、检索过程 5 、检索点:也称检索入口,一般来说,设置的 信息检索点主要有:分类、主题、名称、著者、 代码等。
顺排文档 指文档中的记录按一定的顺序存放,记录间的逻辑顺序和物理顺序一致,因此也 叫线性文档。
218653(AN) Nonverbal Communication in Teaching TI Smith, Howard A AU Reviews of Educational Research.V49 n49 p631-72 Wtr1983 JN PY Language:English LA School–related research is reviewed under„ AB „„ 218654 218655 „„
2、数据库组成部分 (1)文档 若干个逻辑记录构成的信息集合称为文档。数据库 的文档由顺排文档和若干倒排文档组成。 (2)记录 由若干字段组成的文献单元,是计算机检索系统存 储文献条目和标引的信息载体,每条记录记载了一 篇文献的内部特征和外部特征。 (3)字段 是构成记录的基本单元,是对实体的具体属性进行 描述的结果。
倒排文档 是将记录中可检索字段及其属性值提出来,按其属性值排序 后形成的可供检索的索引文档。 关键词索引文档表 索引词 记录号 字段号 Article 195895 AB2 Artifacts 218653 AB22 Behavior 218653 AB17 Body 195895 TH2 195895 AB10 „„
第一阶段:手工检索阶段(1876-1954) 。发源于图书馆 的参考咨询工作和文摘索引工作。在这一阶段,信息检 索逐渐形成一个独立的领域,走向专门化,纸本工具书 是这一时期信息检索的主要工具。 第二阶段:脱机批处理检索(1954-1965) 。20世纪五 六十年代计算机的诞生带来了信息检索的革命。在这一 时期,计算机还没有连接通信网络,也没有远程终端装 置,主要是利用计算机进行现刊文献的定题检索和回溯 性检索。