第二章 信息检索基础
合集下载
第2章--信息检索PPT课件
经济
文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理
S
T U V X Z
农业科学
工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书
《中国图书馆分类法》
中国图书馆分类法分类表共分22个大类,再分17个 二级目录,医药卫生属于R大类。 《中图法》采用汉语拼音字母和阿拉伯数字组成的 混合制号码作类目标识,用一个字母标记一个基本
的问题;
另一方面是特定原始文献的查找,即在查找特定
的文献线索后,找出原始文献的过程。
第一节 信息检索基础
一、信息检索概念
(二)信息检索的意义和作用 信息检索 有助于知识更新 ,有助于同学们扩大视野 ,了解和把握有关学科中出现的新思想、新观点与 新知识。掌握信息检索技术是快速、准确地获取和 利用最新信息的有效途径。 信息检索有助于科学研究,了解和把握有关学科的 起源和发展过程。 有助于独立自主地解决自己在学习、生活和工作中 所遇到的疑难问题。 是接受终身教育的必要手段。 节省时间,提高效率。
第二节 信息检索语言
二、检索语言的种类
(一)分类检索语言 分类检索语言又称分类法,是用分类号(字母、数 字或它们的组合)来表达各种概念的,并将各种概 念按学科性质进行分类和系统排列的信息检索语言。 它以树状结构的形式,按知识门类的逻辑次序反映事物 的从属、派生关系,构成具有上位类和下位类隶属、同 位类并列的概念等级体系。 能较好体现概念的族性关系,从学科专业的角度检索资 料,比较方便,扩大、缩小检索范围方便。
(一)按信息检索的对象划分
数据信息检索 利用数据库、工具书等以数值或数据为对象的检 索,也称为数值检索。检索包含分子式、分子量 、公式 、图表等特定数据的信息。
第二章 信息检索基本知识
(二)按出版形式划分:
原始文献
图书
特种文献
期刊
会 议 文 献
科 技 报 告
专 利 文 献
学 位 论 文
政 府 出 版 物
其 标 准
食品标准网
它
7-111-17892-0
《发票报文》GB/T 17303.2-1998 第二部分:国际贸易商业发票报 文
……
(三)按信息的加工程度来分: 1、一次文献信息 (原始文献):
一、检索工具的作用 1、报道作用 2、存储作用 3、检索作用
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。
2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类型
按著录信息的特征划分:
1、目录 2、题录 3、文摘 4、索引
检索途径-分类途径 分类途径的缺点是新兴学科、边缘学科在 分类时往往难于处理,查找不便。另外, 从分类途径检索必须了解学科体系,否 则在将概念变换为分类号的过程中常易 发生错误,造成漏检或误检。
检索途径-主题途径
• 主题途径是一种按照文献的主题内容查找文献 的途径。使用的语言是主题语言。使用的检索 工具有“主题索引”、“关键词索引”、“叙 词索引”等。 • 主题法打破了传统的学科分类的框框,把分散 于各个学科的有关文献集中于同一主题词之下, 以文字作检索标识,索引按照资料内容的主题 词或关键词的字顺排列,检索时就象查字典一 样,不必考虑学科体系。
更多……
• 按检索方式,可分为印刷型检索工具和机器检 索工具; • 按出版形式,可分为期刊式检索工具、书本式 检索工具、卡片式检索工具、缩微式检索工具、 机读式检索工具等; • 按收录范围,可分为综合性检索工具、专题性 检索工具; • 按语种,可分为中文检索工具和外文检索工具;
第二章 文献信息检索基础
理的名词术语,具有单一性、组配性好的特 点。
(2)分类语言:直接体现知识分类的等
级制概念标识系统;如中图分类号、杜威 十进制分类法等。
《中国图书馆图书分类法》即《中图法》
《中国图书馆图书分类法》
体现学科的系统性,反映事物的从属、 派生关系,并从上至下、从总体到局部 层层划分,展开,是一种等级分明的语 言。分为五大部类,22个大类,分别用 22个大写字母表示(其中除掉L、M、W、 Y)。
1.前方一致
也叫后截断,将截词符置于一个字符串的后面,以表示其后的有限或无 限个字符的检索。
无限截词
如: ? Physic? 可检出physic、physical、physican、physicalism
有限截词
截断两个字符
中间有 空格
如:? physic?? 可检出physic、physical、physican 截断一个字符 如:? cat? ? 可检出cat、cats
2.3 综合法
综合法又称为循环法,它是把上述两种方法
加以综合运用的方法。综合法既要利用检索 工具进行常规检索,又要利用文献后所附参 考文献进行追溯检索,分期分段地交替使用 这两种方法。即先利用检索工具(系统)检 到一批文献,再以这些文献末尾的参考目录 为线索进行查找,如此循环进行,直到满足 要求时为止。 综合法兼有常用法和追溯法的优点,可以查 得较为全面而准确的文献,是实际中采用较 多的方法。
能包含特征B。可以缩小检索范围,有利于提高查 准率。 A – B(逻辑非)
例:自由分配方面的文献(排除海南大学师生的著作) 提问式::(关键词=‘自由分配’) not (单位=‘海南大学')
三、位置算符
也叫邻近检索, 在检索词之间使用, 规定算符两边的检索词出现在记录中
第二章 文献信息检索基础知识
载体是感光材料,如缩微平片、缩微胶卷。 另外,还有一种计算机输出缩微胶片。
这类文献特点是体积小、信息密度高、 轻便,易于传递,保存容易。但使用时必须 借助于放大设备。
电子型文献(Electronic Document)
原称机读型文献。是指以数字化技术将文献
存储在光、磁载体上,通过计算机或网络进行阅
2、学术期刊 (Periodicals,Journal,Magazine):
指有固定名称和统一的出版形式,按一定规律定
期或不定期连续出版的文献载体,与报纸属于称
连续性出版物。
(1)期刊的特征:
统一的刊名,有连续的年、卷、期及页码;
有国际标准连续出版物刊号ISSN (International Series Standard Number) ISSN由8位数字分两段组成,如1000-0135,前7 位是期刊代号,末位是校验号。
(3)期刊著录格式:
作者(多作者用逗号分开,超过3个者用“等或 et al”). 文章题目[J].刊物名称,年代,卷数(期 数):页数 如: Porter MF, Zhang J. An algorithm for suffix stripping. Program, 1980, 14(3):130~137
P:专利文献类别代码
(2)专利文献著录格式
专利申请者.
专利题名:专利国别(或地区), 专利号[P].出版日期. TACHIBANA R, SHIMIZU S, KOBAYSHI S, et al. Electronic watermaking method and system: US, 6,915,001[P]. 2002-04-25.
(1)图书的特征
图书没有统一的开本
这类文献特点是体积小、信息密度高、 轻便,易于传递,保存容易。但使用时必须 借助于放大设备。
电子型文献(Electronic Document)
原称机读型文献。是指以数字化技术将文献
存储在光、磁载体上,通过计算机或网络进行阅
2、学术期刊 (Periodicals,Journal,Magazine):
指有固定名称和统一的出版形式,按一定规律定
期或不定期连续出版的文献载体,与报纸属于称
连续性出版物。
(1)期刊的特征:
统一的刊名,有连续的年、卷、期及页码;
有国际标准连续出版物刊号ISSN (International Series Standard Number) ISSN由8位数字分两段组成,如1000-0135,前7 位是期刊代号,末位是校验号。
(3)期刊著录格式:
作者(多作者用逗号分开,超过3个者用“等或 et al”). 文章题目[J].刊物名称,年代,卷数(期 数):页数 如: Porter MF, Zhang J. An algorithm for suffix stripping. Program, 1980, 14(3):130~137
P:专利文献类别代码
(2)专利文献著录格式
专利申请者.
专利题名:专利国别(或地区), 专利号[P].出版日期. TACHIBANA R, SHIMIZU S, KOBAYSHI S, et al. Electronic watermaking method and system: US, 6,915,001[P]. 2002-04-25.
(1)图书的特征
图书没有统一的开本
第二章文献信息检索基本知识
54-16-089 (化学物质登记号)
运算符
1、布尔逻辑运算符(Boolean Operators) 2、通配符和截词符 3、字段限制符
、
1、布尔逻辑运算符 Boolean Operators
名 称
逻辑 与
逻辑 或
逻辑 非
运算符
AND * OR +
NOT -
逻辑关 系
举例
作用
限定 A AND B 缩小
需求分析
信息源
检索工具 检索方法
检索途径 检索标识
确定学 科范围、
主题概 念。
确定信 息源类 型、 语
种、时 间和空 间范围。
选择数据 库及其文 档、搜索 引擎及网 站。
选择检索 途径
及其检索 标识
制定检索 策略
调整检索 策略
查找文献 线索
索取原始 文献
检索提 问表达 式
根据检索 结果,扩 大或缩小 检索范围, 提高查全 率和查准 率。
以工程索引EI为例,通配符和截词符的检索 表达式及检索结果如下:
算符 *
$
含义
结果
利用它可以输入检索词的起始部分,而 实现一簇词的检索
自动取词根运算符
Alter*可命中 alter,alternando,altern ant,alternate,alternati ve等
$alter可命中 alter,alternate,alterna tive
用检索 工具查 找到文 献线索
馆藏文献借阅、 复制 全文数据库 网上获取 向作者索取
检索提问表达式=检索词+运算符
检索词
分为两类: 字词类:名词术语(如叙词或关键词),或者是个
人或机构名称。 如:行政管理、王平、西安邮电大学等。
运算符
1、布尔逻辑运算符(Boolean Operators) 2、通配符和截词符 3、字段限制符
、
1、布尔逻辑运算符 Boolean Operators
名 称
逻辑 与
逻辑 或
逻辑 非
运算符
AND * OR +
NOT -
逻辑关 系
举例
作用
限定 A AND B 缩小
需求分析
信息源
检索工具 检索方法
检索途径 检索标识
确定学 科范围、
主题概 念。
确定信 息源类 型、 语
种、时 间和空 间范围。
选择数据 库及其文 档、搜索 引擎及网 站。
选择检索 途径
及其检索 标识
制定检索 策略
调整检索 策略
查找文献 线索
索取原始 文献
检索提 问表达 式
根据检索 结果,扩 大或缩小 检索范围, 提高查全 率和查准 率。
以工程索引EI为例,通配符和截词符的检索 表达式及检索结果如下:
算符 *
$
含义
结果
利用它可以输入检索词的起始部分,而 实现一簇词的检索
自动取词根运算符
Alter*可命中 alter,alternando,altern ant,alternate,alternati ve等
$alter可命中 alter,alternate,alterna tive
用检索 工具查 找到文 献线索
馆藏文献借阅、 复制 全文数据库 网上获取 向作者索取
检索提问表达式=检索词+运算符
检索词
分为两类: 字词类:名词术语(如叙词或关键词),或者是个
人或机构名称。 如:行政管理、王平、西安邮电大学等。
第二章 信息检索的基本知识
应用举例:
利用《中图法》在《全国报刊索引》中查找 有关“建筑抗震设计”方面的相关文献。 第一步:分析课题,按学科属性属于“T工业技术” 中的“TU建筑科学”大类。 第二步:查《中图法》确定分类号为:T工业技 术—TU建筑科学—TU3建筑结构—TU352.11抗震结 构。 第三步:根据《全国报刊索引》(科技版)的分 类目录给出的TU3建筑结构的页次,得到相关文献。 第四步:根据的出处索取原始文献。
第二章 信息检索的基本知识
主要内容
1.信息检索概述 2.信息检索原理及检索语言 3.信息检索系统与检索工具 4.信息检索的一般程序
2.1 信息检索概述
2.1.1信息检索的含义
信息检索(Information Retrieval)是指 将信息按一定的方式组织和存储起来,并根据用 户的需要找出有关信息的过程,又叫信息储存与 检索(Information storage and Retrieval), 这是广义的信息检索,如图2-1所示。狭义的信息 检索则是仅指该过程的后半部分,即从信息集合 中找出所需信息的过程。
内容特征 标题词 主题语言 关键词 叙词 描述文献外表特征的检索语言,例如篇名、著者姓名、文 献号等作为文献标识与检索依据直接明了,使用时较为简单。 而文献内容特征的语言,也就是分类语言和主题语言的原理和 使用方法是下面主要介绍的内容。
一条中文书目记录:
题名: 信息检索 作者: 徐天秀 出版项:北京:科学出版社,2006 页码: 320页 价格: CNY23.00 主题: 情报检索 索取号: G252.7/101 内容提要:本书是一本工具型书籍,提供的信息检索学科 范围广,内容尽量以最新版本为主,是一本适用性强的学 习信息检索方法和技巧的专著,尤其是本书配制的多媒体 光盘,为本课程的学习提供了便捷。 分类: G252.7
第二章 信息检索基础知识
* 叙词语言
是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻 辑组配的一种主语语言。如《汉语主题词表》、《INSPEC叙词表》(《科学 文摘》)、《工程索引叙词表》等。
非规范主题语言:它是相对于规范主题语言而言的,以自然语言的语词作检
索标识,其所用词汇未经过规范化处理。非规范主题语言包括关键词语言和 纯自然语言。
索”。 –B.切分也要适度,不能因切分而改变语义。如:不能将“操作系统” 切分为“操作|系统”
• 2、删除 将课题转换成关键词的集合
–A.删除不具有检索意义的虚词(a,the,is等)和关键词(因使用太宽 泛而不具有检索意义,如:http,com等) –B.删除过分宽泛和过份具体的限定词 » 无损检测技术在材料性能评价中的应用无损检测*材料 –C.删除具有包含关系的其中一个 » 教学用的信息检索课多媒体课件信息检索*多媒体*课件 • 3、替换 用更本质的概念替换表达欠佳的概念 稀土材料的研制钐钴(用户实际上是研究钐钴材料)
第二章 信息检索基础知识
一 信息检索
二 信息检索语言、途径
三 信息检索技术 四 检索步骤
一、信息检索
信息检索:是指将信息 (主要指文献信息)按一定 的方式组织和存储起来,并
根据用户的需要找出相关信
息的过程。
存储
信息检索 检索
存储:是对信息进行著录、 检索:是指面向信息需求 标引、整序,编制检索工 而进行高度选择性的查找 具和建立检索系统的过程。 过程。
作用:1)、保证不同标引人员表征文献信息的一致性。 2)、使内容相同及相关的文献集中化。
3)、保证检索提问与文献信息标引的一致性。
4)、保证检索者按不同需求检索文献信息时, 都能获得最高的查全率和查准率。
信息检索基础.ppt
查全率 80% 查准率 88.9%
27
2.3 信息检索类型
1.文献检索
以索引、文摘或其他文献特征为主要检索对象 ,目的是运用检索系统查检出与某课题相关文献 检索,从而获取原始文献。
2.数据检索
以数据为检索对象,可直接选择专门的数据性 工具进行查检,从而得到数值性数据、图表、化 学结构式、计算公式等。
冠状动脉疾病 冠状动脉心脏病
主题词 冠状动脉疾病
治疗
文献
20
4. 著者检索
用文献的著者、编者、译者的姓名或机构团体名 称编制而成的索引。
按著者姓名字顺编排 书写格式 姓前(全称)、名后(缩写,即用首字
母)
如:Willian Henry Harrison →Harrison W H
Ren Shu Min → Ren SM
计算机检索系统
3
二、信息检索的原理
是将描述特定用户所需信息的提问特征,与 信息存储的检索标识进行异同的比较,从中找 出与提问特征一致或基本一致的信息。
本质是用户的信息需求与存储 在信息集合中的信息进行比较和 选择, 即匹配的过程。
4
主题
信息 文献的 分析 存贮 信息内容
主题
信息 检索者的 分析 检索 信息需要
18
3. 主题途径
主题词:是以自然语言为基础,以概念组配为 基本原理,并经过规范化处理,表达主题的最 小概念单元,作为信息存储和检索依据的一种 检索语言。
特 点: 词义、词类、词形规范保证词语与概念的唯一
对应关系,具有专指性。
19
检索举例:冠心病的治疗
自由词
冠心病
冠状动脉粥样硬化性心脏病 治疗
1. 直接浏览法
直接浏览法也称直接查找法,指检索者不依靠任何检 索工具或检索系统,从本专业最新核心期刊或其他文献中 直接阅读原文或浏览最新目次而获取文献的方法。这是一 种最常见的信息资源的获取方式。因为编制检索工具需要 时间,有的半年,甚至长达一年之久,直接浏览可以及时 获得最新文献。但利用这种方法查找的信息不全面、不系 统、且局限性较大,不能作为查找文献的主要方法。
27
2.3 信息检索类型
1.文献检索
以索引、文摘或其他文献特征为主要检索对象 ,目的是运用检索系统查检出与某课题相关文献 检索,从而获取原始文献。
2.数据检索
以数据为检索对象,可直接选择专门的数据性 工具进行查检,从而得到数值性数据、图表、化 学结构式、计算公式等。
冠状动脉疾病 冠状动脉心脏病
主题词 冠状动脉疾病
治疗
文献
20
4. 著者检索
用文献的著者、编者、译者的姓名或机构团体名 称编制而成的索引。
按著者姓名字顺编排 书写格式 姓前(全称)、名后(缩写,即用首字
母)
如:Willian Henry Harrison →Harrison W H
Ren Shu Min → Ren SM
计算机检索系统
3
二、信息检索的原理
是将描述特定用户所需信息的提问特征,与 信息存储的检索标识进行异同的比较,从中找 出与提问特征一致或基本一致的信息。
本质是用户的信息需求与存储 在信息集合中的信息进行比较和 选择, 即匹配的过程。
4
主题
信息 文献的 分析 存贮 信息内容
主题
信息 检索者的 分析 检索 信息需要
18
3. 主题途径
主题词:是以自然语言为基础,以概念组配为 基本原理,并经过规范化处理,表达主题的最 小概念单元,作为信息存储和检索依据的一种 检索语言。
特 点: 词义、词类、词形规范保证词语与概念的唯一
对应关系,具有专指性。
19
检索举例:冠心病的治疗
自由词
冠心病
冠状动脉粥样硬化性心脏病 治疗
1. 直接浏览法
直接浏览法也称直接查找法,指检索者不依靠任何检 索工具或检索系统,从本专业最新核心期刊或其他文献中 直接阅读原文或浏览最新目次而获取文献的方法。这是一 种最常见的信息资源的获取方式。因为编制检索工具需要 时间,有的半年,甚至长达一年之久,直接浏览可以及时 获得最新文献。但利用这种方法查找的信息不全面、不系 统、且局限性较大,不能作为查找文献的主要方法。
信息检索教程(第二章)
4
(b)按收录文献出版形式分
●图书目录 ●期刊目录 ●会议论文目录 ●标准目录等。
(c)按物质形式划分
●卡片目录 ●书本目录 ●机读目录 ●联机公共检索目录等。
5
(2)图书馆目录、OPAC和联合目录概述
①图书馆目录
定义:它主要提供馆藏资源的检索,又叫馆藏目录,它反映
了一个图书馆的文献收藏情况,是一种重要的检索工具。
26
常用法示例
27
追溯法示例
28
2.3.2检索途径
29
30
1.分类途径
图书期刊分类法
世界三大图书分类法
《杜威十进分类法》(DDC)(Dewey decimal Classification ) 《国际十进分类法》(UDC)(Universal Decimal Classification) 《国会图书馆图书分类法》(LCC)(Library congress classification)
定义:所谓文献检索的方法,即查找文献的方法。有以下三种: 常用法:直接利用文献检索工具或检索系统来查找文献的方法,是 一种常规的科学检索方法。又称工具法或直接法。分为顺查法 、倒查法和抽查法。 追溯法:是一种跟踪查找法。它不利用检索工具只是利用文献(尤其 是评述性论文或专著) 后面所附的参考文献进行逐一地追踪查 找原文。又称引文法。 综合法:是常用法和追溯法的综合。利用检索工具或检索系统进行 常规检索,再利用文献后所附参考文献进行追溯检索,分期分 段交替使用这两种方法,直到满足要求为止。可以查得较全面 较准确,尤其适用于那些过去年代内文献较少的课题。称循环 法、分段法或交替法。
22
2.2.2检索工具的鉴别与评价
1.信息收录范围与信息质量
信息检索基础知识
46
计算机信息检索系统工作流程
输入子系统——选择收集特定范围的信息资源、按系统 指定款式输入系统 处理子系统——处理加工经过鉴定、选择好的数据和信 息,使其成为易于存储和检索的形式。 存储子系统——将加工处理后的信息按某种规定有序聚 积在存储载体上以构成可检文档。 传输子系统——通过计算机与通信线路的连接,完成信 息编码的传递、转接、处理与接受。 输出子系统——根据用户需求有效输出各类最终信息产 品。 控制子系统——根据系统内外环境变化,适时调控,保 障系统的有效输入、有效存储、有效输出等环节的协调 运行。
16
三、计算机信息检索系统 2、计算机信息检索系统的类型
计算机单机信息检索系统(20世纪50年代 初——60年代中期) 计算机联机信息检索系统( 20世纪60年 代中——70年代中期) 计算机光盘信息检索系统( 20世纪70年 代中——80年代中期) 计算机网络信息检索系统( 20世纪80年
(期).页码
10
二、手工信息检索系统
5、几种常用的手工信息检索工具 《中国农业文摘》: 81年创刊、85年起分7个分册 刊期、类型:双月刊、文摘型 检索途径:分类、主题、著者 著录格式:分类号 顺序号 题目 /作者
// 刊名, -年,卷(期). -页码 文摘正 文…… 图x 表x 参x (文摘员)
23
一、信息检索语言概述
信息检索语言是人们在加工、存储
及检索信息时所使用的标识符号; 信息检索语言是索引款目所使用的 标识系统; 信息检索语言可以是对自然语言作 规范化处理后的词汇与技术语言, 也可以是某类事物及其某方面特征 的代码。
24
二、信息检索语言的基本类型
1、按构成原理分:
第二章 信息检索基础知识
全文检索
图像检索 超文本检索
文献检索
使用以二次文献为存储对象的信息系统,如目录
型、题录型、文摘型数据库,是一种相关性检索。特 点:检索结果不直接解答课题用户提出的技术问题, 只提供与之相关的线索。 例如:查找有关“食品安全与人类健康 ”方面的
国内外信息有哪些?
数据检索
以数值信息为检索对象,通过检索,用户可以获 得所需要的确切数据,是一种确定性检索。它一般以
的方式记录在相应的信息载体上,组织成系统
化的检索系统。
1. 数据库及其构成
数据库(database):至少由一种文档组
成,并能满足某一特定目的或某一特定数据处
理系统需要的一种数据集合。 通俗地说,数据
库就是在计算机存储设备上,按一定方式存储的 相互关联的数据集合,是信息检索的基础。
1. 数据库及其构成
一、信息检索的效果评价指标 二、影响检索效率的主要因素
一、信息检索的效果评价指标
以一个检索提问去检索任何一个数据库都会出现 4 个相关量:检出的相关信息量、未被检出的相关信 息量、检出的非相关信息量、未检出的非相关信息量。
一、信息检索的效果评价指标
1. 查全率 a 查全率(R )= —— ×100% a+c 查全率是对所需信息被检出程度的信息量指标。 2. 查准率 a 查准率(P )= ——×100% a+b 查准率是衡量拒绝非相关信息的指标。
中国图书馆分类法的体系结构:
S农业科学类目简表
(2)按事物的性质分类
按事物的性质分类 --- 热门主题 : 各种搜索引擎和网站 按事物的性质分类 --- 功能(使用方向)主题: 国际专
利分类法(IPC)
2.主题描述及信息检索语言
新第二章 信息检索基础知识
2.2 信息检索语言
三、主题语言
4.关键词语言
是指从文献标题、文摘、正文中抽离出来的,对表征文献主题 内容具有实质意义的语词,以关键词作为信息标识和检索依据的主 题语言。关键词没有固定的词表,因为对于同一个事物的概念,不 同作者甚至是同一个作者在不同的著作中用词都会不同,它是没有 经过规范化的自然语言词汇。 在检索中文医学文献中使用频率较高的《CMCC》数据库就是 采用关键词索引方法建立的。
2.5 计算机检索技术 四、词组检索
将固定词组或短语 看成单个词进行处理。
常用“ ”作为词组检索的运算符。
2.5 计算机检索技术 五、字段检索
对指定的一个或多个字段进行检索,从而提高查准率或查全率。
标题、作者、摘要、关键词、作者单位、文献来源、学位授予单位、 学位级别、会议信息、会址、会期、书名、出版地、出版年、专利号、报 告号、ISBN、ISSN等。
2.2 信息检索语言
一、信息检索语言的定义、作用和种类
4.分类:
篇名(题目) 著者名称 描述文献外表特征 文献序号 引用文献 等级体系分类语言 分类语言 组配分类语言 主题语言
检索语言
描述文献内容特征
代码语言
标题词语言 关键词语言 单元词语言 叙词语言 分子式索引 结构式索引 专利号索引等
2.2 信息检索语言
2.4 信息检索标识 一、检索标识的定义
检索标识即检索词,是指能表达检索课题主题概念和信息需 求的名词术语、分类号、名称、代码等的总称,包括主题词、 关键词、名称、分类号、分子式、专利号及各种号码。
2.4 信息检索标识 二、信息检索标识的类型
1.描述信息内容特征的检索标识: 分类、主题、代码(符号)。
2.5 计算机检索技术 一、布尔逻辑检索
第二章文献信息检索基本理论与方法
《中国人民大学图书馆图书分类法》 《中国科学院图书馆图书分类法》
4.
《中图法》将学科划分为5个基本部类,22个基 本大类,再进行层层划分,逐级分开。
16
《中图法》五大部类、二十二个基本大类
A、马克思主义、列宁主义 毛泽东思想、邓小平理论 B、哲学、宗教 C、社会科学总论 D、政治、法律 E、军事 F、经济 G、文化、科学、教育、体育 H、语言、文字 I、 文学 J、 艺术 K、历史、地理 N、自然科学总论 O、数理科学和化学 P、天文学、地球科学 Q、生物科学 R、医药、卫生 S、农业科学 T、工业技术 U、交通运输 V、航空、航天 X、环境科学、安全科学 Z、综合性图书
12
分类语言 描述文献内 关键词语言 标题词语言 单元词语言 叙词语言
容特征的语言
检索语言
主题语言
代码语言 书/刊/篇名 描述文献外 表特征的语言 著者姓名
引文 代码/序号
13
(1) 分类语言:是按文献的学科性质给予相应的分 类号,用分类号表达文献主题概念的检索语言, 根据分类表中的顺序编排成分类索引,提供分类 途经供检索文献使用。 它运用概念划分与概括的方法,按照知识门 类的逻辑次序从抽象到具体,从一般到特殊,从 简单到复杂,对知识进行科学划分,从而产生不 同级别且存在隶属关系和体现知识登记体系的类 目一个类目以不同的符号(分类号)作标识,从 而形成了以分类号为标记的体系分类语言。
29
索引分两种: 一种是作为工具书的主体,如文献题名(篇 目)索引。 另一种是作为工具书的一部分,一种检索 途径,内容索引如:主题索引、著者索引 等。 3. 题录是对单篇文献外表特征所作的著录。 著录项目包括文献题目、著者及其所在单 位、出处及文种等。
4.
《中图法》将学科划分为5个基本部类,22个基 本大类,再进行层层划分,逐级分开。
16
《中图法》五大部类、二十二个基本大类
A、马克思主义、列宁主义 毛泽东思想、邓小平理论 B、哲学、宗教 C、社会科学总论 D、政治、法律 E、军事 F、经济 G、文化、科学、教育、体育 H、语言、文字 I、 文学 J、 艺术 K、历史、地理 N、自然科学总论 O、数理科学和化学 P、天文学、地球科学 Q、生物科学 R、医药、卫生 S、农业科学 T、工业技术 U、交通运输 V、航空、航天 X、环境科学、安全科学 Z、综合性图书
12
分类语言 描述文献内 关键词语言 标题词语言 单元词语言 叙词语言
容特征的语言
检索语言
主题语言
代码语言 书/刊/篇名 描述文献外 表特征的语言 著者姓名
引文 代码/序号
13
(1) 分类语言:是按文献的学科性质给予相应的分 类号,用分类号表达文献主题概念的检索语言, 根据分类表中的顺序编排成分类索引,提供分类 途经供检索文献使用。 它运用概念划分与概括的方法,按照知识门 类的逻辑次序从抽象到具体,从一般到特殊,从 简单到复杂,对知识进行科学划分,从而产生不 同级别且存在隶属关系和体现知识登记体系的类 目一个类目以不同的符号(分类号)作标识,从 而形成了以分类号为标记的体系分类语言。
29
索引分两种: 一种是作为工具书的主体,如文献题名(篇 目)索引。 另一种是作为工具书的一部分,一种检索 途径,内容索引如:主题索引、著者索引 等。 3. 题录是对单篇文献外表特征所作的著录。 著录项目包括文献题目、著者及其所在单 位、出处及文种等。
第二章信息检索基础1
化学物质登记号(CAS registry number)检索
分子式(formula)检索 记录顺序号(accession number)检索 化合物结构图检索(structure search)检索 ……
不同检索途径常用字段名称
题名途径:题名、标题、篇名、题目、title 分类检索途径:分类号,中图分类号 主题途径:主题词、MeSH、MeSH terms、 Thesaurus、map term to subject headings 关键词途径:关键词、keywords、text words 著者途径:(第一)作者、著者、责任者、 author、first author
研、生产中的具体问题所需要的特定知识或信息。(微波炉
发明) (四)文献(Literature) 文献是记录有知识的一切载体,是知识的外在形式。
情报的基本属性
知识或信息 经过传递
经用户使用产生效益 情报的 基本属性
信息与知识、情报、文献的关系
知识源于信息,是信息的一部分 情报源于知识或信息,是激活了的知识或信息 文献是信息、知识、情报的主要载体形式
形成系统,便于检索的文献。
如:题录、书目、索引和文摘。
特征1 特征2 特征3 特征4 特征5
提取特 征
特征n
二次文献
二次文献
二次文献
2013-8-10
40
三次文献
三次文献是利用二次文献并在其指引下,对大 量的一次文献进行综合分析研究,加以浓缩和提 炼而成的文献。 包括综述、述评、进展、预测等,各类词典、 手册、年鉴、百科全书、指南等参考工具书也属 于三次文献的范畴。
一次文献、二次文献、三次文献
一次文献:
又称原始文献,是首次公开发表的文献,直 接记录了科研成果,报道了新发明、新技术、新 知识和新观点。 一次文献主要包括专著、期刊论文、科技报 告、会议文献、学位论文、专利文献等。
第二章信息检索基础知识
属后组式语言。
主题词
概念:通过文献所属学科的主题对文献进行检索, 是以主题词为检索标识,它是一种特性检索。 主题词是用来表达文献的主题概念的,经过规范化 主题词 处理的名词或词组。 如:出生缺陷-畸形 杵状指-骨关节病,继发肥大性
主题词表- 主题词表-单元词表
《WPI--规范化主题词表》
(WPI--LIST OF STANDARD THESAURUS TERMS)
是检索英国德温特公司专利文献的工具。按规范 词字顺排列。其著录格式见图
WPI-List of Standard Thesaurus Terms 1987 COBALT(3772)(1) COBALT@(3) CODON【87】(4) ELECTRIC(33892)(1) Electrical(2)
关键词 自然语言 单元词 标题词 叙词 语 言 言 语
分类语言
分类语言是运用概念划分的方 法,按文献内容所属学科、专 业性质的逻辑次序,以数字、 字母或数字与字母结合为基本 字符,以分类号为标识,用来 存储和检索文献的文献标识系 统。
分类语言的特点
主要特点就是按学科专业性质集中图书 区分不同性质的图书 集中性质相同的图书 相近的放在相近的位置 按照远近亲疏的关系把图书组成为一个 有条理的体系 提供从学科分类查找图书的途径
机械制造工艺系统学 / 张恩生,申铁固编著-上海交通 大学出版社 TH16/ Z31 机械设计学习指南 / 陶民华等编机械工业出版社 TH122-44/ T43 机械优化设计基础 / 张九明编著煤炭工业出版社 TH122/ Z32A 分类号+著者号TP393-62/J25
主题语言
主题语言是指以自然语言的字符为字符, 以名词性术语为基本词汇,用名词性术 语作为标识的一种信息标识系统。是主 题概念检索文献信息的检索语言。
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2014-5-26
18
数据检索以具有数量性质,并以数 值形式表示的数据为检索目的和对象, 检索的结果是经过测试、评价过的各种 数据。
数据文件组织方式不同,数据检索 的技术方法亦不同。对于顺序结构文件 ,常见方法有顺序检索、分块查找法、 两分检索等。
对于随机结构文件,常采用直接地 址法、杂凑(hash)法等。地理信息系 统中空间数据检索常涉及目标空间分布 范围(行政区域、地理范围或空间关系 等)及目标属性类型(地形高度、坡度 、土地利用现状等)两个方面的综合条 件。
根据研究文摘历史的专家弗西斯·威蒂( Francis J. Witty)介绍,一种用途类似于文摘 的工具首先出现在公元前两千年美索不达米亚 人用楔形文字写成的文献的陶制封套上。
我国最早带有内容摘要的图书目录是西 汉刘向、刘歆父子整理编撰的《别录》和《七 略》。古代使用文摘的人有学者、政治家,还 有教皇和僧侣。
第四阶段:网络检索阶段。
网络信息检索开始于20世纪90年代初。 1991年思维机等公司、明尼苏达大学、欧洲高 能粒子协会分别推出了因特网上的检索工具 WAIS、Gropher和WWW。
目前,WWW因其集文本、图像、声音等 多媒体信息于一体的巨大优点,已占信息服务 的主导地位。
在该阶段,系统大多采用分布式的网络化 管理,其信息资源的主要特点是:数字形式表 达、多媒体和多取复杂、 用户界面要求高等。
信息检索多语种化 多语种信息检索将依然是未来网络信息检索 的研究热点,现在对多语种信息检索的支持主 要体现在预先设定检索语言,
其检索结果也限制在预先设定的语言中 。而使用某一种语言直接进行多语种检索,提 供多语种的匹配结果将是多语种信息检索的下 一个方向。
这种单一检索界面的检索将在后台有一个多 语种词库,对用户提交某一语种的检索词自动 在词库中查找对应其他语种的检索词,再提交 给搜索引擎,以多语种检索结果输出给用户。 这种多语种、多信息检索需要机器翻译技术的 支持,并且需要对多语种检索得出的输出结果 相关度或重要性排序进行研究。
5 信息检索的意义
二 信息检索语言
2014-5-26
80
1 检索语言概述
光电信息检索系统:使用缩微照相记录 二次文献,以胶卷或胶片边缘部分若干黑白小 方块的不同组合做检索标志,利用光电检索元 件查找文献的检索系统。
计算机信息检索 起源于20世纪50年代初,1954年美国海 军兵器中心图书馆利用IBM701机开发计算机检 索系统,它标志着计算机信息检索阶段的开始 ,计算机信息检索可以分成四个发展阶段。
信息检索个性化 个性化是指各网站注重内容的特色化和注重 个性化的服务内容。个性化服务的实质在于提 供真正适应用户需要的产品。
事实上,网上已经开始出现专门收录某 一领域信息的网站,尤其是在一些热门领域, 如StockSite()提供股 市分析文章、股票分析工具、公司研究文章及 与商业和金融相关的新闻。
2014-5-26
38
文摘和索引工作,(都是二次文献)从编 辑、出版和基本目的几个方面来看有许多共性 。两者之间主要差别在于包含的情报内容。
索引刊物只提供文献资料出处,文摘刊物 除此之外,还提供专业内容。文摘是重要的, 但从利用方面来说,不见得它就一定比索引好
在大多数情况下,没有文摘的索引刊物往 往具有很好的及时性。这与文摘所能提供的对 文献内容的揭示具有几乎同等的重要意义。这 就是为什么在同一专业领域内,文摘和索引工 作往往是长期共存的原因所在。
机械信息检索阶段分为 机电信息检索系统:使用诸如打孔机、验 孔机、分类机等机电设备记录二次文献,用电 刷作为检索元件的信息检索系统。
电刷在电机旋转部分与静止部分之间传导 电流的主要部件之一。具有良好的滑动接触特 性(如摩擦系数、耐磨性等),对电阻率和接触 电阻等也有特殊要求,通常以石墨为主要原材 料。
Information Retrieval
第一章 信息检索基础
2014-5-26
2
一信息检索概述
1 信息检索原理 广义 狭义
2014-5-26
3
所谓信息检索,广义地说,是指将信息 按照一定的方式组织和存储起来,并能根据信 息用户的需要指出其中相关信息的过程,因此 它的全称又叫“信息存储与检索”。
信息整序可分为形式整序和内容整 序两类。它们是根据代表信息外在属性 的标识(如著者姓名、题名、序号等) 和内在属性的标识(如分类号、主题词 等)排列信息的。
如以信息的著者姓名为标识,可以 把所有信息按照著者姓名的字顺排列起 来。用户只要知道著者姓名,就可以按 著者姓名字顺的信息序列中(著者索引 )查到所需信息。
一般说来,一个计算机信息检索系 统应由三部分构成:计算机硬件、计算 机软件、数据库。目前计算机信息检索 主要有联机信息检索、光盘信息检索、 网络信息检索等。
3 信息检索发展历史
手工信息检索阶段 机械信息检索阶段 计算机信息检索系统阶段
2014-5-26
37
手工信息检索 信息检索直接发源于文摘索引工作和 参考咨询工作。文摘工作的历史可以追溯到远 古时代。
检索语言沟通了信息的存储和检索 两个过程,是标引员和检索者双方思想 的桥梁,是检索工具或检索系统的重要 组成部分。
2 信息检索类型
检索对象的形式 文献检索、数据检索、事实检索、多 媒体检索
文献检索是以文献(包括文摘、题 录或全文)为检索对象的信息检索。文 献检索是信息检索的主要形式,文献检 索是一种相关性检索,即不直接解答用 户所提出的技术问题本身。
信息检索可视化 信息检索中的可视化,是将数据库中不可见 的语义关系用图像形式可视化显示,并表达用 户检索过程。
可视化信息检索包含两个方面:一个是 检索过程的可视化,另一个是检索结果的可视 化。检索过程的可视化是指用户在检索过程中 各检索对象之间的关系以可视化的形式展现在 用户面前,用户顺着可视化的检索画面一步一 步地发现检索结果。
这种方式不需要更多的设备,不受 时间、地点限制,检索者只要有手工检 索工具即可。
计算机检索是通过计算机来模拟人 的手工检索过程,由计算机来处理检索 者的检索提问,将检索者输入检索系统 的检索提问(即检索标识)
按检索者预先制定的检索策略与系 统文档(机读数据库)中的存贮标识进 行类比、匹配运算,通过“人机对话” 检索出所需要的信息。
(3)信息特征标识与检索提 问标识的匹配
实际上就是将标识员对信息内容的 表达(信息特征标识)与检索者对信息 需要的表达(检索提问标识)进行相符 性比较的过程。信息检索就是通过信息 特征标识与检索提问标识的匹配来实现 的
为了实现这一匹配,标引员的标引 用语和检索者的检索用语必须采用一种 共同的语言,这就是检索语言。
4 信息检索发展趋势
信息检索智能化 智能化是信息检索未来的主要发展方向。 智能检索是基于自然语言的检索形式,机器根 据用户所提供的以自然语言表述的检索要求进 行分析,而后形成检索策略进行搜索。
2014-5-26
66
近年来,Internet上不断涌现的人工智能 产品,如智能搜索引擎、智能浏览器、智能代 理、知识共享智能体等,它们将提高网络信息 检索的智能化程度,促进智能信息检索的发展
但事实信息检索过程中所得到的 事实、概念、思想、知识等非数值性信 息和一些数值性信息须进行分析、推理 ,才能得到最终的答案,
因此要求检索系统必须有一定的逻 辑推理能力和自然语言理解功能。例如 ,要想得到中国发明专利历年的申请案 中,国外来华申请历年所占的百分比是 多少这一事实信息,就需要对历年的数 据进行统计,然后进行比较分析,才能 得出具体答案。
检索手段
手工信息检索、计算机信息检索
手工信息检索即通过手工进行的信 息检索,它主要利用各种印刷型检索工 具,如书本式目录、索引、文摘及参考 工具书等等来进行信息检索与查询。
2014-5-26
30
检寻图书资料的一种工具。将书刊 中的内容或项目分类摘录,标明页数, 按一定次序排列,附在一书之后,或单 独编印成册,以便读者查阅。旧称通检 或备检。也称引得。如:《十三经索引 》;《二十四史纪传人名索引》;《古 今人物别名索引》。
这个阶段的特点是联机数据库集中管理, 具有完备的数据库联机检索功能,但其数据通 信能力较差。
第三阶段:光盘检索阶段。
光盘检索阶段始于20世纪80年代中期。 1985年世界上第一个CD-ROM数据库BIBLIFILE 的问世,是光盘检索系统实用化的标志。
这个阶段比较特殊。在发达国家,光盘检 索是联机检索的支持和补充,但在通信技术不 太发达的国家,由于它本身的优点,确实是用 户获取信息的一个十分重要的手段。
20世纪60-80年代是联机检索试验和实 用化阶段。1960年美国麻省理工学院(MIT) 开始实施有关联机检索系统设计的“技术情报 计划”(TIP),系统发展公司(SDC)也在它 开发的全文检索系统protosynthex上进行了首 次联机检索演示,
该公司后来研制成功的联机信息检索软件 OBIT是联机检索阶段的正式开始。著名的联机 检索系统还有DIALOG系统(属于美国洛克希 德公司,1988年被Knight-Ridder公司购并)等 。
这些特点导致了信息处理从传统模式向 新型模式的转变,如体系结构从终端主机方式 到客户、服务器结构方式,网络环境从局域网 到Internet等开放网络,
应用接口从封闭界面到WWW等,信息结 构从结构化到非结构化,系统功能从单纯信息 检索到综合信息管理和服务等。
这些变化必将促使信息检索技术的不断发 展,以满足人们对提高信息利用能力的需要。 信息检索发展到今天,已经呈现联机检索、光 盘检索和网络检索三者并存的局面。
多媒体信息检索是指根据用户的要 求,对文本、图形、图像、音频、视频 等多媒体信息进行识别和获取所需信息 的过程。
但多媒体信息检索系统并不是简单 地对多种媒体进行检索,它必须既能对 以文本信息为代表的连续媒体的内容进 行检索,