第二章 信息检索
合集下载
第2章--信息检索PPT课件
经济
文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理
S
T U V X Z
农业科学
工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书
《中国图书馆分类法》
中国图书馆分类法分类表共分22个大类,再分17个 二级目录,医药卫生属于R大类。 《中图法》采用汉语拼音字母和阿拉伯数字组成的 混合制号码作类目标识,用一个字母标记一个基本
的问题;
另一方面是特定原始文献的查找,即在查找特定
的文献线索后,找出原始文献的过程。
第一节 信息检索基础
一、信息检索概念
(二)信息检索的意义和作用 信息检索 有助于知识更新 ,有助于同学们扩大视野 ,了解和把握有关学科中出现的新思想、新观点与 新知识。掌握信息检索技术是快速、准确地获取和 利用最新信息的有效途径。 信息检索有助于科学研究,了解和把握有关学科的 起源和发展过程。 有助于独立自主地解决自己在学习、生活和工作中 所遇到的疑难问题。 是接受终身教育的必要手段。 节省时间,提高效率。
第二节 信息检索语言
二、检索语言的种类
(一)分类检索语言 分类检索语言又称分类法,是用分类号(字母、数 字或它们的组合)来表达各种概念的,并将各种概 念按学科性质进行分类和系统排列的信息检索语言。 它以树状结构的形式,按知识门类的逻辑次序反映事物 的从属、派生关系,构成具有上位类和下位类隶属、同 位类并列的概念等级体系。 能较好体现概念的族性关系,从学科专业的角度检索资 料,比较方便,扩大、缩小检索范围方便。
(一)按信息检索的对象划分
数据信息检索 利用数据库、工具书等以数值或数据为对象的检 索,也称为数值检索。检索包含分子式、分子量 、公式 、图表等特定数据的信息。
第2章-信息检索模型
▪ N: 文档集中文档总数
▪ 反文档频率用词项区别文档
例如:文档总数为1000,出现关键词k1文档为100
篇,出现关键词k2文档为500篇,出现关键词k3
文档为800篇
N=1000, n1=100, n2=500, n3=800
根据公式: idfi = log(N/ni) ,可计算出
idf1= 3 - 2 = 1
这里q dnf是提问式q旳主析取范式。可进一步简化表
达 为: q dnf =(1,1,1) or (1,1,0) or (1,0,0)
其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf旳三个合取
子项qcc,他们是一组向量,由相应旳三元组(k1 , k2 , k3)
旳每一种分量取0或1得到。
▪ 根据关键词旳出现频率计算相同度
• 例如:文档旳统计特征
▪ 顾客要求一种词项(term)集合,能够给每个词项附加权重
• 未加权旳词项: Q = database; text; information
• 加权旳词项: Q = database 0.5; text 0.8; information 0.2
由索引项构成向量空间
▪ 2个索引项构成一种二维空间,一种文档可能包括0,
1 或2个索引项
• di = 0, 0
(一种索引项也不包括)
• dj = 0, 0.7 (包括其中一种索引项)
• dk = 1, 2
(包括两个索引项)
▪ 类似旳,3个索引项构成一种三维空间,n个索引项
构成n维空间
么一种文档D就能够表达为D(t1,t2,…,tn),其中n就代表了检
索字旳数量。
▪ 特征项权重Wk(Term Weight):指特征项tn能够代表文档
▪ 反文档频率用词项区别文档
例如:文档总数为1000,出现关键词k1文档为100
篇,出现关键词k2文档为500篇,出现关键词k3
文档为800篇
N=1000, n1=100, n2=500, n3=800
根据公式: idfi = log(N/ni) ,可计算出
idf1= 3 - 2 = 1
这里q dnf是提问式q旳主析取范式。可进一步简化表
达 为: q dnf =(1,1,1) or (1,1,0) or (1,0,0)
其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf旳三个合取
子项qcc,他们是一组向量,由相应旳三元组(k1 , k2 , k3)
旳每一种分量取0或1得到。
▪ 根据关键词旳出现频率计算相同度
• 例如:文档旳统计特征
▪ 顾客要求一种词项(term)集合,能够给每个词项附加权重
• 未加权旳词项: Q = database; text; information
• 加权旳词项: Q = database 0.5; text 0.8; information 0.2
由索引项构成向量空间
▪ 2个索引项构成一种二维空间,一种文档可能包括0,
1 或2个索引项
• di = 0, 0
(一种索引项也不包括)
• dj = 0, 0.7 (包括其中一种索引项)
• dk = 1, 2
(包括两个索引项)
▪ 类似旳,3个索引项构成一种三维空间,n个索引项
构成n维空间
么一种文档D就能够表达为D(t1,t2,…,tn),其中n就代表了检
索字旳数量。
▪ 特征项权重Wk(Term Weight):指特征项tn能够代表文档
第二章 信息检索基本知识
(二)按出版形式划分:
原始文献
图书
特种文献
期刊
会 议 文 献
科 技 报 告
专 利 文 献
学 位 论 文
政 府 出 版 物
其 标 准
食品标准网
它
7-111-17892-0
《发票报文》GB/T 17303.2-1998 第二部分:国际贸易商业发票报 文
……
(三)按信息的加工程度来分: 1、一次文献信息 (原始文献):
一、检索工具的作用 1、报道作用 2、存储作用 3、检索作用
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。
2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类型
按著录信息的特征划分:
1、目录 2、题录 3、文摘 4、索引
检索途径-分类途径 分类途径的缺点是新兴学科、边缘学科在 分类时往往难于处理,查找不便。另外, 从分类途径检索必须了解学科体系,否 则在将概念变换为分类号的过程中常易 发生错误,造成漏检或误检。
检索途径-主题途径
• 主题途径是一种按照文献的主题内容查找文献 的途径。使用的语言是主题语言。使用的检索 工具有“主题索引”、“关键词索引”、“叙 词索引”等。 • 主题法打破了传统的学科分类的框框,把分散 于各个学科的有关文献集中于同一主题词之下, 以文字作检索标识,索引按照资料内容的主题 词或关键词的字顺排列,检索时就象查字典一 样,不必考虑学科体系。
更多……
• 按检索方式,可分为印刷型检索工具和机器检 索工具; • 按出版形式,可分为期刊式检索工具、书本式 检索工具、卡片式检索工具、缩微式检索工具、 机读式检索工具等; • 按收录范围,可分为综合性检索工具、专题性 检索工具; • 按语种,可分为中文检索工具和外文检索工具;
第二章信息检索语言
D3 小说
D4 散文 ……
C3现代
C4当代 ……
分类语言的标记符号
标记符号:文献分类法中用以表示类目的代号, 又称分类号。 作用:它具有固定类目的位置,明确各个类目的 先后次序,在一定程度上显示类目之间的隶 属、并列关系以及描述某个类目的含义。 标记符号的要求 :
– – – – 容纳性 表达性 简短性 助记性
4.检索语言的类型
• 按规范程度分
– 自然语言 – 规范化语言
• 按组配方式分
– 先组式语言 – 后组式语言
• 按照描述信息特征划分
– 内容特征语言
• 分类语言/主题语言
– 外部特征语言
• 名称语言/著者语言/序号语言
二、分类语言
• 亦称体系分类语言,是以学科范畴和学科体 系为基础来划分事物的一种检索语言。在信 息存储和检索中,它是一种对信息内容的概 念进行逻辑分类和有规律地系统排列而构成 的检索语言,并以分类表(分类法)的形式体现。 • 分类语言最显明的特点是系统性,具有族性 检索的功能,有利于人们从学科专业的角度 进行全面性的检索。
等级列举式分类法
U448各种桥梁 U448.1 桥梁、按用途分 U448.11 人行桥 U448.12 两用桥 U448.13 铁路桥 …… U448.2 桥梁、按结构分
分面组配分类法
地区分面 E1 中国
E2 朝鲜
体裁分面 D1 诗歌
D2 戏剧
时代分面 C1 古代
C2 近代
E3 韩国
E4 日本 ……
• 同一著者的不同作品:
鲁迅:《热风》I210.4 L824 鲁迅:《华盖集》I210.4 L824/2 鲁迅:《两心集》I210.4 L824/3
• 版本不同:
第二章 信息检索的基本知识
应用举例:
利用《中图法》在《全国报刊索引》中查找 有关“建筑抗震设计”方面的相关文献。 第一步:分析课题,按学科属性属于“T工业技术” 中的“TU建筑科学”大类。 第二步:查《中图法》确定分类号为:T工业技 术—TU建筑科学—TU3建筑结构—TU352.11抗震结 构。 第三步:根据《全国报刊索引》(科技版)的分 类目录给出的TU3建筑结构的页次,得到相关文献。 第四步:根据的出处索取原始文献。
第二章 信息检索的基本知识
主要内容
1.信息检索概述 2.信息检索原理及检索语言 3.信息检索系统与检索工具 4.信息检索的一般程序
2.1 信息检索概述
2.1.1信息检索的含义
信息检索(Information Retrieval)是指 将信息按一定的方式组织和存储起来,并根据用 户的需要找出有关信息的过程,又叫信息储存与 检索(Information storage and Retrieval), 这是广义的信息检索,如图2-1所示。狭义的信息 检索则是仅指该过程的后半部分,即从信息集合 中找出所需信息的过程。
内容特征 标题词 主题语言 关键词 叙词 描述文献外表特征的检索语言,例如篇名、著者姓名、文 献号等作为文献标识与检索依据直接明了,使用时较为简单。 而文献内容特征的语言,也就是分类语言和主题语言的原理和 使用方法是下面主要介绍的内容。
一条中文书目记录:
题名: 信息检索 作者: 徐天秀 出版项:北京:科学出版社,2006 页码: 320页 价格: CNY23.00 主题: 情报检索 索取号: G252.7/101 内容提要:本书是一本工具型书籍,提供的信息检索学科 范围广,内容尽量以最新版本为主,是一本适用性强的学 习信息检索方法和技巧的专著,尤其是本书配制的多媒体 光盘,为本课程的学习提供了便捷。 分类: G252.7
文献检索,信息检索(2)第二章 信息检索原理
优点:可以检索到某学科或专业的所有文献,有较高 的查全率。
缺点:常常落后于当前研究现状,分类表相对呆板的 学科关系,使得确定前沿概念、跨学科概念或非常具 体概念的分类,较困难。用户差异性。
分类语言
中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法
基本部类 马列毛邓 哲学
(2)多概念课题
并列概念课题,如“新闻宣传研究”
“计算机在人文社会科学方面的应用” 上位类分类方法,如“灰色系统理论”
应用性课题,如“计算机在人口预测方面的应用”、
2.主题语言
是直接以代表信息内容特征和科学概念的概 念词作为检索标识,并按字顺组织的一种检索语 言。 是以表达文献主 是从文献的内容 是从文献的题目
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
将检索提问式转换成逻辑表达式,限定检索
词在记录中必须存在的条件或不能出现的条 件。凡符合布尔逻辑所规定的条件的文献, 既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“或” 2、逻辑“与” 3、逻辑“非”
2、逻辑“与”
————————————————
Chinese AND litera0,000 网络100,000,000) 用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B 其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。
4、记录级
检索词在数据库的同一记录中。
(C)—citation
表示两侧的检索词(或检索项)必须出现在同一记录中,词
序不限,中间词数量不限,其作用与布尔逻辑算符AND相同。
缺点:常常落后于当前研究现状,分类表相对呆板的 学科关系,使得确定前沿概念、跨学科概念或非常具 体概念的分类,较困难。用户差异性。
分类语言
中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法
基本部类 马列毛邓 哲学
(2)多概念课题
并列概念课题,如“新闻宣传研究”
“计算机在人文社会科学方面的应用” 上位类分类方法,如“灰色系统理论”
应用性课题,如“计算机在人口预测方面的应用”、
2.主题语言
是直接以代表信息内容特征和科学概念的概 念词作为检索标识,并按字顺组织的一种检索语 言。 是以表达文献主 是从文献的内容 是从文献的题目
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
将检索提问式转换成逻辑表达式,限定检索
词在记录中必须存在的条件或不能出现的条 件。凡符合布尔逻辑所规定的条件的文献, 既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“或” 2、逻辑“与” 3、逻辑“非”
2、逻辑“与”
————————————————
Chinese AND litera0,000 网络100,000,000) 用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B 其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。
4、记录级
检索词在数据库的同一记录中。
(C)—citation
表示两侧的检索词(或检索项)必须出现在同一记录中,词
序不限,中间词数量不限,其作用与布尔逻辑算符AND相同。
第二章 信息检索基础知识
* 叙词语言
是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻 辑组配的一种主语语言。如《汉语主题词表》、《INSPEC叙词表》(《科学 文摘》)、《工程索引叙词表》等。
非规范主题语言:它是相对于规范主题语言而言的,以自然语言的语词作检
索标识,其所用词汇未经过规范化处理。非规范主题语言包括关键词语言和 纯自然语言。
索”。 –B.切分也要适度,不能因切分而改变语义。如:不能将“操作系统” 切分为“操作|系统”
• 2、删除 将课题转换成关键词的集合
–A.删除不具有检索意义的虚词(a,the,is等)和关键词(因使用太宽 泛而不具有检索意义,如:http,com等) –B.删除过分宽泛和过份具体的限定词 » 无损检测技术在材料性能评价中的应用无损检测*材料 –C.删除具有包含关系的其中一个 » 教学用的信息检索课多媒体课件信息检索*多媒体*课件 • 3、替换 用更本质的概念替换表达欠佳的概念 稀土材料的研制钐钴(用户实际上是研究钐钴材料)
第二章 信息检索基础知识
一 信息检索
二 信息检索语言、途径
三 信息检索技术 四 检索步骤
一、信息检索
信息检索:是指将信息 (主要指文献信息)按一定 的方式组织和存储起来,并
根据用户的需要找出相关信
息的过程。
存储
信息检索 检索
存储:是对信息进行著录、 检索:是指面向信息需求 标引、整序,编制检索工 而进行高度选择性的查找 具和建立检索系统的过程。 过程。
作用:1)、保证不同标引人员表征文献信息的一致性。 2)、使内容相同及相关的文献集中化。
3)、保证检索提问与文献信息标引的一致性。
4)、保证检索者按不同需求检索文献信息时, 都能获得最高的查全率和查准率。
第二章 信息检索原理
22
2013-11-4
2、主题语言 主题语言是直接以代表信息内容特征和科 学概念的概念词作为检索标识,并按字顺 组织起来的一种检索语言。 分为:规范主题语言和非规范主题语言
2013-11-4
23
1)、规范主题语言 • 以自然语言为基础,经过标准化、规范化处理 的词语,具有概念性、规范性、组配性、语义 性和动态性。
信息源 用户
信息分析、 著录、标引
检索语言 数据库
用户需求分析
信息的表示
存储
检索
检索提问式
匹配过程
输出检索结果
2013-11-4 4
信息检索的实质是一个匹配(match)的过程:
也就是信息用户的需求和信息集合的比较与选择,用户 根据检索需求,对一定的信息集合采用一定的技术手段, 根据一定的线索与准则找出相关的信息。
2013-11-4 27
第三节 检索途径
• 一、信息检索方法
• 二、信息检索途径
2013-11-4
28
1.信息检索的方法
顺查法:从过去某一时间起往现在检索
倒查法:从现在往过去逐年逐月地检索 用户注重新信息,如:写论文
常规法:
信 息 检 索 的 方 法
抽查法就是抽查某一时段的信息.在事 物发展的关键、鼎盛时期,用户注意的 是某些重要的、关键性信息资源
计算机检索简称“机检”,是利用计算机和一定的通信 设备查找所需信息的检索方式.
特点:速度快、效率高、查全较高,成本高,费用大,
查准率通常不尽人意, 现代信息检索即计算机信息检索,是指利用计算机和网 络来处理和查找文献信息的检索方式。目前广泛使用的 计算机检索系统包括光盘系统、联机检索系统和网络检 索系统。
2013-11-4 9
2013-11-4
2、主题语言 主题语言是直接以代表信息内容特征和科 学概念的概念词作为检索标识,并按字顺 组织起来的一种检索语言。 分为:规范主题语言和非规范主题语言
2013-11-4
23
1)、规范主题语言 • 以自然语言为基础,经过标准化、规范化处理 的词语,具有概念性、规范性、组配性、语义 性和动态性。
信息源 用户
信息分析、 著录、标引
检索语言 数据库
用户需求分析
信息的表示
存储
检索
检索提问式
匹配过程
输出检索结果
2013-11-4 4
信息检索的实质是一个匹配(match)的过程:
也就是信息用户的需求和信息集合的比较与选择,用户 根据检索需求,对一定的信息集合采用一定的技术手段, 根据一定的线索与准则找出相关的信息。
2013-11-4 27
第三节 检索途径
• 一、信息检索方法
• 二、信息检索途径
2013-11-4
28
1.信息检索的方法
顺查法:从过去某一时间起往现在检索
倒查法:从现在往过去逐年逐月地检索 用户注重新信息,如:写论文
常规法:
信 息 检 索 的 方 法
抽查法就是抽查某一时段的信息.在事 物发展的关键、鼎盛时期,用户注意的 是某些重要的、关键性信息资源
计算机检索简称“机检”,是利用计算机和一定的通信 设备查找所需信息的检索方式.
特点:速度快、效率高、查全较高,成本高,费用大,
查准率通常不尽人意, 现代信息检索即计算机信息检索,是指利用计算机和网 络来处理和查找文献信息的检索方式。目前广泛使用的 计算机检索系统包括光盘系统、联机检索系统和网络检 索系统。
2013-11-4 9
第二章 信息检索基本方法与基本技术
2. 主题检索语言
• 标题词:经规范化处理的词或词组,先组式
语言
• 叙 词(单元词):经规范化处理的词或词
组,后组式语言,可自由灵活组配
• 关键词:未经规范化处理,直接从文献题名、
原文或文摘中选取的能反映原文主题内容的自 由词汇
二、检索工具
定义:检索工具是人们用来存储、报道和查找 文献的工具,它具有存储和检索的功能。
点击预约书刊可预约该书 预约图书:选定所需图书,输入证号、密码,执行预约 点击机读格式可查看该书的MARC信息
高级查询
• 在题名、著者、丛书名、主题词、出版社、 ISBN(书)、ISSN(刊)、索取号、起始年 代中填入自己确定的内容,其余的可以不填 写;选定语种(17种)和文献类型,然后进 行检索。 • 结果可检索到所需文献的题名、著者、出版 信息、索取号 • 查看选中图书的相关信息
图书馆信息查询系统
•书目查询 •读信者息 •新书通报:一个月内到馆的新书、馆藏 地,并可查看新书 •订购征询 •信息发布:预约到书列表、超期罚款、 超期催还、委托借阅到书列表
如何利用计算机进行检索
书刊查询
读者信息查询
图书馆主页的功能
信息发布功能:
图书馆最新服务动态、电子 资源试用等均及时在主页上发布。
一、信息检索原理
信息检索的原理(示意图)
存 储
特征化
表示
查 询
特征化
表示
信息 集合
选择与匹配
需求 集合
二、信息检索类型
手工检索 计算机检索 文献信息检索
• 信息检索(内容)
• 信息检索(工具手段)
数据信息检索
事实信息检索
第二节 信息检索语言与工具
一、信息检索语言
信息检索教程(第二章)
4
(b)按收录文献出版形式分
●图书目录 ●期刊目录 ●会议论文目录 ●标准目录等。
(c)按物质形式划分
●卡片目录 ●书本目录 ●机读目录 ●联机公共检索目录等。
5
(2)图书馆目录、OPAC和联合目录概述
①图书馆目录
定义:它主要提供馆藏资源的检索,又叫馆藏目录,它反映
了一个图书馆的文献收藏情况,是一种重要的检索工具。
26
常用法示例
27
追溯法示例
28
2.3.2检索途径
29
30
1.分类途径
图书期刊分类法
世界三大图书分类法
《杜威十进分类法》(DDC)(Dewey decimal Classification ) 《国际十进分类法》(UDC)(Universal Decimal Classification) 《国会图书馆图书分类法》(LCC)(Library congress classification)
定义:所谓文献检索的方法,即查找文献的方法。有以下三种: 常用法:直接利用文献检索工具或检索系统来查找文献的方法,是 一种常规的科学检索方法。又称工具法或直接法。分为顺查法 、倒查法和抽查法。 追溯法:是一种跟踪查找法。它不利用检索工具只是利用文献(尤其 是评述性论文或专著) 后面所附的参考文献进行逐一地追踪查 找原文。又称引文法。 综合法:是常用法和追溯法的综合。利用检索工具或检索系统进行 常规检索,再利用文献后所附参考文献进行追溯检索,分期分 段交替使用这两种方法,直到满足要求为止。可以查得较全面 较准确,尤其适用于那些过去年代内文献较少的课题。称循环 法、分段法或交替法。
22
2.2.2检索工具的鉴别与评价
1.信息收录范围与信息质量
信息检索教程 第2章 信息检索系统
连续 出版物
学位论文
传统文献信息媒体——按文献信息媒体的内容形式划分
类型 释 义 标准文献 是指对工农业产品、卫生教育、行政机关和工程建设的质量、规格、检验方法及 管理等所做的技术规定,是人们从事管理、设计、生产和检验的一个共同技术依 据。标准作为一种规章性的技术文献,具有一定的法律约束力。 会议文献 一般是指国内外各个科学技术学会、协会及有关主管部门召开的学术会议或专业 会议上提交、宣读或交流的论文或报告。因此会议文献代表着一门学科或专业的 最新研究成果,反映着当时的发展水平或动态。会议文献通常有会前预印本,会 后会议录、论文集、期刊等出版形式。 专利文献 主要指专利说明书,也包括各种专利检索工具、专利公报及专利法律文件等。专 利文献具有新颖性、创造性和实用性的特点,并具有垄断性、地域性、时间性、 公开性和法定性的特征,因此专利文献是一种集技术与法律于一体的实用性很强 的文献信息媒体,但重复出版率很高。
2.1 信息源与信息媒体
2.1.2 信息媒体
2. 电子文献信息媒体 电子文献信息媒体是指以数字编码的形式,把文字、 图像、动画、声音、视频等信息存储在磁光等介质 上,通过计算机和其他辅助设备阅读使用的一种新
型文献信息媒体,实质是一种机读型信息媒体。电
子文献信息媒体是信息技术发展的产物,它的产生、 发展和应用给人们展示了一个全新的虚拟世界。电 子文献信息媒体种类繁多、划分多样。
二次文献
三次文献
传统文献信息媒体——按文献信息媒体的内容形式划分
类型 图书 释 义 是用于全面而系统地阐述某一方面或学科的科学理论或发展,传授科学技术以及 查阅某些知识的文献形式。一般来说,图书的内容比较系统、全面、成熟、可靠, 缺点是出版周期长、新颖性欠佳。图书按使用功能可分为以下两类。 阅读型图书:教科书、专著、科普读物 查阅型图书:参考工具书、检索工具书 采用统一名称定期或不定期连续性发行的出版物,主要指报纸、期刊和年度出 版物。连续出版物一般有连续的卷期或年月日顺序号,出版周期短、报道文献 快、内容新颖、信息量大,特别是报纸、期刊现已成为广大民众和科研人员阅 读量最大的信息媒体。 这是高等学校或研究机构的毕业生作为评定各级学位而撰写的论文。目前多数国 家的学位分为学士、硕士和博士三级。学位论文质量参差不齐,但带有一定的独 创性和新颖性,特别是博士论文具有较高的专业水准、参考价值较大。
第三节课 第二章 文献检索原理与方法
思考题
1.《中国图书法》(简称《中图法》)将图书分为() A. 5大部类,22个大类 B. 5大部类,26个大类 C. 6大部类,22个大类 D. 6大部类,26个大类 2.《中国图书法》(简称《中图法》)是我国常用的分类法,要 检索农业方面的图书,需要在( )类目下查找。 A. S类目 B. Q类目 C. T类目 D. R类目
第一步,《全国新书目》的新书是安排在"新书视窗"专栏,在 2000年第3期《全国新书目》的目录中寻找到"新书视窗"专栏, 在第41~77页。 第二步,在第41~77页的"新书视窗"专栏里,我们可以看到, 该专栏是按照出版社的顺序排列的。高等教育出版社在第45页, 广东经济出版社第46页,教育科学出版社在第52页。 第三步,在第45、46、52页,你可以看到这几个出版社最 近所出版的新书目录。 如广东经济出版社的目录中有以下记载: 知识经济与改革创新 黄铁苗主编 2000 20cm 25.00元 本书围绕改革开放中的热点、难点问题进行探索,具体内容 包括:所有制问财政金融问题、农村经济问题、就业问题、地方 经济问题和其他问题。
2.检索工具-类型
目录 (bibliography,catalogue) 文摘(abstract) 索引(index)
2.1 目录
目录是一批相关文献信息的著录集合,是以报道文献 出版信息为主要功能的工具。 特点:以单位出版物为著录对象,反映馆藏情况,主 要揭示文献外部特征 目录的著录项目:出版名称、责任者、出版项和稽核 项 目录的类型:《全国总书目》《全国新书目》《全国 西文期刊联合目录》
主题词法与分类法的比较
主题词法 分类法
新第二章 信息检索基础知识
2.2 信息检索语言
三、主题语言
4.关键词语言
是指从文献标题、文摘、正文中抽离出来的,对表征文献主题 内容具有实质意义的语词,以关键词作为信息标识和检索依据的主 题语言。关键词没有固定的词表,因为对于同一个事物的概念,不 同作者甚至是同一个作者在不同的著作中用词都会不同,它是没有 经过规范化的自然语言词汇。 在检索中文医学文献中使用频率较高的《CMCC》数据库就是 采用关键词索引方法建立的。
2.5 计算机检索技术 四、词组检索
将固定词组或短语 看成单个词进行处理。
常用“ ”作为词组检索的运算符。
2.5 计算机检索技术 五、字段检索
对指定的一个或多个字段进行检索,从而提高查准率或查全率。
标题、作者、摘要、关键词、作者单位、文献来源、学位授予单位、 学位级别、会议信息、会址、会期、书名、出版地、出版年、专利号、报 告号、ISBN、ISSN等。
2.2 信息检索语言
一、信息检索语言的定义、作用和种类
4.分类:
篇名(题目) 著者名称 描述文献外表特征 文献序号 引用文献 等级体系分类语言 分类语言 组配分类语言 主题语言
检索语言
描述文献内容特征
代码语言
标题词语言 关键词语言 单元词语言 叙词语言 分子式索引 结构式索引 专利号索引等
2.2 信息检索语言
2.4 信息检索标识 一、检索标识的定义
检索标识即检索词,是指能表达检索课题主题概念和信息需 求的名词术语、分类号、名称、代码等的总称,包括主题词、 关键词、名称、分类号、分子式、专利号及各种号码。
2.4 信息检索标识 二、信息检索标识的类型
1.描述信息内容特征的检索标识: 分类、主题、代码(符号)。
2.5 计算机检索技术 一、布尔逻辑检索
第二章 信息检索语言
款目主题词并按族首词的字顺和等级相结 合编排的一种索引。
二、《汉语主题词表 》
(2)范畴索引:
它又称为分类索引,是将主表的全部主题
词按照主题词的学科和词义范畴,划分若
干大类、二级类或三级类,每类之下按主
题词的汉语拼音字顺排列的一种索引。它 的分类是对主题词的分类。
二、《汉语主题词表 》
(3)英汉对照索引:
号分类法》。
二、信息检索语言的基本类型
C、混合分类语言:
它是结合体系分类语言和组配分类语言所形成的
检索语言。又因对两者的侧重点不同,混合分类
语言又可明显地分为体系—组配分类语言和组
配—体系分类语言。如《国际十进分类法》。
二、信息检索语言的基本类型
(三)检索语言按内容性质划分
2、主题语言
(1)含义:就是对表达信息主题内容特征的主 题词汇概念规范化处理所形成的检索语言。 (2)优点:由于主题词汇表达概念准确,所以 主题途径是检索信息的主要途径。
(3)类型:主题语言按照主题性质的不同,又 分为以下几种:
二、信息检索语言的基本类型
A、标题词语言:
它以标题词作为文献内容标识和检索依据。
2、《中图法》采用了许多辅助符号。
一、《中图法》
(四)特点
1、编制技术和编号方法比较先进、科学; 2、强调分类法的实用性,在层累制的基础上采 用八分法、借号法、双位法等方法,使得类号等 级分明、简短易记; 3、结构完善,使用配套,有相关索引和使用手 册,还有一系列不同类型的版本,为全国文献的 统一分编创造了条件; 4、有一个长设机构负责《中图法》的管理、修 订等工作。
二、《汉语主题词表 》
(2)范畴索引:
它又称为分类索引,是将主表的全部主题
词按照主题词的学科和词义范畴,划分若
干大类、二级类或三级类,每类之下按主
题词的汉语拼音字顺排列的一种索引。它 的分类是对主题词的分类。
二、《汉语主题词表 》
(3)英汉对照索引:
号分类法》。
二、信息检索语言的基本类型
C、混合分类语言:
它是结合体系分类语言和组配分类语言所形成的
检索语言。又因对两者的侧重点不同,混合分类
语言又可明显地分为体系—组配分类语言和组
配—体系分类语言。如《国际十进分类法》。
二、信息检索语言的基本类型
(三)检索语言按内容性质划分
2、主题语言
(1)含义:就是对表达信息主题内容特征的主 题词汇概念规范化处理所形成的检索语言。 (2)优点:由于主题词汇表达概念准确,所以 主题途径是检索信息的主要途径。
(3)类型:主题语言按照主题性质的不同,又 分为以下几种:
二、信息检索语言的基本类型
A、标题词语言:
它以标题词作为文献内容标识和检索依据。
2、《中图法》采用了许多辅助符号。
一、《中图法》
(四)特点
1、编制技术和编号方法比较先进、科学; 2、强调分类法的实用性,在层累制的基础上采 用八分法、借号法、双位法等方法,使得类号等 级分明、简短易记; 3、结构完善,使用配套,有相关索引和使用手 册,还有一系列不同类型的版本,为全国文献的 统一分编创造了条件; 4、有一个长设机构负责《中图法》的管理、修 订等工作。
第二章信息检索基础1
化学物质登记号(CAS registry number)检索
分子式(formula)检索 记录顺序号(accession number)检索 化合物结构图检索(structure search)检索 ……
不同检索途径常用字段名称
题名途径:题名、标题、篇名、题目、title 分类检索途径:分类号,中图分类号 主题途径:主题词、MeSH、MeSH terms、 Thesaurus、map term to subject headings 关键词途径:关键词、keywords、text words 著者途径:(第一)作者、著者、责任者、 author、first author
研、生产中的具体问题所需要的特定知识或信息。(微波炉
发明) (四)文献(Literature) 文献是记录有知识的一切载体,是知识的外在形式。
情报的基本属性
知识或信息 经过传递
经用户使用产生效益 情报的 基本属性
信息与知识、情报、文献的关系
知识源于信息,是信息的一部分 情报源于知识或信息,是激活了的知识或信息 文献是信息、知识、情报的主要载体形式
形成系统,便于检索的文献。
如:题录、书目、索引和文摘。
特征1 特征2 特征3 特征4 特征5
提取特 征
特征n
二次文献
二次文献
二次文献
2013-8-10
40
三次文献
三次文献是利用二次文献并在其指引下,对大 量的一次文献进行综合分析研究,加以浓缩和提 炼而成的文献。 包括综述、述评、进展、预测等,各类词典、 手册、年鉴、百科全书、指南等参考工具书也属 于三次文献的范畴。
一次文献、二次文献、三次文献
一次文献:
又称原始文献,是首次公开发表的文献,直 接记录了科研成果,报道了新发明、新技术、新 知识和新观点。 一次文献主要包括专著、期刊论文、科技报 告、会议文献、学位论文、专利文献等。
第二章信息检索基础知识
属后组式语言。
主题词
概念:通过文献所属学科的主题对文献进行检索, 是以主题词为检索标识,它是一种特性检索。 主题词是用来表达文献的主题概念的,经过规范化 主题词 处理的名词或词组。 如:出生缺陷-畸形 杵状指-骨关节病,继发肥大性
主题词表- 主题词表-单元词表
《WPI--规范化主题词表》
(WPI--LIST OF STANDARD THESAURUS TERMS)
是检索英国德温特公司专利文献的工具。按规范 词字顺排列。其著录格式见图
WPI-List of Standard Thesaurus Terms 1987 COBALT(3772)(1) COBALT@(3) CODON【87】(4) ELECTRIC(33892)(1) Electrical(2)
关键词 自然语言 单元词 标题词 叙词 语 言 言 语
分类语言
分类语言是运用概念划分的方 法,按文献内容所属学科、专 业性质的逻辑次序,以数字、 字母或数字与字母结合为基本 字符,以分类号为标识,用来 存储和检索文献的文献标识系 统。
分类语言的特点
主要特点就是按学科专业性质集中图书 区分不同性质的图书 集中性质相同的图书 相近的放在相近的位置 按照远近亲疏的关系把图书组成为一个 有条理的体系 提供从学科分类查找图书的途径
机械制造工艺系统学 / 张恩生,申铁固编著-上海交通 大学出版社 TH16/ Z31 机械设计学习指南 / 陶民华等编机械工业出版社 TH122-44/ T43 机械优化设计基础 / 张九明编著煤炭工业出版社 TH122/ Z32A 分类号+著者号TP393-62/J25
主题语言
主题语言是指以自然语言的字符为字符, 以名词性术语为基本词汇,用名词性术 语作为标识的一种信息标识系统。是主 题概念检索文献信息的检索语言。
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.检索技巧和提示
(1) 广泛浏览数据库 进入数据库前,需阅读数据库的说明,包括:出版、结构(权威性),出版类 型(期刊、会议、报告、专利…),文献类型(全文、文摘、题录…),收集年限,使 用权限,文献版本,服务方式(光盘、联机、专线、镜象、出国),连接方式,帐 号、密码,咨询联系等。现在许多数据库被组织到信息服务中心的web网页 上,并提供了有关介绍,应当充分地利用它们。
(1)积木型 积木型检索策略的含义是:把检索课题剖析成若干个概念面,先分别 对这几个概念面进行检索;在每个概念面中尽可能全和多地列举相关词 、同义词、近义词,并用布尔算符OR连接成子检索式,然后再用布尔算 符AND把所有概念面的子检索式连接起来,构成一个总检索式。 优点是:能够提供较明确的检索逻辑过程,以后容易检索和理解,还可 部分或全部地用作保留检索。一般地,“积木型”策略用于较复杂的检 索课题。 • 如“肺癌”与“吸烟”可以分成两个概念面,这两个概念面的各种形式 的检索词有: cancer smoker(s) • • carcinoma lung(s) cancer smoking cigar
(二)截词检索
截词检索:是指在检索时使用词的一个局部(某些 位置上的字符被截去)进行检索匹配,并认为凡满足这 个词局部中的所有字符要求的记录,都为命中结果。 截词检索需要使用专门符号(截词符),以指定截词 的具体位置与截断字符的数量。 • 按照截词位置的不同,截词检索分为: 右截词、左截词和中间截词三种。 例如:检索式 “wom?n”可检索到含有woman、women的结果。 截词检索实际上是一种隐含“逻辑或”的运算,能提 高查全率,扩大检索结果,是防止漏检的有力手段。
第二部分事实与数据检索工具
讨论事实、数据资源检索,其检索的对象是大量的、 常用的那些具体的科学技术数据和事实,如物理量、 物质特性、参数、规格等技术数据以及价格、产量、 公司名录、人名录等商业、经济等各种实用信息。 它们的检索工具包括:百科全书、年鉴、手册、词 典、机构指南和人名录、书目及书目指南等参考工 具。
除这种减少结果方法外还有另: ①输入计算机 检索 ②点“在结果中查找”,输入“机械工业” 果中检索
在结
(3)“逻辑非”:表示它连接的两个检索词应该包含第一个 检索词而不包含第二个检索词才满足检索条件。
一般用符号“NOT”或“—”表示
特点:“逻辑非”操作排斥某些检索词的出现,因此也起到了 缩小检索范围的作用。 • 例如:运用“逻辑非”运算符号“NOT” • 检索式:(计算机AND机械工业)NOT理论
运用“逻辑或”,检索式为:计算机OR机械工业
结果较少 结果较多 逐条查找我们需要的信息 需要减少检索结果
(2)“逻辑与”:表示它连接的两个检索词必须同 时出现在结果中才满足检索条件。
一般用符号“AND”或“*”表示,来减少检索结果。
• 运用“逻辑与”运算符号“AND” 检索式为:计算机AND机械工业
•
“引文珠形增长”策略具有很强的人机交互性, 可以使检索式以比较生动的方式生成并得到不断丰富 ,产生“滚雪球”般的效应。
• (3)逐次分馏 • 这种检索策略的含义是:先确定一个相当 大的、范围较广的检索初始对象集合,然后提 高检索的专指度,得到一个较小的命中结果集 合;继续提高检索式的专指度,得到一个较小 的命中结果集合;继续提高检索式的专指度, 一步一步缩小命中结果集合,直到得到数量适 宜、用户满意的结果。整个检索过程像剥竹笋 一样,逐步逼近核心部分。 “逐次分馏”策略的特点是:检索操作比较 主动、漏检较少。
一、百科全书
百科全书(Encyclopaedia)汇集人类 知识的精华,是既完备又概括的工 具书它不仅能提供释疑解惑的事实 而且具有扩大人们知识视野和帮人 们系统学习的作用。它不仅告诉人 们“what”,而且告诉人们“when”、 "where“和“why”等。 百科全书由专家撰写、审定,具有 较高的可靠性和权威性、内容丰富 精确、新颍。但它难以及时反映最 新科技研究动向及发展,为此,不 少百科全书出版社出版相应的百科 年鉴来作补充。百科全书正文或按 条目的字顺、或按其分类、或按两 者相结合的方式编排,外文的百科 全书多按字母顺序编排。
•
(四)限制检索
• 限制检索的目的主要也是为了提高检索的 准确率。
•
除以上几种主要检索技术与方法外,还有 加权检索、聚类检索、全文检索等。
三、检索策略和检索步骤
1.检索策略 是指为实现检索目标而制定的全盘计划 和方案,是对整个检索进程的谋划和指导。 常用的联机检索策略主要有:积木型、引文 珠型增长、逐次分馏。
• 当运算过程中用到两个以上的布尔算符时,其运算 次序一般是:
有括号的情况下先执行括号内的逻辑运算;在没 有括号的情况下,运算次序是先执行NOT,在执行 AND,最后执行OR。
例如:(纺织OR机械)AND计算机NOT理论 • 计算机执行顺序为: ①查找“纺织OR机械”方面文献 ②在①结果中排除含“理论”的文献 ③在②结果中选出含有“计算机”方面文献
表达检索要求。主要的布尔逻辑运算符号有以下三种: “逻辑或”、“逻辑与”、“逻辑非”。
(1)“逻辑或”:表示它所连接的两个检索词只要其中任何 一个出现在结果中就满足检索条件。
一般用符号“OR”或“+”表示 特点:“逻辑或”操作使检索范围扩大,提高检索结果数量 ,保证较高的查全率。 例如:要查找“计算机在机械工业中的应用”方面的文献
•
对同一个布尔逻辑提问式,不同的运算次序 会有不用的检索结果。
• 注意事项: (1)关键词的选用。(2)逻辑语言的选择。(3)逻辑式的 组配。
例如:酸奶、酸乳;大豆、黄豆。尽可能选“全、准、新”。
• 逻辑或:适用于连接那些具有并列关系、同义关系、近义关 系的词。 例如:股票OR期货 命中的是有检索词“股票”或“期货”的文献。 • 逻辑与:适用于连接那些具有限定关系、交叉关系的词。 例如:计算机AND文献检索 命中的是即有”计算机“又有”文献检索“词的文献。 • 逻辑非:适用于某一主题的文献中排除那些含有某些指定检 索词的文献。 例如:高等教育NOT成人教育 命中的是除成人教育以外其他有关高等教育的文献。
为了实现计算机信息检索,必须事先将大量的原始信息加工处 理,存储在计算机中备用。所以,计算机信息检索从广义上讲,包 括信息的存储和检索两个方面。
二、计算机信息检索技术 对于不同的计算机检索系统,其检索方法基本 相似,下面介绍几种常用的检索方法。 (一)布尔逻辑检索 布尔逻辑检索是各类检索工具提供的一种最基本的检 索方法。通常,用户在检索时,需要使用不同的布尔逻 辑运算符号把检索词与检索词连接起来,以较为准确地
•
2.检索步骤
1. 计算机检索步骤 (1)检索课题分析
检索课题的分析,即主题分析,以明确课题所 包含的概念成份及其相互关系。这是检索策略制定的 根本出发点,也是检索效率高低或成败的关键。要明确以下问题: a) 分析课题的主要内容其所涉及的学科范围。 b) 所需文献的类型、语种、年代及文献量的范围。
•
• 子检索式: ┇
cigarette
┇
• S1=(cancer OR carcinoma ) AND(lung OR lungs )
• S2= smoker OR smokers OR cigar OR cigarette OR ┅
• 总检这种检索策略的含义是:从已知的关于检索课题 的少数几个专指词开始检索,以便至少检出一篇命中 文献或一个相关信息,然后审阅这批文献或信息条目 ,从中选出一些新的相关检索词,补充到检索式中去 。这些词加入到检索式之后,就能查出其他新的命中 结果。不断重复上述过程,直到找不到其他适合包含 于检索式的附加词为止,或者已经得到了数量适宜的 命中结果。
(2) 选择合适的数据库试查
进入数据库后, 认真阅读数据库使用说明,注解、 样例( help, tip, hint, example…),因为每个数据库检索都有它 自己的表达方式,对此要把握好。最常用的检索方式是首
先从主题入手,以主题词为检索点, 试查找到相关文献。
(3)调整策略的考虑
确定较为恰当的检索词,这时可借助索引词表的提示,同时再附加其他必 须的检索条件(如:作者名、出版物名、机构名等), 选定检索范围(如:年代、文献类型、学科范围、语种等), 如果检出文献量过多,则要紧缩检索限定,如:限定检索词出现的字段, 增加检索词或限定,或拉近检索词的位置,或使用下位词等方式。 如果检出文献量过少,则要放宽检索限定,如:不/少限定检索词出现的字 段,减少检索词或限定,或拉远检索词的位置,或使用上位词等方式。
(5)检索方案的调整
由于计算机检索的实时性和互动性,给用户及时分析检索结果、调整检索方 案的可能。为了得到比较满意的最终结果,检索往往需要经过多次判断、多次 修改,哪一步不恰当就返回到哪一步去重新执行。
(6)检索结果的输出
检索结果的输出有多种,输出方式,包括 显示、复制、打印、传输、下载、E-mil邮件等, 输出形式包括目录、题录、文摘、全文或自定义形式等, 还可以对检索结果作出选择,加以输出。
第二章 信息检索
第一部分计算机信息检索
原来我们利用书目、卡片式等传统的手工检索方法。随着计算机 技术、通信技术的迅速发展,计算机信息检索技术成为当前的主 要检索工具。集中讨论计算机检索技术及其实现, 检索的策略和 检索步骤。综合介绍计算机检索的各种类型及其检索的一般方法。
一、计算机信息检索的概念
计算机信息检索就是指人们在计算机或计算机检索网络的终端 机上,使用特定的检索指令、检索词或检索策略,从计算机检索系 统的数据库中检索出所需信息,再由终端设备显示或打印出的过程。
(4)利用检出文献的信息,拓宽检索 考察检出相关文献的出处,从被检索出文献较多的期刊、 会议录、作者以及年代等为检索点出发,找到一批相关文献。 利用引文检索, 根据相关文献(全文)的“引用文献”或“参考目录” 条目 中所列出文献的出处又可找到一批相关文献。 (5)充分利用各种资源 使用各种导航工具、虚拟图书馆(网络专题资源的有序集合),进行全方 位的网络资源搜寻。 直接检索网上能获得的全文数据库。