文献检索原理与计算机检索
第三章计算机检索原理自动化
4.4.3 (S),意思是subfield或sentence, 它表示连结的两个检索词要在同一个子 字段或同一句话中出现。如:S computer (s) library是要求computer 和 library在同一个句子中出现S cs=wuhan (s)university 是要求wuhan和 university在cs字段中的 同一个子字段出现。 4.4.4(F),意思是field,表示连结的两个 词要在同一个字段中出现。如:S fieldbus (f)multimedia是要求fieldbus 和 multimedia在同一个字段中出现。
以上是计算机中常用的位置算符,但并非 所有的系统都可用,不同的检索系统有其自己 的规定。
5.计算机检索策略的制定及调整
1. 概念的选取 (1)核心概念的选取:
变温条件下煤层损伤与瓦斯运移的热流固 耦合模型
(2)发掘隐含概念: 并购—剥离、拍卖;石质文物的保护 (3)考虑同义词:保护conservation, preservation,protection (4)使用规范的用语:行业术语,用词表来规范:单车-自行车 (5)排除不必要的概念:使用专业数据库或通用词 (6)使用准确的代码:标准号、专利号、产品代码
4.4 位置算符
位置算符是用来规定检索词之间的位置 关系的算符: 4.4.1.(w), (nW), 意思是with, 表示它连 结的两个词前后位置确定,中间插词不 能超过0-n个。 (w)也写作(),实际上 是 (0W),表示连接的两个词必须紧密相 连,中间不能插词,但是中间可以加连 字符。如:S motor (W)lorry, 可以检出 motor-lorry和motor lorry。
第三章 计算机检索原理
文献检索的基本原理(本)
参阅第1、3章一、文献检索的基本原理1.文献检索的基本原理文献检索实际上是通过检索工具找出所需要的信息。
其原理简单地讲,就是把检索者的提问标识与存储在检索系统中的文献标识进行比较,两者一致或文献标识包含着需要检索的标识,则把具有该标识特征的文献就从检索系统中输出,该文献即为检索初步命中的文献。
这其中包括文献存储和检索,如图所示。
比较与选择特征化 表示 特征化 表示存储过程: 检索过程:文 献 信 息 检 索 课 题分析分析文献信息特征 检索提问信息文献信息标识(检索点) 检索提问标识(检索词)检 索 结 果(完全匹配、相关、无关)2.信息存储与检索1)信息存储检索工具书文摘号:020001篇名:染料生产中的微机控制作者:张明;王小民;刘建业机构:北京化工学院(北京100001)文献来源(出处):化工技术,2002.33(6) 32-36摘要:本文研究了染料生产过程中微机在加料控制、温度控制技术中的应用。
关键词:染料生产微机加料控制温度控制分类号:TQ7 TP3文献特征、检索字段、检索项:篇名、作者、机构、文献来源、摘要、关键词、分类数据库DN--02174618AN--E187********TI – IMPRIVING LIGHT – METAL CASTINGS.AU – Vaccari , John A.CS – American Machinist & Automated Manufacturing, New York, NY USASO – Am Mach Autom Manuf v 130 n 6 Jun 1986 p 87 –89PY -- 1986SN – 0886-0335LA -- ENGLISHDT -- JA^(Journal Article)TC -- A^(Applications)AB –With high –strength aluminum-and magnesium - casting alloys having reached the limit of their mechanical performance by conventional …. ^5 refs.DE -- ALUMINUM AND ALLOYS – CastingID --^FOUNDRY PRACTICE - Permanent MouldCC -- 541 (Aluminum & Alloys) ^534 (Foundry Practice)2)信息检索a;外表特征1.题名(书名、刊名、文献篇名等)索引染料生产中的微机控制——020001 2.著者索引张明——020001王小民见:张明刘建业见:张明* 姓在前名在后3.机构索引北京化工学院——0200014.文献号码(登记号、ISSN号、专利号、报告号等)b;内容特征1.主题索引染料生产——02001 02***** 02*****微机——02001 02***** 02*****加料控制——02001 02*****温度控制——02001 02*****2.分类索引TQ7 化学工业02001 02 *****TP3 自动控制02001 02 *****计算机检索:1.字段检索:篇名、关键词、摘要、全文、著者、机构、刊名、年代、文种等2.简单检索:字段、分类、主题3. 高级检索:检索式例:S1.染料生产AND(计算机OR电脑OR微机)AND加料AND 温度AND控制S2. (张明OR王小民OR刘建业)/AU AND北京化工学院/CS S3. S1 AND S2检索课题:计算机在染料生产中的应用如何检索?文献特征、检索字段、检索项:篇名、作者、机构、文献来源、摘要、关键词、分类3.检索语言检索语言是文献检索领域中人们用来描述文献主题(内容)特征或外部特征和信息提问的一种专用语言。
文献检索与利用_02文献检索基础知识教材
信息检索类型划分示意图
文献线索检索 文献信息检索 依检索结果内容 划分 信 息 检 索 类 型 依信息存储与 检索方式划分 数据信息检索 全文检索
事实信息检索
手工检索
计算机检索
二、检索工具类型
文献检索工具
题录(Title) 索引(Index) 文摘(Abstract) 文献数据库(Database)
代码语言
Code 代表某种意义的符号标识系统
规范化的人工语言
规范化的人工语言
主题语言--叙词 Descriptors
对概念进行严格的词义限 定、词形规范、词类规范, 具有概念组配和词间语义 关系显示功能。
主题语言--关键词
Key Words
直接从文题、文摘中抽取 出的具有实质意义,表达 主要内容、起关键作用的 词语。
检索语言类型
描述文献 外表特征
•
描述文献 内容特征
•
• • • • •
题名 作者(地址) 出处 序号 文献类型 原文语种
检索语言
•
分类语言 主题语言
• •
叙词 关键词
•
代码语言
描述文献内容特征检索语言
分类语言
Classification
按文献内容所属学科分门别 类进行 组织,由总到分、由一般到 具体。 由简单到复杂一个大类产生 许多子 类目,子类目向上层层隶属, 向下 级级派生,形成一个严谨有 序的直 线型等级分类体系。
3、数据库的利用:是存贮的逆过程。
计算机检索基本方法
计算机检索的查寻过程实际上就是将用户的 检索提问与数据库的检索标识相比较决定取舍的 过程,两者比较结果相一致者即为命中。命中的 中间结果可以再次与新的提问式相比较匹配。一 个检索课题通常经过如此多次的修饰匹配检索, 直至最终命中检出的文献符合用户的需求。
文献检索-第二章__文献检索基本知识
Z——综合性图书
O 数理科学和化学 (一级类目) O1 数学 (二级类目) O3 力学 O4 物理学 O6 化学 O61 无机化学(三级类目) O611 化学元素与无机化合物 (四级类目)
图书馆图书的排架与查询:
图书是按索书号排列在书架上的 图书查询先确定索书号 索书号:由图书分类号和书次号组成;分类号在上,书 次号在下。
⑶事实检索
事实检索以特定客观事实为检索对象,检索结果是某一具体 的、客观存在的事实。 如:查找“前事不忘、后事之师”最早的出处。
信息检索的类型
按照检索方式的不同,分为手工检索和计算机检索。
手工检索:用人工来处理和查找所需信息的检索过程。主要 依靠印刷型的二次文献,如文摘、目录等。
计算机检索:利用计算机和一定的通信设备查找所需的信息。 如联机检索和网络检索。
(2)主题途径
从文献中抽选出来的,代表文献内容实质词 汇——主题词,包括关键词、标题词、叙词等作 为检索标识,进行文献检索的一种途径。
(3)著者途径
根据已知文献著者(作者)的姓名来查找 文献的途径。
(4)名称途径
根据文献的名称来查找文献的途径。如: “书名目录”、“刊名目录”。
(5)序号途径
以文献的编号为特征编排和检索文献的途 径。如:“专利号索引”、“报告号索引”等。
(6)其他途径
有些检索工具还附有一些特殊索引,可提 供从特殊途径查找所需文献的线索。如《CA 》中的分子式途径、环结构式途径等。
3、文献的检索步骤
(1)分析研究待查课题
检索的目的是什么? 课题属于什么学科专业? 需要什么类型的文献?(中文,外文文献) 所需文献的年代范围等 另外,还需要了解与检索课题相关的专业背景知 识、有关的专业名词、术语等。
文献检索(第三章)
社 会 科 学
自 然 科 学
(2)主题途径 主题途径
这是通过文献资料的内容主题进行检索的途径,主 题途径依据的是各种主题索引或关键词索引,主题索引 或关键词索引按检索词的字顺排列,检索者只要根据课 题确定了检索词(主题词或关键词),便可以像查字典那 样,按照字顺去逐一查找,从检索词下的索引款目,找到 所需文献的线索。 主题途径检索文献关键在于分析课题,提炼主题 概念,运用词语来表达主题概念。对于主题索引,需 要把自拟的语词同相应的词表核对。主题途径是一种 主要的检索途径。
五 文献信息检索的方法
1.常用法
常用法又称直接法,是指直接利用检索工具(系 统)检索文献信息的方法,这是文献检索中最常用的 一种方法。它又分为顺查法,倒查法和抽查法。
1.1 顺查法
顺查法指按照时间的顺序,由远及近地利用检索 系统进行文献信息检索的方法。这种方法能收集到某 一课题的系统文献,它使用于较大课题的文献检索。 例如,已知某课题的起始年代,现在需要了解其发展 的全过程,就可以用顺查法从最初的年代开始,逐渐 向近期查找。优点是漏检,误检率低,但劳动量较 大。
(1)基本部类:如中图法分五大类部:马列毛邓;哲学; 社会科学;自然科学;综合性图书。 (2)基本大类:构成分类表的第一级类目。中图法为22个 基本大类。 (3)简表:由基本大类与由其直接展开的一、二类目所形 成的类目表。 (4)详表:由简表展开的各种不同登记的类目所组成的类 目表,是文献分类的真正依据。
OPAC :是指以计算机编码形式存贮在计算机 系统内,供读者通过终端设备进行联机检索的 图书馆目录,即书目数据库的一种形式。
2.题录(bibliography 、bibliographic、citation)
题录是单篇文献外表特征的揭示和报导,即对某一文献外部特 征的描述,由一组著录项目构成一条文献记录。 题录的著录项目一般有著者,篇名及出处等,常以一个内容上 独立的文献单元(如一篇文章,图书中的一部分,有时也可以是整 本出版物)为基本著录单位。题录在揭示文献内容的深度方面,比 目录深入,但又比文摘简单。 示例1:
文献检索第二课
截词符
截词方式有多种。 按截断的位臵分:后截断、前截断、中间截断。 按截断的字符数量分:有限截断和无限截断。
后截断,是将截词符号放在一个字符串的 右方,满足截词符左方所有字符的记录都 为命中记录。从性质上讲,这是一种前方 一致的检索。 前截断,是将截词符放在一个字符串的左 方,表示其右的有限或无限个字符不影响 该字符串的检索,或者说这是一种后方一 致检索,对汉语中的复合词组的检索非常 方便。 中间截断,前截断和后截断可以结合使用 , 中间一致 。
优先算符
优先算符用()表示,在含有多个运算的 检索式中,可以用()将需要优先运算的 部分括上,系统会优先运算()中的部分, 然后在按照not, and, or的顺序进行运 算。如: (计算机 or 电脑) and 病毒
禁用词
在数据库中,下列九个词不能作为检索词使用, 这些词称为禁用词。 禁用词有: AN、AND、BY、FOR、FROM、OF、TO、 THE、WITH
6.信息检索基本技术
逻辑算符 位臵算符 截词符 基本索引字段标识符 优先算符
布尔逻辑算符
定义:表达检索提问的各概念之间的逻辑关系。 逻辑算符有三种: AND (与)、OR(或)、NOT(非)。 三种算符可同时在一个检索式中使用,也可单独使 用。 使用逻辑算符时应注意的事项: ①逻辑算符的优先级为:NOT、AND、OR,可用括号 来改变优先顺序。 ②在逻辑组配时,算符的两侧必须各留有一个空格。
(4)全文数据库
(5)图像数据库 (6)多媒体数据库
电子期刊数据库 电子图书数据库 检索数据库 学位论文数据库 专利标准数据库 会议论文数据库 学习考试平台 视频数据库 试用数据库
5、计算机检索原理
1.计算机检索的原理就是利用计算机将用户所提出 的检索标识与检索系统中的标引标识进行比较, 并将匹配的文献提出作为命中。 2.标引标识是在信息加工过程中产生的。标引就是 将信息中的具有检索特征的词语或标志抽出并按 照一定的规范制成索引的过程。 3.检索标识是检索者根据对课题的分析,制定出的 既能反映课题的要求,又符合计算机检索要求的 检索语言,其中包括适当的检索词,以及合适的 逻辑算符和位臵算符。
第一章 文献信息检索概论
2、文献检索的原理
文献检索原理是:将检索提问标识与存贮 在检索工具中的标引标识相比较,两者一 致或信息标识包含着检索提问标识,则含 有该标识的信息就从检索工具中输出;
对信息的著录是按一定规则对信息的外表 特征和内容特征加以简单明确的表述,信 息的标引是对其内容按一定的分类表或主 题词表给出分类号或主题词;
按文献加工程度分:有一次文献、二次文 献、三次文献。
一次文献:以作者本人取得的成果为基本素 材面创作的论文、报告等,经公开发表或 出版的各种文献。习惯上称为原始文献。
• 如期刊论文、科技报告、会议论文、专利 说明书、学位论文、技术标准等。 • 特点:具有新颖性、创造性(是人类创造 性劳动成果)和先进性(内容上是新成果, 新发明); • 缺点:数量大,分布散,难以查找。
检 索 结 果
反 馈
3、文献源类型
按文献载体分:有纸介型文献、缩微型文 献、机读型文献、声像型文献
纸介型文献:是以纸张为载体。它又可分 为手抄型和印刷型两种。
其优点是传递知识方便灵活、广泛,保存 时间相对较长;缺点是存储密度小,体积 庞大。
缩微型文献:以感光材料为载体,通过光 学摄影方式将文献的影像固化在感光材料 上形成的一类文献。 如缩微胶卷、缩微平片等。
记录符号
文字已不再是表达思想的唯一手段,图形、 声频、视频等同样成为表达思想、传递感 情的重要手段。总的说来,文献中的符号 系统指图画、文字、公式、图表、编码、 声像和电磁信息等。
记录手段
按记录方法分可有手工记录、机械记录、光记录、 电记录、声记录和磁记录。其中最常见的是印刷。 随着科技的发展,文字记录可以转变为数据记录, 并用电子方法存贮到磁介质上去。此外,还有光 学字符识别(Optical Character Recognition,简 称OCR)技术就代表了这种崭新的技术,它通过 光学方法对字符、标记表示的书面数据进行自动 识别,转换成机器可以处理的信息,这样就实现 了纸质文献信息向电子信息的转换,而且可以通 过不同接口装置向不同设备输入数据,这些设备 进而与通信网络相连,实现远距离数据传送。
文献信息的检索原理、方法及技术(不完整)
计算机与通信学院 陈多
检索方法 1.基本方法 ⑴ 常用法:该方法利用现有的各种文献检索工
具查找文献信息,这是文献检索中经常用到的 方法,可细分为: 顺查法倒查法 ③抽查法 ⑵ 追溯法 ⑶ 循环法 2.排检法 ⑴ 字顺法: ⑵ 类序法⑶ 自然顺序法
计算机与通信学院 陈多
3.数据库与网络资源的检索方法 ① 快速检索 ② 专业检索 ③ 期刊导航检索⑥高 级检索 计算机检索技术 利用数据库和网络资源的主要检索技术有:逻辑 组配检索、截词检索、位置运算符检索、限制 检索。
计算机与通信学院 陈多
⑵二次检索:是在上一次检索的文献结果基础上, 改变检索概念或检索标识进行再次检索,缩小 检索范围、筛选文献的方法。二次检索可反复 进行。 ⑶用索引工具:索引是检索工具中的辅助性工具, 常称为检索的入口,检索工具书中各种索引都 是条目式的简捷明了,数据库中的索引体现为 检索途径。
计算机与通信学院 陈多
⑴ 应分析待查项目的目的、意义、背景 ⑵ 明确研究课题的内容、性质,分析已知情报 ⑶ 划定检索的文献类型与时限范围 2.选择检索工具 3. 确定检索途径和检索标识 检索点或叫检索入口
计算机与通信学院 陈多
描述文献外部特征 对应的检索途径 责任者 责任者检索途径 题名(书名、篇名等) 题名途径 文献代码(如标准号、专利号等) 代码途径 引用文献 引文途径 出版日期、出版地 年代途径
第4章 文献信息的检索原理、方法 及技术
信息检索的原理是什么? 信息检索的方法有哪些? 信息检索的基本步骤是什么?
计算机与通信学院 陈多
4.1文献信息检索的原理
“匹配”—— 文献信息的检索原理是将检索提问标识与存 储在检索工具中的标引标识进行比较,当检索 提问标识与标引标识概念相一致,经过检索系 统的运算查检后就会命中相关的信息,输出理 想的文献信息结果。
第三节课 第二章 文献检索原理与方法
思考题
1.《中国图书法》(简称《中图法》)将图书分为() A. 5大部类,22个大类 B. 5大部类,26个大类 C. 6大部类,22个大类 D. 6大部类,26个大类 2.《中国图书法》(简称《中图法》)是我国常用的分类法,要 检索农业方面的图书,需要在( )类目下查找。 A. S类目 B. Q类目 C. T类目 D. R类目
第一步,《全国新书目》的新书是安排在"新书视窗"专栏,在 2000年第3期《全国新书目》的目录中寻找到"新书视窗"专栏, 在第41~77页。 第二步,在第41~77页的"新书视窗"专栏里,我们可以看到, 该专栏是按照出版社的顺序排列的。高等教育出版社在第45页, 广东经济出版社第46页,教育科学出版社在第52页。 第三步,在第45、46、52页,你可以看到这几个出版社最 近所出版的新书目录。 如广东经济出版社的目录中有以下记载: 知识经济与改革创新 黄铁苗主编 2000 20cm 25.00元 本书围绕改革开放中的热点、难点问题进行探索,具体内容 包括:所有制问财政金融问题、农村经济问题、就业问题、地方 经济问题和其他问题。
2.检索工具-类型
目录 (bibliography,catalogue) 文摘(abstract) 索引(index)
2.1 目录
目录是一批相关文献信息的著录集合,是以报道文献 出版信息为主要功能的工具。 特点:以单位出版物为著录对象,反映馆藏情况,主 要揭示文献外部特征 目录的著录项目:出版名称、责任者、出版项和稽核 项 目录的类型:《全国总书目》《全国新书目》《全国 西文期刊联合目录》
主题词法与分类法的比较
主题词法 分类法
文献信息检索实用教程 第三版 第4章 文献信息的检索原理、方法及技术
新世纪应用型高等教育基础类课程规划教材
文 献 信 息 检 索 实 用 教 程 (第三版)
目录
CONTENTS
第4章 文献信息的检索原理、方法及技术
4. 1 文献信息的检索原理 4. 2 文献信息的检索方法及技术 4. 3 文献信息检索的步骤 4. 4 文献信息检索的效果分析
第4章 文献信息的检 索原理、方法及技术
间和精力查出与课题相关的资料。
第4章 文献信息的检 索原理、方法及技术
4. 4 文献信息检索的效果分析
衡量检索效果的指标有查全率、查准率、漏检率和误检率,其中查全率、 查准率是两项主要评价指标。
查全率=检出的相关文献量/检索系统中相关文献总量
查准率=检出的相关文献量/检出文献总量
第4章 文献信息的检 索原理、方法及技术
3.数据库检索的方法
01 检索词的确定
02
编制规范合理的检 索式
03
选择检索系统和数 据库
第4章 文献信息的检 索原理、方法及技术
4. 3 文献信息检索的步骤
分析待查项目,明确主题 概念
选择检索工具
确定检索途径,填入检索词 或检索表达式
选择检索方法
调整检索策略,筛选文献 结果
查找文献线索,索取原文
第4章 文献信息的检 索原理、方法及技术
4. 4 文献信息检索的效果分析
4.4.3 提高文献检索效果的途径
(1) 选择好检索工具或检索系统。
(2) (3) (4) (5)
准确使用检索语言。 善于利用各种辅助索引。 通过打一检和缩检.提高查全率和查准率。 提高检索策略的制定水平。
新世纪应用型高等教育基础类课程规划教材
4. 2 文献信息的检索方法及技术
文献信息检索基本原理
2.1 文献信息检索的原理和意义
存储过程 文献内容 主题概念 信 息 检 索 语 言 文献特征标志 信 息 检 索 工 具
检索结果
检索过程
检索需求
主题概念
提问特征标志
2.2 检索语言
• 检索语言的概念和作用
检索语言( 检索语言(retrieval language)是一种人工语言,它 )是一种人工语言, 是各种信息组织、存储和信息检索时所用的一种语言。( 。(在 是各种信息组织、存储和信息检索时所用的一种语言。(在 文献信息存储于检索过程中共同使用、 文献信息存储于检索过程中共同使用、共同理解的统一的标 志) 检索语言的作用是标引文献内容、数据和其他信息, 检索语言的作用是标引文献内容、数据和其他信息,把 信息的内容特征及其外表特征简明而有效地揭示出来; 信息的内容特征及其外表特征简明而有效地揭示出来;是连 接标引人员和检索人员的思想桥梁, 接标引人员和检索人员的思想桥梁,是标引人员和检索人员 之间共同遵循的标准语言。 之间共同遵循的标准语言。保证了文献信息存储的集中化和 系统化,并使众多的文献信息高度的标准化、 系统化,并使众多的文献信息高度的标准化、集中化和系统 避免检索的漏检和误检,是有规律的检索成为可能。 化,避免检索的漏检和误检,是有规律的检索成为可能。
2.3 检索系统
• 检索系统概念
为了满足各种各样的信息需求而建立的一整套信息的收 整理、加工、存储和检索的完整系统。 集、整理、加工、存储和检索的完整系统。
• 检索系统的分类
1、手工检索系统 、 由手工检索设备(书本式目录、文摘、索引、 由手工检索设备(书本式目录、文摘、索引、卡片柜 )、检索语言 文献库等构成, 检索语言、 等)、检索语言、文献库等构成,以人工方式查询和提供文 献信息。 献信息。 (1)文献筛选子系统(2)词表子系统(3)标引子系统 )文献筛选子系统( )词表子系统( ) (4)查寻子系统(5)用户与系统间交互子系统(6)匹配子系 )查寻子系统( )用户与系统间交互子系统( ) 统
计算机检索的原理与步骤
3.国际联机检索(70年代中期-) 卫星通讯技术的出现,使得联机检索系
统打破了地域限制。而数据库生产的迅 速发展及微机大量的涌现,更使得国际 联机检索蓬勃发展。
联机检索系统进入发展的黄金时期。实 现了人类情报资源的共享。
截词有前方一致、后方一致和中间截词几种形 式。
例:
前方一致:cat?,可检索出 cat,cats,catalog,category…
后方一致: ?ther,可检索出mother,father
中间截词,只替代一个字符,允许检索词中间 有若干变化。例如wom?n,检索到woman、 women
3.4 字段限制检索 (field limiting) 字段限定也是调整检索策略的一种重要
进入90年代后,随着网络技术的发展, 尤其是互联网的迅猛发展,使计算机检 索进入一个崭新的时期。
检索方法更简单,检索结果更全面
2.0 计算机检索的基本概念
2.1 信息检索
广义:信息检索是将信息按一定的方式 组织和存储起来,并根据信息用户的需 要找出有关信息的过程。
狭义:仅是指从信息集合中找出所需信 息的过程。相当于人们所说的信息查询。
4.单机光盘检索(80年代--) CD-ROM技术促使计算机检索成本迅速
下降 (一张光盘可存贮600〔MB〕兆字 节机读数据、成本价格便宜,而一张 DVD光盘的容量最少可达4.7G)
5.光盘网络检索(90年代-) 光盘网络是一种计算机网络,如图书馆
局域网 实现多用户光盘资源共享
6. Web信息资源检索(90年代末-)
2.2.2 追溯法(引文法) 追溯法是指利用已经掌握的文献末尾所列的参 考文献,进行逐一地追溯查找“引文”的一种 最简便的扩大信息来源的方法。 像滚雪球一样,依据文献间的引用关系,获得 越来越多的内容相关文献。
文献信息检索基本原理及方法
事实信息检索:又称事项检索。是指系以事实为检索内容的情报检索, 其检索对象包括事实、概念、思想、知识、人物的基本信息等内容,事实 检索也是一种确定性检索,,用户获得的是有关某一事物的具体答案。
3.2 文献信息检索原理
文献信息检索的基本原理:就是用户根据课题需要,将代
表需要查找的检索提问标识与文献库中所存储的文献特征标识 进行比较,当文献库中所存储的文献特征标识与检索提问标识 相一致,或文献特征标识包含了检索提问标识时,那么具有这 些特征的标识就被检出,即是命中的结果。
信息存储与检索原理流程图
一种较好的检索语言应具有对多种检索要求的 广泛适应性,保证有较高的查全率和查准率; 具有对多种学科和多种信息类型的适应性;具 有与其他检索语言的兼容性和国际通用性。
检索语言
检索语言的分类划分
区分依据 按内容和结
构划分
按标识组配 方式
按描述文 献的特征
类型
分类语言
主题语言
先组式 检索语言
后组式 检索语言
➢相关性检索——是系统不直接回答用户所提出的 技术问题本身,而是只提供与之相关的文献供用 户参考。
➢确定性检索——是以数据或事实为检索对象,系 统要直接问答用户提出的技术问题,即直接提供 用户需要的确切的数据或事实。
文献信息检索的类型
根据检索对象划分 书目检索:是以文献线索为检索对象的文献检索,即检索检索系统存储
第三章文献信息检索基本原含义
一、文献信息检索的基本含义
“检索”即“查找”之意。信息检索,是将信息按照一定的方式 组织、存储起来,并针对用户的需要查找所需信息的过程。因此信 息检索包含了信息的存储和检索两个不可分的部分。我们通常所说 的信息检索是指狭义的信息检索,即从检索工具和检索系统中查找 所需信息的过程及其所采取的一系列方法和策略。
第二章、文献检索基础知识
(2)树状结构表: 树状结构表将字顺表中的主题词按照每个 词的词义范畴和学科属性,分别归入15个大类之中,多数 大类又进一步细分多达9 级。每一级类目用一组号码标明, 级与级之间用“.”号隔开。主题词上、下级之间采用逐级 缩进格式表现主题之间的隶属关系,每个主题词都有一个 或两个以上的树状结构号,该号是联系字顺表和树状结构 表的纽带。现摘录片段如下: Nervous System A8 Central Nervous System A8.186 Brain A8.186.211 Prosencephalon A8.186.211.730 Telencephalon A8.186.211.730.885 Basal Ganglia A8.186.211.730.885.105 Corpus Striatum A8.186.211.730.885.105.487 Neostriatum A8.186.211.730.885.105.487.550 Putamen A8.186.211.730.885.105.487.550.784
文献检索包括两方面的内容
一方面是文献线索 文献线索的查找,即如何利用检 文献线索 利用检 索工具的问题; 索工具 另一方面是特定原始文献 特定原始文献的查找,即在查 特定原始文献 找特定的文献线索后,找出原始文献 找出原始文献的过 找出原始文献 程。
文献检索的一般意义
促进素质教育,培养信息意识 避免低水平的重复劳动,全面掌握必要的文献 信息; 节省时间和费用,提高信息利用效率,促进信 息资源的开发; 促进专业学习,加速成才。
书名目录(Title Catalogue) 著者目录(Author Catalogue ) 分类目录(Classified Catalogue) 主题目录(Subject Catalogue )
文献检索课二计算机检索的基础知识
–计算机检索系统的类型
1.文献型数据库 文献型数据库是指能直接提供文献线索和文献原文的数 据库,即数据库记录的对象为文献信息时。包括目录型 数据库、题录型、文摘型和全文型数据库。 (1)目录型数据库 是对信息外表特征予以揭示和报道,以整个出版单位或 收藏单位为基本著录单元,如“本”、“种”、“件” 等。著录内容包括书(刊)名、作者、出版年月、出版 地及收藏情况等。可分馆藏目录(如各图书馆的馆藏机 读目录数据库OPAC)、联合目录、出版发行目录等。
1、文献型检索工具 (1)目录 以报道文献出版或收藏信息为主要功能的工具。如《全国总书 目》。 (2)题录 是将图书、报刊等文献中论文的篇目按照一定的排检方法编排 而成,供人们查找篇目出版的工具。如《全国报刊索引》 (3)文摘 以精练的语言把文献信息的重要内容、观点、数据等摘录下来, 并按一定的著录规则与排列方式编排起来,供读者检索使用的一 种检索工具。 2、非文献型检索工具 主要指参考工具书。如词典、百科全书、年鉴、年表、名录等。
• A(nW)B AB两词靠近,次序为A先B后,中间最多可加n个词。 例 如 : communication(2w)satellite , 只 检 索 出 communication satellite 、 communicationsatellite,communication through satellite 、 communication on the satellite词组的记录。
– 选择检索系统
• 主要是根据课题的检索要求选择合适的检索工具或数 据库,如: 查找图书可用OPAC书目数据库;查学科术语或数 据等可用事实型数据库、参考工具书或网络搜索引擎; 撰写学位论文、申请研究课题,需要了解研究对象的 历史、现状和发展,要求检索文献全面、彻底,检索 覆盖的年份也较长,尽可能选用一些收录年份较长的 综合型和专业数据库。 • 考虑权威性数据库; • 数据库的学科专业范围是否与课题的学科相吻合; • 需要的是题录、文摘信息还是全文信息,还是事实、 图形、数据等; • 数据库收录的文献类型、年限、更新周期,所需文献 信息在国别和语种是否符合检索需求等。
文献信息检索基础
计算机检索系统
3)网络数据库系统:指利用因特网,直接检索提供
文献数据库服务的网上各种服务器站点。各类文献 信息数据库出版商自建服务站点提供文献信息检索 服务,使网络文献信息检索成为继联机检索和光盘 检索后发展起来的信息检索新模式,并已成为目前 计算机检索系统发展的主流。
计算机检索系统
二、计算机检索系统的构成
计算机检索系统
1)数据库的一般结构:
数据库是在计算机存储设备上按一定方式存储的相互 关联的数据集合。
计算机检索系统
①字段是文献著录的基本单元,反映文献的外部特征
和内容特征的每一个项目。
【中文题名】 XML语言及其应用
一个字段 【英文题名】XML LANGUAGE AND ITS APPLICATION
3)数据库的类型:
①书目型数据库(二次文献库)是指引用户到另一 个信息源获取原文或其他细节的数据库。
计算机检索系统
② 全文数据库( 源 数 据 库 ) :收录有原始文献的 全文,能直接提供用户所需的原始资料的数据库。
③ 参考工具数据库:既包括全文型的百科全书和名 词术语数据库,也包括专门提供以数据形式表示信息 的数值型数据库。
第二节 计算机检索系统
计算机信息检索系统 用计算机进行信息存贮和检索的 系统。
计算机信息检索系统 用计算机进行信息存贮和检索 的系统。
计算机检索系统
一、检索系统的类型:
1)联机检索系统:20世纪60年代开始使用的计算 机信息检索系统,指用户利用计算机终端设备,通过 拨号、电信专线或互联网,从联机服务中心的数据库 中检索出自己需要的文献。采用大型计算机,检索速 度快,功能强,信息丰富,但费用高,限制普及。
……………..
F7贸易经济 F8财政、金融
文献检索与利用02文献检索基础知识
代码语言
Code 代表某种意义的符号标识系统
规范化的人工语言
规范化的人工语言
主题语言--叙词 Descriptors
对概念进行严格的词义限 定、词形规范、词类规范, 具有概念组配和词间语义
关系显示功能。
规范化的人工控制语言
主题语言--关键词 Key Words
直接从文题、文摘中抽取 出的具有实质意义,表达 主要内容、起关键作用的 词语。
外文期刊的影响因子
印本工具书JCR(Journal Citation Reports )
ISI Journal Citation Reports (Science Edition) 网络数据库
中文期刊的影响因子中国科学引(中国科学院文献情报中心)计算机文献检索
计算机检索系统的构成
计算机检索系统:利用计算机的有效存贮 和快速查找能力来进行信息的分析、组织、 存贮和查找的系统。包括硬件部分、软件部 分和数据库。
自然科学
▪ N 自然科学总论 ▪ O 数理科学和化学 ▪ P 天文学、地球科学 ▪ Q 生物科学 ▪ R 医药、卫生 ▪ S 农业科学 ▪ T 工业技术 ▪ U 交通运输 ▪ V 航空、航天 ▪ X 环境科学、安全科学 ▪ Z 综合性图书
分类法在数据库中的运用
▪ 1、全国报刊索引数据库 ▪ 2、中国期刊全文数据库(CNKI) ▪ 3、中文科技期刊数据(维普) ▪ 4、方正电子图书 ▪ 5、超星电子图书
Congress Classification)简称LCC
中图法五大部类
A.马列毛、邓小平理论 B.哲学、宗教 C.社会科学总论 N.自然科学 Z.综合类
《中图法》基本大类
社会科学
▪ A马克思主义、列宁主义、 毛泽东思想、邓小平理论
文献检索基本知识
第二章文献检索基本知识一、文献检索的基本概念信息检索:广义:将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。
狭义:指用户找出有关信息的过程。
信息检索的类型(根据不同的检索对象):数据检索:检索的结果是数据。
如某种材料的电阻;某变压器的参数;化学分子式、数据图表等<手册>事实检索:检索的结果是事实结论。
查询某一事物(事件)的性质、定义、原理以及发生的时间、地点过程等。
如某产品是哪个厂家生产,哪个牌子的最好;第一颗人造卫星是什么时候升空的<年鉴>文献检索:检索的结果是文献资料。
查找相关文献的内容、出处、收藏单位等。
如系统地查找水压伺服控制阀原理方面的相关文献<论文>自然语言:自然表达某一概念的语言,没有强制性的规定。
通俗地说,就是对于一个概念你想怎么表达就怎么表达。
在文献检索中,关键词(key words)等用的就是自然语言.人工语言:人为规定的概念表达语言。
通俗地说就是对于一个概念你必须使用规定的语言来表达。
在文献检索中,主题词(subject)通常用的就是人工语言图书分类号1、中国图书馆图书分类法(中图法)为全国公共图书馆和信息研究所等机构所采用,是我国通用的综合性书资料分类法。
1973年试用版,1975年第一版,1980年第二版,1990年第三版,1999年第四版。
共分22个大类例如:A马、列、毛、邓B哲学、宗教S农业科学T工业技术TN无线电电子学电信技术TN.3半导体技术中国图书馆分类法(中图法)2、中国科学院图书馆分类法(科图法)目前中科院系统和部分高等院校采用。
1958年第一版,1980年第二版、1994年第三版。
例如:00 马、毛10 哲学20 社会科学总论21 历史历史学73 电技术、电子技术76 冶金学3、中国人民大学图书馆分类法(人大法)部分图书馆和信息资料机构使用该分类法1953年第一版,1980年第五版,1989年第版增订本,1996年第六版例如:1马、列、毛2哲学11工程技术15历史4、国外主要分类法:杜威十进制分类法(Decimal Classification,简称《杜威法》或DC,DDC)国际十进制法(Universal Decimal Classification,简称或UDC)美国国会图书馆图书分类法(Library of CongressClassification,简称《国会法》或LC)概念匹配:计算机计算机电脑微机PC 机文字匹配:计算机计算机电脑电脑微机微机输入输出使用人工语言通常为概念匹配使用自然语言通常为文字匹配四、检索工具定义:是人们用来存储、报道和查找文献的工具。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
②著者姓名:以文献上署名的著者、译 者、编者的姓名或团体、机构名称为检索标 识的检索语言。 以著者姓名或团体、机构名称字顺为检 索标识编制的检索工具:著者索引和计算机 数据库中的著者地址(著者所在单位名称 ) 等。提供从文献署名的著者途径查找所需文 献,是文献检索中的常用检索途径之一。
由于各国姓名的表示方法不一样,因此, 使用著者途径时应遵循著者索引的编制规则。
③文献序号:以文献特有的序号(如专 利号、标准号、科技报告号、国际标准书号、 刊号“ISBN”、“ISSN”等)为检索标识的检 索语言。 利用文献特有的序号为检索标识编制的 检索工具:专利号索引、标准号索引、科技 报告号索引、国际标准书号、刊号索引等。
通过已知文献序号的途径检索,具有明 确、简短和惟一的特点,是一种很实用的检 索途径。
二、计算机信息检索系统的构成 计算机信息检索系统通常由计算机 硬件、检索软件、数据库和通信网络等 软硬件设备构成。其中数据库是计算机 信息检索系统的核心。数据库的质量直 接影响计算机信息检索系统的功能和效 率。对数据库的了解是掌握计算机信息 检索技术的前提。
三、数据库的概念与结构
数据库是指在计算机存贮设备 上按一定方式存贮的相互关联的文献 信息集合,它可以由一个或多个文档 组成。 文献信息数据库由文档、记录、 字段三个层次构成。
一、文献检索的概念 1、定义:将文献按照一定方式组织和 存储起来,并根据信息用户的需要 查找出所需文献的过程。 文献存储
广义定义
文献检索
狭义定义
文献检索原理图
文 检 索 系 统 献 存 储 文 献 检 索 分析 待查课题 提问概念 分析 原始文献 主要概念 检 索 语 言 分 主 类 词 表 转换存入 检 索 工 具
(2)按检索手段划分 手工检索:主要利用印刷型目录、索引、 文摘和参考工具书等手工检索工具检索文献 信息。 计算机检索:主要利用计算机检索系统、 光盘检索系统、网络检索系统检索文献信息。 两者的区别:采用的文献信息存储载体 不同和检索设备不同。它们形式不同,实质 相同;方法不同,原理相同。计算机检索以 其数据更新快、检索速度快和智能化多途径 检索等诸多优势,已成为现阶段文献检索的 主要方式,要完全取代手工检索还有待时日。
《中国图书馆分类法》(简称《中图法》)
基本大类
A 马克思主义、列宁主义、毛泽东思想 B 哲学 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化 、科学、教育、体育 H 语言、文字 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学 Z 综合性图书
类目体系
R51 传染病 R52 结核病 R53 寄生虫病 R54 心脏、血管 (循环系)疾病 R55 血液及淋巴 系疾病 R56 呼吸系及 胸部疾病 R57 消化系及腹 部疾病 R58 内分泌腺 疾病及代谢病 R59 全身性疾病 R599 地方病学
R 医药、卫生
分类语言的优点: ⑴ 能较好地体现学科的系统性,揭示知识之间 的隶属、派生和平行的关系,便于从学科专业的角 度查找获取文献信息。 ⑵ 按学科、专业揭示信息,性质相近的事物在 分类体系中是彼此相邻的,检索者可以随时扩大或 缩小检索范围,具有族性检索的功能。 ⑶ 通过分类号码来表达学科概念,简单明了, 不受语言文字限制,各种不同文字的检索工具可以 相互沟通,或统一编排。对于外文检索系统,即使 不懂其文字,也可借助分类号进行检索;
三、文献检索步骤
利用检索工具进行文献检索,可分以下 五个步骤: 分析研究课题 明确检索目的 选择检索工具 确定检索方法 选择检索途径 确定检索标识 实施检索 获得相关文献线索 索取原始文献
第五讲:计算机信息检索基础
一、概念
计算机信息检索,即利用计算机存贮和检索 信息的过程。 信息存贮是将文献、数值、事实等按一定的 格式输入到计算机中,加工处理成可供检索的数 据库。 信息检索是将检索提问式按一定的要求输入 计算机中,经计算机系统与已存贮在计算机中的 数据库进行匹配运算,然后将符合检索提问的数 据按要求的格式输出。
题 转换检索 输出结果
2、文献检索的类型
(1)按检索内容划分 书目检索:是以文献线索为检索对象的 检索。如,关于某个课题的文献有哪些?检 索结果是与某课题相关文献的基本情况、出 处及收藏地点 等。 数据检索:是以文献中的数据为检索对 象的检索。如,检索某个计算公式、某个化 学分子式或临床检验正常值等。 事实检索:是以文献中的事实为检索对 象的检索。如,检索某一事件的发生时间、 地点或过程等。
(2)描述文献内容特征的 检索语言 ①分类语言,又称分类法。 它是一种直接体现知识分类的等级概 念标识系统,它以科学分类为依据,结合 文献的特点,运用概念划分的原则,按照 知识门类的逻辑次序由总到分,由一般到 具体,由简单到复杂进行层层划分,逐级 展开,形成一个严密有序的,直线型知识 门类等级体系。
文献信息资源是知识的宝库 文献检索是开启知识宝库的钥匙
美国《化学文摘》封面上醒目的印着:
Key To The World’s Chemical Literature 自称是“打开世界化学文献的钥匙” 形象地说明文献检索的“钥匙”作用
医学文献检索与利用
郑州大学图书馆 王槐深
第四讲: 文献检索基本原理
文献题名——题名索引——题名途径 著者姓名——著者索引——著者途径 文献序号——序号索引——序号途径 引用文献——引文索引——引文途径
分类语言——分类索引——分类途径 主题词—主题词索引 主 题 主题语言 途 关键词—关键词索引 径 代码语言— 分子式索引等 — 代码途径
(1)描述文献外表特征的检索语言 ①文献题名:以文献题名包括:书名、 刊名、篇名等为检索标识的检索语言。 以文献题名的字顺为检索标识编制的 检索工具包括:书名目录(索引)、刊名 目录(索引)、篇名索引等。提供从文献 题名检索所需文献的途径,常用于计算机 数据库检索。
局限性:
以事物主题概念为中心组织文献,适宜检索与事物有关的 各方面的文献信息,不适宜与学科有关的族性检索。
◆主题词表(或称叙词表)
是对生物医学文献进行主题分析、标引和检索时选择用 词的依据。其作用是保证作者、标引者和检索者之间在用词 上的一致,即作者语言、标引语言、检索提问语言的一致性。 目前常用的医学专业主题词表有:
④引用文献:以文献所附注的参考文 献(reference)为检索标识的检索系统。 利用文献发表后的引用与被引用关系 建立起来的检索系统称为:引文索引。它 从文献之间相互引证关系的角度,提供新 的检索途径,不但揭示了某作者于何时和 刊物上发表了哪些论文,而且还表明这些 论文曾被哪些人引用,及对其有哪些发展、 改进、引用或否定。这也是引文索引被世 界所公认的原因。
分类语言的局限性:
⑴ 按分类的原则,一篇文献只能分入其论述的主要学科 概念的类目下,即只能给一个分类号,放在一个类目下。而一 篇文献常常涉及多个学科或一个学科的多个方面,因此不能集 中与事物有关的各方面的文献信息,不能满足人们检索综合课 题的需求; ⑵ 由于分类体系相对稳定,某些论述新概念、新事物的 文献不能及时用新的类目予以反映,容易漏检。由于分类体系 是单线排列,某些边缘学科、交叉学科、相关学科难以反映; ⑶ 由于人们认识上的差异和文化素养不同,对某些文献 的分类认识不一致,往往造成检索的失误;
制的《中国中医药学主题词表》。
●关键词语言
关键词是直接从文献题目、正文或文摘中抽出的,对揭示和 描述文献主题内容具有实质意义的关键性语词,是未经过规范化 处理的自然语言。 优点: ⑴ 来自于文献题目、正文、文摘,专指度高,检准度也高。
⑵ 适宜于计算机编制索引和检索,速度快、时滞短。
⑶ 无需编制和查找词表,使用方便,检索速度快。 ⑷ 可直接选用专业名词术语检索,方便而易掌握。
I 文学 J 艺术
K 历史
《中图法》R 医药、卫生
R1 R2 R3 R4 R5 R6 R71 R72 R73 R74 R75 R76 R77 R78 R79 R8 R9 预防医学、卫生学 中国医学 基础医学 临床医学 内科学 外科学 妇产科学 儿科学 肿瘤学 神经病学与精神病学 皮肤病学与性病学 耳鼻咽喉科学 眼科学 口腔科学 外国民族医学 特种医学 药 学
●主题词语言,又称叙词语言
是以概念为基础,经过严格优选和规范化处理,用以表达 文献主题概念和检索需求的词或词组。
特点:
⑴ 采用自然语言做标识,表达概念直观明了。 ⑵ 经过严格的规范处理,保证语词与概念的一一对应。
⑶ 可用概念组配来组织和检索文献。
⑷ 随着学科发展,可根据作者用词的变化而定期更新。 ⑸ 受主题词表(或称叙词表)控制。
⑴ 国外:美国国立医学图书馆编制的《医学主题词表》 (Medical subject Headings,简称MeSH),收录由著名的 医学专家、医学编辑、医学图书馆专家推荐的、在生物医学 领域使用频繁而又被认可的主题词1.8万个,副主题词82个。 ⑵ 国内:中国医科院医学信息研究所依据美国国立医学 图书馆《医学主题词表》翻译的《医学主题词注释字顺表》 (MeSHAAL)(电子版);中国中医研究院医学信息研究所编
⑷ 有些课题的文献往往分入非常细小的类目,按照从一
般到具体、从简单到复杂地层层检索,比较麻烦。
②主题语言,又称主题法。
它是选取自然语言中具有实质意义、 能表达文献主题概念的科技名词术语,直 接用这些词语作为标引和检索文献标识的 一种检索语言。 按照选词的原则和方法,目前应用较 多的主要有主题词语言(又称叙词语言) 和关键词语言。
1、文档(File)
文档由若干记录构成。是指数据库中的顺排文档和倒 排文档。 ⑴ 顺排文档是数据库的主体,又称主文档,它按每条 记录的顺序号大小排列。检索结果都来自于顺排文档。 ⑵ 倒排文档是指数据库中的主题词索引、著者索引、 刊名索引等,它们按索引词的字顺排列。 检索时,计算机按输入检索词的字顺先从指定的倒排文 档中找到相匹配的索引词,然后根据索引词后的记录顺序号 到顺排档中调出相应的记录。 许多大型数据库往往包含数以万计的记录,为了方便用 户检索,常被分成若干个文档。例如:《中国生物医学文献 数据库》(CBMdisc)按收录文献的年限将数据库划分为若 干文档。截止2003年,CBMdisc共分为6个文档。