第二讲 数据库及检索方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.2 检索技术 检索技术——布尔逻辑算符
逻辑或(逻辑和) 逻辑或(逻辑和) Wienn图 图
Search terms college university college OR university college OR university OR campus Results 770 33,685, 205 33,702, 660 33,703, 820
1.2
数据库分类 ——文献型数据库
全文型数据库(一次文献 全文型数据库 一次文献) : 存贮文献全 一次文献 文或部分内容的数据库 目录型数据库(二次文献): ):存储图 目录型数据库(二次文献):存储图 书目录、论文题录、 书目录、论文题录、文摘等书目线索 的数据库
题录/文摘数据库 存储和检索期刊论文外 题录 文摘数据库 :存储和检索期刊论文外 部特征及文献摘要信息的数据库 书目数据库:存储和检索书目信息的数据库 书目数据库 存储和检索书目信息的数据库
2.2 检索技术 检索技术——布尔逻辑算符
逻辑与(逻辑乘) 逻辑与(逻辑乘)Wienn图 图
Search terms apple breeding Results 78,344 2,962
plant 5,677 overty ANDbreeding AND apple AND crime 76 plant
2.1 检索词 检索词——概念及分类 概念及分类
检索词
受控词
非受控词
主题词表 叙词表 分类词表
自然语言索引 关键词索引
2.1 检索词 检索词——概念及分类 概念及分类
受控词:是事先规范化的检索语言, 受控词 : 是事先规范化的检索语言 , 取自主题词 叙词表、分类表等。 表 、 叙词表 、 分类表等 。 如果数据库对数据采 用了受控标引, 用了受控标引 , 并有机读式或印刷版主题词表 应优先选用其中的受控词。 时,应优先选用其中的受控词。 受控词的检索效率高, 特 点:受控词的检索效率高,一旦选定适当的概 系统就能检出这一概念的全部内容,而且, 念 , 系统就能检出这一概念的全部内容 , 而且 , 由于标引人员已事先解决了自然语言中的同义、 由于标引人员已事先解决了自然语言中的同义 、 近义关系,使检索相对容易。 近义关系,使检索相对容易。 但受控词不能及时反映新事物的发展, 但受控词不能及时反映新事物的发展 , 而 且概念数量有限、结构复杂, 且概念数量有限 、 结构复杂 , 不易为非专业人 员掌握。 员掌握。
文献型数据库的结构: 文献型数据库的结构:记录
几个不同字段的集合 不同字段的集合构成记录,一 不同字段的集合 个数据库内的记录往往含有相同的 字段。 每条记录相当于文摘型或题录 型检索刊物的一条著录款目 著录款目。 著录款目 一条记录即一篇文献。 一条记录即一篇文献。
一条记录的格式: 一条记录的格式:
2.1 检索词 检索词——概念及分类 概念及分类
非受控词: 非受控词:非受控词是指非规范化的自然 语言词汇,又称自由词。 语言词汇,又称自由词。 特 点: 非受控词可以在一定程度上弥补受 控词的不足,非受控词可以是任意选词, 控词的不足,非受控词可以是任意选词, 其专指性强,而且不需要熟悉词表, 其专指性强,而且不需要熟悉词表,新产 生的名词术语可以及时检索与新概念有关 的文献。 的文献。但非受控词一般不能提供概念的 等级结构,不能解决同义词、近义词、 等级结构,不能解决同义词、近义词、相 关词的结合或连接问题。 关词的结合或连接问题。
文献型数据库的结构: 文献型数据库的结构:字段
辅助索引字段( 辅助索引字段(Additional Index Fields):用来表达文献外部特征 外部特征的 ) 外部特征 字段,如:
著者字段(Author Field / AU) 出版年字段( Publication Year Field / PY) 刊名字段(Journal Field / SO或JN) 语种字段(Language Field / LA) 文献类型字段(Document Type Field /DT) 辅助字段种类很多,且随数据库的不同而各有差异。 辅助字段种类很多,且随数据库的不同而各有差异。
文献型数据库的结构: 文献型数据库的结构:字段
数据库中最基本的信息单元, 数据库中最基本的信息单元,其实体是 文献的著录项目。 文献的著录项目。记录中的字段标识符一般 由两个字母组成, LA等 由两个字母组成,如TI, AB, AU, PY, LA等. 每个字段都是一条检索该记录的途径. 每个字段都是一条检索该记录的途径.
2.2 检索技术 检索技术——布尔逻辑算符
----逻辑或(逻辑和) ----逻辑或(逻辑和) 逻辑或
逻辑或(逻辑和)是用“or”或 逻辑或 ( 逻辑和 ) 是用 “ or 或“ +” 连接检索概念, A+B) 连接检索概念,A or B (或A+B )表示两 个概念的并列, 个概念的并列 , 即记录中凡单独含有检 索项A 或检索项B 或者同时含有A 索项 A 或检索项 B , 或者同时含有 A 、 B 两 者均为命中记录。 者均为命中记录。 用逻辑或来检索可扩大检索范围, 用逻辑或来检索可扩大检索范围 , 提高查全率。 提高查全率。
文献型数据库的结构: 文献型数据库的结构:字段
• 基本索引字段:又称主题字段,是数 基本索引字段:又称主题字段, 据库提供的字段检索默认值. 据库提供的字段检索默认值.用来表达文 内容特征的字段 的字段,如: 献内容特征的字段 篇名字段( 篇名字段(Title Field / TI) ) 文摘字段( 文摘字段(Abstract Field / AB) ) 叙词字段( 叙词字段(Descriptor Field / DE) )
术语型数据库:也称词语型数据库。 术语型数据库:也称词语型数据库。 专门存储揭示各类名词、术语、 专门存储揭示各类名词、术语、词 语的形、 义与使用方法、 语的形、音、义与使用方法、以及 词义演变、发展等信息的检索工具。 词义演变、发展等信息的检索工具。 目前多数术语型数据库大多是辞书、 目前多数术语型数据库大多是辞书、 词典、百科全书等数字化版本。 词典、百科全书等数字化版本。
2.2 检索技术 检索技术——布尔逻辑算符
-----逻辑与(逻辑乘) 逻辑与(逻辑乘) 逻辑与
逻辑与( 逻辑乘) 是用“ 逻辑与 ( 逻辑乘 ) 是用 “ and”或 或 连接检索概念, “*”连接检索概念, A and B(或A*B) ( ) 表示两个概念的交叉, 表示两个概念的交叉,即记录中必须同 时含有A和 , 逻辑与” 时含有 和 B, 用 “ 逻辑与 ” 来检索是 对检索需求增加限定因素, 对检索需求增加限定因素,可以缩小检 索范围。 索范围。 用逻辑与组构的检索词越多, 用逻辑与组构的检索词越多,检索 范围越小,专指度越强, 范围越小,专指度越强,有助于提高查 准率。 准率。
第二讲 数据库及检索方法
主要内容
数据库检索概述
概念 分类 结构 概念 分类 算符
检索词及其应用
计算机检索策略与流程
(一) 数据库检索概述
1.1 数据库概念
数据库是计算机检索系统中存储的信息 数据库是计算机检索系统中存储的信息 一定的方式组织并储存, 源,按一定的方式组织并储存,借助于 检索系统随时为用户提供服务的信息的 集合。 集合。 数据库本质的三个要素:相关数据、共 相关数据、 相关数据 同存取方式和一定的组织方式、共享。 同存取方式和一定的组织方式、共享。 通俗地说, 通俗地说,数据库是以某一特定方式组 织和存放的数据的仓库。 织和存放的数据的仓库。
全文数据库 目 录 数 据 库
文献型数据库
题录/文摘数据库 题录 文摘数据库 书目数据库
数据库
数据型
非文献型数据库
图像型 事实型 术语型
1.3 数据库的结构
不同类型数据库的结构不完全相同。 不同类型数据库的结构不完全相同。
文献型数据库的结构层次: 文献型数据库的结构层次: 的结构层次
字段 记录(外文) 截词检索(外文) 限制检索(外文) 限制检索(外文)
2.2 检索技术 检索技术——布尔逻辑算符
利用布尔逻辑算符将检索词或代码进行 逻辑组配以表达检索需求的检索方法 布尔逻辑算符有三种: 布尔逻辑算符有三种: 逻辑与(逻辑乘) 逻辑与(逻辑乘) 逻辑或(逻辑和) 逻辑或(逻辑和) 逻辑非(逻辑差) 逻辑非(逻辑差)
1.2
数据库分类
计算机信息检索系统的数据库, 计算机信息检索系统的数据库,按照不同 的划分方式可以分为不同的类型。 的划分方式可以分为不同的类型。 从记录形式(内容性质)的角度将数据库分 内容性质) 内容性质 为两大类: :
文献型数据库 非文献型数据库
1.2
数据库分类 ——文献型数据库
是一种能直接提供文献线索和文 是一种能直接提供文献线索和文 献原文的数据库 献原文的数据库 收集的记录是根据书刊、 收集的记录是根据书刊、技术报 学位论文、会议报告、专利、 告、学位论文、会议报告、专利、 报刊新闻等加过工的一次或 一次或二次 报刊新闻等加过工的一次或二次 文献。 文献。
1.2
数据库分类 ——非文献型数据库
• 收集指南或词典形式的数据 记录, 记录,能直接提供具体的术 事实、 语、事实、数值和图像等信 息的数据库。 息的数据库。
•
数据型数据库: 数据型数据库:是一种以自然数值形 式表示、计算机可读的数据集合。 式表示、计算机可读的数据集合。如 实验数据、化学分子式、 实验数据、化学分子式、价格等统计 数据、科学实验数据、测量数据等。 数据、科学实验数据、测量数据等。 中国科学计量指标数据库。 如:中国科学计量指标数据库。 图像型数据库:存贮有某些图象信息 图像型数据库:存贮有某些图象信息, 如图片,云图 工程设计图等. 云图, 如图片 云图 工程设计图等
•
1.2
数据库分类 ——非文献型数据库
• 事实型数据库:也称指南型数据库, 事实型数据库:也称指南型数据库, 是一种存贮简单而独立存在的非文献 信息,如机构、人物、产品、年代、 信息,如机构、人物、产品、年代、 地理位置、事件等, 地理位置、事件等,每个条目都是对 一个事实确切、完整的描述。 一个事实确切、完整的描述。 • 按信息内容划分有人物数据库、 按信息内容划分有人物数据库、机 构名录数据库、 构名录数据库、产品或商品信息数据 以及投资指南库、基金指南库等。 库、以及投资指南库、基金指南库等。
文献型数据库的结构: 文献型数据库的结构:文档
由若干相同 相同类型或不同类型的记 相同 不同类型的记 录组成。 录组成 一个数据库由若干个文档组成。 一个文档由大量的记录组成,而 每个记录中又包含有若干字段, 这就是文献数据库中的层次结构。
(二)
检索理论基础
2.1 检索词 检索词——概念及分类 概念及分类 检索词是用户或检索人员给出 的字、 字符或短语, 的字 、 词 、 字符或短语 , 用于 查找含有它(它们)的记录。 查找含有它(它们)的记录。 检索词分为两类: 检索词分为两类:受控词和非 受控词。 受控词。
三种基本字段: 三种基本字段: 检索系统的存取号(Accession Number) • 基本索引字段(Basic Index Fields) • 辅助索引字段(Additional Index Fields)
•
文献型数据库的结构: 文献型数据库的结构:字段
存取号 :计算机信息检索系统为该数
据库的每一条记录规定的能被计算机识 别的特定号码。在同一数据库中, 别的特定号码。在同一数据库中,每篇 文献记录只有一个存取号。一般来讲, 文献记录只有一个存取号。一般来讲, 存取号由6—9位数字组成,出现在每条 位数字组成, 存取号由 位数字组成 联机记录的左上角位置。 联机记录的左上角位置。
2.2 检索技术 检索技术——布尔逻辑算符
----逻辑非(逻辑差) ----逻辑非(逻辑差) 逻辑非 not” 逻 辑 非 ( 逻 辑 差 ) 是 用 “ not 或 连接检索概念, “-”连接检索概念,A not B(或A-B) 表示两个概念的排除,即凡含有检索项A 表示两个概念的排除,即凡含有检索项A 并且不含检索项B的记录为命中记录。 并且不含检索项B的记录为命中记录。 用逻辑非来检索, 用逻辑非来检索 , 可以缩小检索范 围 , 提高检索的专指度。 但这种检索也 提高检索的专指度 。 有缺点, 即取消部分, 有缺点 , 即取消部分 , 往往会把切题的 文献丢掉, 文献丢掉 , 因此运用逻辑非运算时要慎 重。