第三章 计算机检索基础知识
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 计算机检索基础知识
中国民航大学图书馆
主要内容
一、计算机检索概述
二、信息存储与数据库结构
三、检索语言与检索技术
四、检索的基本程序
1.计算机检索概述
计算机检索原理 计算机检索系统的组成
计算机信息检索的发展
检索系统的类型
检索原理
什么是著录?什么是标引?
广义的文献信息检索,包括文献信息存储和文献信息检索两个
为三个层次:题录、文摘、全文。
5) 确定信息的起始时间。收集的信息时间跨越范围需要根据信 息的特点合理选择,回溯年限长,信息时效性就差,但历史性就
越强。
标引与著录
• 标引:指对信息内容特征进行分析,赋予信息以检索标识的过程。
标引一般包括主题标引和分类标引。
• 著录:对信息外部特征(如文献的篇名、著者、出处、出版时间等) 进行分析、选择与记录的过程。
通用的截词符有:?和 *
?代表一个字母,叫做有限截断;* 代表两个或两个以上字母, 叫做无限截断。
截词检索
例如:
child* , 可查到child, children, childish,
childhood等所有以child开头的单词。 按截断的位置不同,截词检索又分为左截断、右截 断和中间截断。
按照光盘读取数据的性能来划分,有以下三种类型:
只读光盘(CD-ROM) 一次性写入光盘(CD-WORM)
可擦写光盘(CD-ERM)
网络化检索(international on-line retrieval)
网络信息检索的特征
• • 存取范围覆盖Internet上的几乎所有资源 传统检索方法与全新检索技术相结合
2.信息存储与数据库结构
信息源收集 标引与著录
数据库及其编排结构
信息源收集
1) 确定入选信息的专业范围。信息的专业性体现了数据库的特 色与权威性。 2) 确定信息的文献类型。如期刊、会议记录、学位论文、标准
等。
3) 确定信息的载体。如缩微制品、光盘、磁带、磁盘的信息。 4) 确定信息的加工深度。对于文献数据库而言,加工深度表现
字段限制
• 限制符
• in对特定字段进行限制检索,如年份限制检索、语种限
制检索、文献类型限制检索等。 • 如:English in LA 要求检索的文献为英文文献。
禁用词(非关键词)
• 主要有:介词、冠词、连接词、感叹词、某些形容词或副词以及不
能反映文献的实质内容,而且在一般文章中非常通用的某些词。
字段(Field)
– 比记录更小的单位是字段,是组成记录的数据项目。 – 例如在书目数据库CBMdisc中一条记录代表某一篇文献,在这条记录中有
中文题名(TI)、著者(AU)、出处(SO)、主题词(MH)等字段。
数据库的编排结构
数据库的编排结构,就是计算机检索系统中数据库的每条记
录数据项的编排方式,有顺排文档和倒排文档两种。
1)顺排文档以记录为单位,按记录的入藏顺序号从小到大排列。
2)倒排文档是从顺排文档中抽取有检索意义的检索标识,如主题 词、著者姓名、篇名等,并按某种顺序排列,同时在检索标识后
注明入藏顺序号。
检索“反坦克导弹发展趋势”方面的文献
检索式:反坦克导弹and发展趋势
顺排文档与倒排文档 配合使用示意图
对信息内容特征进行标引和对信息外部特征进行著录,形成 一条信息题录,并根据信息内容作出摘要,然后将上述检索标识 与著录项目一并填入工作单,就完成了数据库建设的“数据前处 理”工作。
数据库及其编排结构
• 数据库的类型
• 数据库的构成 • 数据库的记录格式 • 数据库的编排结构
数据库的类型
按照信息处理层次划分:
•
全文数据库(Full Text Database)
存储的是原始文献的全文,如杂志论文、报纸新闻、法院案例等。 – 全文检索可直接获取原始资料,而不是书目检索时的线索,提高了用户的检索效率。
–
如,万方数据库、维普数据库等全文数据库。
数据库的构成
记录(Record) – 是构成数据库的一个完整的信息单元,每条记录描述了原始信息的外部 和内部特征。 – 书目数据库中的一条记录通常代表一篇文献,其它类型数据库中的记录 则是某种信息单元。
• 书目数据库(Bibliographic Database)
– – 存储对文献信息进行加工后的书目数据。 如:图书馆馆藏目录或联机公共检索目录等。
•
文摘数据库(Abstract Database)
存储原文经过浓缩后得到的文摘、索引等信息。
– 主要提供各种文献信息的提名、责任者、原文出处、主题词及文摘,一般不提供全文。 – 如Web of Science等。
注意:这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检 索系统其位置算符的表示方法不尽相同。
截词检索
截词检索就是把检索词截断,取其中的一部分,在加
上截词符号一起进行检索。
• 主要用于检索词的单复数、词性的词尾变化、词根相同的一类词, 以及同一词的拼法变异等。 • 从本质上说,截词算符是一种逻辑“或”的关系。
•
• •
用户界面友好且操作方便
具备良好的导航和编辑功能 网络透明度高
国内计算机信息检索发展阶段
1975年,从国外引进数据库开展机检服务; 1980年,建立国际联机终端开展检索服务; 20世纪80年代中后期,自建数据库;
90年代初,发展光盘检索;
90年代中期,Internet网络化检索阶段。
逻辑非(NOT)
A NOT B:记录必须包含检索词A但不能包含检索词B。
即在含有A检索词的文献中去除含有B检索词的文献。
• 其作用是缩小检索范围,提高查准率。
例如:检索有关能源方面的文献信息,但不包括核能,检索式为: energy NOT nuclear
运Baidu Nhomakorabea顺序
• 布尔逻辑算符的运算次序:
NOT > AND > OR
数据更新频率高 辅助功能完善
计算机信息检索系统组成
• 计算机(服务器和终端):是检索系统的核心部分,包括软件和硬 件。通过一定的检索软件,它们能够进行信息的存储、处理、检索 以及整个系统的运行和管理。
• 通讯网络:通信网络是联系计算机系统和检索终端设备的桥梁,起
着传递信息的作用。检索网络所用的通信线路,一般是公用电话线 或专用线,国际联机检索系统则是由通信卫星和海底电缆构成的通
计算机检索是计算机代替人工检索的匹配过程。计算机一方面接
受检索提问表达式,另一方面从数据库中读取信息记录,然后在 两者之间进行匹配运算,如果比较的结果一致,那么这条信息就
算命中,如果比较的结果不一致,则这条信息就不被输出。
计算机信息检索特点
速度快、效率高 检索范围广
不受时空的限制
网络和计算机专用终端,在世界范围内提供联机信息检索服务,形
成国际联机检索服务业,联机检索服务是计算机检索走向实用化、 规模化、产业化的重要的标志。
光盘数据库检索
光盘
是80年代发展起来的激光存储载体,继纸张感光材料、磁性载体之后问 世的又一种新型的信息存储介质。能存储数据、文字、图形、图像、声音、动 画等各种信息。一张普通的光盘、信息存储量约为550兆。
信网络。
• 数据库:是在计算机存储设备上按一定方式存储的相互关联的数据 集合。是检索系统的信息源,也是用户检索的对象。
计算机信息检索的发展阶段
脱机批处理检索阶段(1954-1964)
联机检索阶段(1965 光盘检索阶段(1980) )
网络化检索阶段(1995- )
脱机检索(off-line retrieval)
• 如:方法、问题、报告、研究、探讨等。
4. 检索的基本程序
1.分析检索课题
2.选择检索系统及数据库
3.确定检索词 4.构建检索提问式 5.上机检索并调整检索策略 6.输出检索结果。
1.分析检索课题
(1)弄清用户信息需求的目的和意图。 (2)分析课题涉及的学科范围、主题要求。 (3)课题所需信息的内容及其特征。 (4)课题所需信息的类型,包括文献类型、出版类型、年代 范围、语种、著者、机构等。 (5)课题对查新、查准、查全的指标要求。
在利用计算机进行信息检索的早期,人们只是用单台计
算机的输入输出装置进行检索,用磁带作存储介质,一般为 连续的顺序检索方式。检索部门把许多用户的检索提问汇总
到一起,进行批量检索,然后把检索结果通知各个用户,用
户不直接接触计算机。
联机检索(on-line retrieval)
60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带 多个终端的联机信息检索系统。联机检索是用户利用终端设备,通 过通信网络或通信线路与检索系统联机,进行“人机对话”,从检 索中心的数据库及时查找所需要的文献信息过程。 80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信
A AND B:检索词A和检索词B同时出现在一条记录中。 • 其作用是缩小检索范围,提高查准率。
例如:查有关“人口控制”的文献,检索式可写成: 人口 AND 控制
逻辑或(OR)
A OR B:记录中出现检索词A或检索词B或两词同时出现 在一条记录中。 • 其作用是扩大检索范围,提高查全率。
例如:查有关计算机的资料,检索式可写成: 计算机 OR 电脑
数据库的结构
若干个记录构成的信息集 合称为文档。大型的数据 库分割成若干文档。 记录是构成数据库的完整的信息单 元,每条记录描述了原始信息的外 部特征和内部特征。
组 成 记 录 的 数 据 项 目
检索语言与检索技术
检索语言
检索语言就是为沟通文献标引与文献检索而编制的人工语言,也是连接 信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文 献标引和检索提问的约定语言。 检 索 语 言 类 型 示 意 图
检索技术
1.布尔逻辑检索
2.位置运算检索
3.截词检索
4.字段限定检索
布尔逻辑检索(Boolean searching)
在检索过程中用于表达词与词之间的逻辑关系的算符, 称为布尔逻辑运算符。 算符有三种逻辑关系:逻辑与(AND)、逻辑或(OR)、 逻辑非(NOT)。
逻辑 与(AND)
过程。在存储信息时,信息著录和标引人员首先对原始信息进行主
著录是对信息的外表特征和内容特征加以简单明确的描述
该原始信息主题的概念,并用检索语言的语词(即,标引标识,包 括主题词和分类号等)把这些概念标识出来,然后按照一定规则存 入检索工具或检索系统。 用户检索时,首先要对检索课题进行主题内容分析,明确所涉 及的学科范畴、检索要求及检索范围,并形成若干代表检索课题需 要的概念,把这些概念转换成检索语言的语词(即,检索标识,包 括主题词和分类号等),然后从检索工具或检索系统中查找含有该 检索标识的信息,从而获得所需的信息。
( )号里的部分运算优先
例如: (A OR D) AND B 表示先执行“A OR D”的检索,再与B进行AND 运算。
位置检索
使用位置算符是为了表达各个检索词之间的顺序与相对位置关系。位置运 算符有:(W)、(nW)、(N)、(nN)。 (W)是with的缩写,(W)算符两侧的检索词之间不得有其他任何字或词,而且 顺序不能颠倒,但允许有空格或一个标点符号。American ( )literature。 (nW)表示两侧的检索词中间允许插入的词最多只能有n个,且检索词位置不能
题分析,把原始信息中包含的信息内容分析出来,形成若干能代表
标引是对信息的内容给出分类号和主题词
主题词 分类号
主题词 分类号
检 索 原 理 示 意 图
信息检索原理
简言之,信息检索原理就是将检索标识与存储在检索工具或检索 系统中的标引标引标识进行比较,两者一致或者信息标引的标识 包含着检索标识,则含有该标识的信息就从检索工具或系统输出。
颠倒。knowledge (1W) economy, 会命中 knowledge economy 或者
knowledge-based economy。 (N)是near的缩写,(N)算符两侧的检索词必须相连,不得插入其他词,但词 序可以颠倒。chemistry (N) physics,会命中chemistry physics或者 physics chemistry。 (nN)表示允许在此算符两侧的检索词之间最多插入n个词,但词序可以颠倒。
中国民航大学图书馆
主要内容
一、计算机检索概述
二、信息存储与数据库结构
三、检索语言与检索技术
四、检索的基本程序
1.计算机检索概述
计算机检索原理 计算机检索系统的组成
计算机信息检索的发展
检索系统的类型
检索原理
什么是著录?什么是标引?
广义的文献信息检索,包括文献信息存储和文献信息检索两个
为三个层次:题录、文摘、全文。
5) 确定信息的起始时间。收集的信息时间跨越范围需要根据信 息的特点合理选择,回溯年限长,信息时效性就差,但历史性就
越强。
标引与著录
• 标引:指对信息内容特征进行分析,赋予信息以检索标识的过程。
标引一般包括主题标引和分类标引。
• 著录:对信息外部特征(如文献的篇名、著者、出处、出版时间等) 进行分析、选择与记录的过程。
通用的截词符有:?和 *
?代表一个字母,叫做有限截断;* 代表两个或两个以上字母, 叫做无限截断。
截词检索
例如:
child* , 可查到child, children, childish,
childhood等所有以child开头的单词。 按截断的位置不同,截词检索又分为左截断、右截 断和中间截断。
按照光盘读取数据的性能来划分,有以下三种类型:
只读光盘(CD-ROM) 一次性写入光盘(CD-WORM)
可擦写光盘(CD-ERM)
网络化检索(international on-line retrieval)
网络信息检索的特征
• • 存取范围覆盖Internet上的几乎所有资源 传统检索方法与全新检索技术相结合
2.信息存储与数据库结构
信息源收集 标引与著录
数据库及其编排结构
信息源收集
1) 确定入选信息的专业范围。信息的专业性体现了数据库的特 色与权威性。 2) 确定信息的文献类型。如期刊、会议记录、学位论文、标准
等。
3) 确定信息的载体。如缩微制品、光盘、磁带、磁盘的信息。 4) 确定信息的加工深度。对于文献数据库而言,加工深度表现
字段限制
• 限制符
• in对特定字段进行限制检索,如年份限制检索、语种限
制检索、文献类型限制检索等。 • 如:English in LA 要求检索的文献为英文文献。
禁用词(非关键词)
• 主要有:介词、冠词、连接词、感叹词、某些形容词或副词以及不
能反映文献的实质内容,而且在一般文章中非常通用的某些词。
字段(Field)
– 比记录更小的单位是字段,是组成记录的数据项目。 – 例如在书目数据库CBMdisc中一条记录代表某一篇文献,在这条记录中有
中文题名(TI)、著者(AU)、出处(SO)、主题词(MH)等字段。
数据库的编排结构
数据库的编排结构,就是计算机检索系统中数据库的每条记
录数据项的编排方式,有顺排文档和倒排文档两种。
1)顺排文档以记录为单位,按记录的入藏顺序号从小到大排列。
2)倒排文档是从顺排文档中抽取有检索意义的检索标识,如主题 词、著者姓名、篇名等,并按某种顺序排列,同时在检索标识后
注明入藏顺序号。
检索“反坦克导弹发展趋势”方面的文献
检索式:反坦克导弹and发展趋势
顺排文档与倒排文档 配合使用示意图
对信息内容特征进行标引和对信息外部特征进行著录,形成 一条信息题录,并根据信息内容作出摘要,然后将上述检索标识 与著录项目一并填入工作单,就完成了数据库建设的“数据前处 理”工作。
数据库及其编排结构
• 数据库的类型
• 数据库的构成 • 数据库的记录格式 • 数据库的编排结构
数据库的类型
按照信息处理层次划分:
•
全文数据库(Full Text Database)
存储的是原始文献的全文,如杂志论文、报纸新闻、法院案例等。 – 全文检索可直接获取原始资料,而不是书目检索时的线索,提高了用户的检索效率。
–
如,万方数据库、维普数据库等全文数据库。
数据库的构成
记录(Record) – 是构成数据库的一个完整的信息单元,每条记录描述了原始信息的外部 和内部特征。 – 书目数据库中的一条记录通常代表一篇文献,其它类型数据库中的记录 则是某种信息单元。
• 书目数据库(Bibliographic Database)
– – 存储对文献信息进行加工后的书目数据。 如:图书馆馆藏目录或联机公共检索目录等。
•
文摘数据库(Abstract Database)
存储原文经过浓缩后得到的文摘、索引等信息。
– 主要提供各种文献信息的提名、责任者、原文出处、主题词及文摘,一般不提供全文。 – 如Web of Science等。
注意:这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检 索系统其位置算符的表示方法不尽相同。
截词检索
截词检索就是把检索词截断,取其中的一部分,在加
上截词符号一起进行检索。
• 主要用于检索词的单复数、词性的词尾变化、词根相同的一类词, 以及同一词的拼法变异等。 • 从本质上说,截词算符是一种逻辑“或”的关系。
•
• •
用户界面友好且操作方便
具备良好的导航和编辑功能 网络透明度高
国内计算机信息检索发展阶段
1975年,从国外引进数据库开展机检服务; 1980年,建立国际联机终端开展检索服务; 20世纪80年代中后期,自建数据库;
90年代初,发展光盘检索;
90年代中期,Internet网络化检索阶段。
逻辑非(NOT)
A NOT B:记录必须包含检索词A但不能包含检索词B。
即在含有A检索词的文献中去除含有B检索词的文献。
• 其作用是缩小检索范围,提高查准率。
例如:检索有关能源方面的文献信息,但不包括核能,检索式为: energy NOT nuclear
运Baidu Nhomakorabea顺序
• 布尔逻辑算符的运算次序:
NOT > AND > OR
数据更新频率高 辅助功能完善
计算机信息检索系统组成
• 计算机(服务器和终端):是检索系统的核心部分,包括软件和硬 件。通过一定的检索软件,它们能够进行信息的存储、处理、检索 以及整个系统的运行和管理。
• 通讯网络:通信网络是联系计算机系统和检索终端设备的桥梁,起
着传递信息的作用。检索网络所用的通信线路,一般是公用电话线 或专用线,国际联机检索系统则是由通信卫星和海底电缆构成的通
计算机检索是计算机代替人工检索的匹配过程。计算机一方面接
受检索提问表达式,另一方面从数据库中读取信息记录,然后在 两者之间进行匹配运算,如果比较的结果一致,那么这条信息就
算命中,如果比较的结果不一致,则这条信息就不被输出。
计算机信息检索特点
速度快、效率高 检索范围广
不受时空的限制
网络和计算机专用终端,在世界范围内提供联机信息检索服务,形
成国际联机检索服务业,联机检索服务是计算机检索走向实用化、 规模化、产业化的重要的标志。
光盘数据库检索
光盘
是80年代发展起来的激光存储载体,继纸张感光材料、磁性载体之后问 世的又一种新型的信息存储介质。能存储数据、文字、图形、图像、声音、动 画等各种信息。一张普通的光盘、信息存储量约为550兆。
信网络。
• 数据库:是在计算机存储设备上按一定方式存储的相互关联的数据 集合。是检索系统的信息源,也是用户检索的对象。
计算机信息检索的发展阶段
脱机批处理检索阶段(1954-1964)
联机检索阶段(1965 光盘检索阶段(1980) )
网络化检索阶段(1995- )
脱机检索(off-line retrieval)
• 如:方法、问题、报告、研究、探讨等。
4. 检索的基本程序
1.分析检索课题
2.选择检索系统及数据库
3.确定检索词 4.构建检索提问式 5.上机检索并调整检索策略 6.输出检索结果。
1.分析检索课题
(1)弄清用户信息需求的目的和意图。 (2)分析课题涉及的学科范围、主题要求。 (3)课题所需信息的内容及其特征。 (4)课题所需信息的类型,包括文献类型、出版类型、年代 范围、语种、著者、机构等。 (5)课题对查新、查准、查全的指标要求。
在利用计算机进行信息检索的早期,人们只是用单台计
算机的输入输出装置进行检索,用磁带作存储介质,一般为 连续的顺序检索方式。检索部门把许多用户的检索提问汇总
到一起,进行批量检索,然后把检索结果通知各个用户,用
户不直接接触计算机。
联机检索(on-line retrieval)
60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带 多个终端的联机信息检索系统。联机检索是用户利用终端设备,通 过通信网络或通信线路与检索系统联机,进行“人机对话”,从检 索中心的数据库及时查找所需要的文献信息过程。 80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信
A AND B:检索词A和检索词B同时出现在一条记录中。 • 其作用是缩小检索范围,提高查准率。
例如:查有关“人口控制”的文献,检索式可写成: 人口 AND 控制
逻辑或(OR)
A OR B:记录中出现检索词A或检索词B或两词同时出现 在一条记录中。 • 其作用是扩大检索范围,提高查全率。
例如:查有关计算机的资料,检索式可写成: 计算机 OR 电脑
数据库的结构
若干个记录构成的信息集 合称为文档。大型的数据 库分割成若干文档。 记录是构成数据库的完整的信息单 元,每条记录描述了原始信息的外 部特征和内部特征。
组 成 记 录 的 数 据 项 目
检索语言与检索技术
检索语言
检索语言就是为沟通文献标引与文献检索而编制的人工语言,也是连接 信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文 献标引和检索提问的约定语言。 检 索 语 言 类 型 示 意 图
检索技术
1.布尔逻辑检索
2.位置运算检索
3.截词检索
4.字段限定检索
布尔逻辑检索(Boolean searching)
在检索过程中用于表达词与词之间的逻辑关系的算符, 称为布尔逻辑运算符。 算符有三种逻辑关系:逻辑与(AND)、逻辑或(OR)、 逻辑非(NOT)。
逻辑 与(AND)
过程。在存储信息时,信息著录和标引人员首先对原始信息进行主
著录是对信息的外表特征和内容特征加以简单明确的描述
该原始信息主题的概念,并用检索语言的语词(即,标引标识,包 括主题词和分类号等)把这些概念标识出来,然后按照一定规则存 入检索工具或检索系统。 用户检索时,首先要对检索课题进行主题内容分析,明确所涉 及的学科范畴、检索要求及检索范围,并形成若干代表检索课题需 要的概念,把这些概念转换成检索语言的语词(即,检索标识,包 括主题词和分类号等),然后从检索工具或检索系统中查找含有该 检索标识的信息,从而获得所需的信息。
( )号里的部分运算优先
例如: (A OR D) AND B 表示先执行“A OR D”的检索,再与B进行AND 运算。
位置检索
使用位置算符是为了表达各个检索词之间的顺序与相对位置关系。位置运 算符有:(W)、(nW)、(N)、(nN)。 (W)是with的缩写,(W)算符两侧的检索词之间不得有其他任何字或词,而且 顺序不能颠倒,但允许有空格或一个标点符号。American ( )literature。 (nW)表示两侧的检索词中间允许插入的词最多只能有n个,且检索词位置不能
题分析,把原始信息中包含的信息内容分析出来,形成若干能代表
标引是对信息的内容给出分类号和主题词
主题词 分类号
主题词 分类号
检 索 原 理 示 意 图
信息检索原理
简言之,信息检索原理就是将检索标识与存储在检索工具或检索 系统中的标引标引标识进行比较,两者一致或者信息标引的标识 包含着检索标识,则含有该标识的信息就从检索工具或系统输出。
颠倒。knowledge (1W) economy, 会命中 knowledge economy 或者
knowledge-based economy。 (N)是near的缩写,(N)算符两侧的检索词必须相连,不得插入其他词,但词 序可以颠倒。chemistry (N) physics,会命中chemistry physics或者 physics chemistry。 (nN)表示允许在此算符两侧的检索词之间最多插入n个词,但词序可以颠倒。