第二章信息检索理论基础教材
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.2 信息检索的语言和工具
2.2.2 检索工具
4. 计算机检索系统
检索系统由硬件和计算机检索系统是借助计算机技术、通信技术、光盘技术、网络技术等信 息技术建立的存储和检索信信息的检索工具。软仵组成,硬件主要包括计算机主服务器、检索终 端、数据输出设备等。软件主要包括检索程序和数据库等。检索软件是检索系统的灵魂,负责管 理数据库和处理检索提问,它决定系统的检索能力。 计算机检索系统一般可分为光盘检索系统、联机检索系统和网络检索系统等。
是数据库中数据组 织存储的基本形式,是 数据和信息的有序集合, 由若干条记录组成,一 个或若干个文档构成一 个数据库。通常一个数 据库至少包括一个顺排 文档和一个或多个倒排 文档。
是数据库的基本单元,是 对某一实体属性进行描述的 结果。一个数据库可以有一 个或多个文档,一个文档由 若干条记录构成,而一条记 录由若干字段组成。在文摘 数据库中,一条记录相当于 检索刊物中的—条文摘款目。
索引
目录通常是以文献的 “本”、“种”、“件” 等为单位,对一批相关文 献外表特征的揭示和报道. 例如:《全国新书目》、 《全国总书目》、《全国 报刊简明目录》等。
题录报道和揭示单 篇文献的外表特征,是 在目录的基础上发展起 来的一种检索工具。它 与目录的主要不同点在 于著录的对象不同,目 录的著录对象是整部文 献,而题录的著录对象 是文献中的论文或部分 内容。例如:美国《化 学题录》、《中文科技 期刊题录数据库》等。
2.2 信息检索的语言和工具
2.2.2 检索工具
3)网络检索系统
网络检索是指通过因特网检索和获取网上电子信息。网络检索系统是通过因特
网提供网络数据库、出版物、书目、动态信息等网上信息资源查询和利用的检索系 统。一般由计算机服务器、用户终端、通信网络、网络数据库等组成,其特点是方 法简单、灵活、方便、时效性强、费用低。
书、搜索引擎、Archie、Wais等各种信息检索工具和检索系统。 按照检索手段的不同,可分为手工检索工具和计算机检索系统。 按照著录形式的不同可分为:目录型检索工具、题录型检索工具、索 引型检索工具、文摘型检索工具、全文型检索工具等。
2.2 信息检索的语言和工具
2.2.2 检索工具
按著录内容划分
上就是双方之间约定的共同语言。
2、信息检索语言的作用
文 献 信 息
信息 存储
主 题
标引
信 息 检 索 语 言
主标 题引
标引
信息 检索
用 户 信 息
主 题
检标 索引
检 索 系 统
检 索 结 果
2.2 信息检索的语言和工具
2.2.1 信息检索语言
3.信息检索语言的种类
★
就其结构原理来划分,信息检索语言主要有 : 等级体系分类语言
发出检索请求
匹配检索
客户机
返回检索结果
服务器
返回检索结果
数据库
客户机/服务器请求与响应示意图
2.2 信息检索的语言和工具
2.2.2 检索工具
3)网络检索系统
早期的网络检索工具主要是基于传输和下载网上信息,包 括远程登录(Telnet)、文件传输服务(FTP)、电子邮件 (E—mail)、电子公告栏(BBS)、新闻组(USENET) 等。 具有WWW检索功能的检索系统是随着网上巨量信息的出 现而开发的,常用的如网络数据库检索系统、搜索引擎、多 媒体信息检索系统等。
2.2 信息检索的语言和工具
2.2.2 检索工具
2)数据库的类型
按收录的文献类型划分
按信息处理层次划 分 书 目 数 据 库 文 摘 数 据 库
全 文 数 据 库
书 目 及 图 书 全 文 数 据 库
学 位 论 文 数 据 库
期 刊 论 文 数 据 库
专 利 数 据 库
产 品 数 据 库
按收录文献信息的范围划分
2.2 信息检索的语言和工具
2.2.2 检索工具
2)联机检索系统
是指用户利用终端设备(包括检索终端、调制解调器和打印机),通过国际(卫星)通信 网络,与本地计算机检索系统或远程计算机检索系统的主机连接,从而检索世界各地存储在计 算机数据库中的信息资料。联机检索系统是一个典型的计算机检索系统,能完成数据收集、分 析、加工处理、存储、传递通信和检索信息的全过程,由联机服务中心的主计算机、检索终端、 通信网络、联机数据库、检索软件等组成。我国国内用户采用该方法查找国外计算机检索系统 中的信息被称为国际联机检索。 联机检索系统主要有以下四种服务方式: 定题检索 是指在回溯检 索的基础上, 定期从文献数 据库中检索出 回溯检索日之 后出现的新的 文献信息的一 种联机检索方 式。
2.1 信息检索的含义及类型
2.1.1 信息检索的含义
1. 信息标引和存储过程
标引:根据文献的主题内容,按照某种规范化主题词典或词表,给予主题词和副主题词作 为检索标识;或者根据文献的学科归属,采用某种文献资料分类法,给予分类号作为检索 标识。 信息标引是对大量无序的信息特征进行著录、组织,使之有序化。 信息存储是对有关信 息进行选择,并按科学的方法组成检索工具和检索文档,建立信息数据库;即组织检索系 统的过程。
综合性数据库
专业性数据库
文本数据库
网络数据库 单机数据库 联机数据库
按 媒 体 信 息 划 分
声音数据库 数值数据库 图像数据库 多媒体数据库 视频数据库
按服务模式划分
2.2 信息检索的语言和工具
2.2.2 检索工具
3)数据库的结构
字 段
文档
记录
是记录的基本组成单元,是有关 一篇文献或称一条记录的基本数据 单元,每一个字段都反映该篇文献 的一个方面的信息,组合在一起形 成对一篇文献信息的内容特征和外 表特征的完整描述。在文摘数据库 中,一条记录应包含原始文献的题 名、作者、出处、出版时间、分类 号、文摘、主题词或关键词等字段。 每一个字段都有一个相应的标识符, 以便计算机识别。
文摘 题录 目录
文摘是系统著录、报 道、积累和揭示文献信息 外表特征和内容特征的检 索工具,是重要的二次文 献。它是对文献中的论文 或内容进行浓缩,概括地 描述其主要论点、数据、 结论等,并注明其出处, 按一定的规则编排起来的 一种检索工具。文摘分三 种:指示性文摘、报道性 文摘和评论性文摘。例如 :《新华文摘》、《经济 学文摘》等 。 索引是将文献信 息中的题名、人 名、地名、字句 及参考文献等分 别摘录出来,并 注明出处,按一 定的规则编排起 来的一种检索工 具。 例如:《经济科 学论文索引》《 社会科学引文索 引》等。
1)光盘检索系统
光盘检索系统是指利用计算机、光盘驱动器和光盘数据库及其检索软件建立起来的信息检 索系统,由计算机、光盘数据库、检索软件等组成。 目前国内普遍采用光盘网络检索系统,它是由光盘服务器、计算机局域网、光盘库或光盘 塔、检索软件等组成。 与手工检索相比,光盘检索的可检信息量大,一套《四库全书》印刷版有3 000多册,而 光 盘版10多张盘片即可容纳下。光盘检索功能强大,检索入口多,检索速度快,检索及输出 灵活方便。与联机检索相比,光盘检索价格低廉,检索方法简单容易,规格统一,容易复制, 便于保存。其缺点是时效性不够,检索范围受光盘数据库的限制,更新不够及时,一般是定期 更新(快者1个月,慢者1年),因此信息的获得比国际联机检索慢。
2.1.2 信息检索类型划分示意图
文献线索检索 文献信息检索 依检索结果内容 划分 信 息 检 索 类 型 依信息存储与 检索方式划分 数据信息检索 全文检索
事实信息检索
手工检索
计算机检索
2.2 信息检索的语言和工具
2.2.1 信息检索语言
1、信息检索语言的概念
信息检索语言是人们在加工、存储及检索信息时所使用的标识符号,也就是 一组有规则的、能够反映出信息内容及特征的标识符。检索语言是标引人员与 检索人员之间进行交流的媒介,也是人与检索系统之间进行交流的桥梁,实质
第二章 信息检索基础理论
本章要点
· 信息检索的概念及类型 · 信息检索语言和工具 · 信息检索技术及策略
本章主要讲述信息与信息资源的基本内容; 信息检索的含义及主要类型; 信息检索语言和常用工具; 信息检索的方法、步骤、途径及信息检索的策略与效果
评价。
第二章 信息检索基础理论
目录:
2.1 信息检索的含义及类型
分类语言
信 息 检 索 语 言
分面组配分类语言 标题词语言 元词语言 叙词语言 关键词语言
主题语言
代号语言 引文语言
2.2 信息检索的语言和工具
2.2.1 信息检索语言
3.信息检索语言的种类
★
按照信息特征描述划分,信息检索语言主要有 :
书名、刊名、篇名等 著者、编者、译者等 号码(报告号、专利号、标准号等) 文献类型 文献出版类型 分类语言
基 本 功 能
①数据定义,用户通过它可以定义数据库中的数据对象;
②数据操纵功能,使用它可以实现如插入、删除和修改等数据库的基本操作; ③数据库的运行管理,包括数据的安全性、完整性、多用户对数据的并发使用及发生故障后的系统恢复; ④数据库的建立和维护等。
● 数据库系统(DBS,Database system)是指在计算机系统中引入数据库后构成 的计算机应用系统。数据库系统一般由数据库、操作系统、数据库管理系统及相关管理工具、 应用系统、数据库管理员和用户构成。
信 息 检 索 语 言
描述文献外部特征的语言
标题词语言
描述文献内部特征的语言
主题语言
关键词语言
2.2 信息检索的语言和工具
2.2.1 信息检索语言
4.信息检索语言的构成及其要素 1)构成
从语言学的角度分析信息检索语言的构成应分为三个部分
用于组成词汇的 形式化符号,通 常有字母、数字 或文字等。
表达基本
回溯检索是用 户对检索系统中积 累多年的文献信息 数据库进行检索, 查找一定时间范围 内或特定时间以前 的文献信息的一种 联机检索方式。
联机订购。联 机检索的结果通常 是一些文摘或题录 形式的二次文献。 联机检索系统可以 为用户提供原始文 献的联机订购服务 。
电子邮件 联机检 索系统为用户提供Email和电子邮政的功 能。用户输入Email号码和通信内容, 就可以在几秒钟内接 收到本需耗时几天的 信件投递。
概念意义 的词汇ቤተ መጻሕፍቲ ባይዱ
控制语言使用的语 法,据此把基本的 词汇组合起来表达 更为复杂的概念意 义,主要体现为各 种标引规则、组配 规则、引用次序等
2.2 信息检索的语言和工具
2.2.1 信息检索语言
4.信息检索语言的构成及其要素 2)要求
检索语言应该能够描述文 献和提问的特征,即要有充分的表达 能力,能全面、准确地描述任何复杂 的文献信息以及提问内容。 具体要求如下:
2.2 信息检索的语言和工具
2.2.2 检索工具
2. 数据库
1)数据库的概念 数据库( DB,Database )是长期储存在计算机内,有组织的、可共享的数 据集合。数据库中的数据按一定的数据模型组织、描述和储存,具有较小的冗余度, 较高的数据独立性和易扩展性,并可在一定范围内为各种用户所共享。 ● 数据库管理系统(DBMS,Database Management System)是位于用户与操作 系统之间的一个数据管理软件。
2.信息的需求分析和检索过程
分析用户的信息需求,利用已组织好的检索系统,按照系统提供的方 法与途径检索有关信息,即信息系统的应用过程。信息检索就是根据提问 制定策略和表达式,利用信息数据库获取相关信息。
信息检索的实质是将描述特定用户所需信息的提问特征,与信息存储 的检索标识进行异同的比较,从中找出与提问特征一致或基本一致的信息。
2.2 信息检索语言和工具
2.3信息检索技术与策略
2.1 信息检索的含义及类型
2.1.1 信息检索的含义
广义的信息检索 (信息存储与检索,information storage and retrieval),包含了将信息按照一定的方式组织 和存储起来,并根据信息用户的需要找出有关信 息的全过程。 狭义的信息检索,即根据需要,借助于检索工具,从 信息集合中找出所需要信息的过程,相当于人们 所说的信息查寻(information search)。
专 唯 指 一 性 性
灵 活 性
2.2 信息检索的语言和工具
2.2.2 检索工具
1. 检索工具的定义与类型
检索工具是人们用来报道、存储和查找各类信息的工具。包括传统的 二次、三次印刷型检索工具,缩微阅读检索工具,基于计算机的光盘检索
系统、联机检索系统,以及基于Internet的网络信息检索系统、网上工具