第二章 信息检索理论基础
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索基本原理
信息检索的基本原理就是,为了文献信息的充分交流和 有效利用,让信息用户能在文献信息的“海洋”中准确、全 面、及时地获取满足特定需要的信息,通过对广泛、大量、 分散、无序的文献信息进行搜集、加工、组织、存储,建成 各种各样的检索系统,在统一存储过程和检索过程所用检索 语言和名称规范的基础上,将用户表达检索课题的标识与检 索系统中表达文献信息内容和形式特征的标识进行相符性比 较(匹配),凡是双方标识一致(完全一致或部分一致)的, 就将具有这些标识的文献信息按要求从检索系统中输出。检 索系统输出的文献信息既可能是用户需要的最终信息,也可 能是用户需要的中介信息(比如文献线索),用户依此中介 信息的指引,可进一步获取需要的最终文献和信息。
近年来,随着光学技术、网络技术与计算 机硬件、软件技术的发展,我国在多媒体数 据库、全文数据库、超文本数据库、网络数 据库等数据库技术开发和应用推广方面取得 了相当大的进步,数据库作为信息资源的一 种存在形式已经具有了一定的基础,在社会 信息资源的构成中占据了相当重要的位臵。 并且数据库开发的深入,推动了信息网络的 建设,促进了数据库与信息网络的结合。
目前的现状是,上述几个概 念同时使用,因为它们的目的是获 取信息。由信息检索改为信息存储 与检索是为了更好地明确信息存储 与信息检索的关系,从而更有效地 进行信息的获取。
信息存储与检索的含义
信息存储是指依一定的要求把信息整序编排成文 献集合体的过程,即编制检索工具和建设数据库、 建立检索系统的过程,也即广义的信息检索。广义 的信息检索包括信息存储与信息检索两个环节。 狭义的信息检索是指利用编制好的检索工具和检 索系统来查找所需信息的过程。 目前广义的信息检索和狭义的信息检索概念被同 时使用着。
1934年,中国化学学会会刊上开辟一个“中国化学摘要”的 栏目,开启了我国文摘型检索工具的先河。国内文献检索刊 物创办于1958年,经过几十年的发展,目前拥有100余种检 索刊物,已形成了具有自己特色较为完整的体系。具体说来, 具有如下特征: 专业覆盖面广,区分细,分册多。但是每一分册的报 道量较少,许多文献甚至没有被报道。 国内检索刊物除少数以题录和目录形式报道文献以外, 多数为题录、简介、文摘相结合的形式报道文献。著录 格式按照国家标准,格式规范,但出版时间较长。 检索刊物一般以分类编排,分类法以国家标准为基础, 但许多检索刊物不设主题索引、著者索引,减低了使用 价值。 大型、综合性的检索刊物《全国报刊索引》(哲社版、 科技版)、《复印报Fra Baidu bibliotek资料》系列内容丰富、出版形式 多样、具有权威性受到广泛欢迎,在国内外学术界具有 很大影响。
检索系统的评价
检索系统的质量影响着检索系统的使用 效果,根据检索课题选择检索系统时需要考 虑检索系统的质量。一般地说,可以从下述 几个角度对检索系统进行评价。
1.检索效率
检索效率是指检索过程和检索结果具有便、快、 全、准、省等特点,即用检索方便性、检索速度、 查全率、查准率、检索成本与效益等指标来衡量。
一、早期书目检索工具的编制 信息检索活动是以信息检索工具为依托的。
信息检索工具是信息资源生产者和用户之间的中 介。公元前26年,我国第一部综合性书目检索工 具《七略》问世,这也是世界上第一部印刷型的 书目检索工具。此后,我国先后编制了《七志》、 《七录》、《中经新簿》、《四库全书总目》等 著名的书目检索工具,为人们查询图书、了解图 书流传情况提供了极大方便。
检索过程
文 献 信 息 特 征
文献信息
分析
标引著录
检索课题
分析
检 索 提 问 特 征
选用
检 索 语 言 和 名 称 规 范
形成
文献 信息标 识(标 引词)
形成
检索 提问标 识(检 索词)
检 索 系 统 ( 标 识 匹 配 )
输出
检 索 结 果
检索系统 三、相关概念 检索工具 检索系统的评价
检索系统
按照报道文献类型划分:
多数检索刊物对期刊论文、图书、会议文献、 学位论文、科技报告、技术标准等作全面报道, 如《工程索引》、《科学文摘》等;少数检索刊 物专门报道单种文献类型,使用方法比较特殊, 如《世界专利索引》、《科技会议录索引》等。
按照检索语言划分:
大多数检索刊物的正文部分按刊物自编的分 类体系编排,一般都附有主题索引、著者索引。 大型的综合性或专业性检索刊物的主题索引通常 采用叙词语言,如《工程索引》、《科学文摘》 等;题录型检索刊物的主题索引通常采用关键词 语言,如《科学引文索引》、《生物学文摘》等。 大多数检索刊物都提供多种检索途径,以满足读 者多方面的需求。
第二章 信息检索理论基础
信息存储与检索概念的起源
一、基本概念
信息存储与检索的含义
信息检索概念的起源
信息检索
(Information retrieval) 起源于原文献检索、情报检索,在1998年设 置的专业目录中得以改变。
不同的称谓产生于不同的历史背景。
在20世纪中叶以前,信息存储传播 主要以纸质为载体,信息检索活动也围绕 文献的获取和控制展开。因此,信息检索 研究关注的是如何检索利用文献中记录的 信息,从而导致文献检索成为信息检索的 同义词,早期的研究文献中几乎不使用 “信息检索”这一概念。
按照报道内容的深度划分:
国外检索刊物文摘型的多于题录型的。文摘 型的检索刊物,具有报道内容详细、检索途径多、 使用方便等特点,如《化学文摘》、《科学文摘》 等。而题录型检索刊物以出版快、索引多采用关 键词索引、使用方便等特点,如《科学引文索引》 等。
按照报道内容的专业划分:
国外检索刊物专业性的多于综合性的。专业 性的检索刊物除常用的《化学文摘》、《医学文 摘》等以外,多数刊物因为报道范围的限制,文 献量少而较少被国内使用。综合性的检索刊物, 因为历史悠久、报道内容质量高、检索途径多、 使用更为普遍。
20世纪50年代以后,社会信息传播与 存储载体呈现多元化,人们不再拘泥于载体 研究信息检索,于是开始使用情报检索一词。 由于汉语中“信息”一词较“情报”一词含 义更为宽泛,加之英语词汇“Information” 具有“情报”、“信息”的含义,因此,近 年来人们越来越倾向于将文献检索、情报检 索转变为信息检索这一更具兼容性的概念, 以便对信息检索实践起到更全面的指导作用。
英语“书目”(bibliography)一词是由 希腊文 “biblion”(书)和"graphein"(抄写) 两个单词融合而成的,其含义是“图书的抄 写”(the writing of books)。后来其词义 演变成“关于图书的描述”( writing about books)。希腊学者加伦(Galen,129-199)在公 元2世纪就编纂了一些专科书目。8世纪盎格 鲁· 撤克逊学者比德(Bede,673-735)的著作 《宗教史》(Ecclesiastical history)也附 有书目。
2.收录全面性
检索系统的全面性是指它收录的文献信 息是否全面。一般用三个指标来衡量。
• 覆盖面:指检索系统收录范围所覆盖的学科面和 出版物类型及数量。 • 摘储率:是指检索系统收录的文献信息数量与其 覆盖面内全部文献信息数量的比率。 • 报导数:是指一定时间内报导文献信息的数量, 如文摘或题录的条数、全文篇数等。
信息检索的发展
早期的信息检索,人们主要根据文献的 内、外表特征,用手工方式实现。以计算机 技术为核心的信息技术,使信息处理与信息 检索进入了一个新时期。从电脑处理数字信 息发展到处理字符信息,到处理静、动态图 像信息、声音信息等。这一过程不仅拓展了 检索的领域,丰富了检索的内容,提高了检 索的速度。
我国数据库建设虽然取得了较大进步,但 还存在以下几个突出问题:小型、地方性、 专业性数据库所占比重较大,甚至大型、全 国性数据库存在功能相近的数据库重复建设 的问题。数据库的标准不统一,规范性差。 为了满足社会对信息资源的需求,国家 应对数据库建设进行统一规划、统一管理, 加强数据库的标准建设、加强对数据库知识 产权的保护等等,使我国数据库建设更好地 走规模化、产业化的发展道路。
二、检索刊物体系的形成
随着大众传播时代的来临,期刊的出现,出现 了以文摘和题录为主的检索刊物。 国外检索刊物出现于19世纪末,但形成较完整 体系并被大量使用则在二战以后。经过一百多年 的发展,目前我们经常使用的国外检索刊物有几 十种,其中除了俄罗斯、日本有全国统一编写的 大型检索刊物以外,其它大多数为专门的出版公 司、学术团体编辑出版。 根据报道内容的深度、专业范围、文献类型、 使用的检索语言,可以将我们常用的国外检索刊 物作如下的划分和情况总结:
17世纪许多学者都尝试着编制能反映各国出版 物的“万国书目”,这一努力一直持续到20世纪。 虽然最终没有出现真正意义上的“万国书目”,却 促进了各国国家书目的诞生,在收录范围、分类方 法、检索途径、所提供的书目信息以及编目技术等 方面都有较大的发展。 随着科学技术的发展,教育的普及以及图书贸 易的兴起,书目的功能从单纯记录图书发展到推广 和宣传新版图书,于是营业书目的数量大大增加, 其种类、载体形式趋于多样化,定期报道和评价新 书的书评刊物也出现了。
检索系统是指拥有特定的存储和检索技 术设备,存储有经过加工的信息资源,供用 户检索所需信息的工作系统。
检索工具
广义检索工具是指用以报道、存储、查询文献信息的 一切工具和设备。它以各类型原始文献为素材,在广泛 收集并进行严格筛选后,通过特定的信息工作方法,分 析和提示文献的外形特征和内容特征,用选定检索语言 进行描述和标引,形成文献信息单元款目,再将这些款 目按特定规则组织编排而成。它是一个综合的概念,可 以分为手工检索工具、计算机检索工具。从此可以看出, 广义检索工具和检索系统的含义是一致的。 狭义检索工具主要指手工检索工具,又称印刷型检 索工具或书本式检索工具,即印刷装订成册的纸质检索 工具及相应的设施。
中世纪印刷术的传播和出版业的兴盛,书目编 制工作也随之得到迅速发展,不但书目类型增多, 在编制方法上也有一些创新。1545年格斯纳(Konrad Gesner, 1516-1565)编制了《万国书目:拉丁文、 希腊文和西伯莱文全部书籍的目录》(Bibliotheca universalis),几乎包括当时全部已故和在世的拉 丁语、希腊语、希伯来语作家的著作共15000种,占 当时欧洲出版物的20~25%,这个数字在当时欧洲交 通不发达、藏书分散、学术交流相对困难的时代, 是十分难能可贵的。格斯纳因此被称为“书目之 父”。
信息存储基本原理
二、基本原理
信息检索基本原理
信息存储基本原理
书本式文献的传统存储方法是图书馆纸质文献 管理法和印刷型检索工具的编制,包括图书、期刊、 专利、科技报告、政府出版物、技术标准、会议论 文、学位论文、产品样本、档案十大信息源的分类 存储,由这套系统决定的手工检索体系使文献分类 等描述文献内容的特征处于核心地位,文献篇名、 作者名等描述文献外表特征则是天然的补充要素, 加上主题,构成手检时按分类、主题、号码、作者 名检索的四大途径。 机读信息则以数据库(Database)形式存储。信 息被分类、编码、标识且以数据形式存入数据库后, 计算机就能按电子数据方式进行处理并检索。
三、数据库的建设
我国数据库建设取得了很大成绩,尤其是 20世纪90年代中后期,我国各类文献数据库、 事实型和数值型数据库的比例不断增大,图像 数据库日益受到重视,全文数据库、多媒体数 据库有了很大的发展。数据库内容也由科技领 域为主向经济和社会领域转变。数据库的容量 明显扩大。数据库的分布由以国务院各部门为 主向全社会扩展。在实际应用方面呈现如下特 点: 一是我国数据库的应用领域不断扩大; 二是国产数据库逐渐进入国际市场。
3.报导及时性
检索系统的及时性是指它报导新出现文献信息 的速度,一般用“时差”来衡量。时差是指文献信 息从其发表到检索系统提供给用户的这段时间间隔。 在社会、经济、科技飞速发展,用户又希望及时获 得新的文献信息的今天,检索系统报导的及时性显 得非常重要。
一、信息存储的发展
二、信息检索的发展
信息存储的发展