信息检索综述

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息检索综述

学号:

姓名:

专业:

信息检索综述

摘要:

本文介绍了信息检索技术的发展过程,分析了信息检索的主要技术方法,说明了信息检索的重要性,并对信息检索的发展趋势做出总结和分析,达到对信息检索的更深层认识。关键词:信息检索;文献信息;搜索引擎

Review of Information Retrieval

Abstract:

The paper introducts the development of information retrieval technique, analyzes the main techniques of information retrieval,illustrates the importance of information retrieval,and summarizes the development trend of information retrieval.The paper has achieved a deeper understanding of information retrieval. Key words:information retrieval; literature information; serch engine

1.前言

信息检索(Information Retrieval)有广义和狭义之分。广义的信息检索全称为“信息的存储与检索”,是指将信息按一定的方式存储和组织起来,并根据用户的需要找出有关信息的过程。狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程[1]。

本文主要从信息检索的概念、发展历史、主要检索方法及信息检索的发展趋势作一般概述。

2.信息检索的分类及发展历史

按检索对象划分,信息检索可分为:文献检索、数据检索和事实检索。按检索手段划分,信息检索可分为手工检索、机械检索和计算机检索。本部分主要从检索手段的角度来划分信息检索,并介绍了它们的发展过程。

2.1手工检索方式

信息检索方式主要以手工操作为主,其中包括纸质文献的检索和缩微式检索。我国最早的检索工具是西汉刘向、刘歆父子整理编撰的摘要性书目《别录》和《七略》,世界上第一种文摘性科学期刊是1665年1月5日在巴黎创办的《学者周刊》以及著名的《美国工程索引》、《科学引文索引》、《科学会议录索引》等都属于手工检索工具[2]。这种检索方式既费时费力,而且检索效率也很低。

2.2脱机检索方式

信息检索逐步实现了计算机检索中的单机批处理检索,包括计算机可读文献磁带和磁盘检索以及光盘数据库检索。机读磁带、磁盘检索实现了一种输入多种输出。光盘数据库比磁带和磁盘有更大的存储空间,且存储速度更快,如《中国专利检索光盘》、《中国学术期刊全文数据库光盘版》等,这是计算机检索的第一阶段[3]。

2.3计算机联机检索方式

进入20世纪70年代,计算机软、硬件技术不断进步,分组数字通信技术和实时操作技术发展迅速,出现了一台主机带多个终端的系统。用户可以利用计算机检索终端设备,通过拨号、电信专线及计算机互联网络,从联机服务中心的数据库中检索出自己所需要的信息,从而实现了计算机联机检索。它属于计算机检索中的第二阶段[4]。

2.4网络化信息检索方式

由于网络技术的普及,加上超文本传输技术的出现,联机检索进入了当前新的发展阶段

—网络化信息检索,这是计算机检索的第三阶段。网络信息检索是指利用计算机设备和国际互联网(Internet)检索网上个服务器站点的信息。目前国内网上数据库有:国家科技图书中心、中国学术期刊数据库、万方数据库、重庆维普数据库、中国专利文献数据库、中国标准数据库以及超星数字图书馆、书生之家等全文数据库;国外网上数据库则更多,如美国《科学索引》(SCI),《工程索引》(EI),《化学文摘》(CA),SpringerLink数据库、EBSCO数据库等[5]。

3.现状分析

如今最主要的信息检索方式是网络信息检索。网页是因特网最主要的组成部分,也是人们获取网络信息的最主要来源,为了方便人们在大量繁杂的网页中找寻自己需要的信息,这类检索工具的发展最快。一般认为,基于网页的信息检索工具主要有网页搜索引擎和网络分类目录两种。网页搜索引擎是通过“网络蜘蛛”等网页自动搜寻软件搜索到网页,然后自动给网页上的某些或全部字符做上索引,形成目标摘要格式文件以及网络可访问的数据库,供人们检索网络信息的检索工具。网络目录则是和搜索引擎完全不同,他不会将整个网络中每个网站的所有页面都放进去,而是由专业人员谨慎地选择网站的首页,将其放入相应的类目中,网络目录的信息量要比搜索引擎少得多,再加上不同的网络目录分类标准有些混乱,不变人们使用,因此虽然它标引质量比较高,利用它的人还是要比利用搜索引擎的人少得多。

但是由于网络信息的复杂性和网络检索技术的限制,这类检索工具也有着明显的不足。

(1)随着网页数量的迅猛增加,人工无法对其进行有效的分类、索引和利用。网络用户面对的是数量巨大的未组织信息,简单的关键词搜索,返回的信息数量之大,让用户无法承受。

(2)信息有用性评价困难。一些站点在网页中大量重复某些关键词,使得容易被某些著名的搜索引擎选中,以期借此提高站点的地位,但事实上却可能没有提供任何对用户有价值的信息。

(3)网络信息日新月异的变更,人们总是希望挑出最新的信息,然而网络信息时刻变动,实时搜索几乎不可能,就是刚刚浏览过的网页,也随时都有更新、过期、删除的可能。随着网上信息资源的膨胀发展,一种搜索引擎,无论它多么完美都不可能满足一个人所有的检索需求,如果遇到文献普及、专题查询、新闻调查与追溯、软件及mp3下载地址搜索等情况,人们就更需要使用多种搜索引擎来比较、筛选和相互印证。为解决登录搜索引擎,在各搜索引擎中分别多次输入同一检索需求(检索字串)等繁琐操作,于是基于网络检索工具诞生了。目前这列检索工具只有两种:集成搜索引擎和元搜索引擎[6]。所谓集成搜索引擎是在一个检索界面上链接若干种独立的搜索引擎,检索时,一次检索输入,可以指定搜索引擎也可以要

相关文档
最新文档