关于网络信息检索文献综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关于信息检索文献综述
作者:蒋亚宾摘要:
本文通过对信息检索的历史发展、现状分析以及发展趋势做出总结与分析,已达到对信息检索的更深层次的认识,并希望在信息检索方面对读者有所帮助。
关键词:信息检索、历史发展、搜索引擎、发展趋势
1、前言
信息检索(information retrieval) 是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。所以,它的全称又叫信息存储与检索(information storage and retrieval), 这是广义的信息检索。狭义的信息检索则仅指该过程的后一步,即从信息集合中找出所需要信息的过程。相当于我们所说的信息查询(information search)。根据检索手段的不同,分为手工检索、计算机检索(光盘检索、联机检索和网络检索);根据检索对象、形式的不同,分为文献型信息检索、数据型信息检索、事实型信息检索。本文通过对以往关于信息检索的文献进行综述,并从中总结出观点,达到对信息检索更深层次的认识。
2、历史发展
1950年,莫尔斯(Calvin N.Mooers)首次提出信息检索(Information Retrieval)一词。其后,随着信息检索理论和实践的更新发展,人们对信息检索的认识也在不断深入。主要存在三种角度的认识:时间性通讯、信息处理和文献查找。从时间性通讯角度来看,通过信息检索得到了一些文献,从而使得著者与读者(信息检索的用户)之间建立起了一种通讯。从信息处理角度,信息检索的基本问题,是如何处理信息和信息的结构。从文献查找角度看,信息检索就是查找出含有用户所需信息的文献的过程。在信息检索领域,这是一种传统的主流观点。
从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。最初的信息检索系统面向小型的科学文摘数据库、法律和商业文档。检索模型为基本的布尔模型和向量空间模型。Cornell University的Prof. Salton成为这个领域的先驱,著名的IR向量空间模型的创始人,开发了著名的SMART向量空间模型IR系统,并免费开放源代码,大大促进了IR的发展。80年代,IR技术出现在大型文档数据库中。90年代,可以在互联网上利用Archie对FTP服务器上的文档进行搜索。Archie是一个可搜索
的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP 地址可以下载该文件。1994年4月,Stanford两名博士生,美籍华人JerryYang(杨致远)和DavidFilo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。1995年发布AltaVista,它是网上最早的爬行搜索引擎。AltaVista搜索技术从纯文本搜索技术开始,到1997年,其搜索能力扩展到25种语言搜索;1999年开始多媒体文件的搜索;2001年首次推出网上免费新闻搜索,2003年AltaVista被Overture收购。以雅虎初期为代表的第一代搜索引擎以人工目录分类为基础的网站搜索开辟了一个时代。第一代搜索引擎指主要依靠人工分拣的分类目录搜索,这种方式是被动的搜索,更新慢、搜索能力不足。
3、现状分析
如今最主要的信息检索是网络信息检索。网页是因特网的最主要的组成部份,也是人们获取网络信息的最主要的来源,为了方便人们在大量繁杂的网页中找寻自己需要的信息,这类检索工具发展的最快。一般认为,基于网页的信息检索工具主要有网页搜索引擎和网络分类目录两种。网页搜索引擎是通过“网络蜘蛛”等网页自动搜寻软件搜索到网页,然后自动给网页上的某些或全部字符做上索引,形成目标摘要格式文件以及网络可访问的数据库,供人们检索网络信息的检索工具。网络目录则是和搜索引擎完全不同,它不会将整个网络中每个网站的所有页面都放进去,而是由专业人员谨慎地选择网站的首页,将其放入相应的类目中。网络目录的信息量要比搜索引擎少得多,再加上不同的网络目录分类标准有些混乱,不便人们使用,因此虽然它标引质量比较高,利用它的人还是要比利用搜索引擎的人少的多。
但是由于网络信息的复杂性和网络检索技术的限制,这类检索工具也有着明显的不足。(1)随着网页数量的迅猛增加,人工无法对其进行有效的分类、索引和利用。网络用户面对的是数量巨大的未组织信息,简单的关键词搜索,返回的信息数量之大,让用户无法承受。(2)信息有用性评价困难。一些站点在网页中大量重复某些关键字,使得容易被某些著名的搜索引擎选中,以期借此提高站点的地位,但事实上却可能没有提供任何对用户有价值的信息。(3)网络信息日新月异的变更,人们总是期望挑出最新的信息。然而网络信息时刻变动,实时搜索几乎不可能,就是刚刚浏览过的网页,也随时都有更新、过期、删除的可能。
随着网上信息资源的膨胀发展,一种搜索引擎,无论它多么完美都不可能满足一个人所有的检索需求。如果遇到文献普查、专题查询、新闻调查与溯源、软件及mp3下载地址搜
索等情况,人们就更需要使用多种搜索引擎来比较、筛选和相互印证。为解决注意登陆各搜索引擎,在各搜索引擎中分别多次输入同一检索请求(检索字串)等繁琐操作,于是基于网络检索工具诞生了。目前这列检索工具只有两种:集成搜索引擎和元搜索引擎。所谓元搜索引擎是在一个检索界面上链接若干种独立的搜索引擎,检索时,一次检索输入,可以指定搜索引擎也可以要求多个引擎同时检索,搜索结果由各搜索引擎分别以不同页面提交的网络检索工具,其实是利用网站链接技术形成的搜索引擎集合。集成搜索引擎制作与维护技术简单,可随时随所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业(如FLASH、MP3、等)搜索引擎集成链接,深受特定用户群欢迎。例如国内天网搜索和百度搜索,国外比较著名的有“搜索之家”、“网际瑞士军刀”、等。另一个是元搜索引擎,用户只需交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现在用户面前。国外2010年主流的元搜索引擎有Google、Yahoo、MSN Search、AOL Search、Netscape search、lwon。目前国内还没有见到真正意义上的元搜索引擎。
4、发展趋势
4.1、智能化
智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。用户所需要做的仅仅是告诉计算机想做什么,至于怎样实现则无须人工干预,这意味着用户将彻底从繁琐的规则中解脱出来。近几年来,智能信息检索(intelligent information retrieval)作为人工智能(AI)的一个独立研究分支得到了迅速发展。在Internet技术迅速普及的今天,面向Internet的信息获取与精化技术已成为当代计算机科学与技术领域中迫切需要研究的课题,将人工智能技术应用于这一领域是人工智能走向应用的一种新的契机与突破口。
4.2可视化
可视化(visualization)的历史可以追溯到2400多年前。哲学家柏拉图指出,我们通过看来识别物体。据统计,人获取信息有70%一80%靠视觉,20%靠听觉,10%靠触觉。用图像(visual)取代文字帮助人们检索的优点在于:图像的表达方式生动、形象、准确、效率更高,能从多角度揭示,而纯文字的表达方式是模糊、一维的。