试述信息检索效率的影响因素及改善方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

试述信息检索效率的影响因素及改善方法席卷而来的因特网正将整个世界的丰富信息资源带到每一个人的面前,成为知识经济时代不可缺少的重要工具。在因特网上,几乎可以找到个人所需的任何信息。为了帮助每个人顺利检索和查找网络信息,网络信息检索应运而生。

一、网络信息检索的现状

1990年以前,网络信息检索的现状是没有任何人能够检索互联网上的信息,应该说,所有的网络信息检索工具都是从1990年的Alan Emtage等人发明的Archie开始的,虽然它当时只可以实现简单意义上的FTP文件检索。随着World Wide Web的出现和发展,基于网页的信息检索工具出现并迅速发展起来。1995年,基于网络信息检索工具本身的检索工具元搜索引擎由美国华盛顿大学的Eric Selberg 人等发明。伴随着网络技术的发展,网络信息检索工具也取得了十足的发展,网络信息检索的效率问题也越来越得到了人们的重视。

关于信息检索效率的内涵,莫斯在莫斯定律(1960)中指出:“当读者在使用某信息检索系统时,若取得信息时手续的麻烦和不便程度大于其得到该信息时,该检索系统就会趋向于无人使用。”信息检索效率,不仅是影响信息检索系统价值的主要因素,还是人们评价信息检索质量的重要指标。信息检索效率是指全、准、快、便、省(检全率、检准率、检索方便性、检索成本与效益),最主要的是“全”和“准”。简而言之,信息检索效率,主要是指查找所需信息的全、准程度,即检全率和检准率。检全率是指检出相关信息记录数与系统中全部相关

信息记录数之比,检准率是指检出相关信息记录数与检出全部记录数之比。

随着信息资源数字化的发展,人们在日常生活、工作和学习中越来越依赖于互联网来检索和获取各种信息;然而,由于因特网信息资源的数量庞大和分散性等特点,用户想在最短的时间内获取自己所需要的信息,却经常会感到相当困难,这主要是受到各方面因素的影响。

二、影响网络信息检索效率的因素

1、来自ICP(即是Imtemet Content Provider的简称),它是指网络信息提供者或称网站经营者。而它的影响则与检索人员素质因素息息相关。信息检索人员素质主要包括专业与外语水平、计算操作能力、学科知识结构、信息检索知识、工作经验及敬业精神等,它们在很大程度上制约着检索策略的制定。检索策略就是在分析课题内容实质的基础上,选择检索系统、检索档案、检索途径,确定检索词及相互间的逻辑关系,直到给出检索顺序的最佳实施方案等一系列的科学措施。信息检索人员,肩负着把用户提问转化为检索式的任务,是影响信息检索效率的一个重要因素。由于某些ICP为了某种目的或者为了增加其经营利润,所以在大量优质网站(如中国专利信息网、搜狐、新浪等)产生的同时,也出现部分劣质网站,具体表现在;网站内容陈旧,无特色;站点雷同,缺少创意;栏目设置混乱,无导航措施;网页缺乏规范;分类标准不统一等;虽然网站发展迅速,但具有价值的专业性或专题性网站却相当少。体现在数据库方面,高质量的专业性数据库,特别是免费的全文数据库更加有限,这些均对用户检索网

络信息造成很大的影响。

标引是使文献获得检索标识,将众多无序文献转化为有序的文献集合,为读者检索提供有效的途径,因此标引结果的好坏影响数据库的质量,决定数据库的检索效率。目前有些网络数据库采用无标引检索系统,虽然降低了文献处理成本,加速文献处理速度,减轻了文献处理难度,增加了检索系统的易用性,但在一定程度上也降低了检索效率,如有些全文检索系统,查全率高,但查准率无法保证,使用户无法获得满意的检索结果。另外各网站之间缺乏规范性管理,目前还没有采用一种规范的检索语言作为统一标准,这使得网络信息资源分类缺乏一致性。由于目前网络信息收集的标准大多集中在对文档分析判断。即对采集的信息进行页面特征提取、主题分析并进行相应归类,也即是以词频和词出现位置的统计为依据;这样就为某些ICP带来可乘之机,他们故意将一些无关的主题词放置在重要的标记内,或让某些关键词重复的出现在重要的段落处,以提高其页面被检索的机率,然而这却大大地影响用户的检准率。

2.2 网络信息资源内容本身的因素

由于因特网具有开放性、公开性和自由性等特点,使得网上信息发布无法控制,信息泛滥;同时网络信息缺乏有效的整合,处于混乱无序状态,信息污染相当严重,良莠不齐,出现许多的信息“垃圾”,诸如网上虚假信息、失真信息、黄色淫秽信息、巫术信息、政治反动信息、暴力犯罪信息和陈旧无用信息等信息污染源等大量充斥整个信息网络,这些因素影响到网络信息检索的权威性和检索效率。同时,

由于因特网的开放性和自由性,使得“电脑病毒”和“黑客”等非安全因素也经常在网络上随意流动相互传染这些非安全因素不仅威胁各国网络信息系统的安全,同时也给用户检索网络信息增加了一定难度。

2.3 网络信息检索工具方面的因素

随着Internet的迅速发展以及网上信息资源的快速增长,各种网格信息检索工具相继出现,主要是指因特网上检索各类信息资源的工具如:yahoo、Infoseek、Ftp、Excite、Telnet、Archie、Gopher、Webcrauler、Lycos、Alta Vista、www、Wais和Hotbot等。由于各方面的原因,这些检索工具总的来说存在着许多缺点,这都给网络信息检索效率带来一定的影响,如:各种检索工具覆盖范围有限,到目前还没有一种能覆盖整个因特网信息源的检索工具;检索工具的检索功能不够完善主要表现是检索点不能从多个方面对检索问题进行限制,只能就某一关键词进行笼统的检索,而且有些检索工具还不能对多媒体信息进行检索等。这些检索工具的不足具体表现在以下几个方面。

2.3.1 对信息的组织和标引缺乏规范控制

各种检索工具都有自己的信息收集方式、检索算法和结果排序方式;信息组织没有统一的规格,索引方式也各不相同;大多数检索工具都有用自然语言来标引和检索,其结果是同义词和近义词得不到控制,词间相互关系得不到揭示。加上网络信息内容、地址的多变性,一般的标引方式难以适应,这些都会影响用户的检索结果。

相关文档
最新文档