试述信息检索效率的影响因素及改善方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
试述信息检索效率的影响因素及改善方法
摘要:影响网络信息检索的因素是多种多样的,有ICP方面因素、信息资源本身因素、检索工具的缺陷以及用户的主观因素等;而信息检索的途径也是多种多样的。
除了上面所列的对策外,还有检索途径多样化,检索语言一体化,检索技术智能化等措施。
关键词:信息检索信息资源网络信息
一、网络信息检索的现状
1990年以前,网络信息检索的现状是没有任何人能够检索互联网上的信息,应该说,所有的网络信息检索工具都是从1990年的Alan E等人发明的Archie开始的,虽然它当时只可以实现简单意义上的FTP文件检索。
随着World Wide Web的出现和发展,基于网页的信息检索工具出现并迅速发展起来。
二、影响网络信息检索效率的因素
1.来自ICP(即是Imtemet Content Provider的简称),它是指网络信息提供者或称网站经营者。
而它的影响则与检索人员素质因素息息相关。
信息检索人员素质主要包括专业与外语水平、计算操作能力、学科知识结构、信息检索知识、工作经验及敬业精神等,它们在很大程度上制约着检索策略的制定。
检索策略就是在分析课题内容实质的基础上,选择检索系统、检索档案、检索途径,确定检索词及相互间的逻辑关系,直到给出检索顺序的最佳实施方案等一系列的科学措施。
标引是使文献获得检索标识,将众多无序文献转化为有序的文献集合,为读者检索提供有效的途径,因此标引结果的好坏影响数据库的质量,决定数据库的检索效率。
2.网络信息资源内容本身的因素
由于因特网具有开放性、公开性和自由性等特点,使得网上信息发布无法控制,信息泛滥;同时网络信息缺乏有效的整合,处于混乱无序状态,信息污染相当严重,良莠不齐,出现许多的信息“垃圾”,诸如网上虚假信息、失真信息、黄色淫秽信息、巫术信息、政治反动信息、暴力犯罪信息和陈旧无用信息等信息污染源等大量充斥整个信息网络,这些因素影响到网络信息检索的权威性和检索效率。
同时,由于因特网的开放性和自由性,使得“电脑病毒”和“黑客”等非安全因素也经常在网络上随意流动相互传染这些非安全因素不仅威胁各国网络信息系统的安全,同时也给用户检索网络信息增加了一定难度。
3.网络信息检索工具方面的因素
随着Internet的迅速发展以及网上信息资源的快速增长,各种网格信息检索工具相继出现,主要是指因特网上检索各类信息资源的工具如:yahoo、Info、Ftp、Excite、Telnet、Archie、Gopher、Web、Lycos、Alta Vista、www、Wais和Hot等。
由于各方面的原因,这些检索工具总的来说存在着许多缺点,这都给网络信息检索效率带来一定的影响,如:各种检索工具覆盖范围有限,到目前还没有一种能覆盖整个因特网信息源的检索工具;检索工具的检索功能不够完善主要表现是检索点不能从多个方面对检索问题进行限制,只能就某一关键词进行笼统的检索,而且有些检索工具还不能对多媒体信息进行检索等。
这些检索工具的不足具体表现在以下几个方面。
(1)对信息的组织和标引缺乏规范控制
各种检索工具都有自己的信息收集方式、检索算法和结果排序方式;信息组织没有统一的规格,索引方式也各不相同;大多数检索工具都有用自然语言来标引和检索,其结果是同义词和近义词得不到控制,词间相互关系得不到揭示。
加上网络信息内容、地址的多变性,一般的标引方式难以适应,这些都会影响用户的检索结果。
(2)缺少多媒体视频检索工具
目前,国内的网络信息搜索引擎大都局限在文本信息的搜索范围内,很少有专业的图像视频搜索工具,而因特网上的信息,除了文本信息之外,还有大量的图形、图表、图像、声音和动画等,这些均影响到网络信息检索的质量和水平。
(3)匹配算法混乱
网络信息检索系统的开发人员对原始的信息进行加工,提取出标题、作者、关键词、摘要等信息,以供匹配过程中比较之用。
而用户对需求的信息经过选择一定的语词表示,又将转化为系统语言的表示。
现有的信息过滤一般利用关键词、规则或分类来表达用户需求。
对于不同的表达方法,可以采用不同的信息匹配算法,但匹配算法受到两方面因素的制约,一是检索系统的性能;二是信息加工过程中对信息表示工作质量的高低。
因此,用各种匹配算法得出的匹配实际上并不能代表信息实体与用户真实、潜在的需求的匹配。
(4)检索规则缺乏统一标准,支持功能不同
网络信息检索系统(包括Yahoo、A l和Di等)在检索规则上各不相同,如各搜索引擎所使用的逻辑运算符不统一。
有的用AND、OR、NOT;有用的“+”、“-”号代替AND、NOT,而将逻辑或OR设为缺省值;有的则是AND、NOT两种符号都采用;
有的具备完整的逻辑检索功能,有的则只支持部分逻辑检索功能,有些系统不能用历史信息检索,不能对原有结果加以利用,有的不能进行二次检索等,这样大大地影响了用户检索网络信息的整体效率。
4.来自用户方面的因素
网络信息检索是通过计算机互联网来进行,它要求信息用户必须具备一定的计算机知识和网络信息检索知识。
同时,由于用户的网络化信息意识较差,信息检索能力不强,专业知识不深、理解水平不高等原因,使他们在进行网络信息检索的过程中,对自身的信息需求的表达及选择合适的检索工具方面出现随意性、不完整性和盲目性。
这些都会影响到网络信息检索的效果。
5.提高网络信息检索效率的对策
(1)加强宏观调控,提高网站质量
ICP是提供网络信息的主要来源,国家应制订了相关的政策,条例与法规,加强对ICP的管理监控,对各类网站严格把关,加强对网络信息资源的系统评价工作,包括对信息资源的功能性、规模性、效率、规范性以及标准化等的评价,对于质量差的网站进行限制。
或者采用网络新技术,对网格信息设立安全屏障,进一步提高网站或网络信息资源的质量。
(2)采用信息过滤技术来提高网络信息检准率
由于因特网的开放性和自由性,造成网络信息泛滥,良莠不齐,网上虚假信息,冗余过时的无用信息等垃圾信息掺杂其间,致使网络信息质量和精度低,其可靠性和利用价值等受到影响,为此,必须采用信息过滤技术来减少重复信息和垃圾信息。
这是一种更高层次的检索结果处理方法。
通过信息过滤加强检索系统的智能化和个性化,建立用户模型,关注个体需求,更准确地理解用户请求、尽量过滤掉貌合神离的匹配垃圾信息,从而提高用户对网络信息的检准率。
(3)提高信息标引质量及检索语言的专指度
必须制订一个严格的、统一的分类、标引标准、加强检索引擎的自动标引与人工标引的有机结合,提高网络信息标引的深度和准确度。
同时,要提高检索语言的支指度,加强对索引词汇的控制,使检索语言既有利于族性检索,又有利于特性检索,并且要符合各个学科和专业的要求,对网络术语进行规范,使其与常规术语接轨,正确控制同义词和多义词等,以提高检索引擎的智能化检索程度。
(4)优化网络信息检索界面方便用户使用
一个友好的用户界面要能支持用户进行多语言、多种逻辑方式和多种角度提问检索,尽可能做到方便用户使用。
如中国专利信息网,采用的是最新的全文检索引擎,所有用户的操作都在一个简单的对话框中完成,用户不必区分题目、关键词、分类号、发明人、申请人等。
考虑到公众掌握检索知识的水平参差不齐,所以采用了简化检索输入格式,并提供联机帮助信息,检索结果按年代升序排列,用户使用起来非常简单。
因此,对因特网的所有用户检索界面必须进行优化,以方便用户进行检索。
(5)对有关的专业信息进行深度加工标引
如中科院上海有机化学研究所借鉴了国际上先进的标引技术,并与我国科技文献数据库的特点相结合,建立了具有中英文双语种的中国化学文摘数据库,这样大大地提高了用户的检索质量和检准率。
(6)建立网络信息导航系统,提供个性化服务
提高标引质量就是在标引过程中,用词要恰当,组配要合理,尽量做到正确提示主题,全面反映主题。
为了提高网络信息的检准率和检全率,应建立完善的网络信息导航系统,利用各种搜索引擎对某一主题信息进行筛选、过滤、并经过科学的加工、组织、归类,形成新的知识关联,产生出更高层次的综合信息产品。
同时,根据特定信息用户的要求,为用户提供专深的信息挖掘,推出“跟踪式”信息检索服务或提供个性化定制功能,提供真正适合用户需要的个性化信息服务。
(7)加强对用户网络信息检索能力的培训
为提高网络信息检索效率,用户(检索人)口词的选定方面要遵循两个原则:一是根据检索课题所涉及的学科专业和技术内容选词。
可直接将课题名称中的主要概念作检索人口词;还可从专业、技术、学科的角度对研究内容进行仔细分析,找出确切的主题概念作检索人口词。
二是使用同义词,近义词。
(8)对网络检索工具的改进
为用户提供全方位服务,网上检索工具的发展趋势,应具有以下特点以提高网络环境下信息检索效率:A.支持主题指南和搜索引擎;B.增加特色服务,提供全方位的信息服务;C.本地化服务;D.提供多媒体检索功能;E.多语种检索;F.推广利用业界的新技术;G.商业化发展趋势。
总之,只要采取科学有效的对策和措施,就能够提高网络信息检索效率,从而为广大用户提供更加方便快捷的网络检索环境。