网络信息检索研究的发展趋势

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1994年以来,Internet发展日渐迅猛,由于它的开放性,世界任何地方的个人或单位都可以随时与网络连接,很方便地实现信息上网,达到资源的充分共享,因而大大提高了信息的可获得率。

可是,网络开放的同时,也带来了一个直接的负面效应,那就是资源混杂紊乱,再加上网络管理的特殊性,人们只好在浩如烟海的资源面前屡屡驻足,要想从中挖掘出一点有用信息,简直比大海捞针都难。

公众一致期待一种简单、易用、高效的信息检索方法出台,一些热情的计算机用户也纷纷推荐各种检索工具。

但现有的检索软件参差不齐,各有优缺点,因此,如何选择一种最佳的检索软件成了困惑计算机用户的新问题。

对当前网络信息检索的发展情况进行一番总结,可以满足人们的一些现实需求,并对将来的网络检索技术作出预测,为专家学者的研究指明方向。

鉴于此,笔者做了以下的调研工作。

1资料以及检索结果
资料收集分为国外与国内两部分。

国外文献主要查阅INSPEC1994- 1997年9 月,并辅以PAR1995,检索途径为从主题词入手,选择的主题词主要有 Internet searching searching Internet search engine Internet information retrieval Internet Navigator Gopher Yahoo Lycos Infoseek W ebc raw le r WW W« W or Id Wide Web Information retrieval其中前4个主题词为重点检索词,后几个用于获得一批相关文献,以了解网络信息检索的大致情况,并对某些内容如Lycos Yahoo等进行了具体测定,其中难免有重复文献,但对大致的定性研究并无大碍。

检索的方法为回溯检索,从最新文献开始,检索到1994年1月,至此,关于Internet 检索的文献已是廖廖无几而且从Internet的发展来看,确定1994年1月为时间下限较合适(见表1)
国内文献主要查阅中文科技期刊(1994年1月 ~ 1997年9月光盘版)和清华大学出版的论文集(理工辑)前者主要收录了近几年发表于中文科技期刊的科技文献,部分还附有文摘。

通过阅读文摘,并辅以篇名及出处中给出的信息,我们能够大体确定文献所涉及的基本领域及具体问题。

采取的方法主要是主题词检索,使用的重点检索词为:①Int er net:检出文献52篇,其中有效的为12篇;②计算机网络:检出1 394篇,有效文献为7篇信息技术:检出2 篇通WWW:检出1篇;⑤情报检索:检出4篇;⑥资源检索:检出1篇0浏览器:检出1篇。

然后根据上述检出文献的作者情况,按主要作者进行人名检索;再根据文献出处确定如下几种核心期刊:《现代图书情报技术》《计算机与通信》《软件世界》、《计算机系统应用》,并据此进行刊名检索; 最后再根据分类号TP393及G2进行相关文献扩检,以弥补上述三种检索方法的不足
对于1997年9月到1998年4月的新文献,笔者又用手工检索的方式遍览了北京大学图书馆和北京图书馆收录的所有相关期刊,得到17篇文献。

至此,凡1994年1月到1998年4月公开发表于中文期刊上且主题是论述网络信息检索的文献已全被收集齐全。

考虑到提高查全率的要求,笔者又手工翻阅了 1994~ 1997年《全国报刊索引》“哲社版”和“科技版”,所获无几 2历年来的发展规律
分析检索得到的诸多数据,可以发现一些规律鉴于我国和西方各国之间的发展不平衡’Internet信息检索情况也有一定的差别,故对国内文献与国外文献分别进行讨论。

先看看国外的发展形势。

检索词每年的文献数量都呈明显增长之势。

1994年全年Internet方面的文献仅有503篇,而到1995年上半年已增长至724篇,比1994年全年文献多221 篇;及至1997年仅7月到9月短短3个月的时间,公开发表的Internet文献数量就有1 372篇,是1994 年全年的2 6倍(见表2)有专家预计,到1998年,论述网络信息检索的文献将达1万篇。

再看一下总体情况:所有检索用词得到文献的并集,也在这段时间里呈明显增长趋势。

1994年总量是3 498篇,1995 年总量是5 965篇,1996年为9 018篇,1997年则约为10 828篇。

为了让大家更直观地了解这些规律,笔者将199七1997年每年月平均用几个代表性检索词检出的文献量列于表2
虽然Internet的研究铺天盖地,且研究方向百家争鸣,百花齐放,但细心的读者会发现每年都有一
个热门话题,每年的研究都有一个关注焦点。

1994年,在和其它年度进行横向比较下,有一个较为突出的特点,那就是有关Naviga tor 的文献比较多。

也许是因为当时浏览器刚刚问世,许多学者都把精力投向这一问题的研究。

我们知道,信息检索是一门涉及多方面因素的学问,拥有一个良好的检索平台和精细的检索环境,对于检索过程的实现以及检索结果的输出显示,无疑都是至关重要的。

浏览器的推出与日渐完善正迎合了这种需求,它成为1994年的研究
焦点也是必然的。

1995年,有关Gopher话题的文献总数达115 篇,几乎占199七1997年总量264篇的一半这在一定程度上应归因于Go pher这种检索工具给予用户的便利服务。

Gopher以不同层次的菜单形式展现 Internet 资料,并可以将检索到的文件传递到用户的电子邮件信箱而无需逐页打印。

另外,Gopher对于初学者来说,是最容易掌握的一种检索工具,这大概也是它成为1995年研究重点的原因之一。

1996年是“搜索引擎”年。

关于各种网络资源搜索引擎的介绍比比皆是。

各种引擎技术的优越性比较研究以及搜索结果关于相关性、全面性等方面的对比,如雨后春笋般涌现出來比较知名的搜索引擎有Yahoo Lycos Infoseek Excite W ebcr aw leK AltaVista等等。

它们各有所长,分别在不同的检索领域和不同的检索要求下各显神通,在信息检索的舞台上各据一方天地。

1997年,搜索引擎的余波仍未平息,但浪尖发生了一定的偏移——更侧重于技术内核的研究。

如果说1996年是对搜索引擎的入门研究,那么,1997年就是在上一年度研究基础上的深人而且,单个搜索引擎的介绍几乎已经销声匿迹,更多的是对各引擎技术的对比分析(评价它们孰优孰劣)
一一任何事物都有其产生、发展、衰落、消亡的过程,这一“放之四海而皆准”的真理在网络信息检索的研究中同样得到了验证。

笔者在表3(表1的子表)中,将各数据折算成6个月平均文献数量(文献数量* 6/月份数)
我们知道,事物之所以走向消亡,是因为它已不再适应社会生产的发展。

同样,网络信息检索也符合这一规律,陈旧的、落后的检索工具、检索方法终将被新的、先进的技术取而代之,新型服务软件、新型检索策略不断推动着网络信息检索领域的更快发風另外,有的检索工具或服务软件由于逐渐为人们所熟悉掌握,成为大众化的、比较定型的事物,它们被接受后,讨论热潮也会出现一段萧条期。

国内部分仅将检索到的所有文献按年度统计,统计结果为:1994年4篇,1995年29篇,1996年10 篇,1997年31篇,1998年1~ 3月共16篇。

虽然总量在1996年出现了低谷,但整体趋势还是上升的,去除检索文献时人为因素带来的种种误差我们可以得出这样一个结论:
从1994年至今,世界各国都在努力寻找一种对 Internet信息资源进行检索的最佳方案,以便更充分地利用网络资源^众多用户、学者的不同思路又导致他们从不同的角度进行研究。

虽然国内专家学者及网络用户同样也在进行孜孜不倦的探索,但相对于国外,国内的研究要稍落后些。

从数量上说,国内关于Internet信息检索的文献还不是太多;从内容上看,关于网络概述及简介的文献似乎偏多一点,涉及技术内核的研究则略少一点。

4 Internet信息检索研究的5个重点领域
从内容上对检索到的文献进行分类,可以了解国内外关于网络信息检索研究与探索的重点在哪些方面,从而预测今后的发展趋势。

浏览检索到的所有文献,可以发现,国内外的研究情况大致相似,文献音、图像,资源不再是单调的纯文本,这样可以给用内容主要侧重于以下5个方面:
------ 搜索引擎(search engine)的介绍及对比研
究。

论及的搜索引擎很多,包括:AltaVista Excite Infoseek Guide Lycos O pen text W ebcr aw ler W WW W or m Ho t Bo t Lo ok Sm ar t Y ah oo Britan iii ca Inte rn et Gui de W eb Gui de CUI W 3ca t alo g M ag ell an Poi nt、Inf oM a rk et E u ro ferr et GOD Yell UK Plus UK Search Ultra 等,比较多的是对他们的使用方法进行介绍。

另外,关于这些搜索引擎的优越性的评述也占有较大比重,主要从检索的全面性、结果文献的相关性排序、检索方法的易用性、检索时效的快捷性、检索内容的多样性、检索入口的丰富性这6个方面进行比较。

一部分文献还对搜索引擎所面向的数据库作了讨论,比较了诸多数据库的完善性及丰富性所在
一一各种检索工具及服务软件的推出。

介绍的重点放在 Gopher Archive W AIS FTP Web 服务器、各种浏览器,还涉及一些诸如电子邮件服务、网上浏览加速器等非直接性的检索服务器。

Archive是一种类似于档案馆的查询FTP文件的工具;Gopher则包含了 Archive的档案馆查询功能,在FTP的基础上,给文件系统增设了结构,并提供文件,还可以发布信息,起到公告牌的作用; Hy telnet 可按图索引浏览Inter net下众多的服务系统;Whois是有格式的文本检索,它提供网络用户的目录,是一种以文件系统为对象的信息检索系统; WAIS则是全文检索系统,它还具有一个优越的性能,即检索词按相关性排序,相关性越大,在文献序列中越排在前面,其权值越高。

一一各种信息技术的研究、发展及改进提到的检索方法很多,包括一些传统信息检索方法的改进完善和新型检索技术,如:
•智能检索。

即在检索时系统软件自动进行分析,挖掘用户深层次的意图。

•全文检索、短语检索,尤其是相关性检索。

•冲浪技术先判断信息源及站点的性质及特色,再有选择地进行查找
•网页节点的预订。

•利用临时文件存储浏览过的网页,只传文字而忽略图像以便节省时间。

•熟练使用书签,以便再次迅速定位。

一一多媒体信息检索方'法随着多媒体技术的逐步发展应用,Internet上大量的信息中都包含有声音、图像,资源不再是单调的纯文本,这样可以给用户阅读文献带来些许乐趣,然而,声音与图像检索不同于文字查找,它的特征是隐含在深层中的,需要人工干预才能挖掘出來根据图像声音的特点研究出一种高效的检索方法是非常必要的。

只有这样,才能充分利用网上丰富的信息资源。

——各学科信息的检索。

Internet上容纳了几十种学科的知识,而网络的开放性又允许人们从遥远的地方连接入网,这样,各种各样的信息资源在网上极为丰富,形成了一个杂乱无章的信息库专业人才、专家学者或者对某一领域感兴趣的用户,为了获得所需的某类信息,就需要制定一个完备的检索策略,以
达到“大海捞针”的预定目标。

比较热门的信息领域有专利信息、化学信息、农业信息等等各学科的特点不同,形成的检索方法彼此间也有差异。

------ 其他^上述5个领域作为Internet信息检
索研究的重点,吸引了大量网络用户的关注,还有一些研究是关于Internet概述、连接、应用、影响和开发的,网络引发的社会问题也颇值得寻昧 5几种搜索引擎的对比
既然搜索引擎已成为当前网络信息检索的重要工具,那么,我们有必要将几种重要的搜索引擎作一综合全面的对比,以便用户迅速作出选择几乎所有论述搜索引擎的文献都将焦点置于自然语言智能搜索、结果文献的相关性排序以及数据库的全面性这三个方面。

但第一个领域的杰出软件尚不发达,研究者们一直期待这方面的突破。

单个词或者固定顺序短语的检索是人们早已熟悉的最原始的检索手段,但随着科学技术的迅速发展和信息量的剧增,对国内外种类繁多和数量巨大的科技文献进行检索已远非人力和传统检索系统所能胜任。

为此,研究智能检索系统已成为众所关注的焦点。

其中通过对用户的查询计划、意图、兴趣进行推理、预测并为用户提供有效的答案是这种系统的支柱性技术
例如:在检索系统中,用户顺序提出以下查询: Q1:在U1学院附近有多少餐馆?(系统给出一系列餐馆名C1,C2,C3■■…)
Q2 C1餐馆的菜单?
Q3 C1餐馆附近的停车场有多大?
可根据用户查询该餐馆的停车场,进一步确定用户 Excite和Lycos的数据库网页也比较大,而In-
71W4-2UI4 China Academic Journal Electronic Publisning House. All rights reserved, nttp://^
在Q1查询中,用户检索位于U1学院附近的餐馆;在第二个查询中,用户从Q1的检索结果中选择了一个特定的餐馆C1,进而查询该餐馆的菜单从 Q1和Q2的查询中,系统可推测用户的行为意图是“到餐馆去吃饭”在用户的第三个查询Q3中,系统可根据用户查询该餐馆的停车场,进一步确定用户的行为意图是“开车到餐馆吃饭”。

若Q3的检索结果表明C1餐馆没有停车场,则不能满足用户的需要。

此时用户可重复Q2和Q3的检索,以找出另外一个满足需求的餐馆。

用户输出一个如下的间接查询检索信息:
Q4 C2餐馆怎样?
由于Q4不是一个定义完好的查询,并且不能被标准数据库管理系统直接解释,所以为了使间接查询Q4产生一个有效的应答,系统必须推断用户期望的信息类型并重新将Q4形成直接查询。

系统可以通过如下方法实现上述要求:
先定义两个检索属性,即用户属性G集和餐馆属性S集G集=(菜单、地址、餐馆名、电话、预定接待时间、假日、工作日、停车场、停车费),S集=(电话、传真、地址、假日、工作日、菜单、价格、座位号、预定接待时间、停车场、停车费),然后通过求两者的交集GG S,可得到令用户满意的答案
理论上的研究已达到这种程度,而实际的智能检索系统仍停留在对布尔检索的完善以及智能化上。

在这一水平上,仅有少数搜索引擎做得比较好, Infoseek Guide是表现最突出的一个。

它拥有最好的搜索参数的集成,而且难得的是,它们对用户是透明的Infoseek允许用户在填写查询要求时随心所欲,不厌其详,而它在后台则施以适当的逻辑。

这就意味着用户可以忽略如何使用搜索引擎,只把精力集中在自己想提的问题上,这大概是因为Infoseek Guide 把全文索引、相关性接近对象的搜索以及事件敏感性结合在一起了。

O pent ext紧随其后,用户可用它自己建立有侧重点的搜索,在一次搜索中最多可以为4个不同的搜索词选择不同的相关性,但当你在主菜单里键入一个复杂的要求时,最后你会发现,只有词语顺序与你的搜索词句顺序完全一致的文档,才会出现在搜索结果里我们可以以此为基础,进行更加具体的搜索,即选择“ Find Similar Pages (寻找相近网页)”的选项,之后就会得到很好的搜索结果
AltaVista的搜索算法极其机械而缺乏判断力,并且不支持词语的衍生形成但它在搜索全面性上表现突出。

能对网络进行全面彻底搜索的大概仅此一家了。

与其他站点相比,AltaVista的搜索结果内容更丰富,就连一些鲜为人知的偏僻站点也能找到。

如果你想查找某个公司的产品或者其他人提交的某个站点,AltaVista应是首选工具(表4)
foseek Guide在这方面显然不如前两者。

为了弥补这缺憾,Infoseek公司将推出第二种网络搜索引擎——“ Moby”.它包括1 000万网页,是目前Infoseek Guide拥有的网页的10倍,但由于两者使用的不是同一种相关性索引工具,所以这两个产品大概是不会合并的
搜索结果的相关性排序显然也是用户关心的重要因素之一,Infoseek Guide又一次展示了它异乎寻常的优越性,它的搜索具有“事件敏感性”(对某些名字进行搜索时,搜索有效率明显提高),用户输入一个短语后,Infos eek Gu id e会使用与短语最接近的排序方法,提高搜索结果的相关性。

在寻找相关网址时,Excite几乎和Infoseek表现一样,但明显慢一点。

对于那些善于组织逻辑Boolean查询的用户,可以使用Opentext,因为它的设计正好使其在这方面表现优异。

相关文档
最新文档