网络信息检索的现状与发展
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络信息检索的现状与发展网络信息检索的现状与发展
1.基于网页的网络信息检索工具的现状和发展趋势
页是因特网的最主要的组成部份,也是人们获取网络信息的最主要的来源,为了方便人们在大量繁杂的网页中找寻自己需要的信息,这类检索工具发展的
最快。一般认为,基于网页的信息检索工具主要有网页搜索引擎和网络分类目
录两种。网页搜索引擎是通过"网络蜘蛛"等网页自动搜寻软件搜索到网页,然
后自动给网页上的某些或全部字符做上索引,形成目标摘要格式文件以及网络
可访问的数据库,供人们检索网络信息的检索工具。网络目录则是和搜索引擎
完全不同,它不会将整个网络中每个网站的所有页面都放进去,而是由专业人
员谨慎地选择网站的首页,将其放入相应的类目中。网络目录的信息量要比搜
索引擎少得多,再加上不同的网络目录分类标准有些混乱,不便人们使用,因
此虽然它标引质量比较高,利用它的人还是要比利用搜索引擎的人少的多。但
是由于网络信息的复杂性和网络检索技术的限制,这类检索工具也有着明显的
不足。(1)随着网页数量的迅猛增加,人工无法对其进行有效的分类、索引和利用。网络用户面对的是数量巨大的未组织信息,简单的关键词搜索,返回的信息数量之大,让用户无法承受。(2)信息有用性评价困难。一些站点在网页中大量
重复某些关键字,使得容易被某些著名的搜索引擎选中,以期借此提高站点的地位,但事实上却可能没有提供任何对用户有价值的信息。(3)网络信息日新月异
的变更,人们总是期望挑出最新的信息。然而网络信息时刻变动,实时搜索几乎
不可能,就是刚刚浏览过的网页,也随时都有更新、过期、删除的可能。
2.发展趋势
网络信息检索工具的发展主要体现在进一步改进、完善检索工具和检索技术,以提高检索服务质量,改变网络信息检索不尽如意的地方。主要体现在以
下几个方面:网络检索工具开发提供商之间合作越来越紧密。过去一般网络检
索工具提供商只依靠自己建立的数据库来提供检索服务,检索范围有限,而现
在某些著名的搜索引擎在购买其他公司的数据库或者技术内核,有的与其他搜
索引擎建立伙伴关系,以便用户使用。比如著名雅虎现在采用的是Google的搜索内核,网易也曾经使用Google的搜索内核技术来丰富自己的搜索引擎数据库,硅谷动力、广州视窗、新浪、搜狐、Chinaren、21cn、263、Tom等搜索引擎使
用融合了百度的搜索内核技术等等。
3.信息检索工具专业化及服务内容深化
一些检索工具已经不再盲目追求加大收录和标引量,而更加注重突出专业
特色。在lycos搜索引擎目录中,我们可以看到商业搜索引擎、IT搜索引擎、
人才搜索引擎、金融搜索引擎、医学搜索引擎等专业化的网络信息检索纷纷出现,信息检索工具的专业化已经成为一种不可逆转的趋势。信息检索服务商将
服务更加深化:Google推出了网页引文查询服务,通过它可以查看自己所要查
询的资料被其他网站引用的情况,从而使用户更好的把握网页信息的质量;
2003年8月,第三代中文搜索引擎慧聪问世,它则集"广泛的地域搜索"、"强
大的行业搜索"、"完美的MP3、Flash搜索"众多搜索功能为一体,还开发了"针对内容的相关性查询"和"符合汉语特性的模糊查询",可以实现汉语拼音查询和同音词纠错。
4.网络信息工具智能化的发展趋势
1)信息检索工具的智能化首先是网络蜘蛛的智能化。针对网络信息的动态
更替性,网络蜘蛛通过启发式学习采取最有效的搜索策略,选择最佳时机获取从Internet上自动收集、整理的信息。网络蜘蛛能在网络的任何地方工作,能尽
可能地挖掘和获得信息。网络蜘蛛还要有网页跟踪监测功能,如果网页出现更新、删除等情况要及时在数据库中更新。网络蜘蛛具有跨平台工作和处理多种
混合文档结构的能力。(2)其次是检索软件的智能化。现在主要有智能搜索引擎、智能浏览器、智能代理。这些网络检索工具都非常重视开发实现基于自然语言
形式的输入,检索者可以将自己的检索提问以及所习惯的短语、词组甚至句子
等自然语言的形式输入,智能化的检索软件将能够自动分析,而后形成检索策
略进行检索。比如现在的百度搜索可以在你输入关键词以后,不断提供一些相
近的关键词供你选择,直至找到你所需要的结果。Google则借助于机器翻译技术,将一种自然语言转变成另外一种自然语言,使用户能够使用母语搜索非母
语的网页,并以母语浏览搜索结果。尤里卡、问一问、和国外的ASK Jeeves则
通过语义技术和检索技术的结合,可是实现检索工具对搜索词在语义层次上的理解,为用户提供最准确地检索服务。