谈谈你对元搜索引擎的理解及设计时应该注意的方面
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对元搜索的理解及设计中应注意的方面
一.引言
在互联网发展初期,网站相对较少,网页数量亦较少,因而信息查找比较容易。
随着Internet 的飞速发展,人们越来越依靠网络来查找他们所需要的信息,然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,以至于迷失在信息的海洋中不知所措,出现了我们所说的"信息丰富,知识贫乏"的奇怪现象。
搜索引擎正是为了解决这个"迷航"问题而出现的技术。
搜索引擎(Search Engine简称SE)以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。
现在,网上的搜索引擎有很多,比较著名的有Google,Yahoo,AltaVista,Dogpile,百度等。
按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:目录式搜索引擎,以Yahoo为代表(最近改为使用全文搜索技术);全文搜索引擎,以Google为代表;元搜索引擎,以Dogpile为代表。
二.元搜索引擎概述
元搜索引擎(Meta Search Engine 简称MSE),是一种建立在独立搜索引擎基础上,调用其它独立搜索引擎的引擎,亦称"搜索引擎之母(The mother of search engines)"。
在这里,"元"(Meta)为"总的"、"超越"之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。
相对于元搜索引擎,可被利用的独立搜索引擎称为"源搜索引擎"(Source Search Engine),或"成员搜索引擎"(Component Search Engine)。
从功能上来讲,元搜索引擎像是一个过滤通道:以多个独立搜索引擎的输出结果作为输入,经过一番提取、剔除、萃取等操作,形成最终结果,然后将最终结果输出给用户。
元搜索引擎的典型工作过程可以归纳如下
①用户通过统一的查询界面输入查询请求,元搜索引擎对查询进行一定的预处理。
②元搜索引擎根据成员搜索引擎调度机制,选择若干成员搜索引擎。
③元搜索引擎根据选择的成员搜索引擎的查询格式,对原始查询请就进行本地化处理,转换为成员搜索引擎要求的查询格式串。
④向各个成员搜索引擎发送经过格式化的查询请求,等待返回结果。
⑤收集各个独立搜索引擎的返回结果。
⑥对返回结果进行综合处理,例如,消除重复链接,死链接等,形成最终结果。
⑦以一定的格式将最终结果返回给用户。
元搜索引擎的特点
元搜索引擎区别于独立搜索引擎,主要有这样一些特征:
①不用设立庞大网页数据库,节省存储设备
②提供了统一的外界模式,将一次查询提交到多个独立搜索引擎
③基于独立搜索引擎结果的二次加工
④标明结果记录的来源搜索引擎及其局部相关度,提供了全局相关度。
三.一个元搜索引擎的设计构想
基于以上的研究,我们提出了一个元搜索引擎的设计构想。
在这个构想中,我们采用了反馈机制,但我们并没有具体细化每一步,仅提供了一个整体框架,对于体系结构中的功能模块,我们对它们的功能和实现技术作了较为详细地分析,提供了若干可供选择的技术。
在实现的时候可以选用其中的若干模块,以减少系统复杂性;也可以增加若干功能模块,以增加系统的功能,即这个设计构想具有良好的可伸缩性。