元搜索引擎排序技术综述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

0 引言
搜索引擎是一种基于关键字查询的信息检索工具, 近十年来随着因特网的普及而得到迅速发展, 为用户在网络上查找信息提供了一套极为便利的工具。目前搜索引擎的种类较多, 品牌也越来越多, 服务也越来越丰富, 其采取的技术、算法、适用范围等也各不相同。但是目前还没有哪个搜索引擎返回的结果能够覆盖所有的相关资源, 大部分搜索引擎返回的结果只是涉及到整个相关资源的一小部分, 如 A ltaV ista、H otBot、Ex cite 和 Infosee所标引的网页不到所有搜索引擎搜索网页的 1% [ 1] ; 另外对于某个查询, 不同搜索引擎查询结果的重叠率不足 34% [1, 2] 。因此要想获得一个比较全面、准确的结果, 就需要将多个搜索引擎综合在一起。 1995年, 华盛顿大学硕士生 Er ic Se lberg 和 O ren Etzioni 推出了第一个元搜索引擎 M e taCraw ler, 此后这一新型的网络检索工具迅速发展起来。尽管它在诸多技术上还存在一定局限性, 但是它具有覆盖面大、查准率高、易维护等优点, 它的出现在一定程度上解决了搜索引擎查全率和查准率低的问题。
元搜索引擎排序是指对其调用的多个成员搜索引擎所返回的结果进行收集、去重处理, 然后按照一定的准则排序, 最终将排序结果按一定顺序展现给用户的过程。由于调用的成员搜索引擎可以各式各样, 其收集的查询结果组成也形式多样, 归纳起来其结果主要是由网址 ( URL )、网页标题、内容摘要、相关度等信息组成。因此元搜索引擎排序可以在利用成员搜索引擎排序的基础上, 从网页标题、内容摘要等方面着手考虑。总的来说, 其排序方法可以从以下三方面来阐述。 1 1 收集结果重新排序
2)星星排序星星排序 [ 1]是建立在各个成员搜索引擎排序信息基础上的一种信息融合方法, 它首先统计某个搜索结果记录在多少个成员搜索引擎的前面几条信息中出现, 以此作为相关度评价指标。对于某个查询结果, 若其在一个成员搜索引擎的前几条中出现, 就得到一个星 , 得到的星越多, 则该记录就越重要; 然后对所有结果都进行统计; 最后比较每个结果所得的星的个数, 将所有结果按照所得星个数多少进行排序。星星排序比较适合于调用多个成员搜索引擎的情况, 对于成员搜索引擎个数比较少的情况, 则容易出现多个结果星个数相同的情况, 不易排序。元搜索引擎 Ixqu ick和 M eto r都是基于相关度结合星星评价指标排序的。 3) Bo rda排序 Borda排序 [ 3] 最初是用于民主政治选举, 选民对各候选人进行投票后, 对于每个候选人进行统计票数, 最后按照得票数多少进行排序, 票数最高的排在最前面。后来有人将此法改进后用于元搜索引擎结果排序, 对于某个查询, 它被几个成员搜索引擎检索到, 则该结果记录就得几票, 最后统计各个结果记录的票数, 按照票数多少排序。很明显, 被多个成员搜索引擎检索到的结果记录更有可能排在前面。为了更好地利用原来成员搜索引擎的排序信息, 对每个成员搜索引擎的结果按照从前到后的顺序分配一定的权值, 统计结果时乘以相应的权值。这样就能够将每个结果所得票数细化, 排序就方便多了。通过比较可以发现, Bo rda排序与星星排序也有相似之处。同样, Borda排序也比较适用于调用成员搜索引擎个数较多的情况, 它给每个成员搜索引擎的结果分配权值的情况对星星排序也同样适用。但是 Bo rda排序仅仅考虑到了同一个结果文档被多个搜索引擎检索的重要性, 却忽视了某些文档被少数搜索引擎检索到的重要性, 而这些文档确有可能是相关性比较大的。所以 Borda排序在成员搜索引擎查询结果重叠率较高的情况下才适用。 4)位置排序位置排序 [ 4]的基本思想也是充分利用各独立搜索引擎返回的结果记录集合中原来的排序信息, 同时给每个成员搜索引擎分配了优先级。不同的搜索引擎对于相同的查询可能会得到一些相同的结果, 但是相同的几个搜索结果在不同的成员搜索引擎中返回的次序可能不一样。位置排序法就是专门为了调和这种矛盾而设计的排序方法。对于某个元搜索引擎来说, 假设其调用的成员搜索引擎个数为 n, 成员搜索引擎 si ( i= 1, 2, !, n) 的优先度为 p i ( i = 1, 2, !, n )。对于某个搜索结果, 令其在搜索引擎 si 中的排序位置为 qi ( 若不在该搜索引擎中出现, 则 qi 为无穷大 ), 那么该搜索
于元搜索引擎的结果规模比较庞大, 而用户又往往缺乏足够的耐心去遍历这些海量信息, 他们一般只会检索前面几条或者几十条信息, 如何将用户想要的信息尽可能地排在前面 ( 结果排序 )显得尤为重要 , 同时它也是影响元搜索引擎性能的关键技术。
1 元搜索引擎排序的基础算法
2)根据响应速度排序对于某个查询来说, 每个成员搜索引擎查询结果的速度是不一样的, 为了减少用户的等待时间, 按照搜索引擎搜索结果出现的时间先后顺序排序返回给用户。它是针对直接合并速度比较慢的问题的一种简单改进, 排序的结果也不能够提高用户的满意度。 3)摘要排序法摘要排序法 [ 1] 是基于相关度排序算法的一种, 其主要思想是根据用户输入的查询串与各个成员搜索引擎搜索的结果记录摘要信息之间的相关性来进行排序, 相关性大的结果排在前面。摘要排序法的优点是实现简单、速度快; 缺点是返回的摘要过于简单, 而且各个独立搜索引擎的用户接口不同, 导致同一个结果在不同的独立搜索引擎返回的摘要不同。摘要排序法往往导致返回摘要信息多的搜索引擎的搜索结果排名靠前, 而不是与结果词条相关度高的搜索结果排名靠前。 4)按照某种成员搜索引擎排序方法排序在知道某种搜索引擎的排序方法后, 可以将结果收集在一起利用该搜索引擎的排序算法排序, 这种方法比较直观, 思路也比较清晰。但是某个搜索引擎的排序算法越好, 涉及的结果内容因素越多。这些结果是通过不同的搜索引擎搜索得到的, 有些结果信息很单一 , 不能满足该排序算法的诸多因素需求。另外, 搜索引擎的排序算法一般是不公开的, 很难获取这些技术细节, 所以该方法实现起来比较困难。
Ab stract: R anking is a key techno logy to carry outm eta search eng ine. W he ther the ranking a lgor ithm is good o r no tw ill de rectly dec ide the function of the m e ta search eng ine. Prov ided a survey o f the study in the common use ranking a lgo rithm s for m etasearch eng ine, ana lysed and eva luated som e c lassica l a lgo rithm s. Summm ed up the su itab le d ifferent env ironm en,t v iewed som e future d irections in rank ing algorithm s for m etasearch eng ine. K ey words: me tasearch eng ine; resu ltm erg ing; ranking a lgo rithm s; re levancy
∀ 412∀
计算机应用研究
第 26卷
它直接将不同搜索引擎的结果合并, 然后返回给用户。由于用户一般只对排列在前几页的信息感兴趣, 而排在后面的搜索引擎的许多结果信息被无形地忽略掉了。对于用户来说, 这种结果显示方式和一般的搜索引擎差别不大, 对于某个查询, 其查询速度也比较慢, 现在已经很少使用该方法。
中图分类号: TP3Байду номын сангаас1
文献标志码: A
文章编号: 1001 3695( 2009) 02 0411 04
Rank ing algorithm s for m etasearch eng ine
CAO L in1, HAN L i x in1, W U Sheng li2 ( 1. C ollege of Compu ter & Inform ation Eng in eering, H oha i Un iv ersity, N an jing 210098, China; 2. S ch ool of Compu ting & M a thema tics, U ni versity of U lster, N orthern Ireland, B elf ast, UK )
第 26卷第 2期 2009年 2月
计算机应用研究 Application R esearch of C om puters
V o.l 26 N o. 2 Feb. 2009
元搜索引擎排序技术综述*
曹林1, 韩立新1, 吴胜利 2
( 1. 河海大学计算机及信息工程学院, 南京 210098; 2. 阿尔斯特大学计算机与数学学院, 英国贝尔法斯特 )
1 2 利用搜索引擎排序信息排序
将各个成员搜索引擎所返回的结果集中在一起重新排序, 这样就打乱了原来搜索引擎的排序信息, 而这些信息也是非常重要的排序依据。尽管有些成员搜索引擎的排序方法未知, 但是它肯定是按查询结果与查询串的相关程度大小排序的, 只不过不同的搜索引擎所侧重的因素不同。若是能充分利用各成员搜索引擎的排序信息, 在其基础上进一步地合成, 则能够将查准率进一步提高。轮询法、星星排序、Bo rda排序、贝叶斯概率模型排序、位置排序等方法就是基于此基础上的。
这种排序的方法比较单一, 相当于把成员搜索引擎搜索的结果融合到一起再重新选择一种方法排序。这种方法仅仅提高了查全率, 对于一些重要的信息, 可能会排在比较靠后的位置而不易被用户检索到, 准确率也不高。早期的元搜索引擎通常使用这种算法思想。基于此类算法思想的方法主要有直接合并、根据响应速度排序、摘要排序。
1)轮询法 ( round rob in) 轮询法的思想也比较简单, 首先把成员搜索引擎根据其性能按照一定次序排列好, 然后按照这些次序将每个查询结果中的第一项依次列出, 再把每个查询结果中的第二项依次列出, 依此类推。一个结果出现在多个搜索引擎中的以第一次出现该结果的为基准, 后面出现的不再参加排序。中途出现某搜索引擎的结果已经取完时, 则跳转到下一个搜索引擎。轮询法最初虽然按照搜索引擎的性能给予排序, 但没有充分考虑到成员搜索引擎之间的差异 , 当相同的结果记录在多个成员搜索引擎中同时出现并且位置不一样时, 处理得也不是很好, 但它是后来发展的诸多排序算法的基础。现在一些元搜索引擎使用的都是对其改进后的算法, 如加权轮询法等。
1)直接合并直接合并 [ 1] 是一种元搜索引擎最原始的一种排序方式,
收稿日期: 2008 05 08; 修回日期: 2008 07 23 基金项目: 国家自然科学基金资助项目 ( 60673186, 60571048) 作者简介: 曹林 ( 1980 ) , 男, 硕士研究生, 主要研究方向为信息检索、模式识别、元搜索引擎 ( caol in5346@ 163. com ) ; 韩立新 ( 1967 ) , 男, 研究员, 硕导, 博士, 主要研究方向为信息检索、软计算、W eb 技术; 吴胜利, 男, 讲师, 博士, 主要研究方向为信息检索.
元搜索引擎是一种建立在搜索引擎基础上, 调用多个成员搜索引擎的搜索引擎, 亦称搜索引擎之母 ( the m other of search eng ines) 。这里的元有总的、超越之意。对于某个给定的查询, 元搜索引擎将其发送到其调用的几个成员搜索引擎, 待成员搜索引擎完成查询后, 收集各个搜索引擎查询的所有结果, 去重整理后按照一定的排序方法最终显示给用户。由
摘要: 如何排序是实现元搜索引擎的一项关键技术, 排序算法的好坏直接决定着元搜索引擎的性能。对元搜
索引擎常用的排序算法根据其发展先后顺序作了介绍, 对一些经典的算法进行了分析和评价, 归纳出元搜索引
擎排序算法适用的不同环境, 最后对元搜索引擎排序算法未来发展方向作了技术展望。
关键词: 元搜索引擎; 结果集成; 排序算法; 相关性