元搜索引擎排序技术综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

0 引言
搜索引擎是一种 基于关键字查询的信息检索工具, 近十年 来随着因特网的普及 而得到迅速发展, 为用户在网络上查找信 息提供了一套极为便 利的工具。目前搜索引擎的种类较多, 品 牌也越 来越多, 服务也越 来越丰富, 其采 取的技术、算法、适用 范围等也各不相同。但 是目前还 没有哪 个搜索 引擎返 回的结 果能够覆盖所有的相 关资源, 大部分搜索引擎返回的结果只是 涉及到整 个相 关 资源 的一 小 部分, 如 A ltaV ista、H otBot、Ex cite 和 Infosee所标引的网页不 到所有搜索引擎搜索网页的 1% [ 1] ; 另 外 对 于某 个 查 询, 不 同 搜 索引 擎 查 询 结果 的 重 叠 率不 足 34% [1, 2] 。因此要想获 得一 个比 较全 面、准确 的结 果, 就 需要 将多个 搜 索 引 擎 综 合 在一 起。 1995年, 华 盛 顿 大学 硕 士 生 Er ic Se lberg 和 O ren Etzioni 推 出 了 第 一 个 元 搜 索 引 擎 M e taCraw ler, 此后这一新型的网络检索工具迅速发 展起来。尽 管它在诸多技术上还 存在一定 局限性, 但 是它具 有覆盖面 大、 查准率高、易维护等优点, 它的出 现在一 定程度 上解决 了搜索 引擎查全率和查准率 低的问题。
元搜索引擎 排序是指对其 调用的多 个成员 搜索引 擎所返 回的结果进行收 集、去重处理, 然后按照一定的准则排序, 最终 将排序结果按一 定顺序展现 给用户 的过程。由 于调用 的成员 搜索引擎可以各 式各样, 其 收集的 查询结 果组成 也形式 多样, 归纳起来其结果 主要是由网址 ( URL )、网 页标题、内容摘要、相 关度等信息组成 。因此 元搜索 引擎排序 可以在 利用成 员搜索 引 擎排序 的基 础上, 从网 页标 题、内容摘 要等 方面 着手考 虑。 总的来说, 其排序方法可以从以下三方面来阐述。 1 1 收集结果重新排序
2)星星排序 星星排序 [ 1]是建立在各个 成员搜索 引擎排 序信息 基础上 的一种信息融合 方法, 它首先统计某个搜索结果记录在多少个 成员搜索引擎的 前面几条信息中出现, 以此作为相关度评价指 标。对于某个查询结果, 若其在一个成员搜索引擎的前几条中 出现, 就得到一个 星 , 得到的 星 越多, 则 该记录就越 重要; 然后对所有结 果都 进行统 计; 最后 比较每 个结 果所得 的 星 的个数, 将所有 结果按 照所 得 星 个 数多 少进 行排 序。星星 排序比较适合于 调用多个成员搜索引擎的情况, 对于成员搜索 引擎个数比较 少的 情况, 则容 易出 现多个 结果 星 个数 相同 的情况, 不易 排序。元 搜索 引擎 Ixqu ick和 M eto r都 是基 于相 关度结合 星星 评价指标排序的。 3) Bo rda排序 Borda排序 [ 3] 最初是用于民主 政治选 举, 选 民对各 候选人 进行投票后, 对于每个候选 人进行 统计票 数, 最 后按照 得票数 多少进行排序, 票数最高的排在最前面。后来有人将此法改进 后用于元搜索引擎结果 排序, 对于 某个查 询, 它 被几个 成员搜 索引擎检索到, 则该结果记 录就得 几票, 最后统 计各个 结果记 录的票数, 按照票数多 少排序。很 明显, 被多个 成员搜 索引擎 检索到的结果记 录更有可能 排在前 面。为了更 好地利 用原来 成员搜索引擎的 排序信息, 对每个成员搜索引擎的结果按照从 前到后的顺序分 配一定的权 值, 统 计结果 时乘以 相应的 权值。 这样就能够将每 个结果所得票数细化, 排序就方便多了。通过 比较可以发 现, Bo rda排 序与 星星 排序 也有 相 似之 处。同 样, Borda排序也比较适用于调 用成员 搜索引 擎个数 较多的 情况, 它给每个成员搜 索引擎的结果 分配权值 的情况 对星星 排序也 同样适用。但是 Bo rda排序 仅仅 考虑 到了同 一个 结果文 档被 多个搜索引擎检 索的重要性, 却忽视了某些文档被少数搜索引 擎检索到的重要 性, 而这些 文档确 有可能 是相关 性比较 大的。 所以 Borda排序在 成员搜 索引擎 查询 结果重 叠率 较高的 情况 下才适用。 4)位置排序 位置排序 [ 4]的基本思想也 是充分利 用各独 立搜索 引擎返 回的结果记录集 合中原来的排序信息, 同时给每个成员搜索引 擎分配了优先级 。不同 的搜索 引擎对于 相同的 查询可 能会得 到一些相同的结 果, 但是相同的几个搜索结果在不同的成员搜 索引擎中返回的 次序可能不 一样。位置 排序法 就是专 门为了 调和这种矛盾而 设计的排序方法。 对于某个元 搜索引擎来说, 假设其调用的成员搜索引擎个 数为 n, 成员搜索引擎 si ( i= 1, 2, !, n) 的优先度为 p i ( i = 1, 2, !, n )。对于某个搜索结果, 令其 在搜索引擎 si 中的排 序位置 为 qi ( 若不在该搜索引擎中出现, 则 qi 为无穷大 ), 那 么该搜索
于元搜索引擎的 结果规模比较庞大, 而用户又往往缺乏足够的 耐心去遍历这些 海量信息, 他们一般只会检索前面几条或者几 十条信息, 如何将用户想要的信息 尽可能 地排在 前面 ( 结果排 序 )显得尤为 重要 , 同时 它也 是 影响 元 搜索 引 擎 性能 的 关键 技术。
1 元搜索引擎排序的基础算法
2)根据响应速度排序 对于某个查询来 说, 每个成员搜索引擎查询结果的速度是 不一样的, 为了减少用户的 等待时 间, 按 照搜索 引擎搜 索结果 出现的时间先后顺序 排序返 回给用 户。它是针 对直接 合并速 度比较慢的问题的一 种简单改进, 排序的结果也不能够提高用 户的满意度。 3)摘要排序法 摘 要排序 法 [ 1] 是 基于相 关度 排序算 法的 一种, 其主 要思 想是根据用户输入的 查询串与各 个成员 搜索引 擎搜索 的结果 记录摘要信息之间的 相关性来进行排序, 相关性大的结果排在 前面。摘要排序法的 优点是实 现简单、速 度快; 缺点是 返回的 摘要过于简单, 而且各个独 立搜索 引擎的 用户接口 不同, 导致 同一个结果在不同的 独立搜 索引擎 返回的摘 要不同。 摘要排 序法往往导致返回摘 要信息多的 搜索引 擎的搜 索结果 排名靠 前, 而不是与结果词条相关度高的搜索结果排名靠前。 4)按照某种成员搜索引擎排序方法排序 在知道某种搜索 引擎的排序方法后, 可以将结果收集在一 起利用该搜索引擎的排 序算法 排序, 这种 方法比较 直观, 思路 也比较清晰。但是某个搜索引 擎的排序算法越好, 涉及的结果 内容因素越多。这些结果是通 过不同的搜索引擎搜索得到的, 有些结果信息很单一 , 不能 满足该 排序算 法的诸 多因素需 求。 另外, 搜索引擎的排序算法 一般是 不公开 的, 很 难获取 这些技 术细节, 所以该方法实现起来比较困难。
Ab stract: R anking is a key techno logy to carry outm eta search eng ine. W he ther the ranking a lgor ithm is good o r no tw ill de rectly dec ide the function of the m e ta search eng ine. Prov ided a survey o f the study in the common use ranking a lgo rithm s for m etasearch eng ine, ana lysed and eva luated som e c lassica l a lgo rithm s. Summm ed up the su itab le d ifferent env ironm en,t v iewed som e future d irections in rank ing algorithm s for m etasearch eng ine. K ey words: me tasearch eng ine; resu ltm erg ing; ranking a lgo rithm s; re levancy
∀ 412∀
计算机应用研究
第 26卷
它直接将不同搜索引 擎的结果合并, 然后返回给用户。由于用 户一般只对排列在前 几页的信息感兴趣, 而排在后面的搜索引 擎的许多结果信息被 无形地忽略掉了。对于用户来说, 这种结 果显示方式和一般的搜 索引擎 差别不 大, 对于某个 查询, 其查 询速度也比较慢, 现在已经很少使用该方法。
中图分类号: TP3Байду номын сангаас1
文献标志码: A
文章编号: 1001 3695( 2009) 02 0411 04
Rank ing algorithm s for m etasearch eng ine
CAO L in1, HAN L i x in1, W U Sheng li2 ( 1. C ollege of Compu ter & Inform ation Eng in eering, H oha i Un iv ersity, N an jing 210098, China; 2. S ch ool of Compu ting & M a thema tics, U ni versity of U lster, N orthern Ireland, B elf ast, UK )
第 26卷第 2期 2009年 2月
计算机 应用研究 Application R esearch of C om puters
V o.l 26 N o. 2 Feb. 2009
元搜索引擎排序技术综述*
曹 林1, 韩立新1, 吴胜利 2
( 1. 河海大学 计算机及信息工程学院, 南京 210098; 2. 阿尔斯特大学 计算机与数学学院, 英国 贝尔法斯特 )
1 2 利用搜索引擎排序信息排序
将各个成员搜索 引擎所返回的结果集中在一起重新排序, 这样就打乱了原来搜 索引擎的排序信息, 而这些信息也是非常 重要的排序依据。尽管有些成 员搜索引擎的排序方法未知, 但 是它肯定是按查询结 果与查询串的相关程度大小排序的, 只不 过不同的搜索引擎所 侧重的 因素不 同。若是能 充分利 用各成 员搜索引擎的排序信息, 在 其基础 上进一 步地合成, 则 能够将 查准率进一步提 高。轮询法、星星 排序、Bo rda排序、贝叶 斯概 率模型排序、位置排序等方法就是基于此基础上的。
这种排序的 方法比较单一, 相当于把成员搜索引擎搜索的 结果融合到一起 再重新选择 一种方 法排序。这 种方法 仅仅提 高了查全率, 对于一些重要 的信息, 可能 会排在 比较靠 后的位 置而不易被用户 检索到, 准确率也不高。早期的元搜索引擎通 常使用这种算法 思想。基于此 类算法思 想的方 法主要 有直接 合并、根据响应速度排序、摘要排序。
1)轮询法 ( round rob in) 轮询法的思想也 比较简单, 首先把成员搜索引擎根据其性 能按照一定次序排列 好, 然后按照这些次序将每个查询结果中 的第一项依次列出, 再把每 个查询 结果中 的第二 项依次列 出, 依此类推。一个结果出 现在多个 搜索引 擎中的 以第一 次出现 该结果的为基准, 后面出现的不再参加排序。中途出现某搜索 引擎的结果已经取完 时, 则跳转到下一个搜索引擎。轮询法最 初虽然按照搜索引擎 的性能给予排序, 但没有充分考虑到成员 搜索引擎之间的差异 , 当相同的结果记录在多个成员搜索引擎 中同时出现并且位置不 一样时, 处 理得也 不是很好, 但 它是后 来发展的诸多排序算 法的基 础。现在一 些元搜 索引擎 使用的 都是对其改进后的算 法, 如加权轮询法等。
1)直接合并 直 接合 并 [ 1] 是一 种元搜 索引 擎最 原始的 一种 排序方 式,
收稿日期: 2008 05 08; 修回日期: 2008 07 23 基金项目: 国家自然科学基金资助项目 ( 60673186, 60571048) 作者简介: 曹林 ( 1980 ) , 男, 硕士研究生, 主要研究方向为信息检索、模式识别、元搜索引擎 ( caol in5346@ 163. com ) ; 韩立新 ( 1967 ) , 男, 研究 员, 硕导, 博士, 主要研究方向为信息检索、软计算、W eb 技术; 吴胜利, 男, 讲师, 博士, 主要研究方向为信息检索.
元搜索引擎是一 种建立在搜索引擎基础上, 调用多个成员 搜索 引 擎 的 搜 索 引 擎, 亦 称 搜 索 引 擎 之 母 ( the m other of search eng ines) 。这里 的 元 有 总的、超 越 之意。对 于 某个 给定的查询, 元搜索引擎将其发送到其调用的几个成员搜索引 擎, 待成员搜索引擎完成查 询后, 收集各 个搜索 引擎查 询的所 有结果, 去重整理后按照一定的排序方法最终显示给用户。由
摘 要: 如何排序是实现元搜索引擎的一项关键技术, 排序算法的好坏直接决定着元搜索引擎的性能。对元搜
索引擎常用的排序算法根据其发展先后顺序作了介绍, 对一些经典的算法进行了分析和评价, 归纳出元搜索引
擎排序算法适用的不同环境, 最后对元搜索引擎排序算法未来发展方向作了技术展望。
关键词: 元搜索引擎; 结果集成; 排序算法; 相关性
相关文档
最新文档