搜索引擎的相关性排序算法研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中国科学技术大学 硕士学位论文 搜索引擎的相关性排序算法研究 姓名:王黎 申请学位级别:硕士 专业:模式识别与智能系统 指导教师:帅建梅 20100427
摘 要
摘 要
随着计算机系统性能的提高和网络技术的不断进步,万维网成为全球最大的信 息资源库,如何为如此庞大的信息资源提供高效的导航服务,帮助用户在海量的数 据中快速找到需要的信息是搜索引擎亟待解决的问题。通常用户只关心搜索引擎返 回的排在前面的结果,然而当前搜索引擎返回的查询结果与用户需求的相关程度并 不理想。于是搜索引擎的相关性排序--按照与用户查询的相关程度对搜索引擎的索 引文档进行排序,成为当前研究的重点和热点。 本文首先研究了文本搜索引擎的相关性排序模型,并为自学习排序模型提出一 种构造训练集的方法。然后研究了图像搜索引擎的相关性排序问题,重点介绍了图 像重排序的方法,并提出一种度量图像相似性的方法。本文对搜索引擎的相关性排 序方法进行了深入的研究,主要工作和创新之处归纳为以下几点: (1) 文本搜索引擎的相关性排序模型,包括布尔模型,向量空间模型,概率模 型,超链接模型,自学习排序模型,其中自学习排序模型将机器学习的方法 运用到搜索引擎的相关性排序问题,解决了以往模型的许多不足之处。 (2) 为自学习排序模型构造训练集。自学习排序是一种有监督的机器学习算法, 模型的性能很大程度上依赖训练集。构造训练集需要对给定的查询,人工标 注文档与该查询的相关程度。对于文本搜索而言,查询几乎是无穷的,而人 工标注耗时费力,所以选择部分有信息量的查询来标注很有意义。本文提出 一种同时考虑查询的难度,密度和多样性的贪心算法从海量的查询中选择有 信息量的查询进行标注。实验表明本文提出的方法能构造一个规模较小且有 效的训练集。 (3) 图像重排序算法。现今的图像搜索引擎主要利用图像周围文本信息为图像排 序,没有考虑图像本身的特征。图像重排序是在文本搜索结果的基础上,通 过挖掘图像视觉特征的内在关系,对原始搜索结果进行重新排序,使新的序 列更能满足用户搜索需求。 (4) 图像相似性度量。在图像重排序算法中图像相似性的度量至关重要。一般我 们通过计算图像视觉特征的相似性来估计图像的相似性。图像视觉特征包含 全局特征(如颜色,纹理,形状)和局部特征(如尺度不变特征) 。然而现 有的相似性度量没有考虑针对不同的查询词,图像的相似性应该不同。本文 提出一种与查询相关的相似性度量方法,把基于全局特征的相似性,基于局
III
中国科学技术大学学位论文原创性声明
本人声明所呈交的学位论文 , 是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过 的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说 明。 作者签名:___________ 签字日期:_______________
II
Abstract
ABSTRACT
Recently learning to rank has become a popular method to build a ranking model for Web search. For the same ranking algorithm, the performance of ranking model depends on the training set. A training sample is constructed by labeling the relevance of a document and a given query by human. However, the number of queries in Web search is nearly infinite and the human labeling cost is expensive. Therefore, it is necessary to select subset of queries to construct an efficient training set. In this paper, we develop a greedy algorithm to select queries, by simultaneously taking the query difficulty, density and diversity into consideration. The experimental results on LETOR and a collected Web search dataset show the proposed method can lead to a more efficient training set. Recently image search engines mainly base on associated textual information. Image reranking is an effective approach to refine the initial text-based search result by mining the visual information of the returned images. And the estimation of visual similarity is the fundamental factor in reranking methods. However, the existing similarity measures are independent of the query. In this paper, we propose a query dependent method by incorporating the global visual similarity, local visual similarity and visual word cooccurrence into an iterative propagation framework. Then we embed the query dependent similarity into random walk rereanking method. The experiments on a collected Live Image dataset demonstrate that the proposed query dependent similarity outperforms the global, local similarity and their linear combination. Key Words: rank models in search engineer, learning to rank, construct training set, image reranking, extract features for image, measure similarity between images
I
摘 要
部特征的相似性,以及视觉单词同时出现率融合到一个迭代算法中,挖掘出 与查ຫໍສະໝຸດ Baidu词相关的图像信息,计算相似性。实验结果表明本文提出的相似性度 量方法优于基于全局特征,局部特征,或它们线性组合的相似性。 关键词:搜索引擎的相关性排序模型,自学习排序模型,构造训练集,图像重排 序,图像特征提取,图像相似性度量
表 1.1 中国搜索引擎用户不满意因素及比例
不满意因素 搜索结果重复 搜索结果排序欠佳 搜索结果杂乱 搜索结果不合适 广告太多 所占比例
50% 43% 37% 36% 35%
另外,在普遍的关键词检索系统中用户一般只是键入少数几个词语。Spink 等 对搜索引擎的近 300 位用户调查,发现人均输入的检索词为 3.34 个。国内部分学 者也发现 90%左右的用户输入的中文检索单字为 2~6 个,而且 2 字词居多,约占 58%,其次为 4 字词(约占 18%)和 3 字词(约占 14%)。然而检索词所提供的用户需 求信息是很重要的,过少的检索词事实上无法真正表达用户的检索需求,而且很多 用户从不使用高级检索功能,据不完全统计约 40%的用户不能正确运用字段检索或 二次检索,80%左右的用户不能正确运用高级检索功能,但他们都希望搜索引擎将 最想要的结果尽可能地放到查询结果的前面。因此研究搜索引擎的相关性排序算 法,提高用户满意度已经成为搜索引擎系统的紧要任务。
图 1.1 Google 搜索引擎中用户输入关键词“www”返回的查询结果
1
第 1 章 绪论
当前搜索引擎返回的查询结果与用户需求的相关程度并不理想。根据中国互联 网络信息中心调查报告,中国搜索引擎用户不满意因素及比例如表 1.1。因此需要 研究搜索引擎中的相关性排序算法,将与用户需求相关度高的网页排在前面。
中国科学技术大学学位论文授权使用声明
作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有 学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文 的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中国学位论文 全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保 存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 □公开 □保密(____年) 导师签名:_______________ 签字日期:_______________
作者签名:_______________ 签字日期:_______________
第 1 章 绪论
第1章
1.1 选题研究背景
绪论
随着计算机系统性能的提高和网络技术的不断进步,万维网得到了蓬勃发展, 成为全球最大的信息资源库。据发表在《科学》杂志 1999 年 7 月的文章《万维网 信息的可访问性》估计,万维网上的网页超过 8 亿,有效数据约 15T,并且仍以每 4 个月翻一番的速度增长。调查显示 2008 年初,全球可索引的网页已高达 156 亿。用户要在如此庞大杂乱的万维网资源中查找所需要的信息,就像大海捞针一 样,搜索引擎技术恰好解决了这一难题。搜索引擎是基于万维网平台,提供网络信 息检索服务的工具。用户给出关键词作为查询请求,搜索引擎在万维网上收集,整 理信息,并且按照用户需求返回相关的查询结果,帮助人们拒绝和忽略大量无关信 息,从而起到信息导航的作用。 一般来说,评价一个搜索引擎性能的主要指标[1]是:查全率、查准率、检索 速度、检索系统的易用性和检索费用。目前搜索引擎的查全率、检索速度、检索系 统的易用性和检索费用能基本满足用户需求,然而用户对查准率并不满意。如图 1.1 , 用 户 在 Google 中 输 入 关 键 词 “ www ” , 该 搜 索 引 擎 仅 用 0.07 秒 返 回 15680000000 查询结果, 但前 5 个结果都不是用户期望的。该搜索引擎用户界面简 单易用,提供免费搜索服务,返回成千上万的网页,查全率高,但用户期望的结果 往往并不排在前列,并且查询结果中有着大量的重复,无关,无用的网页。
1.2 相关性排序研究意义
中国互联网络信息中心调查报告指出,有 82.5%的网民经常使用搜索引擎, 83.4%的用户通过搜索引擎得知新网站。可见,搜索引擎在大家日常的网络生活中 发挥了重要作用。一个优秀的搜索引擎能从巨量的、形如垃圾的信息中发现真正的 知识,通过对信息的甄别、加工、提纯,带来信息价值的提升。然而由于当今搜索 引擎相关性排序算法并不完善,用户通常需要从大量的返回结果中手工挑选相关网 页,搜索引擎的导航功能没有发挥明显优势。 在搜索引擎发展的初期,搜索结果的排列只是根据搜索引擎在数据库中找到匹 配网页的先后次序,不保证排在前面的网页与用户查询的相关性更大,因此不能帮 助用户从过载的海量信息中快速地选取真正相关的信息。目前搜索引擎访问的网页 数量已达到上十亿的规模,通常搜索结果包含成千上万的网页,即便这些网页都是 用户所需要的,用户也不可能浏览所有的网页。如何将更相关的网页排在前面,减 少用户浏览网页的数目,帮助其快速找到需要的信息,是一项很有意义且富有挑战
相关文档
最新文档