怎样量化评价搜索引擎的结果质量

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Navigational : 12.3% rmational : 62.0% Transactional : 25.7%
为了使得评估符合线上实际情况,通常查询词集合也会按比例进行选取。通 常从线上用户的Query Log文件中自动抽取。
另外查询集合的构造时,除了上述查询类型外,还可以考虑Query的频次, 对热门query(高频查询)、长尾query(中低频)分别占特定的比例。
(运算符∩ 表示两个集合的交集。|x|符号表示集合x中的元素数量)
从上面的定义不难看出,召回率和准确率的取值范围均在[0,1]之间。那么不 难想象,如果这个系统找回的相关越多,那么召回率越高,如果相关结果全 部都给召回了,那么recall 此时就等于1.0 。
被检索到 未被检索到
相关的 A∩ B A∩ B
/cn/articles/cyw-evaluate-seachengine-result-quality[2011/6/5 11:42:58 AM]
InfoQ: 怎样量化评价搜索引擎的结果质量 附图:对同一Query:“社会保险法”,各大搜索引擎的结果示意图。下面具体 谈谈评分的方法。
其中参数λε(0,1) 调节系统对Precision 和Recall 的平衡程度。(通常
取λ=0.5,此时

这里使用调和平均数而不是通常的几何平均或算术平均,原因是调和平均数 强调较小数值的重要性,能敏感的反映小数字的变化,因此更适合用来反映 检索效果。
使用F Measure的好处是只需要一个单一的数字就可以总结系统的检索效 果,便于比较不同搜索系统的整体效果。
Precision - recall 方法假定对一个给定的查询,对应一个被检索的文档集合和 一个不相关的文档集合。这里相关性被假设为二元的,用数学形式化方法来 描述,则是:
A表示相关文档集合
A表示不相关集合
B表示被检索到的文档集合
B表示未被检索到的文档集合
则单次查询的准确率和召回率可以用下述公式来表达:
P@N方法
点击因素
传统的Precision-Recall并不完全适用对搜索引擎的评估,原因是搜索引擎用 户的点击方式有其特殊性,包括:
/cn/articles/cyw-evaluate-seachengine-result-quality[2011/6/5 11:42:58 AM]
因此在量化评估搜索引擎的效果时,往往需要根据以上搜索用户的行为特 点,进行针对性的设计。
P@N的计算方法
P@N 本身是Precision@N 的简称,指的是对特定的查询,考虑位置因素,检 测前N条结果的准确率。例如对单次搜索的结果中前5篇,如果有4篇为相关 文档,则P@5 = 4/5 = 0.8 。
面,相关性可以理解 为为用户查询,4 亿用户!。
看,从用户进入搜索
框的那一刻起,到需
求获得满足为止,这之间经历的过程越顺畅,越便捷,搜索相关性就越好。
本文总结业界常用的相关性评价指标和量化评价方法。供对此感兴趣的朋友
参考。
Cranfield评价体系
Fallout 和Presion 本质是完全相同的。只是分别从正反两方面来计算。实际上 是P-R的一个变种。 再回到上图,Presion - Recall 是一个曲线,用来比较两个方法的效果往往不 够直观,能不能对两者进行综合,直接反映到一个数值上呢?为此IR学术界 提出了F值度量(F -Measure)的方法。F-Measure通过Presion和Recall的 调和平均数来计算,公式为:
InfoQ: 怎样量化评价搜索引擎的结果质量
Precision-recall(准确率-召 回率方法)
计算方法
信息检索领域最广为人知的评价指标为Precision-Recall(准确率-召回率) 方法。该方法从提出至今已经历半个世纪,至今在很多搜索引擎公司的效果 评估中使用。
顾名思义,这个方法由准确率和召回率这两个相互关联的统计量构成:召回 率(Recall)衡量一个查询搜索到所有相关文档的能力,而准确率 (Precision)衡量搜索系统排除不相关文档的能力。(通俗的解释一下:准 确率就是算一算你查询得到的结果中有多少是靠谱的;而召回率表示所有靠 谱的结果中,有多少被你给找回来了)。这两项是评价搜索效果的最基础指 标,其具体的计算方法如下。
另外,在抽取Query时,往往Query的长短也是一个待考虑的因素。因为 短query(单term的查询)和长Query(多Term的查询)排序算法往往会有 一些不同。
构成查询集合Ranking算法的环境)进行搜索,并对结果进行评 分,以决定优劣。
所以为了更清晰的描述两者间的关系,通常我们将Precison-Recall用曲线的 方式绘制出来,可以简称为P-R diagram。常见的形式如下图所示。(通常 曲线是一个逐步向下的走势,即随着Recall的提高,Precision逐步降低)
P-R的其它形态
一些特定搜索应用,会更关注搜索结果中错误的结果。例如,搜索引擎的反 作弊系统(Anti-Spam System)会更关注检索结果中混入了多少条作弊结 果。学术界把这些错误结果称作假阳性(False Positive)结果,对这些应 用,通常选择用虚报率(Fallout )来统计:
InfoQ: 怎样量化评价搜索引擎的结果质量
怎样量化评价搜索引擎的结
果质量
作者 陈运文 发布于 2011年6月1日 社区 架构 主题 互联
搜索质量评估是搜索技术研究的基础性工作,也是核心工作之一。评价 (Metrics)在搜索技术研发中扮演着重要角色,以至于任何一种新方法与他 们的评价方式是融为一体的。
InfoQ: 怎样量化评价搜索引擎的结果质量
结果的用户行为分析图。从这张图中可以看出,第一条结果获得了56.38% 的 搜索流量,第二条和第三条结果的排名依次降低,但远低于排名第一的结 果。前三条结果的点击比例大约为11:3:2 。而前三条结果的总点击几乎分流 了搜索流量的80% 。
另外的一些有趣的结论是,点击量并不是按照顺序依次递减的。排名第七位 获得的点击是最少的,原因可能在于用户在浏览过程中下拉页面到底部,这 时候就只显示最后三位排名网站,第七名便容易被忽略。而首屏最后一个结 果获得的注意力(2.55)是大于倒数第二位的(1.45),原因是用户在翻页 前,对最后一条结果印象相对较深。搜索结果页面第二页排名第一的网页 (即总排名11 位的结果)所获得的点击只有首页排名第十网站的40% ,与首 页的第一条结果相比,更是只有其1/60至1/100的点击量。
搜索引擎结果的好坏 相关厂商内容 与否,体现在业界所
称的在相关性 (Relevance)上。 相关性的定义包括狭 义和广义两方面,狭 义的解释是:检索结
Web App应用创新大赛火热报名中,开放平 台,由你做主!
视频演讲:Flash Player 10.3:新功能与增 强
果和用户查询的相关 相关赞助商 程度。而从广义的层
不相关 A∩ B A∩B
/cn/articles/cyw-evaluate-seachengine-result-quality[2011/6/5 11:42:58 AM]
InfoQ: 怎样量化评价搜索引擎的结果质量
Precision-Recall曲线
召回率和准确率分别反映了检索系统的两个最重要的侧面,而这两个侧面又 相互制约。因为大规模数据集合中,如果期望检索到更多相关的文档,必然 需要“放宽”检索标准,因此会导致一些不相关结果混进来,从而使准确率受 到影响。类似的,期望提高准确率,将不相关文档尽量去除时,务必要执行 更“严格”的检索策略,这样也会使一些相关的文档被排除在外,使召回率下 降。
A Cranfield-like approach这个名称来源于英国Cranfield University,因为在 二十世纪五十年代该大学首先提出了这样一套评价系统:由查询样例集、正 确答案集、评测指标构成的完整评测方案,并从此确立了“评价”在信息检索 研究中的核心地位。
Cranfield 评价体系由三个环节组成:
Cranfield 评价系统在各大搜索引擎公司内有广泛的应用。具体应用时,首先 需要解决的问题是构造一个测试用查询词集合。
按照Andrei Broder(曾在AltaVista/IBM/Yahoo任职)的研究,查询词可分 为3类:寻址类查询(Navigational)、信息类查询(Informational)、事务类 查询(Transactional)。对应的比例分别为
从图中可以看出,搜索结果的前3条吸引了大量的点击,属于热度最高的部 分。也就是说,对搜苏引擎来说,最前的几条结果是最关键的,决定了用户 的满意程度。
康乃尔大学的研究人员通过eye tracking实验获得了更为精确的Google搜索 /cn/articles/cyw-evaluate-seachengine-result-quality[2011/6/5 11:42:58 AM]
1. 抽取代表性的查询词,组成一个规模适当的集合 2. 针对查询样例集合,从检索系统的语料库中寻找对应的结果,进行标
注(通常人工进行) 3. 将查询词和带有标注信息的语料库输入检索系统,对系统反馈的检索
结果,使用预定义好的评价计算公式,用数值化的方法来评价检索系 统结果和标注的理想结果的接近程度
查询词集合的选取
InfoQ: 怎样量化评价搜索引擎的结果质量 A 60-65%的查询点击了名列搜索结果前10条的网页; B 20-25%的人会考虑点击名列11到20的网页; C 仅有3-4%的会点击名列搜索结果中列第21到第30名的网页 也就是说,绝大部分用户是不愿意翻页去看搜索引擎给出的后面的结果。 而即使在搜索结果的首页(通常列出的是前10条结果),用户的点击行为也 很有意思,我们通过下面的Google点击热图(Heat Map)来观察(这个热 图在二维搜索结果页上通过光谱来形象的表达不同位置用户的点击热度。颜 色约靠近红色表示点击强度越高):
MRR
上述的P@N方法,易于计算和理解。但细心的读者一定会发现问题,就是在 前N结果中,排序第1位和第N位的结果,对准确率的影响是一样的。但实际 情况是,搜索引擎的评价是和排序位置极为相关的。即排第一的结果错误, 和第10位的结果错误,其严重程度有天壤之别。因此在评价系统中,需要引 入位置这个因素。
对一些特定类型的查询应用,如寻址类的查询(Navigational Search),由 于目标结果极为明确,因此在评估时,会选择N=1(即使用P@1)。举个例 子来说,搜索“新浪网”、或“新浪首页”,如果首条结果不是 新浪网 (url:),则直接判该次查询精度不满足需求,即P@1=0
测试通常会使用一个查询集合(按照前文所述方法构造),包含若干条不同 的查询词,在实际使用P@N进行评估时,通常使用所有查询的P@N数据, 计算算术平均值,用来评判该系统的整体搜索结果质量。
N的选取
对用户来说,通常只关注搜索结果最前若干条结果,因此通常搜索引擎的效 果评估只关注前5、或者前3结果,所以我们常用的N取值 为P@3 或P@5 等。
/cn/articles/cyw-evaluate-seachengine-result-quality[2011/6/5 11:42:58 AM]
InfoQ: 怎样量化评价搜索引擎的结果质量 /cn/articles/cyw-evaluate-seachengine-result-quality[2011/6/5 11:42:58 AM]
相关文档
最新文档