网页搜索评测方法介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜搜用户 检索日志 随机、高频 中频、低频 自动挑选 程序
按频率划分 的初始集合 串集合 自动分类 程序
导航(机构) 、信 息、事务、常规
按频率类型 划分的集合 串集合 人工筛选 Fitness 评测 CaseTrace
…
错词、 乱码、 敏感、 拼音、过期、不规 范、六合彩、冗余
规范评测词 集合
模糊、导航结 果不唯一
网页搜索评测方法介绍
提纲
评测词选取 Fitness评测 NDCG评测 整体人工评测
Case跟踪 盲测
在线相关性监测
评测词选取(1/7)
1.介绍
• 评测系统的源头,影响评测结果的可信度和准确性。 • 进行科学客观的检索串抽样,尽可能覆盖用户实际的检 索分布。 • 特征维度:频次、长度、类型、类别、时间……
整体人工评测(4/7)
2)指标MAP@10
含义:Mean Average Precision,衡量引擎信息型查询返回结果的平均准 确率。该值越大表明引擎的相关性越好。 计算方法:对于每个查询词qn(n=1,…,N),在第k家搜索引擎的第i条 结果记为Rkni,则
1 MAP @10(k ) N 1 10 f ( R ) kni 10 n 1 i 1
在计算fitness同时会计算recall。
Fitness评测(2/7)
3.运用-计算引擎与标准集之间的拟合度(续)
Fitness评测(2/7)
4.优缺点
• 优点: 1)自动化; 2)周期短,响应快。
• 缺点: 1)公式受位置影响较大; 2)权重表不一定适用所有环境; 3)标准集不一定“标准”。
1 N 1 10 NAP @10(k ) f ( Rkni ) N n 1 10 i 1
其中,
1 , if ( R U ) kni f ( Rkni ) i , if ( Rkni U ) 0
U为标准答案集合。
整体人工评测(4/7)
1 , if ( Rkni 标题高亮显示查询词) f ( Rkni ) otherwise 0 ,
DCG/NDCG评测(3/7)
1.介绍
• (Normalized) Discounted Cumulative Gain • Jarvelin & Kekalainen, 2000 • 比较通用和成熟的排序准确度评价方法 • 需要人工标注 • 综合考虑人工评分和排序位置
DCG/NDCG评测(3/7)
盲测 在线监测
人工筛选 包含导航、信 息、事务三类
2000-2500 规范评测词
整体评测
Fitness评测(2/7)
1.介绍
• 计算两个排序之间的拟合度 • 综合考虑位置得分、位置和相对位置 • 自主设计
• 每个query在两家引擎结果的拟合度
• 多个query在两家引擎结果的平均拟合度
Fitness评测(2/7)
来自百度文库
Fitness评测(2/7)
2.计算公式(2)
Fitness评测(2/7)
3.运用-计算引擎之间的两两拟合度
2009.02.10 fitness指标
一个作待测排序,一个作标准排序。
Fitness评测(2/7)
3.运用-计算引擎之间的两两拟合度(续)
Fitness评测(2/7)
3.运用-计算引擎与标准集之间的拟合度
评测词选取(1/7)
2.分类(续)
• 事务型(transaction)
检索意图明确,只是不知道该需求应该在哪个网站获得 (I want to get xxx) 示例:2009考研大纲、超级兔子下载、越狱在线观看
• 常规型(common)
检索意图不明确、类型特征模糊、错误串等
评测词选取(1/7)
3.方法
含义:Title Highlighted Rate,查询词在结果标题中高亮显示的比例。 计算方法:对于长度小于8bytes(四个汉字)的每个查询词qn (n=1,…,N),在第k家搜索引擎的第i条结果记为Rkni,则
1 N 1 10 THR @10(k ) f ( Rkni ) N n 1 10 i 1
2.公式
1 NDCGi Ni
其中:
2 j 1 j 1 log 2 (1 j )
n
Relavance Rating Perfect Excellent level 5 4 3 2
r
Good rj:表示第j条结果的评分等级; Ni:为检索串i按照评分从高到底排序时的DCG,Fair
用作归一化。
1 MAG @10(k ) N
1 10 f ( R ) kni n 1 10 i 1
N
整体人工评测(4/7)
2)指标MDR@10
含义:Mean Dead Rate,首页死链率(可根据位置加权)。 计算方法:对于每个查询词qn(n=1,…,N),在第k家搜索引擎的第i条 结果记为Rkni,则
1 N MSL @10(k ) Pkn N n 1
整体人工评测(4/7)
3.2覆盖度指标
1)指标DPR@10
含义:Duplicate Rate,结果重复率。 计算方法:若两条结果内容相同,则认为两者重复。对于每个查询词qn (n=1,…,N),在第k家搜索引擎,定义重复结果数为Dkn,(抓取前10 条)实际返回结果数为Ckn,则
1 DSR( k ) N
C
n 1
N
nk
整体人工评测(4/7)
4)指标ASR
含义:Actual Search Result Number,引擎实际返回的平均结果数 计算方法:构造一个晦涩查询词表(由M个返回结果数在1至400的词语 构成),对于其中的每个查询词qn(n=1,…,M),在同一天抓取各个引 擎实际返回的结果数Cnk,则
1 RPR @ 10 N
f
n 1
N
n
(1,10 )
整体人工评测(4/7)
5)指标MSL@10
含义:Mean Search Length,平均查找长度。该值越大表明引擎的相关 性越差。 计算方法:对于每个查询词qn(n=1,…,N),在第k家搜索引擎,定义 第一条得分大于1(Excellent/Good)的结果出现的位置为Pkn,则
2.系统
DocInfo
QuerySet
GetSer
ResultSet
Stander
Snapshot
InfoSet
Calc System
StdSet
Labeling System
Metric
Reporter
Report
整体人工评测(4/7)
2.系统(续)
人工标注部分界面
整体人工评测(4/7)
2.系统(续)
含义:导航型首条命中率。 计算方法:对于每个查询词qn(n=1,…,N),在第k家搜索引擎的第1条 结果记为Rkn1 ,则
1 N HIT @1(k ) f (qn , k ) N n 1
其中,
1 , if ( Rkn1 U ) f ( qn , k ) 0 , if ( Rkn1 U )
整体人工评测(4/7)
3.指标
Relative/Ranking (相关度) Comprehensiveness/Coverage (覆盖度) Freshness (时新度) Presentation (展示功能) User (用户行为)
整体人工评测(4/7)
3.1相关性指标
1)指标HIT@1
评测词选取(1/7)
2.分类
• 导航型(navigation)
检索意图明确,准确定位目标网站(I want to go xxx) 示例:QQ邮箱、新浪网、北京大学
• 信息型(information)
查找围绕关键词的全方位描述,以期对该关键词有所了解 (I want to know about xxx) 示例:刘谦、士兵突击、九寨沟
N
其中,
1 , if ( R U ) kni f ( Rkni ) i , if ( Rkni U ) 0
整体人工评测(4/7)
3)指标MRR@10
含义:Mean Reciprocal Rank,衡量引擎事务型查询返回结果的平均准 确率。该值越大表明引擎的相关性越好。 计算方法:对于每个查询词qn(n=1,…,N),在第k家搜索引擎,定义 第一条得分大于1(Excellent/Good/)的结果出现的位置为Pkn,则
2.计算公式
1 Fitness i Ni
* (| selfrank
j 1
n
weightj stdrankj | 1) (1 ) * selfrankj
j
其中: a:为可调参数,0<a<1,通常取经验值a=0.8; selfrankj:表示待测排序中第j条结果的位置; stdrankj:表示待测排序第j条结果在标准排序 中的位置; weightj:表示标准排序中位置j上的权重; Ni:表示标准集自身的拟合度,用作归一化。
4)指标HHIT
含义:Hot Hit,热点命中率 计算方法:用最新网页在各搜索引擎中的命中率来衡量搜索结果的新 鲜度指标。采取抽样方法,选取一定数量的最新网页,建立样本池, 各搜索引擎对样本池中网页的平均命中率可以作为衡量新鲜度的指标 之一。
整体人工评测(4/7)
3.4展示功能指标
1)指标THR@10
1 ASR(k ) M
C
n 1
M
nk
整体人工评测(4/7)
3.3时新度指标
1)指标MAG@10
含义:Mean Age,结果页面的平均年龄。 计算方法:对于每个查询词qn(n=1,…,N),在第k家搜索引擎的第i条 结果记为Rkni,f(Rkni)定义为第i条结果的年龄,计算方法为:从快照库 中获取引擎抓取该条结果的时间戳,以天为单位计算与当前日期的时 间差。则
1 MRR @ 10 (k ) N
1 n 1 P kn
N
整体人工评测(4/7)
4)指标RPR@10
含义:Reverse Pair Rate,逆序对率,衡量引擎相关性排序的质量。该 值越大表明引擎的相关性越差。 计算方法:如果i > j ,并且第i项权值大于第j项,则第i和第j项称为一个 逆序对。fn(a,b) 定义为查询词 返回结果的权值序列中区间[ a, b ]内的逆 序对占总数对的比例。则
1 LAC @10(k ) N
其中,
f (q )
n 1 n
N
0 , if (Ckn 10 ) f ( qn ) 1 , if (Ckn 10 )
整体人工评测(4/7)
3)指标DSR
含义:Displayed Search Result Number,引擎自身显示的平均返回结果 数。 计算方法:对于查询qn(n=1,…,N),抓取搜索引擎k返回页面显示的 结果数为Cnk,则
1 MDR @10(k ) N 1 10 f ( Rkni ) n 1 10 i 1
N
1 , if ( Rkni为死链) f ( Rkni ) 0 , if ( Rkni不是死链)
整体人工评测(4/7)
3)指标NAP@10
含义:New Average Precision,新词及热点词查询准确率。 计算方法:对于每个查询词qn(n=1,…,N),在第k家搜索引擎的第i条 结果记为Rkni,则
1 DPR @ 10 (k ) N Dkn n 1 C kn
N
整体人工评测(4/7)
2)指标LAC@10
含义:Lack,未达链率,返回结果未达10条的查询词数占总查询词数 的比例。 计算方法:需要返回10条结果,但对于查询qn(n=1,…,N),搜索引擎 k返回的实际结果数为Ckn,则LAC@10计算如下:
Rank Aggregation
google 评 测 词 baidu yahoo 标准集构建
标准集
Fitness评测(2/7)
3.运用-计算引擎与标准集之间的拟合度(续)
当策略调整或改进,则计算搜搜与标准集之间的fitness:
1)分析整体fitness,衡量策略调整的整体影响;
2)分析单个fitness,找出对具体的变好和变坏;
Bad
0
DCG/NDCG评测(3/7)
3.运用
2009.02.10 NDCG指标
4.优缺点
• 优点:成熟、通用、实践检验。 • 缺点:需要人工标注,周期较长。
整体人工评测(3/7)
1.介绍
• R/C/F/P/U五个维度的综合评测 • 主要偏向相关性评测 • 人工+自动 • 周期:一个月
整体人工评测(4/7)
按频率划分 的初始集合 串集合 自动分类 程序
导航(机构) 、信 息、事务、常规
按频率类型 划分的集合 串集合 人工筛选 Fitness 评测 CaseTrace
…
错词、 乱码、 敏感、 拼音、过期、不规 范、六合彩、冗余
规范评测词 集合
模糊、导航结 果不唯一
网页搜索评测方法介绍
提纲
评测词选取 Fitness评测 NDCG评测 整体人工评测
Case跟踪 盲测
在线相关性监测
评测词选取(1/7)
1.介绍
• 评测系统的源头,影响评测结果的可信度和准确性。 • 进行科学客观的检索串抽样,尽可能覆盖用户实际的检 索分布。 • 特征维度:频次、长度、类型、类别、时间……
整体人工评测(4/7)
2)指标MAP@10
含义:Mean Average Precision,衡量引擎信息型查询返回结果的平均准 确率。该值越大表明引擎的相关性越好。 计算方法:对于每个查询词qn(n=1,…,N),在第k家搜索引擎的第i条 结果记为Rkni,则
1 MAP @10(k ) N 1 10 f ( R ) kni 10 n 1 i 1
在计算fitness同时会计算recall。
Fitness评测(2/7)
3.运用-计算引擎与标准集之间的拟合度(续)
Fitness评测(2/7)
4.优缺点
• 优点: 1)自动化; 2)周期短,响应快。
• 缺点: 1)公式受位置影响较大; 2)权重表不一定适用所有环境; 3)标准集不一定“标准”。
1 N 1 10 NAP @10(k ) f ( Rkni ) N n 1 10 i 1
其中,
1 , if ( R U ) kni f ( Rkni ) i , if ( Rkni U ) 0
U为标准答案集合。
整体人工评测(4/7)
1 , if ( Rkni 标题高亮显示查询词) f ( Rkni ) otherwise 0 ,
DCG/NDCG评测(3/7)
1.介绍
• (Normalized) Discounted Cumulative Gain • Jarvelin & Kekalainen, 2000 • 比较通用和成熟的排序准确度评价方法 • 需要人工标注 • 综合考虑人工评分和排序位置
DCG/NDCG评测(3/7)
盲测 在线监测
人工筛选 包含导航、信 息、事务三类
2000-2500 规范评测词
整体评测
Fitness评测(2/7)
1.介绍
• 计算两个排序之间的拟合度 • 综合考虑位置得分、位置和相对位置 • 自主设计
• 每个query在两家引擎结果的拟合度
• 多个query在两家引擎结果的平均拟合度
Fitness评测(2/7)
来自百度文库
Fitness评测(2/7)
2.计算公式(2)
Fitness评测(2/7)
3.运用-计算引擎之间的两两拟合度
2009.02.10 fitness指标
一个作待测排序,一个作标准排序。
Fitness评测(2/7)
3.运用-计算引擎之间的两两拟合度(续)
Fitness评测(2/7)
3.运用-计算引擎与标准集之间的拟合度
评测词选取(1/7)
2.分类(续)
• 事务型(transaction)
检索意图明确,只是不知道该需求应该在哪个网站获得 (I want to get xxx) 示例:2009考研大纲、超级兔子下载、越狱在线观看
• 常规型(common)
检索意图不明确、类型特征模糊、错误串等
评测词选取(1/7)
3.方法
含义:Title Highlighted Rate,查询词在结果标题中高亮显示的比例。 计算方法:对于长度小于8bytes(四个汉字)的每个查询词qn (n=1,…,N),在第k家搜索引擎的第i条结果记为Rkni,则
1 N 1 10 THR @10(k ) f ( Rkni ) N n 1 10 i 1
2.公式
1 NDCGi Ni
其中:
2 j 1 j 1 log 2 (1 j )
n
Relavance Rating Perfect Excellent level 5 4 3 2
r
Good rj:表示第j条结果的评分等级; Ni:为检索串i按照评分从高到底排序时的DCG,Fair
用作归一化。
1 MAG @10(k ) N
1 10 f ( R ) kni n 1 10 i 1
N
整体人工评测(4/7)
2)指标MDR@10
含义:Mean Dead Rate,首页死链率(可根据位置加权)。 计算方法:对于每个查询词qn(n=1,…,N),在第k家搜索引擎的第i条 结果记为Rkni,则
1 N MSL @10(k ) Pkn N n 1
整体人工评测(4/7)
3.2覆盖度指标
1)指标DPR@10
含义:Duplicate Rate,结果重复率。 计算方法:若两条结果内容相同,则认为两者重复。对于每个查询词qn (n=1,…,N),在第k家搜索引擎,定义重复结果数为Dkn,(抓取前10 条)实际返回结果数为Ckn,则
1 DSR( k ) N
C
n 1
N
nk
整体人工评测(4/7)
4)指标ASR
含义:Actual Search Result Number,引擎实际返回的平均结果数 计算方法:构造一个晦涩查询词表(由M个返回结果数在1至400的词语 构成),对于其中的每个查询词qn(n=1,…,M),在同一天抓取各个引 擎实际返回的结果数Cnk,则
1 RPR @ 10 N
f
n 1
N
n
(1,10 )
整体人工评测(4/7)
5)指标MSL@10
含义:Mean Search Length,平均查找长度。该值越大表明引擎的相关 性越差。 计算方法:对于每个查询词qn(n=1,…,N),在第k家搜索引擎,定义 第一条得分大于1(Excellent/Good)的结果出现的位置为Pkn,则
2.系统
DocInfo
QuerySet
GetSer
ResultSet
Stander
Snapshot
InfoSet
Calc System
StdSet
Labeling System
Metric
Reporter
Report
整体人工评测(4/7)
2.系统(续)
人工标注部分界面
整体人工评测(4/7)
2.系统(续)
含义:导航型首条命中率。 计算方法:对于每个查询词qn(n=1,…,N),在第k家搜索引擎的第1条 结果记为Rkn1 ,则
1 N HIT @1(k ) f (qn , k ) N n 1
其中,
1 , if ( Rkn1 U ) f ( qn , k ) 0 , if ( Rkn1 U )
整体人工评测(4/7)
3.指标
Relative/Ranking (相关度) Comprehensiveness/Coverage (覆盖度) Freshness (时新度) Presentation (展示功能) User (用户行为)
整体人工评测(4/7)
3.1相关性指标
1)指标HIT@1
评测词选取(1/7)
2.分类
• 导航型(navigation)
检索意图明确,准确定位目标网站(I want to go xxx) 示例:QQ邮箱、新浪网、北京大学
• 信息型(information)
查找围绕关键词的全方位描述,以期对该关键词有所了解 (I want to know about xxx) 示例:刘谦、士兵突击、九寨沟
N
其中,
1 , if ( R U ) kni f ( Rkni ) i , if ( Rkni U ) 0
整体人工评测(4/7)
3)指标MRR@10
含义:Mean Reciprocal Rank,衡量引擎事务型查询返回结果的平均准 确率。该值越大表明引擎的相关性越好。 计算方法:对于每个查询词qn(n=1,…,N),在第k家搜索引擎,定义 第一条得分大于1(Excellent/Good/)的结果出现的位置为Pkn,则
2.计算公式
1 Fitness i Ni
* (| selfrank
j 1
n
weightj stdrankj | 1) (1 ) * selfrankj
j
其中: a:为可调参数,0<a<1,通常取经验值a=0.8; selfrankj:表示待测排序中第j条结果的位置; stdrankj:表示待测排序第j条结果在标准排序 中的位置; weightj:表示标准排序中位置j上的权重; Ni:表示标准集自身的拟合度,用作归一化。
4)指标HHIT
含义:Hot Hit,热点命中率 计算方法:用最新网页在各搜索引擎中的命中率来衡量搜索结果的新 鲜度指标。采取抽样方法,选取一定数量的最新网页,建立样本池, 各搜索引擎对样本池中网页的平均命中率可以作为衡量新鲜度的指标 之一。
整体人工评测(4/7)
3.4展示功能指标
1)指标THR@10
1 ASR(k ) M
C
n 1
M
nk
整体人工评测(4/7)
3.3时新度指标
1)指标MAG@10
含义:Mean Age,结果页面的平均年龄。 计算方法:对于每个查询词qn(n=1,…,N),在第k家搜索引擎的第i条 结果记为Rkni,f(Rkni)定义为第i条结果的年龄,计算方法为:从快照库 中获取引擎抓取该条结果的时间戳,以天为单位计算与当前日期的时 间差。则
1 MRR @ 10 (k ) N
1 n 1 P kn
N
整体人工评测(4/7)
4)指标RPR@10
含义:Reverse Pair Rate,逆序对率,衡量引擎相关性排序的质量。该 值越大表明引擎的相关性越差。 计算方法:如果i > j ,并且第i项权值大于第j项,则第i和第j项称为一个 逆序对。fn(a,b) 定义为查询词 返回结果的权值序列中区间[ a, b ]内的逆 序对占总数对的比例。则
1 LAC @10(k ) N
其中,
f (q )
n 1 n
N
0 , if (Ckn 10 ) f ( qn ) 1 , if (Ckn 10 )
整体人工评测(4/7)
3)指标DSR
含义:Displayed Search Result Number,引擎自身显示的平均返回结果 数。 计算方法:对于查询qn(n=1,…,N),抓取搜索引擎k返回页面显示的 结果数为Cnk,则
1 MDR @10(k ) N 1 10 f ( Rkni ) n 1 10 i 1
N
1 , if ( Rkni为死链) f ( Rkni ) 0 , if ( Rkni不是死链)
整体人工评测(4/7)
3)指标NAP@10
含义:New Average Precision,新词及热点词查询准确率。 计算方法:对于每个查询词qn(n=1,…,N),在第k家搜索引擎的第i条 结果记为Rkni,则
1 DPR @ 10 (k ) N Dkn n 1 C kn
N
整体人工评测(4/7)
2)指标LAC@10
含义:Lack,未达链率,返回结果未达10条的查询词数占总查询词数 的比例。 计算方法:需要返回10条结果,但对于查询qn(n=1,…,N),搜索引擎 k返回的实际结果数为Ckn,则LAC@10计算如下:
Rank Aggregation
google 评 测 词 baidu yahoo 标准集构建
标准集
Fitness评测(2/7)
3.运用-计算引擎与标准集之间的拟合度(续)
当策略调整或改进,则计算搜搜与标准集之间的fitness:
1)分析整体fitness,衡量策略调整的整体影响;
2)分析单个fitness,找出对具体的变好和变坏;
Bad
0
DCG/NDCG评测(3/7)
3.运用
2009.02.10 NDCG指标
4.优缺点
• 优点:成熟、通用、实践检验。 • 缺点:需要人工标注,周期较长。
整体人工评测(3/7)
1.介绍
• R/C/F/P/U五个维度的综合评测 • 主要偏向相关性评测 • 人工+自动 • 周期:一个月
整体人工评测(4/7)