03_搜索引擎性能评价
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
挑选最有效的广告投放手段 评价在信息检索系统的研发中一直处于 核心的地位,以致于算法与其效果评价 方式是合二为一的(Saracevic, SIGIR 1995)
性能评价的作用
失败是成功之母
从较差查询样例中学习
如何研究性能评价
服务提供商 还是 信息检索工具
搜索引擎作为网络服务供应商的属性 形式:用户问卷调查 举例:CNNIC中国搜索引擎市场调查报告 搜索引擎作为网络信息检索工具的属性 形式:传统的信息检索评价方法在网络环境中的 应用。 信息检索系统的评价方式如何应用于搜索引擎?
查询样例集合:代表性
查询样例集合的代表性
查询热门程度 充分重视热门查询的作用 必须有适当的冷门查询代表 查询信息需求 包含导航类、信息类、事务类三种不同类型的查 询信息需求 三种信息需求类别比例约为:2: 5: 3
查询样例集合:精确性
为什么要构建精确的查询
标注人员 v.s. 真实用户:减少主观影响
从搜索引擎的角度来观察用户: 一维的查询流(1.94 terms per query) 小查询,大责任 繁杂的数据环境、丰富的用户意图 查询信息需求(information need) 用户查询背后的不同类型 的信息获取需要 直接反映在用户与搜索引擎 的交互行为上
查询样例集合:代表性
举例:魔兽争霸
用户1:到达某些特定站点
点击次序 1 被点击结 果的排序
9
URL
war3xp.xiyou.net/
结束查询 点击次序 1 被点击结 果的排序
7
URL
www.aomeisoft.com/war3/wc3/
结束查询
查询样例集合:代表性
举例:魔兽争霸
用户2:游戏下载
点击次序 被点击结果的排序 URL
采样技术挑战
真实性:真实查询信息收集 代表性:搜索引擎各方面性能 精确性:减少歧义,方便标注
查询样例集合:真实性
如何构建真实的查询样例集合?
信息检索评测:搜索引擎的用户日志 TREC Web检索任务:Live或者Yahoo! 北大SEWM评测:天网搜索 SogouT评测:搜狗搜索 日志收集的隐私保护 (AOL) 无法收集日志数据时的折衷方案 百度风云榜,每日热搜词 公开资源:SogouQ, WSCD, Yandex
体系组成
评测语料 查询样例 标准答案 评价指标
Cranfield评价体系
语料库 查询样例 标准答案 语料库 查询样例 查询结果列表 待评价 搜索引擎
评价指标
评价结果
Cranfield评价体系
Cranfield评价体系下的一些评测语料
文本信息检索会议语料 Text REtrieval Conference, TREC 1992年开始,由NIST和DARPA共同承办 至今为止已有300余家单位参与 CMU, Umass, UIUC, IBM, MS, … THU, PKU, NUS, TOKYO, … 其他语料:NTCIR语料, SEWM语料, SogouT语料
“黑箱”评价方式 关注搜索引擎系统的输入、输出 不关注搜索引擎的具体实现方式 具体实现: Cranfield评价体系 给定标准输入,标准输出 用标准输入下系统输出与标准输出 的差异来衡量系统性能
Cranfield评价体系
体系建立
Cleverdon等人于上世纪五十年代末到六十年代初在 Cranfield University工作时提出 确立了评价在信息检索研究中的核心地位
1 4 www.it.com.cn/f/hotweb/053/17/88017.htm
2
3 4 5 6 7 8
3
2 1 5 7 10 魔兽争霸3下载
war3.ogame.net/
www.gamedge.net/ war3.cga.com.cn/ games.tom.com/zhuanti/war3/ www.aomeisoft.com/war3/wc3/ war3xp.xiyou.net/ ewnf.com/1/war.htm
问题:检索需求歧义 与 检索需求多样化
查询样例集合:精确性
如何保证信息需求的精确表述?
Cranfield评价体系
语料库 查询样例 标准答案 查询结果列表 待评价 搜索引擎
评价指标
评价结果
标准答案集合
评价标准的主观性难以避免
不同标注人员的判定标准差异 TREC 2008:两人标注767篇文档 意见一致:85篇文档相关,567篇不相关 意见不一:115篇文档 200篇“有可能”相关的文档中, 有58%的文档观点不一致 在查询样例集合构建时 添加精确的信息需求描述的必要性
baidu sogou soso
1.2E+07 1.0E+07 8.0E+06 6.0E+06 4.0E+06 2.0E+06 0.0E+00
baidu
sogou
soso
0
1
2
3
4
5
6
7
8
9
10 11 12 >13
0
1
2
3
4
5
6
7
8
9
10 11 12 >13
搜索引擎检索效果评价
如何进行检索效果评价?
查询样例集合:代表性
如何全面评价搜索引擎性能?
用少量的查询样例代表大多数需求类别 通常考虑的采样依据有哪些? 查询的内容类别:
垂直搜索是否存在?索引是否全面?
查询的热门程度:
用户反馈信息数量不同
查询的信息需求类别:
搜索算法设计不同
查询样例集合:代表性
查询的热门程度
搜索引擎性能评价
刘奕群 清华大学计算机系 智能技术与系统国家重点实验室 2012年7月9日
搜索引擎性能评价的现状
搜索引擎性能评价的现状
CNNIC
性能评价的作用
对搜索引擎用户而言:
挑选最有利于获取信息的手段
对搜索引擎工程师而言:
算法及数据处理方式有效性的判断
对搜索引擎广告商而言:
结果URL
www.tsinghua.edu.cn baike.baidu.com/view/1563.htm kaoshi.edu.sina.com.cn/college/c/10003.shtml www.lib.tsinghua.edu.cn map.baidu.com/#word=%c7%e5%bb%aa%b4%f3%d1%a7 www.nthu.edu.tw www.thsolar.com ad.tsinghua.edu.cn news.baidu.com/ns?word=%c7%e5%bb%aa%b4%f3%d1 %a7
查询样例集合:代表性
举例:魔兽争霸
用户3:获取资讯
点击次序 被点击结果的排序 URL
1 2 3 1 4 3 war3.cga.com.cn/ www.it.com.cn/f/hotweb/053/17/88017.htm war3.ogame.net/
4
6
www.pcgames.com.cn/fight/warcraft/
我们的研究重点
如何研究性能评价
效率 还是 效果
效率 (Efficiency) 用户需求是否得到了很快的响应? 为满足用户需求耗费了多大规模的硬件资源? 指标举例:响应时间、索引量、开销 效果 (Effectiveness) 搜索结果列表是否合理? 是否满足了用户的信息需求? 我们的研究重点 指标举例:查全率/查准率
标准答案集合
Pooling方法
假设:没有被任何一个检索系统检索出的答案对 于评价检索系统的性能没有意义。
文本语料 查询样例集 检索系统2
...
标准答案集 检索系统N
检索系统1
手工 标注
结果池
标准答案集合
相关 v.s. 关键
序号
1 2 3 4 5 6 7 8
结果标题
欢迎光临清华大学 清华大学_百度百科 清华大学_新浪院校库 清华大学图书馆 清华大学地图 國立清華大學 清华阳光 清华美术学院 清华大学的相关新闻
查询样例集合:代表性
导航类(Navigational) 查询
主页查找 百度 www.baidu.com 淘宝网 www.taobao.com 北京大学 www.pku.edu.cn 主页之外的特定网页/文件查找 清华大学2009年博士研究生招生简章 护照申请表 2012年高考数学试卷
Cranfield评价体系
如何用Cranfield评价体系进行检索效果评价
如何构建语料库集合 如何构建查询样例集合 如何构建标准答案集合 如何设计评价指标
面临哪些技术问题? 构建的方法是什么?
Cranfield评价体系
语料库 查询样例 标准答案 查询结果列表 待评价 搜索引擎
查询频度分布(2008年6月, 某搜索引擎) 查询总数:1500万以上 Top 10,000: 覆盖超过56%的用户需求 二八定律?(在任何一组东西中,最重要的只占 其中一小部分 ) 长尾定律?(不受到重视的销量小,种类多的产 品或服务由于总量巨大,累积起来的总收益超 过主流产品的现象 )
查询样例集合:代表性
查询的信息需求分布情况
真实用户查询中的信息需求分布如何? Broder: 20%/50%/30% (导航/信息/事务) Rose: 14.7%/60.9%/24.4% (导航/信息/事务) 对2008年6月某搜索引擎的抽样标注:导航类约占 30.6%,信息/事务类约占69.4% 中英文用户差异 采样方法差异 通常可以采用Broder的分布比例
Cranfield评价体系
语料库 查询样例 标准答案 查询结果列表 待评价 搜索引擎
评价指标
评价结果
查询样例集合
核心问题:如何采样
ComScore:More than 18.2 billion explicit core searches were conducted in December in U.S. 艾瑞咨询:2011年第三季度中国网页搜索请求量达 775.1亿次
标准答案集合
人力资源问题
TREC会议主席Voorhees 估计 一个规模为800万的文档集合 针对1个查询主题的相关性评判 耗费1名标注人员9个月的工作时间 如何提高标准答案集合构建的效率? TREC解决方案:Pooling方法 保证评价结果可靠性的基础上 大大减少了评判工作量
基本按照顺序进行点击 点击的页面都是关于查询词的内容丰富的站点或 hub型页面
பைடு நூலகம் 查询样例集合:代表性
查询的信息需求分类体系(A. Broder, 2003)
导航类 (Navigational) 具有确定的检索目标 查找某个已知存在的页面/资源 信息类 (Informational) 没有确定的检索目标 查找与某个主题相关的页面 事务类 (Transactional) 没有确定的检索目标 查找与某个特定需求相关的资源
查询样例集合:代表性
事务类(Transactional) 查询
Ultraedit 下载 www.onlinedown.net/soft/7752.htm www.skycn.com/soft/22314.html 越狱在线播放 video.baidu.com/v?word=越狱 www.tudou.com/playlist/id/174929/ 获取相关资源,没有明确查询目标 往往一个好的结果就能完成需求
查询样例集合:代表性
信息类(Informational) 查询
香港股市 hk.finance.yahoo.com cn.biz.yahoo.com/stock/hk.html 麦迪 www.t-mac.cn tieba.baidu.com/f?kw=麦迪 获取相关信息,没有明确查询目标 往往需要不止一个结果
评价指标
评价结果
语料库集合
对于信息检索系统
提供固定的语料库集合 集合规模适当:与单块主流价位硬盘的存储能力 适应(VLC2, 1997, 200G) 数据质量可靠:集中在特定范围抓取(.edu, .gov)
对于商业搜索引擎
不需额外提供语料库 “不公平”的博弈? Index Size War, 暗网抓取, …
查询样例集合:代表性
查询的热门程度
对于搜索引擎改进算法 二八定律:改进少数查询即可满足大部分用户 长尾定律:冷门查询决定大量用户的搜索偏好
例:姓名查询、公司主页查询
对于查询样例集合构建 充分重视热门查询 采样适当的冷门查询
查询样例集合:代表性
查询的信息需求类别
性能评价的作用
失败是成功之母
从较差查询样例中学习
如何研究性能评价
服务提供商 还是 信息检索工具
搜索引擎作为网络服务供应商的属性 形式:用户问卷调查 举例:CNNIC中国搜索引擎市场调查报告 搜索引擎作为网络信息检索工具的属性 形式:传统的信息检索评价方法在网络环境中的 应用。 信息检索系统的评价方式如何应用于搜索引擎?
查询样例集合:代表性
查询样例集合的代表性
查询热门程度 充分重视热门查询的作用 必须有适当的冷门查询代表 查询信息需求 包含导航类、信息类、事务类三种不同类型的查 询信息需求 三种信息需求类别比例约为:2: 5: 3
查询样例集合:精确性
为什么要构建精确的查询
标注人员 v.s. 真实用户:减少主观影响
从搜索引擎的角度来观察用户: 一维的查询流(1.94 terms per query) 小查询,大责任 繁杂的数据环境、丰富的用户意图 查询信息需求(information need) 用户查询背后的不同类型 的信息获取需要 直接反映在用户与搜索引擎 的交互行为上
查询样例集合:代表性
举例:魔兽争霸
用户1:到达某些特定站点
点击次序 1 被点击结 果的排序
9
URL
war3xp.xiyou.net/
结束查询 点击次序 1 被点击结 果的排序
7
URL
www.aomeisoft.com/war3/wc3/
结束查询
查询样例集合:代表性
举例:魔兽争霸
用户2:游戏下载
点击次序 被点击结果的排序 URL
采样技术挑战
真实性:真实查询信息收集 代表性:搜索引擎各方面性能 精确性:减少歧义,方便标注
查询样例集合:真实性
如何构建真实的查询样例集合?
信息检索评测:搜索引擎的用户日志 TREC Web检索任务:Live或者Yahoo! 北大SEWM评测:天网搜索 SogouT评测:搜狗搜索 日志收集的隐私保护 (AOL) 无法收集日志数据时的折衷方案 百度风云榜,每日热搜词 公开资源:SogouQ, WSCD, Yandex
体系组成
评测语料 查询样例 标准答案 评价指标
Cranfield评价体系
语料库 查询样例 标准答案 语料库 查询样例 查询结果列表 待评价 搜索引擎
评价指标
评价结果
Cranfield评价体系
Cranfield评价体系下的一些评测语料
文本信息检索会议语料 Text REtrieval Conference, TREC 1992年开始,由NIST和DARPA共同承办 至今为止已有300余家单位参与 CMU, Umass, UIUC, IBM, MS, … THU, PKU, NUS, TOKYO, … 其他语料:NTCIR语料, SEWM语料, SogouT语料
“黑箱”评价方式 关注搜索引擎系统的输入、输出 不关注搜索引擎的具体实现方式 具体实现: Cranfield评价体系 给定标准输入,标准输出 用标准输入下系统输出与标准输出 的差异来衡量系统性能
Cranfield评价体系
体系建立
Cleverdon等人于上世纪五十年代末到六十年代初在 Cranfield University工作时提出 确立了评价在信息检索研究中的核心地位
1 4 www.it.com.cn/f/hotweb/053/17/88017.htm
2
3 4 5 6 7 8
3
2 1 5 7 10 魔兽争霸3下载
war3.ogame.net/
www.gamedge.net/ war3.cga.com.cn/ games.tom.com/zhuanti/war3/ www.aomeisoft.com/war3/wc3/ war3xp.xiyou.net/ ewnf.com/1/war.htm
问题:检索需求歧义 与 检索需求多样化
查询样例集合:精确性
如何保证信息需求的精确表述?
Cranfield评价体系
语料库 查询样例 标准答案 查询结果列表 待评价 搜索引擎
评价指标
评价结果
标准答案集合
评价标准的主观性难以避免
不同标注人员的判定标准差异 TREC 2008:两人标注767篇文档 意见一致:85篇文档相关,567篇不相关 意见不一:115篇文档 200篇“有可能”相关的文档中, 有58%的文档观点不一致 在查询样例集合构建时 添加精确的信息需求描述的必要性
baidu sogou soso
1.2E+07 1.0E+07 8.0E+06 6.0E+06 4.0E+06 2.0E+06 0.0E+00
baidu
sogou
soso
0
1
2
3
4
5
6
7
8
9
10 11 12 >13
0
1
2
3
4
5
6
7
8
9
10 11 12 >13
搜索引擎检索效果评价
如何进行检索效果评价?
查询样例集合:代表性
如何全面评价搜索引擎性能?
用少量的查询样例代表大多数需求类别 通常考虑的采样依据有哪些? 查询的内容类别:
垂直搜索是否存在?索引是否全面?
查询的热门程度:
用户反馈信息数量不同
查询的信息需求类别:
搜索算法设计不同
查询样例集合:代表性
查询的热门程度
搜索引擎性能评价
刘奕群 清华大学计算机系 智能技术与系统国家重点实验室 2012年7月9日
搜索引擎性能评价的现状
搜索引擎性能评价的现状
CNNIC
性能评价的作用
对搜索引擎用户而言:
挑选最有利于获取信息的手段
对搜索引擎工程师而言:
算法及数据处理方式有效性的判断
对搜索引擎广告商而言:
结果URL
www.tsinghua.edu.cn baike.baidu.com/view/1563.htm kaoshi.edu.sina.com.cn/college/c/10003.shtml www.lib.tsinghua.edu.cn map.baidu.com/#word=%c7%e5%bb%aa%b4%f3%d1%a7 www.nthu.edu.tw www.thsolar.com ad.tsinghua.edu.cn news.baidu.com/ns?word=%c7%e5%bb%aa%b4%f3%d1 %a7
查询样例集合:代表性
举例:魔兽争霸
用户3:获取资讯
点击次序 被点击结果的排序 URL
1 2 3 1 4 3 war3.cga.com.cn/ www.it.com.cn/f/hotweb/053/17/88017.htm war3.ogame.net/
4
6
www.pcgames.com.cn/fight/warcraft/
我们的研究重点
如何研究性能评价
效率 还是 效果
效率 (Efficiency) 用户需求是否得到了很快的响应? 为满足用户需求耗费了多大规模的硬件资源? 指标举例:响应时间、索引量、开销 效果 (Effectiveness) 搜索结果列表是否合理? 是否满足了用户的信息需求? 我们的研究重点 指标举例:查全率/查准率
标准答案集合
Pooling方法
假设:没有被任何一个检索系统检索出的答案对 于评价检索系统的性能没有意义。
文本语料 查询样例集 检索系统2
...
标准答案集 检索系统N
检索系统1
手工 标注
结果池
标准答案集合
相关 v.s. 关键
序号
1 2 3 4 5 6 7 8
结果标题
欢迎光临清华大学 清华大学_百度百科 清华大学_新浪院校库 清华大学图书馆 清华大学地图 國立清華大學 清华阳光 清华美术学院 清华大学的相关新闻
查询样例集合:代表性
导航类(Navigational) 查询
主页查找 百度 www.baidu.com 淘宝网 www.taobao.com 北京大学 www.pku.edu.cn 主页之外的特定网页/文件查找 清华大学2009年博士研究生招生简章 护照申请表 2012年高考数学试卷
Cranfield评价体系
如何用Cranfield评价体系进行检索效果评价
如何构建语料库集合 如何构建查询样例集合 如何构建标准答案集合 如何设计评价指标
面临哪些技术问题? 构建的方法是什么?
Cranfield评价体系
语料库 查询样例 标准答案 查询结果列表 待评价 搜索引擎
查询频度分布(2008年6月, 某搜索引擎) 查询总数:1500万以上 Top 10,000: 覆盖超过56%的用户需求 二八定律?(在任何一组东西中,最重要的只占 其中一小部分 ) 长尾定律?(不受到重视的销量小,种类多的产 品或服务由于总量巨大,累积起来的总收益超 过主流产品的现象 )
查询样例集合:代表性
查询的信息需求分布情况
真实用户查询中的信息需求分布如何? Broder: 20%/50%/30% (导航/信息/事务) Rose: 14.7%/60.9%/24.4% (导航/信息/事务) 对2008年6月某搜索引擎的抽样标注:导航类约占 30.6%,信息/事务类约占69.4% 中英文用户差异 采样方法差异 通常可以采用Broder的分布比例
Cranfield评价体系
语料库 查询样例 标准答案 查询结果列表 待评价 搜索引擎
评价指标
评价结果
查询样例集合
核心问题:如何采样
ComScore:More than 18.2 billion explicit core searches were conducted in December in U.S. 艾瑞咨询:2011年第三季度中国网页搜索请求量达 775.1亿次
标准答案集合
人力资源问题
TREC会议主席Voorhees 估计 一个规模为800万的文档集合 针对1个查询主题的相关性评判 耗费1名标注人员9个月的工作时间 如何提高标准答案集合构建的效率? TREC解决方案:Pooling方法 保证评价结果可靠性的基础上 大大减少了评判工作量
基本按照顺序进行点击 点击的页面都是关于查询词的内容丰富的站点或 hub型页面
பைடு நூலகம் 查询样例集合:代表性
查询的信息需求分类体系(A. Broder, 2003)
导航类 (Navigational) 具有确定的检索目标 查找某个已知存在的页面/资源 信息类 (Informational) 没有确定的检索目标 查找与某个主题相关的页面 事务类 (Transactional) 没有确定的检索目标 查找与某个特定需求相关的资源
查询样例集合:代表性
事务类(Transactional) 查询
Ultraedit 下载 www.onlinedown.net/soft/7752.htm www.skycn.com/soft/22314.html 越狱在线播放 video.baidu.com/v?word=越狱 www.tudou.com/playlist/id/174929/ 获取相关资源,没有明确查询目标 往往一个好的结果就能完成需求
查询样例集合:代表性
信息类(Informational) 查询
香港股市 hk.finance.yahoo.com cn.biz.yahoo.com/stock/hk.html 麦迪 www.t-mac.cn tieba.baidu.com/f?kw=麦迪 获取相关信息,没有明确查询目标 往往需要不止一个结果
评价指标
评价结果
语料库集合
对于信息检索系统
提供固定的语料库集合 集合规模适当:与单块主流价位硬盘的存储能力 适应(VLC2, 1997, 200G) 数据质量可靠:集中在特定范围抓取(.edu, .gov)
对于商业搜索引擎
不需额外提供语料库 “不公平”的博弈? Index Size War, 暗网抓取, …
查询样例集合:代表性
查询的热门程度
对于搜索引擎改进算法 二八定律:改进少数查询即可满足大部分用户 长尾定律:冷门查询决定大量用户的搜索偏好
例:姓名查询、公司主页查询
对于查询样例集合构建 充分重视热门查询 采样适当的冷门查询
查询样例集合:代表性
查询的信息需求类别