2-5 搜索引擎性能评价
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
33
第一:查询样例集合:真实性
如何构建真实的查询样例集合? 信息检索评测:搜索引擎的用户日志
• TREC Web检索任务:Live或者Yahoo! • 北大SEWM评测:天网搜索 • SogouT评测:搜狗搜索
34
第一:查询样例集合:真实性 如何构建真实的查询样例集合? 日志收集的隐私保护 (AOL) 无法收集日志数据时的折衷方案
实验的主要结论
• 标引语言的检索性能排序:单元词最好,受 控语言次之,自然语言最差 • 使用单元词法时,引入词形与同义控制有一 定效果,但若加强控制,检索性能会降低 • 对于受制语言,在受制词外,若再引入上位 词或上下位词或相关词,系统性能会降低
25
(3)Cranfield评价体系 体系建立 Cleverdon等人于上世纪五十年代末到六十年代初 在Cranfield University工作时提出 确立了评价在信息检索研究中的核心地位 体系组成 评测语料 查询样例 标准答案 评价指标
9
搜索产品的未来
社交化 移动化 整合暗网数据 知识?推理? 自然语言问答 多模态交互方式 可视化 ……
10
ห้องสมุดไป่ตู้
主要内容:
搜索引擎体系结构设计理念
搜索引擎性能评价
11
搜索引擎性能评价的现状
12
搜索引擎性能评价的现状
13
性能评价的作用
对搜索引擎用户而言: 挑选最有利于获取信息的手段 对搜索引擎工程师而言: 算法及数据处理方式有效性的判断 对搜索引擎广告商而言: 挑选最有效的广告投放手段 评价在信息检索系统的研发中一直处于 核心的地位,以致于算法与其效果评价 方式是合二为一的(Saracevic, SIGIR 1995)
1 2 3 4 1 4 3 6 / /f/hotweb/053/17/88017.htm / /fight/warcraft/
基本按照顺序进行点击 点击的页面都是关于查询词的内容丰富的站点 或hub型页面
40
第三:查询样例集合:代表性
举例:魔兽争霸 用户3:游戏下载(事务类)
点击次序 被点击结果的排序 URL
1 2 3 4 3 2 /f/hotweb/053/17/88017.htm / /
26
(3)Cranfield评价体系
语料库
查询样例 标准答案
语料库
查询样例 查询结果列表
待评价 搜索引擎
评价指标
评价结果
27
(3) Cranfield评价体系 如何用Cranfield评价体系进行检索效果评价 如何构建语料库集合 如何构建查询样例集合 面临哪些技术问题? 构建的方法是什么? 如何构建标准答案集合 如何设计评价指标
内容索引子系统:节约每一个比特 链接结构分析子系统:舍弃在线计算的HITS算法 内容检索子系统:舍弃复杂的自然语言和语义理解
8
搜索引擎体系结构设计理念
(4)强调可扩展性的设计理念
数据抓取子系统的可扩展性 应对硬件资源扩展 内容索引系统的可扩展性 新抓取的内容数据 内容检索系统的可扩展性 新增加的排序因素 链接结构分析系统的可扩展性 新出现的网页数据
搜索引擎作为网络信息检索工具的属性
• 形式:传统的信息检索评价方法在网络环境中的应 用。 • 信息检索系统的评价方式如何应用于搜索引擎?
我们的研究重点
16
(1)如何研究性能评价 效率 还是 效果 效率 (Efficiency)
• 用户需求是否得到了很快的响应? • 为满足用户需求耗费了多大规模的硬件资源? • 指标举例:响应时间、索引量、开销
效果 (Effectiveness)
• 搜索结果列表是否合理? • 是否满足了用户的信息需求? • 指标举例:查全率/查准率
我们的研究重点
17
(2)搜索引擎检索效果评价
如何进行检索效果评价? “黑箱”评价方式
• 关注搜索引擎系统的输入、输出 • 不关注搜索引擎的具体实现方式
具体实现:
被点击结 点击次序 果的排序 1
9
URL
/
结束查询
被点击结 点击次序 果的排序 1
7
URL
/war3/wc3/
结束查询
39
第三:查询样例集合:代表性
举例:魔兽争霸 用户2:获取资讯(信息类)
点击次序 被点击结果的排序 URL
(1)用户需求驱动的设计理念 (2)有损优化的设计理念
(3)强调效率的设计理念
(4)强调可扩展性的设计理念
5
搜索引擎体系结构设计理念
(1)用户需求驱动的设计理念
根据用户需求确定网页抓取、更新的频率
根据用户需求确定网页层次索引结构的组成
根据用户需求确定检索算法设计
根据用户需求设计链接结构分析算法,确定网 页质量评估的方式
30
(3) Cranfield评价体系
Cranfield评价体系下的一些评测语料 文本信息检索会议语料
• • • • • Text REtrieval Conference, TREC( / ) 1992年开始,由NIST和DARPA共同承办 至今为止已有300余家单位参与 CMU, Umass, UIUC, IBM, MS, … THU, PKU, NUS, TOKYO, …
28
(3) Cranfield评价体系
语料库
查询样例 标准答案 查询结果列表
待评价 搜索引擎
评价指标
评价结果
29
① 语料库集合
语料库集合是指与信息检索系统应用目标相一致 的语料数据集合。 对于信息检索系统 提供固定的语料库集合 集合规模适当:与单块主流价位硬盘的存储能 力适应(VLC2, 1997, 200G) 数据质量可靠:集中在特定范围抓取(.edu, .gov) 对于商业搜索引擎 不需额外提供语料库 “不公平”的博弈? Index Size War, 暗网抓取, …
24
Cranfield-Ⅱ评价实验
实验文献对象
• 内容为高速航空动力学与飞行器结构的1400 篇文献(研究报告)
实验过程
• 对每篇研究报告用4种标引语言处理 • 研究报告作者根据报告内容共拟定了221个 检索式 • 对每个检索提问在不同控制模式上进行实 验,记录实验结果
Cranfield-Ⅱ评价实验
14
搜索引擎性能评价
1. 搜索引擎评价与Cranfield评价体系
2. 查询样例集合构建
3. 正确答案集合构建
4. 搜索引擎评价指标
15
1. 搜索引擎评价与Cranfield评价体系
(1)如何研究性能评价?服务提供商 还是 信息 检索工具 搜索引擎作为网络服务供应商的属性
• 形式:用户问卷调查 • 举例:CNNIC中国搜索引擎市场调查报告
实验检索提问
• 提供1200个由文献作者拟定的检索提问
20
Cranfield-Ⅰ评价实验
实验结果
语言 UDC 标题语言 分面分类法 单元词 检索课题数 成功课题数 1157 1154 1047 1146 875 941 773 940 失败课题数 成功率(%) 282 213 274 206 75.6 81.5 73.8 82.0
• Cranfield评价体系 • 给定标准输入,标准输出 • 用标准输入下系统输出与标准输出 的差异来衡量系统性能
18
1. 搜索引擎评价与Cranfield评价体系 Cranfield-Ⅰ评价实验
实验时间
• 1957-1962
实验地点
• 英国Cranfield市航空学院图书馆
评价对象
6
搜索引擎体系结构设计理念
(2)有损优化的设计理念
核心:搜索引擎是资源密集的网络产品,要把有
限的资源用在合理的方向,尽可能满足最大多数
的查询。
部分网页抓取更新频率要高于其它网页 高水平的硬件部件只应用于高质量网页的索引
7
搜索引擎体系结构设计理念
(3)强调效率的设计理念
数据抓取子系统:节省带宽/提升R/提升U
21
Cranfield-Ⅰ评价实验
主要结论
• 4种检索语言的检索成功率大致相同(约80 %) • 检索失败的主要因素
– 由4个因素决定:提问(17%),标引(60%) ,检索(17%)与系统(6% ) – 主要因素是标引与检索(77%),其中55%是人 的因素造成的,另22%是由标引时间引起的
37
第二:查询样例集合:代表性 查询的热门程度 对于搜索引擎改进算法
• 二八定律:改进少数查询即可满足大部分用户 • 长尾定律:冷门查询决定大量用户的搜索偏好
– 例:姓名查询、公司主页查询
对于查询样例集合构建
• 充分重视热门查询 • 采样适当的冷门查询
38
第三:查询样例集合:代表性 举例:魔兽争霸 用户1:到达某些特定站点(导航类)
其他语料:NTCIR语料, SEWM语料, SogouT语料 (/labs/resources.html) 复旦语料库
31
Cranfield评价体系
语料库
查询样例 标准答案 查询结果列表
待评价 搜索引擎
评价指标
评价结果
32
② 查询样例集合
查询样例集合是指评价搜索引擎性能时,模拟用户 实际需求向搜索引擎提出的查询(query)集合。 核心问题:如何采样 ComScore:More than 18.2 billion explicit core searches were conducted in December in U.S. 艾瑞咨询:2011年第三季度中国网页搜索请求量 达775.1亿次 采样技术挑战 真实性:真实查询信息收集 代表性:搜索引擎各方面性能 精确性:减少歧义,方便标注
– 垂直搜索是否存在?索引是否全面?
• 查询的热门程度:
– 用户反馈信息数量不同 – 用少量的查询样例代表大多数 需求类别(二八定律)
36
第二:查询样例集合:代表性
查询的热门程度 查询频度分布(2008年6月, 某搜索引擎)
• 查询总数:1500万以上 • Top 10,000: 覆盖超过56%的用户需求 • 二八定律?(在任何一组东西中,最重要的只占其中 一小部分 ) • 长尾定律?(不受到重视的销量小,种类多的产品或 服务由于总量巨大,累积起来的总收益超过主流产 品的现象 )
• 查全率与查准率间的互逆关系
– 查准率每提高1%,查全率降低3%
22
23
Cranfield-Ⅱ评价实验
实验时间 • 1963-1966 评价对象 • 4种标引语言:单元词,受控词(《工程师联合 会叙词表》),自然语言短语,题名与文摘中 的关键词 评价目标 • 标引语言的不同控制模式(词形控制、同义控 制、等级控制、相关参照、概念组配方式及组 合)对检索效果的影响
• 评价4种不同的标引语言(标题语言,单元词语 言,UDC,专业分面分类法)
实验目的
• 比较上述4种标引语言的性能及其相关问题
19
Cranfield-Ⅰ评价实验
实验文献对象
• 内容为航空学与高速航空动力学的18000篇文献(研 究报告与期刊论文各占一半)
实验标引人员选择
• 3名不同水平(专业知识、标引经验)的标引人员使 用上述不同的标引语言在不同时间对文献进行标引 处理,并将标引结ouQ, WSCD, Yandex
35
第二:查询样例集合:代表性
代表性是指构建的查询样例集合能反映搜索用户群 体的查询偏好,而不是少数用户的需求,能够测量 搜索引擎各方面性能。 如何全面评价搜索引擎性能? 通常考虑的采样依据有哪些?
• 查询的内容类别:
搜索引擎体系结构设计理念 与性能评价
搜索引擎体系结构
2
主要内容:
搜索引擎体系结构设计理念
搜索引擎性能评价
3
搜索引擎体系结构设计理念
搜索引擎各子系统的主要功能和技术问题
数据抓取子系统 内容索引子系统 内容检索子系统 链接分析子系统
共性的设计理念有哪些?
4
搜索引擎体系结构设计理念
第一:查询样例集合:真实性
如何构建真实的查询样例集合? 信息检索评测:搜索引擎的用户日志
• TREC Web检索任务:Live或者Yahoo! • 北大SEWM评测:天网搜索 • SogouT评测:搜狗搜索
34
第一:查询样例集合:真实性 如何构建真实的查询样例集合? 日志收集的隐私保护 (AOL) 无法收集日志数据时的折衷方案
实验的主要结论
• 标引语言的检索性能排序:单元词最好,受 控语言次之,自然语言最差 • 使用单元词法时,引入词形与同义控制有一 定效果,但若加强控制,检索性能会降低 • 对于受制语言,在受制词外,若再引入上位 词或上下位词或相关词,系统性能会降低
25
(3)Cranfield评价体系 体系建立 Cleverdon等人于上世纪五十年代末到六十年代初 在Cranfield University工作时提出 确立了评价在信息检索研究中的核心地位 体系组成 评测语料 查询样例 标准答案 评价指标
9
搜索产品的未来
社交化 移动化 整合暗网数据 知识?推理? 自然语言问答 多模态交互方式 可视化 ……
10
ห้องสมุดไป่ตู้
主要内容:
搜索引擎体系结构设计理念
搜索引擎性能评价
11
搜索引擎性能评价的现状
12
搜索引擎性能评价的现状
13
性能评价的作用
对搜索引擎用户而言: 挑选最有利于获取信息的手段 对搜索引擎工程师而言: 算法及数据处理方式有效性的判断 对搜索引擎广告商而言: 挑选最有效的广告投放手段 评价在信息检索系统的研发中一直处于 核心的地位,以致于算法与其效果评价 方式是合二为一的(Saracevic, SIGIR 1995)
1 2 3 4 1 4 3 6 / /f/hotweb/053/17/88017.htm / /fight/warcraft/
基本按照顺序进行点击 点击的页面都是关于查询词的内容丰富的站点 或hub型页面
40
第三:查询样例集合:代表性
举例:魔兽争霸 用户3:游戏下载(事务类)
点击次序 被点击结果的排序 URL
1 2 3 4 3 2 /f/hotweb/053/17/88017.htm / /
26
(3)Cranfield评价体系
语料库
查询样例 标准答案
语料库
查询样例 查询结果列表
待评价 搜索引擎
评价指标
评价结果
27
(3) Cranfield评价体系 如何用Cranfield评价体系进行检索效果评价 如何构建语料库集合 如何构建查询样例集合 面临哪些技术问题? 构建的方法是什么? 如何构建标准答案集合 如何设计评价指标
内容索引子系统:节约每一个比特 链接结构分析子系统:舍弃在线计算的HITS算法 内容检索子系统:舍弃复杂的自然语言和语义理解
8
搜索引擎体系结构设计理念
(4)强调可扩展性的设计理念
数据抓取子系统的可扩展性 应对硬件资源扩展 内容索引系统的可扩展性 新抓取的内容数据 内容检索系统的可扩展性 新增加的排序因素 链接结构分析系统的可扩展性 新出现的网页数据
搜索引擎作为网络信息检索工具的属性
• 形式:传统的信息检索评价方法在网络环境中的应 用。 • 信息检索系统的评价方式如何应用于搜索引擎?
我们的研究重点
16
(1)如何研究性能评价 效率 还是 效果 效率 (Efficiency)
• 用户需求是否得到了很快的响应? • 为满足用户需求耗费了多大规模的硬件资源? • 指标举例:响应时间、索引量、开销
效果 (Effectiveness)
• 搜索结果列表是否合理? • 是否满足了用户的信息需求? • 指标举例:查全率/查准率
我们的研究重点
17
(2)搜索引擎检索效果评价
如何进行检索效果评价? “黑箱”评价方式
• 关注搜索引擎系统的输入、输出 • 不关注搜索引擎的具体实现方式
具体实现:
被点击结 点击次序 果的排序 1
9
URL
/
结束查询
被点击结 点击次序 果的排序 1
7
URL
/war3/wc3/
结束查询
39
第三:查询样例集合:代表性
举例:魔兽争霸 用户2:获取资讯(信息类)
点击次序 被点击结果的排序 URL
(1)用户需求驱动的设计理念 (2)有损优化的设计理念
(3)强调效率的设计理念
(4)强调可扩展性的设计理念
5
搜索引擎体系结构设计理念
(1)用户需求驱动的设计理念
根据用户需求确定网页抓取、更新的频率
根据用户需求确定网页层次索引结构的组成
根据用户需求确定检索算法设计
根据用户需求设计链接结构分析算法,确定网 页质量评估的方式
30
(3) Cranfield评价体系
Cranfield评价体系下的一些评测语料 文本信息检索会议语料
• • • • • Text REtrieval Conference, TREC( / ) 1992年开始,由NIST和DARPA共同承办 至今为止已有300余家单位参与 CMU, Umass, UIUC, IBM, MS, … THU, PKU, NUS, TOKYO, …
28
(3) Cranfield评价体系
语料库
查询样例 标准答案 查询结果列表
待评价 搜索引擎
评价指标
评价结果
29
① 语料库集合
语料库集合是指与信息检索系统应用目标相一致 的语料数据集合。 对于信息检索系统 提供固定的语料库集合 集合规模适当:与单块主流价位硬盘的存储能 力适应(VLC2, 1997, 200G) 数据质量可靠:集中在特定范围抓取(.edu, .gov) 对于商业搜索引擎 不需额外提供语料库 “不公平”的博弈? Index Size War, 暗网抓取, …
24
Cranfield-Ⅱ评价实验
实验文献对象
• 内容为高速航空动力学与飞行器结构的1400 篇文献(研究报告)
实验过程
• 对每篇研究报告用4种标引语言处理 • 研究报告作者根据报告内容共拟定了221个 检索式 • 对每个检索提问在不同控制模式上进行实 验,记录实验结果
Cranfield-Ⅱ评价实验
14
搜索引擎性能评价
1. 搜索引擎评价与Cranfield评价体系
2. 查询样例集合构建
3. 正确答案集合构建
4. 搜索引擎评价指标
15
1. 搜索引擎评价与Cranfield评价体系
(1)如何研究性能评价?服务提供商 还是 信息 检索工具 搜索引擎作为网络服务供应商的属性
• 形式:用户问卷调查 • 举例:CNNIC中国搜索引擎市场调查报告
实验检索提问
• 提供1200个由文献作者拟定的检索提问
20
Cranfield-Ⅰ评价实验
实验结果
语言 UDC 标题语言 分面分类法 单元词 检索课题数 成功课题数 1157 1154 1047 1146 875 941 773 940 失败课题数 成功率(%) 282 213 274 206 75.6 81.5 73.8 82.0
• Cranfield评价体系 • 给定标准输入,标准输出 • 用标准输入下系统输出与标准输出 的差异来衡量系统性能
18
1. 搜索引擎评价与Cranfield评价体系 Cranfield-Ⅰ评价实验
实验时间
• 1957-1962
实验地点
• 英国Cranfield市航空学院图书馆
评价对象
6
搜索引擎体系结构设计理念
(2)有损优化的设计理念
核心:搜索引擎是资源密集的网络产品,要把有
限的资源用在合理的方向,尽可能满足最大多数
的查询。
部分网页抓取更新频率要高于其它网页 高水平的硬件部件只应用于高质量网页的索引
7
搜索引擎体系结构设计理念
(3)强调效率的设计理念
数据抓取子系统:节省带宽/提升R/提升U
21
Cranfield-Ⅰ评价实验
主要结论
• 4种检索语言的检索成功率大致相同(约80 %) • 检索失败的主要因素
– 由4个因素决定:提问(17%),标引(60%) ,检索(17%)与系统(6% ) – 主要因素是标引与检索(77%),其中55%是人 的因素造成的,另22%是由标引时间引起的
37
第二:查询样例集合:代表性 查询的热门程度 对于搜索引擎改进算法
• 二八定律:改进少数查询即可满足大部分用户 • 长尾定律:冷门查询决定大量用户的搜索偏好
– 例:姓名查询、公司主页查询
对于查询样例集合构建
• 充分重视热门查询 • 采样适当的冷门查询
38
第三:查询样例集合:代表性 举例:魔兽争霸 用户1:到达某些特定站点(导航类)
其他语料:NTCIR语料, SEWM语料, SogouT语料 (/labs/resources.html) 复旦语料库
31
Cranfield评价体系
语料库
查询样例 标准答案 查询结果列表
待评价 搜索引擎
评价指标
评价结果
32
② 查询样例集合
查询样例集合是指评价搜索引擎性能时,模拟用户 实际需求向搜索引擎提出的查询(query)集合。 核心问题:如何采样 ComScore:More than 18.2 billion explicit core searches were conducted in December in U.S. 艾瑞咨询:2011年第三季度中国网页搜索请求量 达775.1亿次 采样技术挑战 真实性:真实查询信息收集 代表性:搜索引擎各方面性能 精确性:减少歧义,方便标注
– 垂直搜索是否存在?索引是否全面?
• 查询的热门程度:
– 用户反馈信息数量不同 – 用少量的查询样例代表大多数 需求类别(二八定律)
36
第二:查询样例集合:代表性
查询的热门程度 查询频度分布(2008年6月, 某搜索引擎)
• 查询总数:1500万以上 • Top 10,000: 覆盖超过56%的用户需求 • 二八定律?(在任何一组东西中,最重要的只占其中 一小部分 ) • 长尾定律?(不受到重视的销量小,种类多的产品或 服务由于总量巨大,累积起来的总收益超过主流产 品的现象 )
• 查全率与查准率间的互逆关系
– 查准率每提高1%,查全率降低3%
22
23
Cranfield-Ⅱ评价实验
实验时间 • 1963-1966 评价对象 • 4种标引语言:单元词,受控词(《工程师联合 会叙词表》),自然语言短语,题名与文摘中 的关键词 评价目标 • 标引语言的不同控制模式(词形控制、同义控 制、等级控制、相关参照、概念组配方式及组 合)对检索效果的影响
• 评价4种不同的标引语言(标题语言,单元词语 言,UDC,专业分面分类法)
实验目的
• 比较上述4种标引语言的性能及其相关问题
19
Cranfield-Ⅰ评价实验
实验文献对象
• 内容为航空学与高速航空动力学的18000篇文献(研 究报告与期刊论文各占一半)
实验标引人员选择
• 3名不同水平(专业知识、标引经验)的标引人员使 用上述不同的标引语言在不同时间对文献进行标引 处理,并将标引结ouQ, WSCD, Yandex
35
第二:查询样例集合:代表性
代表性是指构建的查询样例集合能反映搜索用户群 体的查询偏好,而不是少数用户的需求,能够测量 搜索引擎各方面性能。 如何全面评价搜索引擎性能? 通常考虑的采样依据有哪些?
• 查询的内容类别:
搜索引擎体系结构设计理念 与性能评价
搜索引擎体系结构
2
主要内容:
搜索引擎体系结构设计理念
搜索引擎性能评价
3
搜索引擎体系结构设计理念
搜索引擎各子系统的主要功能和技术问题
数据抓取子系统 内容索引子系统 内容检索子系统 链接分析子系统
共性的设计理念有哪些?
4
搜索引擎体系结构设计理念