基于用户群体行为分析的搜索引擎自动性能评价
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索引擎效果自动评价
• 自动评价流程
搜索引擎日志
数据预处理
查询分类
导航类标注
信息类标注
搜索引擎结果抓取 性能评价指标计算与反馈
搜索引擎效果自动评价
• 按信息需求将查询样例自动分类
Yiqun Liu et al, Automatic Query Type Identification Based on Click Through Information Proceedings of the 3th Asia Information Retrieval Symposium, AIRS 2006
SE4
www.crazyenglish.org/ www.topenglish.net/ www.lyce.cn/
SE2
www.crazyenglish.org/ www.tooe.org/crazyenglish.htm www.lyce.cn/ www.topenglish.net/
SE3
www.lyce.cn/ www.tooe.org/crazyenglish.htm www.topenglish.net/
“163” => mail.163.com “搜狗” => d.sogou.com
– 答案标注的难度较低
搜索引擎效果自动评价
• 信息事务类查询的答案标注
– 以查询词”电影”为例
• 不同搜索引擎的点击分布差异大 • 存在着搜索引擎对用户行为的偏置性影响
– 索引数据偏置 – 检索策略偏置
• 结果不唯一,全面性难以保证 • 答案标注难度较大 • 需要借助多个搜索引擎的用户行为信息进行标注
搜索引擎效果自动评价
• 查询点击分布合并模型
P(urli | q) P(urli | SE j , q)P(SE j | q)
j
j
j
log(#(session of q
log(#(session of
j
in SEj )) q in SEj ))
#
(Sessions of q that # (Session of
j
• P(SE j | q) – 基于单搜索引擎进行答案标注的可信度 – 依据查询用户数来计算
P(SEj | q)
log(#(session of q in SEj )) log(#(session of q in SEj ))
j
搜索引擎效果自动评价
• P(urli | SE j , q)
• 用户点击行为差异 • 用户访问量差异 • 查询分布差异 • 搜索引擎相对重要性的差异
– 综合考虑以上因素,计算某个结果对于某个查 询的置信度
P(urli / q)
搜索引擎效果自动评价
• 合并计算结果url对于查询q的置信度
P(urli | q) P(urli | SEj , q)P(SEj | q)
– Gerard Salton 与 SMART 系统 – Sparck-Jones 的著作 “Information retrieval
experiment”
• 在线:http://www.itl.nist.gov/iaui/894.02/projects/irlib/
信息检索系统的评价方法
• 网络信息检索系统效果评价的现状
搜索引擎效果自动评价
• 针对导航类查询的结果自动标注
– 利用单个搜索引擎的点击信息即可完成 – 焦点假设:不同用户具有相同的导航类别检索
需求时,他们的点击都会集中在其检索目标网 页(或其镜像)上。 – 网页r 针对查询q的点击集中度
ClickFocus(Query q, Result r) # (Session of q that clicks r) # (Session of q)
– q的点击集中度最高的r即为其检索目标页面
搜索引擎效果自动评价
• 针对导航类查询的结果自动标注
– 标注算法:寻找针对q的ClickFocus值最大的r – 标注样例
查询 读写网 北京现代 NBA 南方都市报 卓越网
自动标注的URL http://www.duxie.net/ http://www.beijing-hyundai.com.cn/ http://china.nba.com/ http:// www.nanfangdaily.com.cn/ http:// www.joyo.com/
基于用户行为分析的性能评价
• 总体思路
– 基于Cranfield方式进行评价
• 丰富的研究经验:评价指标、查询样例选取策略等 • 便于与传统的手工标注评价方式进行比较
– 基于用户关注程度进行查询样例选取 – 基于用户行为信息进行答案自动标注
• 个体用户可能在点击过程中出现谬误 • 用户群体的点击信息则是很大程度上可靠的 • 统计用户群体的点击行为,进而对查询对应的结果
– 单独某个搜索引擎标注答案的可信程度 – 依据此搜索引擎的用户点击的宏观集中程度
来确定
P(urli | SE j , q) CD(urli | SE j , q) # (Sessions of q that click urli in SE j )
# (Session of q in SE j )
– 数据对象繁杂,标注困难
• Voorhees 估计,对一个规模为800万的文档集合进行 针对1个查询主题的相关性评判需要耗费1名标注人 员9个月的工作时间
• TREC提出pooling方法,在保证评价结果可靠性的基 础上大大减少了评判工作量
• 缺点:处理的查询数目少,针对小规模的查询集合, 仍需要耗费十余名标注人员1-2个月的工作时间
基于用户群体行为分析的 搜索引擎自动性能评价
清华大学智能技术与系统国家重点实验室 马少平
2008年4月12日,南昌
提纲
• 研究背景 • 信息检索系统的评价方法 • 基于用户行为分析的搜索引擎性能评价 • 演示系统:搜索仪 • 结论与未来工作
研究背景
• Web的发展带来了什么?
– 信息量的急剧增长
– 对查询词的近义词集合进行标注
• 根据结果网页的查询词及近义词词频进行评判 • Amitay et.al, 2004 • 初始标注工作量大,评判的可靠性不高
信息检索系统的评价方法
• 核心问题: 如何提高答案标注的自动化程度
– 利用用户行为分析方法
• Joachims et.al.(1997) 创建了一个元搜索接口,将不同 搜索引擎的结果加以混杂,把用户点击不同结果的 情况加以记录,并以此作为评判依据
• 挑选最有利于获取信息的手段
– 对搜索引擎Biblioteka Baidu程师而言:
• 算法及数据处理方式有效性的判断
– 对搜索引擎广告商而言:
• 挑选最有效的广告投放手段
研究背景
• 搜索引擎评价的考察方式
– 搜索引擎作为网络服务供应商的属性
• 形式:用户问卷调查 • 举例:CNNIC中国搜索引擎市场调查报告
– 搜索引擎作为网络信息检索工具的属性
0.0E+00 0
2000
4000
6000
8000
10000
余慧佳等,基于大规模日志分析的搜索引擎用户行为分析,中文信息学报,2007年第2期 数据来源:Sogou搜索引擎2006年2月查询日志
搜索引擎效果自动评价
• 基于用户行为信息进行答案自动标注
– 根据用户信息需求不同有所差别 – 导航类信息需求对应的答案标注
信息检索系统的评价方法
• 信息检索系统评价的起源(续)
– Cranfield-like evaluation methodology
• Cranfield在上世纪伍十年代末到六十年代初提出了基 于查询样例集、标准答案集和语料库的评测方案, 被称为IR评价的“grand-daddy”
• 确立了评价在信息检索研究中的核心地位
搜索引擎效果自动评价
• 针对信息事务类查询需求的答案自动标注
– 基于多搜索引擎用户行为挖掘
1. 利用单搜索引擎用户行为挖掘方式,进行各自独立 的标注
2. 借鉴Pooling做法,综合不同标注者(这里为搜索引 擎用户的宏观行为)的意见
搜索引擎效果自动评价
• 基于多搜索引擎用户行为挖掘的标注算法
– 需要考虑的因素
• 形式:传统的信息检索评价方法在网络环境中的应 用。
• 举例:TREC VLC/Web/Terabyte track,SEWM评测等
作为信息检索研究人员,我 们的考察重点
提纲
• 研究背景 • 信息检索系统的评价方法 • 基于用户行为分析的搜索引擎性能评价 • 演示系统:搜索仪 • 结论与未来工作
• 检索目标页面单一 • H(URL|Query)较低,检索系统的处理难度较低,答案
标注难度较低
– 信息事务类信息需求对应的答案标注
• 多个检索目标页面 • H(URL|Query)较高,检索系统的处理难度较高,答案
标注难度较高
搜索引擎效果自动评价
• 导航类查询的答案标注
– 结果唯一,不存在“找不全”的问题 – 搜索引擎检索性能高,点击准确度较可靠 – 能够发现用户的关注热点,如
• 1994年,面向个人用户的浏览服务诞生 • 2002年,Web上所存储的数据超过500,000 TB
– 知识的获取空前简单与繁荣
• “在信息化时代,知识实际上已经不是资源,智慧 才是资源。”
– 从Web中有效的获取知识成为人们的必需技能
• 高科技企业员工1/3的时间用于查找资料
研究背景
• 网络信息检索工具成为人们生活和工作中 的重要信息获取手段
– 提高搜索引擎评价方法的自动化程度势在必行
信息检索系统的评价方法
• 如何提高搜索引擎评价的自动化程度?
查询样例选取
标准答案标注
查询 样例集合
标准 答案集合
检索系统 查询结果
信息检索系统的评价方法
• 核心问题: 如何提高答案标注的自动化程度
– 利用伪相关反馈的方法进行结果自动标注
• 伪相关反馈的结果被认为是答案 • Soboroff et.al, 2001; Nuray et.al, 2003; Beitzel et.al., 2003 • 标注的准确程度和可靠性不高
合并后的答案标注结果
www.crazyenglish.org/ www.lyce.cn/ www.tooe.org/crazyenglish.htm
答案自动标注实验
• 实验数据
– 8个月查询日志(超过7亿条日志信息) – 针对其中高频导航类查询进行自动标注 – 对每个时间段抽取约5%的数据进行手工检查
click urli q in SEj )
in
SE
j
)
其中, j 反映不同搜索引擎在结果标注中
的重要程度
搜索引擎效果自动评价
• 例:查询“疯狂英语”
SE1
www.crazyenglish.org/ www.lyce.cn/ blog.sina.com.cn/m/crazyenglish/ www.tooe.org/crazyenglish.htm www.topenglish.net/
– 全球范围内84%的互联网用户使用搜索引擎, 其中超过一半的人几乎每天使用。
– 2007年1月,我国网民总人数为13700万人。 – 95%以上的中国网民使用过搜索引擎,84.5%的
用户将搜索引擎作为得知新网站的主要途径。 – 商用搜索引擎竞争日趋激烈。
研究背景
• 性能评价对搜索引擎的重要作用
– 对搜索引擎用户而言:
信息检索系统的评价方法
• 评价在信息检索研究中发挥着重要的作用
– 评价在信息检索系统的研发中一直处于核心的 地位,以致于算法与其效果评价方式是合二为 一的(Saracevic, SIGIR 1995)
• 信息检索系统评价的起源
– Kent等人第一次提出了关于Precision和Recall(开 始称为relevance)的概念(Kent, 1955)
• 用户行为分析的思路值得肯定 • 缺点:改变用户检索习惯、个体用户行为不可靠等
– 我们的研究思路
• 通过对搜索引擎记录下的用户行为日志进行分析, 不额外增加用户负担。
• 使用用户群体,而不是个体的点击行为作为依据
提纲
• 研究背景 • 信息检索系统的评价方法 • 基于用户行为分析的搜索引擎性能评价 • 演示系统:搜索仪 • 结论与未来工作
进行标注
搜索引擎效果自动评价
• 基于用户关注程度进行查询样例自动挑选
– 频度高于100的查询:35177个(<查询个数1%) – 覆盖了近70%的用户查询需求 – 选取热门关键词(big fat head)作为代表性样例
Query Frequency
1.0E+05
7.5E+04
5.0E+04
2.5E+04