网页搜索效果评价.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 谷歌
–手机、浏览器
业界现状
• 搜狗
–搜狗拼音输入法高歌猛进 –帮助搜狐实现矩阵资源的个性化、广告投放 –今年会有更多创新和新产品
• 雅虎
–微软并购案进行中 –准备启用Google Adsence
• 有道
–基于java的分布式操作平台
业界现状
• 腾讯
–搜索流量从拦截地址栏开始 –准备建立3000人编辑团队
• 三个问题
–搜索效果还有改进空间么? –人力和自动化的优缺点是什么? –元搜索是否可行?
效果评价方法
• 了解用户的搜索目的 • 影响用户满意度的几个主要方面 • 分析和对比我们的技术服务水平 • 如何将用户的感受目标变成开发工作
效果评价方法
• 了解用户的搜索目的 • 影响用户满意度的几个主要方面 • 分析和对比我们的技术服务水平 • 如何将用户的感受目标变成开发工作
17/25 23/33 33 43.1% 43.1% 10/22 6/19 11 62.5% 53.7%
14/22 17/23 24 45.2% 48.8% 5/16 3/12 5 62.5% 57.1%
3/3 6/10 9 33.3% 23.1% 5/6 3/7 6 62.5% 46.2%
43/55 39/52 48 52.4% 51.4% 38/57 34/45 45 52.8% 55.9%
• 导航是否命中 • 时效性 • 多样性 • 权威性
效果评价方法
影响用户满意度的几个主要方面 • 相关性 • 导航是否命中
仅评价第一条结果,考察导航类查询,以及品牌官网,公司 主页,名人官网/博客等的首条命中情况;评价为
命中,1分 未命中,0分
• 时效性 • 多样性 • 权威性
效果评价方法
影响用户满意度的几个主要方面 • 相关性 • 导航是否命中 • 时效性
逐条评价,考察结果的时效性;按照网页的最后更新时间,评价为 即时(3天内),5分 新(4-7天),4分 中(7天-1月),3分 稍旧(1月-1年),1分 旧(一年以上),0分
• 多样性 • 权威性
效果评价方法
影响用户满意度的几个主要方面 • 相关性 • 导航是否命中 • 时效性 • 多样性
考察有多重含义的查询词是否满足了各类需求;针对整体(前10条)进 行评价,且需要结合查询词所属的类别,评价为
内部数据填充 有问题
王国强 …
具体Case
抓取or索引问题 齐齐哈尔师范高等专科学校今年录取怎样
白居易在怎样的情况下写出忆江南 保定贴吧
…
分词,垃圾词
包身工中为什么用蠕动代替起床 山东造纸厂
…
rank(需要考 金世彬
虑title的
白塞氏病图片
summary Rank)…
分布比例 0.6% 8.5%
4.7% 2.1%
效果评价方法
了解用户的搜索目的 • 获取用户搜索词样本
–每日大量的查询词收集 –关注各类Top查询词 –关注上升最快的热点查询词
• 对查询意图进行分类
–关键词属性:如电影、股票、人名、网站、视 频、学习、公司机构、游戏、软件、文学…
–用户意图:下载、在线、URL、图片…
效果评价方法
• 了解用户的搜索目的 • 影响用户满意度的几个主要方面 • 分析和对比我们的技术服务水平 • 如何将用户的感受目标变成开发工作
好(各类需求兼顾,且主流需求突出,即查询词所代表的主要含义体现 在第一条结果中且整体占3条以上)5分
中(各类需求兼顾,但主流需求不突出)3分 差(仅满足了主流需求),2分 极差(没有满足主流需求),0分
• 权威性
效果评价方法
影响用户满意度的几个主要方面 • 相关性
–4分的相关性
• 定义
–满足了用户的部分需求 –搜索结果内容质量中等
视频
音频
色情
0+0+1
下载 0+0+1
在线 1+1+0
0+1+0
URL 8+7+3
图片 1+0+0 1+1+0
其他 1+0+0
1+2+1 4+3+3 5+4+0 0+2+4
0+4+0 1+4+0 0+0+1 0+6+0
效果评价方法
分析和对比我们的技术服务水平
关键词 读”昆虫记”有感 电子表格不显示0值
效果评价方法
影响用户满意度的几个主要方面 • 相关性 • 导航是否命中 • 时效性 • 多样性 • 权威性
效果评价方法
影响用户满意度的几个主要方面 • 相关性
逐条评价,考察每一条结果与用户查询相关的程度;评价为 极好(相关且完全满足需求),5分 好(相关且满足部分需求),4分 中(仅相关),2分 差(不相关)0分
网页搜索效果评价
xxx
提纲
• 问题
–当前业界现状与搜索引擎效果
• 效果评价方法
–基于人工标注的评价和改进体系
• 衍生产物
–各家搜索效果特点 –再论元搜索
业界现状
• 当前格局
–百度、谷歌、搜狗、雅虎 –有道、腾讯 –爱问、中搜
• 百度
–进入IM领域 –百度知道对网页搜索有巨大的支撑作用 –李彦宏:元搜索没有生命力
衍生产物
元搜索是否可行? • 产品形态满足用户使用习惯 • 能对各家搜索引擎的不对称性有深入了解
–对于结果数小于10 条的,直接拼接各家结果 –对于结果中搜狗时效性高的页面加权出现 –对于查询词长句,谷歌结果加权出现 –对于在线类查询,搜狗结果加权出现 –…
后记
搜索引擎和网上信息挖掘是工程与研究高度 结合的产物,愿与学术界加强交流与合作, 共同进步
搜狗 好
百度
谷歌
好
好
好
大与小作文
好
春季皮肤保养
好
好
安徽2009高考方案
好
办房产证 期限
好
白云机场大巴时刻表
好
白塔寺 地图
好
好
安莉芳内衣加盟
好
安徽卫视节目主持人
好
爱国事迹
好
好
效果评价方法
• 了解用户的搜索目的 • 影响用户满意度的几个主要方面 • 分析和对比我们的技术服务水平 • 如何将用户的感受目标变成开发工作
» b.果页面中是该音频,但音频不是最热版本/最被大众认可版 本时,相关性为4分。
» c.结果页面中是该小说段落,但是小说部分章节目录,相关 性为4分。
» d.结果页面中是该游戏,但游戏不是最热版本/最被大众认可 版本时,相关性为4分
效果评价方法
• 了解用户的搜索目的 • 影响用户满意度的几个主要方面 • 分析和对比我们的技术服务水平 • 如何将用户的感受目标变成开发工作
–子分类
» 当搜索词未说明视频/音频剧集,音频版本,小说段落、游 戏版本时
» 当搜索词说清楚了软件版本,视频剧集,音频版本,小说段 落,游戏版本时
效果评价方法
影响用户满意度的几个主要方面
• 相关性
–4分的相关性
• 在线意图
–当搜索词未说明视频/音频剧集,音频版本,小说段落、 游戏版本时
» a.结果页面中是该视频/音频剧集,但是部分剧集链接,或是 剧集的某一集,预告片等,相关性为4分。
30/42 27/38 35 52.6% 52.5% 28/46 26/34 34 51.9% 57.5%
13/13 12/14 13 52.0% 48.1% 10/11 8/11 11 55.6% 50%
衍生产物
搜索引擎 擅长的查询类型
百度 谷歌
1.用户意图明确的相关性匹配。搜索词:棒棒堂男孩图片 2.娱乐八卦类需求中,对于论坛、用户评论圈的深入挖掘。搜索词: 江湖好汉来相助王朝马汉武则天 3.热点词汇的理解与相关性。搜索词:重庆长江水运股份有限公司
效果评价方法
附:以相关性为例,产品人员整理分析Query后,给出的搜索效果总结表
相关性问题分类
满意度 评分
定义
分布比 例
非常满意 5分
搜索词是官网类搜索词, 通常会有官方网站。如果是官网类 19.6%
搜索词,相关性需要评判为5分,意思就是满足了用户的需 求,而且命中了官方网站…
满意
4分 1.满足了用户的部分需求
效果评价方法
如何将用户的感受目标变成开发工作 • 产品人员用在第三步中得出的大量实例Case进行
问题的定位与分类整理 • 以同类型Case作为样本,抽样提交给开发人员修
复 • 在算法改进结束后,小规模的以同类型Case评估
改进效果 • 上线前,产品人员按照实际Query分布比例,模
拟用户查询对改进进行全面性评估,以保证改进 过程中没有影响到其他类型的查询词的效果
效果评价方法
分析和对比我们的技术服务水平 • 获得如下的珍贵数据
–模拟用户真实查询,我们与竞争对手的差别评 估数据
–我们目前做得不好的大量实例Case –竞争对手比我们做得好的实例Case
效果评价方法
分析和对比我们的技术服务水平
赵薇官网 淘宝网 高考成绩查询 别克林荫大道内饰 儿子与情人 我和爸爸 刘德华意外死亡
效果评价方法
附:评测词的查询分布(1)
总体
完全随 热门查 sogou热 百度热
(350个)机抽取 询词词 门查询 门(25
部分 (125个)(100个)个)
(324个)
长尾
Sogou长 Baidu长
(199个)尾(149 尾(50
个Biblioteka Baidu 个)
S
64
60
17
14
3
43
30
13
B
72
62
23
17
6
39
27
1.模糊类的搜索匹配。搜索词:河莉秀 黄头发(记错了片名) 2.长词的拆解与正确理解(尤其存在一定歧义时)。搜索词:美国IE 组织 3.特殊类别的分词正确性。搜索词:电视剧本草药王有几部
搜狗
1. 时效性较好 2. mp3试听类查询效果较好,搜索词:中华力量I_Believe 3. 日常资料信息类查询
s/S b/B G s/(s+b) S/(S+B) s/S b/B G s/(s+b) S/(S+B)
64/84 72/96 89 47.1% 46.6% 51/84 43/75 63 54.2% 52.8%
60/80 62/85 81 49.2% 48.5% 48/79 40/64 56 54.5% 55.2%
12
G
89
81
33
24
9
48
35
13
s/(s+b) 47%
49%
43%
45%
33%
52%
53%
52%
效果评价方法
附:评测词的查询分布(2)
总体 (350 个)
完全随 热门查
机抽取 询词
部分
(125
(324个) 个)
sogou热 门查询 (100 个)
百度热门 (25个)
长尾(199 个)
Sogou长尾(149 Baidu长尾(50个) 个)
2.搜索结果内容质量中等
52.3%
不满意 2分 不能接受 0分
1.搜索结果相关度较低 2.搜索结果的内容品质很差
24.7%
…
1.搜索结果完全不相关
3.4%
2. 搜寻结果虽有符合的搜索词出现,但是上下文完全无关 ,
对网友一点用处也没有,可评断为Bad
…
效果评价方法
附:开发对应的问题分类与总结
问题分类
• 各类搜索词意图定义
–URL意图 –图片意图 –下载意图 –在线意图 –资料信息意图 –其他意图
效果评价方法
影响用户满意度的几个主要方面
• 相关性
–4分的相关性
• 在线意图 –定义
» 结果页页面的核心内容区域中有完全满足用户需求的内容, 且结果能够在线视听,阅读,游戏;此时,结果页面或者为 在线视听页本身,或者包含在线视听、阅读、游戏页面链接, 需要点击1次才进入在线视听、阅读、游戏页面。
网站 网站 其他 其他 文学 其他 其他
导航没 命中
相关性 较差
多样性
时效性
权威站 点
URL
1
URL
资料/信息
资料/信息
其他
其他
资料/信息
3 1,2 1,2
Y Y Y
效果评价方法
分析和对比我们的技术服务水平
网站
资料/信息
域名
文学
公司/机构/ 组织
0+0+2
人名
商品/商业 0+0+1 品牌
财经
0+0+1
谢谢
–手机、浏览器
业界现状
• 搜狗
–搜狗拼音输入法高歌猛进 –帮助搜狐实现矩阵资源的个性化、广告投放 –今年会有更多创新和新产品
• 雅虎
–微软并购案进行中 –准备启用Google Adsence
• 有道
–基于java的分布式操作平台
业界现状
• 腾讯
–搜索流量从拦截地址栏开始 –准备建立3000人编辑团队
• 三个问题
–搜索效果还有改进空间么? –人力和自动化的优缺点是什么? –元搜索是否可行?
效果评价方法
• 了解用户的搜索目的 • 影响用户满意度的几个主要方面 • 分析和对比我们的技术服务水平 • 如何将用户的感受目标变成开发工作
效果评价方法
• 了解用户的搜索目的 • 影响用户满意度的几个主要方面 • 分析和对比我们的技术服务水平 • 如何将用户的感受目标变成开发工作
17/25 23/33 33 43.1% 43.1% 10/22 6/19 11 62.5% 53.7%
14/22 17/23 24 45.2% 48.8% 5/16 3/12 5 62.5% 57.1%
3/3 6/10 9 33.3% 23.1% 5/6 3/7 6 62.5% 46.2%
43/55 39/52 48 52.4% 51.4% 38/57 34/45 45 52.8% 55.9%
• 导航是否命中 • 时效性 • 多样性 • 权威性
效果评价方法
影响用户满意度的几个主要方面 • 相关性 • 导航是否命中
仅评价第一条结果,考察导航类查询,以及品牌官网,公司 主页,名人官网/博客等的首条命中情况;评价为
命中,1分 未命中,0分
• 时效性 • 多样性 • 权威性
效果评价方法
影响用户满意度的几个主要方面 • 相关性 • 导航是否命中 • 时效性
逐条评价,考察结果的时效性;按照网页的最后更新时间,评价为 即时(3天内),5分 新(4-7天),4分 中(7天-1月),3分 稍旧(1月-1年),1分 旧(一年以上),0分
• 多样性 • 权威性
效果评价方法
影响用户满意度的几个主要方面 • 相关性 • 导航是否命中 • 时效性 • 多样性
考察有多重含义的查询词是否满足了各类需求;针对整体(前10条)进 行评价,且需要结合查询词所属的类别,评价为
内部数据填充 有问题
王国强 …
具体Case
抓取or索引问题 齐齐哈尔师范高等专科学校今年录取怎样
白居易在怎样的情况下写出忆江南 保定贴吧
…
分词,垃圾词
包身工中为什么用蠕动代替起床 山东造纸厂
…
rank(需要考 金世彬
虑title的
白塞氏病图片
summary Rank)…
分布比例 0.6% 8.5%
4.7% 2.1%
效果评价方法
了解用户的搜索目的 • 获取用户搜索词样本
–每日大量的查询词收集 –关注各类Top查询词 –关注上升最快的热点查询词
• 对查询意图进行分类
–关键词属性:如电影、股票、人名、网站、视 频、学习、公司机构、游戏、软件、文学…
–用户意图:下载、在线、URL、图片…
效果评价方法
• 了解用户的搜索目的 • 影响用户满意度的几个主要方面 • 分析和对比我们的技术服务水平 • 如何将用户的感受目标变成开发工作
好(各类需求兼顾,且主流需求突出,即查询词所代表的主要含义体现 在第一条结果中且整体占3条以上)5分
中(各类需求兼顾,但主流需求不突出)3分 差(仅满足了主流需求),2分 极差(没有满足主流需求),0分
• 权威性
效果评价方法
影响用户满意度的几个主要方面 • 相关性
–4分的相关性
• 定义
–满足了用户的部分需求 –搜索结果内容质量中等
视频
音频
色情
0+0+1
下载 0+0+1
在线 1+1+0
0+1+0
URL 8+7+3
图片 1+0+0 1+1+0
其他 1+0+0
1+2+1 4+3+3 5+4+0 0+2+4
0+4+0 1+4+0 0+0+1 0+6+0
效果评价方法
分析和对比我们的技术服务水平
关键词 读”昆虫记”有感 电子表格不显示0值
效果评价方法
影响用户满意度的几个主要方面 • 相关性 • 导航是否命中 • 时效性 • 多样性 • 权威性
效果评价方法
影响用户满意度的几个主要方面 • 相关性
逐条评价,考察每一条结果与用户查询相关的程度;评价为 极好(相关且完全满足需求),5分 好(相关且满足部分需求),4分 中(仅相关),2分 差(不相关)0分
网页搜索效果评价
xxx
提纲
• 问题
–当前业界现状与搜索引擎效果
• 效果评价方法
–基于人工标注的评价和改进体系
• 衍生产物
–各家搜索效果特点 –再论元搜索
业界现状
• 当前格局
–百度、谷歌、搜狗、雅虎 –有道、腾讯 –爱问、中搜
• 百度
–进入IM领域 –百度知道对网页搜索有巨大的支撑作用 –李彦宏:元搜索没有生命力
衍生产物
元搜索是否可行? • 产品形态满足用户使用习惯 • 能对各家搜索引擎的不对称性有深入了解
–对于结果数小于10 条的,直接拼接各家结果 –对于结果中搜狗时效性高的页面加权出现 –对于查询词长句,谷歌结果加权出现 –对于在线类查询,搜狗结果加权出现 –…
后记
搜索引擎和网上信息挖掘是工程与研究高度 结合的产物,愿与学术界加强交流与合作, 共同进步
搜狗 好
百度
谷歌
好
好
好
大与小作文
好
春季皮肤保养
好
好
安徽2009高考方案
好
办房产证 期限
好
白云机场大巴时刻表
好
白塔寺 地图
好
好
安莉芳内衣加盟
好
安徽卫视节目主持人
好
爱国事迹
好
好
效果评价方法
• 了解用户的搜索目的 • 影响用户满意度的几个主要方面 • 分析和对比我们的技术服务水平 • 如何将用户的感受目标变成开发工作
» b.果页面中是该音频,但音频不是最热版本/最被大众认可版 本时,相关性为4分。
» c.结果页面中是该小说段落,但是小说部分章节目录,相关 性为4分。
» d.结果页面中是该游戏,但游戏不是最热版本/最被大众认可 版本时,相关性为4分
效果评价方法
• 了解用户的搜索目的 • 影响用户满意度的几个主要方面 • 分析和对比我们的技术服务水平 • 如何将用户的感受目标变成开发工作
–子分类
» 当搜索词未说明视频/音频剧集,音频版本,小说段落、游 戏版本时
» 当搜索词说清楚了软件版本,视频剧集,音频版本,小说段 落,游戏版本时
效果评价方法
影响用户满意度的几个主要方面
• 相关性
–4分的相关性
• 在线意图
–当搜索词未说明视频/音频剧集,音频版本,小说段落、 游戏版本时
» a.结果页面中是该视频/音频剧集,但是部分剧集链接,或是 剧集的某一集,预告片等,相关性为4分。
30/42 27/38 35 52.6% 52.5% 28/46 26/34 34 51.9% 57.5%
13/13 12/14 13 52.0% 48.1% 10/11 8/11 11 55.6% 50%
衍生产物
搜索引擎 擅长的查询类型
百度 谷歌
1.用户意图明确的相关性匹配。搜索词:棒棒堂男孩图片 2.娱乐八卦类需求中,对于论坛、用户评论圈的深入挖掘。搜索词: 江湖好汉来相助王朝马汉武则天 3.热点词汇的理解与相关性。搜索词:重庆长江水运股份有限公司
效果评价方法
附:以相关性为例,产品人员整理分析Query后,给出的搜索效果总结表
相关性问题分类
满意度 评分
定义
分布比 例
非常满意 5分
搜索词是官网类搜索词, 通常会有官方网站。如果是官网类 19.6%
搜索词,相关性需要评判为5分,意思就是满足了用户的需 求,而且命中了官方网站…
满意
4分 1.满足了用户的部分需求
效果评价方法
如何将用户的感受目标变成开发工作 • 产品人员用在第三步中得出的大量实例Case进行
问题的定位与分类整理 • 以同类型Case作为样本,抽样提交给开发人员修
复 • 在算法改进结束后,小规模的以同类型Case评估
改进效果 • 上线前,产品人员按照实际Query分布比例,模
拟用户查询对改进进行全面性评估,以保证改进 过程中没有影响到其他类型的查询词的效果
效果评价方法
分析和对比我们的技术服务水平 • 获得如下的珍贵数据
–模拟用户真实查询,我们与竞争对手的差别评 估数据
–我们目前做得不好的大量实例Case –竞争对手比我们做得好的实例Case
效果评价方法
分析和对比我们的技术服务水平
赵薇官网 淘宝网 高考成绩查询 别克林荫大道内饰 儿子与情人 我和爸爸 刘德华意外死亡
效果评价方法
附:评测词的查询分布(1)
总体
完全随 热门查 sogou热 百度热
(350个)机抽取 询词词 门查询 门(25
部分 (125个)(100个)个)
(324个)
长尾
Sogou长 Baidu长
(199个)尾(149 尾(50
个Biblioteka Baidu 个)
S
64
60
17
14
3
43
30
13
B
72
62
23
17
6
39
27
1.模糊类的搜索匹配。搜索词:河莉秀 黄头发(记错了片名) 2.长词的拆解与正确理解(尤其存在一定歧义时)。搜索词:美国IE 组织 3.特殊类别的分词正确性。搜索词:电视剧本草药王有几部
搜狗
1. 时效性较好 2. mp3试听类查询效果较好,搜索词:中华力量I_Believe 3. 日常资料信息类查询
s/S b/B G s/(s+b) S/(S+B) s/S b/B G s/(s+b) S/(S+B)
64/84 72/96 89 47.1% 46.6% 51/84 43/75 63 54.2% 52.8%
60/80 62/85 81 49.2% 48.5% 48/79 40/64 56 54.5% 55.2%
12
G
89
81
33
24
9
48
35
13
s/(s+b) 47%
49%
43%
45%
33%
52%
53%
52%
效果评价方法
附:评测词的查询分布(2)
总体 (350 个)
完全随 热门查
机抽取 询词
部分
(125
(324个) 个)
sogou热 门查询 (100 个)
百度热门 (25个)
长尾(199 个)
Sogou长尾(149 Baidu长尾(50个) 个)
2.搜索结果内容质量中等
52.3%
不满意 2分 不能接受 0分
1.搜索结果相关度较低 2.搜索结果的内容品质很差
24.7%
…
1.搜索结果完全不相关
3.4%
2. 搜寻结果虽有符合的搜索词出现,但是上下文完全无关 ,
对网友一点用处也没有,可评断为Bad
…
效果评价方法
附:开发对应的问题分类与总结
问题分类
• 各类搜索词意图定义
–URL意图 –图片意图 –下载意图 –在线意图 –资料信息意图 –其他意图
效果评价方法
影响用户满意度的几个主要方面
• 相关性
–4分的相关性
• 在线意图 –定义
» 结果页页面的核心内容区域中有完全满足用户需求的内容, 且结果能够在线视听,阅读,游戏;此时,结果页面或者为 在线视听页本身,或者包含在线视听、阅读、游戏页面链接, 需要点击1次才进入在线视听、阅读、游戏页面。
网站 网站 其他 其他 文学 其他 其他
导航没 命中
相关性 较差
多样性
时效性
权威站 点
URL
1
URL
资料/信息
资料/信息
其他
其他
资料/信息
3 1,2 1,2
Y Y Y
效果评价方法
分析和对比我们的技术服务水平
网站
资料/信息
域名
文学
公司/机构/ 组织
0+0+2
人名
商品/商业 0+0+1 品牌
财经
0+0+1
谢谢