第3章 搜索引擎性能评价

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第3章搜索引擎性能评价

第3章搜索引擎性能评价搜索引擎的性能评价是性能改进的重要环节。“实验”、“评价”、“改进”三者间的关系如下图所示。搜索引擎系统评价? 客观、公平、全面。? 借鉴信息检索的Cranfield 评价体系,结合互联网应用特点,总结出了一些评价方案。搜索引擎评价与Cranfield 评价体系搜索引擎评价的角度? 商业市场角度:通过用户使用调查,获取评价数据,形成市场调查、行业发展、市场监测报告;? 学术研究角度,基于信息检索评价技术框架的搜索引擎性能评价。信息检索评价? 检索效果(Effectiveness)、效率(Efficiency); ? 信息检索系统评价主要针对检索效果(Effectiveness)而非效率(Efficiency); 对搜索引擎系统的评价,也主要针对检

索效果(Effectiveness)。相关研究? 1955年,Kent提出了“准确率/召回率”的信息检索评价框架;? 20世纪50年代末到60年代,英国Cranfield 工程建立了基于查询样例集、正确答案集、语料库的评测方案。其评价方法一般称为Cranfield方法框架。

1 Cranfield体系的三个环节:? 查询样例集合确定:抽取最能表示用户信息需求的一部分查询样例,构建一个规模恰当的集合;? 正确答案集合标注:针对查询样例集合,在语料库中寻找对应的答案;? 将查询样例集合、语料库输入检索系统,系统反馈检索结果,利用评价指标对检索系统结果和正确答案的接近程度进行评价,给出用数值表示的评价结果。Cranfield体系的四个因素:? 语料库集合;? 查询样例集合;? 正确答案集合;? 评价指标。使用Cranfield评价体系评价搜索引擎? 不需准备专门的语料库集

合;? 对搜索引擎系统,语料库集合就是万维网数据的全体;? 搜索引擎可利用网页抓取子系统自行获取万维网数据。? 需要构建查询样例集合、正确答案集合、评价指标。查询样例集合构建定义:查询样例集合是评价搜索引擎性能时,模拟用户实际需求提出的查询(query)集合。查询样例集合构建的三原则:真实性、代表性、信息需求表述的完整性。 1 查询样例集合构建的真实性构建查询样例集合时采用真实的搜索引擎用户查询? 反映用户的真实信息需求; 2 ? 保证评价的结果与用户的真实感受相吻合。国内外的信息检索系统评测,重视查询样例集合真实性? 文本信息检索会议(TREC)采用微软Live 或Yahoo !等搜索引擎提供的真实查询样例;? 北京大学网络中心组织的搜索引擎与网络信息挖掘(SEWM )评测也采用了来自天网搜索引擎的真实查

询样例。获取真实的搜索引擎用户日志有困难,解决办法? 通过搜索引擎公开发布的用户行为日志样例来获取真实查询;? 借助搜索引擎提供的热门查询展示服务来获取真实的用户查询。://// 具有足够的代表性吗? 2 查询样例集合构建的代表性代表性是指构建的查询样例集合要能够反映用户群体的查询偏好? 人力、物力资源的限制,构建的查询样例集合规模不能太大? 如何用少量的查询样例集合代表大多数用户的查询偏好?? 需分析搜索引擎用户查询频率的分布情况。搜索引擎处理的用户查询数目十分庞大3 ? 2003年,谷歌每日处理的查询请求数达到亿个。? 本书作者对某中文搜索引擎网站一个月内的部分查询日志进行了分析,结果表明,这部分查询日志的查询请求数达到了10多亿个。这些数量庞大的查询请求并非两两不同,而是集中在若干个查询

上。? 作者分析的搜索引擎查询日志中,“百度”这一查询的查询请求次数就达18 万次以上。? 观察查询频率的分布时发现,查询频率最高的一部分查询集中了大多数的用户查询请求。? 查询日志涉及的独立查询数共1500万个,查询频度最高的10000个查询就集中了超过56%的用户查询请求。? 说明搜索引擎查询频度的分布符合“二八定律”。用户查询频率的分布规律的存在:? 使用高频查询样例集合代表大多数用户的查询请求;? “搜索风云榜”的存在,使得既具有合理性,也具有可行性。缺点:查询样例集合构建没顾及查询频度低的用户查询。最好,既控制好样例集合的规模,又保证各种查询频度的用户查询数据能够被采样到。

4 3 查询样例集合构建中信息需求表述的完整性搜索引擎交互方式“关键词查询+选择性浏览”特点、原因? 用户用简单的关键词作为查

询提交给搜索引擎;? 用户希望少用键盘输人、多用鼠标点击进行交互;? 80%的英文用户,95%以上的中文用户不用“高级查询”功能;? 查询所包含的平均词数为个? 搜索引擎不是反馈检索目标页面,而是可能的检索目标页面列表;难以通过简单的关键词准确的理解用户的查询意图,只能将有可能满足用户需求的结果集合以列表的形式返回,无法提供准确的检索目标。? 用户浏览列表,选择满足信息需求的内容、浏览。搜索引擎用户信息需求的类别:导航类:用户检索时具有确定的检索目标页面,目的是查找某个已知存在的页面资源。“清华大学本科招生网”:“导航类”信息需求信息类:用户检索时没有确定的检索目标页面,目的是查找与某个主题相关的信息。“手足口病症状”:“信息类”信息需求。事务类:用户检索时没有确定的检索目标页面,目的是查找与某个特定需求相

关的资源。“潜伏在线观看”:“事务类”信息需求例:同一个“魔兽争霸”查询请求,三种可能性都存在。问题: 5

? 同一个查询请求,有可能信息需求却截然不同。? 这对搜索引擎处理用户查询造成了很大的困难;? 对构建查询样例集合的过程设置了障碍。如果没有确定用户的信息需求,则无法准确地确定用户的查询目标页面。解决的办法:( l)尽量选取信息需求描述得比较明确的用户查询。? “清华大学本科招生网”:是明确的“导航类”信息需求; ? “潜伏在线观看”:是明确的“事务类”信息需求; ? “手足口病症状”:是“信息类”信息需求。但应在满足“真实性”和“代表性”的前提下进行。(2)对查询样例集合的信息需求类别加以规定。TREC : Home Page Finding(主页查找)、Named Page Finding(命名网页查找)

子任务是针对“导航类”信息需求设定的评测任务;Topic Distillation(主题提取)子任务则是针对“信息类”需求而设定的评测任务。国内的SEWM 评测也沿袭了这一评测体系,将评测任务分为主题提取和导航搜索两个子任务。( 3) 可以对每个查询的信息需求给予详细的描述。构建查询样例集合时,不仅可以列出查询文本,而且还可以撰写对应查询的信息需求描述,以便在进行后续的目标页面集合构建时有章可循。根据研究,导航类、信息类、事务类信息需求在用户使用搜索引擎行为中的比例约为20%、50%、30%,查询样例集合中相应信息需求样例的比例要符合这个比例关系。

6 正确答案集合构建定义:正确答案集合就是对应查询样例集合的目标页面集合。Cranfield 评测方法中,正确答案是依照查询样例从语料库集合中标注出满足查询样例信息需求的文档。查询样例网页

相关文档
最新文档