搜索引擎性能评价报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验:搜索引擎性能评价
小组成员:黄婷苏壳肖方定山
一、实验目的:
依据MAP, P@10, MRR等评价指标对各个搜索引擎(白度、搜狗、必应)的查询性能进行评测,对搜索引擎满足不同信息需求的情况加以比较。


二、实验方案:
1.构建查询样例集合:
(1)构建查询样例集合
规模:100个查询
热门程度:冷门/热门
类型:导航类/信息类/事务类(2: 5: 3)
(2)根据个人经验,撰写每个查询样例的信息需求内容
2.构建Pooling:
(1)抓取各个搜索引擎对步骤一查询词的查询结果
抓取的搜索引擎:五个中文搜索引擎(白度、搜狗、必应)
抓取范兩:查询结果的前30位结果
注:pooling method的大概意思是查询结果去重
3.构造标准答案集合:
(1)根据步骤1中撰写好的信息需求,对Pooling里的结果进行标注,标注为
“答案”和“非答案”两类即可
4.查询性能评价:
I
(1)根据标注结果,依据MAP, P@10, MRR等评价指标对各个搜索引擎的查询性能进行评价
(2)对搜索引擎满足不同信息需求的情况加以比较
5.扩展内容:
(1)可以尝试对搜索引擎处引擎处理非中文查询、有错别字查询等情况的不同策略进行分析、比较
三、实验结果及分析:
根据实验结果及□的,详细分析实验结果。

1.实验结果:
口度:
Bing国内版:
综合比较:
2.结果分析:
(1)导航类搜索词
对于导航类搜索关键词,RR 一般用作评价导航类的查询需求,用于表示用户在知道LI标前需要浏览的结果数II,可以看到,搜狗事务类的MRR指标偏高,可以发现,当用户想要搜索的信息为已知资源,主页,资源等信息时,搜索引擎可能会更倾向于返回给用户一些官方的主页信息,以使用户能够尽快找到口标,对于导航类信息的其他指标,相差也不大,但是P@10的指标值差异有些明显,搜狗和白度的P@10值是较好的,而必应的结果则稍差,查看原始搜索结果标记,三大搜索引擎都加入了对应的百科,问答平台,而必应的结果还夹朵了不少"同名的广告”,以“清华大学oj”词条为例,必应的结果中有不少标题虽是“清华大学oj”等信息,但实际是一些培训机构的页面,必应并没有做这方面的剔除,使得结果首页多了不少奇怪的“广告”,影响了搜索体验。

(2)信息类搜索词
信息类数据是用户搜索需求中占比最大的,用户的关注点在于结果的全面和权威性,对于这类搜索词,搜索引擎多数会给出其问答平台的结果,相关新闻结果, 或者厅科结果。

对于信息类关键词,P@10是评价其搜索性能的较好指标,白度的数据在70%左右,而必应和搜狗在50360%左右,可见在中文搜索中,白度的确做得比较好,对于大多数信息类搜索词,白度的结果足够全面。

对于新闻类的信息,三大搜索引擎结果差别并不是特别大,但是对于一些知识类信息,或者生活类信息的搜索,必应和搜狗的表现则差强人意,以“奔驰宝马”关键词为例,用户的搜索需求是查询奔驰宝马的区别,百度的结果大体上与之相符,而搜狗和必应除了少数两三条结果与之相关,多数结果只与宝马有关,而且会夹杂许多销售商的广告,可以推测是山于搜索引擎的分
词和联合搜索系统的处理方式的差异。

(3)事务类搜索词
事物类搜索词中,白度的结果优势不是那么明显,棋至略差,搜狗的结果则稍微更好一些,这里差异较大的词条是“韩剧播放”这个搜索词条,其实这个词条是一个坑,一般来说这类资源可能在互联网上很朵不准确,因此很多数据可能其实是广告或者一些死链接,这时可能更需要搜索引擎去剔除一些不必要的结果以帮助用户完成其任务需求,必应的结果大多数是软件下载地址的链接,而白度的结果则包含了各种不同的站点,这些站点大多数是广告等非用户LI标站点,可能是出于广告费等方面的考虑吧,使得其结果表现并不好。

(4)冷热门
对于热门数据,三大搜索引擎的表现都比较好,冷门数据口度表现依然较好,而必应和搜狗的性能则有所下降,一方面可能是由于百度的市场占有率更大,用户更多,能够获取到的用户数据也更多更全面,即使是冷门搜索词山于有较大的用户基数也能得到较好地反馈结果,另一方面,口度的数据抓取可能更全面,对于不同类别的搜索词,口度的P@10指标均能达到近70%,可见其数据是比较齐全的,这也给其冷门搜索词的搜索提供的数据。

四、实验总结:
总结实验中存在的问题。

1.总体的数据由统计结果分析,从总体来看,在各项指标中,百度是三个搜索引擎中表现最好的,搜狗的性能次之,而必应的结果则稍差一些。

2.通过本次实验,深入理解和掌握了信息检索性能评价单个查询的评价指标precision, recal 1的计算方法,并通过比较P-R曲线和插值图来比较百度、必应、搜狗的单个查询的检索性能,完成了实验内容,达到了实验LI的。

3.在实验中,也发现了P-R曲线评价单个查询的检索性能存在一些缺点。

一方面,对于像搜索引擎这样有着大规模文档的数据库,每个查询词的相关文档数难以确定,检索结果是否与查询词相关也难以确定,不同的人有不同的看法,所以难以准确讣算召回率和正确率。

另一方面,因为系统的数据集合是动态的,一个查询词的P-R不能反映搜索引擎的检索性能,P-R只能反映某一时间系统针对某一个查询词的检索性能。

4.另外,了解到LI询针对大规模语料集合召回率难以计算问题解决的的方法是缓冲
池(Pooling)方法:对多个检索系统的TopN个结果组成的集合进行标注,标注出的相关文档集合作为整个相关文档集合。

实验中也发现,虽然准确率和召回率没有明显的相关关系,但是两者难以两全其美,检索系统应该从用户的角度考虑更加注重正确率还是召回率,从而帮助用户更好的完成检索任务。

例如,我认为搜索引擎这样拥有海量数据的检索系统,相关文档集合很大,考虑召回率意义不大,应该更加注重准确率。

五、参考文献:
[1]. 口度文库“搜索引擎检索性能评价实验报告”。

相关文档
最新文档