google搜索引擎检索性能评价
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Google搜索引擎检索性能评价
2012/12/9
Google搜索引擎检索性能评价
摘要: 网络信息和信息检索技术的发展推动了搜索引擎实践的发展,使得搜索引擎评价研究成为信息检索领域的研究热点之一。本文以搜索引擎检索结果的相关性为核心指标,对Google搜索引擎的检索性能进行了评价,旨在帮助用户在利用搜索引擎时选取恰当的检索策略。
关键词:搜索引擎信息检索评价相关性
Abstract: The development of Internet information and technologies of information retrieval accelerates the development of search engine. It has made the study of evaluation of search engine to be one of the popular issues in the field of information retrieval. This paper takes relevance of retrieval results as index to evaluate the performance of Google. The finding can be used to assist users in formulating an appropriate search strategy.
Keywords:search engine; information retrieval; evaluation; relevance
前言
研究背景:
根据2012年7月由中国互联网络信息中心(CNNIC)公布的中国互联网络发展状况统计报告显示截至2012年6月底,中国网民数量达到5.38亿,互联网普及率为39.9%。伴随着如此巨大规模的网络用户而来的是海量的互联网信息,面对这些信息,用户们不免迷失于此,网络信息资源的无限增长与用户有限的效用信息需求之间的矛盾便日益凸显[1]。因此用户利用搜索引擎辅助,以尽可能得到自己所需信息也就是很自然的了。据上述报告,截至2012年6月底,搜索引擎用户规模达到4.29亿,较2011年底增长2121万人,半年增长率为5.2%;在网民中的渗透率为79.7%,使用比例与2011年6月、12月基本持平,是仅次于即时通信的第二大网络应用。但是,即使使用搜索引擎,也难免不能获取所需信息,研究表明,公认最好的搜索引擎,其检索结果中的相关信息也不会超过50%。[2]所以如何使搜索引擎用户能够获取所需信息,在信息研究领域便显得尤为重要。而这则一定离不开搜索引擎的评价研究,通过调查搜索引擎的检索性能并进行评价研究,对搜索引擎的改进将起到很大帮助。
研究目的
从上个世纪90年代初到现在,短短的20余年间搜素引擎的发展发生了巨大的变化,不断地有新的搜素引擎出现,同时也有一些搜素引擎退出了历史舞台。因此搜索引擎市场千变万化,要对它们全部进行评价研究还不现实。经过综合考虑搜素引擎的流行度与所占市场份额,笔者选取Google作为典型案例加以分析。Google当前以83.33%的搜索量占据搜素引擎
市场的首位,全球有81%的网络用户利用Google。笔者认为通过对该搜索引擎的评价能够起到一个相关方面研究的样本作用,给其他研究者以一定启发,同时也指导用户更好地利用Google搜索引擎
研究时间:
2012.11.28 - 2012.12.09
正文:
一、研究方法的选取
国内外关于搜索引擎评价的方法很多,其大致可以分为以下几种:实验方法、调查方法、数据分析法、观察法等。它们从方方面面对搜索引擎进行评价,包括搜素引擎功能的全面性、搜索界面的友好程度、检索时间的长短等等。但是笔者认为对于搜索引擎的评价最核心的还是其检索性能的优越性,一个搜索引擎即使功能再多、检索再快,其目的都是为检索得到所需信息服务的。
衡量搜素引擎的检索性能较好的方法则是实验法,其比起其它方法具有一定的优势。如要通过分析搜索引擎的检索日志来研究的话,由于搜索引擎的检索日志会涉及到用户的一些隐私,目前搜索引擎在公布检索日志方面还持谨慎态度,研究者不太容易获取相关的信息。实验法则是通过预先选择若干个关键字,组成检索式提问并在所要测试的搜索引擎上进行检索,最后根据测试的结果进行分析。这使得实验方法具有较强的针对性、可控性和操作性,于是笔者选用实验法进行研究,不过以上也说明实验方法会具有一定的主观性,因为在实验设计、标准制定、数据采集等步骤中难免融入研究人员的主观因素,这或多或少会对搜索引擎评价的客观性造成影响,因此,采用实验方法进行搜索引擎评价研究时需要注意尽量减少实验过程中的主观性因素。
二、检索功能的选取
以往的搜素引擎评价研究片面地从普通检索的性能来判定搜索引擎的检索性能,而忽略了其他高级检索功能。随着用户检索策略的多元化发展,比较各检索功能检索效率的显著性差异可以帮助用户选择出最恰当的检索策略。[3]因此笔者选用了Google高级检索功能中的字段限制检索、语言限制检索等检索功能进行了检索。一方面更全面地考察搜素引擎的检索性能,另一方面也可以利用高级检索功能避免一些检索式中的语义模糊。
当然,搜素引擎还有许多其他的高级检索功能,如图片检索、语音检索等,但本次研究主要集中于网页信息,对更多的检索功能的评价还有待今后的研究。特别是由于时间、能力的关系,本次研究的语言也仅限于中文和英文两种。
三、检索式的选取
广义的检索式包括检索词的主题、检索词的数量、检索策略三方面。但我们研究中的检索式则定义为狭义的检索式,即只包含检索主题和检索词的数量。
1.确定检索式数量
搜索引擎的评价研究只有建立在一定量的数据基础之上才可以较为客观的评价搜索引擎的检索性能。由于我们采用了实验研究的方法,而基于实验基础的评价研究在选择检索式时数量就不能太少,因为此种方法的评价研究不可避免的带有主观性,大量数据则是减少主观性的途径之一。如Leighton在评价InfoSeek,Lycos,WebCrawler和World-Wide Web Worm 时就用了8个检索式。[4]一些大型测试集的检索式更多,如中文Web信息检索评测,其每届提供的检索式有几百个之多,2006年和2007年的合计有740个。当然,这么大数量的检索式是建立在众多单位和个人参与的基础上的,一般的研究人员恐怕难以对如此多的结果进行精心测评。但是对于一般的评价研究来说检索式数量还是不宜过少,有研究指出,在搜索引擎评价研究中,采用10个以上的检索式是比较合适的。至于究竟多少个检索式才能满足评价研究的需求,要根据实验的具体需要而定,在能保证时间、准确性的前提下自然多多益善。于是笔者在保证研究相对客观的前提下,结合自身适宜条件,确定了20个检索式,其中包括10个中文检索式和10个英文检索式。
2.确定检索词数量
检索词(Search Term或Search word)是检索式中能概括要检索内容的相关词汇。它是表达信息需求和检索课题内容的基本单元,也是与系统中有关数据库进行匹配运算的基本单元,检索词选择的恰当与否,直接影响到检索效果。根据清华大学智能技术与系统国家重点实验室和搜狐公司研发中心的研究者基于搜狗搜索引擎2006年2月近五千万条检索日志对用户利用该搜索引擎的行为特征进行的研究显示,用户提交的检索式中不超过3个检索词的占到了全部检索式的93.15%,平均用词为1.85个。另外,国外研究人员通过分析搜索引擎的检索日志对用户检索行为进行的研究,如Amanda Spink等对Excite搜索引擎超过百万数据量的检索日志进行分析的结果也显示,平均每个搜索式有2.4个检索词,大约一半用户只输入1个检索词,三分之一的用户用3个或3个以上的检索词。不难看出,中英文搜索引擎的用户在检索词数量的选择方面具有较大的相似性,大多数用户都选择3个左右的检索词来构建检索式,因此笔者以上述研究成果为参考,中英文检索式都大部分选择3个左右检索词的进行检索实验。
3.确定检索式主题
在搜索引擎的评价研究中,确定检索式的主题是至关重要的。有研究人员将用户使用的检索式进行了分类,其主要分为三大类:信息查询(information query)、导航查询(navigational query)和交易查询(transactional query)。导航查询是指用户查询特定的网站或网页,目标性最强;信息查询则具有相对开阔的检索范围,是查找某一主题范围内的相关信息,其结果往往成千上万;而交易查询主要是指用户通过网络中介从事某些活动,如网上购物等。在三种主要的查询方式中,以信息查询为主,占48%,导航查询占20%,交易查询占30%。从以上分析可以得知,用户检索以信息类检索为主,因此在搜索引擎的评价研究中,检索式主题的确立应在信息类查询框架下进行。
检索式中检索词的主题类型直接体现了用户信息需求的范畴,但是在很多情况下检索词并不能准确的表达出用户的信息需求。因为一些检索词往往具有多个含义,譬如“青花瓷”