常用搜索引擎技术概述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
常用搜索引擎技术概述
[摘要]本文简述了搜索引擎的概念,地位,现状,起源,发展等,并对其分类、性能指标,关键技术等方面做了一定的研究和讨论,在此基础上对其发展趋势和前景作了相关展望。
[关键词]搜索引擎信息检索
Abstract
This paper describes the definition,position,status,development of search engine. It also holds discussion of category,performance,key technology of search engine. Looking forward is also presented at the end of paper.
Keywords:search engine,information extraction;
1 搜索引擎概念、地位及现状
随着网络日益融入人们的日常生活和工作,作为一个信息平台,网络内容不断丰富,整个网络逐渐堆积成一个前所未有的超大型信息库。因此怎样快速有效的从海量数据中找出所需的信息就变成一个困难的问题,搜索引擎正是为了解决“信息丰富,知识贫乏”奇怪现象问题而出现的技术。
搜索引擎是一个信息处理系统,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的,一般包括信息搜集、信息整理和用户查询三部分。从用户的角度来看,它就是一个帮助人们进行信息检索的工具。搜索引擎已经成为信息领域的产业之一。它要用到了信息检索、人工智能、数据库、数据挖掘、自然语言理解等领域的理论和技术,具有综合性和挑战性。又由于搜索引擎有大量的用户,由此衍射出许多商机,具有很好的经济价值。
2 搜索引擎起源及发展
第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR(InformationRetrieval)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫World Web Worm (WWWW)
平均每天承受大约1500次查询。
大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。Altavista搜索引擎声称他们每天大概要承受20,000,000次查询。
自1998年出现了一个搜索引擎空前繁荣的时期,我们统称这一时期的搜索引擎为第三代搜索引擎。第三代搜索引擎的发展有如下几个特点:索引数据库的规模继续增大,一般的商业搜索引擎都保持在几千万甚至上亿个网页。
除了一般意义上的搜索以外,开始出现主题搜索和地域搜索。很多小型的垂直门户站点开始使用该技术。
由于搜索返回数据量过大,检索结果相关度评价成为研究的焦点。相关的研究又可以分为两类:一类是对超文本链的分析,在这方面Stanford大学的Google 系统和IBM的Clever系统做出了很大的贡献;另一类是用户信息的反馈,DirectHit系统采用的就是这种方法。
开始使用自动分类技术。Northern Light和Inktomi的Directory Engine都在一定程度上使用了该技术。
第四代搜索引擎的特征是主题搜索引擎。随着信息多元化的增长,千篇一律的给所有用户同一个入口显然已经不能满足特定用户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,我们需要一个分类细致精确、数据全面深入、更新及时的面向主题的搜索引擎。由于主题搜索运用了人工分类以及特征提取等智能化策略,因此它比上面提到的前三代的搜索引擎将更加有效和准确,我们将这类完善的主题搜索引擎称为第四代搜索引擎。从第一代搜索引擎到第二代搜索应该是一个质变,由人工转向计算机;第二代到第三代搜索引擎是一个量变,它是检索技术的提升;第三代到第四代的发展方向应该是人机结合。
3 搜索引擎分类
搜索引擎依其所用技术原理,主要可以分为以下三类:
3.1目录式搜索引擎
以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。典型代表是:Yahoo(现已采用Robot技术)、LookSmart、OpenDirectory等。
3.2基于Robot搜索引擎
基于Robot的搜索引擎多提供对全文的检索,有时也叫做全文搜索引擎(Full Text)。通过Robot程序从互联网上搜集信息而建立索引数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。这类搜索引擎的代表是:Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等;国内代表为:百度(Baidu),"天网"、OpenFind等。
3.3元搜索引擎
这类搜索引擎没有自己的数据库,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行去重、排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。
3.4几种非主流形式
集合式搜索引擎、门户搜索引擎:如AOLSearch、MSN Search等、免费链接列表(Free For All Links,简称FFA)等。
4 搜索引擎性能指标
搜索引擎是一种互联网信息检索工具,因此对其性能评价可以参考传统型文献检索工具的质量评价标准,结合搜索引擎在信息组织加工及检索服务提供方式等内容进行;通常情况下,我们可以从以下几个方面来衡量一个搜索引擎的性能:
4.1 召回率(Recall)