常用搜索引擎技术概述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
常用搜索引擎技术概述
[摘要]本文简述了搜索引擎的概念,地位,现状,起源,发展等,并对其分类、性能指标,关键技术等方面做了一定的研究和讨论,在此基础上对其发展趋势和前景作了相关展望。
[关键词]搜索引擎信息检索
Abstract
This paper describes the definition,position,status,development of search engine. It also holds discussion of category,performance,key technology of search engine. Looking forward is also presented at the end of paper.
Keywords:search engine,information extraction;
1 搜索引擎概念、地位及现状
随着网络日益融入人们的日常生活和工作,作为一个信息平台,网络内容不断丰富,整个网络逐渐堆积成一个前所未有的超大型信息库。
因此怎样快速有效的从海量数据中找出所需的信息就变成一个困难的问题,搜索引擎正是为了解决“信息丰富,知识贫乏”奇怪现象问题而出现的技术。
搜索引擎是一个信息处理系统,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的,一般包括信息搜集、信息整理和用户查询三部分。
从用户的角度来看,它就是一个帮助人们进行信息检索的工具。
搜索引擎已经成为信息领域的产业之一。
它要用到了信息检索、人工智能、数据库、数据挖掘、自然语言理解等领域的理论和技术,具有综合性和挑战性。
又由于搜索引擎有大量的用户,由此衍射出许多商机,具有很好的经济价值。
2 搜索引擎起源及发展
第一代搜索引擎出现于1994年。
这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。
而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。
在实现技术上也基本沿用较为成熟的IR(InformationRetrieval)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。
在1994年3月到4月,网络爬虫World Web Worm (WWWW)
平均每天承受大约1500次查询。
大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。
1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。
Altavista搜索引擎声称他们每天大概要承受20,000,000次查询。
自1998年出现了一个搜索引擎空前繁荣的时期,我们统称这一时期的搜索引擎为第三代搜索引擎。
第三代搜索引擎的发展有如下几个特点:索引数据库的规模继续增大,一般的商业搜索引擎都保持在几千万甚至上亿个网页。
除了一般意义上的搜索以外,开始出现主题搜索和地域搜索。
很多小型的垂直门户站点开始使用该技术。
由于搜索返回数据量过大,检索结果相关度评价成为研究的焦点。
相关的研究又可以分为两类:一类是对超文本链的分析,在这方面Stanford大学的Google 系统和IBM的Clever系统做出了很大的贡献;另一类是用户信息的反馈,DirectHit系统采用的就是这种方法。
开始使用自动分类技术。
Northern Light和Inktomi的Directory Engine都在一定程度上使用了该技术。
第四代搜索引擎的特征是主题搜索引擎。
随着信息多元化的增长,千篇一律的给所有用户同一个入口显然已经不能满足特定用户更深入的查询需求。
同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。
针对这种情况,我们需要一个分类细致精确、数据全面深入、更新及时的面向主题的搜索引擎。
由于主题搜索运用了人工分类以及特征提取等智能化策略,因此它比上面提到的前三代的搜索引擎将更加有效和准确,我们将这类完善的主题搜索引擎称为第四代搜索引擎。
从第一代搜索引擎到第二代搜索应该是一个质变,由人工转向计算机;第二代到第三代搜索引擎是一个量变,它是检索技术的提升;第三代到第四代的发展方向应该是人机结合。
3 搜索引擎分类
搜索引擎依其所用技术原理,主要可以分为以下三类:
3.1目录式搜索引擎
以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。
信息大多面向网站,提供目录浏览服务和直接检索服务。
该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。
典型代表是:Yahoo(现已采用Robot技术)、LookSmart、OpenDirectory等。
3.2基于Robot搜索引擎
基于Robot的搜索引擎多提供对全文的检索,有时也叫做全文搜索引擎(Full Text)。
通过Robot程序从互联网上搜集信息而建立索引数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。
这类搜索引擎的代表是:Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等;国内代表为:百度(Baidu),"天网"、OpenFind等。
3.3元搜索引擎
这类搜索引擎没有自己的数据库,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行去重、排序等处理后,作为自己的结果返回给用户。
服务方式为面向网页的全文检索。
这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。
著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。
3.4几种非主流形式
集合式搜索引擎、门户搜索引擎:如AOLSearch、MSN Search等、免费链接列表(Free For All Links,简称FFA)等。
4 搜索引擎性能指标
搜索引擎是一种互联网信息检索工具,因此对其性能评价可以参考传统型文献检索工具的质量评价标准,结合搜索引擎在信息组织加工及检索服务提供方式等内容进行;通常情况下,我们可以从以下几个方面来衡量一个搜索引擎的性能:
4.1 召回率(Recall)
又称查全率,指搜索引擎提供的检索结果中相关信息文档数与网络信息中存在的相关信息文档数之比,因检索结果是在对检索需求与搜索引擎的索引数据库中的文档进行匹配后的文档集合,这一指标也是搜索引擎对网络信息覆盖率的真实反映。
4.2精度(Precision)
又称查准率,是搜索引擎提供的检索结果与用户信息需求的匹配程度,也是检索结果中有效信息的文档数与搜索引擎提供的全部文档数之比。
4.3检索速度
又称响应时间,检索速度一般而言取决于两个因素,即与带宽有关的网络速度及搜索引擎本身的速度,只有在二者均获得可靠的技术支持的情况下,才能保证理想的检索速度。
对于一个检索系统来讲,召回率和精度很难做到两全其美:召回率高时,精度低;精度高时,召回率低。
对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够覆盖所有的网络资源,所以召回率很难计算。
目前的搜索引擎系统都非常关心精度。
影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。
4.4 搜索引擎系统应具备的功能要求
(1)涵盖较多的互联网资源,资源更新周期不是很长,对于某些特殊信息可以实时更新,这些是查全率的保障之一。
(2)具备尽可能多的可选择功能,如资源类型(网站、网页、新闻、软件、FTP、MP3、Flash、图像、影视等)选择、等待时间控制、返回结果数量控制、结果时段选择、过滤功能选择、结果显示方式选择等。
(3)强大的检索请求处理功能(如支持逻辑匹配检索、短语检索、自然语言检索等)。
(4)详尽全面的检索结果信息描述(如网页名称、URL、文摘、结果与用户检索需求的相关度等)。
(5)支持多种语言检索,比如提供中英文搜索等。
(6)可对结果进行自动分类,如按照域名、国别、资源类型、区域等进行
分类整理。
(7)可以针对不同用户提供个性化服务。
5 搜索引擎原理和关键技术
当今搜索引擎的主流是基于Robot的网页搜索系统,本文主要叙述这方面的技术。
搜索引擎的原理,可以看作三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
5.1搜索引擎的原理
从互联网上发现、搜集有用网页信息利用高性能的Spider程序去自动地在互联网中搜索信息。
一个典型的"网洛蜘蛛"工作的方式,是查看一个页面,并从中找到相关信息,然后它再从该页面的所有URL中出发,爬行到相关页面,重复这过程,直到把爬过的所有网页都收集回来。
搜索引擎的Spider一般要定期重新访问所有网页,更新网页索引数据库,以反映出网页文字的更新情况。
将收集到的信息进行分类整理,建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
5.2 用户检索过程
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。
因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
上面简述了搜索引擎的工作原理,从这里不难看出搜索引擎的基本构成:搜索器、索引器、检索器和用户接口等。
5.3 Robot技术
网络机器人Robot(通常也称为网络蜘蛛Spider、爬行者Crawler等)可以用在针对互联网的数据统计、数据搜索、链接维护等方面。
搜索引擎中的网络机器人主要完成两个功能,即分析、获取互联网的链接和读取各链接所对应的网页内容。
Robot从一个事先制定好的URLs列表出发,在访问了一个网页后,会对它进行分析,提取出新的URLs,将之加入到访问列表中,如此递归地访问Web。
Robot 设计是否合理将直接影响它访问Web的效率,影响搜索数据库的质量。
Robot 的实现常用分布式、并行计算技术,以提高信息发现和更新的速度。
5.4 索引技术
Robot采集回来的文档信息要被用来建立索引数据库。
索引的建立方法对搜索引擎来说具有很大的影响,好的索引能提高搜索引擎系统运行的效率以及检索结果的质量。
可以说索引技术是搜索引擎中的核心技术,是搜索技术高低的集中体现。
其中很重要的是文本分析技术,这是索引器的主要支撑技术。
文本分析所研究的内容包括提取索引项、自动摘要、自动分类器、文本聚类等。
文本分析所依据的主要是文本中所包含的词汇、超文本标记和超链接。
5.5 信息检索和排序技术
搜索的最终目的是获取需要的信息,在大量的信息中进行查找是很讨厌的一件事情,很难做到令人满意。
即使是在现实生活中,面对一大堆自己辛辛苦苦找来的资料时,你往往会发现并不是所有的资料都有用。
目前搜索引擎所实现的只是通常意义上的相关信息搜索。
常用的相关信息查找方法有相似性函数法、归类(组)法等。
在这一研究领域有两种比较有影响的方法,就是Page Rank方法和Authorityand Hub方法。
这两种方法都是利用页面中的链接来对文档的重要性进行判断。
5.6 用户接口设计
用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。
主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。
用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。
一般搜索引擎都提供基本检索和高级检索两个接口。
基本检索接口只提供用户输入关键字的文本框,有的可以在这里输入一些复杂的查询表达式,不过这个只适用于那些搜索专家;高级检索接口可以让用户对查询进行限制,如逻辑运算(与、或、非)、相近关系(相邻、NEAR)、域名范围(如.edu、.com)、出现位置(如标题、内容)、信息时间、长度等等。
6 搜索引擎前景和展望
搜索引擎将向智能化、个性化、精确化、专业化、交叉语言检索、多媒体检索等适应不同用户需求的方向发展,更好的理解用户的需求。
6.1 智能化的搜索引擎
它是未来搜索引擎的发展方向。
搜索引擎的智能化体现在两方面:一是对搜索请求的理解;二是对网页内容的分析。
利用智能代理技术对用户的查询计划、意图、兴趣方向进行推理,自动进行信息搜集过滤,自动地将用户感兴趣的、对用户有用的信息提交给用户。
这其中也包含了对服务多项化、个性化,结果精确化,交叉语言检索等方面的功能。
6.2 重视查询结果的精度,提高检索的有效性。
(1)构建基于内容的搜索引擎。
基于内容的搜索不是根据字形,而是试图理解用户的请求,同时根据文档的内容选出符合用户要求的文档。
即通过各种方法获得用户没有在查询语句中表达出来的真正用途,实现自然语言的智能查询功能。
当前比较成熟的解决方案是依靠语义网络、汉语分词、句法分析、处理同义词等中文信息处理技术最大程度地了解用户需求。
(2)将用户提问转化为系统已知的问题,然后对已知问题进行解答,以求降低对自然语言理解技术的依赖性。
(3)用正文分类技术将结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。
(4)进行站点类聚或内容类聚,减少信息的总量。
(5)让用户对返回结果进行选择,进行二次查询是一种非常有效的手段。
6.3 实现交叉语言的检索:
搜索引擎对多种语言的数据库进行交叉语言信息检索,返回能够回答用户问题的所有语言的文档。
若配上机器翻译,就可使返回结果以用户熟悉的语言显示。
虽然该技术目前还处于初步研究阶段,其难点在于语言之间在表达方式和语义对应上的不确定性,但其确是发展方向。
6.4 提供对自然语言检索的支持:
为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。
如Google有专用于回答问题的Google Answer,微软有AnswerBot等。
搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。
自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。
6.5 多媒体搜索引擎:
网络资源丰富多彩,具有很多类型的信息,用户需要的信息也不完全是网页的形式,从用户的角度来看,必然要求搜索引擎能够覆盖更多的网络资源。
现在有很多搜索引擎已经提供了网页、新闻、图片、音乐等资源搜索,当然范围还可以更广,再如可以搜索新闻组、软件、FTP、Flash、论文等等。
6.6 专业化搜索引擎:
是为了专门收录某一行业、某一学科、某一主题和某一地区的信息而建立,非常实用,如有商务查询、企业查询、人名查询、电子邮件地址查询和招聘信息查询等等。
这种专业化的搜索引擎是将来的方向之一。
6.7 桌面型搜索引擎:
这类引擎实际上是一个软件,下载安装后放在电脑桌面上,用户不用频繁打开浏览器,而是直接通过只要通过它就能完全实现搜索过程,更甚者它可以同时搜索本地、局域网和互联网上的信息。
它完全越过传统的搜索模式,越过浏览器,真正实现让搜索无处不在。
搜索引擎脱离浏览器是一个发展趋势,Google、Yahoo 等都有计划地推出属于自己的桌面型搜索软件,而微软同样打算把搜索设计到桌面上。
国内有中国搜索推出的"网络猪"软件可用。
此外还有一些其它值得注意的技术发展,如元搜索引擎,移动代理和XML 技术,语音检索技术等。
随着技术的不断发展进步,搜索引擎将会成为一个人们网际遨游的好帮手。
参考文献:
[1] 门凤超,苗军民试论搜索引擎的现状与发展[J]现代情报,2008(2)21-22
[2] 黄立冬,黄莉,周吟剑虚拟参考咨询与搜索引擎的结合———智能搜索引擎诞生[J]现代情报,2008(3)169-170
[3] 易开屏当今网络搜索引擎的局限与发展[J] 计算机工程,2002, (1) :51-55
[4] 凌美秀关于搜索引擎当前存在的主要问题及其发展趋势的探讨[J] 高校图书馆工作,2001, (5) :32-33
[5] 傅蓉搜索引擎的未来[J] 中国信息导报,2002, (4) :53-54。