搜索引擎技术分析与研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

搜索引擎技术分析与研究
1 引 言

互联网发展之初,互联网网站相对较少,信息检索比较容易。但伴随着计算机和互联网技术的飞速发展,网络上的信息量急剧增长,已经成为了人类有史以来资源数量最多、资源种类最全、资源规模最大的一个综合信息库。用户要在信息海洋里查找信息,就像大海探针一样。如何准确有效地从互联网上获取信息就成了一项艰巨的任务,利用搜索引擎是最有效的解决方法。
搜索引擎是在互联网产生后伴随着网络用户快速查询信息的需要而产生的提供信息检索服务的计算机系统。搜索引擎是检索因特网信息资源的重要工具。面对海量的网络信息资源,利用搜索引擎是准确、迅速、全面地进行信息检索的有效途径。如果没有搜索引擎,互联网上的信息资源就不能被有效利用。这里对搜索引擎的工作流程和关键技术进行简单介绍。

2 搜索引擎的研究背景
互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。 1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。
现代搜索引擎的思路来源于Wanderer。不少人在Matthew Gray工作的基础上对他的蜘蛛程序做了改进。1994年7月,Michae Mauldin将John Leavitt的蜘蛛程序引入到其索引程序中,创建了Lvc0s。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制。Jvcos第一个在搜索结果中使用了网页自动摘要。
最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福大学的两名博士生,David Filo和美籍华人杨致远共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。
1995年12月DEC正式发布的AltaV

ista是第一个支持自然语言搜索的搜索引擎,也是第一个实现高级搜索语法的搜索引擎1997年8月Northern Light Group正式发布的Northernlight搜索引擎是第一个支持对搜索结果进行简单自动分类的搜索引擎。1998年Google在PageRank、动态摘要、网页快照、DailyRfresh、多文档格式支持、地图、股票、词典、寻人等集成搜索、多语言支持、用户界面等功能上的革新,像AtaVista一样,再一次彻底地改变了搜索引擎的定义。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google,其数据库中存放的网页已达30亿之巨。
在国内,对搜索引擎的研究起源于“中国教育科研网”(CERNET)期工程的子项目。1997年10月北京大学计算机系在CERNET上推出了天网搜索1版本。
2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布百度搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。后推出贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品,深受网民欢迎。2005年8月5日在纳斯达克上市,发行价为USD 27.00,代号为BIDU。开盘价USD 66.00,以USD 122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。
3.搜索引擎概述
3.1 搜索引擎的定义
中文名称:搜索引擎,英文名称:search engine 定义:万维网环境中的信息检索系统(包括目录服务和关键字检索两种服务方式)。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎技术来源于历史悠久的全文检索技术从字面上可拆分为“搜”、“索”、“引擎”3个含义。“搜”就是大量信息的抓取。对抓取回来后的信息进行智能提取、排重、质量分析等处理。“索”就是大量处理后信息的存储、信息排序、快速查询。“引擎”就是指系统不但能存储亿级的数据。而且还能有巨大的并发处理能力。

3.2搜索引擎的分类
搜索引擎按照检索方式可分为全文搜索引擎、目录搜索引擎和元搜索引擎三大类。
第一类全文搜索引擎,又叫机器人搜索引擎。
第二类目录搜索引擎

。是利用各网站向“搜索引擎”提交网站信息时填写的关键词和网站描述等资料。通过人工的方式收集整理网站资料形成数据库,其典型代表有Yahoo(雅虎)、Sohu(搜狐)、新浪、网易等网站的分类目录。
第三类元搜索引擎、接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。该类搜索引擎的优点是能够在短时间内提供相对全面和准确的信息。缺点是不能够充分使用所使用的搜索引擎的功能,用户需要做更多的筛选。
此外,还有其他的分类方式,例如按查询方式可分为浏览式搜索引擎、关键词搜索引擎、全文搜索引擎、智能搜索引擎;按语种又分为单语种搜索引擎、多语种搜索引擎和跨语言搜索引擎等。
4.搜索引擎的工作原理
4.1搜索引擎的工作框架
搜索引擎的整体框架:可以看作四步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。

1、从互联网上抓取网页

利用能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集到服务器中。

2、建立索引数据库

由索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

3、在索引数据库中搜索

当用户输入关键词搜索后,分解搜索请求,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。

4、对搜索结果进行处理排序

所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

4.2与全文检索技术的主要区别
搜索引擎的技术基础是全文检索技术,从20世纪60年代,国外对全文检索技术就开始有研究。全文检索通常指文本全文检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索,一般用于企事业单位。随着互联网信息的发展,搜索引擎在全文检索技术上逐渐发展起来,并得到广泛的应用,但搜索引擎还是不同于全文检索。搜索引擎和常规意义上

的全文检索主要区别有以下几点:

1、数据量

传统全文检索系统面向的是企业本身的数据或者和企业相关的数据,一般索引库规模多在GB级,数据量大的也只有几百万条;但互联网网页搜索需要处理几十亿的网页,搜索引擎的策略都是采用服务器群集和分布式计算技术。

2、内容相关性

信息太多,查准和排序就特别重要,Google等搜索引擎采用网页链接分析技术,根据互联网上网页被链接次数作为重要性评判的依据;但全文检索的数据源中相互链接的程度并不高,不能作为判别重要性的依据,只能基于内容的相关性排序。

3、安全性

互联网搜索引擎的数据来源都是互联网上公开的信息,而且除了文本正文以外,其它信息都不太重要;但企业全文检索的数据源都是企业内部的信息,有等级、权限等限制,对查询方式也有更严格的要求,因此其数据一般会安全和集中地存放在数据仓库中以保证数据安全和管理的要求。

4、个性化和智能化

搜索引擎面向的是互联网访问者,由于其数据量和客户数量的限制,自然语言处理技术、知识检索、知识挖掘等计算密集的智能计算技术很难应用,这也是目前搜索引擎技术努力的方向;而全文检索数据量小,检索需求明确,客户量少,在智能化和个性可走得更远。
5 搜索引擎存在的影响
搜索引擎给网吧行业带来的影响
走进网吧,不难发现各个网吧内的电脑浏览器首页或工具条上都会有google或百度的标志。百度甚至还推出了网吧联盟,可见搜索引擎们对网吧行业都格外的青睐。现在我们常用的搜索引擎无非就是百度和google两种。从百度方面来看,百度联盟可以算是目前唯一一个能够覆盖所有网吧并和几乎所有主流网吧软件缔结合作关系的媒体运营平台。而google方面也不甘示弱,谷歌已经注意到了网吧市场,网吧已经成为了谷歌的新型合作伙伴。网吧的首页和工具条上都会出现谷歌的标志,相应地会给谷歌带去流量。
搜索引擎对网站的影响
一个网站的命脉就是流量,而网站的流量可以分为两类。一类是自然流量,一类就是通过搜索引擎而来的流量。如果搜索引擎能够能多能有效的抓取网站内容,那么对于网站的好处是不言而喻的。
提高搜索引擎对用户检索提问的理解
6搜索引擎的技术发展趋势
为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询
对检索结果进行处理
1、基于链接评价的搜索引擎

基于链接评价的搜索引擎的优秀代表是Google,它独创的“链接评价体系”是基于这样一种认识,一个网页的重要性取决于它被其它网页链接的数量,特别是一些已经被认定是“重要”的网页的链接数量。这种评价体制与《科技引文索引》的思路非常相似,但是由于互联网是在一个商业化的环境中发展起来的,一个网站的被链接数量还与它的商业推广有着密切的联系,因此这种评价体制在某种程度上缺乏客观性。 2、基于访问大众性的搜索引擎 基于访问大众性的搜索引擎的代表是direct hit,它的基本理念是多数人选择访问的网站就是最重要的网站。根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网站和他们在这些网站上花费的时间来统计确定有关网站的重要性排名,并以此来确定哪些网站最符合用户的检索要求。因此具有典型的趋众性特点。这种评价体制与基于链接评价的搜索引擎有着同样的缺点。 3、去掉检索结果中附加的多余信息 有调查指出,过多的附加信息加重了用户的信息负担,为了去掉这些过多的附加信息,可以采用用户定制、内容过滤等检索技术。
确定搜索引擎信息搜集范围
1、垂直主题搜索引擎 网上的信息浩如烟海,网络资源以十倍速的增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地,比如象股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。作者认为,垂直主题有着极大的发展空间。 2、非www信息的搜索 提供FTP等类信息的检索 3、多媒体搜索引擎 多媒体检索主要包括声音、图像、视频的检索。关于图片搜索引擎的原理,《浅谈图片搜索引擎的实现》中提出了具有跨时代意义设计思路。
提供更优化的检索结果
1、纯净搜索引擎 这类搜索引擎没有自己的信息采集系统,利用别人现有的索引数据库,主要关注检索的理念、技术和机制等。 2、元搜索引擎 现在出现了许多的搜索引擎,其收集信息的范围、搜索机制、算法等都不同,用户不得不去学习多个搜索引
3、集成搜索引擎 集成搜索引擎( All-in-One Search Page),亦称为“多引擎同步检索系统 ”(如百度)是在一个WWW页面上链接若干种独立的搜索引擎,检索时需点选或指定搜索引擎,一次检索输入,多引擎同时搜索,用起来相当方便。

4、垂直搜索引擎 垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
7 结束语
从整个搜索引擎来看,未来的大型搜索引擎是个更复杂的系统,还有很多事情要做。高质量搜索是当今搜索引擎用户所面临的最大问题是搜索结果的质量。除了搜索质量,可升级的体系结构是建立一个能跟上Web发展步伐的和当今web规模相适应的搜索引擎途经之一。
参考文献
[1] 刘志军.搜索引擎介绍..2007,3
[2] 张聪慧.搜索引擎的使用技巧..2008,6
[3] 李晓明.搜索引擎技术及趋势[J].武汉理工大学硕士论文.2004,6
[4] 刘建国.Google搜索引擎原理..2007,8
[5] 贾红英.网络搜索引擎探析[J].山东省广播电视大学论文.2002,5

致 谢
搜索引擎是一个比较大的系统,由于现在比较先进的搜索引擎技术被一些商业化的搜索引擎所隐藏,但是在xxx老师的指导帮助下,还是艰难的完成了论文。在本论文的写作过程中,我从指导老师xxx老师身上学到了很多东西,不仅掌握了很多搜索引擎方面知识,还有x老师认真负责的工作态度,都让我受益匪浅。他都给予我很大的支持和帮助,使我从各各方面得到很大的提高,相信对我以后的工作和学习都会有很大的帮助,感谢他细心而耐心的辅导。

相关文档
最新文档