认识搜索引擎

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

认识搜索引擎

作者:中国点击金灵

发布日期:10-14-2003

发送本文给你的朋友生成打印机友好页面

从用户角度来看,搜索引擎(Search Engine)是互联网上查找信息的重要工具,帮助人们在茫茫网海中搜寻到所需要的信息;从技术角度来看,搜索引擎一个对互联网上的信息资源进行搜集整理,然后供用户查询的技术和系统,它包括信息搜集、信息整理和用户查询三部分。

按照搜索引擎的工作方式,分为下列4种类型的搜索引擎:

(一)以蜘蛛程序为基础的全文搜索引擎(Crawler Based Search Engine)

这种搜索引擎通过蜘蛛程序(英文叫做Robot,Spider或Crawler)自动收录网页,是真正意义上的搜索引擎,国外的Google、Fast(AllTheWeb)、AltaVista、Inktomi都是属于这种类型的搜索引擎。国内的百度过去也是纯粹的全文搜索引擎,后来在搜索结果中引入竞价排名收费模式,当有关键字广告时,所有关键字广告出现在自然搜索结果的前面,国外还没有一个全文搜索引擎敢这么做,因为这会影响搜索引擎的质量。如果百度把关键字广告放在自然搜索结果的边上,而不是直接出现在自然搜索结果中,将是既不影响赚钱又不影响搜索质量的完美做法。

它的工作原理如下:

1.收集网页

搜索引擎定期派出蜘蛛程序自动访问互联网及网站,并沿着网页中的链接爬到其它网页,把爬过的所有网页收集回来。

2.建立网页索引数据库

由搜索引擎的分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据搜索引擎的相关法算法进行大量复杂的计算,得到每一个网页针对网页内容中及超链中关键词的相关度,然后用这些相关信息建立网页索引数据库。

3.在网页索引数据库中搜索排序

当用户在搜索引擎网站输入关键词搜索后,由搜索引擎的搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由搜索引擎的页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

(二)以人工为基础的分类目录(Editor Based Directory)

分类目录索完全依赖手工操作,用户提交网站后,目录编辑人员会亲自浏览所递交的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,来决定是否接纳所递交的网站,只有接纳的网站才被按照分类存入网址数据库中。分类目录将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查索引找。分类目录虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。具有代表性的分类目录有雅虎(),Open Directory Project()、LookSmart(),国内的搜狐、新浪、网易上的目录索引服务也都属于这一类。

(三)以其它搜索引擎为基础的元搜索引擎(Meta Search Engine)

元搜索引擎没有自己的网页索引数据库,并不是真正的搜索引擎。元搜索引擎在接受用户查询请求时,负责转换处理后提交给多个预先选定的多个以蜘蛛程序为基础的搜索引擎,再将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。著名的元搜索引擎有Mamma、Dogpile、Vivisimo等(元搜索引擎列表),在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。

(四)按点击收费的付费搜索引擎(Pay Per Click Search Engine,简称为PPC)

这种搜索引擎在国内也被称为竞价排名搜索引擎,用户得到的搜索结果实质上是一种通过搜索关键字来被访问的文本广告(简称为关键字广告)。纯粹PPC并不是真正意义上的搜索引擎,由于它的搜索结果是关键词广告,如果没有大流量的合作伙伴,纯粹PPC没有价值。国内的百度并不是纯粹PPC,而是全文搜索引擎加上PPC的混合体,其全文搜索引擎是最好的中文搜索引擎之一。

这种收费搜索引擎的工作过程和原理如下:

1.广告主选择关键词,向付费搜索引擎递交网站,支付完广告费后,网站被收录到网页索引数据库。

2.广告主通过竞价的方式来决定点击价格,愿意承受的点击价格越高,其网站在搜索结果中的排名位置就越靠前。

3.用户在付费搜索引擎网站或其流量合作伙伴的网站输入关键词搜索后,由付费搜索引擎的搜索程序从网页索引数据库中找到符合该关键词的所有相关网页后向用户返回搜索结果,搜索结果中的网页顺序按照广告主支付的点击价格高低来排列。

4.用户只要点击某一条搜索结果,相应的广告主就要为此点击而付费(从预付的广告费中扣除)。

5.广告费用完后,广告主的网站停止出现在搜索结果中。

这种收费搜索引擎上的搜索结果并不是由相关度算法计算出来的自然搜索结果,返回给用户并不是最相关的搜索结果,而是由金钱来决定搜索结果上的排名位置,没有实质内容的网站只要愿意花钱,也完全可以出现在搜索结果的前几名。由于用户得不到满意的搜索结果,纯粹PPC自身的网站会吸引不到足够的用户来搜索。因此,这种搜索引擎通常都要寻找流量合作伙伴(Traffic Affiliate),在合作伙伴的网站放置其搜索服务,通过流量合作伙伴们来获得流量,而合作伙伴也可以从中获得收入分成。

值得指出的是,不要把PPC把Google的Adwords关键字广告搞混淆了,二者都是关键字广告,但PPC的关键字广告完全出现在搜索结果中,影响搜索结果的质量;而Google的Adwords把关键字广告放在显示搜索结果页面的右边,完全不影响搜索结果的质量。

各种类型的搜索引擎通过合作或结盟来相互融合和渗透。一些技术型的全文搜索引擎也提供分类目录服务,例如Google使用Open Directory Project()上的分类目录来提供分类目录服务;分类目录的鼻祖Yahoo使用Google的网页索引数据库提供全文搜索服务;付费搜索引擎的鼻祖Overture在付费关键词搜索结果的后面加入全文搜索引擎Inktomi的搜索结果。在这方面,国内几家著名的门户网站开始借鉴国外的做法,租用全文搜索引擎的网页索引数据库,比如新浪、搜狐和网易三大门户网站上的提供的搜索服务就有网站搜索和网页搜索之分,用户可自行选择,选择网站搜索时,搜索的对象仅限于所在门户网站上的分类目录;而选择网页搜索时,搜索又成了全文搜索,搜索的对象是门户网站向全文搜索引擎所租用的网页索引数据库。

相关文档
最新文档