第6章Internet搜索引擎-

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6.1.1搜索引擎发展
所有搜索引擎的祖先 ,是1990年由加拿大麦吉尔大学(University of McGill) 计算机学院的三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)开发的 Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流 资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个 FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP 服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜 索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。 所以,Archie被公认为现代搜索引擎的鼻祖。 Archie是第一个自动索引互联网上匿 名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文 件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地 址可以下载该文件。
分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如 雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导 航站点,也可以归属为原始的分类目录,比如“网址之家”( http://www.hao123.com/)。
3.元搜索引擎
这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果 是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格 式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘 蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索 结果显示等方面,均有自己研发的特色元搜索技术。比如“metaFisher元 搜索引擎”。元搜索引擎在接受用户查询请求时,同时在其他多个引擎上 进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、 Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的 有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结 果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
6.1.2搜索引擎的工作原理
搜索引擎优化,首先要知道搜索引擎是如何工作的,只有知道搜索引 擎是如何工作的以后,才能更好的 进行优化工作,做出对于搜索引擎更加 友好的网站,这样才会有好的排名。
搜索引擎的工作原理由三部分组成:搜索信息、整理信息、接受查询。
1.搜索信息
搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接 爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛” 也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的, 它需要遵从一些命令或文件的内容。
从搜索结果来源的角度,全文搜索引擎又可细分为两种: 一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机 器人”(Robot)程序,通过网络上的各种链接自动获取大量网页信息内容,并按一 定的规则分析整理形成的。 并自建网页数据库,搜索结果直接从自身的数据库中调 用。 Google、百度都是比较典型的全文搜索引擎系统。 另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引 擎。
2.整理信息
搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集 起来的信息,还要将它们按照一定的规则进行编排。索引可以采用通用的大 型数据库,如ORACLE、Sybase等,也可以自己定义文件格式进行存放。 索引是搜索中较为复杂的部分,涉及到网页结构分析、分词、排序等技术, 好的索引能极大的提高检索速度。
百度于2000年推出,是目前在中国最成功的一个商业搜索引擎,主要 提供中文信息检索,并且为门户站点提供搜索结果服务。搜索范围涵盖了中 国内地、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。 拥有的中文信息总量达到1亿2千万网页以上,并且还在以每天几十万页的 速度快速增长。
3. 个性化的搜索引擎
6.1.3 搜索引擎的分类
搜索引擎按照工作方式的不同分为三个基本类别:全文搜索引擎、目录 搜索引擎和元搜索引擎。
1.全文搜索引擎
全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫 “网络蜘蛛(crawlers)”的软件,它们都是通过从互联网上提取的各个 网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件 匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是 真正的搜索引擎。
3.3.5 高级设置
6.2.2 细化搜索条件
你给出的搜索条件越具体,搜索引擎返回的结果也会越精确。比方说你 想查找有关电脑冒险游戏方面的资料,输入game是无济于事的。computer game范围就小一些,当然最好是敲入computer adventure game,返回的 结果会精确得多。
一般的搜索引擎由于缺乏对关键词语义的理解,检索结果对用户而言往 往不够理想,主要表现在:检索结果中无关的网页过多;没有考虑用户的个 性差异。个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。 一种方式通过搜索引擎的社区化产品(即对注册用户提供服务)的方式来组 织个人信息,然后在搜索引擎基础信息库的检索中引入个人因素进行分析, 获得针对个人不同的搜索结果。今后搜索引擎将越来越懂得个人用户的特定 需求,并能提供更符合个人需求的搜索答案。或许搜索引擎将来会了解你所 在位置,或许了解你此前已进行了哪些搜索活动。
随着Internet中的信息呈几何级数增长,出现了真正意义上的搜索引擎, 这些搜索引擎记录网站上每一页的开始,随后搜索Internet中的所有超链接, 把代表超链接的所有词汇放入一个数据库,这是现在搜索引擎的原型。
2. 现代搜索引擎
1993年Matthew Gray开发了World Wide Web Wanderer,它是世界上第 一个利用HTML网页之间的链接关系来监测Web发展规模的“机器人” (robot)程序。鉴于其在Web上沿超链“爬行”的工作方式,这种程序有时 也称为“蜘蛛”(spider)。
3.接来自百度文库查询
用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。有的 系统在返回结果之前对网页的相关度进行了计算和评估,并根据相关度进行 排序,将相关度大的放在前面,相关度小的放在后面;也有的系统在用户查 询之前已经计算了各个网页的网页等级(Page Rank ),返回查询结果时 将网页等级大的放在前面,网页等级小的放在后面。
4.搜索工具条
搜索引擎提供商为争夺用户和扩大市场占有,无不争先恐后地推出个性化的搜索利器----搜 索工具条(toolbar & deskbar)。Toolbar与deskbar的推出与不断完善不仅是搜索技术进步与 创新的结果,也体现了搜索引擎亲和性、易用性以及个性化、本地化的发展趋向。
Toolbar基于搜索引擎又独立于搜索引擎,实质上是一种嵌入浏览器的免费插件。它的最大 特点是,用户无须打开搜索引擎主页,就可以在工具条中输入关键词进行搜索。工具条除了具 备搜索引擎自身的功能外,大多还增添了诸如计算器、日历、发送电邮、天气预报等实用功能。
由于Archie深受欢迎,受其启发,Nevada System Computing Services 大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica (Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。
1.早期的搜索引擎
早期的搜索引擎是把Internet中的资源服务器的地址收集起来,按其提供 资源的类型分成不同的目录,再一层层地进行分类。用户要查找自己所需要 的信息,可按分类一层一层地进入,直到找到自己所需要的信息为止。这是 最原始的方式,只适用于Internet中信息不多的时候。
Deskbar也是搜索引擎的附属工具,与toolbar的作用大同小异,但它不是嵌入在浏览器中, 而是直接安装在用户的桌面上。用户不用打开浏览器就可以输入关键词进行搜索,搜索结果与 微型阅读器一起弹出,用户便可以在微型阅读器中进入相关网页。
5.地图搜索服务
所谓地图搜索:指的是目前几大主流搜索引擎所提供的地图搜索服务, 并且在搜索相关关键词的时候,会出现地图搜索的结果。通过百度地图搜 索,您可以找到指定的城市、城区、街道、建筑物等所在的地理位置,也 可以找到离您最近的所有餐馆、学校、银行、公园等等。百度地图搜索还 为您提供了路线查询功能,如果您要去某个地点,百度地图搜索会提示您 如何换乘公交车,如果您想自己驾车去,百度地图搜索同样会为您推荐最 佳路线。
除上述三大类引擎外,还有以下几种非主流形式: 1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区 别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集 合式”搜索引擎更确切些。 2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分 类目录也没有网页数据库,其搜索结果完全来自其他引擎。 3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接 条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。 由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎。
选择搜索关键词的原则是,首先确定你所要达到的目标,在脑子里要形 成一个比较清晰概念,即我要找的到底是什么?是资料性的文档?还是某种 产品或服务?然后再分析这些信息都有些什么共性,以及区别于其他信息的 特性,最后从这些方向性的概念中提炼出此类信息最具代表性的关键词。如 果这一步做好了,往往就能迅速的定位你要找的东西,而且多数时候你根本 不需要用到其他更复杂的搜索技巧。
第6章 Internet搜索引擎
3.1 常用的浏览器
3.2 初识Internet Explorer 6.0 3.3 InternetInternet Explorer 6.0的选项设置
6.1 搜索引擎简介
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程 序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服 务的系统。从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在 搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用 户输入的内容相关的信息列表。
2.目录搜索引擎
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因 此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。因 此目录索引在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的 网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询, 仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名 鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、 LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。 全文搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。
6.2 搜索引擎的使用技巧
6.2.1 提炼搜索关键词
众所周知,要在搜索引擎上搜索信息首先必须输入关键词,所以说关键 词是一切事情的开始。大部分情况下找不到所需的信息是因为在关键词选择 方向上发生了偏移,学会从复杂搜索意图中提炼出最具代表性和指示性的关 键词对提高搜索效率至关重要,这方面的技巧是所有其他搜索技巧的基础。
现代搜索引擎的思路源于Wanderer,不少人在Matthew Grey工作的基 础上对它的蜘蛛程序做了改进。1994年7月,Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos,成 为第一个现代意义的搜索引擎。在那之后,随着Web上信息的爆炸性增长, 搜索引擎的应用价值也越来越高,不断有更新、更强的搜索引擎系统推出。 其中特别引人注目的是Google,由于其采用了独特的PageRank技术,使它 成为当前全球最受欢迎的搜索引擎。
相关文档
最新文档