第3章搜索引擎概述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

(2)关键词型搜索引擎
• 关键词型搜索引擎是通过用户输入关键词来查找所需的信息资源，这种方式方便直接，而且可以使用逻辑关系组合关键词，可以限制查找对象的地区、网络范围、数据类型、时间等，可对满足选定条件的资源准确定位。
(3)混合型搜索引擎
• 兼有关键词型和目录型两种查找方式，既可直接输入关键词查找特定信息，又可浏览目录了解某领域范围的资源。目前大多数搜索引擎站点都同时提供关键词检索和目录浏览检索。
1998年6月5日ODP网站问世，这是分类搜索引擎革命性变革的转折点，它伴随着ODP的诞生永远载入了互联网史册。
ODP 的特点
ODP是在开放型、可无限扩张的网络平台上，由网络社区共同建设、共同维护的网络资源整序中心和网络资源检索工具，ODP实践及其成就，向人们昭示了网络搜索工具互动性、开放性的发展趋向。 ODP与传统的分类搜索引擎有着本质的区别。ODP的编辑和管理人员广泛、随机地分布于网络世界，大多是某一方面的专家，能准确地把握某一领域网络资源状况，搜集的网站列表更加专业，质量更高，数量也更大；在人文精神的体现上 ODP收录的网站充满了活力，注释、简介洋溢着人性化的体贴与关爱，而蜘蛛程序抓取的网页是机械“匹配”的结果，是机器一样的冰冷；在目录的维护上，ODP的管理员能够随时地掌握其类目下的网站动态，及时增加条目、调整类目、删除死链；在系统管理与运作上，ODP较之传统的分类目录更需要诸如注册登陆、收录与归类标准、类目调整、增删审核、管理权限等等科学、详细、严谨的条款与规章。
现代意义上的搜索引擎
最早现代意义上的搜索引擎出现于1994年7月。当时 Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中，创建了大家现在熟知的Lycos。斯坦福大学的两名博士生David Filo和美籍华人杨致远（Gerry Yang）共同创办了超级目录索引 Yahoo，目前，互联网上有名有姓的搜索引擎已达数百家，其检索的信息量也与从前不可同日而语。最近风头正劲的Google，其数据库中存放的网页已达30亿之巨。
全文搜索引擎
全文搜索引擎通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户. 是通常概念上的搜索引擎。从搜索结果来源的角度，全文搜索引擎又可细分为两种，一种是拥有自己的检索程序（ Indexer），并自建网页数据库，搜索结果直接从自身的数据库中调用；另一种则是租用其他引擎的数据库，并按自定的格式排列搜索结果，如Lycos引擎。
目录索引
目录索引虽然有搜索功能，但在严格意义上算不上是真正的搜索引擎，仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询，仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于的Yahoo 雅虎。其他著名的还有Open Directory Project（DMOZ）、Look Smart等。国内的搜狐、新浪、网易搜索也都属于这一类。
(3)特殊型搜索引擎
• 特殊型搜索引擎是专门搜集特定类型格式的信息，例如专门搜集电话、人名、地址、图像、股市信息等
3.
按信息采集方法分类
• 机器人搜索引擎 • 目录搜索引擎 • 元搜索引擎
(1) 基于蜘蛛程序的机器人搜索引擎
• 这种搜索引擎由一个称为蜘蛛（Spider）的机器人程序自动访问网站，提取站点上的网页，并根据网页中的链接进一步提取其他网页，或转移到其他站点上。由索引器为搜集到的信息建立索引，并根据用户的查询输入检索索引库，然后将查询结果返回给用户。 • 该类搜索引擎的优点是信息量大、更新及时、不需人工干预，缺点是返回信息过多，有很多无关信息，用户必须从结果中进行筛选。
搜索引擎的分类
1. 按搜索机制分类 2. 按搜索内容分类 3. 按信息采集方法分类
按搜索机制分类
• 目录型搜索引擎 • 关键词型搜索引擎 • 混合型搜索引擎
• （1）目录型搜索引擎
把搜集到的信息资源按照一定的主题分门别类，建立多级目录。大目录下面包含子目录，子目录下面又包含子目录……如此下去，建立多层具有包含关系的目录。用户查找信息时，采取逐层浏览打开目录，逐步细化，就可查到所需信息。
第一个用于互联网的“机器人”
• 美国内华达System Computing Services大学于1993 年开发了另一个与之非常相似的搜索工具，不过此时的搜索工具除了索引文件外，已能检索网页。 • 世界上第一个用于监测互联网发展规模的“机器人” 程序是Matthew Gray开发的World wide Web Wanderer。刚开始它只用来统计互联网上的服务器数量，后来则发展为能够检索网站域名。 • Martin Koster于1993年10月创建了ALIWEB，它是 Archie的HTTP版本。ALIWEB不使用“机器人”程序，而是靠网站主动提交信息来建立自己的链接索引，类似于现在的Yahoo。
搜索引擎的发展
随着互联网规模的急剧膨胀，一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况，因此现在搜索引擎之间开始出现了分工协作，并有了专业的搜索引擎技术和搜索数据库服务提供商。国外的Inktomi，它本身并不是直接面向用户的搜索引擎，但向包括Overture（原GoTo）、 LookSmart、MSN、HotBot等在内的其他搜狐和新浪用的就是它的技术。因此从这个意义上说，它们是搜索引擎的搜索引擎。
网络信息搜索引擎
概述
Network Information Search Engines
搜索引擎的含义
搜索引擎 (Searching Engine) 是指一种能够自动对网络资源建立索引或进行主题分类 , 并通过查询语法为用户返回相匹配资源的系统。搜索引擎使用某些软件程序 ( 如 Robots 、 Spiders 或 Crawlers) 把 Internet 上的所有信息自动归类或者人为地把某些数据归入某类别,形成一个可供查询的大型数据库。
几种非主流形式
集合式搜索引擎：如HotBot引擎类似META搜索引擎，但区别在于不是同时调用多个引擎进行搜索，而是由用户从提供的 4个引擎当中选择，因此叫它“集合式”搜索引擎更确切些。门户搜索引擎：如AOL Search、MSN Search等虽然提供搜索服务，但自身即没有分类目录也没有网页数据库，其搜索结果完全来自其他引擎。免费链接列表（Free For All Links，简称FFA）这类网站一般只简单地滚动排列链接条目，少部分有简单的分类目录，不过规模比起Yahoo等目录索引来要小得多。网络实名:代替网址，准确直达企业网站.用户安装网络实名插件，即可在浏览器地址栏中，输入现实世界中企业、产品、商标的名字（即实名）直达企业网站、找到产品信息，而无需输入http://、www、.com等复杂难记的域名、网址。
(2)目录式搜索引擎
• 以人工方式或半自动方式搜集信息，由编辑人员查看信息之后，人工形成信息摘要，并将信息置于事先确定的分类框架中。 • 信息大多面向网站，提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能，所以信息准确、导航质量高，缺点是需要人工介入、维护量大、信息量少、信息更新不及时。 • 目录的用户界面基本上都是分级结构，首页提供了最基本的几个大类的入口，用户可以一级一级地向下访问，直至找到自己感兴趣的类别.用户也可以利用目录提供的搜索功能直接查找一个关键词. • 由于目录只在保存的对站点的描述中进行搜索，因此站点本身的动态变化不会反映到搜索结果中来，这也是目录与基于机器人的搜索引擎之间的一大区别。
Open Directory
• 商业性质的目录一般都是依靠一群专职编辑来建立和维护的，最出名的商业目录Yahoo！雇用了大约一两百名编辑，维护的目录一共收集了上百万个站点。 • 不少学术或研究性质的目录是依靠志愿者来建立和维护的，他们可能是普通的Internet用户，也可能是一群大学生，还有可能是专家学者 • 1998年成立的Open Directory采取了开放管理模式，所有Internet用户都可以申请成为它的志愿编辑，目前Open Directory的编辑人员已超过了 14000人。
搜索引擎的历史
在互联网发展初期，网站相对较少，信息查找比较容易。然而伴随互联网爆炸性的发展，普通网络用户想找到所需的资料简直如同大海捞针，这时为满足大众信息检索需求的专业搜索网站便应运而生了。
搜索引擎的祖先
• 现代意义上的搜索引擎，是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。 • 由于大量的文件散布在各个分散的 FTP 主机中，查询起来非常不便，因此他想到了开发一个可以以文件名查找文件的系统，于是便有了 Archie。 • Archie工作原理与现在的搜索引擎已经很接近，它依靠脚本程序自动搜索网上的文件，然后对有关信息进行索引，供使用者以一定的表达式查询。
目录搜索引擎的发展
1994年对分类搜索引擎有着划时代的意义，这年的1 月，美国德克萨斯大学推出了第一个可供检索的网络分类目录---EINet Galaxy。研发Galaxy 的最初动因是为了用于电子商务的大型目录指南服务。 Yahoo! 是美国斯坦福大学的两名博士生不经意间创造出来的奇迹，开创了分类目录导航搜索的新时代， 1998年2月搜狐推出了第一个大型中文分类搜索引擎，这是一个土生土长的完全“中国化”的搜索引擎，她的诞生对中文网络搜索有着非凡的意义。
(3)元搜索引擎
• 元搜索引擎的特点是本身并没有存放网页信息的数据库，当用户查询一个关键词时，它把用户的查询请求转换成其他搜索引擎能够接受的命令格式，并访问数个搜索引擎来查询这个关键词，并把这些搜索引擎返回的结果经过处理后再返回给用户。 • 对于返回的结果系统会进行重复排除、重新排序等处理。服务方式为面向网页的全文检索。 • 这类搜索引擎的优点是返回结果的信息量更大、更全，缺点是用户需要做更多的筛选。
目录索引的特点
• 目录的数据库是依靠专职编辑或志愿人员建立起来的，在访问了某个Web站点后撰写一段对该站点的描述，并根据站点的内容和性质将其归为一个预先分好的类别，把站点的URL和描述放在这个类别中，当用户查询某个关键词时，搜索软件只在这些描述中进行搜索。 • 目录的用户界面基本上都是分级结构，首页提供了最基本的几个大类的入口，用户可以一级一中进行搜索，因此站点本身的动态变化不会反映到搜索结果中来。目录是依靠人工来评价一个网站的内容，因此用户从目录搜索得到的结果往往比从基于Robot的搜索引擎得到的结果更具参考价值。
搜索引擎的发展
• 随着互联网的迅速发展，使得检索所有新出现的网页变得越来越困难，因此，在Matthew Gray的 Wanderer基础上，一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是，既然所有网页都可能有连向其他网站的链接，从跟踪一个网站的链接开始，就有可能检索整个互联网。 • 到1993年底，一些基于此原理的搜索引擎开始纷纷涌现，其中以Jump Station、The World Wide Web Worm和Repository-Based Software Engineering (RBSE) spider最负盛名。 • RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。
2. 按搜索内容分类 • 综合型搜索引擎 • 专业型搜索引擎 • 特殊型搜索引擎
(1)综合型搜索引擎
• 综合型搜索引擎对搜集的信息资源不限制主题范围和数据类型 • 利用它可以查找到几乎任何方面的信息。
(2)专业型搜索引擎
• 专业型搜索引擎只搜集某一行业或专业范围内的信息资源，因此，它在提供专业信息资源方面要远远优于综合型搜索引擎。如IT信息、财经信息、硬件报价、人才求职与招聘信息。

第3章 搜索引擎概述

第3章搜索引擎概述