第3章 搜索引擎概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(2)关键词型搜索引擎
• 关键词型搜索引擎是通过用户输入关键词来查找 所需的信息资源,这种方式方便直接,而且可以 使用逻辑关系组合关键词,可以限制查找对象的 地区、网络范围、数据类型、时间等,可对满足 选定条件的资源准确定位。
(3)混合型搜索引擎
• 兼有关键词型和目 录型两种查找方式, 既可直接输入关键 词查找特定信息, 又可浏览目录了解 某领域范围的资源。 目前大多数搜索引 擎站点都同时提供 关键词检索和目录 浏览检索。
1998年6月5日ODP网站问世,这是分类 搜索引擎革命性变革的转折点,它伴随着ODP的诞生永远 载入了互联网史册。
ODP 的特点
ODP是在开放型、可无限扩张的网络平台上,由网络社 区共同建设、共同维护的网络资源整序中心和网络资源检 索工具,ODP实践及其成就,向人们昭示了网络搜索工具互 动性、开放性的发展趋向。 ODP与传统的分类搜索引擎有着本质的区别。ODP的编辑 和管理人员广泛、随机地分布于网络世界,大多是某一方 面的专家,能准确地把握某一领域网络资源状况,搜集的 网站列表更加专业,质量更高,数量也更大;在人文精神 的体现上 ODP收录的网站充满了活力,注释、简介洋溢着 人性化的体贴与关爱,而蜘蛛程序抓取的网页是机械“匹 配”的结果,是机器一样的冰冷;在目录的维护上,ODP的 管理员能够随时地掌握其类目下的网站动态,及时增加条 目、调整类目、删除死链;在系统管理与运作上,ODP较之 传统的分类目录更需要诸如注册登陆、收录与归类标准、 类目调整、增删审核、管理权限等等科学、详细、严谨的 条款与规章。
现代意义上的搜索引擎
最早现代意义上的搜索引擎出现于1994年7月。当时 Michael Mauldin将John Leavitt的蜘蛛程序接入 到其索引程序中,创建了大家现在熟知的Lycos。 斯坦福大学的两名博士生David Filo和美籍华人杨 致远(Gerry Yang)共同创办了超级目录索引 Yahoo, 目前,互联网上有名有姓的搜索引擎已达数百家, 其检索的信息量也与从前不可同日而语。 最近风头正劲的Google,其数据库中存放的网页已 达30亿之巨 。
全文搜索引擎
全文搜索引擎通过从互联网上提取的各个 网站的信息(以网页文字为主)而建立的数 据库中,检索与用户查询条件匹配的相关记 录,然后按一定的排列顺序将结果返回给用 户. 是通常概念上的搜索引擎。 从搜索结果来源的角度,全文搜索引擎又 可细分为两种,一种是拥有自己的检索程序 ( Indexer),并自建网页数据库,搜索结果 直接从自身的数据库中调用;另一种则是租 用其他引擎的数据库,并按自定的格式排列 搜索结果,如Lycos引擎。
目录索引
目录索引虽然有搜索功能,但在严格意义 上算不上是真正的搜索引擎,仅仅是按目录分 类的网站链接列表而已。 用户完全可以不用进行关键词查询,仅靠 分类目录也可找到需要的信息。 目录索引中最具代表性的莫过于的Yahoo 雅虎。其他著名的还有Open Directory Project(DMOZ)、Look Smart等。国内的搜 狐、新浪、网易搜索也都属于这一类。
(3)特殊型搜索引擎
• 特殊型搜索引擎是 专门搜集特定类型 格式的信息,例如 专门搜集电话、人 名、地址、图像、 股市信息等
3.
按信息采集方法分类
• 机器人搜索引擎 • 目录搜索引擎 • 元搜索引擎
(1) 基于蜘蛛程序的机器人搜索引擎
• 这种搜索引擎由一个称为蜘蛛(Spider)的机 器人程序自动访问网站,提取站点上的网页, 并根据网页中的链接进一步提取其他网页,或 转移到其他站点上。由索引器为搜集到的信息 建立索引,并根据用户的查询输入检索索引库, 然后将查询结果返回给用户。 • 该类搜索引擎的优点是信息量大、更新及时、 不需人工干预,缺点是返回信息过多,有很多 无关信息,用户必须从结果中进行筛选。
搜索引擎的分类
1. 按搜索机制分类 2. 按搜索内容分类 3. 按信息采集方法分类
按搜索机制分类
• 目录型搜索引擎 • 关键词型搜索引擎 • 混合型搜索引擎
• (1)目录型搜索 引擎
把搜集到的信息资源 按照一定的主题分门 别类,建立多级目录。 大目录下面包含子目 录,子目录下面又包 含子目录……如此下 去,建立多层具有包 含关系的目录。用户 查找信息时,采取逐 层浏览打开目录,逐 步细化,就可查到所 需信息。
第一个用于互联网的“机器人”
• 美国内华达System Computing Services大学于1993 年开发了另一个与之非常相似的搜索工具,不过此 时的搜索工具除了索引文件外,已能检索网页。 • 世界上第一个用于监测互联网发展规模的“机器人” 程序是Matthew Gray开发的World wide Web Wanderer。刚开始它只用来统计互联网上的服务器 数量,后来则发展为能够检索网站域名。 • Martin Koster于1993年10月创建了ALIWEB,它是 Archie的HTTP版本。ALIWEB不使用“机器人”程序, 而是靠网站主动提交信息来建立自己的链接索引, 类似于现在的Yahoo。
搜索引擎的发展
随着互联网规模的急剧膨胀,一家搜索引擎光 靠自己单打独斗已无法适应目前的市场状况,因此 现在搜索引擎之间开始出现了分工协作,并有了专 业的搜索引擎技术和搜索数据库服务提供商。 国外的Inktomi,它本身并不是直接面向用户的 搜索引擎,但向包括Overture(原GoTo)、 LookSmart、MSN、HotBot等在内的其他搜狐和新浪用的就是它的技术。因此从这个意义上 说,它们是搜索引擎的搜索引擎。
网络信息搜索引擎
概 述
Network Information Search Engines
搜索引擎的含义
搜索引擎 (Searching Engine) 是指一种能 够自动对网络资源建立索引或进行主题分类 , 并通过查询语法为用户返回相匹配资源的系 统。 搜 索引 擎 使用 某 些软 件 程序 ( 如 Robots 、 Spiders 或 Crawlers) 把 Internet 上的所有 信息自动归类或者人为地把某些数据归入某 类别,形成一个可供查询的大型数据库。
几种非主流形式
集合式搜索引擎:如HotBot引擎类似META搜索引擎,但区 别在于不是同时调用多个引擎进行搜索,而是由用户从提供的 4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。 门户搜索引擎:如AOL Search、MSN Search等虽然提供搜 索服务,但自身即没有分类目录也没有网页数据库,其搜索结 果完全来自其他引擎。 免费链接列表(Free For All Links,简称FFA)这类网 站一般只简单地滚动排列链接条目,少部分有简单的分类目录, 不过规模比起Yahoo等目录索引来要小得多。 网络实名:代替网址,准确直达企业网站.用户安装网络 实名插件,即可在浏览器地址栏中,输入现实世界中企业、产 品、商标的名字(即实名)直达企业网站、找到产品信息,而 无需输入http://、www、.com等复杂难记的域名、网址。
(2)目录式搜索引擎
• 以人工方式或半自动方式搜集信息,由编辑人员查 看信息之后,人工形成信息摘要,并将信息置于事 先确定的分类框架中。 • 信息大多面向网站,提供目录浏览服务和直接检索 服务。该类搜索引擎因为加入了人的智能,所以信 息准确、导航质量高,缺点是需要人工介入、维护 量大、信息量少、信息更新不及时。 • 目录的用户界面基本上都是分级结构,首页提供了 最基本的几个大类的入口,用户可以一级一级地向 下访问,直至找到自己感兴趣的类别.用户也可以利 用目录提供的搜索功能直接查找一个关键词. • 由于目录只在保存的对站点的描述中进行搜索,因 此站点本身的动态变化不会反映到搜索结果中来, 这也是目录与基于机器人的搜索引擎之间的一大区 别。
Open Directory
• 商业性质的目录一般都是依靠一群专职编辑来建 立和维护的,最出名的商业目录Yahoo!雇用了大 约一两百名编辑,维护的目录一共收集了上百万 个站点。 • 不少学术或研究性质的目录是依靠志愿者来建立 和维护的,他们可能是普通的Internet用户,也 可能是一群大学生,还有可能是专家学者 • 1998年成立的Open Directory采取了开放管理模 式,所有Internet用户都可以申请成为它的志愿 编辑,目前Open Directory的编辑人员已超过了 14000人。
搜索引擎的历史
在互联网发展初期,网站相对较少, 信息查找比较容易。 然而伴随互联网爆炸性的发展,普通 网络用户想找到所需的资料简直如同大海 捞针,这时为满足大众信息检索需求的专 业搜索网站便应运而生了。
搜索引擎的祖先
• 现代意义上的搜索引擎,是1990年由蒙特利尔 大学学生Alan Emtage发明的Archie。 • 由于大量的文件散布在各个分散的 FTP 主机中, 查询起来非常不便,因此他想到了开发一个可 以以文件名查找文件的系统,于是便有了 Archie。 • Archie工作原理与现在的搜索引擎已经很接近, 它依靠脚本程序自动搜索网上的文件,然后对 有关信息进行索引,供使用者以一定的表达式 查询。
目录搜索引擎的发展
1994年对分类搜索引擎有着划时代的意义,这年的1 月,美国德克萨斯大学推出了第一个可供检索的网络分类 目录---EINet Galaxy。研发Galaxy 的最初动因是为了用 于电子商务的大型目录指南服务。 Yahoo! 是美国斯坦福大学的两名博士生不经意间创 造出来的奇迹,开创了分类目录导航搜索的新时代, 1998年2月搜狐推出了第一个大型中文分类搜索引擎, 这是一个土生土长的完全“中国化”的搜索引擎,她的诞 生对中文网络搜索有着非凡的意义。
(3)元搜索引擎
• 元搜索引擎的特点是本身并没有存放网页信息的 数据库,当用户查询一个关键词时,它把用户的 查询请求转换成其他搜索引擎能够接受的命令格 式,并访问数个搜索引擎来查询这个关键词,并 把这些搜索引擎返回的结果经过处理后再返回给 用户。 • 对于返回的结果系统会进行重复排除、重新排序 等处理。服务方式为面向网页的全文检索。 • 这类搜索引擎的优点是返回结果的信息量更大、 更全,缺点是用户需要做更多的筛选。
目录索引的特点
• 目录的数据库是依靠专职编辑或志愿人员建立起 来的,在访问了某个Web站点后撰写一段对该站点的 描述,并根据站点的内容和性质将其归为一个预先分 好的类别,把站点的URL和描述放在这个类别中,当 用户查询某个关键词时,搜索软件只在这些描述中进 行搜索。 • 目录的用户界面基本上都是分级结构,首页提供 了最基本的几个大类的入口,用户可以一级一中进行搜索, 因此站点本身的动态变化不会反映到搜索结果中来。 目录是依靠人工来评价一个网站的内容,因此用户从 目录搜索得到的结果往往比从基于Robot的搜索引擎 得到的结果更具参考价值。
搜索引擎的发展
• 随着互联网的迅速发展,使得检索所有新出现的网 页变得越来越困难,因此,在Matthew Gray的 Wanderer基础上,一些编程者将传统的“蜘蛛”程 序工作原理作了些改进。其设想是,既然所有网页 都可能有连向其他网站的链接,从跟踪一个网站的 链接开始,就有可能检索整个互联网。 • 到1993年底,一些基于此原理的搜索引擎开始纷纷 涌现,其中以Jump Station、The World Wide Web Worm和Repository-Based Software Engineering (RBSE) spider最负盛名。 • RBSE是第一个在搜索结果排列中引入关键字串匹配 程度概念的引擎。
2. 按搜索内容分类 • 综合型搜索引擎 • 专业型搜索引擎 • 特殊型搜索引擎
(1)综合型搜索引擎
• 综合型搜索引擎对搜集的信息资源 不限制主题范围和数据类型 • 利用它可以查找到几乎任何方面的 信息。
(2)专业型搜索引擎
• 专业型搜索引擎只搜集某一行业或专业范围内的信 息资源,因此,它在提供专业信息资源方面要远远 优于综合型搜索引擎。如IT信息、财经信息、硬件 报价、人才求职与招聘信息。
相关文档
最新文档