搜索引擎工作原理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

各主流搜索引擎蜘蛛的 名称:
百度:Baiduspider 雅虎: Yahoo!+Slurp 搜狗: Sogou+web+spider 腾讯搜搜: Sosospider Google: Googlebot 微软MSN: msnbot 网易有道: YoudaoBot
认识搜索引擎 — 搜索引擎工作原理
2. 跟踪链接:为了抓取网上尽量多的页面,搜索引 擎蜘蛛会跟踪页面上的链接,从一个页面爬到下 一个页面,就好像蜘蛛在蜘蛛网上爬行那样,最 简单的爬行策略分为两种,一种是深度优先,另 一种是广度优先。
深 度 优 化 广 度 优 化

பைடு நூலகம்
深度优先和广度优先通常是混合使用的,这样既能照顾到尽量多的网站(广 度优先),也能照顾到网站的内页(深度优先)。
认识搜索引擎 — 搜索引擎工作原理
3.
地址库:未来避免重复爬行和抓取,搜 索引擎建立记录已经被发现还抓取或未被 抓取页面的地址库。
4. 文件存储:搜索引擎蜘蛛抓取的数据存 入原始页面数据库。其中的页面数据与用 户浏览器得到的HTML是完全一样的。每个 URL都有一个独特的文件编号。
Google的操作界面
百度—李彦宏
百度(http://www.baidu.com/)。百度是国
内最早的商业化(早期为其它门户网站提 供搜索服务,现在的竞价排名更是日进斗 金)全文搜索引擎,拥有自己的网络机器 人和索引数据库,专注于中文的搜索引擎 市场,除有网页搜索外,百度还有新闻、 MP3、图片等搜索,并在2003年底推出 “贴吧”、按地域搜索等功能。
搜索引擎工作原理
网络1201班:A组成员
搜索引擎

搜索引擎(search engine)是指根据一定的策略、 运用特定的计算机程序从互联网上搜集信息,在 对信息进行组织和处理后,为用户提供检索服务, 将用户检索相关的信息展示给用户的系统。

认识搜索引擎 — 搜索引擎工作原理
一、爬行和抓取 1. 蜘蛛:搜索引擎用来爬行和访问页面的程序被称为蜘蛛 (spider),也称为机器人(bot)
概述
搜索引擎的原理,可以看做三步:
从互联网上抓取网页→建立索引数
据库→在索引数据库中搜索排序。
谢谢!!
百度的操作界面
新浪搜索
新浪分类目录(http://dir.sina.com.cn/)。
新浪的分类目录目前共有18个大类目,用 户可按目录逐级向下浏览,直到找到所需 网站。就好像用户到图书馆找书一样,按 照类别大小,层层查找,最终找到需要的 网站或内容。通过和其它全文搜索引擎的 合作,现在,也可以使用关键词对新浪的 “分类网站”或“全部网站”进行搜索。
搜索引擎的工作原理
主要的搜索引擎介绍
Google (http://www.google.com/)。 Google成立于1997年,几年间迅速发展成为世界 范围内规模最大的搜索引擎。Google数据库现存 有42.8亿个Web文件,每天处理的搜索请求已达2 亿次,而且这一数字还在不断增长。Google借用 Dmoz(http://dmoz.org/)的分类目录提供“网页 目录”查询 (http://www.google.com/dirhp?hl=zhCN&tab=wd&ie=UTF-8&oe=UTF-8&q=),但默 认网站排列顺序并非按照字母顺序,而是根据网 站PageRank的分值高低排列。
搜索引擎原理的概念
搜索引擎,通常指的是收集了因特网上几
千万到几十亿个网页并对网页中的每一个 词(即关键词)进行索引,建立索引数据 库的全文搜索引擎。当用户查找某个关键 词的时候,所有在页面内容中包含了该关 键词的网页都将作为搜索结果被搜出来。 在经过复杂的算法进行排序后,这些结果 将按照与搜索关键词的相关度高低,依次 排列。
认识搜索引擎 — 搜索引擎工作原理
二、预处理(提取文字、中文分词、去停止词、消除噪声、 去重、正向索引) 1. 提取文字:搜索引擎预处理首先要做的就是从HTML文 件中去除标签、程序,提取出可以用于排名处理的网页 面文字内容。 2. 去重:搜索引擎不喜欢重复性的内容。对来自不同网站 的同一篇文章,搜索引擎希望只返回其中的一篇,所以 搜索引擎进行了识别和删除重复内容。 去重解释了为什么收录量增加后又减少的原因,也告诫 我们原创的重要性
相关文档
最新文档