搜索引擎的工作原理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索引擎的分类
获得网站网页资料,能够建立数据库并提 供查询的系统,我们都可以把它叫做搜索 引擎。按照工作原理的不同,可以把它们 分为两个基本类别:全文搜索引擎 (FullText Search Engine)和分类目录 (Directory)。
全文搜索VS分类目录
பைடு நூலகம்
全文搜索引擎的数据 库是依靠一个叫“网 络机器人(Spider)” 或叫“网络蜘蛛 (crawlers)”的软 件,通过网络上的各 种链接自动获取大量 网页信息内容,并按 以定的规则分析整理 形成的。Google、百 度都是比较典型的全 文搜索引擎系统。
分类目录则是通过人 工的方式收集整理网 站资料形成数据库的, 比如雅虎中国以及国 内的搜狐、新浪、网 易分类目录。另外, 在网上的一些导航站 点,也可以归属为原 始的分类目录,比如 网址之家 http://www.hao12 3.com/)。
全文搜索VS分类目录
全文搜索引擎和分类目录在使用上各有长短。全文搜索 引擎因为依靠软件进行,所以数据库的容量非常庞大, 但是,它的查询结果往往不够准确;分类目录依靠人工 收集和整理网站,能够提供更为准确的查询结果,但收 集的内容却非常有限。为了取长补短,现在的很多搜索 引擎,都同时提供这两类查询,一般对全文搜索引擎的 查询称为搜索“所有网站”或“全部网站”,比如 Google的全文搜索 (http://www.google.com/intl/zh-CN/);把对分 类目录的查询称为搜索“分类目录”或搜索“分类网 站”,比如新浪搜索(http://dir.sina.com.cn/)和雅 虎中国搜索 (http://cn.search.yahoo.com/dirsrch/)。
抢占自然搜索排名
爬行页 面
建立索 引
页面排 序
显示结 果
用户点 击
如何让蜘蛛爬行
如何被用户搜索到 如何吸引用户点击
如何让搜索引擎索引
如何使排名靠前
P28
抢占自然搜索排名
被发现 被索引 被排名 被点击
• 外部链接引导:丰富多样的外部链接 • 内部链接流通:合理的内部链接结构 • 让页面有价值:原创有价值内容 • 减少索引障碍:静态页面,加快载入速度,程序代码优化 • 找到用户搜索词:了解用户的搜索习惯 • 提高排名:了解影响排名的因素 • 吸引用户的标题和描述 • 有意义的URL和快速的更新
主要的搜索引擎介绍
这里介绍的是在国内外影响比较大的主要 的一些搜索引擎和分类目录站点,由于现 在的站点一般都同时提供全文搜索和分类 目录两种服务,所以我们按照其自有的技 术进行分类和介绍。
⒈Google(http://www.google.com/)。 Google成立于1997年,几年间迅速发展成为世 界范围内规模最大的搜索引擎。Google数据库 现存有42.8亿个Web文件,每天处理的搜索请 求已达2亿次,而且这一数字还在不断增长。 Google借用Dmoz(http://dmoz.org/)的分 类目录提供“网页目录”查询 (http://www.google.com/dirhp?hl=zhCN&tab=wd&ie=UTF-8&oe=UTF-8&q=), 但默认网站排列顺序并非按照字母顺序,而是根 据网站PageRank的分值高低排列。
P14
全文搜素引擎
我们平时看到的全文搜索引擎,实际上只 是一个搜索引擎系统的检索界面,当你输 入关键词进行查询时,搜索引擎会从庞大 的数据库中找到符合该关键词的所有相关 网页的索引,并按一定的排名规则呈现给 我们。不同的搜索引擎,网页索引数据库 不同,排名规则也不尽相同,所以,当我 们以同一关键词用不同的搜索引擎查询时, 搜索结果也就不尽相同。
搜索引擎的工作原理
•“给我一个支点,我能撬起地球”。套
用这句话来形容现在在互联网界如日中 天的搜索引擎,那就是“给我一个关键 词,我能找遍整个世界”。
课堂导入
在浩如烟海的Internet上,特别是其上的 Web(World Wide Web万维网)上,不 会搜索,就不会上网。我们可以在网上搜 索:南京2014青奥会的会徽。 同学们,都经常上网,知道有哪些搜索引 擎吗?你怎样运用它们为自己服务的?你 了解搜索引擎吗?它们是怎么工作的?今 天我就和大家聊聊搜索引擎的话题。
互联网上抓取网页
搜索引擎派出蜘蛛
沿着页面链接 抓取页面内容
P11
建立索引数据库
P12
页面排序
分析用户搜索请求 (分词)
结合各种相关因素形 成针对搜索请求的排 序序列 http://www.seomo z.org/article/search -ranking-factors
P13
返回搜索结果
分类目录
分类目录的整个工作过程分为:
收集信息
分析信息
查询信息
分类目录
只不过分类目录的收集、分析信息两部分主要依靠人工 完成。分类目录一般都有专门的编辑人员,负责收集网 站的信息。随着收录站点的增多,现在一般都是由站点 管理者递交自己的网站信息给分类目录,然后由分类目 录的编辑人员审核递交的网站,以决定是否收录该站点。 如果该站点审核通过,分类目录的编辑人员还需要分析 该站点的内容,并将该站点放在相应的类别和目录中。 所有这些收录的站点同样被存放在一个“索引数据库” 中。用户在查询信息时,可以选择按照关键词搜索,也 可按分类目录逐层查找。
主要中文搜索引擎
P4
主要英文搜索引擎
P5
搜索引擎原理的概念
搜索引擎,通常指的是收集了因特网上几 千万到几十亿个网页并对网页中的每一个 词(即关键词)进行索引,建立索引数据 库的全文搜索引擎。当用户查找某个关键 词的时候,所有在页面内容中包含了该关 键词的网页都将作为搜索结果被搜出来。 在经过复杂的算法进行排序后,这些结果 将按照与搜索关键词的相关度高低,依次 排列。
新浪分类目录
新浪分类目录 (http://dir.sina.com.cn/)。新浪的分 类目录目前共有18个大类目,用户可按目 录逐级向下浏览,直到找到所需网站。就 好像用户到图书馆找书一样,按照类别大 小,层层查找,最终找到需要的网站或内 容。通过和其它全文搜索引擎的合作,现 在,也可以使用关键词对新浪的“分类网 站”或“全部网站”进行搜索。
中国搜索
雅虎中国分类目录
雅虎中国分类目录(http://cn.yahoo.com/)。 雅虎中国的分类目录是最早的分类目录,现有14 个主类目,包括“商业与经济”、“艺术与人文” 等,可以逐层进入进行检索,也可以利用关键词 对“分类网站”进行搜索 (http://m6.search.cnb.yahoo.com/dirsrc h/)。此外,雅虎中国也可以对“所有网站”进 行关键词搜索 (http://cn.search.yahoo.com/websrch/), 早期,他的搜索结果使用Google的数据,2004 年2月正式推出自己的全文搜索引擎,并结束了 与Google的合作。
百度的操作界面
中国搜索
中国搜索(http://www.huicong.com/)。中 国搜索的前身是慧聪搜索,原慧聪搜索在联合中 国网等30多家知名网站的基础上,2002年9月 25日,正式组建了中国搜索联盟,经过一年多的 发展,联盟成员就已达630多家,成为中国互联 网一支重要的力量。由于发展迅速,慧聪集团借 上市之机,将慧聪搜索更名为中国搜索,全力发 展其在搜索引擎方面的业务,以打造中文搜索领 域的全新品牌。
搜索引擎的工作原理
全文搜索引擎的“网络机器人”或“网络蜘蛛” 是一种网络上的软件,它遍历Web空间,能够扫 描一定IP地址范围内的网站,并沿着网络上的链 接从一个网页到另一个网页,从一个网站到另一 个网站采集网页资料。它为保证采集的资料最新, 还会回访已抓取过的网页。 网络机器人或网络蜘蛛采集的网页,还要有其它 程序进行分析,根据一定的相关度算法进行大量 的计算建立网页索引,才能添加到索引数据库中。
案
例
如以关键词搜索,返回的结果跟全文搜索引擎一样,也 是根据信息关联程度排列网站。需要注意的是,分类目 录的关键词查询只能在网站的名称、网址、简介等内容 中进行,它的查询结果也只是被收录网站首页的URL地 址,而不是具体的页面。分类目录就像一个电话号码薄 一样,按照各个网站的性质,把其网址分门别类排在一 起,大类下面套着小类,一直到各个网站的详细地址, 一般还会提供各个网站的内容简介,用户不使用关键词 也可进行查询,只要找到相关目录,就完全可以找到相 关的网站(注意:是相关的网站,而不是这个网站上某 个网页的内容,某一目录中网站的排名一般是按照标题 字母的先后顺序或者收录的时间顺序决定的)。
Google的操作界面
百
度
百度(http://www.baidu.com/)。百 度是国内最早的商业化(早期为其它门户 网站提供搜索服务,现在的竞价排名更是 日进斗金)全文搜索引擎,拥有自己的网 络机器人和索引数据库,专注于中文的搜 索引擎市场,除有网页搜索外,百度还有 新闻、MP3、图片等搜索,并在2003年底 推出“贴吧”、按地域搜索等功能。
P29
主动出击抢占付费排名
搜索引擎营销
P30
进行社区营销
P31
提高网站曝光度
图片 视频 新闻 论坛 其他
P32
概述
搜索引擎的原理,可以看做三步:
从互联网上抓取网页→建立索引
数据库→在索引数据库中搜索排 序。