搜索引擎奥秘探索之爬行和抓取

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

搜索引擎的工作过程非常复杂。以下所介绍的相对于搜索引擎技术来说都是皮毛,不过对于seo人员已经足够了。

搜索引擎的工作过程大体分为三个阶段。

1.爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得html代码并存入数据库。

2.预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。

3.排名:用户输入关键词后,排名程序调用索引数据库数据,计算相关性,然后按照一定的格式生成搜索结果页面。

一、爬行和抓取

爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。

1.蜘蛛爬行

蜘蛛(spider)是搜索引擎用来爬行和访问页面的程序,也称为机器人(bot)。

蜘蛛访问任何一个网站,都会访问网站根目录下的robots.txt文件。

例如:如果你不希望你的网站被蜘蛛抓取,那么可以修改robots.txt文件来实现。

2.跟踪链接

为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到另一个页面,就好像蜘蛛在蜘蛛网上爬行一样,这也就是搜索引擎蜘蛛的由来。

为了让蜘蛛更好的爬取我们的网站,我们要让我们的网站结构简单有规律一些,以利于蜘蛛的爬行。

3.吸引蜘蛛

是什么影响蜘蛛的爬行?别急,继续往下看。

(1)网站和页面的权重。质量高、资格老的网站权重自然也高,这种网站上的页面被爬行的深度也会比较高,所以会有更多内页被收录。

(2)页面的更新频率。这点我想大家都懂,蜘蛛对活动的东西非常敏感,所以你要定期更新你的网站。更新的越频繁,质量越高,蜘蛛自然越喜欢。

(3)导入链接。高质量的导入链接能更好的吸引蜘蛛。

(4)与首页点击距离。一般来说网站权重最高的是首页。所以离首页越近,页面权重越高,被蜘蛛爬行的机会也就越大。

4.地址库

为避免重复爬行和抓取网站,搜索引擎会建立一个地址库,记录已经被发现还没有被抓取的页面,以及已经被抓取的页面。

地址库中的url有以下几个来源:

(1)人工录入的种子网站。

(2)蜘蛛抓取页面后,从html代码中解析新的url,与地址库中的数据进行对比,如果不存在,就放到待访问地址库。

(3)站长通过搜索引擎提交网站入口提交网站。

蜘蛛按重要性访问地址库中网站,访问并抓取网站,然后把这个url从待访问数据库中删除,放进已访问地址库中。

5.文件存储

搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据和用户浏览器的到的html完全一样。每个url都有一个独特的编号。

6.爬行时的复制内容检测。

检测并删除复制内容通常是在预处理过程中进行,但是现在的蜘蛛会在爬行和抓取时就进行检测。如果你的网站权重很低,而且有大量转载、抄袭或伪原创的内容,蜘蛛可能不在继续爬行。

本文由:/提供!

相关文档
最新文档