搜索引擎奥秘探索之爬行和抓取

合集下载

相关主题

搜索引擎的工作过程非常复杂。以下所介绍的相对于搜索引擎技术来说都是皮毛，不过对于seo人员已经足够了。

搜索引擎的工作过程大体分为三个阶段。

1.爬行和抓取：搜索引擎蜘蛛通过跟踪链接访问网页，获得html代码并存入数据库。

2.预处理：索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理，以备排名程序调用。

3.排名：用户输入关键词后，排名程序调用索引数据库数据，计算相关性，然后按照一定的格式生成搜索结果页面。

一、爬行和抓取

爬行和抓取是搜索引擎工作的第一步，完成数据收集的任务。

1.蜘蛛爬行

蜘蛛（spider）是搜索引擎用来爬行和访问页面的程序，也称为机器人（bot）。

蜘蛛访问任何一个网站，都会访问网站根目录下的robots.txt文件。

例如：如果你不希望你的网站被蜘蛛抓取，那么可以修改robots.txt文件来实现。

2.跟踪链接

为了抓取网上尽量多的页面，搜索引擎蜘蛛会跟踪页面上的链接，从一个页面爬到另一个页面，就好像蜘蛛在蜘蛛网上爬行一样，这也就是搜索引擎蜘蛛的由来。

为了让蜘蛛更好的爬取我们的网站，我们要让我们的网站结构简单有规律一些，以利于蜘蛛的爬行。

3.吸引蜘蛛

是什么影响蜘蛛的爬行？别急，继续往下看。

（1）网站和页面的权重。质量高、资格老的网站权重自然也高，这种网站上的页面被爬行的深度也会比较高，所以会有更多内页被收录。

（2）页面的更新频率。这点我想大家都懂，蜘蛛对活动的东西非常敏感，所以你要定期更新你的网站。更新的越频繁，质量越高，蜘蛛自然越喜欢。

（3）导入链接。高质量的导入链接能更好的吸引蜘蛛。

（4）与首页点击距离。一般来说网站权重最高的是首页。所以离首页越近，页面权重越高，被蜘蛛爬行的机会也就越大。

4.地址库

为避免重复爬行和抓取网站，搜索引擎会建立一个地址库，记录已经被发现还没有被抓取的页面，以及已经被抓取的页面。

地址库中的url有以下几个来源：

（1）人工录入的种子网站。

（2）蜘蛛抓取页面后，从html代码中解析新的url，与地址库中的数据进行对比，如果不存在，就放到待访问地址库。

（3）站长通过搜索引擎提交网站入口提交网站。

蜘蛛按重要性访问地址库中网站，访问并抓取网站，然后把这个url从待访问数据库中删除，放进已访问地址库中。

5.文件存储

搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据和用户浏览器的到的html完全一样。每个url都有一个独特的编号。

6.爬行时的复制内容检测。

检测并删除复制内容通常是在预处理过程中进行，但是现在的蜘蛛会在爬行和抓取时就进行检测。如果你的网站权重很低，而且有大量转载、抄袭或伪原创的内容，蜘蛛可能不在继续爬行。

本文由：/提供！