分布式网络爬虫研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

淮北师范大学
2013届学士学位论文
分布式网络爬虫研究
学院计算机科学与技术学院
专业网络工程
研究方向分布式网络爬虫研究
学生姓名李邦柱
学号20091204026
指导教师姓名
指导教师职称
2013年 5 月16 日
分布式网络爬虫研究
计算机科学与技术学院2013届毕业生李邦柱
指导教师：xx
摘要:网络爬虫（Web Crawler），通常简称爬虫，是搜索引擎的重要组成部分。

随着信息化的快速推进，作为搜索引擎不可或缺的一部分——网络爬虫，一直是个热门的研究话题，它的好坏，直接决定了搜索引擎的未来。

目前来看，网络爬虫的研究方向主要包括对网页搜索策略的研究和网页分析算法的研究两大方向，其中，网页搜索中的主题网络爬虫是个研究趋势，它根据一定的网页分析算法，过滤与主题无关的链接，保留符合条件的链接并放入待抓取队列。

本论文简要介绍了一种构建简单分布式网络爬虫模型的方法，并且提供了行之有效的理论分析和算法。

主要讨论了单个网络爬虫抓取网页的原理，以后扩展后的多爬虫分布式的模型方法。

在分布式的网络爬虫中主要介绍了其体系结构以及分布式网络爬虫模型中运用的算法与数据结构分析。

本文并没有涉及复杂的算法研究，只是通过学习和使用现有平台和技术，研究基于Linux C++/C平台下的一个能够抓取同一域名下的、具有对URL有某个关键字限制下的部分网页的微型的网络爬虫，最后实现离线浏览功能。

从性质上来看，它更趋向与主题网络爬虫。

关键词：网络爬虫；分布式网络爬虫；URL；哈希表；多线程；Linux
The Study of Distributed web crawler
School of Computer Science & Technology 2013 Graduates
Of Huaibei Normal University
Li Bang-Zhu
Anhui Huaibei 235000, China
Supervised by Wang Shuai, Instructor
Abstract：Web crawler, usually referred to crawler, is an important component of search engine. With the rapid development of information technology, as an indispensable part of search engine -- web crawler, has been a hot research topic. wheather it is good or bad, it directly determines the future of search engines. At present, the research of web crawler mainly includes two aspects: the study of web search strategy and web analysis algorithms. Among them, theme web crawler in web research is a research trend, which is based on a certain web page analysis algorithm and filters irrelevant links, retain qualified links and place into the capture queue.
This paper briefly introduces a method to build a simple model of distributed web crawler and provides the effective theoretical analysis and the algorithm. It mainly discusses the principle of a single web crawler webpage and the distributed method of expanded multiple crawlers. In the distributed web crawler, it mainly introduces system structure, the analysis of algorithms and data structures used in distributed web crawler model. There is no complex algorithm research in this thesis. Through learning and using the existing platform and technology, the research and implementation of a Linux C/C++ platform can capture micro crawler which is under the same domain name and has a key word restrictions of URL in most web pages, and finally realize offline browsing. From the point of nature, it tends to theme web crawler.
Keywords: Web Crawler,Distributed web crawler, URL,Linux Socket ,multi-thread, Linux
目录
绪论 (5)
一、网络爬虫的功能以及原理的概述 (6)
1.1 网页的搜索策略和网页的分析 (7)
1.1.1 网页搜索策略的选择 (7)
1.2 URL介绍 (7)
1.3 URL的标准化 (8)
1.4 网页抓取 (9)
1.5 网页分析 (10)
1.6 Linux Socket 通信 (13)
1.6.1 Linux Socket简介 (13)
1.6.2 TCP/IP (14)
1.6.3 客户端Socket函数介绍 (15)
1.7 Linux平台下单个爬虫程序运行及结果分析 (18)
二、分布式网络爬虫模型结构的概述 (22)
三、分布式网络爬虫中使用的主要算法与数据的分析 (24)
3.1 爬虫进程启动后的工作流程 (25)
3.2 判重服务进程启动后的主要工作流程 (26)
3.2.1 判重服务进程正常启动的主要过程 (26)
3.2.2 判重服务进程选举启动的主要过程 (26)
3.2.3 判重服务进程对某个爬虫进程异常退出后的处理过程 (27)
四、结束语 (29)
五、致谢 (30)
参考文献 (31)
绪论
大家常用的搜索引擎，例如Baidu，Google也都有自己的网络爬虫来帮他们抓取Internet海洋中的网页。

这里稍微插一段题外话，其实网络爬虫和网站维护经常都是对立的，因为有些爬虫刷新时间短，有些爬虫比较“笨”，会在网站里迷失了路等情况，引起给网站服务器发送大量请求，造成服务器压力过大而崩溃。

但话又说回来，一个设计良好的网络爬虫，再加上使用者良好的素质，是完全可以避免以上情况的。

总得来说，网络爬虫带来的好处远远大于它自身和使用者带来的坏处。

大家几乎每天都在直接或间接地享受网络爬虫带来的好处，那么一个普通的网络爬虫它到底是如何构成的，又是如何抓取网页的呢？
一、网络爬虫的功能以及原理的概述
网络爬虫是网络搜索引擎的主要部分，主要功能是在互联网中收集数据，是为信息检索功能提供可靠的数据支持。

一个网络爬虫算法的优劣以及效率的高低都将直接影响搜索引擎的众多性能指标，网络爬虫程序的最主要的功能就是在网络上对网页内容中超链接的提取与分析以及进行网页数据的抓取工作。

网络爬虫刚开始启动时，网络爬虫就会从一个可扩展的任务队列中得到一项任务，即待抓取的网页信息(比如标示该URL的文本信息以及URL),随后将该URL对应的网页文件下载到本地保存起来，并对其中的网页代码文本内容进行分析,提取其中的相关信息以及超链接，将提取的链接送入判重服务进程的队列中等待判重查询，然后将没有扩展过的URL和相关信息加入到任务队列中,等待后续扩展，以是单个爬虫使用的框架，看起来更像是主题爬虫的框架。

(见图1.1)。

图1.1
1.1 网页的搜索策略和网页的分析
网络爬虫的搜索策略（爬虫的算法）的研究及其URL分析是目前研究的两大方向，一个成功的爬虫需要强大的搜索策略和快速的URL分析。

1.1.1 网页搜索策略的选择
网络爬虫一般常用的网页搜索策略包括深度优先搜索、广度优先搜索、最佳优先搜索等。

深度优先搜索（Depth First Search）：是指在抓取网页过程中，一直按一个方向搜索网页，直到碰到最底层，然后返回上一层，继续按原先的搜索策略搜索下去。

这种搜索策略在判定是否存在的问题上有些优势，但对于抓取网页来说，爬虫很容易陷入某个深渊，因为Internet网络本身就很复杂，再加上网页结构的复杂性，深度优先搜索策略几乎不被采用。

广度优先搜索（Breadth First Search）：是指在抓取网页过程中，首先抓取第一层的网页，然后再抓取第二层的网页，依次类推……。

这种搜索策略使用一种叫队列的数据结构来完成，一旦找到新的URL，就把它加入到队列中；每次用队列最前面的URL 来抓取网页。

但它也有自己的缺点，那就是随着层数的增加，大量无关的网页会被加进来。

最佳优先搜索（Best First Search）：和它的名字一样，这种搜索策略使用某种算法，用来计算每个URL的优先度，并按照这个优先度从大到小排列在一个数组中，每次要抓取的网页即优先度最大URL的网页。

这种搜索策略的优点可以避免广度优先搜索大量的无关网页被加进来，其缺点就是容易陷入某个相关度小的区域而忽略更大的区域。

因此对它来说，设计一种好的算法很重要，或者结合其它的算法。

本文采用的是第二种算法，因为其简单易实现，又因为本文需要抓取的网页在同一个域名下，且有关键字约束，所以可以防止大量无关的网页流入。

1.2 URL介绍
统一资源定位符（URL，英语UniformResourceLocator的缩写）也被称为网页地址，是因特网上标准的资源的地址。

它最初是由蒂姆•伯纳斯－李发明用来作为万维网的地
址的。

现在它已经被万维网联盟编制为因特网标准RFC1738了。

由于爬虫是通过URL的定位来抓取网页的，因此，需要了解URL的基本格式，才能继续下一步工作。

URL 相当于一个文件名在网络范围的扩展。

因此 URL 是与因特网相连的机器上的任何可访问对象的一个指针。

URL 的一般形式是：
<URL的访问方式>://<主机>:<端口>/<路径>
URL的访问方式有：
1.ftp ——文件传送协议 FTP
2.http ——超文本传送协议 HTTP
3.News —— USENET 新闻
<主机> 是存放资源的主机在因特网中的域名
URL地址格式排列为：scheme：//host：port/path，
例如 http：///domain/HXWZ就是一个典型的URL地址。

1.3 URL的标准化
看到这个标题，有人可能会想，URL本身就是标准的，还用得着你去标准化吗？其实不然，在网页源代码中，有些是绝对路径，有些是相对路径，还有一些URL中存在字符‘#’，多个‘///’等等。

因此，需要对这些URL进行处理，分别得到每个URL的Host，Port，File。

以下是本文对URL的设定：
1. URL的File成员不能以‘/’结尾，若有则以‘\0’填充；若该File成员没有路径，则设定其路径为‘/’。

这样做的目的是为了便于URL排重。

2. URL的File成员中若有‘#’字符，则删除它及它以后的字符，剩余的字符串作为File的值。

3. 若URL中没有显式表明端口，则默认Port成员的值为80。

若URL没有主机属性，则默认Host成员的值为初始URL的主机名
1.4 网页抓取
在分析网页之前，首先网页需要被抓取下来，抓取的具体方法将会在后面介绍。

这里仅仅结合程序代码，分析一下数据从服务器保存到本地的过程。

第一部分：分析之前，首先要明确的是：当从sockfd读取数据时，最前面一部分是和网页本身无关的信息，比如有些网页未找到，就会返回404 not found等服务信息，类似的，每种情况会返回对应的信息，因此，对于一些服务信息，应该不予记录。

下面代码通过每次读取一个字节的内容，当读到‘>’字符时才开始正式记录网页内容。

while(1) {
n = read(sockfd, ch, 1);
if(n < 0) {
if(errno == EAGAIN) {
sleep(1);
continue;
}
}
if(*ch == '>') {
headbuffer[j++] = *ch;
break;
}
}
headbuffer[j] = 0;
第二部分：定义一个tmp的字符数组，用来临时存放抓取的的网页，抓取方法与第一部分想同，都是用read函数，不同的是这里是一块一块抓取，效率上能比每次抓取一个字节要高。

为什么不直接存放到文件中，而要保存到临时数组中呢？我的解释是：因为下一步分析网页时，有个URL重定向的过程，程序还会继续修改tmp数组。

如果直接保存到文件，那么还得再次打开文件分析网页，这样会降低效率，因为在磁盘执行读写操作总是比在内存读写慢得多。

char tmp[MAXLEN];
while(1) {
n = read(sockfd, buffer, need);
if(!n) break;
if(n < 0) {
if(errno == EAGAIN) {
timeout++;
if(timeout>10) {
break;
}
sleep(1);
continue;
}
else {
perror("read");
return NULL;
}
}
else {
sum_byte += n;
timeout = 0;
strncat(tmp, buffer, n);
}
}
1.5 网页分析
本文采用的网页分析算法基于内容分析，通俗的讲就是遍历整个网页代码，然后找出其中所有符合限制条件的URL。

1.5.1 URL提取
考虑到网页中的链接格式主要是：<a herf=”xxx”>title</a>，因此本文通过string
自身封装的find函数来找到每一个”herf”的位置，接下来的情况稍微有些复杂，分为三种情况。

第一种：URL用双引号引起来；第二种：以单引号引起来；第三种：URL 没有被引起来。

所以可以使用一个标记变量（flag）来区分以上三种情况。

1.5.2 URL的重定向
考虑到本文的要求不仅仅是抓取网页本身，还要实现一个离线浏览网页的功能，原有的链接不再有效，因此，URL的重定向这一步不可缺少。

之前，爬虫已经抓取了一些网页并存放在了一个名为Pages的文件夹中，而且其中的每个网页都进行了重命名处理（本文直接以url.Fname的字符串哈希值作文保存网页的文件名）。

那么在本地的URL无论在路径和文件名上都和原来网页上的链接都是不对应的，要想实现和原来一样的网页跳转，必须修改每个链接的herf值。

对于原来的链接<a herf=”xxx.html”>title</a>，假设现在重命名该网页为new.html，那么如何处理怎么才能转化成新的链接呢？方法有很多，比如可以通过覆盖和移动，使得两个引号直接的内容为new.html。

本文采用的方法如下：
现已知第一个引号的位置为pos_1，因此可以调用string类的insert方法。

调用后的效果如下：
<a herf=”new.html” ”xxx.html”>title</a>
这样处理不仅屏蔽了”xxx.html”，也避免了删除原有链接等不必要操作，一定程度上提高了代码的效率。

1.5.3 URL判重
抓取网页时有一个非常棘手的问题，那就是重复抓取问题。

大家知道，一个网站中的链接非常多，抽象出来就是一个巨大的蜘蛛网，类似与图论中的无向图。

如果不对爬虫进行设置，它就像一只无头苍蝇一样，到处乱撞。

这样待抓取队列里的URL越来越多，并且好多都是重复的。

那么如何才能跳出这个怪圈呢？
C++的标准模板库已经为大家提供了一个叫set的容器（当然也可以使用hash来判
重）。

在cplusplus这样介绍：set是一种存放唯一性元素的关联容器，它里面的每一个元素都称为关键字，它由二叉搜索树实现。

由于它的唯一性，高效性，本人把它选择作为URL判重的一种类似hash的工具。

本文代码如下：
定义：set<unsigned int>Set；
使用：Set.insert(hashVal)；
1.5.4 网页存储
前面爬虫已经抓取到了一张网页，并且进行了重定向处理。

那么接下来要做的事就是把它保存到磁盘里，在这一步需要用到文件操作。

chdir("Pages");
int fd = open(url_t.GetFname().c_str(), O_CREAT|O_EXCL|O_RDWR, 00770);
/* check whether needs re-fetch */
if(fd < 0) {
if(errno == EEXIST) {
stat(url_t.GetFname().c_str(), &buf);
int len = buf.st_size;
if(len >= flen) goto NEXT;
else {
fd = open(url_t.GetFname().c_str(), O_RDWR|O_TRUNC, 00770);
if(fd < 0) {
perror("file open error");
goto NEXT;
}
}
}
else {
perror("file open error");
goto NEXT;
}
}
write(fd, HtmFile.c_str(), HtmFile.length());
NEXT:
close(fd);
// todo next
以上代码主要功能是保存已抓取网页的内容到磁盘。

第一行代码使用O_CREAT | O_EXCL | O_RDWR模式打开，当该文件已经存在时返回-1，错误代码存放在errno中，错误代号为EEXIST。

代码中使用stat函数来读取参数为文件名的文件信息，其中我们需要的就是st_size这个成员的内容，它以字节形式记录了文件的大小。

这样就可以与当前抓取网页大小（存放于变量flen中）比较，从而判断是否需要覆盖原有文件。

本文以上代码虽然使用了不推荐的goto语句，因为程序需要跳过write函数。

不过使用goto语句在没有给程序带来混乱的情况下实现了一条break语句实现不了的功能，因此更具实用性。

1.6 Linux Socket 通信
本文在这一章会涉及到Linux Socket[14]的通信，包括TCP的连接过程，简单引用基于TCP的Socket 通信下客户端的几个主要函数。

1.6.1 Linux Socket简介
前文一直提到Linux Socket，其实，说得准确些应该是POSIX标准下的网络编程。

对于POSIX的理解，首先来参考下面一段话：
POSIX[7]表示可移植操作系统接口（Portable Operating System Interface，缩写为POSIX 是为了读音更像 UNIX）。

电气和电子工程师协会（Institute of Electrical and Electronics Engineers，IEEE）最初开发POSIX标准，是为了提高 UNIX 环境下应用程序的可移植性。

然而，POSIX 并不局限于UNIX。

许多其它的操作系统，例如 DEC OpenVMS 和Microsoft Windows NT，都支持POSIX 标准，尤其是IEEE Std.
1003.1-1990（1995 年修订）或 POSIX.1，POSIX.1 提供了源代码级别的C语言应用编程接口（API）给操作系统的服务程序，例如读写文件。

POSIX.1已经被国际标准化组织（International Standards Organization，ISO）所接受，被命名为ISO/IEC 9945-1:1990 标准。

其实，POSIX为用户提供了一整套给操作系统服务的应用程序接口（API），其中就包括网络通信的接口，它们可以用来提供和保障Internet中各个主机之间的通信。

由于Linux与Unix之间的深厚关系，所以在Linux平台上，那些接口也可被使用者直接调用。

1.6.2 TCP/IP
在网络通信中，大家用得最多的就是TCP/IP，其实TCP/IP是一个协议族，只不过最主要的是TCP协议和IP协议。

IPv4网际协议版本是4， IPv4是IP的简称，自上世纪80年代以来一直是网际协议族的主力协议。

用32位地址来标识。

IPv4给UDP、TCP、IGMP、SCTP、和ICMP提供分组递送服务。

IPv6网际协议版本是6（Internet Protocol version 6）。

IPv6是在20世纪90年代中期为替代IPv4的所设计的。

其最大的改变是使用128位更大地址以应对20世纪90年代因特网的爆发性增长。

IPv6给UDP、TCP、SCTP和ICMPv6提供分组服务的。

本人在此论文中并未采用IPv6，而任采用目前主流的IPv4作为开发基础，实现基于TCP连接为基础的Socket通信。

选择TCP套接字通信的理由很简单，因为需要爬虫和服务器进行可靠的全双工通信（爬虫发送请求报文，与此同时，服务器处理请求报文并返回服务信息和网页代码）。

TCP传输控制协议（Transmission Control Protoc）。

TCP是一个面向连接的协议，为用户进程提供可靠的全双工字节流。

TCP套接字是一种流套接字（stream socket）。

TCP关心确认、超时和重传之类的细节。

大多数因特网应用程序使用TCP。

本文中的socket通信基于TCP，因此有必要提一下TCP的连接和断开过程。

TCP的可靠连接得益于它的三次握手原理，下图形象的表示了TCP三次握手建立连接和两次半关闭断开连接的具体过程。

在连接和断开连接之间，客户端和服务器即可进行双向的信息通信。

TCP三次握手与两次半关闭过程：
图1.2
1.6.3 客户端Socket函数介绍
在了解各个Socket函数之前，大家首先来看一个经典的流程图1.3，几乎每次网络通信都需要走以下流程，它详细地显示了TCP客户端和TCP服务器之间的Socket通信流程：
图1.3基于TCP客户/服务器程序的套接字函数及通信流程
在程序中，每一个URL对应的网页，在客户端都需要完成Socket()，Connect()，Write()，Read()，Close()这一过程。

要注意的是，如果不及时关闭Socket文件描述符，有时会出现“open too many files”的系统错误，这是由于系统对用户同时打开多个文件的限制（这里的文件不仅仅指通常意义上的文件，Linux会把任何东西都当做
文件，包括目录、各类描述符等）。

而且，以上情况在多线程情况下特别容易出现。

1.6.3.1 socket() 函数
要进行网络I/O操作，第一件要做的事就是调用socket()函数。

该函数用来产生一个int类型的socket文件描述符，函数原型：
#include <sys/socket.h>
int socket(int family, int type, int protocal);
返回：若成功则返回非负描述符，否则返回-1。

参数： family指明协议族，有AF_INET，AF_INET6等。

type指明套接字类型，有SOCK_STREAM，SOCK_DGRAM等。

protocol指明某个协议类型，常设为0。

例子（摘自http.cpp）：
if((sockfd = socket(PF_INET, SOCK_STREAM, 0)) == -1) {
return -1;
}
至于本文为什么采用PF_INET而不是AF_INET，是因为POSIX下对应PF_INET，BSD 中对应AF_INET。

两者版本不同，但差别微小。

1.6.3.2 connect() 函数
TCP客户端用connect()函数来建立与TCP服务器的连接，在连接之前，需要对该函数第二个参数进行初始化操作。

函数原型：
#include <sys/socket.h>
int connect(int sockfd, const struct sockaddr *servaddr, socklen_t addrlen);
返回：成功返回0，反之返回-1
参数：sockfd是由socket函数返回的套接字描述符
第二、第三个参数分别是一个指向套接字地址结构的指针和该结构的大小。

1.6.3.3 write(), read()，close() 函数
本文使用这两个函数来读写套接字操作，read函数从参数fd读取内容放到参数buf 中；相反，write函数把参数buf的内容写入到参数fd中。

#include <unistd.h>
ssize_t read(int fd, void * buf , size_t count);
返回：返回实际读到的字节数，出错返回-1，错误信息存放在errno中。

参数：fd为文件描述符；第二个指定要读入的buf指针指向的内存，第三个参数表明要读取的字节数。

#include<unistd.h>
ssize_t write (int fd, const void * buf, size_t count);
返回：返回实际写入的字节数，出错返回-1，错误信息存放在errno中。

参数：与read函数参数具有相同意义。

close函数用来关闭套接字，并终止TCP连接。

函数原型：
#include <unistd.h>
int close(int sockfd);
参数：sockfd为socket函数返回的套接字描述符。

返回：成功返回0，反之返回-1。

1.7 Linux平台下单个爬虫程序运行及结果分析
爬虫运行前首先要做好准备工作，本文需要有一个名叫Pages的文件夹用来存放抓取的网页；接下来需要在终端编译源文件，使用make命令；最后一步就是执行了，执行命令有点讲究，因为需要给它传递参数，我们可以使用其提供的help参数来了解该爬虫的具体使用
图1.4显示爬虫帮助信息
图1.5初始状态下的文件
图1.6执行完make以后
图1.7输入一个节点后的结果
图1.8抓取后重定向的网页保存在page文件夹中
二、分布式网络爬虫模型结构的概述
随着科技的进步，需求的增加，我们渐渐地发现单个网络爬虫爬取的信息量总是有限的，不足的，并且当单个爬虫负载过重时常会使整个模型处于非常不稳定状态，所以人们通常采取运行多个网络爬虫进程并行工作来收集数据，所以分布式网络爬虫模型就应运而生了。

一个简单的分布式网络爬虫主要考虑是3个方面的问题：第一是任务的分配，第二是结束判定，第三是扩展伸缩性。

分布式的网络爬虫是如何进行任务分配的呢？如果各个爬虫进程间不通过某种方式的通信协作，就一定会出现多次爬取的现象。

比如一个网页被爬虫爬取后存入数据库，另一个爬虫重复爬取再次存入数据库，就会导致数据库中出现重复数据，当然这在搜索引擎中是绝对不允许的，否则它就是一个失败的搜索引擎。

因此我们需要一个单独的“判重”服务进程来管理判断数据是否重复。

对于结束的判定，网络爬虫不多做考虑，主要是因为互联网的页面节点数数以亿计，所以要将全部的页面节点下载下来的耗时将超过爬虫生存周期。

一旦某一爬虫进程的工作全部结束(主要体现在爬虫进程中的所有线程都已经工作完毕，并且是处于等待状态的)后，爬虫就会向当前主进程继续申请新的任务，进行扩展。

主进程在内存中检查某页面的节点是否已经被爬虫爬取过，并且查找是被哪个爬虫爬取下来的。

这样做的目的主要是防止爬虫进程中某一个爬虫线程的崩溃以及崩溃时能够方便任务的转移。

扩展伸缩性是目前分布式网络爬虫的难点所在。

网络爬虫系统主要面临３个方面问题:第一是某一个爬虫死亡，第二是产生新爬虫并使其加入爬虫队列中，第三是判重服务进程死亡。

一个新爬虫产生和加入只需要与当前那个判重服务“打声招呼”就可以了，判重服务进程为新爬虫分配好一个独特的ID后就可以工作了。

如果有爬虫死亡（爬虫无响应）则会在判重服务进程的链路检测中检测出来。

判重服务进程会不停的在一定时间周期内轮询的检查每个爬虫是否活着，如果一个爬虫连续出现多次不响应即可判断此爬虫为“死亡爬虫”，从而就会进行“任务转移”的工作。

如果当前判重服务进程出现死亡现象（即服务进程异常的中止），则需要通过选举的机制从其它爬虫进程中选举出一个新
的判重服务进程用来替代原先死亡的进程。

新的判重进服务程通过数据收集，重建与异常中止状态前相同的任务列表，保证整个系统不受进程死亡的影响能够持续稳定地运行下去。

此时默认“已死亡”的爬虫爬取的任务（之前分配的任务）已经完全转移给了别的“活着”的网络爬虫，所以我们可以认为此时重建的任务列表与之前的任务列表是不存在差别的。

值得一提的是分布式网络爬虫系统中是没有固定的Solve和Master端,因此所有的爬虫进程都应该具备从爬虫进程变为判重服务进程的能力(反过来是没必要的,因为系统消耗太大！)。

图2.1
三、分布式网络爬虫中使用的主要算法与数据的分析
在一个互联的局域网内，不同的爬虫进程是运行在不同的终端平台上的，爬虫进程之间通过套接字进行网络数据交换的。

当网络爬虫进程在局域网内某台终端上开始运行时，此时爬虫进程还不能确定自己的身份(即不知道是判重服务进程还是爬虫进程)，于是在终端上运行的进程进行一次网络广播，寻找当前在终端上正在运行的判重服务进程。

如果在规定的时间超时无响应的话，则说明当前运行的进程为整个系统内第一个运行的进程，就把此进程当作判重服务进程，开始对判重服务进程执行初始化工作(比如建立任务列表等相关任务)，使之成为判重服务进程。

如果当前进程接收判重服务进程的反馈信息后，则认为此进程是爬虫进程，于是进行爬虫进程的初始化工作，反馈回来的信息中主要包含用来唯一标识爬虫进程的ID号，该ID用来在将来的选举中标识身份的，用来区别其他爬虫的唯一标识，以及判重服务进程所在终端的IP地址等。

流程如图3.1：
图3-1。