分布式网络爬虫设计毕业设计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分布式网络爬虫设计文档

刘祎睿陈蔚瀚李嘉一、实验目标:

本次实验目标为设计一个分布式网络爬虫实现一下功能:

1.从一个给定的网址中分析其所包含的URL并爬取对应的网页,直到爬取完全部不重复的

网页为止。

2.支持分布式爬取,同时记录输出每一个网页的大小。

3.采用多线程结构设计,实现高性能的网络爬虫。

二、整体架构设计:

本系统整体架构如下图,由主线程、异步抓取线程、网页解析线程三类线程构成,其中,网页分析线程由网页分析线程池统一分配调度。线程间的通信由网页结果队列和URL人任务队列负责,两个消息队列由轻量级消息队列Nanomsg创建采用Pipeline模式。主线程主要负责异步抓取线程和网页解析线程池的创建。异步抓取线程主要负责从URL任务队列中获取网页网址,然后完成网页的Socket抓取,并将得到的网页存入网页结果队列中。网页

解析线程池主要负责分配网页解析线程从网页结果队列提取网页进行分析。网页解析线程主要负责从网页内容中提取出有效的URL并存入URL任务队列。

相关文档
最新文档