分布式大数据采集关键技术研究与实现_付华峥
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图1 系统整体框架
2.2 分布式架构
系统采用主/从的分布式架构,如图2所示,主控制节点从待爬URL队列中提取URL分配给各抓取主机。然后由抓取主机完成采集任务和解析任务并将已经成功抓取的URL和提取到的新的URL交由主控制节点处理。成功抓取的URL缓存到已爬集合中,再根据已爬集合过滤出新的URL,并将它们缓存到对应的待爬队列中。其中待爬队列和已爬集合均使用内存数据库redis来实现。待爬
图6 实验结果比较
为验证系统的可扩展性,我们将采集评论信息的机器由2台增加到4台。则每小时平均评论采集量由12.83万条增加到23.54万条。虽然性能只达到1.8倍提升,并没有达到理想2倍的提升,其原因可能是带宽或网络原因所致。但也可见系统具有好的扩展性。因此,在带宽支持的情况下,可通过简单的增加采集机器便可得到数据量的相应提升。
6 结束语
本文提出了一种高效的大数据采集技术方案,并在解析模块中提出了基于标签树块节点权值的正文提取算法。该算法可以剔除无用的非正文信息块,从而提升了解析效率。而针对IP限制问题引入代理池技术,保证系统的持续性和稳定性。方案基于并行的分布式爬取方式,