学习爬虫推荐阅读的6本书籍

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

学习爬虫推荐阅读的6本书籍

学习爬虫,需要理论和实践相结合,爬虫生态中的爬虫库多如牛毛,urllib,urllib2、requests、beautifulsoup、scrapy、pyspider都是爬虫相关的库,但是如果没有相关的理论知识,只是学习这些库提升效果并不是很好。所以最好在学习这些库的时候系统的去学习相关的爬虫原理。

学习爬虫需要懂的技术包括但不限于Python编程语言、HTTP协议(TCP/IP协议栈)、数据库、Linux等知识。本文给大家推荐几本学习爬虫的书籍,可以帮助爬虫初学者系统的学习爬虫原理。

用Python写网络爬虫

《用Python写网络爬虫》作为使用Python来爬取网络数据的杰出指南,讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外,本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据,以及有关爬取技术的更多真相,比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy 创建了一个高级网络爬虫,并对一些真实的网站进行了爬取。

Python网络数据采集

采用简洁强大的Python语言,介绍了网络数据采集,并为采集新式网络中的各种数据类型提供

了全面的指导。作为入门极好,不会太长,却覆盖了几乎所有的基础内容。

网络爬虫全解析:技术、原理与实践

内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力,本书介绍了实现分布式网络爬虫的关键技术。

Web数据挖

Web数据挖掘》尽管题为“Web数据挖掘”,却依然涵盖了数据挖掘和信息检索的核心主题;因为Web挖掘大量使用了它们的算法和技术。数据挖掘部分主要由关联规则和序列模式、监督学习(分类)、无监督学习(聚类)这三大最重要的数据挖掘任务,以及半监督学习这个相对深入的主题组成。而信息检索对于Web挖掘而言最重要的核心主题都有所阐述。

Python爬虫开发与项目实战

本书由浅入深,从Python和Web前端基础开始讲起,逐步加深难度,层层递进。内容详实,从静态网站到动态网站,从单机爬虫到分布式爬虫,既包含基础知识点,又讲解了关键问题和难点分析,方便读者完成进阶。实用性强,共有9个爬虫项目,以系统的实战项目为驱动,由浅及深地讲解爬虫开发中所需的知识和技能。对于难点有详细的解析,对js加密的分析、反爬虫措施的突破、去重方案的设计、分布式爬虫的开发进行了细致的讲解。

Python 3网络爬虫开发实战

写的深入浅出,爬虫入门必读,介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、

数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,后介绍了pyspider框架、Scrapy框架和分布式爬虫。

相关文档
最新文档