python爬虫学习路线
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
python爬虫学习路线
爬虫、web开发、数据分析、机器学习等等丰富的世界已经向你敞开,选择一个方向开始出发吧!下面是我为您整理的关于〔python〕爬虫学习路线,希望对你有所帮助。
python爬虫学习路线
我在学习Python爬虫之前,只有一点点C++基础。所谓"一点点',指的是看过谭浩强的《C++程序〔制定〕》、砖头一样的
《C++Primer》(当然,后者没看完),有接触实验室的MFC大型项目经验,但是关于数据结构、类、封装等概念,理解得都不到位。
在这样的基础上,由于种种原因,开始学习Python。
(1)学习Python基础
开始阅读《零基础入门学习Python》,看了三天,初始Python 的基本语法、列表和字典、包和模块等概念。推举小甲鱼的这本书作为入门,书籍是基于Python3作为开发语言,具有时效性;
语言轻松易懂;一边抄代码一边学语法,3天即可以略微上手Python。在这三天间,还参照百度教程,配置好Python的运行环境。在win7环境下,安装了Python3.6,Anaconda3,PcCharm,后来才发现,只必须要下载一个Anaconda3就可以了0-0熟悉了
Python的运行环境,熟悉了pip、conda等命令的用法、第三方包的安装。此外,还配置了MySQL、Navicat、PowerBI等相关软件。现在想想,有点多余了,其实暂时是用不到的。但在做项目的时候,终会用到。
(2)初识Python数据分析
由于刚开始的时候,把自己的求职目标定位为"基于Python的数据分析师',因此还检索了很多数据分析的岗位JD。包括数据分析的岗位要求、学习规划、职业分类等等。自己也很懈怠。
11月27-12月4日去厦门大学出差,期间只能看看书。看的是《利用Python进行数据分析》,草草浏览了一遍,只记得NumPy、Matplotlib、pandas这几个包的名字而已=-=京东双11的时候,买了《利用Python进行数据分析》、《Python金融〔大数据〕分析》、《Python零基础入门学习》、《谁说菜鸟不会数据分析》、《深入浅出数据分析》这几本书,一共大概200元,但是过了一个月,目前只看了《Python零基础入门学习》这一本而已。。。
(3)初学Python网络爬虫
出差返校之后,重新定位了一下:把"爬虫工程师'作为学习Python的阶段性目标。大概花了一周时间去攻克,学习到的知识有:
1、网页的基本知识:get和post的含义、html的含义及基本格式;
2、爬虫的基本原理:分析网页-请求网页-返回网页信息-解析网页-下载文件-储存文件;
3、爬虫相关的第三方包:请求网页用的是requests,解析网页有三种方法(re、lxml、BeautifulSoup),这三个包是爬虫的重中之重;
4、Python环境下对本地文件的读写:下载文件则必须要自己写一个download函数,os包的使用;
5、网页URL的分析方法,必须要用for循环获取某些嵌套网页的url;
6、使用浏览器调试url的方法,F12和寻找scr、href等;
学习的方法,就是不断的寻找网上的示例,先自己在spyder中手动敲一遍,然后逐句逐句的分析每一条代码的含义。重复2-3个例子之后,会发现所有的爬虫都基本是这个套路。这个重复的过程一周足矣。0-0爬取妹子图,关于内心成就感的提升是最大的。。。
学Python网络爬虫碰到问题怎么办?
学习的过程中或多或少都会有各种问题出现,不要试着逃避,真的勇士敢于直面惨淡的 BUG。
第一步肯定是利用好搜索引擎,怎么用也是一门技术活:
〔编程〕初学者如何使用搜索引擎:看完或许会对搜索引擎的使用有新的感受。
第二步,求助于各大同性交友网站:
stackoverflow:这个就不用多说了吧,这是是一个程序员的知识库;
v2ex:国内非常不错的编程社区,不仅仅是包涵程序,也包涵了程序猿的生活;
segmentfault:一家以编程问答为主的网站。
从零开始学Python网络爬虫
在学习了基本的小型爬虫之后,开始学习爬虫框架Scrapy。学习Scrapy的过程非常的曲折,主要困难在:由于Scrapy包在17年2月份之后,才支持Python3;此外,有些网页的html也在更改,因此网上很多教程都是不可正常运行的。
我百度关键词为"scrapy爬取图片',浏览了前100个网页,能运行的爬虫实例,不过6个而已。因此,除了浏览Scrapy框架的简介之后,没有几个能仔细研究的case。于是,上jd买了一本《从零开始学Python网络爬虫》,由于是17年10月份出版的,因此和目前的开发环境很契合,不会出现代码运行不了的状况。
将要学习的知识点:
1、用MongoDB和MySQL存储爬取的数据;
2、多线程爬虫的实现方法;
3、针对异步加载网页抓取数据的方法;
4、使用cookies模拟登录网站;
Python学习体会
Python的学习到现在已经有半个月了,因为之前有学Java的基础,所以这次就没有买书,一直看的廖雪峰的教程。
Python给我的总体感觉是真的很简洁易读,同样的实现一个功能,Java必须要十行,Python可能只必须要三行。与之对应的是学习起来也相对更简单一些。
同时Python的动态语言特性也是区别于Java的静态语言的,这一点我现在还没有什么感受,毕竟才刚学半个月,但是Java给我的感觉就是很严谨,甚至有些呆板。
我学习Python的目的主要只是为了Python的数据处理能力和爬虫,可是数据处理不仅仅必须要Python语言的支持,更多的是分析数据的能力,爬虫呢相对来说就比较简单了,因为之前学习过Web的知识,所以上手爬虫来说会相对简单一点,但是还是有一些概念绕的我头有点晕。而且现在网上的爬虫教程大多是2.7的,但是我用的是3.5的版本,所以看得都有些出入