Python爬虫速成指南让你快速的学会写一个最简单的爬虫

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Python爬虫速成指南让你快速的学会写一个最简单的爬虫

本文主要内容：以最短的时间写一个最简单的爬虫，可以抓取论坛的帖子标题和帖子内容。

本文受众：没写过爬虫的萌新。

入门

0.准备工作

需要准备的东西：Python、scrapy、一个IDE或者随便什么文本编辑工具。

1.技术部已经研究决定了，你来写爬虫。

随便建一个工作目录，然后用命令行建立一个工程，工程名为miao，可以替换为你喜欢的名字。

scrapy startproject miao

随后你会得到如下的一个由scrapy创建的目录结构

在spiders文件夹中创建一个python文件，比如miao.py，来作为爬虫的脚本。

内容如下：

import scrapyclass NgaSpider(scrapy.Spider): name = "NgaSpider" host = "/" # start_urls是我们准备爬的初始页 start_urls = [ "/thread.php?fid=406", ] # 这个是解析函数，如果不特别指明的话，scrapy抓回来的页面会由这个函数进行解析。 # 对页面的处理和分析工作都在此进行，这个示例里我们只是简单地把页面内容打印出来。 def parse(self, response): print response.body

2.跑一个试试？

如果用命令行的话就这样：

cd miao scrapy crawl NgaSpider

你可以看到爬虫君已经把你坛星际区第一页打印出来了，当然由于没有任何处理，所以混杂着html标签和js脚本都一并打印出来了。