scrapy 参数

合集下载

scrapy 参数
Scrapy是一个强大的Python爬虫框架，它提供了很多有用的参数来帮助我们控制爬虫的行为。

以下是Scrapy常用的一些参数：
1. start_urls：定义起始URL，可以是一个字符串或者一个列表。

2. allowed_domains：定义允许爬取的域名，只有在
allowed_domains中的域名才会被爬取。

3. user_agent：定义爬虫使用的User-Agent，可以设置为一个字符串或者一个列表。

4. download_delay：定义下载延迟，可以减轻服务器的负担。

5. cookie_enable：是否启用cookie，可以设置为True或False。

6. depth_limit：定义爬取的深度限制，可以控制爬虫的爬取深度。

7. concurrent_requests：定义同时发送请求的数量，可以减轻服务器的负担。

8. log_file：定义日志文件名称，可以将日志记录到文件中。

9. log_level：定义日志级别，可以设置为DEBUG、INFO、WARNING、ERROR或CRITICAL。

10. http_proxy：定义使用的代理服务器，可以设置为一个字符串。

以上是Scrapy常用的一些参数，可以根据需要进行设置，从而控制爬虫的行为。