scrapy 参数
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
scrapy 参数
Scrapy是一个强大的Python爬虫框架,它提供了很多有用的参数来帮助我们控制爬虫的行为。
以下是Scrapy常用的一些参数:
1. start_urls:定义起始URL,可以是一个字符串或者一个列表。
2. allowed_domains:定义允许爬取的域名,只有在
allowed_domains中的域名才会被爬取。
3. user_agent:定义爬虫使用的User-Agent,可以设置为一个字符串或者一个列表。
4. download_delay:定义下载延迟,可以减轻服务器的负担。
5. cookie_enable:是否启用cookie,可以设置为True或False。
6. depth_limit:定义爬取的深度限制,可以控制爬虫的爬取深度。
7. concurrent_requests:定义同时发送请求的数量,可以减轻服务器的负担。
8. log_file:定义日志文件名称,可以将日志记录到文件中。
9. log_level:定义日志级别,可以设置为DEBUG、INFO、WARNING、ERROR或CRITICAL。
10. http_proxy:定义使用的代理服务器,可以设置为一个字符串。
以上是Scrapy常用的一些参数,可以根据需要进行设置,从而控制爬虫的行为。