scrapy-redis 下载器并发数波动以及下载速度无法达到理论值的问题

问题

在用 scrapy-redis 进行分布式采集的过程中,分析日志发现 pages/min 数量呈现规律性的波动

原因分析

利用 Telnet 工具进行爬取状态的监控
telnet
CONCURRENT_REQUESTS=16的情况下,爬虫刚启动时从 redis 队列中拉取 16 个请求,进入下载器,直到这16个请求全部下载完成后,爬虫进入空闲状态,调度器才会再次从redis队列中拉取16个请求
如果有使用代理的话,每一批请求的访问间隔则由最慢的那一次请求来决定,会拖慢整个爬虫的速度

解决方案

不知道


版权声明:本文为jiaqi0109原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。