如图,这中间十分钟干啥了...
emmm....猜测了一下,有可能是上面最后一条链接连接的时间太长了?但是也不至于10分钟吧,也没个超时啥的
或者是重试(Retrying)耗费的时间太久了?
会不会有可能是处理了301导致的呢?
这中间将近七分钟,都干啥了...
观测了一下,好像只有scrapy.extensions.logstats
在这个时候,才会长时间停顿...
百度了一下scrapy.extensions.logstats
并没有相关结果...
如图,这中间十分钟干啥了...
emmm....猜测了一下,有可能是上面最后一条链接连接的时间太长了?但是也不至于10分钟吧,也没个超时啥的
或者是重试(Retrying)耗费的时间太久了?
会不会有可能是处理了301导致的呢?
这中间将近七分钟,都干啥了...
观测了一下,好像只有scrapy.extensions.logstats
在这个时候,才会长时间停顿...
百度了一下scrapy.extensions.logstats
并没有相关结果...
scrapy并发任务池是你自己设置的大小(默认16),这16个任务如果没有执行完(如重试),哪怕剩一个,就在一直执行,知道结束,或者重试次数到了。才开始下个任务池的填充进行并发。
2 回答5.3k 阅读✓ 已解决
2 回答1.2k 阅读✓ 已解决
4 回答1.6k 阅读✓ 已解决
3 回答1.4k 阅读✓ 已解决
3 回答1.4k 阅读✓ 已解决
2 回答971 阅读✓ 已解决
1 回答1.8k 阅读✓ 已解决
在不考虑代码本身性能的情况下,影响爬虫速度的因素
1、网速,如果你的网速就很慢,就不用说了。
2、反爬虫机制,有的网站会分析用户行为,针对请求非常频繁的IP做一些限制处理,以减轻服务器压力。
3、硬件性能,这个很好理解了,简单的例子就是酷睿i3和i7的差距了,如果期间你还有读写操作,就跟硬盘读写速度也有关了。