scrapy 大量目标地址载入时 start_requests的处理问题

Question

scrapy 大量目标地址载入时 start_requests的处理问题

发布于
2017-10-31

def start_requests(self):
    with open(“record.csv”) as f:
        reader = csv.DictReader(f)
        for item in reader:        
            yield scrapy.Request(url=item['url'], callback=self.parse_detail,dont_filter=True)

当存在大量的爬取任务需要导入时，看了下scrapy的文档说明，他应该是一次性的将里面的所有任务都生成一个请求对象，压入引擎中等待调度。我的理解正确吗？

请教下，如果这样的话，太多任务占用内存，等待很久才会轮到他们执行。
目前我准备采用的是，在压入一定的量后，time.sleep()等待一段时间。再继续载入任务。

有什么办法能解决这个问题吗？

python scrapy

阅读 5.6k

1 个回答

得票最新

adamsun

552115

发布于
2017-11-01

有并发限制，不会占用很多内存。

CONCURRENT_REQUESTS 可以控制下载并发数。
https://doc.scrapy.org/en/lat...

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

scrapy 大量目标地址载入时 start_requests的处理问题

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何使用 python 代码实现迅雷磁力链接资源的下载？

如何实现一个深拷贝函数？

请问，FastAPI如何获取到前端上传的二进制文件并且返回？

浏览器能请求到数据怎么换了api工具或是爬虫都没数据了呢？

Python 成员变量在多个子类实例间共享，如何避免？