0

master 端只负责request 去重和存储 调度,现在的问题是 如果一个网站 如果有几千页,我想用分布式,此时不能用在mater 的redis 里面 lpush 慢慢的一个个的去塞进队列了,有什么方法可以快速做呢?

我想到的就是此时不需要lpush了,每个爬虫 分别爬不同的页数存数据库即可?

2019-08-14 提问

1 个回答

0

scrapy 不知道, 了解过没用过,
按照常规单个爬虫, 你可以使用gevent 同时并发 N 个 协程,爬取不同的网页

推广链接