master 端只负责request 去重和存储 调度,现在的问题是 如果一个网站 如果有几千页,我想用分布式,此时不能用在mater 的redis 里面 lpush 慢慢的一个个的去塞进队列了,有什么方法可以快速做呢?
我想到的就是此时不需要lpush了,每个爬虫 分别爬不同的页数存数据库即可?
master 端只负责request 去重和存储 调度,现在的问题是 如果一个网站 如果有几千页,我想用分布式,此时不能用在mater 的redis 里面 lpush 慢慢的一个个的去塞进队列了,有什么方法可以快速做呢?
我想到的就是此时不需要lpush了,每个爬虫 分别爬不同的页数存数据库即可?
4 回答4.4k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
1 回答3k 阅读✓ 已解决
3 回答2.1k 阅读✓ 已解决
1 回答4.5k 阅读✓ 已解决
1 回答3.8k 阅读✓ 已解决
1 回答2.8k 阅读✓ 已解决
scrapy 不知道, 了解过没用过,
按照常规单个爬虫, 你可以使用gevent 同时并发 N 个 协程,爬取不同的网页