scrapy-redis分布式爬虫的问题

master 端只负责request 去重和存储 调度,现在的问题是 如果一个网站 如果有几千页,我想用分布式,此时不能用在mater 的redis 里面 lpush 慢慢的一个个的去塞进队列了,有什么方法可以快速做呢?

我想到的就是此时不需要lpush了,每个爬虫 分别爬不同的页数存数据库即可?

阅读 1.4k
1 个回答

scrapy 不知道, 了解过没用过,
按照常规单个爬虫, 你可以使用gevent 同时并发 N 个 协程,爬取不同的网页

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题