scrapy-redis 分布式里面的 多台机器分布url问题

Slave端:
scrapy runspider juzi.py

Master端:
redis-cli > lpush itjuzispider:start_urls http://www.itjuzi.com/company

一个链接我可以lpush 但是假如一个网站有几万页,我想多台机器爬取,这样如何把这几万页分给几个不同的机器呢?总不能人一个个的push吧

阅读 556
评论
    1 个回答
    • 429
    • url获取与一个hash值 % 机器数量
    • 电脑数量轮询
    • 权重随机 每一个机器设置一个权重

      {
      "机器1":0.2,
      "机器2":0.6
      }

      生成一个0-1随机数假设0.1,那么交给机器1处理.....

    JAVA 实现
    https://github.com/huifer/jav...

    clipboard.png

      撰写回答

      登录后参与交流、获取后续更新提醒