0
Slave端:
scrapy runspider juzi.py

Master端:
redis-cli > lpush itjuzispider:start_urls http://www.itjuzi.com/company

一个链接我可以lpush 但是假如一个网站有几万页,我想多台机器爬取,这样如何把这几万页分给几个不同的机器呢?总不能人一个个的push吧

2019-08-14 提问
1 个回答
0
  • url获取与一个hash值 % 机器数量
  • 电脑数量轮询
  • 权重随机 每一个机器设置一个权重

    {
    "机器1":0.2,
    "机器2":0.6
    }

    生成一个0-1随机数假设0.1,那么交给机器1处理.....

JAVA 实现
https://github.com/huifer/jav...

clipboard.png

撰写答案

推广链接