Master和sleeve之间需要协作通信,而实现协作通信需要用到jsonRPC,在网上看了一些这方面的内容,
一、需要安装jsonrpc-scrapy
二、在程序中导入相应的包
三、协作通信主要是通过http来实现
现在有一个master,多个sleeve,master相当于服务器,而sleeve相当于爬虫的节点,来实现具体的爬虫任务。
分布式实现涉及任务的调度,以及任务的分配,但整体还是不太清楚协作通信是如何实现的
Master和sleeve之间需要协作通信,而实现协作通信需要用到jsonRPC,在网上看了一些这方面的内容,
一、需要安装jsonrpc-scrapy
二、在程序中导入相应的包
三、协作通信主要是通过http来实现
现在有一个master,多个sleeve,master相当于服务器,而sleeve相当于爬虫的节点,来实现具体的爬虫任务。
分布式实现涉及任务的调度,以及任务的分配,但整体还是不太清楚协作通信是如何实现的
2 回答4.3k 阅读✓ 已解决
2 回答863 阅读✓ 已解决
1 回答4.1k 阅读✓ 已解决
3 回答858 阅读✓ 已解决
2 回答2.2k 阅读✓ 已解决
4 回答2.6k 阅读
3 回答907 阅读✓ 已解决
最近也在学习这个,但是还没有做到分布式。
上
google
搜索了一下,恰巧也用到了redis
,之前面试的时候也被问到这个问题。参考这两个博文,希望对你有帮助,感觉第一个那个可参考性更强一些。
使用scrapy,redis,mongodb实现的一个分布式网络爬虫
如何入门 Python 爬虫?