project是这样的,从mongodb数据库里获取要抓取的链接,
在每个project的代码里,从数据库提取url时,设置了相应措施,保证各project不会爬取重复的url,每个project的rate/burst都设成了20/60
然后我发现,只开一个project时,每小时大概能爬2000条数据,而我同时开两个project的话,每小时的数据两个project加起来仍旧是2000条左右,这是为什么?
是pyspider有什么地方没有设置好吗?
project是这样的,从mongodb数据库里获取要抓取的链接,
在每个project的代码里,从数据库提取url时,设置了相应措施,保证各project不会爬取重复的url,每个project的rate/burst都设成了20/60
然后我发现,只开一个project时,每小时大概能爬2000条数据,而我同时开两个project的话,每小时的数据两个project加起来仍旧是2000条左右,这是为什么?
是pyspider有什么地方没有设置好吗?
2 回答5.1k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答1.4k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
3 回答1.2k 阅读✓ 已解决
1 回答1.7k 阅读✓ 已解决
1 回答1.2k 阅读✓ 已解决
看 dashboard 队列状态,根据瓶颈增加相应组件