pyspider中同时开多个project, 爬取速度为何没有明显提高?

发布于
2017-07-30

project是这样的,从mongodb数据库里获取要抓取的链接,
在每个project的代码里,从数据库提取url时,设置了相应措施,保证各project不会爬取重复的url,每个project的rate/burst都设成了20/60
然后我发现,只开一个project时,每小时大概能爬2000条数据,而我同时开两个project的话,每小时的数据两个project加起来仍旧是2000条左右,这是为什么?
是pyspider有什么地方没有设置好吗?

python pyspider

阅读 3.3k

3 个回答

足兆叉虫

发布于
2017-08-06

✓ 已被采纳

看 dashboard 队列状态，根据瓶颈增加相应组件

发布于
2017-08-02

有没有可能同时从数据库中读取数据时阻塞了？

智障少年

发布于
2017-08-08

新手上路，请多包涵

效率上不去可能性很多。带宽、入库速度、数据源查询性能都有可能是瓶颈。

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题