pyspider的爬取任务队列有没有数量限制

发布于
2017-08-23

数据库中存了大概一百万个url，我需要从数据库中取出这些url，并将它们加入到爬取的任务队列中去。
借用另一位同学的问题描述（只是我的情况更加极端）：

@every(minutes=24 * 60)
def on_start(self):
    self.key_word_rank_page()
    pass



def key_word_rank_page(self):
    i = 0; page 参数从0开始的
    while i <= 1000000: 
        keywordrank_url = "https://www.douban.com/more/getmore.html?page=%s&genreIds="%(i)
        self.crawl(url=keywordrank_url, callback=self.process_keyword) 
        
        i += 1;
    pass

这样，会不会存在丢失任务（数据）的风险？

pyspider 网页爬虫

阅读 4.5k

2 个回答

得票最新

足兆叉虫

3.5k2411

发布于
2017-08-27

✓ 已被采纳

没有数量限制，但是存在三个瓶颈：

任务是先全部生成在内存中，再发送到队列的，会导致很高的内存占用。
队列有容量限制，一次发不完
scheduler 为了防止拥塞，在一个处理周期只处理1000条新建任务。

所以建议还是分批发送

johnhenry

616

发布于
2017-08-25

貌似在pyspider配置文件里，全局配置里可以增加 queue-maxsize 配置项，来配置最大队列容量。参见源码：

@click.option('--queue-maxsize', envvar='QUEUE_MAXSIZE', default=100,
              help='maxsize of queue')

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

怎么在pycharm中断点调试 pyspider的脚本？
如题，怎么在pycharm中断点调试 pyspider的脚本？
1.4k 阅读

pyspider的爬取任务队列有没有数量限制

你尚未登录，登录后可以

怎么在pycharm中断点调试 pyspider的脚本？