爬虫长时间运行,如何保存现场?使得异常崩溃后再开启能延续之前的任务?

爬虫长时间运行,如何保存现场?使得异常崩溃后再开启能延续之前的任务?

阅读 1.6k
1 个回答

得看项目的需求设计

  1. 需要启动,停止,恢复运行这三种状态
  2. 停止时需要保存爬虫的状态, 如: 哪些待爬,哪些已经爬取, 哪些数据入库,哪些数据没有入库
    2.1 设计的时候可以将爬虫得到的数据入队列这样爬虫程序就不用关注数据问题, 只需要处理爬取问题
  3. 异常的时候需要记录当前正在爬取url和参数
  4. 恢复的时候只需要读取待爬取的url_list和异常记录的正在爬url就可以
推荐问题
宣传栏