得看项目的需求设计需要启动,停止,恢复运行这三种状态停止时需要保存爬虫的状态, 如: 哪些待爬,哪些已经爬取, 哪些数据入库,哪些数据没有入库 2.1 设计的时候可以将爬虫得到的数据入队列这样爬虫程序就不用关注数据问题, 只需要处理爬取问题异常的时候需要记录当前正在爬取url和参数恢复的时候只需要读取待爬取的url_list和异常记录的正在爬url就可以
得看项目的需求设计
2.1 设计的时候可以将爬虫得到的数据入队列这样爬虫程序就不用关注数据问题, 只需要处理爬取问题