scrapy多次运行时如何避免重复解析上次已处理过的详情页url

场景:定时重复爬一个新闻列表,并把下一级的新闻详情页的文章正文等信息处理入库。

问题:scrapy爬虫定时重复运行时如何避免重复解析上次已处理过的详情页url?我现在只能做到入库的时候排重。我只想处理一次,忽略正文可能修改的情况。

阅读 6.5k
1 个回答

这个回答帮助我了,不过我还不会redis,只好用一个sqlite还代替,可能效率会比较低。
基于python的scrapy爬虫,关于增量爬取是怎么处理的? http://t.cn/R5DWnap

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进