scrapy多次运行时如何避免重复解析上次已处理过的详情页url

Question

场景：定时重复爬一个新闻列表，并把下一级的新闻详情页的文章正文等信息处理入库。

问题：scrapy爬虫定时重复运行时如何避免重复解析上次已处理过的详情页url？我现在只能做到入库的时候排重。我只想处理一次，忽略正文可能修改的情况。

阅读 6.5k

1 个回答

得票最新

这个回答帮助我了，不过我还不会redis，只好用一个sqlite还代替，可能效率会比较低。
基于python的scrapy爬虫，关于增量爬取是怎么处理的？ http://t.cn/R5DWnap

撰写回答

相似问题

找不到问题？创建新问题