pyspider可以通过设定age来实现周期爬取,不过很多爬取目标是会不定期地更新内容的,比如论坛帖子。帖子的更新时间是不一定的,如果我想要实现增量爬取的话,是否可以使用pyspider提供的现成接口,还是必须由自己实现这一功能?在文档中没有找到相关的接口说明。。
如果只通过设定age值来更新数据(超过age值的任务进行重爬和更新),感觉对于很多并未更新的帖子来说是不必要的。是否有更加好的方法可以解决这个需求呢?
pyspider可以通过设定age来实现周期爬取,不过很多爬取目标是会不定期地更新内容的,比如论坛帖子。帖子的更新时间是不一定的,如果我想要实现增量爬取的话,是否可以使用pyspider提供的现成接口,还是必须由自己实现这一功能?在文档中没有找到相关的接口说明。。
如果只通过设定age值来更新数据(超过age值的任务进行重爬和更新),感觉对于很多并未更新的帖子来说是不必要的。是否有更加好的方法可以解决这个需求呢?
pyspider 设计就是为了解决增量爬取问题的
你可以通过 age 刷新最近更新列表,用最后回复时间设置 itag,当有变化时自动重新抓取。