关于监测页面变化与定时爬取增量的问题

Question

新手上路，请多包涵

有一个项目，我要对页面每天19点开始爬，每隔30分钟爬取一次，直到爬取到增量内容后停止，然后明日19点再循环。配置如下

@every(minutes=30)
def on_start(self):
    ...


@config(age=24 * 60 * 60)
def index_page(self, response):
    ...

这样设置，every=每30分钟，age=每24小时，可以起到定时启动的效果吗？
如果要发起每天19点开始的定时功能，除了第一次在19点点run之外，还有没有更合适的方法？
此外，该项目的网页，在内容相同的情况下，URL会变化。请问除了手动对比本地数据库之外，有没有更合适的办法去监测从而只爬取增量？

阅读 2.1k

1 个回答

得票最新

新手上路，请多包涵

第一个问题自己解决了：
调用Python的时间日期接口，用if判断即可。
第二个问题，由于URL会变动，也许我给出的是目前唯一可用的方法。

撰写回答

推荐问题

相似问题

找不到问题？创建新问题