40多个网站,每个网站现在大概有几千url需要监控,现在我在需要监控的页面加上了auto_recrawl=true参数,
但是发现效果并不好,每个网站的一部分需要监控的url能够五分钟跑完,剩下的可能很久都跑不到,有可能几天,几小时都跑不到。但我发现使用every 不加auto_recrawl 参数,这个五分钟监控时间就无法保证。
大家有什么好办法,万分感谢
40多个网站,每个网站现在大概有几千url需要监控,现在我在需要监控的页面加上了auto_recrawl=true参数,
但是发现效果并不好,每个网站的一部分需要监控的url能够五分钟跑完,剩下的可能很久都跑不到,有可能几天,几小时都跑不到。
但我发现使用every 不加auto_recrawl 参数,这个五分钟监控时间就无法保证。
大家有什么好办法,万分感谢
4 回答4.4k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
1 回答3k 阅读✓ 已解决
3 回答2.1k 阅读✓ 已解决
1 回答4.5k 阅读✓ 已解决
1 回答3.8k 阅读✓ 已解决
1 回答2.8k 阅读✓ 已解决
如果你这几千 url 是固定的,不需要发现的,可以毎5分钟触发 on_start, 在 on_start 里面发起调度。如果需要发现,用 auto_recrawl 是可以的。
retry 建议设置小于等于 1,或者设置 retry_delay 小于 5 分钟,不然请求失败会延迟重试,延迟有可能大于5分钟。
最后要注意你的请求速度,是不是满足5分钟抓完这几千 url,如果不能,抓取顺序是没有保证的,会有可能有 url 一直轮不到。