1.有个爬虫项目我想要定时启动,比如在凌晨1点的时候启动跑一次数据。我只找到了every可以配置每隔多长时间启动。
2.我现在想到两种方法,一种是使用crontab 写个脚本定时调项目的run接口,另一种是自己实现一个scheduler读取数据库的脚本的配置,当到达那个时间点启动。第一种好实现,但是管理起来比较混乱,第二种我对pyspider的源码还不是太熟悉,大家有好的方法吗?非常感谢
1.有个爬虫项目我想要定时启动,比如在凌晨1点的时候启动跑一次数据。我只找到了every可以配置每隔多长时间启动。
2.我现在想到两种方法,一种是使用crontab 写个脚本定时调项目的run接口,另一种是自己实现一个scheduler读取数据库的脚本的配置,当到达那个时间点启动。第一种好实现,但是管理起来比较混乱,第二种我对pyspider的源码还不是太熟悉,大家有好的方法吗?非常感谢
自己修改的scheduler 增加了crawl_conf,在每次cronjob里判断当前时间是否是crawl_conf定义的时间,如果是,调用project的run方法。
但是现在有问题就是需要重启scheduler才能更新配置。
every 每秒访问一次数据库。当时间对上了,就往下走。