worker服务器跑爬虫,每30000数据保存一个json
文件,如何每小时下载一次文件?
不直接保存到主服务器数据库的原因是,每次插入操作需要0.3s
,主要耗费在网络通信上,太浪费效率。
worker服务器跑爬虫,每30000数据保存一个json
文件,如何每小时下载一次文件?
不直接保存到主服务器数据库的原因是,每次插入操作需要0.3s
,主要耗费在网络通信上,太浪费效率。
Linux系统下不是有现成的cron定时任务调度啊(主要还是这个学习起来没难度,花费的时间又少,而且又很有用),写个脚本连接数据库,然后定时插入数据,然后定时执行这个脚本,话说,跑爬虫的很多啊!
7 回答5.4k 阅读
4 回答4.5k 阅读✓ 已解决
1 回答3.4k 阅读✓ 已解决
4 回答4.1k 阅读
4 回答3.9k 阅读✓ 已解决
2 回答5.9k 阅读✓ 已解决
3 回答2.2k 阅读✓ 已解决
方法一: sched模块
方法二: APScheduler框架