定时抓取数据去重,确保每个时间点有数据,填充有什么好方案?

爬虫每隔两个小时进行数据抓取 假如1点开始抓取,01:03分抓到数据,那么就算做1:00抓到数据,这样做为了统计图表好统计,而且如果1:00抓到重复的多条数据,还要进行去重。如果没抓到数据,就把前两个小时抓到的数据填充。

要想实现这=这样的需求不知道用什么数据库好?

阅读 1.5k
1 个回答

生成抓取任务和分类ID。这样就可以区分时间段了,当然你也可以分表。

分类ID: 2023-02-21 01:00:00
任务: https://segmentfault.com/q/1010000043447558
分类ID: 2023-02-21 01:00:00
任务: https://segmentfault.com/

重复数据可以设置 唯一键。这样就不会重复,当然,也可以直接把 response 挂在记录上,这样改的时候就是根据 id 修改字段,本身也不会重复。


填充的话,可以先用历史数据生成新的任务,然后修改分类ID保留 response。


数据库应该没啥硬性要求,mysql 之类的就可以。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题