定时抓取数据去重，确保每个时间点有数据，填充有什么好方案?

Question

爬虫每隔两个小时进行数据抓取假如1点开始抓取，01:03分抓到数据，那么就算做1:00抓到数据，这样做为了统计图表好统计，而且如果1:00抓到重复的多条数据，还要进行去重。如果没抓到数据，就把前两个小时抓到的数据填充。

要想实现这=这样的需求不知道用什么数据库好?

阅读 1.5k

1 个回答

得票最新

生成抓取任务和分类ID。这样就可以区分时间段了，当然你也可以分表。

分类ID: 2023-02-21 01:00:00
任务: https://segmentfault.com/q/1010000043447558

分类ID: 2023-02-21 01:00:00
任务: https://segmentfault.com/

重复数据可以设置唯一键。这样就不会重复，当然，也可以直接把 response 挂在记录上，这样改的时候就是根据 id 修改字段，本身也不会重复。

填充的话，可以先用历史数据生成新的任务，然后修改分类ID保留 response。

数据库应该没啥硬性要求，mysql 之类的就可以。

撰写回答

被 1 篇内容引用

推荐问题

相似问题

找不到问题？创建新问题