爬虫每隔两个小时进行数据抓取 假如1点开始抓取,01:03分抓到数据,那么就算做1:00抓到数据,这样做为了统计图表好统计,而且如果1:00抓到重复的多条数据,还要进行去重。如果没抓到数据,就把前两个小时抓到的数据填充。
要想实现这=这样的需求不知道用什么数据库好?
爬虫每隔两个小时进行数据抓取 假如1点开始抓取,01:03分抓到数据,那么就算做1:00抓到数据,这样做为了统计图表好统计,而且如果1:00抓到重复的多条数据,还要进行去重。如果没抓到数据,就把前两个小时抓到的数据填充。
要想实现这=这样的需求不知道用什么数据库好?
2 回答5.2k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答1.4k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
2 回答879 阅读✓ 已解决
1 回答1.8k 阅读✓ 已解决
生成抓取任务和分类ID。这样就可以区分时间段了,当然你也可以分表。
重复数据可以设置 唯一键。这样就不会重复,当然,也可以直接把 response 挂在记录上,这样改的时候就是根据 id 修改字段,本身也不会重复。
填充的话,可以先用历史数据生成新的任务,然后修改分类ID保留 response。
数据库应该没啥硬性要求,mysql 之类的就可以。