从网页上爬取存到excel的数据导入到数据库,怎么避免与数据库和excel的数据的数据重复,数据量上万?

背景:
教育相关的题目
从网页上已经爬取好的题目数据在excel中(原来人怎么爬的没看见程序,人也暂时联系不到)
excel数据字段与部分数据如下:
image.png

问题:把excel的数据整理存入到mysql相对应表中
要求:题目不能重复,最终目标就是新导入的题目不能跟原来已有的重复,以后再导的话也不能与数据库里面已有的题目重复

阅读 2.1k
3 个回答

将表的题目这个字段设置成唯一键就行了吧

思路肯定是要避免 大规模的db查询。 这里可以考虑使用布隆过滤器,命中后在查询是否有重复,大大减少了查询次数。 具体思路可以看看 布隆过滤器,理解后就知道怎么玩了

可以把需要重复的检查的数据表字段设置成 唯一索引,然后再使用mysql的 insert ignore into 语法,会自动跳过重复的数据。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题