如何对XML大文件中的数据去重?

目的:xml->mysql

困难:xml中可能存在重复数据,但xml文件有400+M

问题:如何去掉这些重复数据?

目前的想法:每次insert数据之前,把待插数据和表存数据进行比对,但感觉效率不高。

请教:有没有更好的办法?

阅读 5.5k
1 个回答

才 400M 就算是大文件了么……

先做去重再导入数据呗。才400M的数据,拿个 dict 存需要去重的 key 就可以了。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题