MySQL导入大量数据（36.6G）去重问题

有个36.6G的csv文件，需要去重并导入到数据库（顺序无所谓，只需要结果是一个无重复的表），如何处理？

mysql

阅读 7.4k

4 个回答

得票最新

rickytan

2.5k1310

发布于
2015-11-10

✓ 已被采纳

如果 Foo 字段不能重复，那么定义 Unique 就好了，自动去掉了：

CREATE TABLE xxx (
   ...
   Foo varchar unique not null,
   ...
);

杨益

3.2k279

发布于
2015-11-10

对可能重复的字段建一个唯一索引

插入的时候用insert ignore into ...

骑牛上青山

1.2k21331

发布于
2015-11-10

你可以全部导入数据库然后通过sql操作删除重复的数据

shepprac

1332

发布于
2015-11-10

可以用bash, 先sort, 然后用awk检查相邻行是否一样，如果不一样就输出到一个新的文件。这样其实速度并不慢，但是可能需要很多空间。

比较好的做法是在导入时让数据库自己处理，比如前面所说的定义unique域。

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

MySQL导入大量数据（36.6G）去重问题

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

为何无法连接阿里云轻量应用服务器上 docker 中的 mysql ？

MySQL查询中如何实现排除特定字段的功能？

mysql 死锁问题？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

为了防止过多索引拖慢数据库，数据库动态创建索引，隔几天就换一套索引，会有什么问题？

MySQL可重复读隔离级别下，为什么普通索引范围查询临键锁不退化为间隙锁？

MySQL导入大量数据（36.6G）去重问题

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

为何无法连接 阿里云轻量应用服务器上 docker 中的 mysql ？

MySQL查询中如何实现排除特定字段的功能？

mysql 死锁问题？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

为了防止过多索引拖慢数据库，数据库动态创建索引，隔几天就换一套索引，会有什么问题？

MySQL可重复读隔离级别下，为什么普通索引范围查询临键锁不退化为间隙锁？

为何无法连接阿里云轻量应用服务器上 docker 中的 mysql ？