Pandas 如何对无法一次性载入内存的大数据量去重？

发布于
2016-09-07

现在有大约1亿行数据，无法一次性载入内存，请问该如何去重？
目前想到方案是 read_table 方法设置 chunk_size 逐块读入，迭代每一块调用 unique 方法去重，但是这个方案好像只能对每一块载入内存的数据去重，如果重复数据分散在不同块就没有办法去掉。请教有没有更好的方案？

python pandas 大数据处理大数据文件去重

阅读 10k

5 个回答

ferstar

更新下实操测试:
硬件: Intel(R) Xeon(R) CPU E5-2609 v3 @ 1.90GHz + 256G RAM + SSD
我自己生成了一个一亿行的文本, 没有一行重复, 对这个文本去重操作用了 2 分 20 秒, 内存占用 15.2GB, 小内存机器压力山大

这个完全可以用UNIX自带的awk搞定, 效率和内存占用都很犀利, 主要利用了awk数组是hashtable实现的特性。内存占用和去重以后的行数(而不是你的文本内容)成正比。我拿了150w行的文本处理时间是不到3秒

$ wc -l hello
1510230    hello

$ time awk '{ if (!fuckdup[$0]++) { print $0; } }' hello > hello_uniq

real    0m2.589s
user    0m2.263s
sys    0m0.324s

你这一亿行用不了多少内存, 也花不了多长时间

waltr

30321425

发布于
2016-09-07

key：每一行的MD5
value：行号

可以借助redis，用hash结构，存进去的都是不重复的，然后根据行号再组织数据。

明日乌鸦

7714

发布于
2018-08-31

海量数据去重可以参考我的这篇文章，使用Bitmap可以达到很好的效果
https://www.mrdwy.com/2018/08...

蹦蹦跳的小松鼠

发布于
2018-12-29

新手上路，请多包涵

根据id取模放在文件里然后去重，如果还是很大，就继续取模。

同意并接受

7.2k21127

发布于
2016-09-07

1亿行文本？
去重，是指 2行完全相同的数据？

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Pandas 如何对无法一次性载入内存的大数据量去重？

你尚未登录，登录后可以

有一种算法存在返回真，不存在返回假的高性能算法，我忘记是什么了?

duckdb 的 python sdk 读取 csv 的时候，如何指定列的字段类型？

为什么 pypi 的页面上的新版本在通过 pip 获取不到？

请问在一个项目中一般是创建多个ioc容器，还是一个ioc容器？

python这句代码是什么意思？

我写的python单例 init会调用多次如何解决?

使用anaconda.navigator的时候，新建一个python的环境：那么会有推荐的python包。这些包我们默认应该安装还是不必管呢？

Pandas 如何对无法一次性载入内存的大数据量去重？

你尚未登录，登录后可以

有一种算法 存在返回真，不存在返回假的高性能算法，我忘记是什么了?

duckdb 的 python sdk 读取 csv 的时候，如何指定列的字段类型？

为什么 pypi 的页面上的新版本在通过 pip 获取不到？

请问在一个项目中一般是创建多个ioc容器，还是一个ioc容器？

python这句代码是什么意思？

我写的python单例 init会调用多次 如何解决?

使用anaconda.navigator的时候，新建一个python的环境： 那么会有推荐的python包。这些包我们默认应该安装还是不必管呢？

有一种算法存在返回真，不存在返回假的高性能算法，我忘记是什么了?

我写的python单例 init会调用多次如何解决?

使用anaconda.navigator的时候，新建一个python的环境：那么会有推荐的python包。这些包我们默认应该安装还是不必管呢？